CN110110744A - 基于语义理解的文本配对方法、装置及计算机设备 - Google Patents

基于语义理解的文本配对方法、装置及计算机设备 Download PDF

Info

Publication number
CN110110744A
CN110110744A CN201910239806.9A CN201910239806A CN110110744A CN 110110744 A CN110110744 A CN 110110744A CN 201910239806 A CN201910239806 A CN 201910239806A CN 110110744 A CN110110744 A CN 110110744A
Authority
CN
China
Prior art keywords
subordinate sentence
group
sentence
text
subordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910239806.9A
Other languages
English (en)
Inventor
辛婷婷
刘宇超
谭贤
郭佳
卢清明
郭典
韩铃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN201910239806.9A priority Critical patent/CN110110744A/zh
Publication of CN110110744A publication Critical patent/CN110110744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请揭示了基于语义理解的文本配对方法,包括:按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句;通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;判断所述相似度是否大于预设阈值;若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。通过多个算法综合考虑标准文本和待测试文本的相似度。

Description

基于语义理解的文本配对方法、装置及计算机设备
技术领域
本申请涉及到,特别是涉及到基于语义理解的文本配对方法、装置及计算机设备。
背景技术
现有计算机的应用范围越来越广泛,基本上都使用计算机进行文字录入,比如考试越来越趋于通过计算机录入文字进行考试、客服人员通过计算机录入文字信息或语音信息进行服务,对于比较两段文本相似性的技术越来越重要,但现还未有精准比较两段文本相似性的技术出现。
发明内容
本申请的主要目的为提供基于语义理解的文本配对方法,旨在解决现有技术无法精准比较两段文本相似性的技术问题。
本申请提出一种基于语义理解的文本配对方法,包括:
按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;
通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;
判断所述相似度是否大于预设阈值;
若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;
若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
优选地,所述预设算法包括wmd算法、叠词算法和simhash算法,所述通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度的步骤,包括:
通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各分句分别对应的分词词组;
根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句;
根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1;
根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
优选地,所述根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵的步骤,包括:
通过word2vec算法分别将各所述分词词组转换为对应的词向量组合;
根据各所述分句分别对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵;
根据各所述分句分别对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵;
根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
优选地,所述通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤,包括:
分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语;
若存在,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值;
通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组。
优选地,所述分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语的步骤之前,包括:
分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字;
若存在预设表述符号,则将所述预设表述符号转换为对应的所述表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句;
分别判断所述新第一组分句的各新分句和所述新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号;
若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
优选地,所述分词词组依据各所述分句中的各分词的位置信息依次排布形成,所述通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤之后,包括:
调用指定业务领域对应的标准词库;
判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合;
若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组;
根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句的表述语义相似度最大。
优选地,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,所述判断所述相似度是否大于预设阈值的步骤,包括:
分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1;
根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分;
判断所述总评分是否超过预设评分阈值;
若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值;
若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
本申请还提供了一种基于语义理解的文本配对装置,包括:
切句模块,用于按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;
计算模块,用于通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;
判断模块,用于判断所述相似度是否大于预设阈值;
第一判定模块,用于若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;
第二判定模块,用于若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请通过多个相似度计算算法,以综合考虑标准文本对应的第一组分句和待测试文本对应的第二组分句的相似度。计算过程中先对各分句进行分词处理,得到与各分句组成结构相对应的分词词组,将各分句的分词词组通过word2vec算法转换为词向量组合,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合相似度,最后再按照分句相似度的高低排序通过两两分句匹配的方式进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。本申请通过将一些不符合文本表述形式的预设表述符号转换为表述文字、去除预设字符以及提取数字短语等预处理方式,以净化分句的文本表示,去除影响分词准确度的因素,以提高分词处理的准确度。本申请通过在分词处理后根据指定业务领域对应的标准词库调整分词,以进一步提高分词处理的准确度。
附图说明
图1本申请一实施例的基于语义理解的文本配对方法流程示意图;
图2本申请一实施例的基于语义理解的文本配对装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的基于语义理解的文本配对方法,包括:
S1:按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个。
本实施例的标准文本和待测试文本均分别由一个或多个长句组成,预设规则为根据长句中具有断句作用的标点符号将长句分切为多个分句,一个长句对应一组分句,上述具有断句作用的标点符号包括但不限于“,”、“。”、“!”和“?”等。举例地,本实施例的标准文本为“我在平安工作了10年,从事财务管理”,待测试文本为“我在平安集团工作了10年,从事财务管理”,切句处理后标准文本对应两个分句,分句1:我在平安公司工作了10年,分句2:从事财务管理;切句处理后待测试文本对应两个分句,分句A:我在平安集团工作了10年,分句B:从事财务管理。
S2:通过两两分句配对的方式根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种。
本实施例通过多个相似度计算算法,以综合考虑第一组分句和所述第二组分句的相似度,计算过程先对分句进行分词处理,得到与分句组成结构对应的分词词组,将分句的分词词组通过word2vec算法转换为词向量,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合的相似度,最后再按照分句相似度的高低通过两两匹配进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。
S3:判断所述相似度是否大于预设阈值。
举例地,本实施例的预设阈值为85%及以上。
S4:若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同。
S5:若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
进一步地,所述预设算法包括wmd算法、叠词算法和simhash算法,所述通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度的步骤S2,包括:
S21:通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各分句分别对应的分词词组。
本实施例的分词算法包括基于字典的机械分词法、基于统计词组合出现的频次进行分词或基于语义理解的分词方法。本实施的各分句分别对应的分词词组的排布顺序与其在原分句中的相对排布顺序相同。
S22:根据各分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
本实施例以第一组分句中的分句1和分句2对应的分词词组中的各个词,与第二组分句中的分句A和分句B对应的分词词组中的各个词进行对应分析的过程为例进行详细说明。分句1对应的分词词组为{“我”、“在”、“平安”、“工作”、“了”},分句2对应的分词词组为{“从事”、“财务管理”};分句A对应的分词词组为{“我”、“在”、“平安集团”、“工作”、“了”},分句B对应的分词词组为{“从事”、“财务管理”}。按照分句A和分句1、分句A和分句2、分句B和分句1、分句B和分句2两两配对分析的方式,分别调用所述wmd算法、叠词算法和simhash算法得到wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,以根据计算过程中的相似度值确定分句间具有匹配配对的分句,根据相似度值得到分句A和分句1配对对应阵列A1,分句B和分句2配对对应阵列B2,则得到第一组分句与第二组分句的WMD相似度矩阵、Simhash相似度矩阵、叠词相似度矩阵分别如下:{(A1)09.77 52.92(B2)52.34 00.00}、{(A1)10.00 26.00(B2)32.00 00.00}、{(A1)75.38 00.00(B2)00.00 100.00},上述矩阵中的相似度值只保留两个小数点,以满足精度需要且方便查看。
S23:根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1。
本实施例的加权相似度矩阵为{(A1)87.14 00.78(B2)00.87 99.97},wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例各占1/3。
S24:根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
本实施例根据上述加权相似度矩阵得知,上述分句A的语义与分句1的语义相同,分句B的语义与分句2的语义相同,即存在对应关系:[我在平安工作了10年]<==>[我在平安集团工作了10年];[从事财务管理]<==>[从事财务管理]。
进一步地,所述根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵的步骤S22,包括:
S221:通过word2vec算法分别将各所述分词词组转换为对应的词向量组合。
本实施例通过离线引擎调用训练好的word2vec算法,将分词词组语料中的每个分词映射为一个固定长度的词向量,将所有对应的词向量放在一起形成一个多维空间,而每一词向量则为该空间的一个点,在该空间引入“距离”,则可根据距离判断各分词的相似性,包括语法和语义的相似性。举例地,将“我们”映射为<0.5,0.2,0.2,0.0,0.1>,“是”映射为<0.7,0.2,0.0,0.1,0.0>,“平安集团”映射为<0.5,0.2,0.2,0.0,0.1>,则“我们是平安集团”对应表示为{<0.5,0.2,0.2,0.0,0.1>,<0.7,0.2,0.0,0.1,0.0>,<0.5,0.2,0.2,0.0,0.1>}。
S222:根据各分句对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵。
S223:根据各所述分句对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵。
S224:根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
本实施例通过不同的算法互补,匹配使用上述三种算法来计算标准文本和待测试文本之间的相似度,综合发挥各算法的优势,提高计算结果准确度。例如wmd算法根据词语矩阵来计算分句和分句之间的文本相似度,叠词算法通过计算两个词向量的余弦距离,进而根据余弦距离得到两个文本的相似度。simhash算法中通过降维将高维向量映射为低维向量,根据海明距离确定文本的相似度,上述海明距离为两个等长度字符串中对应位置的不同字符的个数。
进一步地,所述通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤S21,包括:
S211:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语。
本实施例在进行分词处理前经过了预处理过程,去除影响分词准确度的因素,以提高分词处理的准确度。影响分词准确度的因素之一为存在数字短语,包括日期、长度、价格等含有数字的词语均为数字短语,比如“10年”、“5元”等。上述数字包括阿拉伯数字和汉字形式的数字。
S212:若存在,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值。
本实施例通过key-value键值格式提取数字短语以便识别。比如,“10年”对应的关键词即key为“年”,对应的赋值即value为“10”。
S213:通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各分句分别对应的分词词组。
本实施例通过将分句的数字短语单独处理,避免了数字短语影响分词的准确度,影响后续的语义配对分析。
进一步地,所述分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语的步骤S211之前,包括:
S210a:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字。
本实施例的预处理过程中,还会将一些不符合文本表述形式的预设表述符号,转换为表述文字。上述预设表述符号包括运算符号、关联符号等,比如对应表述文字“或”的预设表述符号“/”,对应表述文字“等于”的预设表述符号“=”等等。通过将预设表述符号转换为对应的表述文字,以免在分词处理时扭曲文本语义,造成分词错误。
S210b:若存在预设表述符号,则将所述预设表述符号转换为对应的表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句。
S210c:分别判断新第一组分句的各新分句和新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号。
本实施例的预设字符为无任何语义表达的字符,即去除上述预设字符后不影响原分句对应的语义表达。上述预设字符包括但不限于语气助词、语气叹词或无断句作用的标点符号等,比如“呢”、“《》”等。
S210d:若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
本实施例通过去除上述预设字符,以净化分句的文本表示,提高分词的准确度。比如,分句“知鸟是平安集团下的一款移动学习工具,^提供在线学习、考试、培训以及互动直播的功能,已有超过两千万的学员在使用”,经过上述预处理过程后,上述分句对应的净化文本为“知鸟是平安集团下的款移动学习工具提供在线学习考试培训以及互动直播的功能已有超过学员在使用”,对应的分词词组为“知鸟-是-平安-集团-下-的-款-移动-学习-工具-提供-在线-学习-考试-培训-以及-互动-直播-的-功能-已-有-超过-学员-在-使用”,以便根据精准分词处理后的分词词组得到对应的词向量组合,以提高计算精准度。
进一步地,所述分词词组依据各所述分句中的各分词的位置信息依次排布形成,所述通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各分句分别对应的分词词组的步骤S213之后,包括:
S214:调用指定业务领域对应的标准词库。
本实施例中不同的业务领域对应的标准词库不同,以提高匹配的精准度。相同的文本在不同领域的语义不同,分词标准也不同,比如某些领域的专有名词,如保险业中“分红险”是一个分词,而其他领域出现的“分红险”会被拆分成“分红”和“险”两个分词。
S215:判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合。
S216:若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组。
本实施例在分词处理后,会根据指定业务领域对应的标准词库调整分词的准确度。本实施例根据标准词库调整分词的前提为不改变各分词在分句中的排布顺序,然后通过将相邻的分词组合进行分词调整。比如上述“平安”和“集团”两个分词,可根据查寻标准词库,合并为一个分词“平安集团”,以便分词更符合当前业务领域,上述业务领域包括某个公认的技术领域、应用场景领域甚至某个具体的公司等。
S217:根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句表述语义相似度最大。
本实施例通过先调整标准文本的分词标准,然后再根据调整好的标准文本的分词标准调整待测试文本的分词,以避免待测试文本的不确定性以及表述多样性影响分词的准确度。
进一步地,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,所述判断所述相似度是否大于预设阈值的步骤S3之后,包括:
S3a:分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1。
S3b:根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分。
S3c:判断所述总评分是否超过预设评分阈值。
S3d:若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值。
S3f:若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
本实施例通过服务文本的总评分评价相似度,以便根据在线评分及时分析客服人员的答复与标准答复的相似性,以便及时管控客服人员的服务质量。本实施例中客服人员每回答一个问题为一个服务文本,服务文本包括多个分句,根据每个分句的在线评分得到服务文本的在线评分,进而得到客服人员的服务评分。本实施例通过权重评分的方式获得服务文本的评分,比如服务文本包括4个分句,每个分句的评分权重为25%。本申请其他实施例中可根据识别分句中包括的答复问题关键字的数量设计权重,比如答复问题关键字数量多的分句权重大些,答复问题关键字数量少的分句权重小些。
本申请其他实施例可用于在线客观题考试评分等。也可用于将客服的语音信息转换为文本后再进行文本比较的应用场景。
本实施例通过多个相似度计算算法,以综合考虑标准文本对应的第一组分句和待测试文本对应的第二组分句的相似度。计算过程中先对各分句进行分词处理,得到与各分句组成结构相对应的分词词组,将各分句的分词词组通过word2vec算法转换为词向量组合,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合相似度,最后再按照分句相似度的高低排序通过两两分句匹配的方式进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。
参照图2,本申请一实施例的基于语义理解的文本配对装置,包括:
切句模块1,用于按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个。
本实施例的标准文本和待测试文本均分别由一个或多个长句组成,预设规则为根据长句中具有断句作用的标点符号将长句分切为多个分句,一个长句对应一组分句,上述具有断句作用的标点符号包括但不限于“,”、“。”、“!”和“?”等。举例地,本实施例的标准文本为“我在平安工作了10年,从事财务管理”,待测试文本为“我在平安集团工作了10年,从事财务管理”,切句处理后标准文本对应两个分句,分句1:我在平安公司工作了10年,分句2:从事财务管理;切句处理后待测试文本对应两个分句,分句A:我在平安集团工作了10年,分句B:从事财务管理。
计算模块2,用于通过两两分句配对的方式根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种。
本实施例通过多个相似度计算算法,以综合考虑第一组分句和所述第二组分句的相似度,计算过程先对分句进行分词处理,得到与分句组成结构对应的分词词组,将分句的分词词组通过word2vec算法转换为词向量,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合的相似度,最后再按照分句相似度的高低通过两两匹配进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。
判断模块3,用于判断所述相似度是否大于预设阈值。
举例地,本实施例的预设阈值为85%及以上。
第一判定模块4,用于若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同。
第二判定模块5,用于若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
进一步地,所述预设算法包括wmd算法、叠词算法和simhash算法,所述计算模块2,包括:
分词单元,用于通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各分句分别对应的分词词组。
本实施例的分词算法包括基于字典的机械分词法、基于统计词组合出现的频次进行分词或基于语义理解的分词方法。本实施的各分句分别对应的分词词组的排布顺序与其在原分句中的相对排布顺序相同。
调用单元,用于根据各分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
本实施例以第一组分句中的分句1和分句2对应的分词词组中的各个词,与第二组分句中的分句A和分句B对应的分词词组中的各个词进行对应分析的过程为例进行详细说明。分句1对应的分词词组为{“我”、“在”、“平安”、“工作”、“了”},分句2对应的分词词组为{“从事”、“财务管理”};分句A对应的分词词组为{“我”、“在”、“平安集团”、“工作”、“了”},分句B对应的分词词组为{“从事”、“财务管理”}。按照分句A和分句1、分句A和分句2、分句B和分句1、分句B和分句2两两配对分析的方式,分别调用所述wmd算法、叠词算法和simhash算法得到wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,以根据计算过程中的相似度值确定分句间具有匹配配对的分句,根据相似度值得到分句A和分句1配对对应阵列A1,分句B和分句2配对对应阵列B2,则得到第一组分句与第二组分句的WMD相似度矩阵、Simhash相似度矩阵、叠词相似度矩阵分别如下:{(A1)09.77 52.92(B2)52.34 00.00}、{(A1)10.00 26.00(B2)32.00 00.00}、{(A1)75.38 00.00(B2)00.00 100.00},上述矩阵中的相似度值只保留两个小数点,以满足精度需要且方便查看。
计算单元,用于根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1。
本实施例的加权相似度矩阵为{(A1)87.14 00.78(B2)00.87 99.97},wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例各占1/3。
得到单元,用于根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
本实施例根据上述加权相似度矩阵得知,上述分句A的语义与分句1的语义相同,分句B的语义与分句2的语义相同,即存在对应关系:[我在平安工作了10年]<==>[我在平安集团工作了10年];[从事财务管理]<==>[从事财务管理]。
进一步地,所述调用单元,包括:
第一转换子单元,用于通过word2vec算法分别将各所述分词词组转换为对应的词向量组合。
本实施例通过离线引擎调用训练好的word2vec算法,将分词词组语料中的每个分词映射为一个固定长度的词向量,将所有对应的词向量放在一起形成一个多维空间,而每一词向量则为该空间的一个点,在该空间引入“距离”,则可根据距离判断各分词的相似性,包括语法和语义的相似性。举例地,将“我们”映射为<0.5,0.2,0.2,0.0,0.1>,“是”映射为<0.7,0.2,0.0,0.1,0.0>,“平安集团”映射为<0.5,0.2,0.2,0.0,0.1>,则“我们是平安集团”对应表示为{<0.5,0.2,0.2,0.0,0.1>,<0.7,0.2,0.0,0.1,0.0>,<0.5,0.2,0.2,0.0,0.1>}。
第一计算子单元,用于根据各分句对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵。
第二计算子单元,用于根据各所述分句对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵。
第三计算子单元,用于根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
本实施例通过不同的算法互补,匹配使用上述三种算法来计算标准文本和待测试文本之间的相似度,综合发挥各算法的优势,提高计算结果准确度。例如wmd算法根据词语矩阵来计算分句和分句之间的文本相似度,叠词算法通过计算两个词向量的余弦距离,进而根据余弦距离得到两个文本的相似度。simhash算法中通过降维将高维向量映射为低维向量,根据海明距离确定文本的相似度,上述海明距离为两个等长度字符串中对应位置的不同字符的个数。
进一步地,所述分词单元,包括:
第一判断子单元,用于分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语。
本实施例在进行分词处理前经过了预处理过程,去除影响分词准确度的因素,以提高分词处理的准确度。影响分词准确度的因素之一为存在数字短语,包括日期、长度、价格等含有数字的词语均为数字短语,比如“10年”、“5元”等。上述数字包括阿拉伯数字和汉字形式的数字。
提取子单元,用于若存在数字短语,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值。
本实施例通过key-value键值格式提取数字短语以便识别。比如,“10年”对应的关键词即key为“年”,对应的赋值即value为“10”。
分词子单元,用于通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各分句分别对应的分词词组。
本实施例通过将分句的数字短语单独处理,避免了数字短语影响分词的准确度,影响后续的语义配对分析。
进一步地,所述分词单元,包括:
第二判断子单元,用于分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字。
本实施例的预处理过程中,还会将一些不符合文本表述形式的预设表述符号,转换为表述文字。上述预设表述符号包括运算符号、关联符号等,比如对应表述文字“或”的预设表述符号“/”,对应表述文字“等于”的预设表述符号“=”等等。通过将预设表述符号转换为对应的表述文字,以免在分词处理时扭曲文本语义,造成分词错误。
第二转换子单元,用于若存在预设表述符号,则将所述预设表述符号转换为对应的表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句。
第三判断子单元,用于分别判断新第一组分句的各新分句和新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号。
本实施例的预设字符为无任何语义表达的字符,即去除上述预设字符后不影响原分句对应的语义表达。上述预设字符包括但不限于语气助词、语气叹词或无断句作用的标点符号等,比如“呢”、“《》”等。
去除子单元,用于若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
本实施例通过去除上述预设字符,以净化分句的文本表示,提高分词的准确度。比如,分句“知鸟是平安集团下的一款移动学习工具,^提供在线学习、考试、培训以及互动直播的功能,已有超过两千万的学员在使用”,经过上述预处理过程后,上述分句对应的净化文本为“知鸟是平安集团下的款移动学习工具提供在线学习考试培训以及互动直播的功能已有超过学员在使用”,对应的分词词组为“知鸟-是-平安-集团-下-的-款-移动-学习-工具-提供-在线-学习-考试-培训-以及-互动-直播-的-功能-已-有-超过-学员-在-使用”,以便根据精准分词处理后的分词词组得到对应的词向量组合,以提高计算精准度。
进一步地,所述分词单元,包括:
调用子单元,用于调用指定业务领域对应的标准词库。
本实施例中不同的业务领域对应的标准词库不同,以提高匹配的精准度。相同的文本在不同领域的语义不同,分词标准也不同,比如某些领域的专有名词,如保险业中“分红险”是一个分词,而其他领域出现的“分红险”会被拆分成“分红”和“险”两个分词。
第四判断子单元,用于判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合。
调整子单元,用于若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组。
本实施例在分词处理后,会根据指定业务领域对应的标准词库调整分词的准确度。本实施例根据标准词库调整分词的前提为不改变各分词在分句中的排布顺序,然后通过将相邻的分词组合进行分词调整。比如上述“平安”和“集团”两个分词,可根据查寻标准词库,合并为一个分词“平安集团”,以便分词更符合当前业务领域,上述业务领域包括某个公认的技术领域、应用场景领域甚至某个具体的公司等。
处理子单元,用于根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句表述语义相似度最大。
本实施例通过先调整标准文本的分词标准,然后再根据调整好的标准文本的分词标准调整待测试文本的分词,以避免待测试文本的不确定性以及表述多样性影响分词的准确度。
进一步地,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,所述判断模块3,包括:
获取单元,用于分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1。
评分单元,用于根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分。
判断单元,用于判断所述总评分是否超过预设评分阈值。
第一判定单元,用于若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值。
第二判定单元,用于若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
本实施例通过服务文本的总评分评价相似度,以便根据在线评分及时分析客服人员的答复与标准答复的相似性,以便及时管控客服人员的服务质量。本实施例中客服人员每回答一个问题为一个服务文本,服务文本包括多个分句,根据每个分句的在线评分得到服务文本的在线评分,进而得到客服人员的服务评分。本实施例通过权重评分的方式获得服务文本的评分,比如服务文本包括4个分句,每个分句的评分权重为25%。本申请其他实施例中可根据识别分句中包括的答复问题关键字的数量设计权重,比如答复问题关键字数量多的分句权重大些,答复问题关键字数量少的分句权重小些。
本申请其他实施例可用于在线客观题考试评分等。也可用于将客服的语音信息转换为文本后再进行文本比较的应用场景。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于语义理解的文本配对过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现基于语义理解的文本配对方法。
上述处理器执行上述基于语义理解的文本配对方法,包括:按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;判断所述相似度是否大于预设阈值;若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
上述计算机设备,通过多个相似度计算算法,以综合考虑标准文本对应的第一组分句和待测试文本对应的第二组分句的相似度。计算过程中先对各分句进行分词处理,得到与各分句组成结构相对应的分词词组,将各分句的分词词组通过word2vec算法转换为词向量组合,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合相似度,最后再按照分句相似度的高低排序通过两两分句匹配的方式进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。
在一个实施例中,所述预设算法包括wmd算法、叠词算法和simhash算法,上述处理器通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度的步骤,包括:通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各分句分别对应的分词词组;根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句;根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1;根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
在一个实施例中,上述处理器根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵的步骤,包括:通过word2vec算法分别将各所述分词词组转换为对应的词向量组合;根据各所述分句分别对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵;根据各所述分句分别对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵;根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
在一个实施例中,上述处理器通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤,包括:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语;若存在,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值;通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组。
在一个实施例中,上述处理器分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语的步骤之前,包括:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字;若存在预设表述符号,则将所述预设表述符号转换为对应的所述表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句;分别判断所述新第一组分句的各新分句和所述新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号;若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
在一个实施例中,所述分词词组依据各所述分句中的各分词的位置信息依次排布形成,上述处理器通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤之后,包括:调用指定业务领域对应的标准词库;判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合;若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组;根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句的表述语义相似度最大。
在一个实施例中,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,上述判断所述相似度是否大于预设阈值的步骤,包括:分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1;根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分;判断所述总评分是否超过预设评分阈值;若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值;若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于语义理解的文本配对方法,包括:按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;判断所述相似度是否大于预设阈值;若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
上述计算机可读存储介质,通过多个相似度计算算法,以综合考虑标准文本对应的第一组分句和待测试文本对应的第二组分句的相似度。计算过程中先对各分句进行分词处理,得到与各分句组成结构相对应的分词词组,将各分句的分词词组通过word2vec算法转换为词向量组合,再通过wmd算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的wmd(词搬移距离)距离,通过simhash算法算出第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的海明距离,通过叠词算法计算第二组分句的每个分句的分词词组与第一组分句的每个分句的分词词组之间的余弦距离,最终对上述三个算法的结果进行加权求和得到综合相似度,最后再按照分句相似度的高低排序通过两两分句匹配的方式进行分组配对,实现将待测试文本与标准文本之间的语义匹配的目的。
在一个实施例中,所述预设算法包括wmd算法、叠词算法和simhash算法,上述处理器通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度的步骤,包括:通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各分句分别对应的分词词组;根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句;根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1;根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
在一个实施例中,上述处理器根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵的步骤,包括:通过word2vec算法分别将各所述分词词组转换为对应的词向量组合;根据各所述分句分别对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵;根据各所述分句分别对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵;根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
在一个实施例中,上述处理器通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤,包括:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语;若存在,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值;通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组。
在一个实施例中,上述处理器分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语的步骤之前,包括:分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字;若存在预设表述符号,则将所述预设表述符号转换为对应的所述表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句;分别判断所述新第一组分句的各新分句和所述新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号;若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
在一个实施例中,所述分词词组依据各所述分句中的各分词的位置信息依次排布形成,上述处理器通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤之后,包括:调用指定业务领域对应的标准词库;判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合;若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组;根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句的表述语义相似度最大。
在一个实施例中,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,上述判断所述相似度是否大于预设阈值的步骤,包括:分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1;根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分;判断所述总评分是否超过预设评分阈值;若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值;若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于语义理解的文本配对方法,其特征在于,包括:
按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;
通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;
判断所述相似度是否大于预设阈值;
若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;
若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
2.根据权利要求1所述的基于语义理解的文本配对方法,其特征在于,所述预设算法包括wmd算法、叠词算法和simhash算法,所述通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度的步骤,包括:
通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组;
根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句;
根据所述wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵分别对应的预设权重比例进行加权计算,得到所述第一组分句和所述第二组分句配对的加权相似度矩阵,其中各所述预设权重比例的加和值为1;
根据所述加权相似度矩阵得到所述第一组分句和所述第二组分句的相似度。
3.根据权利要求2所述的基于语义理解的文本配对方法,其特征在于,所述根据各所述分句分别对应的分词词组,分别调用所述wmd算法、叠词算法和simhash算法,得到所述第一组分句和所述第二组分句之间对应的两两分句相互配对的wmd相似度矩阵、叠词相似度矩阵和simhash相似度矩阵的步骤,包括:
通过word2vec算法分别将各所述分词词组转换为对应的词向量组合;
根据各所述分句分别对应的词向量组合,通过所述wmd算法计算所述第一组分句和所述第二组分句对应的两两分句配对的wmd相似度矩阵;
根据各所述分句分别对应的词向量组合,通过叠词算法计算所述第一组分句和所述第二组分句对应的两两分句配对的叠词相似度矩阵;
根据各所述分句对应的分词词组的文本,通过所述simhash算法分别计算所述第一组分句和所述第二组分句对应的两两分句配对的海明距离,以得到所述simhash相似度矩阵,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句。
4.根据权利要求2所述的基于语义理解的文本配对方法,其特征在于,所述通过分词算法分别对所述第一组分句的各分句和所述第二组分句中的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤,包括:
分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语;
若存在,则提取所述数字短语,并获取所述数据短语对应的关键词以及所述关键词对应的赋值;
通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组。
5.根据权利要求4所述的基于语义理解的文本配对方法,其特征在于,所述分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在数字短语的步骤之前,包括:
分别判断所述第一组分句的各分句和所述第二组分句中的各分句中是否存在预设表述符号,其中所述预设表述符号存在相对应的表述文字;
若存在预设表述符号,则将所述预设表述符号转换为对应的所述表述文字,使所述第一组分句和所述第二组分句分别对应转换为新第一组分句和新第二组分句;
分别判断所述新第一组分句的各新分句和所述新第二组分句中的各新分句中是否存在预设字符,其中所述预设字符至少包括语气助词、语气叹词或无断句作用的标点符号;
若存在预设字符,则分别去除所述新第一组分句的各新分句和新第二组分句的各新分句中的预设字符。
6.根据权利要求4所述的基于语义理解的文本配对方法,其特征在于,所述分词词组依据各所述分句中的各分词的位置信息依次排布形成,所述通过所述分词算法分别对去除所述数字短语后的第一组分句的各分句,以及去除所述数字短语后的第二组分句的各分句进行分词处理,得到各所述分句分别对应的分词词组的步骤之后,包括:
调用指定业务领域对应的标准词库;
判断所述第一组分句的各分句分别对应的分词词组中,相邻分词的组合是否出现在所述标准词库中,其中所述相邻分词的组合包括至少由两个相邻分词组成的组合;
若所述相邻分词的组合出现在所述标准词库中,则根据所述相邻分词的组合调整所述第一组分句的各分句分别对应的分词词组;
根据调整后的第一组分句中的各分句分别对应的分词词组,处理所述第二组分句中的各分句分别对应的分词词组,使调整后的第二组分句与调整后的第一组分句的表述语义相似度最大。
7.根据权利要求1所述的基于语义理解的文本配对方法,其特征在于,所述待测试文本为所述客服人员答复客户的服务文本,所述服务文本包括多个分句,所述判断所述相似度是否大于预设阈值的步骤,包括:
分别获取所述服务文本的各分句对应的得分,以及所述服务文本的各分句分别对应的评分权重,其中各所述评分权重的加和为1;
根据所述服务文本的各分句分别对应的得分,以及所述服务文本的各分句分别对应的评分权重,计算所述服务文本的总评分;
判断所述总评分是否超过预设评分阈值;
若所述总评分超过预设评分阈值,则判定所述相似度大于预设阈值;
若所述总评分未超过预设评分阈值,则判定所述相似度不大于预设阈值。
8.一种基于语义理解的文本配对装置,其特征在于,包括:
切句模块,用于按照预设规则分别对标准文本和待测试文本进行切句处理,得到所述标准文本对应的第一组分句和所述待测试文本对应的第二组分句,其中所述第一组分句和所述第二组分句中的分句数量均至少为一个;
计算模块,用于通过两两分句配对的方式,根据预设算法计算所述第一组分句和所述第二组分句的相似度,其中所述两两分句中的一分句来自所述第一组分句,另一分句来自所述第二组分句,所述预设算法包括wmd算法、叠词算法或simhash算法中的至少两种;
判断模块,用于判断所述相似度是否大于预设阈值;
第一判定模块,用于若所述相似度大于预设阈值,则判定所述标准文本和待测试文本表述的语义相同;
第二判定模块,用于若所述相似度不大于预设阈值,则判定所述标准文本和待测试文本表述的语义不相同。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201910239806.9A 2019-03-27 2019-03-27 基于语义理解的文本配对方法、装置及计算机设备 Pending CN110110744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910239806.9A CN110110744A (zh) 2019-03-27 2019-03-27 基于语义理解的文本配对方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910239806.9A CN110110744A (zh) 2019-03-27 2019-03-27 基于语义理解的文本配对方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN110110744A true CN110110744A (zh) 2019-08-09

Family

ID=67484665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910239806.9A Pending CN110110744A (zh) 2019-03-27 2019-03-27 基于语义理解的文本配对方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN110110744A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN111325032A (zh) * 2020-02-21 2020-06-23 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN112597768A (zh) * 2020-12-08 2021-04-02 北京百度网讯科技有限公司 文本审核方法、装置、电子设备、存储介质及程序产品
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
CN113312475A (zh) * 2020-02-27 2021-08-27 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN114490932A (zh) * 2022-01-21 2022-05-13 成都信息工程大学 基于文本相似度和关键字的语义推测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法
CN106022915A (zh) * 2016-07-01 2016-10-12 中国民生银行股份有限公司 企业信用风险评估方法和装置
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN109102886A (zh) * 2018-08-20 2018-12-28 重庆柚瓣家科技有限公司 多推理模式融合的老年病推理诊断系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法
CN104346379A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法
CN103544242A (zh) * 2013-09-29 2014-01-29 广东工业大学 面向微博的情感实体搜索系统
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN106022915A (zh) * 2016-07-01 2016-10-12 中国民生银行股份有限公司 企业信用风险评估方法和装置
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
CN107688600A (zh) * 2017-07-12 2018-02-13 百度在线网络技术(北京)有限公司 知识点挖掘方法及装置
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN109101478A (zh) * 2018-06-04 2018-12-28 东南大学 一种面向电商评论文本的Aspect级情感分析方法
CN109102886A (zh) * 2018-08-20 2018-12-28 重庆柚瓣家科技有限公司 多推理模式融合的老年病推理诊断系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110765244B (zh) * 2019-09-18 2023-06-06 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN111325032A (zh) * 2020-02-21 2020-06-23 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN111325032B (zh) * 2020-02-21 2023-06-16 中国建设银行股份有限公司 一种5g+智能银行机构名称的规范化方法及装置
CN113312475A (zh) * 2020-02-27 2021-08-27 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN113312475B (zh) * 2020-02-27 2024-03-15 北京搜狗科技发展有限公司 一种文本相似度确定方法及装置
CN112597768A (zh) * 2020-12-08 2021-04-02 北京百度网讯科技有限公司 文本审核方法、装置、电子设备、存储介质及程序产品
CN112597768B (zh) * 2020-12-08 2022-06-28 北京百度网讯科技有限公司 文本审核方法、装置、电子设备、存储介质及程序产品
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN112699657A (zh) * 2020-12-30 2021-04-23 广东德诚大数据科技有限公司 一种异常文本的检测方法、装置、电子设备及存储介质
CN114490932A (zh) * 2022-01-21 2022-05-13 成都信息工程大学 基于文本相似度和关键字的语义推测方法

Similar Documents

Publication Publication Date Title
CN110110744A (zh) 基于语义理解的文本配对方法、装置及计算机设备
Laurer et al. Less annotating, more classifying: Addressing the data scarcity issue of supervised machine learning with deep transfer learning and BERT-NLI
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CA3129721A1 (en) Pre-trained contextual embedding models for named entity recognition and confidence prediction
CN104137102A (zh) 非事实型询问应答系统以及计算机程序
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
JP5356197B2 (ja) 単語意味関係抽出装置
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
CN113076431B (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
CN114090762B (zh) 一种期货领域的自动问答方法和系统
Etaiwi et al. Statistical Arabic name entity recognition approaches: A survey
CN110309279A (zh) 基于语言模型的话语训练方法、装置及计算机设备
CN109213998A (zh) 中文错字检测方法及系统
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN110119353A (zh) 测试数据生成方法、装置以及控制器和介质
CN110532569B (zh) 一种基于中文分词的数据碰撞方法及系统
CN116049354A (zh) 基于自然语言的多表格检索方法及装置
Al-Sanabani et al. Improved an algorithm for Arabic name matching
Mon et al. SymSpell4Burmese: symmetric delete Spelling correction algorithm (SymSpell) for burmese spelling checking
Tedjopranoto et al. Correcting typographical error and understanding user intention in chatbot by combining n-gram and machine learning using schema matching technique
Ajees et al. A named entity recognition system for Malayalam using neural networks
Al Taawab et al. Transliterated bengali comment classification from social media
CN111626039A (zh) 文本相似度识别模型的训练方法、装置及相关设备
CN116070620A (zh) 一种基于大数据的信息处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination