CN111930920B - 基于知识增强处理的faq相似度计算方法、装置及电子设备 - Google Patents

基于知识增强处理的faq相似度计算方法、装置及电子设备 Download PDF

Info

Publication number
CN111930920B
CN111930920B CN202011060858.9A CN202011060858A CN111930920B CN 111930920 B CN111930920 B CN 111930920B CN 202011060858 A CN202011060858 A CN 202011060858A CN 111930920 B CN111930920 B CN 111930920B
Authority
CN
China
Prior art keywords
text
similarity
target text
synonym
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011060858.9A
Other languages
English (en)
Other versions
CN111930920A (zh
Inventor
廖智霖
高峰
吕杨苗
林金曙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hundsun Technologies Inc
Original Assignee
Hundsun Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hundsun Technologies Inc filed Critical Hundsun Technologies Inc
Priority to CN202011060858.9A priority Critical patent/CN111930920B/zh
Publication of CN111930920A publication Critical patent/CN111930920A/zh
Application granted granted Critical
Publication of CN111930920B publication Critical patent/CN111930920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备,包括接收客户文本,确定对应客户文本的目标文本,对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,根据相似度计算结果与预设阈值的大小关系进行不同处理。在经过上述处理后基于FAQ相似度结果与预设阈值的大小关系判定是否继续进行扩充客户文本、目标文本语义范围的同义句句组的操作,进而基于同义句句组进行FAQ相似度计算。通过在两种判断结果中分别采用不同的方式对目标文本进行扩容,扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。

Description

基于知识增强处理的FAQ相似度计算方法、装置及电子设备
技术领域
本发明属于相似度计算领域,尤其涉及基于知识增强处理的FAQ相似度计算方法、装置及电子设备。
背景技术
FAQ(Frequently Asked Questions)相似度计算在各个业务领域中有着广泛的应用。如在证券行业,各大证券公司都会对客户常问的一些问题进行总结,将这些问题归纳成一系列的目标文本。然后利用FAQ相似度计算方法从目标文本中选出相似度最大的文本对应的答案作为客户提问的最佳答案。现有的FAQ相似度计算方法有专利多种,可以概括为三大类:基于词语匹配的方法、词语匹配和词向量混合的方法、基于词向量或句子向量的方法。
上述相似度计算方法都是直接计算客户提问文本和目标文本的相似度。单句的用户提问和目标文本数据量都十分有限,使得两文本表达的语义不够丰富,容易造成用户提问与目标文本匹配不上的结果。如客户提问“我手续费多少”和目标文本“A股交易费用”之间差距过大,直接计算相似度容易匹配不到正确答案。因此,为了解决两文本直接计算相似度时,数据量有限和语义不够丰富的问题,需要对客户提问或者目标文本进行知识增强。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于知识增强处理的FAQ相似度计算方法、装置及电子设备,通过针对客户文本的长短不同分别采取基于知识分布的知识增强处理、生成用于扩充客户文本、目标文本语义范围的同义句句组的方式扩大目标文本的词语范围,从而提升了相似度的计算结果。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于知识增强处理的FAQ相似度计算方法,包括:
接收客户文本,确定对应客户文本的目标文本;
对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
可选的,所述对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,包括:
对客户文本以及目标文本进行分词处理;
选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
可选的,所述生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,包括:
构建同义句生成模型;
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
可选的,所述构建同义句生成模型,包括:
构建初始深度学习模型;
在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
可选的,所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算,包括:
调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
为了达到上述技术目的,根据本公开实施例的第二方面,本实施例提供了基于知识增强处理的FAQ相似度计算装置,包括:
文本接收模块,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
所述相似度计算模块,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。
可选的,所述相似度计算模块,包括:
分词处理单元,用于对客户文本以及目标文本进行分词处理;
分词判断单元,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
分词填充单元,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
可选的,所述相似度第二执行单元,包括:
模型构建子单元,用于构建同义句生成模型;
同义句组合子单元,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
内容转换子单元,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
可选的,所述模型构建子单元包括:
初始模型构建子单元,用于构建初始深度学习模型;
编码子单元,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
可选的,所述内容转换子单元,包括:
向量转换子单元,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
相似度计算子单元,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
相似度数值选取子单元,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
为了达到上述技术目的,根据本公开实施例的第三方面,本实施例提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行基于知识增强处理的FAQ相似度计算方法的步骤。
为了达到上述技术目的,根据本公开实施例的第四方面,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行基于知识增强处理的FAQ相似度计算方法的步骤。
本发明提供的技术方案带来的有益效果是:
针对客户文本依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布,扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。
在对前一步相似度结果进行判断后如果出现结果小于或等于阈值的情况则再依次执行构建同义句生成模型,调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组,根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强,使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围,能够解决数据过少造成的语义表达范围过窄的问题。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图一;
图2是本申请实施提出的基于知识增强处理的FAQ相似度计算方法的流程示意图二;
图3是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图一;
图4是本申请实施提出的基于知识增强处理的FAQ相似度计算装置的结构示意图二;
图5是本申请实施例提出的一种电子设备的结构示意图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。本申请实施例中的M、N、m、n的取值均为非零正整数。
实施例一
在词语层面,搜集数个目标文本的同义句作为知识积累,将目标文本及其同义句分词,将分词后的结果构成一个对应的知识分布;在相似度计算时,利用知识分布对目标文本进行知识增强。
为了达到上述技术目的,根据本公开实施例的第一方面,本实施例提供了基于知识增强处理的FAQ相似度计算方法,如图1所示,所述FAQ相似度计算方法包括:
11、接收客户文本,确定对应客户文本的目标文本;
12、对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。
步骤12提出的知识增强处理,具体包括:
121、对客户文本以及目标文本进行分词处理。
分词是中文自然语言处理的常规步骤,中文分词的算法有多种,如HMM、CRF和 BiLSTM+CRF等。这里采用基于HMM的常规中文分词工具分别对用户提问
Figure 813714DEST_PATH_IMAGE001
和目标文本
Figure 247101DEST_PATH_IMAGE002
分词。先去除所有的标点符号,然后进行分词。分词后的结果为
Figure 979565DEST_PATH_IMAGE003
,和
Figure 80376DEST_PATH_IMAGE004
122、选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
在实施中,为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值无法满足问答匹配要求的缺陷,本申请实施例提出了一种FAQ相似度计算方法,在现有相似度计算的基础上,增加了对目标文本进行扩充的知识增强处理步骤,相对与现有技术能够明显提升目标文本的容量,进而提高了客户文本与目标文本进行相似度计算后的结果,从而能够增加目标文本相对于客户文本的命中率,令客户文本得到更为精确的语义表述范围。
设目标文本
Figure 869953DEST_PATH_IMAGE005
对应的知识积累(同义句)文本为
Figure 790635DEST_PATH_IMAGE006
,则目标文本对 应的知识分布可以表示为
Figure 326790DEST_PATH_IMAGE007
,其中
Figure 282108DEST_PATH_IMAGE008
为出现在
Figure 987459DEST_PATH_IMAGE009
中的词语集合,
Figure 395438DEST_PATH_IMAGE010
为对应的词语权重。然后,根据 知识分布
Figure 735283DEST_PATH_IMAGE011
对客户提问和目标文本的相似语义进行增强。
逐个判断用户提问
Figure 542178DEST_PATH_IMAGE001
中的词语
Figure 676487DEST_PATH_IMAGE012
是否出现在目标文本的知识分布
Figure 837341DEST_PATH_IMAGE013
中。 如果存在,则对两文本的相似度进行词语
Figure 715298DEST_PATH_IMAGE014
的语义增强,将词语
Figure 116980DEST_PATH_IMAGE015
增加到目标文本分 词结果的后面。例如客户提问中的词语
Figure 422190DEST_PATH_IMAGE016
Figure 539182DEST_PATH_IMAGE017
在知识分布
Figure 968633DEST_PATH_IMAGE018
中,则知识增强后 目标文本的分词结果为
Figure 487470DEST_PATH_IMAGE019
Figure 229161DEST_PATH_IMAGE020
增补到目标文 本中时依次记为
Figure 833449DEST_PATH_IMAGE021
)。如果不存在,则不进行任何处理。知识增强可以利用目标 文本的知识分布,从而扩大用户提问与目标文本的相似语义范围。
123、如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
采用word2vec的词向量和余弦相似度计算用户提问词语
Figure 599015DEST_PATH_IMAGE022
和目标文本词语
Figure 972359DEST_PATH_IMAGE023
的相似度
Figure 884951DEST_PATH_IMAGE024
其中
Figure 724338DEST_PATH_IMAGE025
是词语
Figure 747789DEST_PATH_IMAGE026
对应的词向量。词语相似度计算后可以得到如表1所示 的相似度矩阵
Figure 241218DEST_PATH_IMAGE027
表1 词语相似度矩阵
Figure 324712DEST_PATH_IMAGE028
表2词语与文本的相似度
取相似度矩阵行最大值
Figure 640942DEST_PATH_IMAGE029
作为用 户提问词语
Figure 202505DEST_PATH_IMAGE015
与目标文本的相似度,如表2所示,取相似度矩阵列最大值
Figure 284862DEST_PATH_IMAGE030
作为目标文本词语
Figure 539256DEST_PATH_IMAGE031
与用户提问的相似度。
值得注意的是,如果计算得到的FAQ相似度结果大于预设阈值,输出FAQ相似度结果即可;如果FAQ相似度结果不大于预设阈值,还需要生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,即后续实施例二的内容。详细内容在实施例二中进行介绍,此处不再赘述。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
设词语
Figure 602503DEST_PATH_IMAGE032
在知识分布中的权重为
Figure 967756DEST_PATH_IMAGE033
,词语
Figure 170199DEST_PATH_IMAGE034
在知识分布中的权重为
Figure 329916DEST_PATH_IMAGE035
(另,定义没有出现在知 识分布中的词语权重为1),权重可以根据需要进行调整,也可以简单地将名词的权重设为 2,其他词的权重设为1。
则客户提问
Figure 625331DEST_PATH_IMAGE036
和目标文本
Figure 59855DEST_PATH_IMAGE037
的相似度计算公式为
Figure 382383DEST_PATH_IMAGE038
该方法额外利用了目标文本的知识分布,扩大了客户提问与目标文本的相似语义范围,可以提升相似度的计算结果。实验评估集有5585个(客户提问,目标文本)样本,其中目标文本有1617个,采用基于知识增强的FAQ相似度计算方法的正确率为78%,直接计算客户提问和目标文本相似度的方法正确率为65%,相似度计算结果有显著提高。
除了根据前述内容增加知识分布集合中的权重以外,还可以对选取的同义词组的内容和数量进行限定。
在生成目标文本的知识分布时,需要对其同义句内容和数量进行限定,以免导致知识分布的语义范围过于庞大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句分词结果的词语数量与目标文本分词结果的词语数量相差不能超过3;第二个是数量限定,目标文本最多可以选择7个同义句。
针对是否增加限定的示例如下文所示:
正样例1:
客户提问:我手续费多少。
目标文本:A股交易费用。
目标文本的同义句:我股票买入印花税多少。股票卖出手续费。A股交易费用多少。
步骤1:
客户提问:我、手续费、多少。
目标文本:A股、交易、费用。
步骤2:
对目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“我、手续费、多少”三个词语出现在知识分布中。将这三个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、我、手续费、多少”。
步骤3:
两文本直接计算相似度的矩阵为
Figure 975651DEST_PATH_IMAGE039
相似度为
Figure 16419DEST_PATH_IMAGE040
知识增强后计算相似度的矩阵为
Figure 723475DEST_PATH_IMAGE041
相似度为
Figure 185330DEST_PATH_IMAGE042
不采取限定措施生成知识分布的反样例2:
客户提问:请问、现在股票买入、卖出的印花税是多少,谢谢;
正确目标文本:A股交易费用,;
错误目标文本:沪B股交易费用;
正确目标文本的同义句:我交易手续费多少。我股票买入印花税多少。股票卖出费用。A股交易手续费多少。
错误目标文本的同义句:沪B股票交易费用。上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢。
步骤1:如果客户文本属于短文本,则对客户文本、与客户文本对应的目标文本进行分词处理。
客户提问:请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢
正确目标文本:A股、交易、费用;
错误目标文本:沪B股、交易、费用;
步骤2:选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
对正确目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、买入、卖出、印花税、多少”5个词语出现在知识分布中。将这5个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、股票、买入、卖出、印花税、多少”。
不采用限定措施,对错误目标文本和同义句分词后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1,请问:1,现在:1,B股:2,买入:2,卖出:2的:1,印花税:2,是:1,谢谢:1}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”10个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”。
采用限定措施,错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语,而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语,两个句子的词语数量相差为13,大于3所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1, B股:2 }。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、股票、多少”。
步骤3:如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
A.客户提问与正确目标文本的相似度计算矩阵
Figure 952429DEST_PATH_IMAGE043
客户提问与正确目标文本的相似度为
Figure 683756DEST_PATH_IMAGE044
B.不采用限定措施,客户提问与错误目标文本的相似度计算矩阵
Figure 928923DEST_PATH_IMAGE045
不采用限定措施,客户提问与错误目标文本的相似度为
Figure 223114DEST_PATH_IMAGE046
C.采用限定措施后,客户提问与错误目标文本的相似度计算矩阵
Figure 426693DEST_PATH_IMAGE047
采用限定措施,客户提问与错误目标文本的相似度为
Figure 176475DEST_PATH_IMAGE048
客户提问与正确的目标文本间相似度为0.745,不采取限定措施的情况下客户提问与错误目标文本间相似度为0.87,采取内容限定的情况下客户提问与错误目标文本的相似度为0.485,所以在生成知识分布时,采取限定措施是必要的。
综上,依次执行分词、构建知识分布集合、对目标文本进行扩容再进行相似度计算的步骤,与常规的词语匹配方法相比,该方法额外利用了目标文本的知识分布,可以扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。与基于词向量的传统方法相比,该方法额外利用了目标文本已有的知识分布,可以在传统WMD方法的基础上进一步增加客户提问与词分布相同的词语相似度,从而提升相似度的计算结果。
实施例二
在前述实施例一的基础上,如果对得到的FAQ相似度结果与预设阈值进行判定,如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算。如图2所示,具体包括:
311、构建同义句生成模型。
构建同义句生成模型的详细内容包括:
3111、构建初始深度学习模型;
3112、在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
3113、在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
3114、在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
示例性的,构建同义句生成模型所使用的深度学习模型为VAE(Variational Autoencoder),该模型的处理过程主要分为两个部分:编码过程(Encoder)和解码过程 (Decoder)。例如给定句子
Figure 225333DEST_PATH_IMAGE049
,编码过程会利用LSTM和MLP将其编码成两个向量
Figure 391608DEST_PATH_IMAGE050
Figure 251242DEST_PATH_IMAGE051
;解 码过程会利用MLP和LSTM将编码向量解码成和
Figure 488320DEST_PATH_IMAGE052
相近的句子
Figure 72360DEST_PATH_IMAGE053
考虑到通常的VAE模型训练时采用的自身监督,即模型输入和目标输出的监督信 号是同一个句子。这样的训练机制得到的模型生成的句子与输入的句子过于相似,难以对 输入的句子进行语义增强,扩大其表达范围。因此,本实施例提出,在训练同义句生成模型 时修改了自身监督机制,将输入文本的同义句当作监督信号。即:首先构建大量的训练样本
Figure 812914DEST_PATH_IMAGE054
Figure 92717DEST_PATH_IMAGE055
是一个句子文本,d是
Figure 551511DEST_PATH_IMAGE056
的同义句文本。然后将句子
Figure 945102DEST_PATH_IMAGE057
作为VAE模型的输入,d作 为VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制,训练出同义句生成 模型。 这样能够起到扩大表达范围的目的。
312、基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
利用步骤311得到的同义句生成模型分别生成用户提问
Figure 71321DEST_PATH_IMAGE058
的m个(m为大于1的自 然数)同义句
Figure 522025DEST_PATH_IMAGE059
,目标文本
Figure 468116DEST_PATH_IMAGE060
的m个同义句
Figure 659538DEST_PATH_IMAGE061
。然后组成两个同义句 句组:用户提问同义句句组
Figure 640263DEST_PATH_IMAGE062
,目标文本同义句句组
Figure 996290DEST_PATH_IMAGE063
。在生成 同义句句组时,需要对同义句的内容和数量进行限定,以免同义句句组的语义覆盖范围过 大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句的
Figure 702778DEST_PATH_IMAGE064
与目标文本 的
Figure 904083DEST_PATH_IMAGE065
距离不能大于
Figure 4894DEST_PATH_IMAGE066
;第二个是数量限定,m小于等于7。同义句生成模型会对用户提问
Figure 62980DEST_PATH_IMAGE067
和目标文本
Figure 715154DEST_PATH_IMAGE068
分别进行数据增强,从而扩充用户提问
Figure 985729DEST_PATH_IMAGE069
和目标文本
Figure 675468DEST_PATH_IMAGE070
的语义范 围,缩短两个文本之间的距离。
313、将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括:
3131、调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量。
首先利用LSTM将用户提问同义句句组
Figure 373297DEST_PATH_IMAGE071
,目标文本同义句句组
Figure 784205DEST_PATH_IMAGE072
分别编码成向量。
3132、基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵。
然后采用余弦相似度分别计算用户提问同义句句组中的句子
Figure 858471DEST_PATH_IMAGE073
和目标文本同义 句句组中句子
Figure 402716DEST_PATH_IMAGE074
的相似度
Figure 271446DEST_PATH_IMAGE075
,得到如表3所示的相似度矩阵,
Figure 163791DEST_PATH_IMAGE076
表3 相似度矩阵
3133、选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
取相似度矩阵中行的最大值
Figure 41749DEST_PATH_IMAGE077
当作用户提问同义句句组
Figure 706079DEST_PATH_IMAGE078
的句子
Figure 11290DEST_PATH_IMAGE079
与目标文本同义句句组的相似度,
取相似度矩阵中列的最大值
Figure 455430DEST_PATH_IMAGE080
当作句子
Figure 622231DEST_PATH_IMAGE074
与用户提问同义句句组的相似度。
最后取
Figure 406648DEST_PATH_IMAGE081
Figure 879830DEST_PATH_IMAGE082
中的最大值作为用户提问
Figure 749697DEST_PATH_IMAGE083
和目标文本
Figure 235036DEST_PATH_IMAGE084
的相似度
Figure 873959DEST_PATH_IMAGE085
将同义句组间的相似度作为用户提问和目标文本的相似度,可以提升相似度的计算结果。
综上,针对客户文本被判断为短文本的情况下,依次执行分词处理、对客户文本、与客户文本对应的目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。利用了目标文本的知识分布,扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。
实施例三
在词语层面,搜集数个目标文本的同义句作为知识积累,将目标文本及其同义句分词,将分词后的结果构成一个对应的知识分布;在相似度计算时,利用知识分布对目标文本进行知识增强。
为了达到上述技术目的,根据本公开实施例的第二方面,本实施例提供了基于知识增强处理的FAQ相似度计算装置4,如图3所示,所述数据处理装置包括:
文本接收模块41,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块42,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算。
针对相似度计算模块42所执行的与客户文本对应的目标文本进行基于知识分布的知识增强处理步骤,具体包括:
分词处理单元421,用于对客户文本以及目标文本进行分词处理。
分词是中文自然语言处理的常规步骤,中文分词的算法有多种,如HMM、CRF和 BiLSTM+CRF等。这里采用基于HMM的常规中文分词工具分别对用户提问
Figure 789481DEST_PATH_IMAGE086
和目标文本
Figure 631797DEST_PATH_IMAGE087
分 词。先去除所有的标点符号,然后进行分词。分词后的结果为
Figure 920827DEST_PATH_IMAGE088
,和
Figure 411327DEST_PATH_IMAGE089
分词判断单元422,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
在实施中,为了解决现有技术中在计算客户文本与目标文本之间因差距过大导致相似度计算差值交底无法满足问答匹配要求的缺陷,本申请实施例提出了一种FAQ相似度计算装置,在现有相似度计算的基础上,增加了对目标文本进行扩充的知识增强处理步骤,相对与现有技术能够明显提升目标文本的容量,进而提高了客户文本与目标文本进行相似度计算后的结果,从而能够增加目标文本相对于客户文本的命中率,令客户文本得到更为精确的语义表述范围。
设目标文本
Figure 760400DEST_PATH_IMAGE090
对应的知识积累(同义句)文本为
Figure 339280DEST_PATH_IMAGE091
,则目标文本对 应的知识分布可以表示为
Figure 900842DEST_PATH_IMAGE092
,其中
Figure 239989DEST_PATH_IMAGE093
为出现在
Figure 228805DEST_PATH_IMAGE094
中的词语集合,
Figure 45713DEST_PATH_IMAGE095
为对应 的词语权重。然后,根据知识分布
Figure 408037DEST_PATH_IMAGE096
对客户提问和目标文本的相似语义进行增强。
逐个判断用户提问
Figure 876059DEST_PATH_IMAGE036
中的词语
Figure 35776DEST_PATH_IMAGE097
是否出现在目标文本的知识分布
Figure 854827DEST_PATH_IMAGE098
中。如果存在,则对两文本的相似度进行词语
Figure 761122DEST_PATH_IMAGE016
的语义增强,将词语
Figure 83650DEST_PATH_IMAGE099
增加到目标文本 分词结果的后面。例如客户提问中的词语
Figure 883110DEST_PATH_IMAGE016
Figure 923878DEST_PATH_IMAGE100
在知识分布
Figure 628005DEST_PATH_IMAGE101
中,则知识增强 后目标文本的分词结果为
Figure 805039DEST_PATH_IMAGE102
Figure 40980DEST_PATH_IMAGE103
增补到目标文本中时 依次记为
Figure 334425DEST_PATH_IMAGE104
)。如果不存在,则不进行任何处理。知识增强可以利用目标文本的 知识分布,从而扩大用户提问与目标文本的相似语义范围。
分词填充单元423,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
采用word2vec的词向量和余弦相似度计算用户提问词语
Figure 579592DEST_PATH_IMAGE014
和目标文本词语
Figure 611134DEST_PATH_IMAGE105
的相似度
Figure 283554DEST_PATH_IMAGE106
其中
Figure 764827DEST_PATH_IMAGE107
是词语
Figure 79265DEST_PATH_IMAGE108
对应的词向量。词语相似度计算后可以得到如表1所 示的相似度矩阵:
Figure 965312DEST_PATH_IMAGE109
表1 词语相似度矩阵
Figure 808634DEST_PATH_IMAGE110
表2词语与文本的相似度
取相似度矩阵行最大值
Figure 48642DEST_PATH_IMAGE111
作为用户提问词语
Figure 901191DEST_PATH_IMAGE112
与目标文本的相似度,如表2所示,取相似度矩阵列最大值
Figure 641745DEST_PATH_IMAGE113
作为目标文本词语
Figure 921548DEST_PATH_IMAGE114
与用户提问的相 似度。
值得注意的是,所述相似度计算模块42,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元43,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,即后续实施例四的内容。详细内容在实施例四中进行介绍,此处不再赘述。
可选的,所述知识分布集合中还设有对应每个同义词组的权重值。
设词语
Figure 642992DEST_PATH_IMAGE115
在知识分布中的权重为
Figure 33653DEST_PATH_IMAGE116
,词语
Figure 910604DEST_PATH_IMAGE117
在知识分布中的权重为
Figure 86940DEST_PATH_IMAGE118
(另,定义没有出现在知 识分布中的词语权重为1),权重可以根据需要进行调整,也可以简单地将名词的权重设为 2,其他词的权重设为1。
则客户提问
Figure 33030DEST_PATH_IMAGE119
和目标文本
Figure 227382DEST_PATH_IMAGE120
的相似度计算公式为
Figure 942529DEST_PATH_IMAGE121
该方法额外利用了目标文本的知识分布,扩大了客户提问与目标文本的相似语义范围,可以提升相似度的计算结果。实验评估集有5585个(客户提问,目标文本)样本,其中目标文本有1617个,采用基于知识增强的FAQ相似度计算方法的正确率为78%,直接计算客户提问和目标文本相似度的方法正确率为65%,相似度计算结果有显著提高。
除了根据前述内容增加知识分布集合中的权重以外,还可以对选取的同义词组的内容和数量进行限定。
在生成目标文本的知识分布时,需要对其同义句内容和数量进行限定,以免导致知识分布的语义范围过于庞大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句分词结果的词语数量与目标文本分词结果的词语数量相差不能超过3;第二个是数量限定,目标文本最多可以选择7个同义句。
针对是否增加限定的示例如下文所示:
正样例1:
客户提问:我手续费多少。
目标文本:A股交易费用。
目标文本的同义句:我股票买入印花税多少。股票卖出手续费。A股交易费用多少。
步骤1:
客户提问:我、手续费、多少
目标文本:A股、交易、费用
步骤2:
对目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“我、手续费、多少”三个词语出现在知识分布中。将这三个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、我、手续费、多少”。
步骤3:
两文本直接计算相似度的矩阵为
Figure 561204DEST_PATH_IMAGE122
相似度为
Figure 729012DEST_PATH_IMAGE123
知识增强后计算相似度的矩阵为
Figure 461475DEST_PATH_IMAGE124
相似度为
Figure 296707DEST_PATH_IMAGE125
不采取限定措施生成知识分布的反样例2:
客户提问:请问、现在股票买入、卖出的印花税是多少,谢谢
正确目标文本:A股交易费用
错误目标文本:沪B股交易费用,
正确目标文本的同义句:我交易手续费多少。我股票买入印花税多少。股票卖出费用。A股交易手续费多少。
错误目标文本的同义句:沪B股票交易费用。上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢。
步骤1:分词处理单元421,用于如果客户文本属于短文本,则对客户文本、与客户文本对应的目标文本进行分词处理。
客户提问:请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢
正确目标文本:A股、交易、费用
错误目标文本:沪B股、交易、费用
步骤2:分词判断单元422,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容。
对正确目标文本和同义句分词后可以得到知识分布{我:1,A股:2,手续费:2,多少:1,交易:2,费用:2,股票:2,买入:2,卖出:2,印花税:2}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、买入、卖出、印花税、多少”5个词语出现在知识分布中。将这5个词语增加到目标文本分词结果的后面,得到“A股、交易、费用、股票、买入、卖出、印花税、多少”。
不采用限定措施,对错误目标文本和同义句分词后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1,请问:1,现在:1,B股:2,买入:2,卖出:2的:1,印花税:2,是:1,谢谢:1}。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”10个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、请问、现在、股票、买入、卖出、的、印花税、是、多少、谢谢”。
采用限定措施,错误目标文本的同义句“上海B股交易手续费多少。请问、现在B股股票买入、卖出的印花税是多少,谢谢”的分词结果“上海、B股、交易、手续费、多少、请问、现在、B股、股票、买入、卖出、的、印花税、是、多少、谢谢”中有16个词语,而目标文本“沪B股交易费用”的分词结果“沪B股、交易、费用”中只有3个词语,两个句子的词语数量相差为13,大于3.所以该同义句不能用于生成目标文本的知识分布。对处理后的目标文本和同义句分后可以得到知识分布{沪B股:2,交易:2,费用,沪B:2,股票:2,上海:2,手续费:2,多少:1, B股:2 }。逐个判断用户提问中的词语是否出现在知识分布中,可以得到“股票、多少”2个词语出现在知识分布中。将这10个词语增加到目标文本分词结果的后面,得到“沪B股、交易、费用、股票、多少”。
分词填充单元423,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算。
A.客户提问与正确目标文本的相似度计算矩阵
Figure 826564DEST_PATH_IMAGE126
客户提问与正确目标文本的相似度为
Figure 747247DEST_PATH_IMAGE127
B.不采用限定措施,客户提问与错误目标文本的相似度计算矩阵
Figure 17823DEST_PATH_IMAGE128
不采用限定措施,客户提问与错误目标文本的相似度为
Figure 441982DEST_PATH_IMAGE046
C.采用限定措施后,客户提问与错误目标文本的相似度计算矩阵
Figure 402460DEST_PATH_IMAGE129
采用限定措施,客户提问与错误目标文本的相似度为
Figure 544859DEST_PATH_IMAGE130
客户提问与正确的目标文本间相似度为0.745,不采取限定措施的情况下客户提问与错误目标文本间相似度为0.87,采取内容限定的情况下客户提问与错误目标文本的相似度为0.485,所以在生成知识分布时,采取限定措施是必要的。
综上,依次执行分词、构建知识分布集合、对目标文本进行扩容再进行相似度计算的步骤,与常规的词语匹配方法相比,该方法额外利用了目标文本的知识分布,可以扩大目标文本的词语范围,从而扩大了用户提问和目标文本的相同词语范围,提升相似度的计算结果。与基于词向量的传统方法相比,该方法额外利用了目标文本已有的知识分布,可以在传统WMD方法的基础上进一步增加客户提问与词分布相同的词语相似度,从而提升相似度的计算结果。
实施例四
所述相似度第二执行单元43,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,如图4所示,包括:
模型构建子单元431,用于构建同义句生成模型。
具体包括:初始模型构建子单元4311,用于构建初始深度学习模型;
编码子单元4312,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元4313,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元4314,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
示例性的,构建同义句生成模型所使用的深度学习模型为VAE(Variational Autoencoder),该模型的处理过程主要分为两个部分:编码过程(Encoder)和解码过程 (Decoder)。例如给定句子
Figure 619126DEST_PATH_IMAGE131
,编码过程会利用LSTM和MLP将其编码成两个向量
Figure 897792DEST_PATH_IMAGE132
Figure 577908DEST_PATH_IMAGE133
; 解码过程会利用MLP和LSTM将编码向量解码成和
Figure 473182DEST_PATH_IMAGE134
相近的句子
Figure 351140DEST_PATH_IMAGE135
考虑到通常的VAE模型训练时采用的自身监督,即模型输入和目标输出的监督信 号是同一个句子。这样的训练机制得到的模型生成的句子与输入的句子过于相似,难以对 输入的句子进行语义增强,扩大其表达范围。因此,本实施例提出,在训练同义句生成模型 时修改了自身监督机制,将输入文本的同义句当作监督信号。即:首先构建大量的训练样本
Figure 484312DEST_PATH_IMAGE136
Figure 786593DEST_PATH_IMAGE137
是一个句子文本,d是
Figure 638005DEST_PATH_IMAGE138
的同义句文本。然后将句子
Figure 54074DEST_PATH_IMAGE138
作为VAE模型的输入,d 为VAE目标输出的监督信号。最后利用训练样本和深度学习的训练机制,训练出同义句生成 模型。 这样能够起到扩大表达范围的目的。
同义句组合子单元432,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组。
利用得到的同义句生成模型分别生成用户提问
Figure 838491DEST_PATH_IMAGE139
的m个(m为大于1的自然数)同 义句
Figure 51953DEST_PATH_IMAGE140
,目标文本
Figure 938132DEST_PATH_IMAGE070
的m个同义句
Figure 626733DEST_PATH_IMAGE141
。然后组成两个同义句句组:用 户提问同义句句组
Figure 997147DEST_PATH_IMAGE142
,目标文本同义句句组
Figure 237635DEST_PATH_IMAGE143
。在生成 同义句句组时,需要对同义句的内容和数量进行限定,以免同义句句组的语义覆盖范围过 大,降低知识增强的效果。限定的措施有两个:第一个是内容限定,同义句的
Figure 142269DEST_PATH_IMAGE144
与目标文本 的
Figure 156930DEST_PATH_IMAGE145
距离不能大于
Figure 915939DEST_PATH_IMAGE146
;第二个是数量限定,m小于等于7。同义句生成模型会对用户提问
Figure 733853DEST_PATH_IMAGE147
和目标文本
Figure 47154DEST_PATH_IMAGE068
分别进行数据增强,从而扩充用户提问
Figure 340208DEST_PATH_IMAGE148
和目标文本
Figure 688144DEST_PATH_IMAGE149
的语义范 围,缩短两个文本之间的距离。
内容转换子单元433,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。具体包括:
向量转换子单元4331,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
首先利用LSTM将用户提问同义句句组
Figure 676959DEST_PATH_IMAGE150
,目标文本同义句句组
Figure 477556DEST_PATH_IMAGE151
分别编码成向量。
相似度计算子单元4332,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
然后采用余弦相似度分别计算用户提问同义句句组中的句子
Figure 580160DEST_PATH_IMAGE152
和目标文本同义 句句组中句子
Figure 782602DEST_PATH_IMAGE153
的相似度
Figure 942320DEST_PATH_IMAGE154
,得到如表3所示的相似度矩阵:
Figure 230213DEST_PATH_IMAGE155
表3 相似度矩阵
相似度数值选取子单元4333,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
取相似度矩阵中行的最大值
Figure 599489DEST_PATH_IMAGE156
当作用户提问同义句句组
Figure 938329DEST_PATH_IMAGE157
的句子
Figure 268947DEST_PATH_IMAGE152
与目标文本同义句句组的相似度,
取相似度矩阵中列的最大值
Figure 58785DEST_PATH_IMAGE158
当作句子
Figure 500262DEST_PATH_IMAGE159
与用户提问同义句句组的相似度。
最后取
Figure 411717DEST_PATH_IMAGE160
Figure 178816DEST_PATH_IMAGE161
中的最大值作为用户提问
Figure 438371DEST_PATH_IMAGE139
和目标文本
Figure 417960DEST_PATH_IMAGE162
的相似度
Figure 449501DEST_PATH_IMAGE163
将同义句组间的相似度作为用户提问和目标文本的相似度,可以提升相似度的计算结果。
综上,针对客户文本被判断为长文本的情况下,依次执行构建同义句生成模型,调用同义句生成模型得到客户文本同义句句组、目标文本同义句句组,根据得到的两套同义句句组计算相似度FAQ计算。借助句子层面识增强方法利用深度学习的生成模型VAE生成同义句来进行数据增强,使得生成的多个同义句可以从不同的方向扩充单个用户提问和目标文本的语义范围,能够解决数据过少造成的语义表达范围过窄的问题。另外在句子层面知识增强方法中生成的用户提问同义句句组和目标文本同义句组,比直接扩充客户提问和目标文本中的词语得到的客户提问句组和目标文本句组更能扩大客户提问和目标文本的语义表达范围,从而缩小两文本间的距离,提高远距离文本间的相似度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现木公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本示例实施方式中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。所述基于知识增强处理的FAQ相似度计算方法的具体步骤可参考前述实施例中关于上述数据处理步骤的详细描述,此处不再赘述。所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本示例实施方式中,还提供一种电子设备,该电子设备可以包括处理器以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例中所述基于知识增强处理的FAQ相似度计算方法的步骤。该生成方法的步骤可参考前述方法实施例中的详细描述,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
图5示出根据本公开示例实施方式中一种电子设备的示意图。例如,装置可以被提供为一服务器或客户端。参照图5,设备包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
装置800还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置800可以操作基于存储在存储器532的操作系统,例如Windows Server TM,Mac OS XTM,Unix TM、Linux TM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (10)

1.基于知识增强处理的FAQ相似度计算方法,其特征在于,所述FAQ相似度计算方法包括:
接收客户文本,确定对应客户文本的目标文本;
对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算;
所述对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算,包括:
对客户文本以及目标文本进行分词处理;
选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算;
所述生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算,包括:
构建同义句生成模型;
基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
2.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述知识分布集合中还设有对应每个同义词组的权重值。
3.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述构建同义句生成模型,包括:
构建初始深度学习模型;
在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
4.根据权利要求1所述的基于知识增强处理的FAQ相似度计算方法,其特征在于,所述将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算,包括:
调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
5.基于知识增强处理的FAQ相似度计算装置,其特征在于,所述FAQ相似度计算装置包括:
文本接收模块,用于接收客户文本,确定对应客户文本的目标文本;
相似度计算模块,用于对客户文本、目标文本进行基于知识分布的知识增强处理,基于处理结果进行FAQ相似度计算;
所述相似度计算模块,包括:
相似度第一执行单元,用于如果FAQ相似度结果大于预设阈值,输出FAQ相似度结果;
相似度第二执行单元,用于如果FAQ相似度结果不大于预设阈值,生成用于扩充客户文本、目标文本语义范围的同义句句组,基于同义句句组进行FAQ相似度计算;
所述相似度计算模块,包括:
分词处理单元,用于对客户文本以及目标文本进行分词处理;
分词判断单元,用于选取与目标文本对应的同义句构建对应目标文本的知识分布集合,判断知识分布集合中是否存在对应客户文本中已得到的分词内容;
分词填充单元,用于如果存在,则将已得到的分词内容增加至目标文本中,基于扩容后的目标文本进行对应客户文本的FAQ相似度计算;
所述相似度第二执行单元,包括:
模型构建子单元,用于构建同义句生成模型;
同义句组合子单元,用于基于同义句生成模型分别生成对应客户文本、目标文本的预设数量的同义句,将得到的同义句进行组合得到客户文本同义句句组、目标文本同义句句组;
内容转换子单元,用于将客户文本同义句句组、目标文本同义句句组中的内容转换为向量进行相似度FAQ计算。
6.根据权利要求5所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述知识分布集合中还设有对应每个同义词组的权重值。
7.根据权利要求5所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述模型构建子单元包括:
初始模型构建子单元,用于构建初始深度学习模型;
编码子单元,用于在初始深度学习模型中依次调用长短期记忆人工神经网络、多层感知器将接收到的客户文本进行编码得到的已编码向量;
解码子单元,用于在初始深度学习模型中再度依次调用多层感知器、长短期记忆人工神经网络对已编码向量进行解码,得到与客户文本相近的同义句;
模型训练子单元,用于在得到同义句的过程中将客户文本作为初始深度学习模型的输入信号、将已得到的同义句作为同义句生成过程中的监督信号对初始深度学习模型进行训练,得到同义句生成模型。
8.根据权利要求5所述的基于知识增强处理的FAQ相似度计算装置,其特征在于,所述内容转换子单元,包括:
向量转换子单元,用于调用长短期记忆人工神经网络将客户文本同义句句组、目标文本同义句句组中的内容进行编码得到句子向量;
相似度计算子单元,用于基于余弦相似度计算公式计算客户文本同义句句组中的句子向量和目标文本同义句句组中句子向量的相似度,基于计算结果构建相似度矩阵;
相似度数值选取子单元,用于选取相似度矩阵中最大值作为客户文本和目标文本的相似度数值。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至4任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行根据权利要求1至4任一项所述基于知识增强处理的FAQ相似度计算方法的步骤。
CN202011060858.9A 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备 Active CN111930920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011060858.9A CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011060858.9A CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111930920A CN111930920A (zh) 2020-11-13
CN111930920B true CN111930920B (zh) 2021-01-19

Family

ID=73333685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011060858.9A Active CN111930920B (zh) 2020-09-30 2020-09-30 基于知识增强处理的faq相似度计算方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111930920B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488164A (zh) * 2020-11-18 2021-03-12 广东电力信息科技有限公司 一种任务型对话文本增强系统
CN115033701B (zh) * 2022-08-12 2022-10-28 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101086843A (zh) * 2006-06-07 2007-12-12 中国科学院自动化研究所 一种应用于语音问答系统中的句子相似度识别方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN106503184B (zh) * 2016-10-24 2019-09-20 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN110888980B (zh) * 2019-10-10 2023-12-22 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111177349B (zh) * 2019-12-20 2022-05-17 厦门快商通科技股份有限公司 问答匹配方法、装置、设备及存储介质
CN111581354A (zh) * 2020-05-12 2020-08-25 金蝶软件(中国)有限公司 一种faq问句相似度计算方法及其系统

Also Published As

Publication number Publication date
CN111930920A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111460264B (zh) 语义相似度匹配模型的训练方法及装置
CN111930920B (zh) 基于知识增强处理的faq相似度计算方法、装置及电子设备
CN112241626A (zh) 一种语义匹配、语义相似度模型训练方法及装置
CN111382573A (zh) 用于答案质量评估的方法、装置、设备和存储介质
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112182167B (zh) 一种文本匹配方法、装置、终端设备和存储介质
CN113901200A (zh) 基于主题模型的文本摘要方法、装置及存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113761875A (zh) 事件抽取方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN109446518B (zh) 语言模型的解码方法及解码器
US20230075339A1 (en) Method of training information generation model, method of generating information, and device
CN112507081B (zh) 相似句匹配方法、装置、计算机设备及存储介质
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN113704452B (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN111061851B (zh) 基于给定事实的问句生成方法及系统
CN114936564A (zh) 一种基于对齐变分自编码的多语言语义匹配方法及系统
CN113177406A (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN112989040A (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN114579608B (zh) 基于表格数据的人机交互方法、装置及设备
WO2023168814A1 (zh) 句子向量生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant