CN113420113A

CN113420113A - 语义召回模型训练、召回问答方法、装置、设备及介质

Info

Publication number: CN113420113A
Application number: CN202110688537.1A
Authority: CN
Inventors: 陆林炳; 刘志慧; 金培根; 林加新; 李炫�
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-09-21
Anticipated expiration: 2041-06-21
Also published as: CN113420113B

Abstract

本发明涉及人工智能的模型构建领域，提供一种语义召回模型训练、召回问答方法、装置、设备及介质，所述方法包括：通过获取包含标准问题和相似问题的问题对样本集；通过实体识别模型进行场景实体识别，并识别出标准实体集和相似实体集，以及通过意图识别模型进行意图语义识别，并识别出标准意图结果和相似意图结果；通过含有初始参数的孪生网络模型进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度；确定出相似度结果和总损失值；在未达到预设的收敛条件时，运用共享参数方法迭代更新初始参数，直至收敛，并得到语义召回模型。本发明实现了语义、领域知识、实体及意图维度进行问题识别，提高了问题召回的准确性和质量。

Description

语义召回模型训练、召回问答方法、装置、设备及介质

技术领域

本发明涉及人工智能的模型构建领域，尤其涉及一种语义召回模型训练、召回问答方法、装置、计算机设备及存储介质。

背景技术

目前，语义召回模型被广泛地应用于AI问答系统中，随着科技的发展，越来越多的地方以AI问答系统来代替人工问答，以提高认为处理效率。其中，语义召回模型在其中担任重要角色。

然而，随着信息时代的高速发展，模型需要处理的语料数据也越来越庞大，精度也越来越高，覆盖面也越来越广，就要求当前的语义召回模型收集大量的训练样本，但是在某些业务场景中获取训练样本十分昂贵或者艰难，例如业务场景为购物咨询、医疗问答等等，在训练样本少的情况下，就会导致大量的知识缺失或者学习不够充分，以致语义召回模型的准确率低的技术问题。

发明内容

本发明提供一种语义召回模型训练、召回问答方法、装置、计算机设备及存储介质，实现了模型在学习的时候能够不仅从原始的问题对中的语义进行识别，还从领域知识、实体及意图方面进行识别，提高了问题召回的准确性和质量。

一种语义召回模型训练方法，包括：

获取问题对样本集；所述问题对样本集包括多个从专家领域知识库中获得的问题对样本；一个所述问题对样本包括一个标准问题和一个与所述标准问题对应的相似问题；

通过实体识别模型分别对所述标准问题和所述相似问题进行场景实体识别，并识别出与所述标准问题对应的标准实体集和与所述相似问题对应的相似实体集，以及通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果；

将所述标准问题、所述相似问题、所述标准实体集、所述相似实体集、所述标准意图结果和所述相似意图结果输入含有初始参数的孪生网络模型中；

通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度；

根据所述语义相似度、所述实体相似度和所述意图相似度，确定出总损失值；

在所述总损失值未达到预设的收敛条件时，运用共享参数方法迭代更新所述孪生网络模型中的初始参数，直至所述总损失值达到所述收敛条件，将收敛之后的所述孪生网络模型记录为语义召回模型。

一种召回问答方法，包括：

接收用户的问答请求，获取所述问答请求中的用户问题；

通过业务场景识别模型对所述用户问题进行业务场景识别，得到业务场景结果；

从候选库中获取与所述业务场景结果匹配的候选问题，并将所述用户问题和各所述候选问题组成多个问题对；一个所述问题对包括一个所述用户问题和一个所述候选问题；

将各所述问题对分别输入通过上述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题；

对所有所述问题对的相似度结果进行降序排序，并将排序第一的所述问题对中的所述候选问题进行召回，以及返回与该候选问题对应的回答文本至与所述用户对应的客户端。

一种语义召回模型训练装置，包括：

获取模块，用于获取问题对样本集；所述问题对样本集包括多个从专家领域知识库中获得的问题对样本；一个所述问题对样本包括一个标准问题和一个与所述标准问题对应的相似问题；

识别模块，用于通过实体识别模型分别对所述标准问题和所述相似问题进行场景实体识别，并识别出与所述标准问题对应的标准实体集和与所述相似问题对应的相似实体集，以及通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果；

输入模块，用于将所述标准问题、所述相似问题、所述标准实体集、所述相似实体集、所述标准意图结果和所述相似意图结果输入含有初始参数的孪生网络模型中；

匹配模块，用于通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度；

损失模块，用于根据所述语义相似度、所述实体相似度和所述意图相似度，确定出总损失值；

训练模块，用于在所述总损失值未达到预设的收敛条件时，运用共享参数方法迭代更新所述孪生网络模型中的初始参数，直至所述总损失值达到所述收敛条件，将收敛之后的所述孪生网络模型记录为语义召回模型。

一种召回问答装置，包括：

请求模块，用于接收用户的问答请求，获取所述问答请求中的用户问题；

场景模块，用于通过业务场景识别模型对所述用户问题进行业务场景识别，得到业务场景结果；

组合模块，用于从候选库中获取与所述业务场景结果匹配的候选问题，并将所述用户问题和各所述候选问题组成多个问题对；一个所述问题对包括一个所述用户问题和一个所述候选问题；

确定模块，用于将各所述问题对分别输入通过上述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题；

返回模块，用于对所有所述问题对的相似度结果进行降序排序，并将排序第一的所述问题对中的所述候选问题进行召回，以及返回与该候选问题对应的回答文本至与所述用户对应的客户端。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语义召回模型训练方法的步骤，或者所述处理器执行所述计算机程序时实现上述召回问答方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述语义召回模型训练方法的步骤，或者所述计算机程序被处理器执行所述计算机程序时实现上述召回问答方法的步骤。

本发明提供的语义召回模型训练方法、装置、计算机设备及存储介质，通过获取包含有标准问题和相似问题的问题对样本集；通过实体识别模型分别对所述标准问题和所述相似问题进行场景实体识别，并识别出标准实体集和相似实体集，以及通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出标准意图结果和相似意图结果；通过含有初始参数的孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度；并确定出相似度结果和总损失值；在所述总损失值未达到预设的收敛条件时，运用共享参数方法迭代更新所述孪生网络模型中的初始参数，直至所述总损失值达到所述收敛条件，将收敛之后的所述孪生网络模型记录为语义召回模型，如此，实现了通过获取基于专家领域知识库的问题对样本集，实体识别模型对问题对样本进行场景实体识别，识别出标准实体集和相似实体集，并通过意图识别模型对问题对样本进行意图语义识别，识别出标准意图结果和相似意图结果，以及通过孪生网络模型进行语义匹配处理，获得总损失值，通过共享参数方法不断将领域知识、实体和意图融入模型训练中，直至训练完成获得语义召回模型，能够将专家的知识融入到语义召回模型的训练中，模型在学习的时候能够不仅从原始的问题对中的语义进行识别，还从领域知识、实体及意图方面进行识别，提高了问题召回的准确性和质量。

本发明提供的召回问答方法、装置、计算机设备及存储介质，实现了通过运用训练完成的语义召回模型，在原始文本语义的基础上，结合领域知识、实体和意图等维度，自动从候选库中召回所有相似度结果中降序排序第一的候选问题，自动回复回答该候选问题的回答文本，提高了问答对话中的回答准确率，提高了用户的体验满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语义召回模型训练方法或召回问答方法的应用环境示意图；

图2是本发明一实施例中语义召回模型训练方法的流程图；

图3是本发明一实施例中语义召回模型训练方法的步骤S10的流程图；

图4是本发明一实施例中语义召回模型训练方法的步骤S20的流程图；

图5是本发明一实施例中语义召回模型训练方法的步骤S40的流程图；

图6是本发明一实施例中召回问答方法的流程图；

图7是本发明一实施例中语义召回模型训练装置的原理框图；

图8是本发明一实施例中召回问答装置的原理框图；

图9是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的语义召回模型训练方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语义召回模型训练方法，其技术方案主要包括以下步骤S10-S60：

S10，获取问题对样本集；所述问题对样本集包括多个从专家领域知识库中获得的问题对样本；一个所述问题对样本包括一个标准问题和一个与所述标准问题对应的相似问题。

可理解地，所述专家领域知识库存储了历史收集的与业务场景相关的专家标注的问题对样本，所述问题对样本为通过从专家领域知识库中获取不同业务场景的标准问题，对该标准问题进行分词，得到多个单元词，并通过词性识别模型识别出各个所述单元词的词性，再通过问句生成模型进行问句生成处理，得到与所述标准问题对应的所述相似问题，从而将该标准问题和该相似问题确定获得，例如：标准问题为“XXX书购买”，相似问题为：“XXX书该怎么购买”、“XXX书如何购买”或“要购买XXX书怎么做”等等。

在一实施例中，如图3所示，所述步骤S10之前，即所述获取问题对样本集之前，包括：

S101，从专家领域知识库中获取所述标准问题。

可理解地，所述专家领域知识库存储了历史收集的与业务场景相关的专家标注的问题对样本，所述标准问题为通过专家标注且与业务场景相关的问题，所述标准问题可以通过多个专家的标注分布进行获得。

S102，对所述标准问题进行分词，得到多个单元词。

可理解地，所述分词为将所述标准问题划分成单个词语或者字，从而将划分出的词语或者字记录为所述单元词。

S103，通过词性识别模型对各所述单元词进行词性识别，识别出各个所述单元词的词性结果。

可理解地，所述词性识别模型为训练完成的用于识别出输入的词语或者字的词性的神经网络模型，所述词性识别为以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果，词性包括名词、动词、形容词、数量词、代词、副词、介词、连词、助词、叹词、拟声词等，通过对各个所述单元词及其相邻的单元词进行提取词性特征，根据提取的所述词性特征进行分类出该单元词的词性，即为其词性结果。

S104，根据所有所述单元词的词性结果，通过问句生成模型进行问句生成处理，得到与所述标准问题对应的多个所述相似问题。

可理解地，所述问句生成模型集成了所有问句模板，根据所有所述单元词的词性结果进行分类，将各所述单元词根据各所述问句模板中的相应位置进行填充，将填充后的问句模板确定为待处理问句，所述问句生成模型还为通过问句特征进行训练获得的神经网络模型，通过所述问句生成模型对各所述待处理问句进行提取问句特征，根据提取各所述待处理问句的所述问句特征识别出各所述待处理问句是否为问句，将识别为是问句的所述待处理问句记录为所述相似问题。

其中，所述问句生成模型的网络结构可以根据需求设定，比如网络结构可以为LSTM、Bi-LSTM、BERT等网络结构。

在一实施例中，所述步骤S104中，即所述根据所有所述单元词的词性结果，通过问句生成模型进行问句生成处理，得到与所述标准问题对应的多个所述相似问题，包括：

S1041，通过所述问句生成模型对所有与所述标准问题对应的所述词性结果进行分类及筛选处理，得到与预设词性相同的待处理词。

可理解地，所述预设词性可以根据需求设定，比如设置为名词和动词，因为一般问句通过主谓语组成体现用户的问题方向，从所有所述词性结果中，将与所述预设词性相同的所述词性结果对应的所述单元词记录为所述待处理词。

S1042，通过所述问句生成模型将所有所述待处理词填充至问句模板库中的各问句模板中，得到与各所述问句模板对应的待处理问句。

可理解地，将所述待处理词填充至各所述问句模板中与所述预设词性对应的相应位置，即将为名词的所述待处理词填充值所述问句模板中名词的位置，将为动词的所述问句模板中动词的位置，一个所述待处理词填充一个位置，即通过多种组合填充的方式，从而得到多个不同的所述待处理问句。

S1043，运用Bi-LSTM算法，通过所述问句生成模型对各所述待处理问句进行上下文语义识别，得到识别结果；所述识别结果表征了所述待处理问句是否为问句。

可理解地，所述Bi-LSTM算法也称为双向长短时记忆网络算法，所述Bi-LSTM算法通过正向和逆向两个方向进行共同编码以进行上下文语义识别的算法，所述问句生成模型为基于Bi-LSTM的神经网络模型，所述问句生成模型能够识别出输入的句子是否为问句，对各个所述待处理问句进行提取问句特征，根据提取各个所述待处理问句的所述问句特征，确定出各个所述待处理问句是否为问句。

S1044，将与所述识别结果是问句对应的所述待处理问句确定为与所述标准问题对应的所述相似问题。

可理解地，将所述识别结果为问句的所述待处理问句记录为所述相似问题。

本发明实现了通过所述问句生成模型对所有与所述标准问题对应的所述词性结果进行分类及筛选处理，得到与预设词性相同的待处理词；通过所述问句生成模型将所有所述待处理词填充至问句模板库中的各问句模板中，得到与各所述问句模板对应的待处理问句；运用Bi-LSTM算法，通过所述问句生成模型对各所述待处理问句进行上下文语义识别，得到识别结果；将与所述识别结果是问句对应的所述待处理问句确定为与所述标准问题对应的所述相似问题，如此，实现了根据标准问题自动生成相似问题，无需人工生成，减少了生成成本，而且提高了生成效率。

S105，将该标准问题和一个与该标准问题对应的所述相似问题确定为一个所述问题对样本。

可理解地，将所述标准问题和一个与该标准问题对应的所述相似问题进行组合，按照二元组的方式进行组合，构成一个所述问题对样本。

本发明实现了通过从专家领域知识库中获取所述标准问题；对所述标准问题进行分词，得到多个单元词；通过词性识别模型对各所述单元词进行词性识别，识别出各个所述单元词的词性结果；根据所有所述单元词的词性结果，通过问句生成模型进行问句生成处理，得到与所述标准问题对应的多个所述相似问题；将该标准问题和一个与该标准问题对应的所述相似问题确定为一个所述问题对样本，如此，通过专家领域知识库、词性识别模型和问句生成模型，自动生成问题对样本，提供了科学地获得问题对样本的方法，为后续的语义召回模型中融入专家领域知识，提高了召回的准确率。

S20，通过实体识别模型分别对所述标准问题和所述相似问题进行场景实体识别，并识别出与所述标准问题对应的标准实体集和与所述相似问题对应的相似实体集，以及通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果。

可理解地，所述实体识别模型为运用命名实体识别(Named Entity Recognition，NER)算法，通过与业务场景相关的命名实体进行训练完成获得的模型，所述场景实体识别为从所述标准问题和所述相似问题中提取出与业务场景相关的实体的过程，从而将从所述标准问题中提取出的实体进行汇总，得到所述标准实体集，将从所述相似问题中提取出的实体进行汇总，得到所述相似实体集。

其中，所述意图识别模型为基于Bi-LSTM和CRF并通过与业务场景相关的意图术语相关的样本进行训练完成获得的模型，所述意图识别模型对所述标准问题进行上下文的意图特征提取，根据提取的该意图特征进行识别，识别的过程包括运用CRF(条件随机场)的约束规则进行词性标注及评判，进而预测出各种意图类别的概率，最终得到所述标准问题的意图结果，即所述标准问题的意图类别，同时对所述相似问题进行上下文的意图特征提取，根据提取的该意图特征进行识别，得到所述相似问题的意图结果，即所述相似问题的意图类别。

在一实施例中，如图4所示，所述步骤S20中，即所述通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果，包括：

S201，根据所述标准实体集，对所述标准问题中的实体进行遮掩，得到标准遮掩问题，同时根据所述相似实体集，对所述相似问题中的实体进行遮掩，得到相似遮掩问题；

可理解地，在所述标准问题中遮掩所述标准实体集中的实体，将遮掩后的所述标准问题确定为所述标准遮掩问题，在所述相似问题中遮掩所述相似实体集中的实体，将遮掩后的所述相似问题确定为所述相似遮掩问题，比如：“平安福怎么投保”遮掩后为“[Mask]怎么投保”。

S202，通过所述意图识别模型分别对所述标准遮掩问题和所述相似遮掩问题进行意图特征提取；

可理解地，所述意图特征为与上下文语义体现的意图相关的类型的特征，所述意图特征中与实体不相关，只跟意图的动作类型相关。

S203，根据从所述标准遮掩问题中提取的意图特征进行意图语义识别，得到所述标准意图结果，同时根据从所述相似遮掩问题中提取的意图特征进行意图语义识别，得到所述相似意图结果。

可理解地，所述标准意图结果表征了所述标准遮掩问题的动作类型，所述相似意图结果表征了所述相似遮掩问题的动作类型。

本发明实现了通过根据所述标准实体集，对所述标准问题中的实体进行遮掩，得到标准遮掩问题，同时根据所述相似实体集，对所述相似问题中的实体进行遮掩，得到相似遮掩问题；通过所述意图识别模型分别对所述标准遮掩问题和所述相似遮掩问题进行意图特征提取；根据从所述标准遮掩问题中提取的意图特征进行意图语义识别，得到所述标准意图结果，同时根据从所述相似遮掩问题中提取的意图特征进行意图语义识别，得到所述相似意图结果，如此，实现了通过遮掩及意图语义识别，自动识别出标准问题和相似问题的意图，为后续的召回融入问题的意图维度，提高了召回的准确性。

S30，将所述标准问题、所述相似问题、所述标准实体集、所述相似实体集、所述标准意图结果和所述相似意图结果输入含有初始参数的孪生网络模型中。

可理解地，所述孪生网络模型包含有所述初始参数，所述初始参数设置为共享参数的各层的参数，所述孪生网络模型为由两路相同的神经网络模型对输入的问题对进行卷积提取出语义向量的模型。

S40，通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度。

可理解地，所述孪生网络模型为基于BERT的神经网络模型，所述孪生网络模型包括原始孪生网络模型、实体孪生网络模型和意图孪生网络模型；所述语义匹配处理为通过原始孪生网络模型对所述标准问题和所述相似问题进行语义识别，分别得到与所述标准问题对应的原始标准向量和与所述相似问题对应的原始相似向量，同时通过实体孪生网络模型对所述标准实体集和所述相似实体集进行语义识别，分别得到与所述标准实体集对应的实体标准向量和与所述相似实体集对应的实体相似向量，以及通过意图孪生网络模型对所述标准意图结果和所述相似意图结果进行语义识别，分别得到与所述标准意图结果对应的意图标准向量和与所述相似意图结果对应的意图相似向量，运用余弦相似度算法，计算所述原始标准向量和所述原始相似向量之间的相似度，将其确定为语义相似度，以及计算所述意图标准向量和所述意图相似向量之间的相似度，将其确定为意图相似度，运用交叉熵损失函数，计算所述实体标准向量和所述实体相似向量之间的相似度，将其确定为实体相似度。

其中，所述语义识别为将输入的文本内容进行词向量转换(Embedding)，将词向量转换后的特征向量进行语义特征提取，并对提取的语义特征进行全连接，输出全连接特征向量，所述语义相似度为所述标准问题与所述相似问题之间的语义相似程度，所述实体相似度为所述标准实体集与所述相似实体集之间的语义相似程度，所述意图相似度为所述标准意图结果与所述相似意图结果之间的语义相似度。

在一实施例中，如图5所示，所述步骤S40中，即所述通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度，包括：

S401，通过原始孪生网络模型对所述标准问题和所述相似问题进行语义识别，分别得到与所述标准问题对应的原始标准向量和与所述相似问题对应的原始相似向量；其中，所述孪生网络模型包括原始孪生网络模型、实体孪生网络模型和意图孪生网络模型；所述原始孪生网络模型、所述实体孪生网络模型和所述意图孪生网络模型之间共享参数；

可理解地，所述原始孪生网络模型、所述实体孪生网络模型和所述意图孪生网络模型之间共享参数，即所述原始孪生网络模型、所述实体孪生网络模型和所述意图孪生网络模型的网络结构相同，即包括的层级相同以及各层的参数相同，所述共享参数方法还包括跨层参数共享方法，所述跨层参数共享的方法为将每层的权重参数进行共享，将各层的权重参数设置成一致，或者各层的权重参数通过由共享基本参数和公差参数构成，各层的共享基本参数一致，通过所述语义识别，分别对所述标准问题和所述相似问题进行词嵌入向量转换，分别得到所述原始标准向量和所述原始相似向量。

其中，所述孪生网络模型为基于BERT的神经网络模型，所述BERT为词嵌入向量转换，将输入的文本转换成向量的形式。

S402，通过实体孪生网络模型对所述标准实体集和所述相似实体集进行语义识别，分别得到与所述标准实体集对应的实体标准向量和与所述相似实体集对应的实体相似向量；

可理解地，通过所述语义识别，分别对所述标准实体集和所述相似实体集进行词嵌入向量转换，分别得到所述实体标准向量和所述实体相似向量。

S403，通过意图孪生网络模型对所述标准意图结果和所述相似意图结果进行语义识别，分别得到与所述标准意图结果对应的意图标准向量和与所述相似意图结果对应的意图相似向量；

可理解地，通过所述语义识别，分别对所述标准意图结果和所述相似意图结果进行词嵌入向量转换，分别得到所述意图标准向量和所述意图相似向量。

S404，运用余弦相似度算法，根据所述原始标准向量和所述原始相似向量，确定出所述语义相似度，以及根据所述意图标准向量和所述意图相似向量，确定出所述意图相似度；

可理解地，所述余弦相似度算法为计算两个文本向量之间的余弦相似程度的算法，即计算两个文本向量之间的余弦值，通过计算所述原始标准向量和所述原始相似向量之间的余弦值，得到所述语义相似度，同时计算所述意图标准向量和所述意图相似向量之间的余弦值，得到所述意图相似度。

S405，运用交叉熵损失函数，根据所述实体标准向量和所述实体相似向量，确定出所述实体相似度。

可理解地，通过将所述实体标准向量和所述实体相似向量输入所述交叉熵损失函数(Cross Entropy Loss Function)中，可以计算得出所述实体相似度。

本发明实现了通过原始孪生网络模型对标准问题和相似问题进行语义识别，通过实体孪生网络模型对标准实体集和相似实体集进行语义识别，通过意图孪生网络模型对标准意图结果和相似意图结果进行语义识别，并运用余弦相似度算和交叉熵损失函数，确定出语义相似度、实体相似度和意图相似度，能够科学地、准确地衡量出语义相似度为标准问题与相似问题之间的语义相似程度，标准实体集与相似实体集之间的语义相似程度，标准意图结果与相似意图结果之间的语义相似度。

S50，根据所述语义相似度、所述实体相似度和所述意图相似度，确定出总损失值。

可理解地，运用损失转换方法，将所述语义相似度、所述实体相似度和所述意图相似度转换成同一衡量维度的数值，所述损失转换方法为将余弦值转换成与所述实体损失值相同维度的并能够体现损失差距的对数格式的值，通过所述损失转换方法，分别将所述语义相似度转换成语义损失值和将所述意图相似度转换成意图损失值，再将所述语义损失值、所述实体损失值和所述意图损失值求和，得到所述总损失值，所述总损失值表明了所述标准问题和所述相似问题之间综合语义、实体和意图三个维度的真实差距。

在一实施例中，所述步骤S50中，即所述根据所述语义相似度、所述实体相似度和所述意图相似度，确定出总损失值，包括：

运用损失转换方法，将所述语义相似度转换成语义损失值，同时将所述意图相似度转换成意图损失值；

可理解地，所述损失转换方法为将余弦值转换成与所述实体损失值相同维度的并能够体现损失差距的对数格式的值。

将所述语义损失值、所述实体损失值和所述意图损失值输入总损失函数，计算出所述总损失值；所述总损失函数为：

L＝α₁L₁+α₂L₂+α₃L₃

其中：

L为总损失值；

L₁为所述语义损失值；

L₂为所述实体损失值；

L₃为所述意图损失值；

α₁为所述语义损失权重；

α₂为所述实体损失权重；

α₃为所述意图损失权重。

可理解地，通过所述语义损失权重、所述实体损失权重和所述意图损失权重，能够不断训练调整语义、实体和意图之间对整个输出的总损失值的占比，通过各自的占比调整各自对输出的总损失值的影响程度。

S60，在所述总损失值未达到预设的收敛条件时，运用共享参数方法迭代更新所述孪生网络模型中的初始参数，直至所述总损失值达到所述收敛条件，将收敛之后的所述孪生网络模型记录为语义召回模型。

可理解地，所述收敛条件可以为所述总损失值经过了3000次计算后值为很小且不会再下降的条件，即在所述总损失值经过3000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的所述孪生网络模型记录为语义召回模型；所述收敛条件也可以为所述总损失值小于设定阈值的条件，即在所述总损失值小于设定阈值时，停止训练，并将收敛之后的所述孪生网络模型记录为语义召回模型，如此，在所述总损失值未达到预设的收敛条件时，不断通过共享参数方法迭代更新所述孪生网络模型中的初始参数，可以不断向准确的结果靠拢，提高了识别问题之间相似程度的准确性和可靠性，提高了问题召回的准确性和质量。如此，能够优化预标注的识别，提高了预标注的准确性和可靠性。

其中，所述共享参数方法为所述孪生网络模型中的所述原始孪生网络模型、所述实体孪生网络模型和所述意图孪生网络模型的网络结构相同，即包括的层级相同以及各层的参数相同，所述共享参数方法还包括跨层参数共享方法，所述跨层参数共享的方法为将每层的权重参数进行共享，将各层的权重参数设置成一致，或者各层的权重参数通过由共享基本参数和公差参数构成，各层的共享参数一致，训练过程中，向共享基本参数一致靠拢，训练后将公差参数不为零的该层进行标记并组成数组，大大压缩了各层的权重参数的容量，如此，不断训练获得所述语义召回模型的容量和难度都大大降低。

如此，本发明实现了通过获取基于专家领域知识库的问题对样本集，实体识别模型对问题对样本进行场景实体识别，识别出标准实体集和相似实体集，并通过意图识别模型对问题对样本进行意图语义识别，识别出标准意图结果和相似意图结果，以及通过孪生网络模型进行语义匹配处理，获得总损失值，通过共享参数方法不断将领域知识、实体和意图融入模型训练中，直至训练完成获得语义召回模型，能够将专家的知识融入到语义召回模型的训练中，模型在学习的时候能够不仅从原始的问题对中的语义进行识别，还从领域知识、实体及意图方面进行识别，提高了问题召回的准确性和质量。

本发明提供的召回问答方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图6示，提供一种召回问答方法，其技术方案主要包括以下步骤S100-S200：

S100，接收用户的问答请求，获取所述问答请求中的用户问题。

可理解地，在所述用户提出问题需要获得答案的时候，输入所述用户问题之后，点击确认按钮，从而触发所述问答请求，所述问答请求包括所述用户问题，所述用户问题为用户提出的问题的文本内容。

S200，通过业务场景识别模型对所述用户问题进行业务场景识别，得到业务场景结果。

可理解地，所述业务场景识别模型为训练完成的用于提取输入的问题的业务场景特征，根据提取的所述业务场景特征识别出所属的业务场景类别的神经网络模型，所述业务场景特征为与业务场景类别相关的特征，对所述用户问题进行词向量转换，对词向量转换后的所述用户问题进行业务场景特征提取，从而根据提取的所述业务场景特征进行分类，得到所述业务场景结果。

S300，从候选库中获取与所述业务场景结果匹配的候选问题，并将所述用户问题和各所述候选问题组成多个问题对；一个所述问题对包括一个所述用户问题和一个所述候选问题。

可理解地，所述候选库为通过基于专家知识领域的知识图谱生成的与各个所述业务场景类别对应的所述候选问题，所述候选问题为各个业务场景类别中经过对所述知识图谱中的各个载体进行关联关系分析生成各个业务场景下提出的大多数问题或者出现概率较高的问题，将所述用户问题和各个所述候选问题按照二元组的方式进行组合，构成多个所述问题对，其中，一个所述问题对包括一个所述用户问题和一个所述候选问题。

S400，将各所述问题对分别输入通过上述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题。

可理解地，所述语义召回模型为通过上述语义召回模型训练方法训练完成获得，所述用户问题相当于标准问题，所述候选问题相当于相似问题，将各所述问题对分别输入训练完成的语义召回模型，通过训练完成的所述语义召回模型能够确定出各所述问题对的语义相似度、实体相似度和意图相似度，将一个所述问题对的语义相似度、实体相似度和意图相似度求和，得到该所述问题对的所述相似度结果，从而获得各所述问题对的所述相似度结果，所述相似度结果表明了所述问题对中的所述标准问题和所述候选问题之间的相似程度。

S500，对所有所述问题对的相似度结果进行降序排序，并将排序第一的所述问题对中的所述候选问题进行召回，以及返回与该候选问题对应的回答文本至与所述用户对应的客户端。

可理解地，将所有所述相似度结果按照降序的方式进行排序，将排序第一的所述问题对中的所述候选问题作为最接近所述用户问题的问题，并将该问题召回，并从回答库中查找与召回的所述候选问题对应的所述回答文本，所述回答库存储了所有与各候选问题一一对应的回答文本，将查找到的所述回答文本返回至与所述用户对应的所述客户端，以展示给用户，提供满意的回答给用户，提高用户的体验满意度。

如此，本发明实现了运用训练完成的语义召回模型，在原始文本语义的基础上，结合领域知识、实体和意图等维度，自动从候选库中召回所有相似度结果中降序排序第一的候选问题，自动回复回答该候选问题的回答文本，提高了问答对话中的回答准确率，提高了用户的体验满意度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语义召回模型训练装置，该语义召回模型训练装置与上述实施例中语义召回模型训练方法一一对应。如图7所示，该语义召回模型训练装置包括获取模块11、识别模块12、输入模块13、匹配模块14、损失模块15和训练模块16。各功能模块详细说明如下：

获取模块11，用于获取问题对样本集；所述问题对样本集包括多个从专家领域知识库中获得的问题对样本；一个所述问题对样本包括一个标准问题和一个与所述标准问题对应的相似问题；

识别模块12，用于通过实体识别模型分别对所述标准问题和所述相似问题进行场景实体识别，并识别出与所述标准问题对应的标准实体集和与所述相似问题对应的相似实体集，以及通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果；

输入模块13，用于将所述标准问题、所述相似问题、所述标准实体集、所述相似实体集、所述标准意图结果和所述相似意图结果输入含有初始参数的孪生网络模型中；

匹配模块14，用于通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度；

损失模块15，用于根据所述语义相似度、所述实体相似度和所述意图相似度，确定出总损失值；

训练模块16，用于在所述总损失值未达到预设的收敛条件时，运用共享参数方法迭代更新所述孪生网络模型中的初始参数，直至所述总损失值达到所述收敛条件，将收敛之后的所述孪生网络模型记录为语义召回模型。

关于语义召回模型训练装置的具体限定可以参见上文中对于语义召回模型训练方法的限定，在此不再赘述。上述语义召回模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种召回问答装置，该召回问答装置与上述实施例中召回问答方法一一对应。如图8所示，该召回问答装置包括请求模块101、场景模块102、组合模块103、确定模块104和返回模块105。各功能模块详细说明如下：

请求模块101，用于接收用户的问答请求，获取所述问答请求中的用户问题；

场景模块102，用于通过业务场景识别模型对所述用户问题进行业务场景识别，得到业务场景结果；

组合模块103，用于从候选库中获取与所述业务场景结果匹配的候选问题，并将所述用户问题和各所述候选问题组成多个问题对；一个所述问题对包括一个所述用户问题和一个所述候选问题；

确定模块104，用于将各所述问题对分别输入通过上述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题；

返回模块105，用于对所有所述问题对的相似度结果进行降序排序，并将排序第一的所述问题对中的所述候选问题进行召回，以及返回与该候选问题对应的回答文本至与所述用户对应的客户端。

关于召回问答装置的具体限定可以参见上文中对于召回问答方法的限定，在此不再赘述。上述召回问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语义召回模型训练方法，或者召回问答方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语义召回模型训练方法，或者处理器执行计算机程序时实现上述实施例中召回问答方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语义召回模型训练方法，或者计算机程序被处理器执行时实现上述实施例中召回问答方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语义召回模型训练方法，其特征在于，包括：

2.如权利要求1所述的语义召回模型训练方法，其特征在于，所述获取问题对样本集之前，包括：

从专家领域知识库中获取所述标准问题；

对所述标准问题进行分词，得到多个单元词；

通过词性识别模型对各所述单元词进行词性识别，识别出各个所述单元词的词性结果；

根据所有所述单元词的词性结果，通过问句生成模型进行问句生成处理，得到与所述标准问题对应的多个所述相似问题；

将该标准问题和一个与该标准问题对应的所述相似问题确定为一个所述问题对样本。

3.如权利要求2所述的语义召回模型训练方法，其特征在于，所述根据所有所述单元词的词性结果，通过问句生成模型进行问句生成处理，得到与所述标准问题对应的多个所述相似问题，包括：

通过所述问句生成模型对所有与所述标准问题对应的所述词性结果进行分类及筛选处理，得到与预设词性相同的待处理词；

通过所述问句生成模型将所有所述待处理词填充至问句模板库中的各问句模板中，得到与各所述问句模板对应的待处理问句；

运用Bi-LSTM算法，通过所述问句生成模型对各所述待处理问句进行上下文语义识别，得到识别结果；所述识别结果表征了所述待处理问句是否为问句；

将与所述识别结果是问句对应的所述待处理问句确定为与所述标准问题对应的所述相似问题。

4.如权利要求1所述的语义召回模型训练方法，其特征在于，所述通过意图识别模型分别对所述标准问题和所述相似问题进行意图语义识别，并识别出与所述标准问题对应的标准意图结果和与所述相似问题对应的相似意图结果，包括：

根据所述标准实体集，对所述标准问题中的实体进行遮掩，得到标准遮掩问题，同时根据所述相似实体集，对所述相似问题中的实体进行遮掩，得到相似遮掩问题；

通过所述意图识别模型分别对所述标准遮掩问题和所述相似遮掩问题进行意图特征提取；

根据从所述标准遮掩问题中提取的意图特征进行意图语义识别，得到所述标准意图结果，同时根据从所述相似遮掩问题中提取的意图特征进行意图语义识别，得到所述相似意图结果。

5.如权利要求1所述的语义召回模型训练方法，其特征在于，所述通过所述孪生网络模型分别对所述标准问题与所述相似问题、所述标准实体集与所述相似实体集和所述标准意图结果与所述相似意图结果进行语义匹配处理，匹配出的语义相似度、实体相似度和意图相似度，包括：

通过原始孪生网络模型对所述标准问题和所述相似问题进行语义识别，分别得到与所述标准问题对应的原始标准向量和与所述相似问题对应的原始相似向量；其中，所述孪生网络模型包括原始孪生网络模型、实体孪生网络模型和意图孪生网络模型；所述原始孪生网络模型、所述实体孪生网络模型和所述意图孪生网络模型之间共享参数；

通过实体孪生网络模型对所述标准实体集和所述相似实体集进行语义识别，分别得到与所述标准实体集对应的实体标准向量和与所述相似实体集对应的实体相似向量；

通过意图孪生网络模型对所述标准意图结果和所述相似意图结果进行语义识别，分别得到与所述标准意图结果对应的意图标准向量和与所述相似意图结果对应的意图相似向量；

运用余弦相似度算法，根据所述原始标准向量和所述原始相似向量，确定出所述语义相似度，以及根据所述意图标准向量和所述意图相似向量，确定出所述意图相似度；

运用交叉熵损失函数，根据所述实体标准向量和所述实体相似向量，确定出所述实体相似度。

6.一种召回问答方法，其特征在于，包括：

接收用户的问答请求，获取所述问答请求中的用户问题；

将各所述问题对分别输入如权利要求1至5任一项所述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题；

7.一种语义召回模型训练装置，其特征在于，包括：

8.一种召回问答装置，其特征在于，包括：

确定模块，用于将各所述问题对分别输入如权利要求1至5任一项所述语义召回模型训练方法训练完成的语义召回模型中，通过所述语义召回模型输出各所述问题对的语义相似度、实体相似度和意图相似度，并根据各所述问题对的语义相似度、实体相似度和意图相似度，得出各所述问题对的相似度结果；其中，将所述用户问题作为标准问题，将所述候选问题作为相似问题；

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语义召回模型训练方法，或者所述处理器执行所述计算机程序时实现如权利要求6所述召回问答方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语义召回模型训练方法，或者所述处理器执行所述计算机程序时实现如权利要求6所述召回问答方法。