CN115408500A

CN115408500A - 问答一致性的评估方法、装置、电子设备及介质

Info

Publication number: CN115408500A
Application number: CN202110593286.9A
Authority: CN
Inventors: 李泽康; 张金超; 费政聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2022-11-29

Abstract

本申请提供了一种问答一致性的评估方法、装置、电子设备及介质。该方法包括：获取第一应答模型的第一问询语句，并获取第二应答模型响应第一问询语句生成的第一回复语句；基于第一回复语句，生成针对第一回复语句的第二问询语句；将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句；根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估，能够准确的判断第二应答模型的问答一致性是否符合要求。

Description

问答一致性的评估方法、装置、电子设备及介质

技术领域

本申请涉及计算机及通信技术领域，特别涉及一种问答一致性的评估方法、装置、电子设备及介质。

背景技术

人工智能是计算机学科的一个分支，被认为是二十一世纪三大尖端技术之一。近三十年来人工智能获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果。

人工智能技术中的自然语言处理技术可以用于实现智能问答，现有技术中，针对同一事实的问询，由于使用的语句文本不同，问答机器人可能会出现不同的回答，从而出现问答不一致的问题，导致用户无法获得确定答案。

发明内容

本申请旨在提供一种问答一致性的评估方法、装置、电子设备及介质，能够对应答模型的问答一致性进行评估，从而准确的判断第二应答模型的问答一致性是否符合要求。

根据本申请实施例的一个方面，提供了一种问答一致性的评估方法，包括：获取第一应答模型的第一问询语句，并获取所述第二应答模型响应所述第一问询语句生成的第一回复语句；基于所述第一回复语句，生成针对所述第一回复语句的第二问询语句；将所述第二问询语句输入至所述第二应答模型，并获取所述第二应答模型响应所述第二问询语句生成的第二回复语句；根据所述第一回复语句与所述第二回复语句，对所述第二应答模型的问答一致性进行评估。

根据本申请实施例的一个方面，提供了一种问答一致性的评估装置，包括：获取模块，配置为获取第一应答模型的第一问询语句，并获取所述第二应答模型响应所述第一问询语句生成的第一回复语句；生成模块，配置为基于所述第一回复语句，生成针对所述第一回复语句的第二问询语句；发送模块，配置为将所述第二问询语句输入至所述第二应答模型，并获取所述第二应答模型响应所述第二问询语句生成的第二回复语句；比较模块，配置为根据所述第一回复语句与所述第二回复语句，对所述第二应答模型的问答一致性进行评估。

在本申请的一个实施例中，基于前述方案，所述生成模块配置为：识别所述第一回复语句中的目标词；基于所述第一回复语句和所述目标词，生成针对所述目标词进行问询的第二问询语句。

在本申请的一个实施例中，基于前述方案，所述生成模块配置为：对所述第一回复语句进行分词处理，得到多个回复单词；从所述多个回复单词中选取用于表示事实和/或观点的实体词，作为所述目标词。

在本申请的一个实施例中，基于前述方案，所述生成模块配置为：将所述第一回复语句和所述目标词进行组合，得到回复组合；基于所述回复组合的语义，将所述回复组合拆分成多个语义单元；分别确定各个语义单元对应的单元表征向量，得到多个单元表征向量；基于所述多个单元表征向量，生成所述第二问询语句。

在本申请的一个实施例中，基于前述方案，所述生成模块配置为：将所述多个单元表征向量输入至特征提取单元组合，得到所述特征提取单元组合输出的单词表征向量；基于所述单词表征向量从词汇表的候选单词中，选取所述第二问询语句中位于首位的起始问询单词；将所述多个单元表征向量和所述单词表征向量，重新输入至所述特征提取单元组合，得到所述第二问询语句中的下一问询单词对应的下一单词表征向量，基于所述下一单词表征向量从所述候选单词中，选取所述第二问询语句中的下一问询单词，直至完成确定。

在本申请的一个实施例中，基于前述方案，所述特征提取单元组合包括双向特征提取单元、单向特征提取单元和序列到序列特征提取单元，所述生成模块配置为：将所述多个单元表征向量输入所述双向特征提取单元，以得到所述双向特征提取单元输出的双向特征，其中，不同的单元表征向量输入的双向特征提取单元参数不同；将所述双向特征和所述单词表征向量输入至所述单向特征提取单元，以得到所述单向特征提取单元输出的单向特征，其中，不同的单词表征向量输入的单向特征提取单元参数不同；将所述双向特征和所述单词表征向量输入至所述序列到序列特征提取单元，以得到所述序列到序列特征提取单元输出的序列特征，其中，不同的单词表征向量输入的序列到序列特征提取单元参数不同；将所述双向特征、所述单向特征和所述序列特征进行拼接，得到所述下一问询单词对应的下一单词表征向量。

在本申请的一个实施例中，基于前述方案，所述比较模块配置为：将所述第一回复语句和所述第二回复语句进行组合，得到语句组合；确定所述语句组合对应的语句参数；基于所述语句参数对所述语句组合进行编码处理，得到语句编码；基于所述语句编码，确定语句评分，根据所述语句评分评估所述第二应答模型的问答一致性。

根据本申请实施例的一个方面，提供了一种计算机可读程序介质，其存储有计算机程序指令，当所述计算机程序指令被计算机执行时，使计算机执行上任一项所述的方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上任一项所述的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请的一些实施例所提供的技术方案中，通过获取第一应答模型的第一问询语句，并获取第二应答模型响应第一问询语句生成的第一回复语句；基于第一回复语句，生成针对第一回复语句的第二问询语句；将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句，由于第二问询语句是根据被评估的第二应答模型生成的第一回复语句生成的，生成的第二问询语句能够准确的体现第二应答模型处理语言的特征，根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估，能够准确的判断第二应答模型的问答一致性是否符合要求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本申请的一个实施例的问答一致性的评估方法的流程图；

图3示意性示出了应用本申请的一个实施例的问答一致性的评估框架示意图；

图4示意性示出了根据本申请的一个实施例的问答一致性的评估装置的框图；

图5是根据一示例性实施例示出的一种电子设备的硬件图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明:

图1示出了可以应用本申请实施例的技术方案的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括第一客户端101、第二客户端102、服务器103和网络104。网络104用以在第一客户端101、第二客户端102和服务器103之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等，本申请在此不做限制。

应该理解，图1中的第一客户端101、第二客户端102、服务器103和网络104的数目仅仅是示意性的。根据实现需要，可以具有任意数目的第一客户端101、第二客户端102、服务器103和网络104。比如服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。第一客户端101、第二客户端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、聊天机器人等能够进行问答或对话的电子设备，但并不局限于此。

在本申请的一个实施例中，服务器103通过获取第一客户端101中存储的第一应答模型的第一问询语句，并获取第二客户端102存储的第二应答模型响应第一问询语句生成的第一回复语句；基于第一回复语句，生成针对第一回复语句的第二问询语句；将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句，由于第二问询语句是根据被评估的第二应答模型生成的第一回复语句生成的，生成的第二问询语句能够准确的体现第二应答模型处理语言的特征，根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估，能够准确的判断第二应答模型的问答一致性是否符合要求。

需要说明的是，本申请实施例所提供的问答一致性的评估方法一般由服务器103执行，相应地，问答一致性的评估装置一般设置于服务器103中。但是，在本申请的其它实施例中，第一客户端101及第二客户端102也可以与服务器103具有相似的功能，从而执行本申请实施例所提供的问答一致性的评估方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本申请的一个实施例的问答一致性的评估方法的流程图，该问答一致性的评估方法的执行主体可以是服务器，比如可以是图1中所示的服务器103。

参照图2所示，该问答一致性的评估方法至少包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取第一应答模型的第一问询语句，并获取第二应答模型响应第一问询语句生成的第一回复语句。

在本申请的一个实施例中，第一应答模型可以在第一客户端101中，用于实现第一客户端101的对话功能，第二应答模型可以在第二客户端102中，用于实现第二客户端102的对话功能。在本申请的其他实施例中，第一应答模型和第二应答模型可以均存储在第一客户端101中，或第一应答模型和第二应答模型可以均存储在第二客户端102中，相互辅助实现第一客户端101或第二客户端102的对话功能。

在本申请的一个实施例中，第一问询语句可以是用户或其他客户端通过第一应答模型发送的，也可以第一应答模型生成的。

在本申请的一个实施例中，第二应答模型在接收到第一问询语句后，可以识别第一问询语句中携带的来源标识，根据来源标识确定第一问询语句的所在的会话，根据包含有第一问询语句的会话的语境信息，以及根据会话中包含的语句，生成第一回复语句。

在本申请的一个实施例中，可以根据会话在接收第一问询语句之前的语境和接收第一问询语句之后的语境，预测会话中出现第一回复语句之后的语境，根据出现第一回复语句之前的语境和出现第一回复语句之后的语境之间的差异，确定第一回复语句对语境的影响作为第一回复语句的语义，从而根据第一回复语句的语义生成第一回复语句。

在本申请的一个实施例中，第二应答模型可以通过神经网络模型生成第一回复语句，神经网络模型可以是预先使用问答数据集训练的，神经网络模型的训练过程可以包括：获取问答数据集，问答数据级中的每个问询语句样本对应的标准答复语句已知，将问询语句样本输入神经网络模型，得到神经网络模型输出的输出答复语句，若输出答复语句与标准答复语句不一致，则调整神经网络模型，使得输出答复语句与标准答复语句一致。

继续参照图2，在步骤S220中，基于第一回复语句，生成针对第一回复语句的第二问询语句。

在本申请的一个实施例中，可以识别第一回复语句中的目标词；基于第一回复语句和目标词，生成针对目标词进行问询的第二问询语句，能够更加准确的针对目标词进行问询，相比于基于第一问询语句生成与第一问询语句相似的第二语句，本申请以评估对象第二应答模型输出的第一回复语句为基础，使得得到的第二问询语句能够包含第二应答模型的特征，从而使对第二应答模型的评估更加准确。

在本申请的一个实施例中，可以对第一回复语句进行分词处理，得到多个回复单词；从多个回复单词中选取用于表示事实和/或观点的实体词，作为目标词，其中，可以获取第一回复语句的语义，根据语义识别第一回复语句的边界，再根据边界对第一回复语句进行分词处理。

在本申请的一个实施例中，可以对多个回复单词分别标记词性，根据词性选取用于表示事实和/或观点的实体词，其中，实体词可以包括用于表示人名、地点、机构名、时间、日期等的词，例如，若第一回复语句是“I work at a daycare center.”则目标词可以是“daycare center”，若第一回复语句是“Ihave three kids”，则目标词可以是“three”和“kids”；可以将词性为形容词的词，确定为表示观点的词，比如，第一回复语句是“I lovekids.”则目标词可以是“love”和“kids”。

在本申请的其他实施例中，可以根据词性和回复单词的语义选取用于表示事实和/或观点的实体词。

在本申请的一个实施例中，可以将第一回复语句和目标词进行组合，得到回复组合；基于回复组合的语义，将回复组合拆分成多个语义单元；分别确定各个语义单元对应的单元表征向量，得到多个单元表征向量；基于多个单元表征向量，生成第二问询语句，其中，第一回复语句中各个单词均可以作为回复组合拆分成的一个语义单元，目标词也可以作为回复组合拆分成的一个语义单元。

在本申请的一个实施例中，可以对各个语义单元进行编码，以得到各个语义单元对应的单元表征向量。

在本申请的一个实施例中，可以将各个语义单元输入编码模型，编码模型中包含编码层，以得到编码模型输出的各个语义单元对应的单元表征向量。

在本申请的一个实施例中，可以将多个单元表征向量输入至特征提取单元组合，得到特征提取单元组合输出的单词表征向量；基于单词表征向量从词汇表的候选单词中，选取第二问询语句中位于首位的起始问询单词；将多个单元表征向量和单词表征向量，重新输入至特征提取单元组合，得到第二问询语句中的下一问询单词对应的下一单词表征向量，基于下一单词表征向量从候选单词中，选取第二问询语句中的下一问询单词，直至完成确定，从而得到第二问询语句。

在本申请的一个实施例中，可以根据已经预测出的问询单词的语义和词性，确定是否完成确定。可以是若已经预测出的问询单词词义与第二问询语句的语义，且已经预测出的问询单词词性能够形成完整的句子结构，则完成确定。

在本申请的一个实施例中，可以根据第一回复语句出现之前和第一回复语句出现之后的语境，预测第二问询语句出现后的语境，根据第一回复语句出现之后的语境和第二问询语句出现后的语境，确定第二问询语句对语境的影响，作为第二问询语句的语义。

在本申请的一个实施例中，可以根据第二问询语句的语义预测第二问询语句。

在本申请的一个实施例中，特征提取单元组合可以包括双向特征提取单元、单向特征提取单元和序列到序列特征提取单元，可以将多个单元表征向量输入双向特征提取单元，以得到双向特征提取单元输出的双向特征，其中，不同的单元表征向量输入的双向特征提取单元参数不同，从而提取到单词表征向量在不同方面的特征；将双向特征和单词表征向量输入至单向特征提取单元，以得到单向特征提取单元输出的单向特征，其中，不同的单词元表征向量输入的单向特征提取单元参数不同，从而提取到单词表征向量在不同方面的特征；将双向特征和单词表征向量输入至序列到序列特征提取单元，以得到序列到序列特征提取单元输出的序列特征，其中，不同的单词表征向量输入的序列到序列特征提取单元参数不同，从而提取到单词表征向量在不同方面的特征；将双向特征、单向特征和序列特征进行拼接，得到下一问询单词对应的下一单词表征向量。

在该实施例中，得到下一单词表征向量时，考虑到了根据多个单元表征向量得到的双向特征，即考虑到了第一回复语句整体特征和第一回复语句中各个单元表征向量的特征；还考虑到了下一单词之前的单词表征向量的特征，使得到的下一单词表征向量更加准确。

继续参照图2，在步骤S230中，将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句。

在本申请的一个实施例中，第二响应模型生成第二回复语句的过程可以参照步骤S210中第二响应模型响应生成第一回复语句的过程。第二响应模型生成第二回复语句的过程还可以参照步骤S220中服务器103基于第一回复语句生成第二问询语句的过程，在此不再赘述。

在步骤S240中，根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估。

在本申请的一个实施例中，可以将第一回复语句和第二回复语句进行组合，得到语句组合；确定语句组合对应的语句参数；基于语句参数对语句组合进行编码处理，得到语句编码；基于语句编码，确定语句评分，根据语句评分评估第二应答模型的问答一致性。

在图2的实施例中，通过获取第一应答模型的第一问询语句，并获取第二应答模型响应第一问询语句生成的第一回复语句；基于第一回复语句，生成针对第一回复语句的第二问询语句；将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句，由于第二问询语句是根据被评估的第二应答模型生成的第一回复语句生成的，生成的第二问询语句能够准确的体现第二应答模型处理语言的特征，根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估，能够准确的判断第二应答模型的问答一致性是否符合要求。

在该实施例中，不仅能够对第二应答模型的前后一致性回复质量进行评估，且能够提供一个一致性指标，指导设计人员改进第二应答模型，以使第二应答模型生成前后一致性质量更高的对话文本，促进聊天机器人领域更好更快地发展。

在本申请的一个实施例中，可以通过雇佣人工评测员，对聊天机器人生成的多轮对话内容的前后一致性情况进行打分。人工评测的结果比自动评测器的结果更加真实可靠，可通过累积大量人工评测样本，构建训练数据集，对模型进行训练后，实现模型前后一致性能力的进一步提升。且该人工评测机制，与之前雇佣人工阅读全部聊天记录相比，只需阅读同一问题的两个回复文本即可，更加省时高效。

在图2的实施例中，在步骤S210中，第一应答模型可以通过聊天机器人模型，实现第二应答模型响应第一问询语句生成的第一回复语句。在步骤S220中，可以通过聊天机器人模型，生成针对第一回复语句的第二问询语句。在步骤S230中，第二应答模型可以通过聊天机器人模型，响应第二问询语句生成第二回复语句。聊天机器人模型可以是生成式多轮对话模型(DialoGPT)、Blender模型、开放域聊天机器人模型(Plato)和基于深度学习的聊天机器人模型(DialoFlow)等。

图3示意性示出了应用本申请的一个实施例的问答一致性的评估框架示意图。如图3所示，评估框架可以包括问询模块、多轮对话模块和一致性检测模块，其中，问询模块中包括问询机器人(Inquirer)，用于识别第一回复语句中的实体词和生成第二问询语句，多轮会话模块中参与会话的对象为聊天机器人1(Chatbot1)和聊天机器人2(Chatbot2)，一致性检测模块可以包含自动评测器或包含人工评测员评测功能。

图3中评估框架的前后一致性质量评估可以按如下步骤进行：

步骤一：在多轮对话模块中，聊天机器人1与聊天机器人2完成一轮对话，具体的，聊天机器人1发出第一问询语句：“Hello,what do you do for aliving？”聊天机器人2回复第一回复语句：“I work at a daycare center,do you have kids？”；

步骤二：问询模块捕捉聊天机器人2回复文本中出现的实体词(Entity)“daycarecenter”，并生成对应实体词的第二问询语句(Question)“Where do you work？”；

步骤三：将生成的第二问询语句“Where do you work？”插入多轮对话模块，作为聊天机器人1的输出；

步骤四：在多轮对话模块中，聊天机器人2响应第二问询语句“Where do youwork？回复第二回复语句“A daycare center for young children.”；

步骤五：在一致性检测模块中，将第一回复语句文本“A daycare center foryoung children.”与第二回复语句文本“I work at a daycare center,do you havekids？”作为输入，自动评测器输出聊天机器人2的两次回复是否符合前后一致性的评价结果，或由人工评测员评估聊天机器人2的两次回复是否符合前后问答一致性的评价结果，得到一致性检测模块中显示的符合结果。

在图3的实施例中，对聊天机器人2进行了第二次评估，使用的一轮对话为：聊天机器人1发出第一问询语句：“Yes,Ihave two children.How ablut you？”聊天机器人2回复第一回复语句：“I have three kids，one son and two daughters.”则问询机器人识别到聊天机器人2回复第一回复语句中出现的实体词(Entity)“three”，并生成对应实体词的第二问询语句(Question)“How many kids do you have？”作为聊天机器人1的输出；聊天机器人2响应第二问询语句“How many kids do you have？”回复第二回复语句“Ihave nokids.Iwish to have one.”；将聊天机器人2的第一回复语句文本“I have three kids,one son and two daughters.”和第二回复语句文本“Ihave no kids.Iwish to haveone”输入一致性检测模块中，以评估聊天机器人2的两次回复是否符合前后问答一致性的评价结果，得到一致性检测模块中显示的不符合结果。

在图3的实施例中，聊天机器人1、2可以使用开源聊天机器人模型实现，如生成式多轮对话模型(DialoGPT)、Blender模型、开放域聊天机器人模型(Plato)和基于深度学习的聊天机器人模型(DialoFlow)。聊天机器人1可以随机输出一句自然语言文本，聊天机器人2将这个自然语言文本作为第一问询语句输入，并输出一句回复文本作为第一回复语句。当聊天机器人1接收来自问询模块的输出作为输入时，聊天机器人1将该问询模块的输出作为第二问询语句，将第二问询语句作为聊天机器人2的输入，使聊天机器人2生成对应问询模块的输出的第二回复语句文本。在问询模块中，实体词查询器可以使用命名实体识别工具Stanza实现，问题生成器可以由问题生成模型UniLM实现。查询器将聊天机器人2的回复文本作为输入，提取观点和事实性知识相关的实体词，问题生成器将实体词作为输入，生成对实体词的质询问题，插入到多轮对话模块中。在一致性检测模块中，自动评测器可以使用矛盾检测模型Roberta-large实现，将聊天机器人2对同一问题生成的两次回复作为输入，输出前后一致性评测指标分数。人工评测员与自动评测器的输入相同，能够提供比自动评测器更准确的评估分数。

图3的实施例提供了一个公开的评价指标框架，可以计算任意聊天机器人的前后一致性质量评估分数。使用该框架对目前性能最好的4个开放域聊天机器人的前后一致性评测指标结果如表1，表1为目前性能最好的4个开放域聊天机器人的前后一致性评测指标结果，记为Contradiction Rate(Auto)。表1的行和列分别为聊天机器人1和聊天机器人2的具体名称其中，BL、PL、DG和DF分别为Blender、Plato、DialoGPT和DialoFlow)，表格元素值为评测指标结果。表1为所提出的AIH的评测指标结果，对4个聊天机器人的前后一致性排名为：PL>DG>DF>BL；表2为人工评测指标结果,记为Contradiction Rate(Human)，聊天机器人的排名为：PL>DG>DF>BL，与评测指标的排名一致，证明了该评价指标的有效性。

表1

表2

Contradiction Rate(Human)↓

图3所提出的框架可以督促开放域聊天机器人模型生成更具有前后一致性的回复，减少其产生矛盾回复的情况，为开放域聊天机器人的未来研究工作提供便利和指导，使聊天机器人更“类人”。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的问答一致性的评估方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的问答一致性的评估方法的实施例。

图4示意性示出了根据本申请的一个实施例的问答一致性的评估装置的框图。

参照图4所示，根据本申请的一个实施例的问答一致性的评估装置400，包括获取模块401、生成模块402、发送模块403和比较模块404。

根据本申请实施例的一个方面，基于前述方案，获取模块401配置为获取第一应答模型的第一问询语句，并获取第二应答模型响应第一问询语句生成的第一回复语句；生成模块402配置为基于第一回复语句，生成针对第一回复语句的第二问询语句；发送模块403配置为将第二问询语句输入至第二应答模型，并获取第二应答模型响应第二问询语句生成的第二回复语句；比较模块404配置为根据第一回复语句与第二回复语句，对第二应答模型的问答一致性进行评估。

在本申请的一个实施例中，基于前述方案，生成模块402配置为：识别第一回复语句中的目标词；基于第一回复语句和目标词，生成针对目标词进行问询的第二问询语句。

在本申请的一个实施例中，基于前述方案，生成模块402配置为：对第一回复语句进行分词处理，得到多个回复单词；从多个回复单词中选取用于表示事实和/或观点的实体词，作为目标词。

在本申请的一个实施例中，基于前述方案，生成模块402配置为：将第一回复语句和目标词进行组合，得到回复组合；基于回复组合的语义，将回复组合拆分成多个语义单元；分别确定各个语义单元对应的单元表征向量，得到多个单元表征向量；基于多个单元表征向量，生成第二问询语句。

在本申请的一个实施例中，基于前述方案，生成模块402配置为：将多个单元表征向量输入至特征提取单元组合，得到特征提取单元组合输出的单词表征向量；基于单词表征向量从词汇表的候选单词中，选取第二问询语句中位于首位的起始问询单词；将多个单元表征向量和单词表征向量，重新输入至特征提取单元组合，得到第二问询语句中的下一问询单词对应的下一单词表征向量，基于下一单词表征向量从候选单词中，选取第二问询语句中的下一问询单词，直至完成确定。

在本申请的一个实施例中，基于前述方案，特征提取单元组合包括双向特征提取单元、单向特征提取单元和序列到序列特征提取单元，生成模块402配置为：将多个单元表征向量输入双向特征提取单元，以得到双向特征提取单元输出的双向特征，其中，不同的单元表征向量输入的双向特征提取单元参数不同；将双向特征和单词表征向量输入至单向特征提取单元，以得到单向特征提取单元输出的单向特征，其中，不同的单词表征向量输入的单向特征提取单元参数不同；将双向特征和单词表征向量输入至序列到序列特征提取单元，以得到序列到序列特征提取单元输出的序列特征，其中，不同的单词表征向量输入的序列到序列特征提取单元参数不同；将双向特征、单向特征和序列特征进行拼接，得到下一问询单词对应的下一单词表征向量。

在本申请的一个实施例中，基于前述方案，比较模块404配置为：将第一回复语句和第二回复语句进行组合，得到语句组合；确定语句组合对应的语句参数；基于语句参数对语句组合进行编码处理，得到语句编码；基于语句编码，确定语句评分，根据语句评分评估第二应答模型的问答一致性。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本申请的这种实施方式的电子设备50。图5显示的电子设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于：上述至少一个处理单元51、上述至少一个存储单元52、连接不同系统组件(包括存储单元52和处理单元51)的总线53、显示单元54。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元51执行，使得所述处理单元51执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元52可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)521和/或高速缓存存储单元522，还可以进一步包括只读存储单元(ROM)523。

存储单元52还可以包括具有一组(至少一个)程序模块525的程序/实用工具524，这样的程序模块525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线53可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备50也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备50交互的设备通信，和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请一个实施例，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

根据本申请一个实施例，用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种问答一致性的评估方法，其特征在于，包括：

获取第一应答模型的第一问询语句，并获取所述第二应答模型响应所述第一问询语句生成的第一回复语句；

基于所述第一回复语句，生成针对所述第一回复语句的第二问询语句；

将所述第二问询语句输入至所述第二应答模型，并获取所述第二应答模型响应所述第二问询语句生成的第二回复语句；

根据所述第一回复语句与所述第二回复语句，对所述第二应答模型的问答一致性进行评估。

2.根据权利要求1所述的问答一致性的评估方法，其特征在于，所述基于所述第一回复语句，生成针对所述第一回复语句的第二问询语句，包括：

识别所述第一回复语句中的目标词；

基于所述第一回复语句和所述目标词，生成针对所述目标词进行问询的第二问询语句。

3.根据权利要求2所述的问答一致性的评估方法，其特征在于，所述识别所述第一回复语句中的目标词，包括：

对所述第一回复语句进行分词处理，得到多个回复单词；

从所述多个回复单词中选取用于表示事实和/或观点的实体词，作为所述目标词。

4.根据权利要求2所述的问答一致性的评估方法，其特征在于，所述基于所述第一回复语句和所述目标词，生成针对所述目标词进行问询的第二问询语句，包括：

将所述第一回复语句和所述目标词进行组合，得到回复组合；

基于所述回复组合的语义，将所述回复组合拆分成多个语义单元；

分别确定各个语义单元对应的单元表征向量，得到多个单元表征向量；

基于所述多个单元表征向量，生成所述第二问询语句。

5.根据权利要求4所述的问答一致性的评估方法，其特征在于，所述基于所述多个单元表征向量，生成所述第二问询语句，包括：

将所述多个单元表征向量输入至特征提取单元组合，得到所述特征提取单元组合输出的单词表征向量；

基于所述单词表征向量从词汇表的候选单词中，选取所述第二问询语句中位于首位的起始问询单词；

将所述多个单元表征向量和所述单词表征向量，重新输入至所述特征提取单元组合，得到所述第二问询语句中的下一问询单词对应的下一单词表征向量，基于所述下一单词表征向量从所述候选单词中，选取所述第二问询语句中的下一问询单词，直至完成确定。

6.根据权利要求5所述的问答一致性的评估方法，其特征在于，所述特征提取单元组合包括双向特征提取单元、单向特征提取单元和序列到序列特征提取单元，所述将所述多个单元表征向量和所述单词表征向量，重新输入至所述特征提取单元组合，得到所述第二问询语句中的下一问询单词对应的下一单词表征向量，包括：

将所述多个单元表征向量输入所述双向特征提取单元，以得到所述双向特征提取单元输出的双向特征，其中，不同的单元表征向量输入的双向特征提取单元参数不同；

将所述双向特征和所述单词表征向量输入至所述单向特征提取单元，以得到所述单向特征提取单元输出的单向特征，其中，不同的单词表征向量输入的单向特征提取单元参数不同；

将所述双向特征和所述单词表征向量输入至所述序列到序列特征提取单元，以得到所述序列到序列特征提取单元输出的序列特征，其中，不同的单词表征向量输入的序列到序列特征提取单元参数不同；

将所述双向特征、所述单向特征和所述序列特征进行拼接，得到所述下一问询单词对应的下一单词表征向量。

7.根据权利要求1所述的问答一致性的评估方法，其特征在于，所述比较所述第一回复语句与所述第二回复语句，以评估所述第二应答模型的问答一致性，包括：

将所述第一回复语句和所述第二回复语句进行组合，得到语句组合；

确定所述语句组合对应的语句参数；

基于所述语句参数对所述语句组合进行编码处理，得到语句编码；

基于所述语句编码，确定语句评分，根据所述语句评分评估所述第二应答模型的问答一致性。

8.一种问答一致性的评估装置，其特征在于，包括：

获取模块，配置为获取第一应答模型的第一问询语句，并获取所述第二应答模型响应所述第一问询语句生成的第一回复语句；

生成模块，配置为基于所述第一回复语句，生成针对所述第一回复语句的第二问询语句；

发送模块，配置为将所述第二问询语句输入至所述第二应答模型，并获取所述第二应答模型响应所述第二问询语句生成的第二回复语句；

比较模块，配置为根据所述第一回复语句与所述第二回复语句，对所述第二应答模型的问答一致性进行评估。

9.一种电子设备，其特征在于，包括:

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-7中的任一项所述的方法。

10.一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-7中的任一项所述的方法。