CN113536809A

CN113536809A - 一种基于语义的无监督常识问答方法及系统

Info

Publication number: CN113536809A
Application number: CN202110567385.XA
Authority: CN
Inventors: 黄民烈; 牛艺霖
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-10-22

Abstract

本发明提供一种基于语义的无监督常识问答方法及系统，该方法包括：将原始常识问题转换为缺失答案部分的目标陈述句；将目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案；获取原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为原始常识问题的目标答案。本发明能够提升问答系统的准确率，提升对于单词级别攻击的抵抗能力。

Description

一种基于语义的无监督常识问答方法及系统

技术领域

本发明涉及自然语言处理以及问答系统技术领域，尤其涉及一种基于语义的无监督常识问答方法及系统。

背景技术

随着人工智能的飞速发展，问答系统占据了越来越重要的地位。交互式机器人在逐渐成为我们生活的一部分，例如，微软的聊天机器人小冰和小米的人工智能音箱等，其中一项重要的技术就是问答系统，机器人需要根据用户的问题，结合掌握的知识，整合关键的信息，从而做出相应的判断和回答，方便用户从大量的信息中快速获取需要的答案。

随着问答系统的发展，机器的回答缺少常识逻辑成为了一个关键性问题，很多时候机器可能会给出荒谬的回答。此外，在实际应用中，很多情况下缺少人工标注的训练数据，而收集这类数据耗时耗力，因此，现在有许多基于无监督或者弱监督设定的问答方法及系统。然而，这些方法大多是根据问题和答案的字面特征做出判断，容易受到单词级别攻击的影响，导致得到的回答结果准确率较低。

因此，现在亟需一种基于语义的无监督常识问答方法及系统来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种基于语义的无监督常识问答方法及系统。

本发明提供一种基于语义的无监督常识问答方法，包括：

将原始常识问题转换为缺失答案部分的目标陈述句；

将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；

获取所述原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；

根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

根据本发明提供的一种基于语义的无监督常识问答方法，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，包括：

基于语义相似度公式，计算预设候选答案和支撑答案之间的语义相似度，所述语义相似度公式为：

其中，ω(S|A)表示支撑答案S和预设候选答案A之间的相似度；T表示温度系数，用于控制相似度得分的分布；cos表示两个向量之间的余弦相似度，exp表示以e为基的指数函数，h_S表示支撑答案S的语义向量表示，h_A表示预设候选答案A的语义向量表示。

根据本发明提供的一种基于语义的无监督常识问答方法，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案，包括：

根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取每个预设候选答案和所有支撑答案之间的多个语义相似度，并对每个预设候选答案对应的多个语义相似度进行求和平均，获取每个预设候选答案的平均语义相似度；

将平均语义相似度最大值对应的预设候选答案作为原始常识问题的目标答案。

根据本发明提供的一种基于语义的无监督常识问答方法，所述预训练语言模型为GPT-2模型。

根据本发明提供的一种基于语义的无监督常识问答方法，所述对每个预设候选答案和每个支撑答案进行语义向量化处理，包括：

基于训练好的句子级语义表示模型，分别对预设候选答案和支撑答案进行语义向量化处理，得到对应的语义向量表示，所述训练好的句子级语义表示模型是通过对RoBERTa模型进行训练得到的。

本发明还提供一种基于语义的无监督常识问答系统，包括：

原始问题改写模块，用于将原始常识问题转换为缺失答案部分的目标陈述句；

支撑答案预测模块，用于将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；

语义向量处理模块，用于对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；

候选答案确定模块，用于根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

根据本发明提供的一种基于语义的无监督常识问答系统，所述候选答案确定模块包括：

语义相似度计算单元，用于基于语义相似度公式，计算预设候选答案和支撑答案之间的语义相似度，所述语义相似度公式为：

根据本发明提供的一种基于语义的无监督常识问答系统，所述候选答案确定模块还包括：

平均语义相似度计算单元，用于根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取每个预设候选答案和所有支撑答案之间的多个语义相似度，并对每个预设候选答案对应的多个语义相似度进行求和平均，获取每个预设候选答案的平均语义相似度；

目标答案获取单元，用于将平均语义相似度最大值对应的预设候选答案作为原始常识问题的目标答案。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于语义的无监督常识问答方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于语义的无监督常识问答方法的步骤。

本发明提供的基于语义的无监督常识问答方法及系统，通过语义预测答案，降低对于字面特征的依赖，实现受到扰动时的鲁棒性，能够在提升问答系统准确率的同时，很大程度上提升问答系统对于单词级别攻击的抵抗能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于语义的无监督常识问答方法的流程示意图；

图2为本发明提供的基于语义的常识问题答案预测示意图；

图3为本发明提供的基于语义的无监督常识问答系统的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的基于语义的无监督常识问答方法的流程示意图，如图1所示，本发明提供了一种基于语义的无监督常识问答方法，包括：

步骤101，将原始常识问题转换为缺失答案部分的目标陈述句。

在本发明中，智能问答机器人在获取到原始常识问题之后，首先对获取到的原始常识问题进行改写转换，将问题由问句的形式改为陈述的语句。在本发明中，对于一个原始常识问题Q，通过预定义的简单规则将其改写为一个缺失答案部分的陈述句，记为Q_R，例如：

将I saw my breath when I exhaled.What was the cause of this？

改写为I saw my breath when I exhaled because。

由此可看出，改写后得到目标陈述句在末尾缺少答案部分，因此需要对这部分缺失的答案进行预测。

步骤102，将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分。

在本发明中，将上述实施例中转换得到的目标陈述句Q_R作为输入，使用预训练语言模型生成缺失的答案部分，本发明采用的预训练语言模型为GPT-2模型，该语言模型根据已有句子的一部分，来预测句子的缺失部分会是什么，从而为目标陈述句生成K个可能的支撑答案(supporter)，得到支撑答案的集合{S₁,S₂,…,S_K}。

步骤103，获取所述原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示。

在本发明中，基于原始常识问题，可通过智能问答机器人预先获取多个预设候选答案，作为给定的候选答案A，需要说明的是，在现有的智能问答机器人的回答过程中，往往都会预设多个候选答案，因此，本发明中的预设候选答案构成了候选答案集合{A₁,A₂,…,A_N}。

其中，所述对每个预设候选答案和每个支撑答案进行语义向量化处理，具体包括：

基于训练好的句子级语义表示模型，分别对预设候选答案和支撑答案进行语义向量化处理，得到对应的语义向量表示，所述训练好的句子级语义表示模型是通过对RoBERTa模型进行训练得到的。在本发明中，使用预训练好的句子级别语义表示模型(Sentence-RoBERTa模型)，分别将候选答案集合{A₁,A₂,…,A_N}和支撑答案集合{S₁,S₂,…,S_K}中每个答案转化成语义向量表示，得到候选答案集合对应的语义向量表示

和支撑答案集合对应的语义向量表示

步骤104，根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

在本发明中，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，具体包括：

进一步地，在获取到预设候选答案和支撑答案之间的语义相似度之后，将任一预设候选答案和所有支撑答案之间的语义相似度进行求和，并对求和结果进行平均处理，得到任一预设候选答案和支撑答案之间的平均语义相似度，基于同样的方法，对其他的预设候选答案也进行求和平均处理，从而得到每个预设候选答案对应的平均语义相似度。最终，将平均语义相似度最大值对应的预设候选答案作为原始常识问题的目标答案。

本发明提供的基于语义的无监督常识问答方法，通过语义预测答案，降低对于字面特征的依赖，实现受到扰动时的鲁棒性，能够在提升问答系统准确率的同时，很大程度上提升问答系统对于单词级别攻击的抵抗能力。

在上述实施例的基础上，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案，包括：

在本发明中，图2为本发明提供的基于语义的常识问题答案预测示意图，可参考图2所示，首先将原始常识问题转换为缺失答案部分的陈述句，然后通过预训练预言模型对该陈述句进行支撑答案预测，得到3个支撑答案，同时，基于智能问答机器人获取到2个预设候选答案；进一步地，分别获取支撑答案和预设候选答案的语义向量表示，并计算每个预设候选答案的平均语义相似度，具体为：对于支撑答案S_i，计算得到每个支撑答案和单个候选答案A之间的语义相似度，得到{ω(S₁|A),ω(S₂|A),…,ω(S_K|A)}；然后，计算每个候选答案的得分，在本发明中，将候选答案的得分定义为，对任一候选答案和每个支撑答案之间的语义相似度进行求和，进一步对求和结果进去求平均，将得到的平均语义相似度s(A|Q)作为候选答案的得分：

可参考图2所示，候选答案A₂的得分为(0.465)，高于A₁的得分(0.002)，其分数也是候选答案中的最高得分，因此A₂被预测为正确答案，即作为原始常识问题的目标答案。

本发明提供一种新的无监督常识问答方法，能够在兼顾答案预测和常识逻辑的同时，实现基于语义的判断机制，从而提升智能问答系统的准确性和鲁棒性。

图3为本发明提供的基于语义的无监督常识问答系统的结构示意图，如图3所示，本发明提供了一种基于语义的无监督常识问答系统，包括原始问题改写模块301、支撑答案预测模块302、语义向量处理模块303和候选答案确定模块304，其中，原始问题改写模块301用于将原始常识问题转换为缺失答案部分的目标陈述句；支撑答案预测模块302用于将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；语义向量处理模块303用于对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，其中，基于原始常识问题，可通过智能问答机器人预先获取多个预设候选答案；候选答案确定模块304用于根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

本发明提供的基于语义的无监督常识问答系统，通过语义预测答案，降低对于字面特征的依赖，实现受到扰动时的鲁棒性，能够在提升问答系统准确率的同时，很大程度上提升问答系统对于单词级别攻击的抵抗能力。

在上述实施例的基础上，所述候选答案确定模块包括语义相似度计算单元，用于基于语义相似度公式，计算预设候选答案和支撑答案之间的语义相似度，所述语义相似度公式为：

在上述实施例的基础上，所述候选答案确定模块还包括平均语义相似度计算单元和目标答案获取单元，其中，平均语义相似度计算单元用于根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取每个预设候选答案和所有支撑答案之间的多个语义相似度，并对每个预设候选答案对应的多个语义相似度进行求和平均，获取每个预设候选答案的平均语义相似度；目标答案获取单元用于将平均语义相似度最大值对应的预设候选答案作为原始常识问题的目标答案。

本发明提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图4为本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(CommunicationsInterface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403中的逻辑指令，以执行基于语义的无监督常识问答方法，该方法包括：将原始常识问题转换为缺失答案部分的目标陈述句；将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；获取所述原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的基于语义的无监督常识问答方法，该方法包括：将原始常识问题转换为缺失答案部分的目标陈述句；将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；获取所述原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于语义的无监督常识问答方法，该方法包括：将原始常识问题转换为缺失答案部分的目标陈述句；将所述目标陈述句输入到预训练语言模型中进行预测，生成多个支撑答案，所述支撑答案为所述目标陈述句中缺失的答案部分；获取所述原始常识问题对应的多个预设候选答案，并对每个预设候选答案和每个支撑答案进行语义向量化处理，得到每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示；根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语义的无监督常识问答方法，其特征在于，包括：

将原始常识问题转换为缺失答案部分的目标陈述句；

2.根据权利要求1所述的基于语义的无监督常识问答方法，其特征在于，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，包括：

3.根据权利要求1所述的基于语义的无监督常识问答方法，其特征在于，所述根据每个预设候选答案的语义向量表示和每个支撑答案的语义向量表示，获取预设候选答案和支撑答案之间的语义相似度，将满足预设条件的语义相似度对应的预设候选答案作为所述原始常识问题的目标答案，包括：

4.根据权利要求1所述的基于语义的无监督常识问答方法，其特征在于，所述预训练语言模型为GPT-2模型。

5.根据权利要求1所述的基于语义的无监督常识问答方法，其特征在于，所述对每个预设候选答案和每个支撑答案进行语义向量化处理，包括：

6.一种基于语义的无监督常识问答系统，其特征在于，包括：

7.根据权利要求6所述的基于语义的无监督常识问答系统，其特征在于，所述候选答案确定模块包括：

8.根据权利要求6所述的基于语义的无监督常识问答系统，其特征在于，所述候选答案确定模块还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于语义的无监督常识问答方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于语义的无监督常识问答方法的步骤。