CN110991183B

CN110991183B - 问题的谓词确定方法、装置、设备及存储介质

Info

Publication number: CN110991183B
Application number: CN201911241295.0A
Authority: CN
Inventors: 田孟; 周环宇; 冯欣伟; 姜文斌; 袁鹏程; 余淼; 吴学谦; 戴松泰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-07-04
Anticipated expiration: 2039-12-06
Also published as: CN110991183A

Abstract

本申请公开了问题的谓词确定方法、装置、设备及存储介质，涉及人工智能，尤其涉及知识图谱、智能搜索领域。具体实现方案为：该方法应用于电子设备，该方法包括：接收用户输入的目标问题；若确定目标问题为二元简单问题，则确定目标问题中的目标主语；根据目标主语从知识图谱中确定对应的至少一个候选谓词；获取与候选谓词对应的候选匹配文本；计算目标问题与各候选匹配文本的匹配度；根据匹配度确定目标问题中的目标谓词。提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词，无须预先耗费大量的时间和人力去进行标注工作，节省了确定问题中的谓词的时间，提高了确定问题中的谓词的效率。

Description

问题的谓词确定方法、装置、设备及存储介质

技术领域

本申请涉及到数据处理技术领域，尤其涉及智能搜索技术。

背景技术

随着人工智能技术的成熟，问答系统也不断进行完善。问答系统涉及问题解析、答案检索及定位等多个环节。在对问题进行解析时，关键是将问题中的谓词确定出来。

现有技术中，对问题的谓词进行确定时,主要为模式匹配方法。基于模式匹配方法，需要预先标注问题中的关键词与谓词的匹配模式。然后将待处理问题提取关键词，将提取出的关键词与各匹配模式进行匹配，以将相匹配的匹配模式中对应的谓词确定为该待处理问题的谓词。

所以现有技术中的问题谓词确定方法，需要消耗大量的时间和人力去标注匹配模式，而且需要每个问题的关键词与匹配模式中的关键词完全匹配才能准确确定出谓词，使确定问题的谓词的召回率较低。

发明内容

本申请实施例提供一种问题的谓词确定方法、装置、设备及存储介质，解决了现有技术中问题谓词确定方法，需要消耗大量的时间和人力去标注匹配模式，而且需要每个问题的关键词与匹配模式中的关键词完全匹配才能准确确定出谓词，使召回率较低的技术问题。

本申请实施例第一方面提供一种问题的谓词确定方法，所述方法应用于电子设备，所述方法包括：

接收用户输入的目标问题；若确定所述目标问题为二元简单问题，则确定所述目标问题中的目标主语；根据所述目标主语从知识图谱中确定对应的至少一个候选谓词；获取与所述候选谓词对应的候选匹配文本；计算所述目标问题与各所述候选匹配文本的匹配度；根据所述匹配度确定所述目标问题中的目标谓词。

本申请实施例中，由于通过目标问题的目标主语能够从知识图谱中获取到至少一个候选谓词，根据目标问题与各候选谓词相对应的候选匹配文本的匹配度来确定目标问题的谓词，能够在提出每个问题后只要能获取到至少一个候选谓词，就能根据匹配度确定出问题的谓词，提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词，无须预先耗费大量的时间和人力去进行标注工作，节省了确定问题中的谓词的时间，提高了确定问题中的谓词的效率。

进一步地，如上所述的方法，所述确定所述目标问题中的目标主语，包括：

采用主语提取算法确定所述目标主语在所述目标问题中的位置；根据所述位置从所述目标问题中确定所述目标主语。

本申请实施例中，采用主语提取算法确定目标问题中的目标主语，由于主语提取算法能够准确解析主语的特征，所以能够准确确定出目标问题中的主语位置，进而准确确定出目标主语。

进一步地，如上所述的方法，所述根据所述目标主语从知识图谱中确定对应的至少一个候选谓词，包括：

从知识图谱中确定与所述目标主语相匹配的至少一个候选主语；将与各候选主语相关联的至少一个谓词确定为对应的候选谓词。

本申请实施例中，在从知识图谱中确定对应的至少一个候选谓词时，首先从知识图谱中确定候选主语，将与候选主语相关联的至少一个谓词确定为对应的候选谓词，由于候选主语的个数至少为一个，而与每个候选主语相关联的谓词的个数也至少为一个，所以候选谓词的个数也至少为一个，能够确保每个目标问题都能确定出目标谓词，提高了确定问题的谓词的召回率。

进一步地，如上所述的方法，所述从知识图谱中确定与所述目标主语相匹配的至少一个候选主语，包括：

从知识图谱中获取与所述目标主语相同的主语及所述目标主语的别名；将所述与目标主语相同的主语及所述目标主语的别名确定为所述候选主语。

本申请实施例中，将与目标主语相同的主语及目标主语的别名均确定为候选主语，提高了候选主语的个数，进而提高了候选谓词的个数，在提高确定问题的谓词的召回率的同时，由于候选谓词个数的增多使候选匹配文本也进一步增多，进而根据目标问题与各所述候选匹配文本的匹配度确定目标问题中的目标谓词时，提高了确定目标问题中的谓词的准确性。

进一步地，如上所述的方法，所述获取与所述候选谓词对应的候选匹配文本，包括：

从所述知识图谱中获取各候选主语及与各候选主语相关联的至少一个候选谓词；将各候选主语与所述相关联的至少一个候选谓词分别进行拼接，以获得所述候选匹配文本。

本申请实施例中，将各候选主语与所述相关联的至少一个候选谓词分别进行拼接，以获得所述候选匹配文本，能够快速确定出候选匹配文本。

进一步地，如上所述的方法，所述计算所述目标问题与各所述候选匹配文本的匹配度，包括：

针对每个所述候选匹配文本，将所述目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中，以通过所述已训练至收敛的匹配模型计算所述目标问题与该候选匹配文本的匹配度；通过所述已训练至收敛的匹配模型输出所述目标问题与该候选匹配文本的匹配度。

本申请实施例中，采用与测试样本结构一致的训练样本对初始匹配模型进行训练，使已训练至收敛的匹配模型更加适合于计算目标问题与各候选匹配文本的匹配度，使计算出的匹配度更加准确。

进一步地，如上所述的方法，所述针对每个所述候选匹配文本，将所述目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中之前，还包括：

将所述目标问题中的目标主语的位置进行标注；将所述候选匹配文本中的候选主语的位置进行标注。

本申请实施例中，由于在主语与对应的谓词在位置上有一定规律性，并且将目标问题与候选匹配文本匹配时，标注了主语的位置，将主语的词性信息携带进去，所以已训练至收敛的匹配模型携带主语与谓词间的规则信息，进而采用标注了主语位置的目标问题和候选匹配文本使计算出的目标问题和候选匹配文本的匹配度更加准确。更能体现目标问题和候选匹配文本中的谓词匹配度，进而使确定出的目标问题中的目标谓词更加准确。

获取训练样本，所述训练样本包括：训练问题及训练匹配文本，所述训练问题及训练匹配文本中标注对应主语的位置；采用所述训练样本对初始匹配模型进行训练；将满足训练收敛条件的匹配模型确定为所述已训练至收敛的匹配模型。

本申请实施例中，由于已训练至收敛的匹配模型是通过注对应主语的位置的训练问题及训练匹配文本组成的训练样本对初始匹配模型训练后得到的，所以该已训练至收敛的匹配模型更加适用于目标问题与候选匹配文本的匹配度的计算，进一步提高了目标问题与候选匹配文本的匹配度的准确性。

进一步地，如上所述的方法，所述根据所述匹配度确定所述目标问题中的目标谓词，包括：

获取匹配度最大的候选匹配文本中的候选谓词；将所述匹配度最大的候选匹配文本中的候选谓词确定为所述目标谓词。

本申请实施例中，由于在目标问题和候选匹配文本中，均包括主语及谓词。目标问题和候选匹配文本中的主语语义一致，所以若目标问题与候选匹配文本的匹配度越大，则说明目标谓词为候选匹配文本中的候选谓词的概率越大，所以将匹配度最大的候选匹配文本中的候选谓词确定为所述目标谓词，能够准确确定出目标问题中的目标谓词。

进一步地，如上所述的方法，所述根据所述匹配度确定所述目标问题中的目标谓词之后，还包括：

根据所述目标谓词从所述知识图谱中获取目标问题的答案；输出所述目标问题的答案。

本申请实施例中，根据目标谓词从所述知识图谱中获取目标问题的答案；输出目标问题的答案，能够从知识图谱的三元组中快速获取目标问题的答案，进而提高获取目标问题答案的效率。

本申请实施例第二方面提供一种问题的谓词确定装置，所述装置位于电子设备中，所述装置包括：

问题接收模块，用于接收用户输入的目标问题；目标主语确定模块，用于若确定所述目标问题为二元简单问题，则确定所述目标问题中的目标主语；候选谓词确定模块，用于根据所述目标主语从知识图谱中确定对应的至少一个候选谓词；候选文本获取模块，用于获取与所述候选谓词对应的候选匹配文本；匹配度计算模块，用于计算所述目标问题与各所述候选匹配文本的匹配度；目标谓词确定模块，用于根据所述匹配度确定所述目标问题中的目标谓词。

进一步地，如上所述的装置，所述目标主语确定模块，具体用于：

进一步地，如上所述的装置，所述候选谓词确定模块，具体用于：

进一步地，如上所述的装置，所述候选谓词确定模块，在所述从知识图谱中确定与所述目标主语相匹配的至少一个候选主语时，具体用于：

进一步地，如上所述的装置，所述候选文本获取模块，具体用于：

进一步地，如上所述的装置，所述匹配度计算模块，具体用于：

进一步地，如上所述的装置，还包括：主语位置标注模块，用于：

进一步地，如上所述的装置，还包括：匹配模型训练模块，用于：

进一步地，如上所述的装置，所述目标谓词确定模块，具体用于：

进一步地，如上所述的装置，还包括：答案获取模块，用于：

本申请实施例第三方面提供一种电子设备,包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够第一方面中任一项所述的方法。

本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面任一项所述的方法。

本申请实施例第五方面提供一种计算机程序，包括程序代码，当计算机运行所述计算机程序时，所述程序代码执行如第一方面所述的方法。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的问题的谓词确定方法的场景图；

图2是根据本申请第一实施例提供的问题的谓词确定方法的流程示意图；

图3是根据本申请第一实施例提供的问题的谓词确定方法中执行步骤101-步骤103的原理示意图；

图4是根据本申请第二实施例提供的问题的谓词确定方法的流程示意图；

图5是根据本申请第二实施例提供的问题的谓词确定方法中步骤203的流程示意图；

图6是根据本申请第二实施例提供的问题的谓词确定方法中步骤204的流程示意图；

图7是根据本申请第二实施例提供的问题的谓词确定方法中步骤2041的流程示意图；

图8是根据本申请第二实施例提供的问题的谓词确定方法中步骤205的流程示意图；

图9是根据本申请第二实施例提供的问题的谓词确定方法中基于BERT的深度学习模型的网络架构图；

图10是根据本申请第二实施例提供的问题的谓词确定方法中步骤209的流程示意图；

图11为根据本申请第三实施例提供的问题的谓词确定装置的结构示意图；

图12为根据本申请第四实施例提供的问题的谓词确定装置的结构示意图；

图13是用来实现本申请实施例的问题的谓词确定方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了清楚理解本申请的技术方案，首先对本申请实施例中的术语进行解释。

知识图谱：英文为：Knowledge Graph，又称科学知识图谱。主要是用于描述现实世界中的实体(区别于概念，是指客观世界中的具体实物，如张三，李四等)、概念(人们在认识世界过程中形成的对客观事物的概念化表示，如人、动物等)及事件间的客观关系。知识图谱的构建过程即从非结构化数据(图像等)或半结构化数据(网页等)中抽取信息，构建结构化数据(三元组，实体-属性-关系)的过程。最早知识图谱这一词汇由Google于2012年提出，并利用该项技术增强其搜索服务。知识图谱给互联网语义搜索带来了活力，同时其也在问答系统中展现出了强大的能力。知识图谱可采用图结构进行可视化表示。图结构为一系列三元组的集合。如某三元组可表示为(S,P,O)。其中，第一元素S表示主语，第二元素P表示谓词，第三元素O表示宾语。第一个元素S和第三元素O为图结构中的节点，第二元素P表示第一元素S和第三元素O对应的节点间的关系。如一个三元组可表示为<刘三，出生日期，1961年9月28日>。

二元简单问题：是指在问某一实体的具体属性值的问题。并且二元简单问题是能够使用知识图谱中的单个三元组可以回答的问题。在二元简单问题中，只包括一个主语及表示一个语义的谓词。例如，某二元简单问题为：“刘三是什么时候出生的？”。

复杂问题：是指不能用知识图谱中的单个三元组可以回答的问题。在复杂问题中，不只包括一个主语及表示一个语义的谓词。例如某一复杂问题为：“美国第二长的河的源头和终点分别在什么地方？”。

下面对本申请实施例提供的问题的谓词确定方法的应用场景进行介绍。如图1所示，本申请实施例提供的问题的谓词确定方法对应的应用场景中，在电子设备中搭载有问答系统或搜索引擎等能够满足回答用户问题功能的应用程序。还可搭载有知识图谱，或者将知识图谱搭载在该功能应用程序的后台服务器中，能够通过与后台服务器进行通信，获取知识图谱中的数据。具体地，用户打开电子设备中该功能的应用程序，并通过该功能的应用程序的操作界面以文字、语音等方式输入目标问题。电子设备接收用户输入的目标问题。判断目标问题是否为二元简单问题，若确定目标问题为二元简单问题，则确定目标问题中的目标主语。目标主语为一个。根据目标主语从知识图谱中确定对应的至少一个候选谓词，获取与候选谓词对应的候选匹配文本；计算目标问题与各候选匹配文本的匹配度；根据匹配度确定目标问题中的目标谓词。在确定出目标问题中的目标谓词后，根据目标谓词从知识图谱中获取目标问题的答案，并通过该功能的应用程序的操作界面输出目标问题的答案。如图1中，用户通过语音方式输入的目标问题为“刘三是什么时候出生的？”，在电子设备的该功能的应用程序的操作界面中可显示出“刘三是什么时候出生的？”的目标问题，用户通过点击操作界面上的“搜索”按键，电子设备执行本申请提供的问题的谓词确定方法，确定出该问题为二元简单问题，并确定出的目标谓词为“出生日期”，输出的目标问题的答案在操作界面中进行显示，为“1961年9月28日”。由于通过目标问题的目标主语能够从知识图谱中获取到至少一个候选谓词，根据目标问题与各候选谓词相对应的候选匹配文本的匹配度来确定目标问题的谓词，能够在提出每个问题后只要能获取到至少一个候选谓词，就能根据匹配度确定出问题的谓词，提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词，无须预先耗费大量的时间和人力去进行标注工作，节省了确定问题中的谓词的时间，提高了确定问题中的谓词的效率。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2是根据本申请第一实施例提供的问题的谓词确定方法的流程示意图，如图2所示，本申请实施例的执行主体为问题的谓词确定装置，该问题的谓词确定装置可以位于电子设备中。则本实施例提供的问题的谓词确定方法包括以下几个步骤。

步骤101，接收用户输入的目标问题。

本实施例中，在电子设备中搭载有能够满足回答用户问题功能的应用程序。如可以为问答系统或搜索引擎等。则用户有提问问题的需求时，打开对应的应用程序，进入到应用程序的操作界面。通过文本、语音或其他方式向电子设备发送需要提问的问题。该需要提问的问题为目标问题。

若用户通过语音提出目标问题，则用户通过点击操作界面上收录语音的按键和对应的收音组件进行录音，电子设备接收到语音形式的目标问题，并对语音形式的目标问题进行语义解析，可获取文本形式的目标问题。

若用户通过文本提出目标问题，则用户在操作界面的文本输入框输入目标问题，使电子设备接收到文本形式的目标问题。

步骤102，若确定目标问题为二元简单问题，则确定目标问题中的目标主语。

本实施例中，目标问题可能为复杂问题或二元简单问题。则获取到目标问题后，根据复杂问题和二元简单问题的特征对目标问题的类型进行判断，若确定目标问题为复杂问题，则不采用本申请实施例提出的问题谓词确定方法来确定目标问题的谓词。若确定目标问题为二元简单问题，则采用本申请实施例提出的问题谓词确定方法来确定目标问题的谓词。具体地，首先确定目标问题中的目标主语。

值的说明的是，若目标问题为二元简单问题，则目标问题中的目标主语只有一个。

作为一种可选实施方式，本实施例中，确定目标问题中的目标主语的方式可以为：将目标问题按照词级别进行分词，将进行分词后的每个词语分别与知识谱图中所有主语进行匹配，确定每个词语与知识谱图中所有主语的最高匹配度，将匹配度最高的词语确定为目标主语。

或者作为另一种可选实施方式，本实施例中，采用主语提取算法确定目标问题中的目标主语，其中，主语提取算法可以为序列标注算法或抽取算法等，本实施例中对此不作限定。

步骤103，根据目标主语从知识图谱中确定对应的至少一个候选谓词。

本实施例中，在知识图谱中存储有一系列三元组的集合。每个三元组可表示为(S,P,O)。其中，第一元素S表示主语，第二元素P表示谓词，第三元素O表示宾语。所以可首先根据目标主语从知识图谱中获取与目标主语语义一致的主语，根据语义一致的主语对应的三元组确定候选谓词。

如图3所示，对根据目标主语从知识图谱中确定对应的至少一个候选谓词进行示例性说明。接收用户输入的目标问题为“谁是刘三的老婆？”，确定目标问题中的目标主语为“刘三”，根据目标主语从知识图谱中确定对应的三元组分别为：<刘三，年龄，58岁>；<刘三，职业，明星>；<刘三，性别，男>；<刘三，妻子，朱四>；<刘三，国籍，中国>；则将语义一致的主语对应的每个三元组中的第二元素确定为对应的候选谓词。则与刘三对应的候选谓词分别为：年龄、职业、性别、妻子、国籍。

步骤104，获取与候选谓词对应的候选匹配文本。

具体地，本实施例中，可从每个候选谓词对应的三元组中获取候选匹配文本。候选匹配文本为候选谓词对应的三元组中的候选主语与候选谓词拼接而成的。则基于步骤103的示例性说明，获取与候选谓词对应的候选匹配文本分别为：刘三年龄、刘三职业、刘三性别、刘三妻子、刘三国籍。

步骤105，计算目标问题与各候选匹配文本的匹配度。

具体地，本实施例中，可采用匹配模型计算目标问题与各候选匹配文本的匹配度，或者还可采用其他方式计算目标问题与各候选匹配文本的匹配度，本实施例中对此不作限定。

其中，匹配模型可以为机器学习模型，深度学习模型等，本实施例中对此不作限定。

步骤106，根据匹配度确定目标问题中的目标谓词。

具体地，本实施例中，由于在目标问题和候选匹配文本中，均包括主语及谓词。目标问题和候选匹配文本中的主语语义一致，所以若目标问题与候选匹配文本的匹配度越大，则说明目标谓词为候选匹配文本中的候选谓词的概率越大，反之，概率越小。所以可将匹配度最大的候选匹配文本中的候选谓词确定为目标问题中的目标谓词。

本实施例提供的问题的谓词确定方法，通过接收用户输入的目标问题；若确定目标问题为二元简单问题，则确定目标问题中的目标主语；根据目标主语从知识图谱中确定对应的至少一个候选谓词；获取与候选谓词对应的候选匹配文本；计算目标问题与各候选匹配文本的匹配度；根据匹配度确定目标问题中的目标谓词。由于通过目标问题的目标主语能够从知识图谱中获取到至少一个候选谓词，根据目标问题与各候选谓词相对应的候选匹配文本的匹配度来确定目标问题的谓词，能够在提出每个问题后只要能获取到至少一个候选谓词，就能根据匹配度确定出问题的谓词，提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词，无须预先耗费大量的时间和人力去进行标注工作，节省了确定问题中的谓词的时间，提高了确定问题中的谓词的效率。

实施例二

图4是根据本申请第二实施例提供的问题的谓词确定方法的流程示意图，如图4所示，本实施例提供的问题的谓词确定方法，是在本申请第一实施例提供的问题的谓词确定方法的基础上，对步骤102-步骤106的进一步细化。并且在步骤106之后，还包括根据目标谓词从知识图谱中获取目标问题的答案；输出目标问题的答案的步骤。则本实施例提供的问题的谓词确定方法包括以下步骤。

步骤201，接收用户输入的目标问题。

本实施例中，步骤201的实现方式与本申请第一实施例中的步骤101的实现方式类似，在此不再一一赘述。

步骤202，判断目标问题是否为二元简单问题，若是，则执行步骤203，否则结束。

可选地，本实施例中，采用分类模型判断目标问题是否为二元简单问题。该分类模型可以为基于BERT的二分类模型。首先对基于BERT的二分类模型进行训练。对基于BERT的二分类模型进行训练的训练样本为第一训练样本。第一训练样本位于第一训练集中，第一训练集的第一训练样本中包括复杂问题和二元简单问题。采用第一训练样本对基于BERT的二分类模型进行训练后，若确定满足预设的训练收敛条件，则将满足预设收敛条件的基于BERT的二分类模型确定为已训练至收敛的基于BERT的二分类模型。

其中，预设的训练收敛条件可以为使损失函数达到最小，或者达到预设迭代次数等，本实施例中对此不作限定。

本实施例中，采用已训练至收敛的基于BERT的二分类模型对目标问题是否为二元简单问题进行判断，由于基于BERT的二分类模型具有分类准确的特点，并且是训练至收敛的，所以能够更加准确地对目标问题的类别进行判断。

步骤203，确定目标问题中的目标主语。

若确定目标问题为二元简单问题，则确定目标问题中的目标主语。

作为一种可选实施方式，本实施例中，如图5所示，步骤203包括以下步骤：

步骤2031，采用主语提取算法确定目标主语在目标问题中的位置。

其中，主语提取算法可以为序列标注算法或抽取算法。若为序列标注算法，则将目标问题输入到序列标注算法中后，序列标注算法对目标问题中的目标主语的位置和非目标主语的位置进行标注。在标注目标主语的位置时，对目标主语的起始位置，中间位置及终止位置均分别标注出来。若为抽取算法，则将目标问题输入到抽取算法中后，抽取算法只对目标主语的位置进行标注。标注的目标主语的位置包括：目标主语的起始位置和终止位置。如在图3中，标注的目标主语的起始位置为“刘”的位置，可标注为“SS”。终止位置为“三”的位置，可标注为“SE”。

步骤2032，根据位置从目标问题中确定目标主语。

本实施例中，由于目标主语的位置，至少为目标主语的起始位置和终止位置确定出来了，所以根据目标主语的起始位置和终止位置从目标问题中确定出目标主语。如在图3中，确定出目标主语为标注“SS”和“SE”及标注“SS”和“SE”之间的词：“刘三”。

步骤204，根据目标主语从知识图谱中确定对应的至少一个候选谓词。

作为一种可选实施方式，本实施例中，如图6所示，步骤204包括以下步骤：

步骤2041，从知识图谱中确定与目标主语相匹配的至少一个候选主语。

可选地，本实施例中，如图7所示，步骤2041包括以下步骤：

步骤2041a，从知识图谱中获取与目标主语相同的主语及目标主语的别名。

具体地，本实施例中，在知识图谱中可存储三元组的每个主语与对应主语别名间的映射关系。则确定出目标主语后，根据知识图谱中每个主语与对应主语别名间的映射关系，获取与目标主语相同的主语及目标主语的别名。

其中，目标主语的别名与目标主语表示同一语义的词语。如某目标主语为一个人名，则目标主语的别名可以为该人名的曾用名。

步骤2041b，将与目标主语相同的主语及目标主语的别名确定为候选主语。

本实施例中，由于与目标主语相同的主语，及目标主语的别名都表示与目标主语同一语义的主语，所以将与目标主语相同的主语及目标主语的别名确定为候选主语。

本实施例中，将与目标主语相同的主语及目标主语的别名均确定为候选主语，提高了候选主语的个数，进而提高了候选谓词的个数，在提高确定问题的谓词的召回率的同时，由于候选谓词个数的增多使候选匹配文本也进一步增多，进而根据目标问题与各所述候选匹配文本的匹配度确定目标问题中的目标谓词时，提高了确定目标问题中的谓词的准确性。

步骤2042，将与各候选主语相关联的至少一个谓词确定为对应的候选谓词。

具体地，本实施例中，由于各候选主语在知识图谱中为三元组的第一个元素，所以将与该第一元素具有图结构连接关系的第二元素确定为候选谓词。由于在知识图谱中与每个候选主语具有图结构连接关系的第二元素的个数至少一个，所以候选谓词的个数为至少一个。

步骤205，获取与候选谓词对应的候选匹配文本。

作为一种可选实施方式，本实施例中，如图8所示，步骤205包括以下步骤：

步骤2051，从知识图谱中获取各候选主语及与各候选主语相关联的至少一个候选谓词。

步骤2052，将各候选主语与相关联的至少一个候选谓词分别进行拼接，以获得候选匹配文本。

具体地，本实施例中，将每个候选主语和与其具有图结构关系的每个候选谓词进行拼接后，形成候选匹配文本。如图3所示，获取与候选谓词对应的候选匹配文本分别为：刘三年龄、刘三职业、刘三性别、刘三妻子、刘三国籍。

步骤206，将目标问题中的目标主语的位置进行标注，将候选匹配文本中的候选主语的位置进行标注。

可选地，本实施例中，将目标问题中的目标主语的起始位置和终止位置进行标注，并将候选匹配文本中的候选主语的起始位置和终止位置进行标注。如图9所示，将目标问题“谁是刘三的老婆”中的“刘”的位置标注为目标主语的起始位置“SS”，将“三”的位置标注为目标主语的终止位置的“SE”。一个候选匹配文本“刘三老婆”中的“刘”的位置标注为候选主语的起始位置“SS”，将“三”的位置标注为候选主语的终止位置的“SE”。

可以理解的是，为了使匹配模型区分目标问题及候选匹配文本，在将目标问题和候选匹配文本输入到匹配模型前，对目标问题和匹配候选文本进行标注。如目标问题标注为“CLS”,候选匹配文本标注为“SEP”。

步骤207，针对每个候选匹配文本，将目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中，以通过已训练至收敛的匹配模型计算目标问题与该候选匹配文本的匹配度。

步骤208，通过已训练至收敛的匹配模型输出目标问题与该候选匹配文本的匹配度。

可选地，已训练至收敛的匹配模型为已训练至收敛的基于BERT的深度学习模型。如图9所示，已训练至收敛的基于BERT的深度学习模型包括：输入层，预训练模型，全连接层及分类层。针对每个候选匹配文本，将标注了目标主语位置的目标问题和标注了候选主语位置的候选匹配文本输入到输入层中，然后先后通过预训练模型和全连接层，预训练模型和全连接层对目标问题和该候选匹配文本进行压缩，最终输出语义向量，将语义向量输入到分类层中，分类层对表示成语义向量的目标问题和该候选匹配文本的匹配度进行计算。输出0-1之间的一个数值，该数值表示目标问题与该候选匹配文本的匹配度。

本实施例中，由于在主语与对应的谓词在位置上有一定规律性，并且将目标问题与候选匹配文本匹配时，标注了主语的位置，将主语的词性信息携带进去，所以已训练至收敛的匹配模型携带主语与谓词间的规则信息，进而采用标注了主语位置的目标问题和候选匹配文本使计算出的目标问题和候选匹配文本的匹配度更加准确。更能体现目标问题和候选匹配文本中的谓词匹配度，进而使确定出的目标问题中的目标谓词更加准确。

值的说明的是，在步骤207之前，若不存在已训练至收敛的匹配模型，则还可包括对初始匹配模型进行训练的步骤。具体地，对初始匹配模型进行训练时，首先获取训练样本，训练样本包括：训练问题及训练匹配文本，训练问题及训练匹配样本中标注对应主语的位置。其次采用训练样本对初始匹配模型进行训练。最后将满足训练收敛条件的匹配模型确定为已训练至收敛的匹配模型。

具体地，本实施例中，初始匹配模型为基于BERT的深度学习模型，为了和基于BERT的二分类模型中的训练样本进行区分，本实施例中基于BERT的深度学习模型的训练样本可以表示为第二训练样本。对基于BERT的深度学习模型进行训练的第二训练样本中包括的训练问题也为二元简单问题。根据训练问题获取训练匹配文本的方式与根据目标问题获取候选匹配文本的方式类似，在此不再赘述。

可以理解的是，第二训练样本中，除了在训练问题及训练匹配文本中标注对应主语的位置，还对每个训练匹配文本标注了是否匹配的标识，若匹配，则标注为1，否则标注为0。

本实施例中，将标注了匹配标识和主语位置的第二训练样本对基于BERT的深度学习模型进行训练，判断基于BERT的深度学习模型是否满足预设收敛条件，若满足预设训练收敛条件，则将满足训练收敛条件的基于BERT的深度学习模型确定为已训练至收敛的基于BERT的深度学习模型。

其中，对基于BERT的深度学习模型进行训练的预设训练收敛条件也可以为使损失函数达到最小，或者达到预设收敛次数，本实施例中对该预设训练收敛条件也不作限定。

本实施例中，采用与测试样本结构一致的训练样本对初始匹配模型进行训练，使已训练至收敛的匹配模型更加适合于计算目标问题与各候选匹配文本的匹配度，使计算出的匹配度更加准确。

步骤209，根据匹配度确定目标问题中的目标谓词。

作为一种可选实施方式，本实施例中，如图10所示，步骤209包括以下步骤：

步骤2091，获取匹配度最大的候选匹配文本中的候选谓词。

步骤2092，将匹配度最大的候选匹配文本中的候选谓词确定为目标谓词。

进一步地，本实施例中，由于在目标问题和候选匹配文本中，均包括主语及谓词。目标问题和候选匹配文本中的主语语义一致，所以若目标问题与候选匹配文本的匹配度越大，则说明目标谓词为候选匹配文本中的候选谓词的概率越大，反之，概率越小。所以将匹配度最大的候选匹配文本中的候选谓词确定为目标问题中的目标谓词，能够准确确定出目标问题中的目标谓词。

步骤210，根据目标谓词从知识图谱中获取目标问题的答案。

进一步地，本实施例中，获取与目标问题匹配度最大的候选匹配文本，将匹配度最大的候选匹配文本中包括的候选谓语确定为目标谓语，获取该匹配度最大的候选匹配文本对应的三元组中的第三个元素，将第三个元素确定为目标问题的答案。

比如，在图3中，确定出的目标谓词为“妻子”，相匹配的候选匹配文本为“刘三妻子”，在“刘三妻子”的三元组中，第三个元素为“朱四”，则将“朱四”确定为目标问题的答案。

步骤211，输出目标问题的答案。

可选地，本实施例中，输出目标问题的答案的方式可以为语音输出，文本输出，或者语音和文本的方式同时输出，本实施例中对此不作限定。

本实施例中，根据目标谓词从所述知识图谱中获取目标问题的答案；输出目标问题的答案，能够从知识图谱的三元组中快速获取目标问题的答案，进而提高获取目标问题答案的效率。

实施例三

图11为根据本申请第三实施例提供的问题的谓词确定装置的结构示意图，如图11所示，本实施例提供的问题的谓词确定装置位于电子设备中。该问题的谓词确定装置1100包括：问题接收模块1101，目标主语确定模块1102，候选谓词确定模块1103，候选文本获取模块1104，匹配度计算模块1105及目标谓词确定模块1106。

其中，问题接收模块1101，用于接收用户输入的目标问题。目标主语确定模块1102，用于若确定目标问题为二元简单问题，则确定目标问题中的目标主语。候选谓词确定模块1103，用于根据目标主语从知识图谱中确定对应的至少一个候选谓词。候选文本获取模块1104，用于获取与候选谓词对应的候选匹配文本。匹配度计算模块1105，用于计算目标问题与各候选匹配文本的匹配度。目标谓词确定模块1106，用于根据匹配度确定目标问题中的目标谓词。

本实施例提供的问题的谓词确定装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

实施例四

图12为根据本申请第四实施例提供的问题的谓词确定装置的结构示意图，如图12所示，本实施例提供的问题的谓词确定装置1200在本申请第三实施例提供的问题的谓词确定装置1100的基础上，还包括：主语位置标注模块1201，匹配模型训练模块1202，及答案获取模块1203。

进一步地，目标主语确定模块1102，具体用于：

采用主语提取算法确定目标主语在目标问题中的位置；根据位置从目标问题中确定目标主语。

进一步地，候选谓词确定模块1103，具体用于：

从知识图谱中确定与目标主语相匹配的至少一个候选主语；将与各候选主语相关联的至少一个谓词确定为对应的候选谓词。

进一步地，候选谓词确定模块1103，在从知识图谱中确定与目标主语相匹配的至少一个候选主语时，具体用于：

从知识图谱中获取与目标主语相同的主语及目标主语的别名；将与目标主语相同的主语及目标主语的别名确定为候选主语。

进一步地，候选文本获取模块1104，具体用于：

从知识图谱中获取各候选主语及与各候选主语相关联的至少一个候选谓词；将各候选主语与相关联的至少一个候选谓词分别进行拼接，以获得候选匹配文本。

进一步地，匹配度计算模块1105，具体用于：

针对每个候选匹配文本，将目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中，以通过已训练至收敛的匹配模型计算目标问题与该候选匹配文本的匹配度；通过已训练至收敛的匹配模型输出目标问题与该候选匹配文本的匹配度。

进一步地，主语位置标注模块1201，用于：

将目标问题中的目标主语的位置进行标注；将候选匹配文本中的候选主语的位置进行标注。

进一步地，匹配模型训练模块1202，用于：

获取训练样本，训练样本包括：训练问题及训练匹配文本，训练问题及训练匹配文本中标注对应主语的位置；采用训练样本对初始匹配模型进行训练；将满足训练收敛条件的匹配模型确定为已训练至收敛的匹配模型。

进一步地，目标谓词确定模块1106，具体用于：

获取匹配度最大的候选匹配文本中的候选谓词；将匹配度最大的候选匹配文本中的候选谓词确定为目标谓词。

进一步地，答案获取模块1203，用于：

根据目标谓词从知识图谱中获取目标问题的答案；输出目标问题的答案。

本实施例提供的问题的谓词确定装置可以执行图4-图8，图10所示方法实施例的技术方案，其实现原理和技术效果与图4-图8，图10所示方法实施例类似，在此不再一一赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图13所示，是根据本申请实施例的问题的谓词确定方法的电子设备的框图。电子设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图13所示，该电子设备包括：一个或多个处理器1301、存储器1302，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图13中以一个处理器1301为例。

存储器1302即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的问题的谓词确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的问题的谓词确定方法。

存储器1302作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的问题的谓词确定方法对应的程序指令/模块(例如，附图11所示的问题接收模块1101，目标主语确定模块1102，候选谓词确定模块1103，候选文本获取模块1104，匹配度计算模块1105及目标谓词确定模块1106)。处理器1301通过运行存储在存储器1302中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的问题的谓词确定方法。

存储器1302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图13的电子设备的使用所创建的数据等。此外，存储器1302可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1302可选包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至图13的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图13的电子设备还可以包括：输入装置1303和输出装置1304。处理器1301、存储器1302、输入装置1303和输出装置1304可以通过总线或者其他方式连接，图13中以通过总线连接为例。

输入装置1303可接收输入的语音、数字或字符信息，以及产生与图13的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1304可以包括语音播放设备、显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，由于通过目标问题的目标主语能够从知识图谱中获取到至少一个候选谓词，根据目标问题与各候选谓词相对应的候选匹配文本的匹配度来确定目标问题的谓词，能够在提出每个问题后只要能获取到至少一个候选谓词，就能根据匹配度确定出问题的谓词，提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词，无须预先耗费大量的时间和人力去进行标注工作，节省了确定问题中的谓词的时间，提高了确定问题中的谓词的效率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种问题的谓词确定方法，其特征在于，所述方法应用于电子设备，所述方法包括：

接收用户输入的目标问题；

若确定所述目标问题为二元简单问题，则确定所述目标问题中的目标主语；

从知识图谱中确定与所述目标主语相匹配的至少一个候选主语；

将与各候选主语相关联的至少一个谓词确定为对应的候选谓词；

从知识图谱中获取各候选主语及与各候选主语相关联的至少一个候选谓词；

将各候选主语与所述相关联的至少一个候选谓词分别进行拼接，以获得候选匹配文本；

计算所述目标问题与各所述候选匹配文本的匹配度；

根据所述匹配度确定所述目标问题中的目标谓词。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标问题中的目标主语，包括：

采用主语提取算法确定所述目标主语在所述目标问题中的位置；

根据所述位置从所述目标问题中确定所述目标主语。

3.根据权利要求1所述的方法，其特征在于，所述从知识图谱中确定与所述目标主语相匹配的至少一个候选主语，包括：

从知识图谱中获取与所述目标主语相同的主语及所述目标主语的别名；

将所述与目标主语相同的主语及所述目标主语的别名确定为所述候选主语。

4.根据权利要求1所述的方法，其特征在于，所述计算所述目标问题与各所述候选匹配文本的匹配度，包括：

针对每个所述候选匹配文本，将所述目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中，以通过所述已训练至收敛的匹配模型计算所述目标问题与该候选匹配文本的匹配度；

通过所述已训练至收敛的匹配模型输出所述目标问题与该候选匹配文本的匹配度。

5.根据权利要求4所述的方法，其特征在于，所述针对每个所述候选匹配文本，将所述目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中之前，还包括：

将所述目标问题中的目标主语的位置进行标注；

将所述候选匹配文本中的候选主语的位置进行标注。

6.根据权利要求5所述的方法，其特征在于，所述针对每个所述候选匹配文本，将所述目标问题与该候选匹配文本输入到已训练至收敛的匹配模型中之前，还包括：

获取训练样本，所述训练样本包括：训练问题及训练匹配文本，所述训练问题及训练匹配文本中标注对应主语的位置；

采用所述训练样本对初始匹配模型进行训练；

将满足训练收敛条件的匹配模型确定为所述已训练至收敛的匹配模型。

7.根据权利要求1所述的方法，其特征在于，所述根据所述匹配度确定所述目标问题中的目标谓词，包括：

获取匹配度最大的候选匹配文本中的候选谓词；

将所述匹配度最大的候选匹配文本中的候选谓词确定为所述目标谓词。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述匹配度确定所述目标问题中的目标谓词之后，还包括：

根据所述目标谓词从所述知识图谱中获取目标问题的答案；

输出所述目标问题的答案。

9.一种问题的谓词确定装置，其特征在于，所述装置位于电子设备中，所述装置包括：

问题接收模块，用于接收用户输入的目标问题；

目标主语确定模块，用于若确定所述目标问题为二元简单问题，则确定所述目标问题中的目标主语；

候选谓词确定模块，用于从知识图谱中确定与所述目标主语相匹配的至少一个候选主语；将与各候选主语相关联的至少一个谓词确定为对应的候选谓词；

候选文本获取模块，用于从所述知识图谱中获取各候选主语及与各候选主语相关联的至少一个候选谓词；将各候选主语与所述相关联的至少一个候选谓词分别进行拼接，以获得所述候选匹配文本；

匹配度计算模块，用于计算所述目标问题与各所述候选匹配文本的匹配度；

目标谓词确定模块，用于根据所述匹配度确定所述目标问题中的目标谓词。

10.根据权利要求9所述的装置，其特征在于，所述目标主语确定模块，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述候选谓词确定模块，在所述从知识图谱中确定与所述目标主语相匹配的至少一个候选主语时，具体用于：

12.根据权利要求9所述的装置，其特征在于，所述匹配度计算模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，还包括：主语位置标注模块，用于：

14.根据权利要求13所述的装置，其特征在于，还包括：匹配模型训练模块，用于：

15.根据权利要求9所述的装置，其特征在于，所述目标谓词确定模块，具体用于：

16.根据权利要求9-15任一项所述的装置，其特征在于，还包括：答案获取模块，用于：

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。