CN109271524A

CN109271524A - 知识库问答系统中的实体链接方法

Info

Publication number: CN109271524A
Application number: CN201810870053.7A
Authority: CN
Inventors: 程学旗; 靳小龙; 席鹏弼; 郭嘉丰; 林谢雄; 曾宇涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-01-25
Anticipated expiration: 2038-08-02
Also published as: CN109271524B

Abstract

本发明提供一种知识库问答系统中的实体链接方法，包括：从问句中获取主题词集合；根据获取的主题词集合在知识库中进行搜索，得到初步候选实体集合；对于所述初步候选实体集合中的每个实体，从该实体、所述问句以及所述知识库提取相应的特征；以及，根据提取到的所述初步候选实体集合中的每个实体的特征，得到该实体的评分，并且根据评分得到候选实体集合；本发明提高了实体链接的准确性和效率。

Description

知识库问答系统中的实体链接方法

技术领域

本发明涉及互联网技术领域，具体涉及知识库问答系统中的实体链接技术。

背景技术

知识库问答系统是当前应用较为广泛的问答系统，其对用户输入的自然语言问句进行解析推理，并结合知识库中的内容进行正确答案的搜索，然后根据使用的时间、空间场景等直接给出问句答案及相关信息，能够很好地满足人们对信息精准化的要求。实体链接作为知识库问答系统中的一项关键技术，已经成为影响知识库问答系统效果的重要因素之一。实体指的是可以相互区别且独立存在的事物，而实体链接指的是将问句中的主题词和知识库中的相关实体进行链接，并且结合上下文、类型等信息对得到的实体进行筛选得出正确实体的过程。其中，知识库由大量的三元组组成，三元组即(实体1-关系-实体2)。

现有的知识库问答系统中的实体链接方法主要分为以下几步：1、通过训练好的模型或者是具体场景下的特定语法规则抽取问句中的主题词；2、依据主题词在知识库中进行模糊搜索，得到候选实体；3、根据候选实体和问句在符号层面(如最长公共字符串等)的相似性，以及特定场景下在规则层面的一些约束，对候选实体进行进一步的筛选，得到问句的实体链接结果。

然而，在抽取主题词时，为了保证正确实体的召回率，现有方法一般会抽取出大量非正确的候选主题词，这不仅对后面的步骤带来较大的噪声，也严重影响了实体链接方法的性能。另外，在对知识库搜索得到的候选实体进行筛选时，仅仅利用了一些简单的符号层面的方法和规则项，在实体数量较多的知识库中无法对相似实体(例如，同名实体，即名称相同但属性不同；属性相同但名称不同；属性大部分相同且名称也相同等)进行有效区分，从而对知识库问答系统的后续操作(如获得正确的语义关系)有较大的影响。

当前，迫切需要一种更为准确和高效的实体链接方法，以满足知识库问答系统中对实体链接的准确性和效率的要求。

发明内容

为解决现有技术中存在的问题，根据本发明的一个实施例，提供一种知识库问答系统中的实体链接方法，包括：

步骤1)从问句中获取主题词集合；

步骤2)根据获取的主题词集合在知识库中进行搜索，得到初步候选实体集合；

步骤3)对于所述初步候选实体集合中的每个实体，从该实体、所述问句以及所述知识库提取相应的特征；

步骤4)根据提取到的所述初步候选实体集合中的每个实体的特征，得到该实体的评分，并且根据评分得到候选实体集合。

上述方法中，步骤3)包括：对于所述初步候选实体集合中的每个实体提取其类型特征，以及提取所述问句的类型特征。

上述方法中，提取所述问句的类型特征包括：对所述问句进行分词，并且获得分词后得到的每个单词的向量化表达；根据所有单词的向量化表达得到所述问句的向量化表达；以及将所述问句的向量化表达通过归一化处理得到所述问句的类型特征。

上述方法中，获得分词后得到的每个单词的向量化表达包括：将分词后得到的每个单词分别输入事先训练好的GRU模型和GloVe模型，得到每个单词的两种编码，将每个单词的两种编码进行拼接得到每个单词的向量化表达。根据所有单词的向量化表达得到所述问句的向量化表达包括：将所述问句中所有单词的向量化表达输入事先训练好的BiGRU模型，得到所述问句的向量化表达。

上述方法中，步骤3)包括：对于所述初步候选实体中的每个实体，从所述知识库的实体和关系的向量化表达中提取与所述实体相关联的实体和关系的向量化表达。

上述方法中，所述知识库的实体和关系的向量化表达是通过将所述知识库输入事先训练好的知识库翻译模型得到的。

上述方法中，步骤3)包括：对于所述初步候选实体集合中的每个实体，获得所述实体的名称与所述问句的最长公共字符串，计算所述最长公共字符串的长度与所述实体的名称长度的比例，以及所述最长公共字符串的长度与所述问句长度的比例；对于所述初步候选实体集合中的每个实体，以单词为单位获得所述实体的名称与所述问句的最长公共短语，并且计算所述最长公共短语的长度与所述实体的名称长度的比例，以及所述最长公共短语的长度与所述问句长度的比例；以及，对于所述初步候选实体集合中的每个实体，计算所述实体的名称中的主题词的TF-IDF值。

上述方法中，对于所述初步候选实体集合中的每个实体，计算所述实体的名称中的主题词的TF-IDF值包括：计算所述实体中的每个主题词的TF-IDF值并进行累加。

上述方法中，步骤1)包括：对所述问句进行分词，对分词后得到的单词进行词性标注，并且保留具有预定词性的单词；从保留的单词中识别出具有预定意义的单词加入候选主题词集合；以及，计算所述候选主题词集合中每个主题词的TF-IDF值，将TF-IDF值大于等于预定阈值的主题词加入所述主题词集合。

上述方法中，步骤4)包括：将提取到的所述初步候选实体集合中的每个实体的特征输入事先训练好的评分模型，得到每个实体的评分；以及，按照评分对所述初步候选实体集合中的每个实体进行排序，从中筛选出实体加入所述候选实体集合。

本发明提供的实体链接方法，在符号特征(符号层面的特征)的基础上，引入了实体和问句的类型特征以及知识库的语义结构特征，增强了对相似实体的区分能力，提高了实体链接的准确性；另外，在获取主题词时选择TF-IDF值大于预定阈值的主题词，提高了实体链接的效率。

附图说明

图1是根据本发明一个实施例的知识库问答系统中的实体链接方法的示意图；

图2是根据本发明一个实施例的知识库问答系统中的实体链接方法的流程图；

图3是根据本发明一个实施例的从问句中得到主题词集合的方法的流程图；

图4是根据本发明一个实施例的多维特征提取方法的流程图；

图5是根据本发明一个实施例的问句类型特征提取方法的示意图；

图6是根据本发明一个实施例的获得候选实体集合的方法的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

根据本发明的一个实施例，提供一种知识库问答系统中的实体链接方法，包括主题词获取、知识库搜索、多维特征提取和评分筛选四个部分。

在执行实体链接之前，需要对实体链接所要用到的各种模型进行训练和测试。包括：获取问句的训练集和测试集，以及(知识库中)三元组的训练集和测试集，对实体链接中用到的模型进行训练和测试。

具体地，在一方面，对提取问句类型特征中用到的GRU(门控循环神经网络)模型、GloVe(词向量表达方法)模型、BiGRU(双向门控循环神经网络)模型以及Softmax函数(柔性最大值传输函数)中的参数进行训练和测试。其中，GRU模型和GloVe模型用于对问句中的单词进行编码以获得单词的向量化表达，这两个模型的输入为问句中的单词且输出为单词的编码，BiGRU模型的输入为问句中单词的向量化表达(如下文所述，即GRU模型和GloVe模型的输出的拼接)而输出为问句的向量化表达，Softmax函数用于对问句的向量化表达进行归一化，以得到问句的类型概率(即问句的类型特征)。在另一方面，对提取语义结构特征中用到的TransE模型进行训练和测试，其输入是以三元组表示的知识库，输出是知识库中实体和关系的向量表达。在又一方面，对用于筛选实体的CatBoost模型进行训练和测试，其输入是实体的多维特征(如下文所述，包括符号特征、类型特征和语义结构特征)，输出是该实体的评分，评分用于判断该实体是否在最终的候选实体集合中。

现参照图1-2对知识库问答系统中的实体链接方法展开描述，如上所述，方法包括主题词获取、知识库搜索、多维特征提取和评分筛选四个部分。概括而言，主题词获取包括从问句中获取主题词作为搜索知识库的依据，其中主题词指的是典型且重要的单词或短语；知识库搜索包括根据获取的主题词对知识库进行搜索，得到与主题词相关的初步候选实体集合；多维特征提取包括从符号、类型、语义结构这三个层面(其中，符号层面涉及语言符号、字母、单词等；类型指初步候选实体集合中的实体类型以及问句的类型；而语义结构表示知识库中语义网络的结构)对初步候选实体集合中的实体进行特征提取；评分筛选包括根据提取得到的多维特征对初步候选实体集合中的实体进行评分，并且根据评分对初步候选实体集合进行筛选，得到最终的候选实体集合。下面结合图2详细描述知识库问答系统中的实体链接方法的各个步骤。

步骤S1.从问句中获取主题词集合，参见图3，根据本发明的一个实施例，步骤S1包括：

步骤S101.获取问句并对问句进行预处理。在一个实施例中，预处理包括：去除问句中的标点符号(如问句末尾的问号、句号等)，以及对问句中的单词进行小写转化等。

步骤S102.对预处理后的问句进行分词，并且对分词后得到的单词进行词性标注(POS)和命名实体识别(NER)，从而得到候选主题词集合。具体地，首先为分词结果中的每个单词标注其词性，也就是确定单词是名词、动词、形容词或者其他词性，在词性标注后，保留具有有效词性的单词(如，保留具有预先确定好的词性的单词，如保留外来词(FW)、名词(NN、NNS、NNP、NNPS)等)；接着，对所保留的单词进行命名实体识别，其中命名实体识别指的是识别出具有特定意义的单词，包括人名、地名、机构名、专有名词等，并且将识别出的单词加入候选主题词集合。

步骤S103.过滤掉候选主题词集合中明显错误的主题词，如连续的标点以及常见的停用词(stop words)，如the、a等，以节省存储空间和提高后面的搜索效率。

步骤S104.计算候选主题词集合中每个主题词的TF-IDF值(其中，TF表示主题词在问句中的词频；IDF表示逆文本频率指数，是根据问句训练集中出现该词的问句和问句训练集中的问句总数得到的)，设置阈值Threshold并且将该阈值与主题词的TF-IDF值进行比较。根据本发明的一个实施例，阈值可以是候选主题词集合的所有主题词的TF-IDF值中最大的TF-IDF值的0.1倍、0.01倍等(优选为0.005倍)。其中，计算主题词的TF-IDF值的公式如下：

其中，tfidf表示主题词的TF-IDF值，w_i,q表示主题词w_i在问句q中出现的频率，w_q表示问句q中单词的个数，Q表示问句训练集，|Q|表示问句训练集中的问句个数，|{q:w_i∈q}|表示包含主题词w_i的问句个数。

步骤S105.将TF-IDF值大于等于阈值Threshold的主题词保存至主题词集合(即舍弃TF-IDF值小于阈值的主题词)，得到主题词集合。

步骤S2.根据获取的主题词集合，在知识库中进行模糊搜索，得到与主题词相关的初步候选实体集合。

具体地，对知识库中的实体的名称进行分词，若分词后能够得到所述主题词集合中的一个或多个主题词，则将该实体加入初步候选实体集合；另外，如果分词后没有得到所述主题词集合中的主题词但是得到的单词的子串为所述主题词集合中的主题词，并且该子串前后为标点符号、起始符或终结符，则将该实体加入初步候选实体集合。

步骤S3.对于初步候选实体集合中的每个实体进行多维特征提取。参见图4，步骤S3包括如下子步骤：

步骤S301.对于初步候选实体集合中的每个实体进行符号层面的特征提取(符号特征提取)。在一个实施例中，符号层面的特征包括：实体名称与问句的最长公共字符串占比(字符层面)，实体名称与问句的最长公共短语占比(单词层面)，以及实体名称中的主题词(根据步骤S2可知，在初步候选实体集合中，实体名称在分词后可以得到主题词集合中的一个或多个主题词，或者得到包括主题词的单词)在问句训练集中的TF-IDF值。

具体地，计算实体名称与问句的最长公共字符串占比包括：将问句和实体名称看作由单个字符组成的集合，计算两者的最长公共字符串(或称最长公共子串)，然后计算最长公共字符串的字符个数(长度)LCS占实体名称字符个数(长度)CL_E的比例R_C1，以及LCS占问句字符个数(长度)CL_Q的比例R_C2，计算公式如下：

计算实体名称与问句的最长公共短语占比包括：首先，分别对问句和实体名称进行分词，以单词为最小单位获得两者的最长公共短语；接着，计算最长公共短语的长度(字符个数)LCW占实体名称字符个数WL_E的比例R_W1，以及LCW占问句字符个数WL_Q的比例R_W2，计算公式如下：

计算实体名称中的主题词在问句训练集中的TF-IDF值包括：根据公式(1)计算实体名称中每个主题词在问句训练集中的TF-IDF值，将实体名称中每个主题词的TF-IDF值进行累加，从而得到实体名称中的主题词在问句训练集中的TF-IDF值。

步骤S302.对于初步候选实体集合中的每个实体进行类型层面的特征提取(类型特征提取)。

对于同名实体来说，符号层面的特征可能无法对其进行有效区分，因此需要结合类型信息来进行进一步的区分。类型层面的特征提取包括分别提取实体类型特征和问句类型特征(其中，类型可按照Freebase知识库中的类型进行划分，其中有6700多种类型，如时间、地点等)。其中，知识库中的实体E的类型特征可以直接通过查询知识库而得到，记为Type_E。然而，对于问句而言其本身没有类型，但是将问句和其答案的类型进行关联，则可以预测答案的类型特征作为问句的类型特征。参见图5，在一个实施例中，提取问句类型特征的过程如下：

(i)对问句进行分词，通过先前训练得到的GRU模型和GloVe模型将分词后得到的每个单词进行编码，分别得到单词的第一编码E_i ^C和第二编码E_i ^W(其中，前者表示问句中第i个单词通过GRU模型得到的编码，后者表示问句中第i个单词通过GloVe模型得到的编码)。

(ii)对于分词后得到的每个单词，将其第一编码和第二编码进行拼接，从而得到该单词的向量化表达。例如，第i个单词的向量化表达E_i如下式所示：

(iii)将问句中所有单词的向量化表达输入训练得到的BiGRU模型中，从而得到问句的向量化表达E。’这里使用BiGRU模型的原因在于，问句的结构大多不是传统的主谓宾顺序，在这种情况下，单词的语义不仅仅和前面的单词有关也与之后的单词有关，因此在这里使用双向的门控循环神经网络模型，得到问句中的最终编码E，’如下式所示：

E'＝BiGRU(E₀,E₁...E_n),n＝|q|-1 (5)

其中，|q|表示分词后得到的单词个数。

(iv)将问句的向量化表达E’通过Softmax函数进行归一化得到类型概率Type_Q(即问句的类型特征)，如下式所示：

Type_Q＝Softmax(AE'+b) (6)

其中，A和b是先前训练得到的参数。

步骤S303.对于初步候选实体集合中的每个实体进行语义结构层面的特征提取。

具体地，将知识库(其以三元组表示)输入训练好的TransE模型，得到知识库的实体和关系的向量化表达。对于初步候选实体集合中的每个实体，从知识库的实体和关系的向量化表达中提取出与该实体相关联的实体和关系的向量化表达(例如，从知识库的实体和关系的向量化表达中提取出包含该实体的三元组所对应的实体和关系的向量化表达)，作为该实体的语义结构特征。

步骤S4.参见图6，对于初步候选实体集合中的每个实体，将其多维特征输入CatBoost模型，得到该实体对应的评分。对初步候选实体集合中的每个实体的评分进行排序，并根据预设的阈值进行筛选(其中，将评分大于等于该阈值的实体加入最终的候选实体集合)，得到最终的候选实体集合。

为验证本发明提供的知识库问答系统中的实体链接方法的有效性，发明人进行了实验。其中，使用了FB2M(Freebase的子集)作为知识库，其中FB2M包含2,150,604个实体、6701种关系以及14,180,927个三元组。发明人使用了SimpleQuestions数据集作为训练数据集和测试数据集，其中包含108,442个问句(其中75910用于训练，10845用于测试)。实验结果表明，相对于传统的实体链接方法，本发明不仅大大提升了实体链接的速率(实体链接过程几乎都能限制在5s以内)，而且在准确率上也有了较大的提升，其中，评分排序第一的实体命中正确实体的准确率达到79.2％，评分排序前五的实体命中正确实体的准确率达到91.3％，并且评分排序前十的实体命中正确实体的准确率达到93.4％。

在上文的实施例中，利用GRU模型和GloVe模型来获得问句中单词的编码，而在其他实施例中，也可以训练word2Vec等模型来获得问句中单词的编码。在上文的实施例中，单词的向量化表达是通过拼接GRU模型的输出结果和GloVe模型的输出结果得到的，在其他的实施例中，也可以将其中任何一个模型的输出结果直接作为单词的向量化表达。

在上文的实施例中，使用了Softmax函数来得到问句的类型特征，然而本领域技术人员应理解，还可以使用其他的归一化方法来获得问句的类型特征。另外，除了TransE模型，也可以训练TransD、TransH、TransR等模型作为知识库翻译模型。

应注意到一些示例性方法被描绘为流程图。虽然流程图将操作表述为顺序执行，但可以理解的是，许多操作可以并行、同时或同步地执行。另外，可以重新排列操作的顺序。处理可以在操作完成时终止，但是也可以具有并未包括在图中或实施例中的另外的步骤。

上述方法可以通过硬件、软件、固件、中间件、伪代码、硬件描述语言或者它们的任意组合来实现。当以软件、固件、中间件或伪代码实施时，用来执行任务的程序代码或代码分段可以被存储在计算机可读介质中，诸如存储介质，处理器可以执行该任务。

应理解，软件实现的示例性实施例通常在一些形式的程序存储介质上进行编码或者在一些类型的传输介质上实现。程序存储介质可以是任意的非瞬态存储介质，诸如磁盘(例如，软盘或硬盘)或光盘(例如，紧凑盘只读存储器或“CD ROM”)，并且可以是只读的或者随机访问的。类似地，传输介质可以是双绞线、同轴线缆、光纤，或者本领域已知的一些其它适用的传输介质。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种知识库问答系统中的实体链接方法，包括：

步骤1)从问句中获取主题词集合；

2.根据权利要求1所述的方法，其中，步骤3)包括：对于所述初步候选实体集合中的每个实体提取其类型特征，以及提取所述问句的类型特征。

3.根据权利要求2所述的方法，其中，提取所述问句的类型特征包括：

对所述问句进行分词，并且获得分词后得到的每个单词的向量化表达；

根据所有单词的向量化表达得到所述问句的向量化表达；以及

将所述问句的向量化表达通过归一化处理得到所述问句的类型特征。

4.根据权利要求3所述的方法，其中，获得分词后得到的每个单词的向量化表达包括：

将分词后得到的每个单词分别输入事先训练好的GRU模型和GloVe模型，得到每个单词的两种编码，将每个单词的两种编码进行拼接得到每个单词的向量化表达；

以及其中，根据所有单词的向量化表达得到所述问句的向量化表达包括：

将所述问句中所有单词的向量化表达输入事先训练好的BiGRU模型，得到所述问句的向量化表达。

5.根据权利要求1-4中任一项所述的方法，其中，步骤3)包括：对于所述初步候选实体中的每个实体，从所述知识库的实体和关系的向量化表达中提取与所述实体相关联的实体和关系的向量化表达。

6.根据权利要求5所述的方法，其中，所述知识库的实体和关系的向量化表达是通过将所述知识库输入事先训练好的知识库翻译模型得到的。

7.根据权利要求1-4中任一项所述的方法，其中，步骤3)包括：

对于所述初步候选实体集合中的每个实体，获得所述实体的名称与所述问句的最长公共字符串，计算所述最长公共字符串的长度与所述实体的名称长度的比例，以及所述最长公共字符串的长度与所述问句长度的比例；

对于所述初步候选实体集合中的每个实体，以单词为单位获得所述实体的名称与所述问句的最长公共短语，并且计算所述最长公共短语的长度与所述实体的名称长度的比例，以及所述最长公共短语的长度与所述问句长度的比例；以及

对于所述初步候选实体集合中的每个实体，计算所述实体的名称中的主题词的TF-IDF值。

8.根据权利要求7所述的方法，其中，对于所述初步候选实体集合中的每个实体，计算所述实体的名称中的主题词的TF-IDF值包括：

计算所述实体中的每个主题词的TF-IDF值并进行累加。

9.根据权利要求1-4中任一项所述的方法，其中，步骤1)包括：

对所述问句进行分词，对分词后得到的单词进行词性标注，并且保留具有预定词性的单词；

从保留的单词中识别出具有预定意义的单词加入候选主题词集合；以及

计算所述候选主题词集合中每个主题词的TF-IDF值，将TF-IDF值大于等于预定阈值的主题词加入所述主题词集合。

10.根据权利要求1-4中任一项所述的方法，其中，步骤4)包括：

将提取到的所述初步候选实体集合中的每个实体的特征输入事先训练好的评分模型，得到每个实体的评分；以及

按照评分对所述初步候选实体集合中的每个实体进行排序，从中筛选出实体加入所述候选实体集合。