CN107679124A

CN107679124A - 一种基于动态规划算法的知识图谱中文问答检索方法

Info

Publication number: CN107679124A
Application number: CN201710858347.3A
Authority: CN
Inventors: 张日崇; 王玥; 许程; 李建欣
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-02-09
Anticipated expiration: 2037-09-21
Also published as: CN107679124B

Abstract

本发明提供一种基于动态规划算法的知识图谱中文问答检索方法，本发明旨在将原本分成三个子步骤的问答过程统一建模到同一个过程中，融入形式语言中状态机的思想将实体的识别过程与问答检索的过程用同一模型进行建模，实体识别被建模成从系统初始状态0到状态1的转移过程，问答检索过程被建模成从状态1转移到状态2的过程。保证回答精度与广度，又能从宏观上将整个问答过程进行统一化建模。另外，本发明将问答过程中的目标实体的转移过程建模成状态机中的状态转移过程，将中转实体建模为中间状态，将最终答案建模为终止状态。在此基础上，使用动态规划算法对所有状态之间的转移过程在整体上进行决策支持，同时保证系统的运行效率。

Description

一种基于动态规划算法的知识图谱中文问答检索方法

技术领域

本发明涉及一种检索方法，尤其涉及一种基于动态规划算法的知识图谱中文问答检索方法。

背景技术

随着互联网的发展和网络信息的不断增长，通过搜索引擎可以从互联网中检索到越来越多的信息，搜索结果呈现出数据海量化，形态多样化，覆盖全面化等特点，一方面提升了用户搜索到结果的可能性，另一方面却使得用户很难快速准确地定位到所需的信息。从海量信息中快速、准确地获得有用的信息，是信息时代人们的迫切需求，这一需求也推动了问答系统成为当前自然语言处理领域的一个研究热点。

问答系统和传统信息检索系统的主要区别于两个方面。一是系统的输入，问答系统的输入不再是传统检索方法下的查询关键词，而是更为自然的日常语言的问句；二是系统的输出，传统检索系统的输出是和查询关键词相关的一系列文档，需要用户自己从文档中查找有用信息，而问答系统有能力直接返回针对用户提问的答案，更好的满足用户快速、准确获取信息的需求。问答系统的高效、准确的特点也让其成为未来搜索引擎发展的方向。

与英文问答系统不同的是，中文问答系统需要处理的中文自然语言的语句分析较为困难和复杂，原因表现在语句方面的句法结构复杂，字词方面的歧义消解复杂，语义表达方面的灵活多样等方面。从早期基于如关键词词频等表层特征进行问句与答案文档的匹配的处理方法，到之后基于句法结构分析与人工制定匹配规则的问答方法，再到近年使用深度学习模型直接进行端到端式训练的方法的研究，都是在向提高问答精度，扩大回答范围等方面不断努力。但从文档中提取出最符合用户需求的语句作为问题答案返回给用户方式终究难以保证答案的简洁性与精准性，并且随着目前大数据时代数据规模的迅速增长，在文档中进行检索的代价越来越大，进而也给数据管理与表示方法的革新提出了需求。诸多面向知识应用的大规模数据的管理与组织工具相继产生，知识图谱就是其中一个代表。知识图谱将互联网中原本散落的、无结构的、缺乏关联的数据向表达体系完整，数据表达方式统一，数据之间关系描述详尽的结构化数据进行转化，这种完善规整的数据管理与组织方式给直接基于用户意图或语义的精准化搜索提供可能。所以作为知识图谱的典型基础应用，基于知识图谱的问答方法吸引了大量国内外研究者的关注。

现有技术中，面向自然语言问句的基于知识图谱问答主要包括两类方法：一类从语言本身特性角度出发，基于句法分析以及人工制定匹配规则的方式进行问答；另一类从语言文本宏观上的统计规律角度出发，通过深度学习方式进行问答的分类匹配或端到端的问答训练。然而，通过对问答系统工程实现的效果进行分析后发现，一方面，这两类方法暂时不能在保证回答精度的同时有效地扩大可回答问题的范围，前者过分依赖语言学专家手工制定规则，后者缺乏对结果的可控性与可解释性，另一方面，目前这两类方法大都将问答过程分成对问句中实体的识别与对问答内容的匹配两步来做，后一步最后得到的答案质量依赖于前一步的准确性，这样就难以对整个问答系统形成完整的质量反馈机制与准确度控制。

目前研究领域大多将整个问答过程分为以下几个步骤：首先使用命名实体识别方法对问句中的目标实体进行抽取，常用方法包括使用条件随机场(CRF) 或深度学习长短期循环网络(LSTM)模型进行训练的方式；再利用实体链接方法在同名实体列表中筛选出最有可能符合用户提问需求的实体；最后利用一定的问答匹配方法在目标实体的属性或描述中抽取出最可能符合用户要求的结构化数据作为答案返回，常用方法包括获取语义相似度或端到端训练的方式。在实际情况下按这类三步式方法进行工程实践会暴露出显著的缺点：一方面，为保证系统最终输出结果的准确性，给这三个子步骤所使用方法的准确性都提出了非常高的需求，举例来说，假如每个子步骤的准确度都达到0.9，但累积起来系统的整体准确度就只能达到0.729；另一方面，这类将整个问题截断考虑的思路会对之后通过反馈对系统进行调整从而提高系统质量的过程带来阻碍。所以在现有技术中，问答系统中的精准性问题与问答过程的建模问题尚待解决。

另外，现有技术的问答系统中需要多次中转与检索的多跳问题。目前无论是基于人工规则的匹配法或是基于深度学习的训练法在这类问题上都没有很实用的解决办法。

发明内容

附图说明

图1为系统中的状态单元在状态转移时的运行流程图。

图2为本发明实施例的系统状态转移图。

图3为本发明实施例的动态规划算法的统筹决策图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出了一种基于动态规划算法的知识图谱中文问答检索方法，对整个问答过程中包括实体识别、实体链接以及匹配检索等子步骤的进行统一处理。处理步骤如下：

步骤1.系统初始只包含初始状态，所述初始状态为0；

步骤2.将自然语言问句经过分词处理得到词语序列，按顺序输入到系统中，每次输入一个词语；

步骤3.对系统中所有存在的状态进行遍历，如果某状态在以当前词语作为输入的情况下满足状态转移条件，则向下一个状态进行跳转，并获取得分，如果不满足则原状态保持不变，等待下一个输入；

步骤4.重复步骤2到步骤3过程，直到整个序列输入完毕；

步骤5.选择最终得分最高的状态作为最终状态，其对应的内容作为系统输出返回给用户。

表1中列出对每个状态单元及其所拥有的固有属性设置。其中跳数标记了从系统初始状态开始到当前状态共经历的状态转移次数，定义系统初始状态的跳数为0，当系统得到输入之后，对于当前跳数为n的状态如果满足跳转条件时向下一个状态跳转，跳转后的状态跳数即为n+1，n为正整数。

对于每一个状态，各自维护一个可使用的词语列表，例如对于问句“北航的校歌的作者是谁”，设当前输入为“校歌”这个词语，状态m的可使用词语列表为“[北航，的]”，当“校歌”输入后状态m将这个词语加入到自己的可使用词语列表中，新列表成为“[北航，的，校歌]”，状态m再结合数据库使用自己的词语列表进行检索与匹配，如果达到状态转移条件，则跳转到状态m+1，同时由于列表中的词语被用在了状态转移过程中，所以新状态的可使用词语列表变为空列表；如果未达到状态转移条件，则可使用词语列表维持原样，同时等待系统的下一个输入，m为正整数。

另外，除初始状态外的每个状态都代表了数据库中的一个实体，一个实体可以被多个状态所代表。例如在上述的问句中，系统接收输入“北航”之后，初始状态跳转到状态1，其所代表的实体为数据库中的“北航”这一实体。之后再接收输入“校歌”之后，状态1满足状态转移条件，向状态2跳转，同时状态2所代表的实体为数据库中的“仰望星空”这一实体。状态所代表的实体将在最后这个状态被选为最佳状态时作为系统输出的答案返回给用户。

表1

如图1所示为系统中的状态单元在状态转移时的运行流程图。当系统接收到输入的词语之后，对系统中当前所拥有的所有状态按照流程图中的操作进行运转。首先将输入词语加入到可用词列表，针对当前状态是否是初始状态有以下两种操作：如果是初始状态，将可用词列表中的词语组合起来成为新词语，到数据库内检索是否有以该词语命名的实体，如果有则进行状态转移，新状态所代表的实体即为被检索到的实体，得分设置为1，跳数设置为1，可用词列表清空，如果没有则结束等待下个词语输入；如果不是初始状态，则从数据库中提取中当前状态所代表实体的所有属性信息，再对属性信息一一遍历，获取与可用词列表的语义相似度，具体获取方法如下：预先使用从网络上搜集的大量中文语料训练中文语义向量模型，将中文词语转化成其在中文的语义空间中的向量表示形式。首先得到可用词列表中的所有词语的表征向量，加和求平均向量，再得到遍历到的属性名词语对应的语义向量，最后获取两个语义向量的余弦相似度。当相似度大于一定阈值时，则认为满足状态转移条件，按照流程图中的指示进行状态转移操作，转移后的状态需要清空可用词列表，更新状态所代表的实体，以及通过处理获取得分，获取跳转后的得分β的处理规则如下： β＝α×(1+γ－θ)，其中，α为跳转之前的得分，γ为得到的语义相似度， θ为状态转移阈值。

如图2所示为实施例中对于“北航的校歌的作者是谁”这一具体问题的处理过程在系统中经过若干次状态转移产生的最终结果。系统经过三次跳转，第一次从初始状态跳转到代表实体“北航”的状态，第二次通过属性“校歌”跳转到代表实体“仰望星空”的状态，最后一次通过属性“作者”跳转到代表实体“张三”的状态，并作为最终状态，将其所代表的实体“张三”作为最终答案返回用户。

针对本发明中的提出的状态转移模型在具体运行过程中可能会出现的状态分支过多影响运行效率的问题，以及最终产生状态数目过多难以选择最佳状态作为输出的问题，本发明进一步采用基于动态规划算法的统筹决策方法。针对具体问题“青花瓷的作者的出生地是哪里”，系统运转所产生的状态转移情况与最终结果如图3所示。图中代表实体“中国台湾”的状态7可以由两条不同的路径经过3次状态转移达到，则此状态的得分由从代表实体“周杰伦”的状态 3所跳转得到的分数与从代表实体“方文山”的状态4所跳转得到分数相加而成。在问句序列输入完毕之后，在系统的所有状态中选择跳转次数最多且得分最高的状态作为输出。在此例中，跳转次数最多的三个状态为状态6、状态7、状态8，而状态7获得了最高的分数，则其对应的实体“中国台湾”则作为系统的最后答案返回给用户。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于动态规划算法的知识图谱中文问答检索方法，其特征在于，所述方法包括以下步骤：

步骤1，系统状态初始化，状态跳数设置为0，所述跳数为标记了从系统初始状态开始到当前状态共经历的状态转移次数；

步骤2，将自然语言问句经过分词处理得到词语序列，按顺序输入到系统中，每次输入一个词语；

步骤3，系统接收到词语后，对系统中所有存在的状态进行遍历，如果当前状态在以当前词语作为输入的情况下满足状态转移条件，则向下一个状态进行跳转，跳转后的状态跳数加1，并获取得分，如果不满足则原状态保持不变，等待下一个输入；

步骤4，重复步骤2到步骤3过程，直到整个序列输入完毕；

步骤5，选择最终得分最高的状态作为最终状态，其对应的内容作为系统输出返回给用户。

2.如权利要求1所述的方法，其特征在于，在所述步骤3中，每一个状态维护一个可使用的词语列表，设定当前输入词语后，得到状态m的可使用词语列表，接着所述设定当前输入词语后状态m将这个词语加入到自己的可使用词语列表中得到新的列表，然后状态m再结合数据库使用自己的词语列表进行检索与匹配，如果达到状态转移条件，则跳转到状态m+1，同时新状态的可使用词语列表变为空列表；如果未达到状态转移条件，则可使用词语列表维持原样，同时等待系统的下一个输入。

3.如权利要求1所述的方法，其特征在于，初始状态外的每个状态都代表了数据库中的一个实体，一个实体可以被多个状态所代表。

4.如权利要求3所述的方法，其特征在于，当系统接收到输入的词语之后，首先将输入词语加入到可用词列表，针对当前状态是否是初始状态有以下两种操作：如果是初始状态，将可用词列表中的词语组合起来成为新词语，到数据库内检索是否有以该词语命名的实体，如果有则进行状态转移，新状态所代表的实体即为被检索到的实体，得分设置为1，跳数设置为1，可用词列表清空，如果没有则结束等待下个词语输入；如果不是初始状态，则从数据库中提取中当前状态所代表实体的所有属性信息，再对属性信息一一遍历，获取与可用词列表的语义相似度。

5.如权利要求4所述的方法，其特征在于，获取与可用词语义相似度的步骤为：预先使用从网络上搜集的大量中文语料训练中文语义向量模型，将中文词语转化成其在中文的语义空间中的向量表示形式，得到可用词列表中的所有词语的表征向量，将所述表征向量加和得到平均向量，再得到遍历到的属性名词语对应的语义向量，最后获得两个语义向量的余弦相似度；当所述相似度大于设定阈值时，则满足状态转移条件进行状态转移操作，转移后清空可用词列表，更新状态代表的实体，并获取得分，获取跳转后的得分β的处理规则如下：β＝α×(1+γ－θ)，其中，α为跳转之前的得分，γ为得到的语义相似度，θ为状态转移阈值。

6.如权利要求3所述的方法，其特征在于，在所述状态转移时，实体的状态可以由两条不同的路径经过多次状态转移达到，则此状态的得分由从一条路径中实体的状态所跳转得到的分数与从另一条路径中实体的状态所跳转得到分数相加而成，当问句序列输入完毕之后，在系统的所有状态中选择跳转次数最多且得分最高的状态作为输出。