CN107679124A - 一种基于动态规划算法的知识图谱中文问答检索方法 - Google Patents

一种基于动态规划算法的知识图谱中文问答检索方法 Download PDF

Info

Publication number
CN107679124A
CN107679124A CN201710858347.3A CN201710858347A CN107679124A CN 107679124 A CN107679124 A CN 107679124A CN 201710858347 A CN201710858347 A CN 201710858347A CN 107679124 A CN107679124 A CN 107679124A
Authority
CN
China
Prior art keywords
state
word
entity
question
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710858347.3A
Other languages
English (en)
Other versions
CN107679124B (zh
Inventor
张日崇
王玥
许程
李建欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201710858347.3A priority Critical patent/CN107679124B/zh
Publication of CN107679124A publication Critical patent/CN107679124A/zh
Application granted granted Critical
Publication of CN107679124B publication Critical patent/CN107679124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于动态规划算法的知识图谱中文问答检索方法,本发明旨在将原本分成三个子步骤的问答过程统一建模到同一个过程中,融入形式语言中状态机的思想将实体的识别过程与问答检索的过程用同一模型进行建模,实体识别被建模成从系统初始状态0到状态1的转移过程,问答检索过程被建模成从状态1转移到状态2的过程。保证回答精度与广度,又能从宏观上将整个问答过程进行统一化建模。另外,本发明将问答过程中的目标实体的转移过程建模成状态机中的状态转移过程,将中转实体建模为中间状态,将最终答案建模为终止状态。在此基础上,使用动态规划算法对所有状态之间的转移过程在整体上进行决策支持,同时保证系统的运行效率。

Description

一种基于动态规划算法的知识图谱中文问答检索方法
技术领域
本发明涉及一种检索方法,尤其涉及一种基于动态规划算法的知识图谱中 文问答检索方法。
背景技术
随着互联网的发展和网络信息的不断增长,通过搜索引擎可以从互联网中 检索到越来越多的信息,搜索结果呈现出数据海量化,形态多样化,覆盖全面 化等特点,一方面提升了用户搜索到结果的可能性,另一方面却使得用户很难 快速准确地定位到所需的信息。从海量信息中快速、准确地获得有用的信息, 是信息时代人们的迫切需求,这一需求也推动了问答系统成为当前自然语言处 理领域的一个研究热点。
问答系统和传统信息检索系统的主要区别于两个方面。一是系统的输入, 问答系统的输入不再是传统检索方法下的查询关键词,而是更为自然的日常语 言的问句;二是系统的输出,传统检索系统的输出是和查询关键词相关的一系 列文档,需要用户自己从文档中查找有用信息,而问答系统有能力直接返回针 对用户提问的答案,更好的满足用户快速、准确获取信息的需求。问答系统的 高效、准确的特点也让其成为未来搜索引擎发展的方向。
与英文问答系统不同的是,中文问答系统需要处理的中文自然语言的语句 分析较为困难和复杂,原因表现在语句方面的句法结构复杂,字词方面的歧义 消解复杂,语义表达方面的灵活多样等方面。从早期基于如关键词词频等表层 特征进行问句与答案文档的匹配的处理方法,到之后基于句法结构分析与人工 制定匹配规则的问答方法,再到近年使用深度学习模型直接进行端到端式训练 的方法的研究,都是在向提高问答精度,扩大回答范围等方面不断努力。但从 文档中提取出最符合用户需求的语句作为问题答案返回给用户方式终究难以保 证答案的简洁性与精准性,并且随着目前大数据时代数据规模的迅速增长,在 文档中进行检索的代价越来越大,进而也给数据管理与表示方法的革新提出了需求。诸多面向知识应用的大规模数据的管理与组织工具相继产生,知识图谱 就是其中一个代表。知识图谱将互联网中原本散落的、无结构的、缺乏关联的 数据向表达体系完整,数据表达方式统一,数据之间关系描述详尽的结构化数 据进行转化,这种完善规整的数据管理与组织方式给直接基于用户意图或语义 的精准化搜索提供可能。所以作为知识图谱的典型基础应用,基于知识图谱的 问答方法吸引了大量国内外研究者的关注。
现有技术中,面向自然语言问句的基于知识图谱问答主要包括两类方法: 一类从语言本身特性角度出发,基于句法分析以及人工制定匹配规则的方式进 行问答;另一类从语言文本宏观上的统计规律角度出发,通过深度学习方式进 行问答的分类匹配或端到端的问答训练。然而,通过对问答系统工程实现的效 果进行分析后发现,一方面,这两类方法暂时不能在保证回答精度的同时有效 地扩大可回答问题的范围,前者过分依赖语言学专家手工制定规则,后者缺乏 对结果的可控性与可解释性,另一方面,目前这两类方法大都将问答过程分成 对问句中实体的识别与对问答内容的匹配两步来做,后一步最后得到的答案质 量依赖于前一步的准确性,这样就难以对整个问答系统形成完整的质量反馈机 制与准确度控制。
目前研究领域大多将整个问答过程分为以下几个步骤:首先使用命名实体 识别方法对问句中的目标实体进行抽取,常用方法包括使用条件随机场(CRF) 或深度学习长短期循环网络(LSTM)模型进行训练的方式;再利用实体链接方 法在同名实体列表中筛选出最有可能符合用户提问需求的实体;最后利用一定 的问答匹配方法在目标实体的属性或描述中抽取出最可能符合用户要求的结构 化数据作为答案返回,常用方法包括获取语义相似度或端到端训练的方式。在 实际情况下按这类三步式方法进行工程实践会暴露出显著的缺点:一方面,为 保证系统最终输出结果的准确性,给这三个子步骤所使用方法的准确性都提出 了非常高的需求,举例来说,假如每个子步骤的准确度都达到0.9,但累积起来系统的整体准确度就只能达到0.729;另一方面,这类将整个问题截断考虑 的思路会对之后通过反馈对系统进行调整从而提高系统质量的过程带来阻碍。 所以在现有技术中,问答系统中的精准性问题与问答过程的建模问题尚待解决。
另外,现有技术的问答系统中需要多次中转与检索的多跳问题。目前无论 是基于人工规则的匹配法或是基于深度学习的训练法在这类问题上都没有很实 用的解决办法。
发明内容
本发明提供一种基于动态规划算法的知识图谱中文问答检索方法,本发明 旨在将原本分成三个子步骤的问答过程统一建模到同一个过程中,融入形式语 言中状态机的思想将实体的识别过程与问答检索的过程用同一模型进行建模, 实体识别被建模成从系统初始状态0到状态1的转移过程,问答检索过程被建 模成从状态1转移到状态2的过程。保证回答精度与广度,又能从宏观上将整 个问答过程进行统一化建模。另外,本发明将问答过程中的目标实体的转移过 程建模成状态机中的状态转移过程,将中转实体建模为中间状态,将最终答案 建模为终止状态。在此基础上,使用动态规划算法对所有状态之间的转移过程 在整体上进行决策支持,同时保证系统的运行效率。
附图说明
图1为系统中的状态单元在状态转移时的运行流程图。
图2为本发明实施例的系统状态转移图。
图3为本发明实施例的动态规划算法的统筹决策图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实 施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出了一种基于动态规划算法的知识图谱中文问答检索方法,对整 个问答过程中包括实体识别、实体链接以及匹配检索等子步骤的进行统一处理。 处理步骤如下:
步骤1.系统初始只包含初始状态,所述初始状态为0;
步骤2.将自然语言问句经过分词处理得到词语序列,按顺序输入到系统 中,每次输入一个词语;
步骤3.对系统中所有存在的状态进行遍历,如果某状态在以当前词语作 为输入的情况下满足状态转移条件,则向下一个状态进行跳转,并获取得分, 如果不满足则原状态保持不变,等待下一个输入;
步骤4.重复步骤2到步骤3过程,直到整个序列输入完毕;
步骤5.选择最终得分最高的状态作为最终状态,其对应的内容作为系统 输出返回给用户。
表1中列出对每个状态单元及其所拥有的固有属性设置。其中跳数标记了从 系统初始状态开始到当前状态共经历的状态转移次数,定义系统初始状态的跳 数为0,当系统得到输入之后,对于当前跳数为n的状态如果满足跳转条件时 向下一个状态跳转,跳转后的状态跳数即为n+1,n为正整数。
对于每一个状态,各自维护一个可使用的词语列表,例如对于问句“北航 的校歌的作者是谁”,设当前输入为“校歌”这个词语,状态m的可使用词语列 表为“[北航,的]”,当“校歌”输入后状态m将这个词语加入到自己的可使用 词语列表中,新列表成为“[北航,的,校歌]”,状态m再结合数据库使用自己 的词语列表进行检索与匹配,如果达到状态转移条件,则跳转到状态m+1,同 时由于列表中的词语被用在了状态转移过程中,所以新状态的可使用词语列表 变为空列表;如果未达到状态转移条件,则可使用词语列表维持原样,同时等 待系统的下一个输入,m为正整数。
另外,除初始状态外的每个状态都代表了数据库中的一个实体,一个实体 可以被多个状态所代表。例如在上述的问句中,系统接收输入“北航”之后, 初始状态跳转到状态1,其所代表的实体为数据库中的“北航”这一实体。之 后再接收输入“校歌”之后,状态1满足状态转移条件,向状态2跳转,同时 状态2所代表的实体为数据库中的“仰望星空”这一实体。状态所代表的实体 将在最后这个状态被选为最佳状态时作为系统输出的答案返回给用户。
表1
如图1所示为系统中的状态单元在状态转移时的运行流程图。当系统接收 到输入的词语之后,对系统中当前所拥有的所有状态按照流程图中的操作进行 运转。首先将输入词语加入到可用词列表,针对当前状态是否是初始状态有以 下两种操作:如果是初始状态,将可用词列表中的词语组合起来成为新词语, 到数据库内检索是否有以该词语命名的实体,如果有则进行状态转移,新状态 所代表的实体即为被检索到的实体,得分设置为1,跳数设置为1,可用词列表 清空,如果没有则结束等待下个词语输入;如果不是初始状态,则从数据库中 提取中当前状态所代表实体的所有属性信息,再对属性信息一一遍历,获取与 可用词列表的语义相似度,具体获取方法如下:预先使用从网络上搜集的大量 中文语料训练中文语义向量模型,将中文词语转化成其在中文的语义空间中的 向量表示形式。首先得到可用词列表中的所有词语的表征向量,加和求平均向 量,再得到遍历到的属性名词语对应的语义向量,最后获取两个语义向量的余 弦相似度。当相似度大于一定阈值时,则认为满足状态转移条件,按照流程图 中的指示进行状态转移操作,转移后的状态需要清空可用词列表,更新状态所 代表的实体,以及通过处理获取得分,获取跳转后的得分β的处理规则如下: β=α×(1+γ-θ),其中,α为跳转之前的得分,γ为得到的语义相似度, θ为状态转移阈值。
如图2所示为实施例中对于“北航的校歌的作者是谁”这一具体问题的处 理过程在系统中经过若干次状态转移产生的最终结果。系统经过三次跳转,第 一次从初始状态跳转到代表实体“北航”的状态,第二次通过属性“校歌”跳 转到代表实体“仰望星空”的状态,最后一次通过属性“作者”跳转到代表实 体“张三”的状态,并作为最终状态,将其所代表的实体“张三”作为最终答 案返回用户。
针对本发明中的提出的状态转移模型在具体运行过程中可能会出现的状态 分支过多影响运行效率的问题,以及最终产生状态数目过多难以选择最佳状态 作为输出的问题,本发明进一步采用基于动态规划算法的统筹决策方法。针对 具体问题“青花瓷的作者的出生地是哪里”,系统运转所产生的状态转移情况与 最终结果如图3所示。图中代表实体“中国台湾”的状态7可以由两条不同的 路径经过3次状态转移达到,则此状态的得分由从代表实体“周杰伦”的状态 3所跳转得到的分数与从代表实体“方文山”的状态4所跳转得到分数相加而 成。在问句序列输入完毕之后,在系统的所有状态中选择跳转次数最多且得分最高的状态作为输出。在此例中,跳转次数最多的三个状态为状态6、状态7、 状态8,而状态7获得了最高的分数,则其对应的实体“中国台湾”则作为系 统的最后答案返回给用户。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中 部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种基于动态规划算法的知识图谱中文问答检索方法,其特征在于,所述方法包括以下步骤:
步骤1,系统状态初始化,状态跳数设置为0,所述跳数为标记了从系统初始状态开始到当前状态共经历的状态转移次数;
步骤2,将自然语言问句经过分词处理得到词语序列,按顺序输入到系统中,每次输入一个词语;
步骤3,系统接收到词语后,对系统中所有存在的状态进行遍历,如果当前状态在以当前词语作为输入的情况下满足状态转移条件,则向下一个状态进行跳转,跳转后的状态跳数加1,并获取得分,如果不满足则原状态保持不变,等待下一个输入;
步骤4,重复步骤2到步骤3过程,直到整个序列输入完毕;
步骤5,选择最终得分最高的状态作为最终状态,其对应的内容作为系统输出返回给用户。
2.如权利要求1所述的方法,其特征在于,在所述步骤3中,每一个状态维护一个可使用的词语列表,设定当前输入词语后,得到状态m的可使用词语列表,接着所述设定当前输入词语后状态m将这个词语加入到自己的可使用词语列表中得到新的列表,然后状态m再结合数据库使用自己的词语列表进行检索与匹配,如果达到状态转移条件,则跳转到状态m+1,同时新状态的可使用词语列表变为空列表;如果未达到状态转移条件,则可使用词语列表维持原样,同时等待系统的下一个输入。
3.如权利要求1所述的方法,其特征在于,初始状态外的每个状态都代表了数据库中的一个实体,一个实体可以被多个状态所代表。
4.如权利要求3所述的方法,其特征在于,当系统接收到输入的词语之后,首先将输入词语加入到可用词列表,针对当前状态是否是初始状态有以下两种操作:如果是初始状态,将可用词列表中的词语组合起来成为新词语,到数据库内检索是否有以该词语命名的实体,如果有则进行状态转移,新状态所代表的实体即为被检索到的实体,得分设置为1,跳数设置为1,可用词列表清空,如果没有则结束等待下个词语输入;如果不是初始状态,则从数据库中提取中当前状态所代表实体的所有属性信息,再对属性信息一一遍历,获取与可用词列表的语义相似度。
5.如权利要求4所述的方法,其特征在于,获取与可用词语义相似度的步骤为:预先使用从网络上搜集的大量中文语料训练中文语义向量模型,将中文词语转化成其在中文的语义空间中的向量表示形式,得到可用词列表中的所有词语的表征向量,将所述表征向量加和得到平均向量,再得到遍历到的属性名词语对应的语义向量,最后获得两个语义向量的余弦相似度;当所述相似度大于设定阈值时,则满足状态转移条件进行状态转移操作,转移后清空可用词列表,更新状态代表的实体,并获取得分,获取跳转后的得分β的处理规则如下:β=α×(1+γ-θ),其中,α为跳转之前的得分,γ为得到的语义相似度,θ为状态转移阈值。
6.如权利要求3所述的方法,其特征在于,在所述状态转移时,实体的状态可以由两条不同的路径经过多次状态转移达到,则此状态的得分由从一条路径中实体的状态所跳转得到的分数与从另一条路径中实体的状态所跳转得到分数相加而成,当问句序列输入完毕之后,在系统的所有状态中选择跳转次数最多且得分最高的状态作为输出。
CN201710858347.3A 2017-09-21 2017-09-21 一种基于动态规划算法的知识图谱中文问答检索方法 Active CN107679124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710858347.3A CN107679124B (zh) 2017-09-21 2017-09-21 一种基于动态规划算法的知识图谱中文问答检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710858347.3A CN107679124B (zh) 2017-09-21 2017-09-21 一种基于动态规划算法的知识图谱中文问答检索方法

Publications (2)

Publication Number Publication Date
CN107679124A true CN107679124A (zh) 2018-02-09
CN107679124B CN107679124B (zh) 2020-10-27

Family

ID=61136710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710858347.3A Active CN107679124B (zh) 2017-09-21 2017-09-21 一种基于动态规划算法的知识图谱中文问答检索方法

Country Status (1)

Country Link
CN (1) CN107679124B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN112463890A (zh) * 2020-12-10 2021-03-09 电子科技大学 基于区块链和机器学习的跨系统数据共享方法
CN113010663A (zh) * 2021-04-26 2021-06-22 东华大学 一种基于工业认知图谱的自适应推理问答方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332670A1 (en) * 2014-05-15 2015-11-19 Microsoft Corporation Language Modeling For Conversational Understanding Domains Using Semantic Web Resources
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
CN106469169A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332670A1 (en) * 2014-05-15 2015-11-19 Microsoft Corporation Language Modeling For Conversational Understanding Domains Using Semantic Web Resources
US20160378851A1 (en) * 2015-06-25 2016-12-29 International Business Machines Corporation Knowledge Canvassing Using a Knowledge Graph and a Question and Answer System
CN106469169A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许程: "机器学习的主要策略与基本结构", 《科技资讯》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN110609902A (zh) * 2018-05-28 2019-12-24 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN110609902B (zh) * 2018-05-28 2021-10-22 华为技术有限公司 一种基于融合知识图谱的文本处理方法及装置
CN112463890A (zh) * 2020-12-10 2021-03-09 电子科技大学 基于区块链和机器学习的跨系统数据共享方法
CN112463890B (zh) * 2020-12-10 2023-05-26 电子科技大学 基于区块链和机器学习的跨系统数据共享方法
CN113010663A (zh) * 2021-04-26 2021-06-22 东华大学 一种基于工业认知图谱的自适应推理问答方法和系统

Also Published As

Publication number Publication date
CN107679124B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
KR101061391B1 (ko) 동사기반패턴을 이용한 대용량 문헌정보 내에서의 기술용어간 관계추출 시스템
CN107679124A (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
Tiwari et al. Ensemble approach for twitter sentiment analysis
Wiegand et al. Non-syntactic word prediction for AAC
Kanagarajan et al. Intelligent sentence retrieval using semantic word based answer generation algorithm with cuckoo search optimization
CN110888970B (zh) 文本生成方法、装置、终端和存储介质
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
Yu et al. Knowledge base relation detection via multi-view matching
Gourru et al. Document network projection in pretrained word embedding space
CN110334362A (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
Dalton et al. Local and global query expansion for hierarchical complex topics
Kaur et al. Automatic Punjabi poetry classification using machine learning algorithms with reduced feature set
Smith et al. Skill extraction for domain-specific text retrieval in a job-matching platform
KR102256007B1 (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
CN107577669A (zh) 一种计算机中自动生成英文论文标题缩写词的方法
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
Premakumara et al. Application of Summarization and Sentiment Analysis in the Tourism domain
KR102198780B1 (ko) 상호연관성 기반 전문분야에 특화된 인터넷 검색 서비스 제공 방법
Qassimi et al. Towards an emergent semantic of web resources using collaborative tagging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant