CN112214590A - 一种基于知识图谱的子图匹配自然问答方法 - Google Patents

一种基于知识图谱的子图匹配自然问答方法 Download PDF

Info

Publication number
CN112214590A
CN112214590A CN202011128379.6A CN202011128379A CN112214590A CN 112214590 A CN112214590 A CN 112214590A CN 202011128379 A CN202011128379 A CN 202011128379A CN 112214590 A CN112214590 A CN 112214590A
Authority
CN
China
Prior art keywords
graph
knowledge
nodes
node
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011128379.6A
Other languages
English (en)
Inventor
蒋畅江
李鹏华
王琴
张宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011128379.6A priority Critical patent/CN112214590A/zh
Publication of CN112214590A publication Critical patent/CN112214590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于知识图谱的子图匹配自然问答方法,属于计算机技术领域。当得到自然语言问题的一个正确匹配的查询子图时,歧义问题也同时解决;本发明不需要事先人工设立模板,且对复杂问句分析非常有效。本发明大致分为两个阶段:其一为问题理解,即将问题转换为逻辑形式;其二为查询评分,即对产生的结构化查询进行置信度评分。本发明为了将自然语言转换为查询图,提出了点优先(node‑first)的方法,首先从问句中抽取实体,再填充实体之间的边,来构成超语义查询图。该方法不需要事先人工设立模板,且对复杂问句分析非常有效。最终本发明能够完成子图匹配问答方法。

Description

一种基于知识图谱的子图匹配自然问答方法
技术领域
本发明属于计算机技术领域,涉及一种基于知识图谱的子图匹配自然问答方法。
背景技术
大规模知识图谱的构建与应用需要多种技术的支持。通过知识提取技术,可以从一些公开的半结构化、非结构化和第三方结构化数据库的数据中提取出实体、关系、属性等知识要素。知识表示则通过一定有效手段对知识要素表示,便于进一步处理使用。然后通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。现有技术的缺点:1.基于规则的实现只能理解一小部分的问题。2.基于关键词或同义词的实现不能完整地理解问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于知识图谱的子图匹配自然问答方法。
为达到上述目的,本发明提供如下技术方案:
一种基于知识图谱的子图匹配自然问答方法,该方法如下步骤:
S1:节点识别;
S2:结构建立;
S3:得到超语义查询图QU
S4:短语映射;
S5:查找超语义查询图QU的近似匹配。
可选的,所述S1具体为:用已有的方法识别出所有的实体指称,并且将所有wh-词和不能匹配到任何实体的名词作为通配符。
可选的,所述S2具体为:利用句法依存树,当两个节点之间没有其余节点存在,那么这两个节点之间即认为是有边或路径相连,即为一个关系指称,且路径上所有边的label组合为这个关系指称;
当两个节点之间的指称没有label时,若两个节点都为实体、类,那么在知识图谱中将这两个节点间的关系填入;若其中一个节点为通配符,则在知识图谱中定位另外一个节点,取与其连接频数最高的那些谓词作为候选关系填入。
可选的,所述S3具体为:首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类;其次考虑如何将未标记的边映射到知识图谱中的谓词;
如果两个节点都是常数,即实体或类,则将两个节点定位在知识图谱中并找出它们之间的谓词;
如果一个节点vi是一个通配符,另一个vj是一个实体或类,在知识图谱中定位vj,并选择最频繁的相邻谓词作为匹配边缘的候选谓词。
可选的,所述S4具体为:给出一个超语义查询图QU,讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配;在QU中的一些边允许不匹配,而QU应该匹配所有节点,但以不同边连接所有节点的子图以Si表示;最后,收集每个Si的所有top-k匹配项,形成答案集,并报告答案集中匹配得分最高的k个匹配项。
本发明的有益效果在于:
1.本申请提出基于子图匹配的方法,将解决歧义问题与查询评分这两个阶段融合在一起,即当得到自然语言问题的一个正确匹配的查询子图时,歧义问题也同时解决;
2.本申请不需要事先人工设立模板,且对复杂问句分析非常有效。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为基于节点优先框架的自然问答系统示意图;
图2为语义解析树模型示意图;
图3为构建超语义查询图的示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明各部分具体实施细节如下:
(1)节点识别。用已有的方法识别出所有的实体指称,并且将所有wh-词和不能匹配到任何实体的名词作为通配符。
(2)结构建立。利用句法依存树,当两个节点之间没有其余节点存在,那么这两个节点之间即认为是有边或路径相连。当两个节点之间的指称没有label时,若两个节点都为实体、类,那么在知识图谱中将这两个节点间的关系填入;若其中一个节点为通配符,则在知识图谱中定位另外一个节点,取与其连接频数最高的那些谓词作为候选关系填入。
(3)得到超语义查询图QU
(4)短语映射。首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类。其次考虑如何将未标记的边映射到知识图谱中的谓词。如果两个节点都是常数(即,实体或类),则我们将两个节点定位在知识图谱中并找出它们之间的谓词。如果一个节点vi是一个通配符,另一个vj是一个实体或类,在知识图谱中定位vj,并选择最频繁的相邻谓词作为匹配边缘的候选谓词。
(5)查找超语义查询图QU的近似匹配。给出一个超语义查询图QU,讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配。在QU中的一些边允许不匹配,而QU应该匹配所有节点,但以不同边连接所有节点的子图以Si表示。最后,我们收集每个Si的所有top-k匹配项,形成答案集,并报告答案集中匹配得分最高的k个匹配项。
如图2所示,对自然语言问句“What is the budget ofthe film directed byPaul Anderson?”解析,即一个寻找与关系指称相关的主/宾语节点的示例。如图1,已知的关系指称为“budget of”与“direct by”,由于“film”是匹配于实体或类,且“of”与子节点“film”之间以边pobj相连,所以“film”是关系指称“budget of”的宾语。此外,虽然“is”与“budget”由subject-like的边相连,但是“is”并不是一个可以匹配到实体/类的节点,所以“is”不是“budget of”的主语。根据前面所述,与“budget of”最相近的wh-词是“what”,那么它就是“budget of”的主语。
如图3所示,点“film”与点“Paul Anderson”、“actor”之间都没有其余节点存在,所以“film”与“Paul Anderson”存在关系,关系指称为“directedby”;“film”与“actor”存在关系,关系指称为“directed starred by”,由此得到节点间的关系指称。当两个节点之间的指称没有label时,如图3的“Chinese”和“actor”,那么若两个节点都为实体/类,那么在知识图谱中将这两个节点间的关系填入;若其中一个节点为通配符,则在知识图谱中定位另外一个节点,取与其连接频数最高的那些谓词作为候选关系填入。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于知识图谱的子图匹配自然问答方法,其特征在于:该方法如下步骤:
S1:节点识别;
S2:结构建立;
S3:得到超语义查询图QU
S4:短语映射;
S5:查找超语义查询图QU的近似匹配。
2.根据权利要求1所述的一种基于知识图谱的子图匹配自然问答方法,其特征在于:所述S1具体为:用已有的方法识别出所有的实体指称,并且将所有wh-词和不能匹配到任何实体的名词作为通配符。
3.根据权利要求2所述的一种基于知识图谱的子图匹配自然问答方法,其特征在于:所述S2具体为:利用句法依存树,当两个节点之间没有其余节点存在,那么这两个节点之间即认为是有边或路径相连,即为一个关系指称,且路径上所有边的label组合为这个关系指称;
当两个节点之间的指称没有label时,若两个节点都为实体、类,那么在知识图谱中将这两个节点间的关系填入;若其中一个节点为通配符,则在知识图谱中定位另外一个节点,取与其连接频数最高的那些谓词作为候选关系填入。
4.根据权利要求3所述的一种基于知识图谱的子图匹配自然问答方法,其特征在于:所述S3具体为:首先将关系提到和节点短语分别映射到候选谓词/谓词路径和实体/类;其次考虑如何将未标记的边映射到知识图谱中的谓词;
如果两个节点都是常数,即实体或类,则将两个节点定位在知识图谱中并找出它们之间的谓词;
如果一个节点vi是一个通配符,另一个vj是一个实体或类,在知识图谱中定位vj,并选择最频繁的相邻谓词作为匹配边缘的候选谓词。
5.根据权利要求4所述的一种基于知识图谱的子图匹配自然问答方法,其特征在于:所述S4具体为:给出一个超语义查询图QU,讨论如何在知识图谱上找到具有top-k匹配分数的近似匹配;在QU中的一些边允许不匹配,而QU应该匹配所有节点,但以不同边连接所有节点的子图以Si表示;最后,收集每个Si的所有top-k匹配项,形成答案集,并报告答案集中匹配得分最高的k个匹配项。
CN202011128379.6A 2020-10-20 2020-10-20 一种基于知识图谱的子图匹配自然问答方法 Pending CN112214590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011128379.6A CN112214590A (zh) 2020-10-20 2020-10-20 一种基于知识图谱的子图匹配自然问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011128379.6A CN112214590A (zh) 2020-10-20 2020-10-20 一种基于知识图谱的子图匹配自然问答方法

Publications (1)

Publication Number Publication Date
CN112214590A true CN112214590A (zh) 2021-01-12

Family

ID=74056112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011128379.6A Pending CN112214590A (zh) 2020-10-20 2020-10-20 一种基于知识图谱的子图匹配自然问答方法

Country Status (1)

Country Link
CN (1) CN112214590A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434693A (zh) * 2021-06-23 2021-09-24 重庆邮电大学工业互联网研究院 一种基于智慧数据平台的数据集成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEN HU等: "Answering Natural Language Questions by Subgraph Matching over", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434693A (zh) * 2021-06-23 2021-09-24 重庆邮电大学工业互联网研究院 一种基于智慧数据平台的数据集成方法
CN113434693B (zh) * 2021-06-23 2023-02-21 重庆邮电大学工业互联网研究院 一种基于智慧数据平台的数据集成方法

Similar Documents

Publication Publication Date Title
WO2021000676A1 (zh) 问答方法、问答装置、计算机设备及存储介质
Lopez et al. Poweraqua: Fishing the semantic web
Kaushik et al. Exploiting local similarity for indexing paths in graph-structured data
CN109739964A (zh) 知识数据提供方法、装置、电子设备和存储介质
CN112487202B (zh) 融合知识图谱与bert的中文医学命名实体识别方法、装置
CN115455935A (zh) 一种文本信息智能处理系统
CN112148851A (zh) 一种基于知识图谱的医药知识问答系统的构建方法
US20140108460A1 (en) Data store organizing data using semantic classification
US20150347521A1 (en) Systems and methods for relation extraction for chinese clinical documents
Dai et al. Entity disambiguation using a markov-logic network
CN113641707B (zh) 知识图谱消歧方法、装置、设备及存储介质
Ramar et al. Technical review on ontology mapping techniques
CN110119404B (zh) 一种基于自然语言理解的智能取数系统及其方法
CN112214590A (zh) 一种基于知识图谱的子图匹配自然问答方法
CN113963748A (zh) 一种蛋白质知识图谱向量化方法
Kayed et al. Postal address extraction from the web: a comprehensive survey
Su et al. Understanding query interfaces by statistical parsing
Gao et al. A hybrid semantic parsing approach for tabular data analysis
Zheng et al. A novel conditional knowledge graph representation and construction
Bergamaschi et al. Automatic normalization and annotation for discovering semantic mappings
CN110188169A (zh) 一种基于简化标签的知识匹配方法、系统及设备
Morshed et al. Creating and aligning controlled vocabularies
Winkler et al. Employing Text Mining for Semantic Tagging in DIAsDEM.
Kaladevi et al. Development of Background Ontology for Weather Systems through Ontology Learning
Su et al. Query interfaces understanding by statistical parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112