CN113590779B - 一种空管领域知识图谱的智能问答系统构建方法 - Google Patents

一种空管领域知识图谱的智能问答系统构建方法 Download PDF

Info

Publication number
CN113590779B
CN113590779B CN202110743414.3A CN202110743414A CN113590779B CN 113590779 B CN113590779 B CN 113590779B CN 202110743414 A CN202110743414 A CN 202110743414A CN 113590779 B CN113590779 B CN 113590779B
Authority
CN
China
Prior art keywords
entity
knowledge graph
relation
question
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110743414.3A
Other languages
English (en)
Other versions
CN113590779A (zh
Inventor
韩云祥
张建伟
张森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110743414.3A priority Critical patent/CN113590779B/zh
Publication of CN113590779A publication Critical patent/CN113590779A/zh
Application granted granted Critical
Publication of CN113590779B publication Critical patent/CN113590779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种空管领域知识图谱的智能问答系统构建方法,第一步,实体识别,用于识别自然语言问句中出现的实体名。第二步,实体链接,通过判断问句中与知识图谱中两个实体语义相似度,建立问句中实体到知识图谱中实体的链接关系。第三步:采用编码器‑解码器模型预测问句中实体与答案实体之间的关系,并且利用实体类型的额外信息进一步提高模型关系预测精度。第四步:利用预测出的关系,进一步修正实体链接结果。第五步:利用实体ID和预测出的关系在空管知识图谱中检索出对应的答案实体。该问答系统基于知识图谱且不同于问题与答案之间进行模板匹配的方式,因此答案具有更高的可靠性。

Description

一种空管领域知识图谱的智能问答系统构建方法
技术领域
本发明具体涉及一种空管领域知识图谱的智能问答系统构建方法。
背景技术
谷歌公司在2012年提出知识图谱这个概念,用于增强其搜索引擎的功能。传统的搜索引擎根据用户输入的字符进行筛选和排序网页,由于其方式缺乏语义关系,在目前互联网知识爆炸性增长的情况下,越来越不能满足用户的需求,知识图谱的出现为解决这一难题提供了可行的方案。知识图谱本质上是一种由具有属性的实体通过关系链接而成的语义网络。根据面向的领域,知识图谱被分为通用知识图谱与领域知识图谱,通用知识图谱包含大量常识,覆盖面极广。领域知识图谱基于行业数据构建,通常有着严格而丰富的数据模式,对该领域知识的深度、准确性有着更高的要求。
问答系统是信息检索的一种高级形式,其简答、准确的互动方式使得问答系统成为人工智能应用领域的研究热点。问答系统通过自然语言对话的形式帮助人们从知识库中获取知识,是知识图谱的核心应用之一。与传统的搜索引擎不同,问答系统通过对用户输入的自然语言进行处理,从知识图谱中查找出用户问题的准确回答。
目前,随着国民经济的快速发展,空中交通管理领域的信息数据持续快速增长,空管信息使用方式趋于复杂,在这中情况下,传统的空管信息检索方式往往不能满足用户要求。因此,建立基于知识图谱的空管领域问答系统,能有效提高空管信息的使用效率,对推动空管信息智能化处理具有重要意义。
本专利提出了一种空管领域知识图谱的智能问答系统构建方法,来为空管领域的知识检索与查询建立起专业且高效的问答系统。输入是自然语言式的问句,输出是空管领域知识实体数据。
发明内容
本部分的目的在于概述本发明的实施例的一些方面及简要介绍一些较佳实施例。在本部分及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明数摘要和发明名称的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述和/或现有技术中存在的问题,提出了本发明。
因此,本发明其中一个目的是提供一种空管领域知识图谱的智能问答系统构建方法。
一种空管领域知识图谱的智能问答系统构建方法,包括:
步骤1:实体识别,识别出自然语言问句中出现的实体名;
步骤2:实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3:关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,并利用步骤2中实体类型的额外信息进一步提高模型的关系预测精度;
步骤4:重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果;
步骤5:答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
进一步的,步骤1实体识别,方法包括构建空管领域实体数据集、建立实体识别数据集(包含:训练集、验证集与测试集)。
进一步的,抽取出空管领域知识图谱中所有实体,整理形成空管领域实体数据集。
进一步的,根据已有的实体数据集,然后采用BIO序列标注方法对自然语言问句进行标注,最后建立起实体识别数据集。
进一步的,采用双向长短期记忆网络+条件随机场BiLSTM+CRF深度学习模型识别问句中出现的实体。
进一步的,步骤2采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,其中定义一个相似度阈值(如:0.7),大于或等于阈值则建立链接反之则不建立。
进一步的,步骤2根据链接到知识图谱的实体,查询出该实体在知识图谱中具体实体 ID与实体类型。
进一步的,步骤3采用2层自注意力机制模块堆叠形成Encoder模块,采用3层自注意力机制模块堆叠形成Decoder模块。
进一步的,步骤3将实体类型作为辅助特征信息送入到Decoder模块,进一步提高模型预测精度。
进一步的,步骤4采用最终得分进行实体链接重排名,排名公式如下,其中sim表示问句中与知识图谱中的实体字符串相似度,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数。
Score=α*sim+β*e
进一步的,步骤5采用SPARQL查询语言,将实体ID和步骤3中预测关系整合为SPARQL语句,随后在空管知识图谱中检索出答案实体。
一种空管领域知识图谱的自动化构建系统,包括:
实体识别模块:用于识别出自然语言问句中出现的实体名;
实体链接模块:用于建立问句中实体到知识图谱中实体的链接关系,同时找出知识图谱中该实体ID与类型。
关系预测模块:采用Encoder-Decoder模型预测问句中实体与答案实体之间的关系;
重排名模块:利用步骤3预测出的具体关系,进一步修正实体链接结果;
答案检索模块:根据步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
本发明搭建的空管领域知识图谱的智能问答系统,能够加速知识数据在人与机器之间的交互速度,文本式的自然语言问句通过深度学习手段让机器理解人类的语言,使得人们在获取空管领域知识图谱中的相应的知识时更加高效与便捷,同时该问答系统知识检索的方式同样适用于空管机器人(如:智能管制员)获取知识的方式,专业的知识图谱以及智能高效的知识获取为智能管制员的构建奠定基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明的一种空管领域知识图谱的智能问答系统构建方法流程图;
图2为本发明的实体识别模块的深度学习模型架构图;
图3为本发明的关系预测模块的深度学习模型架构图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
一种空管领域知识图谱的智能问答系统构建方法,如图1所示,实现该方法的具体步骤如下:
步骤1.实体识别,识别出自然语言问句中出现的实体名;
步骤2.实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3.关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,并利用步骤2中实体类型的额外信息进一步提高模型关系预测精度;
步骤4.重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果;
步骤5.答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
其中,实体识别,首先需要在空管领域的知识图谱中抽取出实体,然后形成一个实体数据集,随后对照实体数据集对自然语言问句利用BIO命名标注法进行标注,最后形成模型所需要的问句数据集。
其中,上述模型我们采用的是双向长短期记忆网络+条件随机场BiLSTM+CRF模型,该方法属于序列标注问题。首先采用BIO标注法将数据中出现的已知空管领域实体(如:机场名称、航空器名称、具体规则等)一一标注,随之整理出训练集、验证集和测试集。然后将文本数据集送入双向长短期记忆网络+条件随机场BiLSTM+CRF模型中,其中包含:第一步将文本送入嵌入层Embedding层进行词嵌入得到词向量,第二步将词向量送入双向长短期记忆网络BiLSTM层对中每个词提取特征得到特征向量,第三步将特征向量送入条件随机场CRF层进行序列标注与校正得到序列标注信息。最后根据BIO标注规则,从模型得到的序列标注信息中整理出相应的实体。具体的模型架构如图2所示。
实体链接中,采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,此外定义一个相似度阈值,如果大于或等于阈值表示2个实体是同一个实体,最后建立链接反之则不建立。
关系预测中,Encoder模块采用2层自注意力机制模块堆叠而形成,Encoder模块主要作用是将自然语言问句映射到一个低维空间,并抽取句间关系以及语义特征最终形成一个包含语义的张量编码。
Decoder模块采用3层自注意力机制模块堆叠而形成,Decoder模块主要负责将Encoder模块抽取出的语义编码进行解码,最终通过一个SoftMax层预测出对应的关系。其中,可以将问句中实体类型信息编码并送入Decoder模块,该操作可以辅助Decoder模块更准确预测出对应的关系。关系预测具体的模型架构图如图3所示。
同一实体名在不同语境可能表示不同含义,因此为了进一步修正实体链接的结果,定义了一个重拍排名规则。其中sim表示问句中与知识图谱中的实体字符串相似度,即Levenshtein Distance给出的相似度值,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数,可根据实际应用场景调节。Score越大则表明该实体链接越准确,我们选取得分最大的实体。
Score=α*sim+β*e
答案检索采用SPARQL查询语言,由于我们空管领域的知识图谱中的知识是按照RDF 三元组形式表示的,因此利用用SPARQL查询一个答案实体,需要问句中实体ID和关系整合为SPARQL语句,随后在空管知识图谱中才能检索出答案实体。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (6)

1.一种空管领域知识图谱的智能问答系统构建方法,其特征在于,包括:
步骤1:实体识别,识别出自然语言问句中出现的实体名;
步骤2:实体链接,通过判断问句中与知识图谱中实体语义相似度,建立问句中实体到知识图谱中实体ID的链接关系,同时找出知识图谱中该实体的ID与类型;
步骤3:关系预测,采用编码器-解码器Encoder-Decoder模型预测问句中实体与答案实体之间的关系,采用2层自注意力机制模块堆叠形成Encoder模块,采用3层自注意力机制模块堆叠形成Decoder模块,将步骤2中得到的实体类型送入到Decoder模块进一步提高模型预测精度;
步骤4:重排名,利用步骤3预测出的具体关系,进一步修正实体链接结果,采用最终Score进行实体链接重排名,排名公式如下,其中sim表示问句中与知识图谱中的实体字符串相似度,e表示链接实体周围的关系集合是否包含步骤3中预测出的关系,包含则为1反之为0,α和β为权重参数,
Score=α*sim+β*e;
步骤5:答案检索,利用步骤2得到的实体ID与步骤3预测出的关系在空管知识图谱中检索出对应的答案实体。
2.根据权利要求1所述的一种空管领域知识图谱的智能问答系统构建方法,其特征在于,
步骤1实体识别,所述方法包括构建空管领域实体数据集、建立实体识别数据集。
3.根据权利要求1所述的一种空管领域知识图谱的智能问答系统构建方法,其特征在于,
步骤1中利用双向长短期记忆网络+条件随机场BiLSTM+CRF模型进行命名实体识别。
4.根据权利要求1所述的一种空管领域知识图谱的智能问答系统构建方法,其特征在于,
步骤2中采用莱文斯坦距离Levenshtein Distance衡量问句中与知识图谱中的实体字符串相似度,其中定义一个相似度阈值,大于或等于阈值则建立链接反之则不建立。
5.根据权利要求1所述的一种空管领域知识图谱的智能问答系统构建方法,其特征在于,
步骤5中采用SPARQL查询语言,将实体ID和步骤3中预测关系整合为SPARQL语句,随后在空管知识图谱中检索出答案实体。
6.一种空管领域知识图谱的智能问答系统构建方法,其特征在于,包含:
实体识别模块:用于识别出自然语言问句中出现的实体名;
实体链接模块:用于建立问句中实体到知识图谱中实体的链接关系,同时找出知识图谱中该实体ID与类型;
关系预测模块:采用Encoder-Decoder模型预测问句中实体与答案实体之间的关系,采用2层自注意力机制模块堆叠形成Encoder模块,采用3层自注意力机制模块堆叠形成Decoder模块,实体链接模块中得到的实体类型送入到Decoder模块进一步提高模型预测精度;
重排名模块:利用关系预测模块预测出的具体关系,进一步修正实体链接结果,采用最终Score进行实体链接重排名,排名公式如下,其中sim表示问句中与知识图谱中的实体字符串相似度,e表示链接实体周围的关系集合是否包含关系预测模块中预测出的关系,包含则为1反之为0,α和β为权重参数,
Score=α*sim+β*e;
答案检索模块:根据实体链接模块得到的实体ID与关系预测模块预测出的关系在空管知识图谱中检索出对应的答案实体。
CN202110743414.3A 2021-06-30 2021-06-30 一种空管领域知识图谱的智能问答系统构建方法 Active CN113590779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743414.3A CN113590779B (zh) 2021-06-30 2021-06-30 一种空管领域知识图谱的智能问答系统构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743414.3A CN113590779B (zh) 2021-06-30 2021-06-30 一种空管领域知识图谱的智能问答系统构建方法

Publications (2)

Publication Number Publication Date
CN113590779A CN113590779A (zh) 2021-11-02
CN113590779B true CN113590779B (zh) 2023-04-25

Family

ID=78245581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743414.3A Active CN113590779B (zh) 2021-06-30 2021-06-30 一种空管领域知识图谱的智能问答系统构建方法

Country Status (1)

Country Link
CN (1) CN113590779B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577091A (zh) * 2022-12-08 2023-01-06 成都晓多科技有限公司 基于知识图谱的复杂条件问题作答方法及系统
CN115827844B (zh) * 2022-12-12 2023-08-08 之江实验室 一种基于Sparql语句生成的知识图谱问答方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111209384A (zh) * 2020-01-08 2020-05-29 腾讯科技(深圳)有限公司 基于人工智能的问答数据处理方法、装置及电子设备
CN112000791A (zh) * 2020-08-26 2020-11-27 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112035645A (zh) * 2020-09-01 2020-12-04 平安科技(深圳)有限公司 数据查询方法以及系统
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN112948546A (zh) * 2021-01-15 2021-06-11 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111209384A (zh) * 2020-01-08 2020-05-29 腾讯科技(深圳)有限公司 基于人工智能的问答数据处理方法、装置及电子设备
CN112000791A (zh) * 2020-08-26 2020-11-27 哈电发电设备国家工程研究中心有限公司 一种电机故障知识抽取系统及方法
CN112035645A (zh) * 2020-09-01 2020-12-04 平安科技(深圳)有限公司 数据查询方法以及系统
CN112069328A (zh) * 2020-09-08 2020-12-11 中国人民解放军国防科技大学 一种基于多标签分类的实体关系联合抽取模型的建立方法
CN112948546A (zh) * 2021-01-15 2021-06-11 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Meng Wang等.Self attention driven adversarial similarity learning network .《Pattern Recognition》.2020,(第105期),1-17. *
张森.面向知识库问答的实体链接及关系预测研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2022,I138-1291. *
晁朝辉 .面向Simple Question的自动问答方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,I138-1497. *

Also Published As

Publication number Publication date
CN113590779A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111639171B (zh) 一种知识图谱问答方法及装置
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN112231447B (zh) 一种中文文档事件抽取的方法和系统
CN108804529A (zh) 一种基于Web的问答系统实现方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN109308321A (zh) 一种知识问答方法、知识问答系统及计算机可读存储介质
CN113590779B (zh) 一种空管领域知识图谱的智能问答系统构建方法
CN111897944B (zh) 基于语义空间共享的知识图谱问答系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN113076411A (zh) 一种基于知识图谱的医疗查询扩展方法
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN110516145A (zh) 一种基于句向量编码的信息搜索方法
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
Qin et al. Agriculture knowledge graph construction and application
CN112966518B (zh) 一种面向大规模在线学习平台的优质答案识别方法
Peng et al. MPSC: A multiple-perspective semantics-crossover model for matching sentences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant