CN110569345B - 一种基于实体链接和关系预测的时政知识智能问答方法 - Google Patents

一种基于实体链接和关系预测的时政知识智能问答方法 Download PDF

Info

Publication number
CN110569345B
CN110569345B CN201910831731.3A CN201910831731A CN110569345B CN 110569345 B CN110569345 B CN 110569345B CN 201910831731 A CN201910831731 A CN 201910831731A CN 110569345 B CN110569345 B CN 110569345B
Authority
CN
China
Prior art keywords
entity
query
question
knowledge
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910831731.3A
Other languages
English (en)
Other versions
CN110569345A (zh
Inventor
朱全银
倪欣
周泓
马天龙
苏力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN201910831731.3A priority Critical patent/CN110569345B/zh
Publication of CN110569345A publication Critical patent/CN110569345A/zh
Application granted granted Critical
Publication of CN110569345B publication Critical patent/CN110569345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实体链接和关系预测的时政知识智能问答方法,首先使用爬虫技术建立时事政治生语料库,然后构建时事政治知识图谱;接着使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。本发明可有效辅助学生进行时政知识的学习。

Description

一种基于实体链接和关系预测的时政知识智能问答方法
技术领域
本发明属于智能问答技术领域,特别涉及一种基于实体链接和关系预测的时政知识智能问答方法。
背景技术
2019年2月28日,中国互联网络信息中心(CNNIC)公布的第43期《中国互联网络发展状况统计报告》显示,到2018年12月为止,中国在线教育在线用户数量为2.01亿,相较于2017年增长了29.7%,而在线教育的使用也提高了4.2%的比例,达到了24.3%的新高峰,网络辅助学习成为一个不可或缺的学习方式。
然而,现在市场上很多包括百度、Google等在内的基于字符串匹配的搜索引擎,搜索到目标结果的效率过低,首先是因为目前的网络数据规模空前未有,其次是因为检索体系的原因,根据自然语言检索出成千上万的相关结果,但是目标答案难以准确获得。在信息快速发展的今天,低效的搜索引擎已经不能满足用户的使用需求,能够开发出能够理解用户搜索意图的搜索引擎迫在眉睫,正如美国华盛顿大学图灵实验室的ETtzioni教授指出“问答系统是下一代搜索引擎的基本形态”,它能够提供更为精准的信息服务,因而由字符串匹配层面到实体表示层面的过渡成为理所应当。基于此,基于自然语言处理技术的问答系统的研究成为自然语言处理中智能交互的一个重要研究方向。
目前我国已知的语料库没有时事政治相关的。只有一些专业型方向上的信息语料库(例如北京语言大学HSK动态作文语料库、汉字偏误数据资料库、平衡语料库等),并且预测的数据也较为简单,没有从时政人物关系、新闻实事、文汇学习、理论解读等多角度综合起来去分析。
所以,本设计将最新政治的新闻动向、文献等诸多时政素材整合成为可以用于处理的数据集,通过实体链接,关系预测等技术,设计出辅助学生学习时政的时政智能问答方法,提高学生对时政的关注度和兴趣。
发明内容
发明目的:针对上述问题,本发明提供基于一种基于实体链接和关系预测的时政知识智能问答方法,通过实体链接和关系预测任务,将问句抽取得到实体链接到时政知识图谱中的实体,再使用编解码结构的神经网络,根据自然语言问题预测出该问题所对应的关系,设计出对时政知识能进行智能问答的方法。
技术方案:本发明提出一种基于实体链接和关系预测的时政知识智能问答方法,包括如下步骤:
(1)构建时政语料数据库和时事政治知识图谱;
(2)使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;
(3)对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;
(4)用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。
进一步的,所述步骤(1)中构建时政语料数据库的具体步骤如下:
运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等,爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6}。
进一步的,所述步骤(2)中对问句进行实体识别,进行实体链接的具体步骤如下:
设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项。
进一步的,所述步骤(3)中关系预测使用编解码结构的神经网络的具体步骤如下:
(3.1)Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
(3.2)在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码;在对解码阶段进行训练时,该模型根据给定文本序列的隐藏表示向量以及先前得到的词,预测输出句子的最大似然化。
进一步的,所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下:
查询通过步骤(2)和步骤(3)处理后,形成一条知识图谱中的目标实体查询关系,然后用带问号的三元组形式表述;然后使用查询语句时政知识图谱中进行目标实体查询;最后将查询到的知识图谱中的目标实体作为回答输出。
本发明采用上述技术方案,具有以下有益效果:
本发明利用爬虫技术自建了时政领域的知识图谱,为特定领域特别是学校领域提供一种时政知识的智能问答方法,具体描述如下:本发明利用实体链接技术,消除异构数据中的实体冲突、实体间指向不明晰等实体间的指向二义性问题;利用关系预测模型,根据自然语言问题预测出该问题所对应的关系,因而该技术是整个智能问答过程中至关重要的一步。基于设计的学校领域时政知识智能问答方法,可以应用于时政辅助学习系统的构建。
附图说明
图1为本发明的总体流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明所述的一种基于实体链接和关系预测的时政知识智能问答方法,包括如下步骤:
步骤1:利用爬虫技术按照设计的格式构建时政语料数据库,构建出时事政治知识图谱;
步骤1.1:运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6};
步骤2:使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;
步骤2.1:运用BiLSTM-CRF模型抽取方法抽取问句中的实体;
步骤2.2:设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项;
步骤3:对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;
步骤3.1:Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
步骤3.2:在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码。在对解码阶段进行训练时,该模型根据给定文本序列的隐藏表示向量以及先前得到的词,来预测输出句子的最大似然化。
步骤4:用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出;
步骤4.1:通过步骤(2)和步骤(3)处理后,会形成一条知识图谱中的目标实体查询关系,这里用带问号的三元组形式表述。即可使用查询语句时政知识图谱中进行目标实体查询。最后将查询到的知识图谱中的目标实体作为回答输出。

Claims (2)

1.一种基于实体链接和关系预测的时政知识智能问答方法,其特征在于,包括如下步骤:
(1)构建时政语料数据库和时事政治知识图谱,包括:运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集,爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6};
(2)使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接,包括:设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项;
(3)对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系,包括:
(3.1)Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
(3.2)在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码;在对解码阶段进行训练时,模型根据给定文本序列的隐藏表示向量以及先前得到的词,预测输出句子的最大似然化;
(4)用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。
2.根据权利要求1所述的一种基于实体链接和关系预测的时政知识智能问答方法,其特征在于,所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下:
查询通过步骤(2)和步骤(3)处理后,形成一条知识图谱中的目标实体查询关系,然后用带问号的三元组形式表述;然后使用查询语句时政知识图谱中进行目标实体查询;最后将查询到的知识图谱中的目标实体作为回答输出。
CN201910831731.3A 2019-09-04 2019-09-04 一种基于实体链接和关系预测的时政知识智能问答方法 Active CN110569345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910831731.3A CN110569345B (zh) 2019-09-04 2019-09-04 一种基于实体链接和关系预测的时政知识智能问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910831731.3A CN110569345B (zh) 2019-09-04 2019-09-04 一种基于实体链接和关系预测的时政知识智能问答方法

Publications (2)

Publication Number Publication Date
CN110569345A CN110569345A (zh) 2019-12-13
CN110569345B true CN110569345B (zh) 2022-07-29

Family

ID=68777713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910831731.3A Active CN110569345B (zh) 2019-09-04 2019-09-04 一种基于实体链接和关系预测的时政知识智能问答方法

Country Status (1)

Country Link
CN (1) CN110569345B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324691A (zh) * 2020-01-06 2020-06-23 大连民族大学 一种基于知识图谱的少数民族领域智能问答方法
CN111221983B (zh) * 2020-01-15 2023-08-04 北京百度网讯科技有限公司 时序知识图谱生成方法、装置、设备和介质
CN111400455A (zh) * 2020-03-18 2020-07-10 北京工业大学 基于知识图谱的问答系统的关系检测方法
CN111767368B (zh) * 2020-05-27 2022-08-23 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质
CN111708899B (zh) * 2020-06-13 2023-10-03 广州华建工智慧科技有限公司 一种基于自然语言和知识图谱工程信息智能搜索方法
CN112417100A (zh) * 2020-11-20 2021-02-26 大连民族大学 辽代历史文化领域知识图谱及其智能问答系统的构建方法
CN112749265B (zh) * 2021-01-08 2022-08-19 哈尔滨工业大学 一种基于多信息源的智能问答系统
CN116934556B (zh) * 2023-09-08 2023-12-26 四川三思德科技有限公司 一种基于大数据融合的目标人员精准化管控方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Also Published As

Publication number Publication date
CN110569345A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110569345B (zh) 一种基于实体链接和关系预测的时政知识智能问答方法
CN1617134A (zh) 使用机器翻译技术处理释义的系统
Rao et al. CMEE-IL: Code Mix Entity Extraction in Indian Languages from Social Media Text@ FIRE 2016-An Overview.
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN109447266A (zh) 一种基于大数据的农业科技服务智能分拣方法
CN112784602A (zh) 基于远程监督的新闻情感实体抽取方法
CN114912449A (zh) 基于代码描述文本的技术特征关键词抽取方法与系统
Rao et al. ESM-IL: Entity Extraction from Social Media Text for Indian Languages@ FIRE 2015-An Overview.
CN111339318A (zh) 基于深度学习的大学计算机基础知识图谱构建方法
CN117194682B (zh) 构建基于电网相关文件的知识图谱的方法、装置及介质
Khan et al. A clustering framework for lexical normalization of Roman Urdu
Yin et al. Chinese named entity recognition based on knowledge based question answering system
Chen et al. Research and implementation of QA system based on the knowledge graph of Chinese classic poetry
CN109670045A (zh) 基于本体模型和多核支持向量机的情感原因抽取方法
Chakma et al. Deep semantic role labeling for tweets using 5W1H: Who, What, When, Where, Why and How
CN115203236A (zh) 基于模板检索的文本到sql生成方法
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
Nowakowski et al. Improving basic natural language processing tools for the Ainu language
CN112463988A (zh) 一种中国古典园林信息抽取方法
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Suta et al. Matching question and answer using similarity: an experiment with stack overflow
Wang et al. Question answering system of discipline inspection laws and regulations based on knowledge graph
CN112818108B (zh) 基于形近字的文本语义曲解聊天机器人及其数据处理方法
Chandra An intelligent natural language query processor for a relational database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191213

Assignee: Suzhou Hongtu Intelligent Technology Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2023980050242

Denomination of invention: An Intelligent Question Answering Method for Political Knowledge Based on Entity Linking and Relationship Prediction

Granted publication date: 20220729

License type: Common License

Record date: 20231207