CN110569345B - 一种基于实体链接和关系预测的时政知识智能问答方法 - Google Patents
一种基于实体链接和关系预测的时政知识智能问答方法 Download PDFInfo
- Publication number
- CN110569345B CN110569345B CN201910831731.3A CN201910831731A CN110569345B CN 110569345 B CN110569345 B CN 110569345B CN 201910831731 A CN201910831731 A CN 201910831731A CN 110569345 B CN110569345 B CN 110569345B
- Authority
- CN
- China
- Prior art keywords
- entity
- query
- question
- knowledge
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 230000002123 temporal effect Effects 0.000 claims abstract description 20
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 238000003058 natural language processing Methods 0.000 claims abstract description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims 1
- 238000013461 design Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于实体链接和关系预测的时政知识智能问答方法,首先使用爬虫技术建立时事政治生语料库,然后构建时事政治知识图谱;接着使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。本发明可有效辅助学生进行时政知识的学习。
Description
技术领域
本发明属于智能问答技术领域,特别涉及一种基于实体链接和关系预测的时政知识智能问答方法。
背景技术
2019年2月28日,中国互联网络信息中心(CNNIC)公布的第43期《中国互联网络发展状况统计报告》显示,到2018年12月为止,中国在线教育在线用户数量为2.01亿,相较于2017年增长了29.7%,而在线教育的使用也提高了4.2%的比例,达到了24.3%的新高峰,网络辅助学习成为一个不可或缺的学习方式。
然而,现在市场上很多包括百度、Google等在内的基于字符串匹配的搜索引擎,搜索到目标结果的效率过低,首先是因为目前的网络数据规模空前未有,其次是因为检索体系的原因,根据自然语言检索出成千上万的相关结果,但是目标答案难以准确获得。在信息快速发展的今天,低效的搜索引擎已经不能满足用户的使用需求,能够开发出能够理解用户搜索意图的搜索引擎迫在眉睫,正如美国华盛顿大学图灵实验室的ETtzioni教授指出“问答系统是下一代搜索引擎的基本形态”,它能够提供更为精准的信息服务,因而由字符串匹配层面到实体表示层面的过渡成为理所应当。基于此,基于自然语言处理技术的问答系统的研究成为自然语言处理中智能交互的一个重要研究方向。
目前我国已知的语料库没有时事政治相关的。只有一些专业型方向上的信息语料库(例如北京语言大学HSK动态作文语料库、汉字偏误数据资料库、平衡语料库等),并且预测的数据也较为简单,没有从时政人物关系、新闻实事、文汇学习、理论解读等多角度综合起来去分析。
所以,本设计将最新政治的新闻动向、文献等诸多时政素材整合成为可以用于处理的数据集,通过实体链接,关系预测等技术,设计出辅助学生学习时政的时政智能问答方法,提高学生对时政的关注度和兴趣。
发明内容
发明目的:针对上述问题,本发明提供基于一种基于实体链接和关系预测的时政知识智能问答方法,通过实体链接和关系预测任务,将问句抽取得到实体链接到时政知识图谱中的实体,再使用编解码结构的神经网络,根据自然语言问题预测出该问题所对应的关系,设计出对时政知识能进行智能问答的方法。
技术方案:本发明提出一种基于实体链接和关系预测的时政知识智能问答方法,包括如下步骤:
(1)构建时政语料数据库和时事政治知识图谱;
(2)使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;
(3)对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;
(4)用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。
进一步的,所述步骤(1)中构建时政语料数据库的具体步骤如下:
运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等,爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6}。
进一步的,所述步骤(2)中对问句进行实体识别,进行实体链接的具体步骤如下:
设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项。
进一步的,所述步骤(3)中关系预测使用编解码结构的神经网络的具体步骤如下:
(3.1)Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
(3.2)在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码;在对解码阶段进行训练时,该模型根据给定文本序列的隐藏表示向量以及先前得到的词,预测输出句子的最大似然化。
进一步的,所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下:
查询通过步骤(2)和步骤(3)处理后,形成一条知识图谱中的目标实体查询关系,然后用带问号的三元组形式表述;然后使用查询语句时政知识图谱中进行目标实体查询;最后将查询到的知识图谱中的目标实体作为回答输出。
本发明采用上述技术方案,具有以下有益效果:
本发明利用爬虫技术自建了时政领域的知识图谱,为特定领域特别是学校领域提供一种时政知识的智能问答方法,具体描述如下:本发明利用实体链接技术,消除异构数据中的实体冲突、实体间指向不明晰等实体间的指向二义性问题;利用关系预测模型,根据自然语言问题预测出该问题所对应的关系,因而该技术是整个智能问答过程中至关重要的一步。基于设计的学校领域时政知识智能问答方法,可以应用于时政辅助学习系统的构建。
附图说明
图1为本发明的总体流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明所述的一种基于实体链接和关系预测的时政知识智能问答方法,包括如下步骤:
步骤1:利用爬虫技术按照设计的格式构建时政语料数据库,构建出时事政治知识图谱;
步骤1.1:运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6};
步骤2:使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接;
步骤2.1:运用BiLSTM-CRF模型抽取方法抽取问句中的实体;
步骤2.2:设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项;
步骤3:对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系;
步骤3.1:Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
步骤3.2:在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码。在对解码阶段进行训练时,该模型根据给定文本序列的隐藏表示向量以及先前得到的词,来预测输出句子的最大似然化。
步骤4:用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出;
步骤4.1:通过步骤(2)和步骤(3)处理后,会形成一条知识图谱中的目标实体查询关系,这里用带问号的三元组形式表述。即可使用查询语句时政知识图谱中进行目标实体查询。最后将查询到的知识图谱中的目标实体作为回答输出。
Claims (2)
1.一种基于实体链接和关系预测的时政知识智能问答方法,其特征在于,包括如下步骤:
(1)构建时政语料数据库和时事政治知识图谱,包括:运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集,爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别,表示为GTg={tg1,tg2,tg3,tg4,tg5,tg6};
(2)使用自然语言处理技术抽取问句中的实体,并在时政知识图谱中进行实体链接,包括:设对问句抽取得到的每个实体包含K个潜在的约束关系,为每一个约束关系赋予一个描述对(qi,qj),然后对每一个描述对乘以一个权重αijk,计算每个约束关系的加权得分,得到问句文本中的实体链接到正确的知识图谱中的实体指称项;
(3)对抽取出中心词后的问句进行关系预测,形成在时政知识图谱中的三元组目标实体查询关系,包括:
(3.1)Encoder端使用两层堆叠的GRU层,hidden_size为256,在编码阶段,一层计算前向特征参数,一层计算后向特征参数,然后将前向和后向的特征参数求和作为Decoder端的输入;
(3.2)在Decoder端采用单向的GRU层,hidden_size为256,在解码阶段,通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束,从而对真正的文本内容进行解码;在对解码阶段进行训练时,模型根据给定文本序列的隐藏表示向量以及先前得到的词,预测输出句子的最大似然化;
(4)用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出。
2.根据权利要求1所述的一种基于实体链接和关系预测的时政知识智能问答方法,其特征在于,所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询,最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下:
查询通过步骤(2)和步骤(3)处理后,形成一条知识图谱中的目标实体查询关系,然后用带问号的三元组形式表述;然后使用查询语句时政知识图谱中进行目标实体查询;最后将查询到的知识图谱中的目标实体作为回答输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831731.3A CN110569345B (zh) | 2019-09-04 | 2019-09-04 | 一种基于实体链接和关系预测的时政知识智能问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910831731.3A CN110569345B (zh) | 2019-09-04 | 2019-09-04 | 一种基于实体链接和关系预测的时政知识智能问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569345A CN110569345A (zh) | 2019-12-13 |
CN110569345B true CN110569345B (zh) | 2022-07-29 |
Family
ID=68777713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910831731.3A Active CN110569345B (zh) | 2019-09-04 | 2019-09-04 | 一种基于实体链接和关系预测的时政知识智能问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569345B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111324691A (zh) * | 2020-01-06 | 2020-06-23 | 大连民族大学 | 一种基于知识图谱的少数民族领域智能问答方法 |
CN111221983B (zh) * | 2020-01-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
CN111400455A (zh) * | 2020-03-18 | 2020-07-10 | 北京工业大学 | 基于知识图谱的问答系统的关系检测方法 |
CN111767368B (zh) * | 2020-05-27 | 2022-08-23 | 重庆邮电大学 | 一种基于实体链接的问答知识图谱构建方法及存储介质 |
CN111708899B (zh) * | 2020-06-13 | 2023-10-03 | 广州华建工智慧科技有限公司 | 一种基于自然语言和知识图谱工程信息智能搜索方法 |
CN112417100A (zh) * | 2020-11-20 | 2021-02-26 | 大连民族大学 | 辽代历史文化领域知识图谱及其智能问答系统的构建方法 |
CN112749265B (zh) * | 2021-01-08 | 2022-08-19 | 哈尔滨工业大学 | 一种基于多信息源的智能问答系统 |
CN116934556B (zh) * | 2023-09-08 | 2023-12-26 | 四川三思德科技有限公司 | 一种基于大数据融合的目标人员精准化管控方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
-
2019
- 2019-09-04 CN CN201910831731.3A patent/CN110569345B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110569345A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569345B (zh) | 一种基于实体链接和关系预测的时政知识智能问答方法 | |
CN1617134A (zh) | 使用机器翻译技术处理释义的系统 | |
CN100405362C (zh) | 一种汉语口语解析方法及装置 | |
Rao et al. | CMEE-IL: Code Mix Entity Extraction in Indian Languages from Social Media Text@ FIRE 2016-An Overview. | |
CN109447266A (zh) | 一种基于大数据的农业科技服务智能分拣方法 | |
CN111339318A (zh) | 基于深度学习的大学计算机基础知识图谱构建方法 | |
CN112784602A (zh) | 基于远程监督的新闻情感实体抽取方法 | |
CN114912449A (zh) | 基于代码描述文本的技术特征关键词抽取方法与系统 | |
CN117010398A (zh) | 一种基于多层知识感知的地址实体识别方法 | |
CN115203236A (zh) | 基于模板检索的文本到sql生成方法 | |
Rao et al. | ESM-IL: Entity Extraction from Social Media Text for Indian Languages@ FIRE 2015-An Overview. | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Yin et al. | Chinese named entity recognition based on knowledge based question answering system | |
CN118035405A (zh) | 一种基于大模型的知识库问答构建方法及装置 | |
Zhang et al. | Chinese-English mixed text normalization | |
Chakma et al. | Deep semantic role labeling for tweets using 5W1H: Who, What, When, Where, Why and How | |
CN109670045A (zh) | 基于本体模型和多核支持向量机的情感原因抽取方法 | |
CN117349420A (zh) | 基于本地知识库和大型语言模型的回复方法和装置 | |
Nowakowski et al. | Improving basic natural language processing tools for the Ainu language | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
CN112463988A (zh) | 一种中国古典园林信息抽取方法 | |
Wang et al. | Question answering system of discipline inspection laws and regulations based on knowledge graph | |
Suta et al. | Matching question and answer using similarity: an experiment with stack overflow | |
CN1570921A (zh) | 基于统计模型的口语解析方法 | |
CN112818108B (zh) | 基于形近字的文本语义曲解聊天机器人及其数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20191213 Assignee: Suzhou Hongtu Intelligent Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980050242 Denomination of invention: An Intelligent Question Answering Method for Political Knowledge Based on Entity Linking and Relationship Prediction Granted publication date: 20220729 License type: Common License Record date: 20231207 |