CN114490930A - 一种基于知识图谱的文物问答系统与问答方法 - Google Patents
一种基于知识图谱的文物问答系统与问答方法 Download PDFInfo
- Publication number
- CN114490930A CN114490930A CN202210018753.XA CN202210018753A CN114490930A CN 114490930 A CN114490930 A CN 114490930A CN 202210018753 A CN202210018753 A CN 202210018753A CN 114490930 A CN114490930 A CN 114490930A
- Authority
- CN
- China
- Prior art keywords
- question
- template
- cultural relic
- knowledge graph
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于知识图谱的文物问答系统与问答方法,构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板;对输入问题进行词嵌入,基于BERT的预训练模型、BERT、BILSTM、CRF完成命名实体识别、关系抽取的过程,最终将相关实体与关系对应到问题查询模板,构建CQL查询语句,接着再去到NEO4J表示的知识图谱中查询相关结果进行返回,最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息,提升用户浏览的感受。
Description
技术领域
本发明属于知识图谱、自然语言处理技术领域,具体涉及一种基于知识图谱的文物问答系统与问答方法。
背景技术
现在,游客在观看博物馆展品时,某个文物的信息更多的是由导游来进行讲解。有导游时,导游也是一个一对多的状态,不能满足大家个性化的偏好。没有导游时,部分游客会觉得这个文物没什么意思,就是一个死东西。传统情况下,用户只能面向公共领域的搜索引擎进行问题搜索,但是展示的结果无关信息过多,也不能很好的准确关联到相关其它信息。而基于知识图谱的问答系统,用户在用自然语言提问搜索之后,返回的是本领域内最相关的,最准确的信息,使用户能更加方便且高效的获取到想要的信息,并扩展出更多的相关内容。而目前有关基于知识图谱的文物问答系统研究不是很多,这就成为了一个亟待解决的问题。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种基于知识图谱的文物问答系统与问答方法。本系统首先通过网络爬虫技术将网络上与文物相关的信息爬取下来,然后进行数据整理,最终存储在NEO4J数据库中,形成文物领域的知识图谱;接着通过自然语言处理技术,用户以进行文字形式的提问,系统提取实体信息、关系信息后与常见问题模板进行匹配,生成CQL语句;接着用CQL语句从知识图谱中快速且准确的检索相关知识内容返回给用户,最终达形成一种基于知识图谱的文物问答系统与问答方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于知识图谱的博物馆文物问答系统,包括以下组成:
交互前端模块;
构建文本预处理模块;
构建匹配问题模块;
构建知识图谱模块;
所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板;
所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板;
所述知识图谱模块包括文物数据爬取模板、数据整理模板、NEO4J模板。
一种基于知识图谱的文物问答方法,包括以下步骤:
步骤一,从原始网页中下载所有非结构化的文本信息,利用爬虫、正则表达式等技术提取所关注的信息,构建成为JSON文件,然后进行数据清理,最后再人工检查一次,确保数据没有问题,最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中;
步骤二,对用户输入的查询语句进行处理,基于BERT预训练模型的方式将文字表达为文本向量,最终再用基于BILSTM、CRF的模型架构完成命名实体识别与关系抽取的任务,至此已经得到了实体一、实体二、关系;
步骤三,由实体+关系的方式去构建构建常见问题模板;根究对应的问题模板生成CQL到NEO4J中查询内容,并返回给前端展示。
所述的对文物关系定义为:年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品
所述的构建相关问句训练集,对其中实体、关系做标记,对问句使用BIO标记法进行标记。
所述的使用BERT完成word embeddings,讲文字转换成为数字向量。
所述的对嵌入之后的矩阵使用BiLSTM,包括:前向LSTM,每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM,每个词通过遗忘门和输入门完成对下文重要信息的融合。’最终将前向与后向隐藏层表示的向量进行拼接融合。
所述的由于BiLSTM的输出有一些规则上本不允许的标注存在,将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中,以达到从所有输出结果中选取可能性最大的结果。
所述的JSON文件做以下处理,以备后序训练模型:
1)将所有实体、关系存储下来;
2)对所有实体与关系的组合构建问题模板,再把问句中的问答形式进行同义词替换等扩充,最终形成用于后序训练的问题数据集;
3)对上述产生的问题数据集按一定比例划分成为训练集与测试集。
所述的建立BERT+BiLSTM+CRF的命名实体识别模型,具体训练步骤如下:
一、BERT
1)给字编号; 2)从embedding向量字典中查询相应字符的向量; 3)从句子中获取字的位置向量; 4)将2)、3)两种的向量做加法; 5)使用自注意力机制获取每两个字符之间的距离结果; 6)使用多头注意力机制,重复计算N次步骤五,获得N个结果; 7)对六中的N结果进行拼接,再通过一个全连接层计算出最终结果; 8)对七中结果进行批归一化; 9)做残差链接,将四步中的向量与八步中的向量进行相加; 10)做一个前向传播网络,获得最终每个字符的字向量表示;
二、BiLSTM
将句子表示的向量矩阵输入前向LSTM,每个字符将得到融合上文信息的隐藏层向量表示,将句子表示的向量矩阵输入后向LSTM,每个字符将得到融合下文信息的隐藏层向量表示。最后将上下文的隐藏向量进行拼接,得到每个字符融合了上下文信息的向量表示;
三、CRF
将BiLSTM的输出向量经过CRF处理,得到概率最高的序列标注结果。
本发明的有益效果是:
鉴于当前文物领域相关信息散乱的环境下,本发明能有效地允许用户以自然表达文字的形式去获取相关知识信息;本发明通过自然语言处理技术能够有效地实现人类语言与计算机之间的沟通,使得用户不必具有专业的计算机语言能力也能查询到想要的信息;本发明提供了通过爬虫技术构建新知识图谱的流程与方法,先是爬取相关领域数据,接着做数据清晰,生成能够与NEO4J对应的数据形态;总的来说,本发明通过自然语言处理技术、知识图谱技术、爬虫技术,帮助文物相关领域人员可以从无到有构建知识图谱,也能通过构建好的知识图谱为用户快速且准确地提供文物信息,从而满足用户当前的兴趣,甚至激发跟过的兴趣,在文物领域具有一定的应用价值。
附图说明
图1为本发明的系统原理图。
具体实施方式
以下结合附图及实施例对本发明进一步说明。
如图1所示,一种基于知识图谱的博物馆文物问答系统,包括以下组成:
交互前端模块;
构建文本预处理模块;
构建匹配问题模块;
构建知识图谱模块;
所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板;
所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板;
所述知识图谱模块包括文物数据爬取模板、数据整理模板、NEO4J模板。
构建基于文物数据的知识图谱、高频查询问题展示、构建常见问题模板;对输入问题进行词嵌入,基于BERT的预训练模型、BERT、BILSTM、CRF完成命名实体识别、关系抽取的过程,最终将相关实体与关系对应到问题查询模板,构建CQL查询语句,接着再去到NEO4J表示的知识图谱中查询相关结果进行返回,最终显示给用户。该系统能够让游客更加了解相关文物的背景等相关延伸信息,提升用户浏览的感受。
一种基于知识图谱的文物问答方法,包括以下步骤:
步骤一,从原始网页中下载所有非结构化的文本信息,利用爬虫、正则表达式等技术提取所关注的信息,构建成为JSON文件,然后进行数据清理,最后再人工检查一次,确保数据没有问题,最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中;
步骤二,对用户输入的查询语句进行处理,基于BERT预训练模型的方式将文字表达为文本向量,最终再用基于BILSTM、CRF的模型架构完成命名实体识别与关系抽取的任务,至此已经得到了实体一、实体二、关系;
步骤三,由实体+关系的方式去构建构建常见问题模板;根究对应的问题模板生成CQL到NEO4J中查询内容,并返回给前端展示。
所述的对文物关系定义为:年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品
所述的构建相关问句训练集,对其中实体、关系做标记,对问句使用BIO标记法进行标记。
所述的使用BERT完成word embeddings,讲文字转换成为数字向量。
所述的对嵌入之后的矩阵使用BiLSTM,包括:前向LSTM,每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM,每个词通过遗忘门和输入门完成对下文重要信息的融合。’最终将前向与后向隐藏层表示的向量进行拼接融合。
所述的由于BiLSTM的输出有一些规则上本不允许的标注存在,将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中,以达到从所有输出结果中选取可能性最大的结果。
所述的JSON文件做以下处理,以备后序训练模型:
1)将所有实体、关系存储下来;
2)对所有实体与关系的组合构建问题模板,再把问句中的问答形式进行同义词替换等扩充,最终形成用于后序训练的问题数据集;
3)对上述产生的问题数据集按一定比例划分成为训练集与测试集。
所述的建立BERT+BiLSTM+CRF的命名实体识别模型,具体训练步骤如下:
一、BERT
1)给字编号; 2)从embedding向量字典中查询相应字符的向量; 3)从句子中获取字的位置向量; 4)将2)、3)两种的向量做加法; 5)使用自注意力机制获取每两个字符之间的距离结果; 6)使用多头注意力机制,重复计算N次步骤五,获得N个结果; 7)对六中的N结果进行拼接,再通过一个全连接层计算出最终结果; 8)对七中结果进行批归一化; 9)做残差链接,将四步中的向量与八步中的向量进行相加; 10)做一个前向传播网络,获得最终每个字符的字向量表示;
二、BiLSTM
将句子表示的向量矩阵输入前向LSTM,每个字符将得到融合上文信息的隐藏层向量表示,将句子表示的向量矩阵输入后向LSTM,每个字符将得到融合下文信息的隐藏层向量表示。最后将上下文的隐藏向量进行拼接,得到每个字符融合了上下文信息的向量表示;
三、CRF
将BiLSTM的输出向量经过CRF处理,得到概率最高的序列标注结果。
Claims (9)
1.一种基于知识图谱的博物馆文物问答系统,其特征在于,包括以下组成:
交互前端模块;
构建文本预处理模块;
构建匹配问题模块;
构建知识图谱模块;
所述的文本预处理模块包括分词模板、词性标注模板、命名实体识别模板;
所述的匹配问题模块包括标注自然语言问句模板、关键部分替换模板、生成CQL语句模板;
所述知识图谱模块包括文物数据爬取模板、数据整理模板、NEO4J模板。
2.一种基于知识图谱的文物问答方法,其特征在于,包括以下步骤:
步骤一,从原始网页中下载所有非结构化的文本信息,利用爬虫、正则表达式等技术提取所关注的信息,构建成为JSON文件,然后进行数据清理,最后再人工检查一次,确保数据没有问题,最终整理成为<实体一, 关系, 实体二>的形式数据存储到NEO4J表示的知识图谱中;
步骤二,对用户输入的查询语句进行处理,基于BERT预训练模型的方式将文字表达为文本向量,最终再用基于BILSTM、CRF的模型架构完成命名实体识别与关系抽取的任务,至此已经得到了实体一、实体二、关系;
步骤三,由实体+关系的方式去构建构建常见问题模板;根究对应的问题模板生成CQL到NEO4J中查询内容,并返回给前端展示。
3.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的对文物关系定义为:年代、产地、作者、作品、收藏地、好友、师徒、地址、家人、研究、藏品。
4.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的构建相关问句训练集,对其中实体、关系做标记,对问句使用BIO标记法进行标记。
5.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的使用BERT完成word embeddings,讲文字转换成为数字向量。
6.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的对嵌入之后的矩阵使用BiLSTM,包括:前向LSTM,每个词通过遗忘门和输入门完成对上文重要信息的融合‘后向LSTM,每个词通过遗忘门和输入门完成对下文重要信息的融合;’最终将前向与后向隐藏层表示的向量进行拼接融合。
7.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的由于BiLSTM的输出有一些规则上本不允许的标注存在,将其输出作为CRF的输入从而将命名实体识别的规则加到序列标注过程中,以达到从所有输出结果中选取可能性最大的结果。
8.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的JSON文件做以下处理,以备后序训练模型:
1)将所有实体、关系存储下来;
2)对所有实体与关系的组合构建问题模板,再把问句中的问答形式进行同义词替换等扩充,最终形成用于后序训练的问题数据集;
3)对上述产生的问题数据集按一定比例划分成为训练集与测试集。
9.根据权利要求1所述的一种基于知识图谱的文物问答方法,其特征在于,所述的建立BERT+BiLSTM+CRF的命名实体识别模型,具体训练步骤如下:
一、BERT
1)给字编号; 2)从embedding向量字典中查询相应字符的向量; 3)从句子中获取字的位置向量; 4)将2)、3)两种的向量做加法; 5)使用自注意力机制获取每两个字符之间的距离结果; 6)使用多头注意力机制,重复计算N次步骤五,获得N个结果; 7)对六中的N结果进行拼接,再通过一个全连接层计算出最终结果; 8)对七中结果进行批归一化; 9)做残差链接,将四步中的向量与八步中的向量进行相加; 10)做一个前向传播网络,获得最终每个字符的字向量表示;
二、BiLSTM
将句子表示的向量矩阵输入前向LSTM,每个字符将得到融合上文信息的隐藏层向量表示,将句子表示的向量矩阵输入后向LSTM,每个字符将得到融合下文信息的隐藏层向量表示;
最后将上下文的隐藏向量进行拼接,得到每个字符融合了上下文信息的向量表示;
三、CRF
将BiLSTM的输出向量经过CRF处理,得到概率最高的序列标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018753.XA CN114490930A (zh) | 2022-01-09 | 2022-01-09 | 一种基于知识图谱的文物问答系统与问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210018753.XA CN114490930A (zh) | 2022-01-09 | 2022-01-09 | 一种基于知识图谱的文物问答系统与问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490930A true CN114490930A (zh) | 2022-05-13 |
Family
ID=81510495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210018753.XA Pending CN114490930A (zh) | 2022-01-09 | 2022-01-09 | 一种基于知识图谱的文物问答系统与问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490930A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859989A (zh) * | 2023-02-13 | 2023-03-28 | 神州医疗科技股份有限公司 | 基于远程监督的实体识别方法及系统 |
-
2022
- 2022-01-09 CN CN202210018753.XA patent/CN114490930A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115859989A (zh) * | 2023-02-13 | 2023-03-28 | 神州医疗科技股份有限公司 | 基于远程监督的实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115238101B (zh) | 一种面向多类型知识库的多引擎智能问答系统 | |
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
JP2022510031A (ja) | 自然言語生成技術に基づく知識グラフ理解支援システム | |
CN109271505A (zh) | 一种基于问题答案对的问答系统实现方法 | |
WO2021213314A1 (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN111475623A (zh) | 基于知识图谱的案件信息语义检索方法及装置 | |
CN112487202B (zh) | 融合知识图谱与bert的中文医学命名实体识别方法、装置 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN113505243A (zh) | 基于医疗知识图谱的智能问答方法和装置 | |
CN113806563A (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN111046272A (zh) | 一种基于医疗知识图谱的智能问答系统 | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN112115252A (zh) | 智能辅助写作处理方法、装置、电子设备及存储介质 | |
CN116561274A (zh) | 一种基于数字人技术与自然语言大模型的知识问答方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN114490930A (zh) | 一种基于知识图谱的文物问答系统与问答方法 | |
Zhekova et al. | Methodology for creating natural language interfaces to information systems in a specific domain area | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
CN111831880A (zh) | 一种基于微酒店平台的智能问答方法 | |
Elnozahy et al. | Multi-Lang Question Answering Framework for Decision Support in Educational Institutes. | |
Wang et al. | Design of an Intelligent Support System for English Writing Based on Rule Matching and Probability Statistics. | |
CN112989068B (zh) | 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |