CN115640391A - 一种基于语义联合建模的中文知识图谱问答系统的方法及系统 - Google Patents
一种基于语义联合建模的中文知识图谱问答系统的方法及系统 Download PDFInfo
- Publication number
- CN115640391A CN115640391A CN202211547037.7A CN202211547037A CN115640391A CN 115640391 A CN115640391 A CN 115640391A CN 202211547037 A CN202211547037 A CN 202211547037A CN 115640391 A CN115640391 A CN 115640391A
- Authority
- CN
- China
- Prior art keywords
- entity
- question
- candidate entity
- relation
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 239000002585 base Substances 0.000 description 6
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出了一种基于语义联合建模的中文知识图谱问答系统的方法及系统,属于知识图谱问答技术领域,所述方法包括:对知识库进行数据清洗及修正,消除噪声;通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体‑关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体‑关系对集合;将问句和候选实体‑关系对分别转换为高纬度的向量表示,计算它们的余弦相似度并进行排序;选取相似度最高的候选实体‑关系对,转换成CQL查询语句在Neo4j图数据库中查询答案返回给用户。本发明方法解决了现有问答系统将实体消歧和关系匹配作为独立子任务产生的误差传递问题,并充分利用了实体和关系之间的语义信息,提高了知识图谱问答系统的准确性。
Description
技术领域
本发明属于中文知识图谱问答系统领域,具体为一种基于语义联合建模的中文知识图谱问答系统的方法及系统。
背景技术
近年来,为了优化搜索引擎提供的结果,并增强用户搜索质量及体验,促使了知识图谱的快速发展,可以知识图谱为自然言语问题提供准确的答案。
比较知名的英文知识图谱有Freebase、DBpedia、YAGO等,中文知识图谱有百度知心、北大的PKUBase和NLPCC中文知识库等。 知识图谱问答系统中最常见的是简单问题,其问句中包含一个主题实体提及,可以链接到知识图谱中的实体,并可使用单个关系事实来回答。虽然近几年来英文知识图谱问答系统领域取得了很多不错的进展,但相应方法在开放域中文知识图谱问答系统领域实现过程中效果并不理想。在中文知识图谱问答系统领域中,实体消歧的过程为准确找到问句中实体提及对应的知识库中的实体,但是由于中文中同名实体过多并且问句中对实体描述较少,同时实体中出现嵌套、缩写、别名等情况导致找到知识图谱中正确对应的实体变得更困难。
并且自然语言问题与知识库中结构化语义之间的差距,中文拥有非常丰富的语言表达形式,这使得计算机很难准确的理解自然语言问题的语义,在关系匹配任务中尤为突出。 当前常用的方法将中文知识图谱问答系统中实体消歧和关系匹配任务划分为两个独立的子任务来解决上述问题。但是这种方法的缺点为会导致误差的传递,以及忽略了候选实体提及和关系之间的相关性,无法充分利用句子和知识图谱提供的信息。最终导致整体的中文知识图谱问答系统准确率不理想。
发明内容
鉴于此,本发明提供了一种基于语义联合建模的中文知识图谱问答系统的方法及系统,将实体消歧和关系匹配任务联合建模,充分考虑实体消歧和关系匹配之间的相关性,并利用对比损失优化训练过程,以得到更有区分度的语义向量表示。所述方法及系统包括以下步骤:: (1)前期准备,对知识库进行数据清洗,去除噪声; (2)从输入的自然语言问句中识别包含信息的主题实体提及; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体-关系对集合; (4)分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示;(5)使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度最高的实体-关系对; (6)将相似度最高的实体-关系对转化成CQL查询语句,从Neo4j图数据库中获取对应的答案进行回答。 进一步的,所述步骤(1)的前期准备包括使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符。 进一步的,所述步骤(2)首先利用BERT模型对问句中每一个字编码,再利用双向LSTM提取特征,最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签,将标签为B和I的字段作为主题实体提及输出。 进一步的,所述步骤(4)中候选实体-关系对使用[AND]字符进行连接,并且将对问句和候选实体-关系对中实体提及进行mask操作,具体为将实体提及的字符替换成‘entity’字符,最后将[AND]和‘entity’字符加入预训练模型的词汇表中。问句和候选实体-关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型,分别得到它们语义向量表示。 与现有技术相比,本发明的有益效果是: 1)将知识图谱问答系统中实体消歧和关系匹配任务进行联合建模,解决了误差传递的问题; 2)充分利用了问句中实体和关系互相提供的语义信息,从而能够回复更为准确的答案; 3)分别将问句和候选实体-关系对转化成向量表示,再进行余弦相似度计算,提升了预测语义相似度的速度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图 图1为本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 请参阅图1,本发明提供一种技术方案:一种基于语义联合建模的中文知识图谱问答系统的方法及系统,包括以下步骤:、 (1)前期准备,使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,构建联合任务数据集。对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符; (2)从输入的自然语言问句中识别包含信息的主题实体提及,具体为首先利用BERT模型对问句中每一个字编码,再利用双向LSTM提取特征,最后使用CRF作为分类器得到每个字符对应BIO标签的概率。选取概率最大的标签作为字符的标签,将标签为B和I的字段作为主题实体提及输出; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体-关系对集合; (4)分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示,具体为将候选实体-关系对使用[AND]字符进行连接,并且将对问句和候选实体-关系对中实体提及的字符替换成‘entity’字符,最后将[AND]和‘entity’字符加入预训练模型的词汇表中。问句和候选实体-关系对输入进使用对比损失微调训练过的两个共享参数的孪生BERT模型,分别得到它们语义向量表示。 (5)使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度最高的实体-关系对; (6)将相似度最高的实体-关系对转化成CQL查询语句,从Neo4j图数据库中获取对应的答案进行回答。 综上,本发明将中文知识图谱问答系统中实体消歧和关系匹配子任务视为一个高度相关的联合任务,集成到统一的语义联合模型框架中。该方法充分利用了实体和关系的相关性,提供了更多的语义信息,能够更准确的找到知识图谱中的正确实体和关系,并返回问句的答案。同时,使用对比损失训练的孪生网络框架构建的语义联合模型,将问句和候选实体-关系对分别表示成等长的语义向量,并进行余弦相似度计算,提升了预测相似度是速度和准确率。 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于,包括以下步骤: (1)前期准备,对知识库进行数据清洗,去除噪声; (2)从输入的自然语言问句中识别包含信息的主题实体提及; (3)通过问句中识别的实体提及,在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,然后使用实体链接词典对其进行过滤,只保留词典实体提及对应的候选实体及其关系,来构成候选实体-关系对集合; (4)分别将问句和候选实体-关系对集合的文本信息转换为高维空间中的向量表示; (5)使用通过计算问句和候选实体-关系对向量表示的余弦值得到他们的余弦相似度,并进行排序,选取相似度最高的实体-关系对; (6)将相似度最高的实体-关系对转化成CQL查询语句,从Neo4j图数据库中获取对应的答案进行回答。
2.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于:所述步骤(1)的前期准备包括使用BIO标准策略表示主题实体提及标签,构建实体提及识别数据集,以及根据在提及在Neo4j图数据库中进行模糊匹配,得到候选实体-关系对,构建联合任务数据集。
3.对知识库的清洗包括去除空格和无意义字符、将英文大写改成小写以及将成对的括号的左括号改成@字符。
4.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于:所述步骤(2)首先利用BERT模型对问句中每一个字编码,再利用双向LSTM提取特征,最后使用CRF作为分类器得到每个字符对应BIO标签的概率。
5.选取概率最大的标签作为字符的标签,将标签为B和I的字段作为主题实体提及输出。
6.根据权利要求1所述的一种基于语义联合建模的中文知识图谱问答系统的方法及系统,其特征在于:所述步骤(4)中候选实体-关系对使用[AND]字符进行连接,并且将对问句和候选实体-关系对中实体提及进行mask操作,具体为将实体提及的字符替换成‘entity’字符,最后将[AND]和‘entity’字符加入预训练模型的词汇表中。
7.将问句和候选实体-关系对输入进使用对比损失微调训练过的共享参数的孪生BERT模型,分别得到它们语义向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547037.7A CN115640391A (zh) | 2022-12-05 | 2022-12-05 | 一种基于语义联合建模的中文知识图谱问答系统的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211547037.7A CN115640391A (zh) | 2022-12-05 | 2022-12-05 | 一种基于语义联合建模的中文知识图谱问答系统的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115640391A true CN115640391A (zh) | 2023-01-24 |
Family
ID=84948012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211547037.7A Pending CN115640391A (zh) | 2022-12-05 | 2022-12-05 | 一种基于语义联合建模的中文知识图谱问答系统的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115640391A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828854A (zh) * | 2023-02-17 | 2023-03-21 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
CN116069919A (zh) * | 2023-03-07 | 2023-05-05 | 华侨大学 | 基于文本和图拓扑相似的问句实体链接方法、装置和介质 |
CN117854715A (zh) * | 2024-03-08 | 2024-04-09 | 深圳爱递医药科技有限公司 | 基于问诊分析的智能助诊系统 |
-
2022
- 2022-12-05 CN CN202211547037.7A patent/CN115640391A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828854A (zh) * | 2023-02-17 | 2023-03-21 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
CN115828854B (zh) * | 2023-02-17 | 2023-05-02 | 东南大学 | 一种基于上下文消歧的高效表格实体链接方法 |
CN116069919A (zh) * | 2023-03-07 | 2023-05-05 | 华侨大学 | 基于文本和图拓扑相似的问句实体链接方法、装置和介质 |
CN117854715A (zh) * | 2024-03-08 | 2024-04-09 | 深圳爱递医药科技有限公司 | 基于问诊分析的智能助诊系统 |
CN117854715B (zh) * | 2024-03-08 | 2024-05-14 | 深圳爱递医药科技有限公司 | 基于问诊分析的智能助诊系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748757B (zh) | 一种基于知识图谱的问答方法 | |
CN115640391A (zh) | 一种基于语义联合建模的中文知识图谱问答系统的方法及系统 | |
CN116756295B (zh) | 知识库的检索方法、装置及存储介质 | |
CN110717018A (zh) | 一种基于知识图谱的工业设备故障维修问答系统 | |
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN102663129A (zh) | 医疗领域深度问答方法及医学检索系统 | |
CN112256847B (zh) | 融合事实文本的知识库问答方法 | |
CN111160041B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN115080694A (zh) | 一种基于知识图谱的电力行业信息分析方法及设备 | |
CN117349275B (zh) | 一种基于大语言模型的文本结构化方法和系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN116737759B (zh) | 一种基于关系感知注意力的中文查询生成sql语句方法 | |
CN110781681B (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114996423A (zh) | 一种基于子问题剪枝的水利知识图谱复杂问答方法 | |
CN115497477A (zh) | 语音交互方法、语音交互装置、电子设备、存储介质 | |
CN116910272A (zh) | 基于预训练模型t5的学术知识图谱补全方法 | |
CN117435714B (zh) | 一种基于知识图谱的数据库和中间件问题智能诊断系统 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN114372454B (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN111611806B (zh) | 一种用于知识图谱问答的语义解析方法、系统及设备 | |
CN112926323A (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |