CN111767368A - 一种基于实体链接的问答知识图谱构建方法及存储介质 - Google Patents

一种基于实体链接的问答知识图谱构建方法及存储介质 Download PDF

Info

Publication number
CN111767368A
CN111767368A CN202010462498.9A CN202010462498A CN111767368A CN 111767368 A CN111767368 A CN 111767368A CN 202010462498 A CN202010462498 A CN 202010462498A CN 111767368 A CN111767368 A CN 111767368A
Authority
CN
China
Prior art keywords
entity
entities
question
text
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010462498.9A
Other languages
English (en)
Other versions
CN111767368B (zh
Inventor
刘继明
孙成
袁野
万晓榆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010462498.9A priority Critical patent/CN111767368B/zh
Publication of CN111767368A publication Critical patent/CN111767368A/zh
Application granted granted Critical
Publication of CN111767368B publication Critical patent/CN111767368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于实体链接的构建问答知识图谱的方法及存储介质,该方法包括以下步骤:步骤1)爬取相关业务咨询问句语料以及规范政策文本;步骤2)对预处理过后的问句语料以及规范政策文本进行结构信息抽取;步骤3)筛选得到实体候选集,筛选得到实体标准名候选集,将候选实体集中的实体与候选实体标准名进行相似度计算;步骤4)分别融合咨询语料与规范政策文本中事件的实体,链接至规范政策文本中标准事件的实体;步骤5)按照知识图谱所需结构抽取相似度在阈值范围内的规范政策文本实体及属性,构建问答知识图谱。本发明可以保证在问答系统中答案回复的准确性和高效性。

Description

一种基于实体链接的问答知识图谱构建方法及存储介质
技术领域
本发明属于自然语言处理技术领域,是一种基于实体链接的问答知识图谱构建方法,尤其涉及知识图谱的实体链接。
背景技术
问答知识图谱是在结构化网络的基础上能够解决知识问答,用户输入的自然语言问句进行解析推理,并结合知识库中的内容进行正确答案的搜索,为直接给出问句答案及相关信息起到祭奠作用。实体链接作为问答知识图谱中的关键技术,是问答知识图谱给出结果准确性的重要因素之一。
在现有的技术中,构建知识图谱方法主要分为以下几类:1、基于语义解析的方法,通过对自然语言问句语义的结构上进行分析,其中包括句子过滤、分词、依存句法分析等,并将数据信息结果通过分析算法抽取转化成能在知识图谱上查询到的结构化数据信息,最终找到答案,这种方法通常基于Lamda Dependency-Based Compositional Semantics。主要通过谓词定位事件信息,但在不同领域上的逻辑谓词会表达不同信息,局限性较大且需要大量的语料进行训练。随着深度学习发展,利用神经网络提高语义解析效果。例如使用卷积循环神经网络(Conv-RNN)的文本语义建模通用混合推理框架、层次残差的BILSTM做关系预测、通过cross-attention的机制对不同候选实体集动态表示到神经网络模型。2、基于信息抽取的方法,不同于语义解析该方法可以减少对数据语料的依赖,通过抽取信息中的主题,在知识图谱中抽取对应实体的子信息,建立匹配序列模型从而找到问题答案。提取自然语言问句的qword、qfoucs、qtopic、qverb这四种特征,依据规则或模版对信息进行抽取获得特征向量,建立分类器根据信息匹配度高的输出结果,理论上是比较理想的构建方法。但以上方法均存在无法精确的抽取实体信息,可能出现遗漏或匹配知识图谱中的信息不准确的情况。
在充分分析上述方面的不足后,本发明综合考虑语义解析与信息抽取等多方面的特点,在BERT+BILSTM+CRF模型的基础上,结合自然语言问句与规范文本抽取到的实体相似度、文本相关性进行研究,更为精确地研究构建问答知识图谱,通过实体链接的方法正确判断问句内容与能所链接到知识图谱上答案的准确性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于实体链接的文本问答知识图谱构建方法及存储介质。本发明的技术方案如下:
一种基于实体链接的文本问答知识图谱构建方法,其包括以下步骤:
步骤1)从特定领域官方网站爬取相关业务咨询问句语料以及规范政策文本,并进行预处理;
步骤2)基于BERT+BILSTM+CRF模型对预处理过后的问句语料以及规范政策文本进行结构信息抽取;
步骤3)对抽取到的问句语料不同范围实体进行筛选得到实体候选集,对抽取到的规范文本不同范围实体进行筛选得到实体标准名候选集,将候选实体集中的实体与候选实体标准名进行相似度计算;
步骤4)分别融合咨询语料与规范文本中事件的实体,基于步骤3)计算得出的语料问句实体,链接至规范政策文本中标准事件的实体;
步骤5)基于步骤4)按照知识图谱所需结构抽取相似度在阈值范围内的规范政策文本实体及属性,构建问答知识图谱。
进一步的,所述步骤1)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇在内的预处理,对规范政策文本进行无用信息处理。
进一步的,所述步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取,具体如下:
(1)对于从特定领域官方网站爬取相关问句语料以及规范文本,搭建好一个根据序列标注问题的BRET+BILSTM+CRF模型,BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM,得到向前和向后的隐向量,再加一个条件随机场CRF层作为结果输出;
(2)将过滤好的问句语料以及规范文本根据BRET+BILSTM+CRF模型,使用BIO作为每个字的序列标签进行模型训练,“B-begin,I-inside,O-outside”为每个字对应位置的含义;
(3)通过步骤(1)(2)的方法得到问句语料中的问题事件的实体和规范文本的具体事件的实体,其中事件表示文本所描述的事件或事实总称为事件;
(4)通过对步骤(3)中抽取到的实体进行融合并且分别将所有问题事件的实体传送到实体候选集,具体事件的实体传送到实体标准名候选集。
进一步的,BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM,得到向前和向后的隐向量,能够更好的结合上下文将抽取得到的问句以及文本数据向量输入到CRF中,其中基于CRF模型设置X与Y都是随机变量,在所有可能的输出序列上进行求和,以句子x,节点i,节点j的标签作为输入参数,局部特征函数计算公式为:
Tj(yi-1,yi,x,i),j=1,2,……J (1)
其中i表示当前节点在序列的位置,J表示局部特征函数的总个数;
条件随机场模型为:
Figure BDA0002511496620000031
其中,Z(x)为归一化因子:
Z(x)=∑yexp∑ijλjtj(yi-1,yi,x,i)+∑kiμksk(yi,x,i)) (3)
其中P(y|x,λ)表示在当前输入x下标注序列为y的概率,Z(x)表示归一化因子,其中局部特征函数tj表示的权重系数是λj,其中节点特征函数sk的权重系数是μk,那么线性链条件随机场由所有的tj、λj、μk、sk共同决定。
进一步的,所述步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算,具体包括:
(1)利用字符串相似度计算所发生指代实体与实体候选集中标准实体的相似度,计算公式为:
Figure BDA0002511496620000041
其中mi表示被测试的实体;ei表示标准的候选实体;i为实体的序号;CN(ei)表示实体ei的标准名;Hstr(mi,CN(ei))表示候选集中实体与具体事件实体的字符串相似度,值越高表示相似度越大;ED(mi,CN(ei))表示候选集中实体与具体事件实体的编辑距离;MAX{length(mi),length(CN(ei))}表示候选集中实体与具体事件实体字符串长度较大者;
(2)如果候选集中实体与规范文本中具体事件实体相关,他们可能存在相同的相关实体,因此相关实体的相关度也可以用来表示实体的相关度,即候选集中存在的实体可以指向具体事件实体,相反也可以利用这些实体进行候选集中更多实体的搜索,并且候选集中实体与具体事件实体可能存在着三种关系,运用Jaccard系数表示,计算公式如下:
Figure BDA0002511496620000042
Freo(ei,ej)表示实体ei,ej实体的相关度,Setoi和Setoi分别表示ei,ej实体的相关度的集合,三种关系的相关实体相关度公式类似,即实体ei和实体ej实体的相关实体相关度由三种相关实体相关度加权平均的得到;
(3)对于规范文本,如果两个实体相关,将过滤好的规范文本实体,运用计算公式如下:
Figure BDA0002511496620000043
其中fr(ei,ej)表示实体ei,ej所在规范文本的文本相关度,n表示两段规范文本所含中文字总数,Vik表示第k个字在i篇文章中的权重,Vjk表示第k个字在j篇文章中的权重,期权中由字在文本中出现的次数表示。
进一步的,所述步骤4)选取候选实体集中相似度大于设定阈值、候选实体集与具体事件的实体相关度大于设定阈值以及规范文本中具体事件的实体相关度大于设定阈值的,分别融合咨询语料问句实体与规范文本具体事件的实体,将融合的语料问句实体链接至规范文本具体事件的标准实体名上,也就是语料问句实体相似度满足以上需求的情况下可在问答知识图谱中等同标准实体名。
进一步的,所述步骤5)相似度大于阈值的实体及属性,将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。
一种存储介质,所述存储介质为计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以上任一所述的方法。
本发明的优点及有益效果如下:
本发明旨在解决以上现有技术的问题,提出了一种基于构建问答知识图谱的实体链接方法。发明具有如下优点:
(1)相比于目前大多数知识图谱构建的方式,本方法将自然语言问句语料与规范政策文本进行了结合,更好的构建了问答知识之间的图结构关系,并且利用官方网站获取自然语言问句和官方规范文本,相比于互联网整体知识图谱,内容来源更权威,数据信息更具体。(3)相比于以往的方法,本方法基于自然语言问句语料与规范政策文本中事件的实体进行链接,提高语料实体在问答知识图谱中实体的匹配度,构建的知识图谱准确率更高。(3)相比于以往的知识图谱实体链接的二分类和特征提取方法,本方法利用BERT层嵌入双向长短记忆层(BILSTM层)加上条件随机场(CRF层)模型,并在此基础上结合实体集相似度计算、规范政策文本的相关度计算,提高语料实体在问答知识图谱中实体的匹配度,构建的知识图谱准确率更高。(4)相比于信息搜索知识图谱构建技术的运用,减少信息冗余,减少人工参与,是一种高效准确的自动化方法。(5)经过实验分析证明,利用本方法构建的问答知识图谱对于相似问句与相关规范文本的答案反馈有着重要的作用,本文可从相似问句语料的事件和智能回复的准确度证明本文基于实体链接构建的问答知识图谱的重要作用。
附图说明
图1是本发明提供优选实施例基本步骤示意图;
图2是本发明方法构建逻辑图;
图3是本发明数据实体抽取模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1、图2、图3所示,本发明是一种基于实体链接的构建知识图谱方法,其包括以下步骤:
步骤1)从特定领域官方网站爬取相关信息业务咨询问句语料以及规范文本政策,进一步包括:
(1)中国专业服务于群众的领域官方网站信息覆盖面权威且全面,利用爬虫技术获取相关问题问句语料,以及整理相关规范文本、指南手册等。
(2)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇等预处理。抽取到问句语料例如:“你好,我想问你一下,我办社保的话,现在想办需要什么手续吗?”经过过滤得到:“我办社保要什么手续”。为满足BERT的输入,每个词在输入BERT层前需要经过分词操作,并在句子首尾分别嵌入[CLS]和[SEP]两个特殊的token。
(3)采用python自带的HANLP对获取的规范文本、指南手册进行无用信息剔除,制定主题规则做相关分类。例如规范文本、办事指南中所涉及办事流程、办理条件、办理时间、办理限制(如:性别、年龄、时间等)、政策规定等。
步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取,进一步包括:
(1)对于从特定领域官方网站爬取相关问句语料以及规范政策文本,搭建好一个根据序列标注问题的BRET+BILSTM+CRF模型。BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM,得到向前和向后的隐向量,再加一个条件随机场CRF层作为结果输出;其中基于CRF模型设置X与Y都是随机变量,在所有可能的输出序列上进行求和,以句子x,节点i,节点j和节点i-1的标签作为输入参数,P(y|x)表示在当前输入x下标注序列为y的概率,局部特征函数计算公式为:
Tj(yi-1,yi,x,i),j=1,2,……J (1)
其中i表示当前节点在序列的位置,J表示局部特征函数的总个数,条件随机场模型为:
Figure BDA0002511496620000071
其中,Z(x)为归一化因子:
Z(x)=∑yexp∑ijλjtj(yi-1,yi,x,i)+∑kiμksk(yi,x,i)) (3)
其中P(y|x,λ)表示在当前输入x下标注序列为y的概率,Z(x)表示归一化因子,其中局部特征函数tj表示的权重系数是λj,其中节点特征函数sk的权重系数是μk,那么线性链条件随机场由所有的tj、λj、μk、sk共同决定。
(2)将过滤好的问句语料以及规范文本根据BRET+BILSTM+CRF模型,使用BIO作为每个字的序列标签进行模型训练,“B-begin,I-inside,O-outside”为每个字对应位置的含义。
(3)通过步骤(1)(2)的方法得到问句语料数据中的问题事件的实体和规范文本的具体事件的实体,其中事件表示文本所描述的事件或事实总称为事件;
(4)通过对步骤(3)中抽取到的实体进行融合并且分别将所有问题事件的实体传送到实体候选集,具体事件的实体传送到实体标准名候选集。
步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算,进一步包括:
(1)利用字符串相似度计算所发生指代实体与实体候选集中标准实体的相似度。计算公式为:
Figure BDA0002511496620000081
其中mi表示被测试的实体;ei表示标准的候选实体,i为实体的序号;CN(ei)表示实体ei的标准名;Hstr(mi,CN(ei))表示候选集中实体与具体事件实体的字符串相似度,值越高表示相似度越大;ED(Vi,CN(ei))表示候选集中实体与具体事件实体的编辑距离;MAX{length(mi),length(CN(ei))}表示候选集中实体与具体事件实体字符串长度较大者。
(2)如果候选集中实体与具体事件实体相关,他们可能存在相同的相关实体,因此相关实体的相关度也可以用来表示实体的相关度,即候选集中存在的实体可以指向具体事件实体,相反也可以利用这些实体进行候选集中更多实体的搜索。并且候选集中实体与具体事件实体可能存在着三种关系,运用Jaccard系数表示,计算公式如下:
Figure BDA0002511496620000082
Freo(ei,ej)表示实体ei,ej实体的相关度,Setoi和Setoi分别表示ei,ej实体的相关度的集合。三种关系的相关实体相关度公式类似,即实体ei和实体ej实体的相关实体相关度由三种相关实体相关度加权平均的得到。
(3)对于规范文本,如果两个实体相关,那么所描述的文本也可能会存在相关实体讨论的内容,在问答知识图谱的构建中即可以提高候选实体集链接到具体事件实体所反馈的内容答案。将过滤好的规范文本实体运用计算公式如下:
Figure BDA0002511496620000083
其中fr(ei,ej)表示实体ei,ej所在规范文本的文本相关度,n表示两段规范文本所含中文字总数,Vik表示第k个字在i篇文章中的权重,Vjk表示第k个字在j篇文章中的权重,期权中由字在文本中出现的次数表示。
进一步的,所述步骤4)选取候选实体集中相似度大于设定阈值、候选实体集与具体事件的实体相关度大于设定阈值以及规范文本中具体事件的实体相关度大于设定阈值的,分别融合咨询语料问句实体与规范文本具体事件的实体,将融合的语料问句实体链接至规范文本具体事件的标准实体名上,也就是语料问句实体相似度满足以上需求的情况下可在问答知识图谱中等同标准实体名。
进一步的,所述步骤5)抽取到事件的实体进行相似度计算,大于阈值的实体及属性,将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于实体链接的文本问答知识图谱构建方法,其特征在于,包括以下步骤:
步骤1)从特定领域官方网站爬取相关业务咨询问句语料以及规范政策文本,并进行预处理;
步骤2)基于BERT+BILSTM+CRF模型对预处理过后的问句语料以及规范政策文本进行结构信息抽取;
步骤3)对抽取到的问句语料不同范围实体进行筛选得到实体候选集,对抽取到的规范文本不同范围实体进行筛选得到实体标准名候选集,将候选实体集中的实体与候选实体标准名进行相似度计算;
步骤4)分别融合咨询语料与规范文本中事件的实体,基于步骤3)计算得出的语料问句实体,链接至规范政策文本中标准事件的实体;
步骤5)基于步骤4)按照知识图谱所需结构抽取相似度在阈值范围内的规范政策文本实体及属性,构建问答知识图谱。
2.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,所述步骤1)采用python自带的HANLP对问句语料进行会话切分、去除停用词与特殊词汇在内的预处理,对规范政策文本进行无用信息处理。
3.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,所述步骤2)基于BERT+BILSTM+CRF模型对事件实体结构信息进行抽取,具体如下:
(1)对于从特定领域官方网站爬取相关问句语料以及规范文本,搭建好一个根据序列标注问题的BRET+BILSTM+CRF模型,BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM,得到向前和向后的隐向量,再加一个条件随机场CRF层作为结果输出;
(2)将过滤好的问句语料以及规范文本根据BRET+BILSTM+CRF模型,使用BIO作为每个字的序列标签进行模型训练,“B-begin,I-inside,O-outside”为每个字对应位置的含义;
(3)通过步骤(1)(2)的方法得到问句语料中的问题事件的实体和规范文本的具体事件的实体,其中事件表示文本所描述的事件或事实总称为事件;
(4)通过对步骤(3)中抽取到的实体进行融合并且分别将所有问题事件的实体传送到实体候选集,具体事件的实体传送到实体标准名候选集。
4.根据权利要求3所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,BRET+BILSTM是选择BERT12层transform的基础上再次加上双向LSTM,得到向前和向后的隐向量,能够更好的结合上下文将抽取得到的问句以及文本数据向量输入到CRF中,其中基于CRF模型设置X与Y都是随机变量,在所有可能的输出序列上进行求和,以句子x,节点i,节点j的标签作为输入参数,局部特征函数计算公式为:
Tj(yi-1,yi,x,i),j=1,2,……J (1)
其中i表示当前节点在序列的位置,J表示局部特征函数的总个数;
条件随机场模型为:
Figure RE-FDA0002651005430000021
其中,Z(x)为归一化因子:
Z(x)=∑yexp∑ijλjtj(yi-1,yi,x,i)+∑kiμksk(yi,x,i)) (3)
其中P(y|x,λ)表示在当前输入x下标注序列为y的概率,Z(x)表示归一化因子,其中局部特征函数tj表示的权重系数是λj,其中节点特征函数sk的权重系数是μk,那么线性链条件随机场由所有的tj、λj、μk、sk共同决定。
5.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,所述步骤3)对问句语料以及规范文本政策的实体候选集进行相似度计算,具体包括:
(1)利用字符串相似度计算所发生指代实体与实体候选集中标准实体的相似度,计算公式为:
Figure RE-FDA0002651005430000031
其中mi表示被测试的实体;ei表示标准的候选实体;i为实体的序号;CN(ei)表示实体ei的标准名;Hstr(mi,CN(ei))表示候选集中实体与具体事件实体的字符串相似度,值越高表示相似度越大;ED(mi,CN(ei))表示候选集中实体与具体事件实体的编辑距离;MAX{length(mi),length(CN(ei))}表示候选集中实体与具体事件实体字符串长度较大者;
(2)如果候选集中实体与规范文本中具体事件实体相关,他们可能存在相同的相关实体,因此相关实体的相关度也可以用来表示实体的相关度,即候选集中存在的实体可以指向具体事件实体,相反也可以利用这些实体进行候选集中更多实体的搜索,并且候选集中实体与具体事件实体可能存在着三种关系,运用Jaccard系数表示,计算公式如下:
Figure RE-FDA0002651005430000032
Freo(ei,ej)表示实体ei,ej实体的相关度,Setoi和Setoi分别表示ei,ej实体的相关度的集合,三种关系的相关实体相关度公式类似,即实体ei和实体ej实体的相关实体相关度由三种相关实体相关度加权平均的得到;
(3)对于规范文本,如果两个实体相关,将过滤好的规范文本实体,运用计算公式如下:
Figure RE-FDA0002651005430000033
其中fr(ei,ej)表示实体ei,ej所在规范文本的文本相关度,n表示两段规范文本所含中文字总数,Vik表示第k个字在i篇文章中的权重,Vjk表示第k个字在j篇文章中的权重,期权中由字在文本中出现的次数表示。
6.根据权利要求1所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,所述步骤4)选取候选实体集中相似度大于设定阈值、候选实体集与具体事件的实体相关度大于设定阈值以及规范文本中具体事件的实体相关度大于设定阈值的,分别融合咨询语料问句实体与规范文本具体事件的实体,将融合的语料问句实体链接至规范文本具体事件的标准实体名上,也就是语料问句实体相似度满足以上需求的情况下可在问答知识图谱中等同标准实体名。
7.根据权利要求6所述的一种基于实体链接的文本问答知识图谱构建方法,其特征在于,所述步骤5)相似度大于阈值的实体及属性,将其抽取的值存储在知识图谱中所需要结构的实体和属性的值中。
8.一种存储介质,所述存储介质为计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如权1-7任一所述的方法。
CN202010462498.9A 2020-05-27 2020-05-27 一种基于实体链接的问答知识图谱构建方法及存储介质 Active CN111767368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010462498.9A CN111767368B (zh) 2020-05-27 2020-05-27 一种基于实体链接的问答知识图谱构建方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010462498.9A CN111767368B (zh) 2020-05-27 2020-05-27 一种基于实体链接的问答知识图谱构建方法及存储介质

Publications (2)

Publication Number Publication Date
CN111767368A true CN111767368A (zh) 2020-10-13
CN111767368B CN111767368B (zh) 2022-08-23

Family

ID=72719735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010462498.9A Active CN111767368B (zh) 2020-05-27 2020-05-27 一种基于实体链接的问答知识图谱构建方法及存储介质

Country Status (1)

Country Link
CN (1) CN111767368B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100406A (zh) * 2020-11-11 2020-12-18 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112395391A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112749567A (zh) * 2021-03-01 2021-05-04 哈尔滨理工大学 一种基于现实信息环境知识图谱的问答系统
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN112905764A (zh) * 2021-02-07 2021-06-04 深圳万海思数字医疗有限公司 流行病咨询防治与培训系统构建方法及系统
CN112989068A (zh) * 2021-04-28 2021-06-18 新疆大学 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
CN113392220A (zh) * 2020-10-23 2021-09-14 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN114443822A (zh) * 2021-12-24 2022-05-06 科大讯飞(苏州)科技有限公司 用于建筑领域的多模态问答的方法、系统和计算设备
CN114547346A (zh) * 2022-04-22 2022-05-27 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN114817461A (zh) * 2022-04-08 2022-07-29 国网河北省电力有限公司信息通信分公司 基于深度学习的智慧客服语义检索方法、装置及系统
CN115510196A (zh) * 2021-06-07 2022-12-23 马上消费金融股份有限公司 知识图谱的构建方法、问答方法、装置和存储介质
CN118037250A (zh) * 2024-04-11 2024-05-14 成都鱼泡科技有限公司 应用文字信息化系统的数据挖掘方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
CN110321394A (zh) * 2019-07-09 2019-10-11 中国电子科技集团公司第二十八研究所 基于知识图谱的网络安全数据组织方法及计算机存储介质
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其系统
CN110569345A (zh) * 2019-09-04 2019-12-13 淮阴工学院 一种基于实体链接和关系预测的时政知识智能问答方法
CN110866125A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建系统
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN110990590A (zh) * 2019-12-20 2020-04-10 北京大学 一种基于强化学习和迁移学习的动态金融知识图谱构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597891A (zh) * 2018-11-26 2019-04-09 重庆邮电大学 基于双向长短时记忆神经网络的文本情感分析方法
US10607598B1 (en) * 2019-04-05 2020-03-31 Capital One Services, Llc Determining input data for speech processing
CN110321394A (zh) * 2019-07-09 2019-10-11 中国电子科技集团公司第二十八研究所 基于知识图谱的网络安全数据组织方法及计算机存储介质
CN110516256A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种中文命名实体提取方法及其系统
CN110569345A (zh) * 2019-09-04 2019-12-13 淮阴工学院 一种基于实体链接和关系预测的时政知识智能问答方法
CN110866125A (zh) * 2019-11-14 2020-03-06 北京京航计算通讯研究所 基于bert算法模型的知识图谱构建系统
CN110990590A (zh) * 2019-12-20 2020-04-10 北京大学 一种基于强化学习和迁移学习的动态金融知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENTAO ZHAN 等: "A BERT-BiLSTM-CRF Model for Chinese Electronic Medical Records Named Entity Recognition", 《 2019 12TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTATION TECHNOLOGY AND AUTOMATION (ICICTA)》, 2 March 2020 (2020-03-02), pages 1 - 2 *
朱宗奎 等: "基于多标签策略的中文知识图谱问答系统研究", 《计算机工程》, vol. 47, no. 2, 10 February 2020 (2020-02-10), pages 103 - 104 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392220B (zh) * 2020-10-23 2024-03-26 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN113392220A (zh) * 2020-10-23 2021-09-14 腾讯科技(深圳)有限公司 一种知识图谱生成方法、装置、计算机设备及存储介质
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112100406B (zh) * 2020-11-11 2021-02-12 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN112100406A (zh) * 2020-11-11 2020-12-18 腾讯科技(深圳)有限公司 数据处理方法、装置、设备以及介质
CN112395391A (zh) * 2020-11-17 2021-02-23 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112395391B (zh) * 2020-11-17 2023-11-03 中国平安人寿保险股份有限公司 概念图谱构建方法、装置、计算机设备及存储介质
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112905764A (zh) * 2021-02-07 2021-06-04 深圳万海思数字医疗有限公司 流行病咨询防治与培训系统构建方法及系统
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN112749567A (zh) * 2021-03-01 2021-05-04 哈尔滨理工大学 一种基于现实信息环境知识图谱的问答系统
CN112989068B (zh) * 2021-04-28 2022-04-19 新疆大学 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
CN112989068A (zh) * 2021-04-28 2021-06-18 新疆大学 针对唐诗知识的知识图谱构建方法及唐诗知识问答系统
CN115510196A (zh) * 2021-06-07 2022-12-23 马上消费金融股份有限公司 知识图谱的构建方法、问答方法、装置和存储介质
CN114443822A (zh) * 2021-12-24 2022-05-06 科大讯飞(苏州)科技有限公司 用于建筑领域的多模态问答的方法、系统和计算设备
CN114817461A (zh) * 2022-04-08 2022-07-29 国网河北省电力有限公司信息通信分公司 基于深度学习的智慧客服语义检索方法、装置及系统
CN114547346A (zh) * 2022-04-22 2022-05-27 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN114547346B (zh) * 2022-04-22 2022-08-02 浙江太美医疗科技股份有限公司 知识图谱的构建方法和装置、电子设备和存储介质
CN118037250A (zh) * 2024-04-11 2024-05-14 成都鱼泡科技有限公司 应用文字信息化系统的数据挖掘方法及系统

Also Published As

Publication number Publication date
CN111767368B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN111767368B (zh) 一种基于实体链接的问答知识图谱构建方法及存储介质
CN110175227A (zh) 一种基于组队学习和层级推理的对话辅助系统
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
Mozafari et al. BAS: an answer selection method using BERT language model
Nay Natural language processing and machine learning for law and policy texts
Rafail et al. Natural language processing
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
Bhende et al. Integrating multiclass light weighted BiLSTM model for classifying negative emotions
Ajallouda et al. Kp-use: an unsupervised approach for key-phrases extraction from documents
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Mhamed et al. A deep CNN architecture with novel pooling layer applied to two Sudanese Arabic sentiment data sets
Karrar A proposed model for improving the performance of knowledge bases in real-world applications by extracting semantic information
Barale et al. Automated refugee case analysis: An nlp pipeline for supporting legal practitioners
Ali et al. Identifying and Profiling User Interest over time using Social Data
Ling Coronavirus public sentiment analysis with BERT deep learning
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
Basha et al. Natural Language Processing: Practical Approach
Chiny et al. Effect of word embedding vector dimensionality on sentiment analysis through short and long texts
Tian et al. Semantic similarity measure of natural language text through machine learning and a keyword‐aware cross‐encoder‐ranking summarizer—A case study using UCGIS GIS &T body of knowledge
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation
Brito et al. Towards German word embeddings: A use case with predictive sentiment analysis
Liu [Retracted] Interrogative Sentences Recognition Based on the GRU Multiattentive Layer Model
Li et al. Advances in Sentiment Analysis: Techniques, Applications, and Challenges
Seetha Lakshmi et al. Comprehensive survey of algorithms for sentiment analysis
Habib et al. Iot-based pervasive sentiment analysis: A fine-grained text normalization framework for context aware hybrid applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant