CN113779211A - 一种基于自然语言实体关系的智能问答推理方法和系统 - Google Patents

一种基于自然语言实体关系的智能问答推理方法和系统 Download PDF

Info

Publication number
CN113779211A
CN113779211A CN202110902862.3A CN202110902862A CN113779211A CN 113779211 A CN113779211 A CN 113779211A CN 202110902862 A CN202110902862 A CN 202110902862A CN 113779211 A CN113779211 A CN 113779211A
Authority
CN
China
Prior art keywords
entity
node
sentence
question
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110902862.3A
Other languages
English (en)
Other versions
CN113779211B (zh
Inventor
李瑞轩
辜希武
吴小建
李玉华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110902862.3A priority Critical patent/CN113779211B/zh
Priority claimed from CN202110902862.3A external-priority patent/CN113779211B/zh
Publication of CN113779211A publication Critical patent/CN113779211A/zh
Application granted granted Critical
Publication of CN113779211B publication Critical patent/CN113779211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于自然语言实体关系的智能问答推理方法和系统,属于自然语言处理领域。包括:将语料库中每条语句进行分词、实体词提取;以自然语句作为实体关联的边,形成实体关系,对语料库中实体连接关系进行汇总,形成基于自然语言实体关系的语义网络数据库;设计基于BERT预训练语言模型和图神经网络的智能推理深度学习模型;以用户提交问题相关的实体连接图输入网络进行推理,通过多层感知机进行结果筛选给出最终答案。本发明通过任意给定的自然语言文本语料库自动构建实体关系数据库,避免通过人工介入手段进行实体提取和标注,并通过分析用户的复杂问句来自动发现和推理出答案,以帮助用户更快和更精准获得所需结果。

Description

一种基于自然语言实体关系的智能问答推理方法和系统
技术领域
本发明属于自然语言处理领域,更具体地,涉及一种基于自然语言实体关系的智能问答推理方法和系统。
背景技术
随着信息化产业的蓬勃飞速发展,人们对于各个领域的信息搜索和分析的需求也是与日俱增。面对互联网每日以惊人速度增长的信息和内容,如何从这些爆炸的信息中快速检索出人们想要的东西也变得愈发重要和迫切。这里面涉及到查询时的易用度和精准度的权衡:一方面,虽然可以设计和使用结构化的查询语言来精准描述自己的目标并快速获取到想要的结果,但是掌握并灵活地应用这些专业查询语言会使得学习成本陡然上升,因此并不适用于一般的用户和从业者;另一方面,使用常用的搜索引擎,人们可以用自然语言描述自己的问题并获取结果,这种检索方式简单且符合人类逻辑,但搜索引擎返回的结果往往是纷繁复杂、眼花缭乱的,包含很多冗余和错误的页面,要求查询者自己去遴选甄别出所需要的特定信息,这无疑增加了使用者的负担;更进一步的,由于用户检索时使用的是自然语言,这里面通常包含着复杂的语义内涵以及隐去了的常识性背景知识,而主流的搜索引擎一般都是基于关键词来完成内容检索任务,这进一步降低了搜索结果的准确率和召回率。
因此,一个理想的检索系统应该能同时具备简单易用和精准结果两个特性,而这正是智能问答系统所具备和要解决的。智能问答系统能够接受用户以自然语言输入的提问和描述,经过分析和推理后给出一个准确而简明的答案,而非冗杂的网页以供用户甄选,所以智能问答系统是比搜索引擎更为高效和易用的,也越来越受到多方的关注。此外在构建问答系统时需要额外的信息数据库提供问答决策支持。近年来一些产品化的问答系统也应运而生,例如Apple公司的Siri助手、Google公司的Google Now应用。智能问答利用自然语言处理(NLP)技术,能够充分理解用户提交的查询语句,深入挖掘其中信息之间的语义联系,然后更为精确地返还给用户理想的结果。
在这其中,语料库的构建和决策推理信息的生成也面临着一些问题和挑战:通常的语料信息库是搜集自各种网页文本,然后进行数据清洗和结构化处理,例如处理为典型的RDF三元组结构。高度结构化的语料库在结点检索时较方便,也有利于自动推理,但是其缺点是难以大规模生成和保持数据时效性的更新,且面对复杂语义的自然语言时不能够很好的采样出一个连接密集的网络化结构数据,特别是面对实际需求时更是捉襟见肘,面对这些巨量的数据也变得越来越不现实。由此推广至其他有类似需求的行业也是一样的,故而相关行业从业者也迫切希望能够借助人工智能技术来构建领域高效智能的信息处理系统以便能够把握行业动态、增加自己的竞争能力。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于自然语言实体关系的智能问答推理方法和系统,其目的在于将海量的文本数据直接作为数据源,从其中自动生成问题相关的、基于自然语言实体连接关系的决策数据,并交由智能问答系统进行推理和给出准确结果。
为实现上述目的,按照本发明的第一方面,提供了一种基于自然语言实体关系的智能问答推理方法,所述方法包括:
一、实体关系语料库构建阶段:
对语料库中每一条语句进行分词操作;从分词后的语句中提取实体词;
以提取到的实体词为基础,若两个实体出现在同一自然语句中,则该条自然语句作为连接这两个实体的边,构成实体关系;对语料库中实体连接关系进行汇总,形成实体关系语料库;
二、训练阶段:
构建智能推理深度学习模型,所述智能推理深度学习模型包括:BERT模型,用于对实体连接关系数据进行词向量编码,并对图结构本身进行信息的编码融合,这些数据转换为向量结构后发送至图神经网络;图神经网络,用于对向量结构进行学习,根据语言信息本身进行理解完成推理,并给出最终的答案;
使用Mask遮盖机制将文本随机遮蔽掉部分内容,通过文章上下文来预测被遮盖的词是什么,依次初步训练BERT模型相应的参数;从语料库中随机选取几万条连续的句子对和不连续的句子对组成两个集合,让BERT去识别预测那些句子对是连续的而那些不是,得到预训练好的BERT模型;采用训练样本集训练图神经网络,训练样本包括问题、答案以及若干反例;
三、应用阶段:
对输入的问题语句进行分词和实体词提取,得到问题实体词;从实体关系语料库中获得问题相关的实体连接关系图;以问题相关的实体连接关系图作为推理决策数据,输入智能推理深度学习模型进行推理,将评分最高的结点作为最终答案结点的输出。
优选地,所述从分词后的语句中提取实体词,包括:
S16:给定已经分好词的句子s={w1,w2,w3,...,wn},按照n-gram算法收集可能出现的实体词(w1),(w2),...,(wn)、(w1w2),(w2w3),...,(wn-1wn)、……、(w1w2w3...wn);
S17:计算实体的识别概率为Pr(w)=Anchor(w)/Freq(w),若Pr(w)低于选取实体识别概率阈值γed,则筛除,其中,w表示n-gram词,Freq(w)表示w在整个语料库中出现的频数;Anchor(w)表示w在整个语料库中以锚点形式出现的频数;
S18:计算句子中其他词汇w2对实体
Figure BDA00032006194500000415
的支持程度
Figure BDA0003200619450000041
其中,Pr(e'|w2)是先验概率,Entity(w)表示词汇w所有可能指向的实体集合,
Figure BDA0003200619450000042
表示两个实体
Figure BDA0003200619450000043
的关联度,Np(w2)表示所有包含实体w2的页面的集合的元素个数;
S19:对于
Figure BDA0003200619450000044
计算wk与其可能的实体词
Figure BDA0003200619450000045
的匹配契合程度分数为
Figure BDA0003200619450000046
其中,wk表示句子s提取到的锚点集合中的词汇,Entity(wk)表示wk对应的所有可能的实体集合;
S110:词汇最终对应的实体为
Figure BDA0003200619450000047
其中,Entity(s)表示句子s最终对应的实体集合,γ1表示约束实体的先验概率的阈值,γ2表示筛选掉较低分数的阈值。
有益效果:本发明设计了中文语句的实体提取方法。通过实体提取算法可以从中文语句中提炼出有效的实体,为后续任务打下基础,并使得在推理时深层次挖掘实体之间的联系变得可行。
优选地,两个实体
Figure BDA0003200619450000048
的关联度
Figure BDA0003200619450000049
Figure BDA00032006194500000410
其中,Np=|∪wPages(w)|表示语料库中所有页面的总数。
优选地,对得到的实体进一步筛选,具体如下:
(1)分别计算实体识别概率Pr(e)以及所度量的实体与句子间的关联度R(e,s):
Figure BDA00032006194500000411
(2)取二者的算术平均数作为最终筛选的指标
Figure BDA00032006194500000412
(3)若
Figure BDA00032006194500000413
表示阈值,则筛去,得到实体集合
Figure BDA00032006194500000414
优选地,所述形成实体关系包括:
S21:对任意ap∈A以及对任意eq∈E,A={a1,a2,...,ak}表示经检索后与这些实体有关联的可能的答案实体集合,E={e1,e2,...,en}表示提取到的实体词集合,从语料库中包含二者联系的所有句子
Figure BDA0003200619450000051
作为两个实体连接的关系,则得到集合
Figure BDA0003200619450000052
其中,|Sp,q|=Np,q,Np,q表示句子
Figure BDA0003200619450000053
的个数;
S22:当
Figure BDA0003200619450000054
Figure BDA0003200619450000055
时,依然认为
Figure BDA0003200619450000056
是有效的实体关系,对eq也是同理,其中,
Figure BDA0003200619450000057
表示设ep对应的文档;
S23:将语料库包含的所有实体E及其连接的边V,以及边上的自然语言语句S共同存入语义网络数据库中,构成图结构G=(E,V,S)。
有益效果:本发明设计了基于自然语言实体连接关系的生成方法,避免了前期对文本的结构化处理,使得数据来源变得更加广泛,以及不依赖于前期人工标注数据,使得后续的问答系统能够应对复杂查询问题成为了可能。
优选地,所述问题相关的实体连接关系图的获得方式包括:
S34:分析问题Q可能包含的实体得到集合EQ={e1,e2,...,en};
S35:
Figure BDA0003200619450000058
在语义网络数据库G中寻找与之有边连接的其他实体Ei
S36:查询后得到与问题Q相关的其他实体集合
Figure BDA0003200619450000059
二者的并集构成问题相关的实体连接关系图结点EQ←EQ∪Eother,此外,与它们直接的连接边VQ以及边上关联的自然语言语句SQ共同构成一个问题Q相关的子图
Figure BDA00032006194500000510
即实体连接关系图。
优选地,所述输入智能推理深度学习模型进行推理,将评分最高的结点作为最终答案结点的输出:
S410:输入的实体关系图分成问题描述Q、结点词E、连接边上的自然语言句子S以及对诸结点的附加描述信息T;
S411:将输入的数据中的Q、S和T使用BERT的分词器BERT-Tokenizer进行分词,并通过BERT进行词嵌入向量编码{v1,v2,...,vn}=BERT{w1,w2,...,wn};
S412:使用门控递归循环神经网络GRU单元依次对词嵌入向量进行基于注意力机制的编码操作,依次得到向量{h1,h2,...,hn}=GRU{v1,v2,...,vn};
S413:每一个输出结果hi,定义其注意力权重αi为αi=expWhi/∑jexpWhj,其中,权重矩阵W通过GNN学习得到;
S414:使用注意力机制,对所有的输出进行加权,得到最终的输出ho=∑iαihi
S415:对于S输出采用其向量的平均值;
S416:在参数迭代学习过程中,对问题、语句和附加信息结点的向量表示变量各自使用图卷积神经网络进行学习;
S417:在图神经网络进过多层迭代输出后,候选节点的输出表示融合本轮和上一轮的所有的问题结点、附加信息、语句文本的信息;
S418:经过图神经网络的若干轮操作后,得到答案候选实体结点EC的输出{hc:c∈C},使用Sigmoid函数将它们映射为一个实数作为答案的概率,取最大的结果作为正确答案A:
Figure BDA0003200619450000061
其中,score(hc)是通过接入一个多层感知机来获得。
优选地,S41中的信息具体包括:
问题文本Q:它是一段中文自然语言的描述;
问题实体Qi:这些是通过实体提取算法从问题文本Q中提取出来的;
反例结点Fi:反例是与诸问题结点Qi有关联的结点,有证据表明它们似乎也可以作为答案,但实际上并不是问题的真正答案;反例结点有助于在图神经网络训练时提供足够的信息以帮助网络模型做出正确的判断;
答案结点A:即问题描述Q的真正答案,从而Eother={A}∪Fi,以及EQ=Qi∪Eother
自然语言句子关联Ei:是对结点是否是问题答案的一种佐证信息,可以在推理时提供信息支持;
附加信息Ti:每个实体结点和候选结点都可以附带一个附加信息,用于进一步描述结点,并提供更丰富的语义信息。
优选地,步骤S47中参数迭代时的计算过程为:
对于顶点n,设其附加信息为t,则设顶点的向量表示是
Figure BDA0003200619450000071
Figure BDA0003200619450000072
分别输入到图卷积神经网络中进行传播计算,即第r轮迭代有
Figure BDA0003200619450000073
其中,句子向量是多个论据向量的平均值,而问题结点nq的向量表示融合了本轮产生的问题向量以及与上一轮的自身输出做了叠加,并通过图卷积神经网络做了计算;第r轮迭代完成后,得到
Figure BDA0003200619450000074
Figure BDA0003200619450000075
作点乘,并通过Sigmoid函数归一化后得到一个数值pn,其计算方法为:
Figure BDA0003200619450000076
Figure BDA0003200619450000077
为权重,计算候选结点的第r轮迭代形式记作
Figure BDA0003200619450000078
量化结果
Figure BDA0003200619450000079
就是候选实体nc的表示。
为实现上述目的,按照本发明的第二方面,提供了一种基于自然语言实体关系的智能问答推理系统,计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行第一方面所述的基于自然语言实体关系的智能问答推理方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明使用BERT预训练语言模型和图神经网络技术,设计基于自然语言实体连接关系的智能问答推理算法。一个良好的推理算法可以充分理解用户问题的内容并给出准确的答案。推理算法的基本思想就是给每一个可能是答案的结点进行评分然后输出最高分的作为结果。
附图说明
图1是本发明提供的一种基于自然语言实体关系的智能问答推理方法的流程示意图;
图2是本发明实施例中基于自然语言实体关系的语义网络数据库的生成流程示意图;
图3是本发明实施例中学习参数迭代的流程示意图;
图4是本发明实施例中智能问答推理模型的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于自然语言实体关系的智能问答推理方法,如图1所示,整个流程包括:语料库实体提取、语料库实体关系数据库生成、用户问题的分析与实体关系图生成、智能问答推理结果,具体包括:
S1:将原始语料库中每一条语句都进行分词操作,然后利用实体提取算法进行实体词的提取;
S2:以自然语句作为实体关联的边,形成实体关系,对语料库中实体连接关系进行收集和汇总,形成基于自然语言实体关系的语义网络数据库;
S3:根据用户提交的问题描述,进行问题实体词提取,并从语义网络数据库中获得实体连接关系图结构;
S4:设计基于BERT预训练语言模型和图神经网络的智能推理深度学习模型;;以问题相关的实体连接图输入网络进行推理,并通过多层感知机进行结果的筛选给出最终的答案。
进一步地,所述步骤S1中的实体提取算法步骤包括:
S11:给定输入已经分好词的句子s={w1,w2,w3,...,wn},按照n-gram算法来收集可能出现的实体词(w1),(w2),...,(wn)、(w1w2),(w2w3),...,(wn-1wn)、……、(w1w2w3...wn)。
S12:设词汇w,令Freq(w)表示w在整个语料库中出现的频数;Anchor(w)表示w在整个语料库中以实体链接形式出现的频数,定义实体的识别概率为Pr(w)=Anchor(w)/Freq(w),选取实体识别概率阈值γed,如果Pr(w)低于γed则筛选掉。
S13:设词汇w1的所有可能实体集合是Entity(w1),定义句子中其他词汇w2对实体
Figure BDA0003200619450000091
的支持程度为
Figure BDA0003200619450000092
其中,Pr(e'|w2)是先验概率,
Figure BDA0003200619450000093
表示两个实体
Figure BDA0003200619450000094
的关联度。
S14:设词汇wk,它对应的所有可能的实体集合记为Entity(wk),对于
Figure BDA0003200619450000095
定义wk与其可能的实体词
Figure BDA0003200619450000096
的匹配契合程度分数为
Figure BDA0003200619450000097
它是句子中其他词汇对其支持程度的和。
S15:词汇最终对应的实体为
Figure BDA0003200619450000098
句子s最终对应的实体集合记作Entity(s)。
如图2所示,实体关系数据库的生成具体包括:
S21:设通过对语料库中语句s进行实体提后得到实体集合E={e1,e2,...,en}。
S22:对任意ep∈E以及对任意eq∈E,从语料库中包含二者联系的任何句子
Figure BDA0003200619450000099
作为两个实体连接的关系。
S23:设这样的句子共有Np,q个,则
Figure BDA0003200619450000101
其中,|Sp,q|=Np,q
S24:此外,假设ep对应的文档是
Figure BDA0003200619450000102
且当
Figure BDA0003200619450000103
Figure BDA0003200619450000104
时,我们依然认为
Figure BDA0003200619450000105
是有效的实体关系,因为此时假设
Figure BDA0003200619450000106
隐式地包含了ep,对eq也是同理。
S25:将语料库包含的所有实体E及其连接的边V,以及边上的自然语言语句S共同存入语义网络数据库中,形成一个图结构G=(E,V,S)。
此外用户的问题生成实体连接关系图的步骤包括:
S31:分析问题Q可能包含的实体得到集合EQ={e1,e2,...,en}。
S32:
Figure BDA0003200619450000107
在语义网络数据库G中寻找与之有边连接的其他实体Ei
S33:查询后得到与问题Q相关的其他实体集合
Figure BDA0003200619450000108
二者的并集构成问题相关的实体连接关系图结点EQ←EQ∪Eother,此外,与它们直接的连接边VQ以及边上关联的自然语言语句SQ共同构成一个问题Q相关的子图
Figure BDA0003200619450000109
即实体连接关系图;
智能问答推理的过程如图4所示,主要包括:
S41:输入的实体关系图可以分成问题描述Q、结点词E、连接边上的自然语言句子S以及对诸结点的附加描述信息T。
S42:将输入的数据中的Q、S和T使用BERT的分词器BERT-Tokenizer进行分词,并通过BERT进行词嵌入向量编码{v1,v2,...,vn}=BERT{w1,w2,...,wn},如图3所示。
S43:使用门控递归循环神经网络GRU单元依次对词嵌入向量进行基于注意力机制的编码操作,依次得到向量{h1,h2,...,hn}=GRU{v1,v2,...,vn}。
S44:每一个输出结果hi,定义其注意力权重αi为αi=expWhi/∑jexpWhj,其中权重矩阵W是可以通过GNN学习得到。
S45:使用注意力机制,我们对所有的输出进行加权,得到最终的输出ho=∑iαihi,如图3所示。
S46:特别地,由于两个结点直接连接的自然语言句子不止一条,因此对于S输出采用其向量的平均值。
S47:推理模型的主体是一个图神经网络,由三部分组成:输入表示、参数学习以及结点信息融合学习;在参数迭代学习过程中,对问题、语句和附加信息结点的向量表示变量各自使用图卷积神经网络进行学习。
S48:在图神经网络进过多层迭代输出后,候选节点的输出表示融合了本轮和上一轮的所有的问题结点、附加信息、语句文本的信息,将它们放在一起充分的予以考虑,量化结果
Figure BDA0003200619450000111
就是候选实体nc的表示。
S49:经过图神经网络的若干轮操作后,我们得到答案候选实体结点EC的输出{hc:c∈C},使用Sigmoid函数将它们映射为一个实数作为答案的概率,取最大的结果作为正确答案A:
Figure BDA0003200619450000112
其中score(hc)是通过接入一个多层感知机来获得。
进一步地,所述步骤S41中:输入数据具体包括:问题文本Q:它是一段中文自然语言的描述;问题实体Qi:这些是通过实体提取算法从问题文本Q中提取出来的;反例结点Fi:反例是与诸问题结点Qi有关联的结点,有证据表明它们似乎也可以作为答案,但实际上并不是问题的真正答案,它们有助于在图神经网络训练时提供足够的信息以帮助网络模型做出正确的判断;答案结点A:即问题描述Q的真正答案;自然语言句子关联Ei:是对结点是否是问题答案的一种佐证信息,可以在推理时提供信息支持;附加信息Ti:每个实体结点和候选结点都可以附带一个附加信息,用于进一步描述结点,并提供更丰富的语义信息。
所述步骤S47中参数迭代时的计算过程是,由GRU模块生成的初始表示向量
Figure BDA0003200619450000113
分别是问题文本、附加信息和自然语言句子,然而考虑到附加信息是对实体结点的说明,实体结点反应在图上就是顶点,因此对于顶点n,设其附加信息为t,则设顶点的向量表示是
Figure BDA0003200619450000121
在这里将问题向量与附加信息相加,这样结点向量就融合了问题的语义信息。注意到这些顶点包括问题实体结点以及答案候选结点(此时包括正确答案和作为反例的错误答案),必要时使用nq,nc加以区分。
Figure BDA0003200619450000122
分别输入到图卷积神经网络中进行传播计算,即第r轮迭代有
Figure BDA0003200619450000123
其中句子向量是多个论据向量的平均值,而问题结点nq的向量表示融合了本轮产生的问题向量以及与上一轮的自身输出做了叠加,并通过图卷积神经网络做了计算。
第r轮迭代完成后,得到了
Figure BDA0003200619450000124
为了衡量结点nc是否是正确答案,我们将
Figure BDA0003200619450000125
作点乘,并通过Sigmoid函数归一化后得到一个数值pn,其计算方法为:
Figure BDA0003200619450000126
其直观意义在于点乘后结果同时包含了问题和支持候选结点nc的句子信息,综合这些信息并量化它,于是就可以作为候选结点nc是正确答案的置信度或者是权重,显然权重越大表明这个结点越有可能是正确答案。然后,以
Figure BDA0003200619450000127
为权重,就可以计算候选结点的第r轮迭代形式记作
Figure BDA0003200619450000128
它融合了本轮和上一轮的所有的问题结点、附加信息、语句文本的信息,将它们放在一起充分的予以考虑,量化结果
Figure BDA0003200619450000129
就是候选实体nc的表示。
本发明提供了一种基于自然语言实体关系的智能问答推理系统,包括:
语料库预处理模块:语料库文本处理的过程,包括:繁简转换、格式转换、标签记号的去除、锚点扩增以及中文分词共五个步骤,最终得到可用的分词后语料库;
实体提取模块:利用实体提取算法进行实体词的提取,以自然语句作为实体关联的边,形成实体关系,对语料库中实体连接关系进行收集和汇总,形成基于自然语言实体关系的语义网络数据库;
实体连接关系图生成模块:根据用户提交的问题描述,进行问题实体词提取,并从语义网络数据库中获得实体连接关系图结构;
智能问答推理模块:根据用户的问题,将相关的实体连接图输入图神经网络进行推理发现,并通过多层感知机进行结果的筛选给出最终的答案。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自然语言实体关系的智能问答推理方法,其特征在于,所述方法包括:
一、实体关系语料库构建阶段:
对语料库中每一条语句进行分词操作;从分词后的语句中提取实体词;
以提取到的实体词为基础,若两个实体出现在同一自然语句中,则该条自然语句作为连接这两个实体的边,构成实体关系;对语料库中实体连接关系进行汇总,形成实体关系语料库;
二、训练阶段:
构建智能推理深度学习模型,所述智能推理深度学习模型包括:BERT模型,用于对实体连接关系数据进行词向量编码,并对图结构本身进行信息的编码融合,这些数据转换为向量结构后发送至图神经网络;图神经网络,用于对向量结构进行学习,根据语言信息本身进行理解完成推理,并给出最终的答案;
使用Mask遮盖机制将文本随机遮蔽掉部分内容,通过文章上下文来预测被遮盖的词是什么,依次初步训练BERT模型相应的参数;从语料库中随机选取几万条连续的句子对和不连续的句子对组成两个集合,让BERT去识别预测那些句子对是连续的而那些不是,得到预训练好的BERT模型;采用训练样本集训练图神经网络,训练样本包括问题、答案以及若干反例;
三、应用阶段:
对输入的问题语句进行分词和实体词提取,得到问题实体词;从实体关系语料库中获得问题相关的实体连接关系图;以问题相关的实体连接关系图作为推理决策数据,输入智能推理深度学习模型进行推理,将评分最高的结点作为最终答案结点的输出。
2.如权利要求1所述的方法,其特征在于,所述从分词后的语句中提取实体词,包括:
S11:给定已经分好词的句子s={w1,w2,w3,...,wn},按照n-gram算法收集可能出现的实体词(w1),(w2),...,(wn)、(w1w2),(w2w3),...,(wn-1wn)、……、(w1w2w3...wn);
S12:计算实体的识别概率为Pr(w)=Anchor(w)/Freq(w),若Pr(w)低于选取实体识别概率阈值γed,则筛除,其中,w表示n-gram词,Freq(w)表示w在整个语料库中出现的频数;Anchor(w)表示w在整个语料库中以锚点形式出现的频数;
S13:计算句子中其他词汇w2对实体
Figure FDA0003200619440000021
的支持程度
Figure FDA0003200619440000022
其中,Pr(e'|w2)是先验概率,Entity(w)表示词汇w所有可能指向的实体集合,
Figure FDA0003200619440000023
表示两个实体
Figure FDA0003200619440000024
的关联度,Np(w2)表示所有包含实体w2的页面的集合中元素个数;
S14:对于
Figure FDA0003200619440000025
计算wk与其可能的实体词
Figure FDA0003200619440000026
的匹配契合程度分数为
Figure FDA0003200619440000027
其中,wk表示句子s提取到的锚点集合中的词汇,Entity(wk)表示wk对应的所有可能的实体集合;
S15:词汇最终对应的实体为
Figure FDA0003200619440000028
其中,Entity(s)表示句子s最终对应的实体集合,γ1表示约束实体的先验概率的阈值,γ2表示筛选掉较低分数的阈值。
3.如权利要求2所述的方法,其特征在于,两个实体
Figure FDA0003200619440000029
的关联度
Figure FDA00032006194400000210
Figure FDA00032006194400000211
其中,Np=|∪wPages(w)|表示语料库中所有页面的总数。
4.如权利要求2或3所述的方法,其特征在在于,对得到的实体进一步筛选,具体如下:
(1)分别计算实体识别概率Pr(e)以及所度量的实体与句子间的关联度R(e,s):
Figure FDA0003200619440000031
(2)取二者的算术平均数作为最终筛选的指标
Figure FDA0003200619440000032
(3)若
Figure FDA0003200619440000033
γs表示阈值,则筛去,得到实体集合
Figure FDA0003200619440000034
5.如权利要求1所述的方法,其特征在于,所述形成实体关系包括:
S21:对任意ap∈A以及对任意eq∈E,A={a1,a2,...,ak}表示经检索后与这些实体有关联的可能的答案实体集合,E={e1,e2,...,en}表示提取到的实体词集合,从语料库中包含二者联系的所有句子
Figure FDA0003200619440000035
作为两个实体连接的关系,则得到集合
Figure FDA0003200619440000036
其中,|Sp,q|=Np,q,Np,q表示句子
Figure FDA0003200619440000037
的个数;
S22:当
Figure FDA0003200619440000038
Figure FDA0003200619440000039
时,依然认为
Figure FDA00032006194400000310
是有效的实体关系,对eq也是同理,其中,
Figure FDA00032006194400000311
表示设ep对应的文档;
S23:将语料库包含的所有实体E及其连接的边V,以及边上的自然语言语句S共同存入语义网络数据库中,构成图结构G=(E,V,S)。
6.如权利要求1所述的方法,其特征在于,所述问题相关的实体连接关系图的获得方式包括:
S31:分析问题Q可能包含的实体得到集合EQ={e1,e2,...,en};
S32:
Figure FDA00032006194400000312
在语义网络数据库G中寻找与之有边连接的其他实体Ei
S33:查询后得到与问题Q相关的其他实体集合
Figure FDA00032006194400000313
二者的并集构成问题相关的实体连接关系图结点EQ←EQ∪Eother,此外,与它们直接的连接边VQ以及边上关联的自然语言语句SQ共同构成一个问题Q相关的子图
Figure FDA00032006194400000314
即实体连接关系图。
7.如权利要求1所述的方法,其特征在于,所述输入智能推理深度学习模型进行推理,将评分最高的结点作为最终答案结点的输出:
S41:输入的实体关系图分成问题描述Q、结点词E、连接边上的自然语言句子S以及对诸结点的附加描述信息T;
S42:将输入的数据中的Q、S和T使用BERT的分词器BERT-Tokenizer进行分词,并通过BERT进行词嵌入向量编码{v1,v2,...,vn}=BERT{w1,w2,...,wn};
S43:使用门控递归循环神经网络GRU单元依次对词嵌入向量进行基于注意力机制的编码操作,依次得到向量{h1,h2,...,hn}=GRU{v1,v2,...,vn};
S44:每一个输出结果hi,定义其注意力权重为αi=expWhi/∑jexpWhj,其中,权重矩阵W通过GNN学习得到;
S45:使用注意力机制,对所有的输出进行加权,得到最终的输出ho=∑iαihi
S46:对于S输出采用其向量的平均值;
S47:在参数迭代学习过程中,对问题、语句和附加信息结点的向量表示变量各自使用图卷积神经网络进行学习;
S48:在图神经网络进过多层迭代输出后,候选节点的输出表示融合本轮和上一轮的所有的问题结点、附加信息、语句文本的信息;
S49:经过图神经网络的若干轮操作后,得到答案候选实体结点EC的输出{hc:c∈C},使用Sigmoid函数将它们映射为一个实数作为答案的概率,取最大的结果作为正确答案A:
Figure FDA0003200619440000041
其中,score(hc)是通过接入一个多层感知机来获得。
8.如权利要求7所述的方法,其特征在于,S41中的信息具体包括:
问题文本Q:它是一段中文自然语言的描述;
问题实体Qi:这些是通过实体提取算法从问题文本Q中提取出来的;
反例结点Fi:反例是与诸问题结点Qi有关联的结点,有证据表明它们似乎也可以作为答案,但实际上并不是问题的真正答案;反例结点有助于在图神经网络训练时提供足够的信息以帮助网络模型做出正确的判断;
答案结点A:即问题描述Q的真正答案,从而Eother={A}∪Fi,以及EQ=Qi∪Eother
自然语言句子关联Ei:是对结点是否是问题答案的一种佐证信息,可以在推理时提供信息支持;
附加信息Ti:每个实体结点和候选结点都可以附带一个附加信息,用于进一步描述结点,并提供更丰富的语义信息。
9.如权利要求7所述的方法,其特征在于,步骤S47中参数迭代时的计算过程为:
对于顶点n,设其附加信息为t,则设顶点的向量表示是
Figure FDA0003200619440000051
Figure FDA0003200619440000052
分别输入到图卷积神经网络中进行传播计算,即第r轮迭代有
Figure FDA0003200619440000053
其中,句子向量是多个论据向量的平均值,而问题结点nq的向量表示融合了本轮产生的问题向量以及与上一轮的自身输出做了叠加,并通过图卷积神经网络做了计算;第r轮迭代完成后,得到
Figure FDA0003200619440000054
Figure FDA0003200619440000055
作点乘,并通过Sigmoid函数归一化后得到一个数值pn,其计算方法为:
Figure FDA0003200619440000056
Figure FDA0003200619440000057
为权重,计算候选结点的第r轮迭代形式记作
Figure FDA0003200619440000058
量化结果
Figure FDA0003200619440000059
就是候选实体nc的表示。
10.一种基于自然语言实体关系的智能问答推理系统,其特征在于,计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至9任一项所述的基于自然语言实体关系的智能问答推理方法。
CN202110902862.3A 2021-08-06 一种基于自然语言实体关系的智能问答推理方法和系统 Active CN113779211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902862.3A CN113779211B (zh) 2021-08-06 一种基于自然语言实体关系的智能问答推理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902862.3A CN113779211B (zh) 2021-08-06 一种基于自然语言实体关系的智能问答推理方法和系统

Publications (2)

Publication Number Publication Date
CN113779211A true CN113779211A (zh) 2021-12-10
CN113779211B CN113779211B (zh) 2024-10-22

Family

ID=

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021573A (zh) * 2022-01-05 2022-02-08 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN114841353A (zh) * 2022-04-28 2022-08-02 天津大学 一种融合句法信息的量子语言模型建模系统及其应用
CN115858760A (zh) * 2023-03-02 2023-03-28 广州嘉为科技有限公司 一种知识图谱的问答推理方法、装置及存储介质
CN116028613A (zh) * 2023-03-29 2023-04-28 上海数字大脑科技研究院有限公司 常识问答方法、系统、计算机设备和存储介质
CN116663534A (zh) * 2023-08-02 2023-08-29 中国标准化研究院 一种基于自然语言处理的文本数据统计分析系统及方法
CN116955592A (zh) * 2023-07-21 2023-10-27 广州拓尔思大数据有限公司 基于可视化推理结果的数据处理方法及系统
CN117033847A (zh) * 2023-07-20 2023-11-10 华中师范大学 基于层次性递归树解码模型的数学应用题求解方法及系统
CN117313713A (zh) * 2023-10-18 2023-12-29 北京语源科技有限公司 一种自回归大语言模型的推理方法
CN117611272A (zh) * 2023-10-25 2024-02-27 深圳市灵智数字科技有限公司 商品推荐方法、装置及电子设备
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置
CN111753054A (zh) * 2020-06-22 2020-10-09 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753054A (zh) * 2020-06-22 2020-10-09 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法
CN111737974A (zh) * 2020-08-18 2020-10-02 北京擎盾信息科技有限公司 一种语句的语义抽象化表示方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUCHI BAGWE等: "Automatic Numerical Question Answering on Table using BERT-GNN", IEEE ANNUAL UBIQUITOUS COMPUTING, 31 December 2020 (2020-12-31), pages 118 - 124 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021573A (zh) * 2022-01-05 2022-02-08 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
WO2023130687A1 (zh) * 2022-01-05 2023-07-13 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质
CN114841353A (zh) * 2022-04-28 2022-08-02 天津大学 一种融合句法信息的量子语言模型建模系统及其应用
CN115858760A (zh) * 2023-03-02 2023-03-28 广州嘉为科技有限公司 一种知识图谱的问答推理方法、装置及存储介质
CN116028613A (zh) * 2023-03-29 2023-04-28 上海数字大脑科技研究院有限公司 常识问答方法、系统、计算机设备和存储介质
CN116028613B (zh) * 2023-03-29 2023-06-20 上海数字大脑科技研究院有限公司 常识问答方法、系统、计算机设备和存储介质
CN117033847A (zh) * 2023-07-20 2023-11-10 华中师范大学 基于层次性递归树解码模型的数学应用题求解方法及系统
CN117033847B (zh) * 2023-07-20 2024-04-19 华中师范大学 基于层次性递归树解码模型的数学应用题求解方法及系统
CN116955592A (zh) * 2023-07-21 2023-10-27 广州拓尔思大数据有限公司 基于可视化推理结果的数据处理方法及系统
CN116955592B (zh) * 2023-07-21 2024-02-09 广州拓尔思大数据有限公司 基于可视化推理结果的数据处理方法及系统
CN116663534A (zh) * 2023-08-02 2023-08-29 中国标准化研究院 一种基于自然语言处理的文本数据统计分析系统及方法
CN117313713A (zh) * 2023-10-18 2023-12-29 北京语源科技有限公司 一种自回归大语言模型的推理方法
CN117313713B (zh) * 2023-10-18 2024-04-30 北京语源科技有限公司 一种自回归大语言模型的推理方法
CN117611272A (zh) * 2023-10-25 2024-02-27 深圳市灵智数字科技有限公司 商品推荐方法、装置及电子设备
CN117635785A (zh) * 2024-01-24 2024-03-01 卓世科技(海南)有限公司 一种护工数字人生成方法及系统
CN117635785B (zh) * 2024-01-24 2024-05-28 卓世科技(海南)有限公司 一种护工数字人生成方法及系统

Similar Documents

Publication Publication Date Title
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN111639171B (zh) 一种知识图谱问答方法及装置
US11281976B2 (en) Generative adversarial network based modeling of text for natural language processing
US11481416B2 (en) Question Answering using trained generative adversarial network based modeling of text
CN111475623B (zh) 基于知识图谱的案件信息语义检索方法及装置
CN109271530A (zh) 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN111782769B (zh) 基于关系预测的知识图谱智能问答方法
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN115982338B (zh) 一种基于查询路径排序的领域知识图谱问答方法及系统
CN116992042A (zh) 基于新型研发机构科技创新服务知识图谱系统的构建方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN116860978B (zh) 基于知识图谱和大模型的小学语文个性化学习系统
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN112687374A (zh) 一种基于文本和图像信息联合计算的心理危机预警方法
CN114897167A (zh) 生物领域知识图谱构建方法及装置
CN115293161A (zh) 基于自然语言处理和药品知识图谱的合理用药系统及方法
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答系统构建方法
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant