CN112766507B - 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 - Google Patents
基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 Download PDFInfo
- Publication number
- CN112766507B CN112766507B CN202110073070.XA CN202110073070A CN112766507B CN 112766507 B CN112766507 B CN 112766507B CN 202110073070 A CN202110073070 A CN 202110073070A CN 112766507 B CN112766507 B CN 112766507B
- Authority
- CN
- China
- Prior art keywords
- question
- relation
- type
- answer
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,属于数据处理技术领域,基于依存句法分析来区分关系的复杂程度,初步筛选出候选子图范围;通过基于尾部实体和关系类型的剪枝方法,对候选子图进行剪枝,以减少候选子图中错误路径在模型训练时带来的干扰;训练基于神经网络的短文本匹配模型使得问题和正确的问答路径上下文的匹配得分较高,本发明的SPE‑QA在构建新的问答数据集时,基于依存句法分析问题中关系的复杂程度,初步筛选出候选子图范围;训练关系路径类型选择器,进一步对候选子图进行剪枝;构建基于神经网络的短文本匹配模型,使得问题和正确的问答路径上下文的匹配得分较高。
Description
技术领域
本发明涉及属于数据处理技术领域,具体涉及基于嵌入式和候选子图剪枝的复杂问题知识库问答方法。
背景技术
通常,当给定一个自然语言问题,知识库问答系统通过问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
根据知识图谱三元组的个数,将自然语言问题分为两种:
(1)单关系问题,只依赖一个三元组完成问答;
(2)多关系问题,至少需要两个三元组;由于自然语言的多样性,以及候选答案的复杂性回答多关系问题仍具有挑战性。
针对单关系问题的问答,Yih等人提出了基于语义相似度的开放域问题回答的语义解析框架,通过卷积神经网络模型测量实体与实体、关系与关系之间的相似度,来对三元组评分从而选出最合适的三元组来回答问题。虽然在问答任务中具有高精准度,但是由于数据量不够,不能训练出完善稳定的实体链接模型。
目前针对多关系问题的问答多采用顺序决策的方法,后来Qiu等人提出可解释的推理机制来逐步获取问题的答案实体,且在此基础上增加注意力机制以保证推理过程的准确性,并采用束搜索优化查询路径,从而减少候选答案的数量。这些方法在回答2-HOP问题上都取得很大进展,但在回答3-HOP或混合问题集的问题时性能较差,在顺序决策过程中增加了错误累积,限制了此类方法对复杂问题的问答能力。
发明内容
发明目的:为解决当前复杂问题的知识图谱问答中的不足之处,本发明目的在于提供基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,能够减少候选子图的范围,并在部分多关系问答上获得更高的精准度。
技术方案:为实现上述发明目的,本发明采用如下技术方案:
基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,提出了基于图上下文编码的复杂问题智能问答模型SPE-QA,包括以下模块:
1)候选子图剪枝模块,包括基于尾部实体的剪枝和基于关系类型的剪枝;其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文,将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练;基于关系类型的剪枝方法通过关系路径类型选择器,只保留候选子图中相关类型的问答路径上下文进行后续操作;
2)语义匹配模块,将多关系的复杂问答过程转化成短文本匹配过程,即问题句和候选问答路径上下文序列的匹配问题;基于RE2模型,使用BERT预训练模型,对问题句和问答路径上下文的词及位置同时编码。
进一步地,所述的候选子图剪枝模块中,包括以下步骤:
2.1)对于基于尾部关系类型的剪枝方法,首先构建关系类型映射文件,将知识库关系进行简单聚类,判断知识库中两种类型是否相关后,保留尾部关系类型相关的PathContext作为候选问答路径上下文,并与问题句构成新的问答数据集,输入到问答句匹配模型中进行训练;
2.2)对于基于关系类型的剪枝方法,将问题和关系词类型作为输入,预测问题中的关系词所属的域类型,然后输出与问题最相关的三种关系类型,在候选子图中只保留相关类型的问答路径上下文路径。为了构建关系类型选择器,首先将不同知识库的关系类型简单聚类成关系的域类型T,然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试,来标记问题的正确问答路径上下文所属的关系域类型。
进一步地,所述的步骤2.2)具体过程如下:
2.21)在构建基于知识库问题和关系类型匹配的多标签数据集过程中,包含多个三元组(code,question,labels),其中,code表示问题的唯一标识,question表示问题,labels以向量的形式表示,并以一种类似于one-hot编码的形式进行编码,其中每个元素用1或0来表示,表示问题中的关系属于域关系的类型;
2.22)在关系类型选择器的训练过程中,首先用BERT预训练模型在大型语料上进行无监督的训练,然后用预训练的参数,对下游任务进行微调来用于多标签分类任务。模型的全连接层融合了这些特征参数,并将问题标记上相关的一系列域类型,由于每一个关系类型都是独立不相关的,因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:
然后采用梯度法最小化预测的概率值aj和目标值yj之间的交叉熵:
其中yi=labels,表示问题中的关系属于域关系的类型;
2.23)在构建关系类型选择器之后,首先用这个类型选择器预测问题中的关系词最有可能属于的域类型,然后用输出的labels对候选子图进行剪枝,只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系,该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语,以获得候选答案实体,完成整个自动回答的流程。
进一步地,所述的语义匹配模块中,包括以下步骤:
3.1)BERT预处理,使用BERT初始化问题和问答路径上下文的向量表示,因为SPE-QA模型不仅要考虑语义上下文信息,还要考虑位置信息;每个初始化的向量由残差循环融合网络处理,包含Encoder层、Alignment层、Fusion层;
3.2)Encoder层,是残差循环的block的入口,初始化的向量进入此block中,其中包含多层卷积神经网络的特征提取层,计算p和q的上下文特征作为矩阵p*和q*,问题序列q被标记为q*=(q1,q2,...,q|q|),q*表示问题序列对应的矩阵,|q|表示问题序列中问题的数量,问答路径上下文p被标记为矩阵p*=(p1,p2,...,p|p|),p*表示问答路径上下文对应的矩阵,|p|表示问答路径上下文的数量;
3.3)Alignment层,使用attention机制实现句子信息交互,得到两个句子的交互向量,更新词向量;相似性分数eij用点击方式求得:
eij=F(pi)TF(qj) (3)
更步骤3.3)中,eij表示pi和qj的相似性分数,F表示一个恒等函数或一个单层前馈神经网络,pi表示第i个问答路径上下文,i的取值为1到|p|,qj表示第j个问题,j的取值为1到|q|,F(pi)表示pi的恒等函数,F(pi)T表示pi的恒等函数的转置,F(qj)表示qj的恒等函数;然后使用attention机制计算特征表示。
进一步地,所述的使用attention机制计算特征表示得到的attention系数后,分别乘以问题和问答路径上下文得到两个新的向量,两个句向量经过全连接网络后,进行矩阵相乘,得到两个句子在字维度上的相似度,之后经过softmax得到一个系数后乘以原句向量:
其中,p’和q’是问题序列和问答路径上下文的输出向量,它们通过另一个序列表示的加权求和来计算;求和通过当前位置与另一序列中相应位置的相似度得分加权,p’i表示第i个位置的问题序列的输出向量,q’j表示第j个位置的问答路径上下文的输出向量,i的取值为1到|p|,j的取值为1到|q|;eik表示pi和qk的相似性分数,k的取值为1到|q|,ekj表示pk和qj的相似性分数,k的取值为1到|p|;
3.4)Fusion层,使用单层全连接网络将前面得到的向量进行语义混合:
更步骤3.4)中,G1,G2,G3和G是带有独立参数的单层全连接网络,用来控制维度;“;”表示直接拼接,“-”表示减法操作,“ο”表示乘法操作;其中,pi表示第i个问答路径上下文,p’i表示第i个位置的问题序列的输出向量,是pi和p’i直接拼接后的结果值,是pi与pi-p’i拼接后的结果值,是pi与piοp’i拼接后的结果值,是与拼接后的结果值;
3.5)Fusion层的输出输入Pooling层,并转化为向量v1和v2,作为Prediction层的输入;
3.6)Pooling层中两个序列v1和v2的向量表示作为Prediction层的输入,以多层前馈神经网络进行二分类预测:
其中,H是一个多层前馈神经网络,表示第i个预测分数,表示所有类的预测分数,argmax表示对求集合。
有益效果:与现有技术相比,提出基于图上下文编码的复杂问题智能问答模型SPE-QA;基于依存句法分析来区分关系的复杂程度,初步筛选出候选子图范围;通过基于尾部实体和关系类型的剪枝方法,进一步对候选子图进行剪枝,以减少候选子图中错误路径在模型训练时带来的干扰;训练基于神经网络的短文本匹配模型使得问题和正确的问答路径上下文的匹配得分较高。本发明的效果为:有效降低候选子图范围,相较于现有方法,在部分复杂问题上取得更高的精确度。
本发明的SPE-QA,在构建新的问答数据集时,基于依存句法分析问题中关系的复杂程度,初步筛选出候选子图范围;训练关系路径类型选择器,进一步对候选子图进行剪枝;构建基于神经网络的短文本匹配模型,使得问题和正确的问答路径上下文的匹配得分较高。本发明能有效降低候选子图范围,在部分复杂问题上获得更高的精准度。
附图说明
图1为本发明方法的实施流程图;
图2为依据本发明方法实现的SPE-QA模型框架图;
图3为依据本发明方法实现的候选答案子图;
图4为依据本发明方法实现的RE2模型改进框架图。
具体实施方式
为了详细的说明本发明所公开的技术方案,下面结合说明书附图及具体实施例做进一步的阐述。
基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,提出了基于图上下文编码的复杂问题智能问答模型SPE-QA,包括以下模块:
1)候选子图剪枝模块,包括基于尾部实体的剪枝和基于关系类型的剪枝。其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文,将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练。基于关系类型的剪枝方法通过关系路径类型选择器,只保留候选子图中相关类型的问答路径上下文进行后续操作;
2)语义匹配模块,将多关系的复杂问答过程转化成短文本匹配过程,即问题句和候选问答路径上下文序列的匹配问题。基于RE2模型,使用BERT预训练模型,对问题句和问答路径上下文的词及位置同时编码。
具体地,基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,包括如下步骤:
(1)定义了问答路径上下文新概念,并构建一个基于图上下文编码的复杂问题智能问答模型SPE-QA;
(2)基于依存句法分析问题中关系的复杂程度,初步筛选出候选子图的范围;
(3)通过两种剪枝方法,进一步缩小候选子图的范围;
(4)通过基于神经网络的短文本匹配模型,计算问题和问答路径上下文的相似度,获得正确的问答路径上下文,从而找到答案实体。
步骤(1)构建一个基于图上下文编码的复杂问题智能问答模型SPE-QA包括以下步骤:
(11)将知识图谱抽象表示为G={E,R,F},其中G表示知识图谱,E,R,F分别表示实体、关系和事实的集合。在一个原子事实(h,r,t)∈F中,(h,r,t)表示一个三元组,h、r和t分别表示这个三元组的头实体、关系和尾实体,其中r∈R。将实体集合中的某个实体定义为e,且e∈E。特别的,将聚类后的关系类型的集合定义为T={T1,T2,…,Tm},m为聚类后的关系的数量,Ti表示聚类后的第i个关系,i的取值为1到m;
(12)给定一个问题序列q,区别于其他问答路径,将问答路径上下文p定义为p={es;r1;e1;r2;e2;...;ea},其中es代表问题中主题实体,ea代表知识图谱中的答案实体,r1表示问答路径上下文中主题实体的下一个关系,e1表示问答路径上下文中与r1相连的实体,“;”代表序列拼接。而问答路径上下文不仅包括主题实体和答案实体,还包含两者之间的所有中间关系和中间实体;并定义候选答案子图S为问答路径上下文的集合,表示为S={p1,p2,...,pn},其中n为候选问答路径上下文的数量;
(13)为了充分利用知识图谱中节点和结构的丰富信息,构建基于问答路径上下文编码的复杂问题智能问答模型SPE-QA,包括两个主要部分:子图剪枝和语义匹配;
步骤(2)基于依存句法分析问题中关系的复杂程度,初步筛选出候选子图的范围,具体如下:
(21)将知识库中的三元组存储在Virtuoso数据库中,然后利用链接实体通过SPARQL查询语句查询数据库,将距离链接实体2-HOP或3-HOP的实体作为候选答案实体,并保留中间的所有实体和关系以形成候选子图;
(22)分词时使用空格分词,针对混合数据集,使用Hanlp对文体局进行依存句法分析来区分问题的复杂程度;
(23)词性标记过程中问句中的关键词会被标注为NN或NNP,其中NN表示问题中的实体词,NNP表示问题中的关系词。当count(NN+NNP)≤2时为2-HOP,当count(NN+NNP)≥4时为3-HOP,当count(NN+NNP)=3时为2-HOP或3-HOP。此方法在一定程度上缩减了候选子图的范围,获得候选问答路径上下文;
步骤(3)将采用基于尾部关系类型和基于关系类型两种剪枝方法进一步筛选候选子图,删除不相关的问题答案路径。具体如下:
(31)对于基于尾部关系类型的剪枝方法,首先构建关系类型映射文件,将知识库关系进行简单聚类,判断知识库中两种类型是否相关后,保留尾部关系类型相关的问答路径上下文p作为候选问答路径上下文,并与问题句构成新的问答数据集,输入到问答句匹配模型中进行训练;
(32)对于基于关系类型的剪枝方法,将问题和关系词类型作为输入,预测问题中的关系词所属的域类型,然后输出与问题最相关的三种关系类型,在候选子图中只保留相关类型的问答路径上下文路径。为了构建关系类型选择器,首先将不同知识库的关系类型简单聚类成关系的域类型T,然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试,来标记问题的正确问答路径上下文所属的关系域类型;
更步骤(32)在构建基于知识库问题和关系类型匹配的多标签数据集过程中,包含多个三元组(code,question,labels),其中,code表示问题的唯一标识,question表示问题,labels以向量的形式表示,并以一种类似于one-hot编码的形式进行编码,其中每个元素用1或0来表示,表示问题中的关系属于域关系的类型。
在关系类型选择器的训练过程中,首先用BERT预训练模型在大型语料上进行无监督的训练,然后用预训练的参数,对下游任务进行微调来用于多标签分类任务。模型的全连接层融合了这些特征参数,并将问题标记上相关的一系列域类型,由于每一个关系类型都是独立不相关的,因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:
其中,a为labels的概率,ai表示第i个labels的概率,logits为全连接层的概率,logitsi为第i个labels的全连接层的概率,sigmoid(logitsi)表示对logitsi归一化,i的取值为1到m,m为聚类后的关系的数量。然后采用梯度法最小化预测概率值ai和目标值yi之间的交叉熵:
其中,loss()是损失函数,a是预测概率值,y是目标值,ai是第i个预测概率值,yi表示第i个目标值,i的取值为1到d,d为聚类后的关系的数量。
在构建关系类型选择器之后,首先用这个类型选择器预测问题中的关系词最有可能属于的域类型,然后用输出的labels对候选子图进行剪枝,只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系,该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语,以获得候选答案实体,完成整个自动回答的流程;
步骤(4)在得到剪枝后的候选问答路径上下文之后,多关系的复杂问答过程就转化成了短文本匹配过程,即问题和候选问答路径上下文序列的匹配问题。受基于CNN的快速短文本匹配模型RE2所启发,在RE2模型基础上做了改进,使用BERT预训练模型,对文体局和问答路径上下文的词以及词位置同时进行编码,得到词的初始化向量表示,会随着上下文的不同而变动,从而解决一词多义的问题。具体步骤如下:
(41)BERT预处理,使用BERT初始化问题和问答路径上下文的向量表示,因为SPE-QA模型不仅要考虑语义上下文信息,还要考虑位置信息。每个初始化的向量由残差循环融合网络处理,包含Encoder层、Alignment层、Fusion层;
(42)Encoder层,是残差循环的block的入口,初始化的向量进入此block中,其中包含多层卷积神经网络的特征提取层,计算p和q的上下文特征作为矩阵p*和q*,问题序列q被标记为q*=(q1,q2,...,q|q|),q*表示问题序列对应的矩阵,|q|表示问题序列中问题的数量,问答路径上下文p被标记为矩阵p*=(p1,p2,…,p|p|),p*表示问答路径上下文对应的矩阵,|p|表示问答路径上下文的数量;
(43)Alignment层,使用attention机制实现句子信息交互,得到两个句子的交互向量,更新词向量。相似性分数eij用点击方式求得:
eij=F(pi)TF(qj) (3)
更步骤(43)中,eij表示pi和qj的相似性分数,F表示一个恒等函数或一个单层前馈神经网络,pi表示第i个问答路径上下文,i的取值为1到|p|,qj表示第j个问题,j的取值为1到|q|,F(pi)表示pi的恒等函数,F(pi)T表示pi的恒等函数的转置,F(qj)表示qj的恒等函数。然后使用attention机制计算特征表示。在得到attention系数后,分别乘以问题和问答路径上下文得到两个新的向量,两个句向量经过全连接网络后,进行矩阵相乘,得到两个句子在字维度上的相似度,之后经过softmax得到一个系数后乘以原句向量:
其中,p’和q’是问题序列和问答路径上下文的输出向量,它们通过另一个序列表示的加权求和来计算。求和通过当前位置与另一序列中相应位置的相似度得分加权,p’i表示第i个位置的问题序列的输出向量,q’j表示第j个位置的问答路径上下文的输出向量,i的取值为1到|p|,j的取值为1到|q|。eik表示pi和qk的相似性分数,k的取值为1到|q|,ekj表示pk和qj的相似性分数,k的取值为1到|p|;
(44)Fusion层,使用单层全连接网络将前面得到的向量进行语义混合:
更步骤(44)中,G1,G2,G3和G是带有独立参数的单层全连接网络,用来控制维度。“;”表示直接拼接,“-”表示减法操作,“ο”表示乘法操作;其中,pi表示第i个问答路径上下文,p’i表示第i个位置的问题序列的输出向量,是pi和p’i直接拼接后的结果值,是pi与pi-p’i拼接后的结果值,是pi与piοp’i拼接后的结果值,是与拼接后的结果值。
(45)Fusion层的输出输入Pooling层,并转化为向量v1和v2,作为Prediction层的输入;
(46)Pooling层中两个序列v1和v2的向量表示作为Prediction层的输入,以多层前馈神经网络进行二分类预测:
其中,H是一个多层前馈神经网络,表示第i个预测分数,表示所有类的预测分数,argmax表示对求集合。
实施例
本发明公开的是一种基于问答路径上下文编码的复杂问题智能问答模型SPE-QA,其基本架构图见图2,其中,图2中的(a)包括基于尾部实体的候选子图剪枝和语义匹配模型;图2中的(b)包括基于关系类型的候选子图剪枝和语义匹配模型。本方法所提出的SPE-QA模型可以具体应用在基于知识图谱的智能问答上。其整体实施流程架构如图1所示,本实施例以在FB13构建的图谱上进行查询、剪枝、语义匹配、回答为例,具体步骤如下:
步骤一:根据问题q:what faith doesGeorge_of_saxony’s child have?识别出主题实体es:George_of_saxony。
步骤二:获得候选子图,形成问答路径上下文,包含以下步骤:
(21)将知识库三元组存储在Virtuoso数据库中,根据主题实体链接到的链接实体“George_of_saxony”,使用SPARQL语句查询数据库中距离链接实体“George_of_saxony”2-HOP或3-HOP的实体作为候选答案实体并保留查找的中间完整路径形成候选子图,如图3所示。SPARQL语句如下:
SELECT distinct?rel,?z,?rel2,?a
WHERE{
<Georgeofsaxony>?rel?z.
?z?rel2?a.
}
其中,George_of_saxony为主题实体对应的链接实体,rel为与链接实体相连的第一个关系,z为与链接实体相连的第一个中间实体,rel2为为与链接实体相连的第二个关系,a为候选答案实体。
(22)根据候选子图得到问答路径上下文,其中正确的问答路径上下文由实线连接:
p=(georgeofsaxony;children;
princejohanngeorgofsaxonyreligion;romancatholicchurch)
相关的子图由虚线连接:
S={(george_of_saxony;parents;john_i_of_saxony;
place_of_birth;dresden),(george_of_saxony;children;
prince_johann_georg_of_saxony;religion;
roman_catholic_church),...,pm}.
步骤三:分词时使用空格分词,针对混合数据集,使用Hanlp对文体局进行依存句法分析来区分问题的复杂程度。词性标记过程中问句中的关键词会被标注为NN或NNP,其中NN表示问题中的实体词,NNP表示问题中的关系词。因此可以确定候选子图的范围:
步骤四:采用基于尾部关系类型和基于关系类型两种剪枝方法进一步筛选候选子图,删除不相关的问题答案路径。具体步骤如下:
(41)对于基于尾部关系类型的剪枝方法,首先构建关系类型映射文件,将知识库关系进行简单聚类;
(42)问题q:“what faith doesGeorge_of_saxony’s child have?”中,关系类型为“faith”,则删除尾部关系不是“faith”问答路径上下文;
(43)将保留的候选问答路径上下文与问题句构成新的问答数据集,输入到问答句匹配模型中进行训练;
步骤五:基于关系类型的剪枝方法筛选候选子图,删除不相关的问题答案路径。具体步骤如下:
(51)对于基于关系类型的剪枝方法,构建关系类型选择器,首先将不同知识库的关系类型简单聚类成关系的域类型T,如数据集PQ的关系聚类后为7类:gender、place、organisation、faith、character、disease、language;
(52)构建基于知识库问题和关系类型匹配的多标签数据集,三元组(code,question,labels)中的labels为[0,0,0,1,1,0,0];
(53)将问题q:“what faith doesGeorge_of_saxony’s child have?”和关系词“child”和“faith”作为输入,预测出问题中的关系词所属的域类型为“character”和“faith”,在候选子图中只保留相关类型的问答路径上下文路径;
步骤六:构建短文本比配模型,匹配问题和候选问答路径上下文序列。模型RE2的改进框架图如图4,包含以下步骤:
(61)使用BERT预训练模型,对文体局和问答路径上下文的词以及词位置同时进行编码,得到词的初始化向量表示,会随着上下文的不同而变动,从而解决一词多义的问题;
(62)初始化后的词向量进入残差循环连接的block,通过Alignment层实现问题和候选问答路径上下文的信息交互,得到两个它们的交互向量,更新词向量;
(63)Fusion层使用单层全连接网络将前面得到的向量进行语义混合;
(64)经过max-pooling以及多层前馈网络进行二分类预测,得到答案实体:
ea:roman_catholic_church。
Claims (3)
1.基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,其特征在于:提出了基于图上下文编码的复杂问题智能问答模型SPE-QA,包括以下模块:
1)候选子图剪枝模块,包括基于尾部实体的剪枝和基于关系类型的剪枝;其中基于尾部实体的剪枝删除尾部关系类型不相关的问答路径上下文,将保留的候选问答路径上下文和问题一起输入到语义匹配模型中训练;基于关系类型的剪枝方法通过关系路径类型选择器,只保留候选子图中相关类型的问答路径上下文进行后续操作;所述的候选子图剪枝模块中,包括以下步骤:
2.1)对于基于尾部关系类型的剪枝方法,首先构建关系类型映射文件,将知识库关系进行简单聚类,判断知识库中两种类型是否相关后,保留尾部关系类型相关的PathContext作为候选问答路径上下文,并与问题句构成新的问答数据集,输入到问答句匹配模型中进行训练;
2.2)对于基于关系类型的剪枝方法,将问题和关系词类型作为输入,预测问题中的关系词所属的域类型,然后输出与问题最相关的三种关系类型,在候选子图中只保留相关类型的问答路径上下文路径;为了构建关系类型选择器,首先将不同知识库的关系类型简单聚类成关系的域类型T,然后构建基于知识库问题和关系类型匹配的多标签数据集进行训练和测试,来标记问题的正确问答路径上下文所属的关系域类型;
所述的步骤2.2)具体过程如下:
2.21)在构建基于知识库问题和关系类型匹配的多标签数据集过程中,包含三元组code,question,labels,其中,code表示问题的唯一标识,question表示问题,labels以向量的形式表示,并以一种类似于one-hot编码的形式进行编码,其中每个元素用1或0来表示,表示问题中的关系属于域关系的类型;
2.22)在关系类型选择器的训练过程中,首先用BERT预训练模型在大型语料上进行无监督的训练,然后用预训练的参数,对下游任务进行微调来用于多标签分类任务,模型的全连接层融合了这些特征参数,并将问题标记上相关的一系列域类型,由于每一个关系类型都是独立不相关的,因此对标签中的每个关系类型使用sigmoid激活函数来计算其概率:
然后采用梯度法最小化预测的概率值aj和目标值yj之间的交叉熵:
其中yi=labels,表示问题中的关系属于域关系的类型;
2.23)在构建关系类型选择器之后,首先用这个类型选择器预测问题中的关系词属于的域类型,然后用输出的labels对候选子图进行剪枝,只保留至少包含一个属于top-k域类型关系的问答路径上下文。当一个问答路径上下文中包含不属于域类型中的关系,该问答路径上下文也会被删除。最后将保留的候选问答路径上下文和问题作为语义匹配模型的术语,以获得候选答案实体,完成整个自动回答的流程;
2)语义匹配模块,将多关系的复杂问答过程转化成短文本匹配过程,即问题句和候选问答路径上下文序列的匹配问题;基于RE2模型,使用BERT预训练模型,对问题句和问答路径上下文的词及位置同时编码。
2.根据权利要求1所述的基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,其特征在于:所述的语义匹配模块中,包括以下步骤:
3.1)BERT预处理,使用BERT初始化问题和问答路径上下文的向量表示,因为SPE-QA模型不仅要考虑语义上下文信息,还要考虑位置信息;每个初始化的向量由残差循环融合网络处理,包含Encoder层、Alignment层、Fusion层;
3.2)Encoder层,是残差循环的block的入口,初始化的向量进入此block中,其中包含多层卷积神经网络的特征提取层,计算p和q的上下文特征作为矩阵p*和q*,问题序列q被标记为q*=(q1,q2,,q|q|),q*表示问题序列对应的矩阵,|q|表示问题序列中问题的数量,问答路径上下文p被标记为矩阵p*=(p1,p2,,p|p|),p*表示问答路径上下文对应的矩阵,|p|表示问答路径上下文的数量;
3.3)Alignment层,使用attention机制实现句子信息交互,得到两个句子的交互向量,更新词向量;相似性分数eij用点击方式求得:
eij=F(pi)TF(qj) (3)
更步骤3.3)中,eij表示pi和qj的相似性分数,F表示一个恒等函数或一个单层前馈神经网络,pi表示第i个问答路径上下文,i的取值为1到|p|,qj表示第j个问题,j的取值为1到|q|,F(pi)表示pi的恒等函数,F(pi)T表示pi的恒等函数的转置,F(qj)表示qj的恒等函数;然后使用attention机制计算特征表示。
3.根据权利要求2所述的基于嵌入式和候选子图剪枝的复杂问题知识库问答方法,其特征在于:所述的使用attention机制计算特征表示得到的attention系数后,分别乘以问题和问答路径上下文得到两个新的向量,两个句向量经过全连接网络后,进行矩阵相乘,得到两个句子在字维度上的相似度,之后经过softmax得到一个系数后乘以原句向量:
其中,p'和q'是问题序列和问答路径上下文的输出向量,它们通过另一个序列表示的加权求和来计算;求和通过当前位置与另一序列中相应位置的相似度得分加权,p'i表示第i个位置的问题序列的输出向量,q'j表示第j个位置的问答路径上下文的输出向量,i的取值为1到|p|,j的取值为1到|q|;eik表示pi和qk的相似性分数,k的取值为1到|q|,ekj表示pk和qj的相似性分数,k的取值为1到|p|;
3.4)Fusion层,使用单层全连接网络将前面得到的向量进行语义混合:
更步骤3.4)中,G1,G2,G3和G是带有独立参数的单层全连接网络,用来控制维度;“;”表示直接拼接,“-”表示减法操作,表示乘法操作;其中,pi表示第i个问答路径上下文,pi'表示第i个位置的问题序列的输出向量,是pi和pi'直接拼接后的结果值,是pi与pi-pi'拼接后的结果值,是pi与拼接后的结果值,是与拼接后的结果值;
3.5)Fusion层的输出输入Pooling层,并转化为向量v1和v2,作为Prediction层的输入;
3.6)Pooling层中两个序列v1和v2的向量表示作为Prediction层的输入,以多层前馈神经网络进行二分类预测:
y=argmaxiyi (8)
其中,H是一个多层前馈神经网络,yi表示第i个预测分数,y表示所有类的预测分数,argmax表示对yi求集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110073070.XA CN112766507B (zh) | 2021-01-20 | 2021-01-20 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110073070.XA CN112766507B (zh) | 2021-01-20 | 2021-01-20 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766507A CN112766507A (zh) | 2021-05-07 |
CN112766507B true CN112766507B (zh) | 2023-04-25 |
Family
ID=75703324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110073070.XA Active CN112766507B (zh) | 2021-01-20 | 2021-01-20 | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766507B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590789A (zh) * | 2021-07-30 | 2021-11-02 | 北京壹心壹翼科技有限公司 | 应用于智能问答系统的问题检索方法、装置、设备及介质 |
CN113849601A (zh) * | 2021-09-17 | 2021-12-28 | 上海数熙传媒科技有限公司 | 一种针对问答任务模型的输入剪枝加速方法 |
CN114357123B (zh) * | 2022-03-18 | 2022-06-10 | 北京创新乐知网络技术有限公司 | 基于层次结构的数据匹配方法、装置、设备及存储介质 |
CN117194633A (zh) * | 2023-09-12 | 2023-12-08 | 河海大学 | 基于多层级多路径的大坝应急响应知识问答系统及实现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN112015868A (zh) * | 2020-09-07 | 2020-12-01 | 重庆邮电大学 | 基于知识图谱补全的问答方法 |
-
2021
- 2021-01-20 CN CN202110073070.XA patent/CN112766507B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN109271506A (zh) * | 2018-11-29 | 2019-01-25 | 武汉大学 | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 |
CN112015868A (zh) * | 2020-09-07 | 2020-12-01 | 重庆邮电大学 | 基于知识图谱补全的问答方法 |
Non-Patent Citations (2)
Title |
---|
《Simple and Effective Text Matching with Richer Alignment Features》;Runqi Yang等;《arXiv:1908.00300v1 [cs.CL] 1 Aug 2019》;20190830;第1-11页 * |
《用bert4做三元组抽取》;苏剑林;《https://www.kexue.fm/archives/7161》;20200103;第1-3页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112766507A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766507B (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
CN117033608B (zh) | 一种基于大语言模型的知识图谱生成式问答方法及系统 | |
CN110334354B (zh) | 一种中文关系抽取方法 | |
CN111782769B (zh) | 基于关系预测的知识图谱智能问答方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN115982338B (zh) | 一种基于查询路径排序的领域知识图谱问答方法及系统 | |
CN116127090B (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN114548101A (zh) | 基于可回溯序列生成方法的事件检测方法和系统 | |
CN117151220A (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
Singh et al. | SciDr at SDU-2020: IDEAS--Identifying and Disambiguating Everyday Acronyms for Scientific Domain | |
CN117371523A (zh) | 基于人机混合增强的教育知识图谱构建方法与系统 | |
Sharath et al. | Question answering over knowledge base using language model embeddings | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
CN115357692A (zh) | 一种中文问答信息抽取方法、系统、设备及存储介质 | |
CN113377844A (zh) | 面向大型关系型数据库的对话式数据模糊检索方法及装置 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN116561314B (zh) | 基于自适应阈值选择自注意力的文本分类方法 | |
Lei et al. | An input information enhanced model for relation extraction | |
CN115617954B (zh) | 问答方法、装置、电子设备及存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114443818A (zh) | 一种对话式知识库问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |