CN111581395A - 一种基于深度学习的模型融合三元组表示学习系统及方法 - Google Patents
一种基于深度学习的模型融合三元组表示学习系统及方法 Download PDFInfo
- Publication number
- CN111581395A CN111581395A CN202010373485.4A CN202010373485A CN111581395A CN 111581395 A CN111581395 A CN 111581395A CN 202010373485 A CN202010373485 A CN 202010373485A CN 111581395 A CN111581395 A CN 111581395A
- Authority
- CN
- China
- Prior art keywords
- bert
- triple
- representation
- model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 230000000873 masking effect Effects 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 28
- 238000013519 translation Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 11
- 239000002585 base Substances 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的模型融合三元组表示学习系统及方法,使用预训练的BERT语言模型对单词进行嵌入表示,获取了单词更加语境化的表示;同时利用BERT结构的掩蔽语言建模任务将其三元组作为序列输入;本发明对于同实体多种语义的问题,利用投影或者转换矩阵使得映射实体关系在不同领域上能够有不同的表示,但是本发明中改造后的BERT可以将三元组或其描述信息作为文本输入并一同训练,而BERT本身的机制会对实体关系在不同句子中会有不同的词向量,有效解决了实体关系不同语义的问题,因此选择TransE不会受限于其模型本身,反而其模型的足够简单才真正反映了三元组之间的对应关系。同时降低了模型的复杂度。
Description
【技术领域】
本发明属于电子信息技术领域,涉及一种基于深度学习的模型融合三元组表示学习系统及方法。
【背景技术】
人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条边代表实体间的关系。因此,大部分知识往往都可以用三元组(实体1,关系,实体2)来表示,对应着知识库网络中的一条边及其连接的2个实体。这是知识库的通用表示方式,例如万维网(W3C)发布的资源描述框架(resource descriptionframework,RDF)技术标准,就是以三元组表示为基础的。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。为了改进信息服务质量,国内外互联网公司(特别是搜索引擎公司)纷纷推出知识库产品,如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方等。在谷歌提出知识图谱(knowledge graphs)的概念后,以三元组结构表示知识的形式广受认可。知识图谱也由此产生。
知识图谱的实质是三元组的集合,然而完成实体关系抽取后得到的三元组其完备性仍不足,目前存储了海量的三元组的大规模知识图谱如Freebase、Wikidata、DBpedia等存在,但是它们仍然远远没有达到完备的程度。随着信息的爆炸式增长,确定知识识图谱存在,但是仍然远远没有达到完备的程度。随着信息的爆炸式增长,确定三元组中信息的正确性并对其进行补全也是至关重要的任务。
基于深度学习的三元组表示学习目前主要分为基于距离,融合文本和基于路径这三类方法。基于翻译的表示学习补全模型则通过将实体和关系嵌入到低维向量空间以得到实体和关系语义信息的表示。2013年word2vec词表示学习工具包被提出之后,通过该模型,找到了词向量空间中存在的平移不变的现象。如V(father)-V(mother)=V(female)-V(male),其中V(w)代表的是用word2vec学习得到的单词w的向量表示。即词向量表示能够捕获单词father和mother之间、female和male之间隐含的某种相同语义关系。并借助类比推理实验发现该种现象广泛存在于词汇的语义关系和句法关系中。受到该现象的启示,提出了TransE模型,在低维空间嵌入实体和关系,将关系表示为低维嵌入空间中实体间翻译操作,然后利用得分函数将实体和关系联系起来,并通过损失函数进行优化以取得最优目标值。其后,大多数基于翻译的表示学习模型都是在TransE的基础上进行扩展,虽然性能得到了提升,但是在模型的过于复杂和精密的设计上极大的影响了后续的可扩展性。融合文本的表示学习是指把不同的数据源所抽取的知识融合到一起。与传统的数据融合(datafusion)任务不同的是,知识融合技术能够利用多个不同的知识抽取工具为每一个数据项从每个数据源中抽取相应的值,而数据融合只考虑了单个抽取工具。缺陷和不足在于,融合多源数据过程中产生的噪音无法得到有效的处理和解决。多步关系路径也包含了实体之间丰富的推理模式。模型一般通过路径约束资源分配算法来度量关系路径的可达性,并利用关系嵌入的语义组合来表示关系路径,即将关系路径作为表示学习中实体间的翻译。不仅考虑了直接关系,同时也考虑了包含实体间丰富推理模式的多步关系路径,解决了仅从单一路径进行表示学习的问题。还可以通过利用关系路径的信息对知识图谱中的实体和关系进行表示学习,缺陷和不足在于,对于路径公式的选择和设计直接决定模型的性能,在泛用性上有所不足。
【发明内容】
本发明的目的在于解决现有技术中的问题,提供一种基于深度学习的模型融合三元组表示学习系统及方法,通过引入的词向量预训练机制将三元组自身结构和三元组词向量信息作联合表示学习。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于深度学习的模型融合三元组表示学习系统,包括:
BERT三元组输入模块,用于将三元组序列化通过掩蔽语言建模完成三元组的嵌入,并利用BERT自带的SpecialTokens机制将三元组的描述性信息输入;
TransE三元组输入模块,用于将三元组通过TransE的训练机制对三元组进行训练;学习三元组中的结构信息,使用距离公式计算三元组之间的相似度以学习实体关系之间的依赖关系,从而生成三元组的词向量表示;
联合表示学习模块,用于将BERT三元组输入模块和TransE三元组输入模块结合起来,将二者结合联合训练,最终得到三元组词向量表示的最佳优化。
本发明还公开了一种基于深度学习的模型融合三元组表示学习方法,包括以下步骤:
阶段0:数据预处理
步骤0:将数据集利用工具、众包或专家对其进行评价,除去无用错误的三元组集合,过滤掉与后续工作无关的噪声数据;
步骤1:给定数量为m的三元组集合,对其x实体和y关系进行初步的词向量初始化;
阶段1:基于BERT的三元组表示学习
步骤2:采用预训练的语言模型BERT作为单词嵌入工具,将每个单词映射到相应的向量空间中;使用[SEP]分隔符将三者分开,并且每个区域内部均为独立的位置编码;
步骤3:使用BERT的掩蔽语言模式来输入三元组,输入格式表示为“[CLS]头实体[SEP]关系[SEP]尾实体[SEP]”;通过BERT多头自注意力机制计算上下文以及评价对象之间的初级交互表示:
步骤4:Bert在进行词嵌入时,使用8层的Transformer作为基础框架,Transformer分为多头注意力和前馈层两个阶段;注意力为如下:
(attentionoutput)=Attention(Q,K,V) (2)
多头注意力是通过h个不同的线性变换对Q,K,V进行投影,最后将不同的attention结果拼接起来,每一个头当作独立的注意力机制,总共进行e次注意力计算,并将注意力结果拼接:
MultiHead(Q,K,V)=Concat(head1,...,heade)Wo (3)
headi=Attention(QWi O,QWi K,VWi V) (4)
使用scaleddot-product的方式进行计算:
步骤5:头实体h被表示为包含Tokens的句子,关系r被表示为包含Tokens的句子;对于给定的Token,其输入表示是通过将相应的Token、段和位置嵌入相加来构造的;由[SEP]分隔的不同元素具有不同的段嵌入,首尾实体句中的标记具有相同的segmentembedding段嵌入,而关系句中的标记具有不同的segmentembedding段嵌入,不同的tokens在相同的位置,即具有相同的嵌入位置模型训练是首先分别构建positivetripleset和negativetripleset,然后用BERT的[CLS]标签做一个sigmoid打分:
其中,得分函数sτ是一个具有sτ0,sτ1∈[0,1]和sτ0+sτ1=1的二维实向量;
步骤6:每个输入Token都有一个输入表示Ei;Token表示被输入到BERT模型架构中;特殊[CLS]Token和第i个输入Token的最终隐藏向量表示为和H表示预训练BERT的隐藏状态的大小;对应于[CLS]的最终隐藏状态C被用作组合三元组分数的聚集序列表示;在对(h,r,t)三元组分类微调中引入的唯一新参数是分类层的权重,即
步骤7:通过三元组分类用于判读是否是合理的三元组;将输入序列切分成头,关系和尾三部分,并用sep分割;训练阶段设置正负样进行训练,用BERT的[CLS]标签做一个sigmoid打分以及最后交叉熵损失训练模型最后计算交叉熵损失:
阶段2:基于翻译模型TransE的三元组表示学习
步骤8:将三元组中h,r,t初始化,期间每次迭代更新都需归一化:
其中,uniform()为初始化函数,k为词向量维度,h,r,t分别为头实体、关系和尾实体;
步骤9:TransE是基于实体和关系的分布式向量表示,利用词向量的平移不变现象,将每个三元组实例(h,r,t)中的关系r看做从头实体h到尾实体t的翻译,通过不断调整h、r和t的向量,使h+r近似与t相等,即h+r≈t,进而定义三元组(h,r,t)中实体向量、关系向量和距离向量之间的相互关联;用来衡量h和t之间的距离在实际应用中可以使用L1或L2范数,其距离公式如下:
步骤10:在模型的训练过程中,通过替换h或t所得;α是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0;梯度更新只需计算距离d(h+r,t)和d(h′+r,t′);模型训练完成后,得到实体和关系的向量表示;模型采用最大间隔方法,其目标函数如下:
[x]+=max(0,x) (12)
其中,S(h,r,t)是知识库中的三元组,S′(h′,r,t′)是负采样的三元组,对某一个正确关系组中的头元素的参数hi来说:
在目标函数下增加约束条件:
||h||≤1,||r||≤1,||t||≤1 (14)
阶段3:联合表示学习
步骤11:将TransE的目标函数将其相加,构建基于BERT和TransE的模型目标函数:
Ltotal=L1+γL2 (15)
其中,γ是平衡两个模型贡献比率的参数。
与现有技术相比,本发明具有以下有益效果:
本发明使用预训练的BERT语言模型对单词进行嵌入表示,获取了单词更加语境化的表示,解决了以往方法单词嵌入表示不够丰富,无法解决一词多义的问题;同时利用BERT结构的掩蔽语言建模任务将其三元组作为序列输入;其次,本发明对于同实体多种语义的问题,相较于以往的做法通常是采用对TransE模型进行维度上的改造,利用投影或者转换矩阵使得映射实体关系在不同领域上能够有不同的表示,但是本发明中改造后的BERT可以将三元组或其描述信息作为文本输入并一同训练,而BERT本身的机制会对实体关系在不同句子中会有不同的词向量,有效解决了实体关系不同语义的问题,因此选择TransE不会受限于其模型本身,反而其模型的足够简单才真正反映了三元组之间的对应关系。同时降低了模型的复杂度;最后,本发明使用了联合学习方法,充分的使三元组自身结构的信息与描述信息相结合,从而提升了三元组实体关系的向量化表示效果。
【附图说明】
图1为本发明的架构图;
图2为本发明中使用的BERT输入格式;
图3为本发明中使用的BERT描述性语句作为三元组头实体;
图4为本发明中使用的三元组示例;
图5为本发明中负样本三元组示例。
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明基于深度学习的模型融合三元组表示学习系统,包括:
BERT三元组输入模块:利用预训练好的BERT将三元组序列化通过掩蔽语言建模完成三元组的嵌入,本发明所输入的三元组的格式如图4所示,为了模拟三元组的合理性,序列化的句子可以是两个实体也可以是多个三元组打包在一起,利用BERT完成词向量训练。此外,可以利用BERT自带的Special Tokens机制将三元组的描述性信息输入。这样做第一解决了传统预训练语言模型方法无法区分单词的多义特征的问题,还减轻了传统表示学习中由于三元组自身结构信息不足引入外部信息即多源信息融合表示学习的噪声问题。其描述性信息格式举例如图3所示。
TransE三元组输入模块:将三元组通过TransE的训练机制对三元组进行训练。该模型的作用是学习三元组中的结构信息,使用距离公式计算三元组之间的相似度以学习实体关系之间的依赖关系,从而生成更准确的三元组的词向量表示。
联合表示学习模块:利用两个模型的评价函数输入输出相同的情况下,将BERT三元组输入模块和TransE三元组输入模块结合起来,将二者结合联合训练,最终得到三元组词向量表示的最佳优化。
本发明基于深度学习的模型融合三元组表示学习,包括以下步骤:
阶段0:数据预处理
步骤0:将数据集利用工具、众包或专家对其进行评价,除去无用错误的三元组集合,过滤掉与后续工作无关的噪声数据。
步骤1:给定数量为m的三元组集合,对其x实体和y关系进行初步的词向量初始化。可通过word2vec或Glove等工具进行此项工作。
阶段1:基于BERT的三元组表示学习
步骤2:嵌入层是模型的基础层,目的是将每个单词通过嵌入层映射到向量空间中,采用预训练的语言模型BERT作为单词嵌入工具,该层将每个单词映射到相应的向量空间中。与传统的词嵌入方法相比,BERT具体有动态语义的功能,可以达到一词多义的效果。为了在嵌入过程中区分头实体,尾实体及关系,使用[SEP]分隔符将三者分开,并且每个区域内部均为独立的位置编码;
步骤3:为了三元组进行建模,使用BERT的掩蔽语言模式来输入三元组,输入格式可以表示为“[CLS]头实体[SEP]关系[SEP]尾实体[SEP]”,具体样例如图2所示。通过BERT自身的多头自注意力机制计算上下文以及评价对象之间的初级交互表示:
步骤4:Bert在进行词嵌入时,使用了8层的Transformer作为基础框架,Transformer分为多头注意力和前馈层两个阶段。注意力为如下形式:
(attentionoutput)=Attention(Q,K,V) (2)
多头注意力则是通过h个不同的线性变换对Q,K,V进行投影,最后将不同的attention结果拼接起来,每一个头都可以当作独立的注意力机制,总共进行e次注意力,并将注意力结果拼接:
MultiHead(Q,K,V)=Concat(head1,...,heade)Wo (3)
headi=Attention(QWi O,QWi K,VWi V) (4)
计算方法使用了scaled dot-product的方式
其中QKT用于计算Q矩阵和K矩阵的相似度,根号用于对矩阵里的每一个值进行放缩,相似度矩阵与V矩阵相乘可得到经由注意力之后的矩阵表示。注意力层结束后是前馈层,用于对特征做线性变化,并做LayerNorm,将特征里的值归一化的一定范围,使得训练更加稳定。
步骤5:每个输入序列的第一个标记总是一种特殊的分类Token[CLS]。头实体h被表示为包含Tokens的句子,例如“Steven Paul Jobs was a American business magnate,entrepreneur and investor.”或“Steve Jobs”,关系r被表示为包含Tokens的句子,例如,“founded”,t尾部实体表示为一个包含Tokens的句子,例如,“苹果公司是一家美国跨国技术公司,总部设在加利福尼亚州的库比蒂诺”或“苹果公司”。实体和关系的特殊时态由一个专有名词分隔开。对于给定的Token,它的输入表示是通过将相应的Token、段和位置嵌入相加来构造的。由[SEP]分隔的不同元素具有不同的段嵌入,首尾实体句中的标记具有相同的segment embedding段嵌入,而关系句中的标记具有不同的segment embedding段嵌入,不同的tokens在相同的位置,即具有相同的嵌入位置模型训练是首先分别构建positive triple set和negative triple set,然后用BERT的[CLS]标签做一个sigmoid打分:
其中,得分函数sτ是一个具有sτ0,sτ1∈[0,1]和sτ0+sτ1=1的二维实向量;
步骤6:每个输入Token都有一个输入表示Ei。Token表示被输入到BERT模型架构中。特殊[CLS]Token和第i个输入Token的最终隐藏向量表示为和H表示预训练BERT的隐藏状态的大小。对应于[CLS]的最终隐藏状态C被用作组合三元组分数的聚集序列表示。在对(h,r,t)三元组分类微调中引入的唯一新参数是分类层的权重,即
步骤7:通过三元组分类用于判读是否是合理的三元组。将输入序列切分成头,关系和尾三部分,并用sep分割。训练阶段设置正负样本进行训练,其负样本的格式如图5所示,用BERT的[CLS]标签做一个sigmoid打分以及最后交叉熵损失训练模型最后计算交叉熵损失:
阶段2:基于翻译模型TransE的三元组表示学习
步骤8:将三元组中h,r,t初始化,期间每次迭代更新都需归一化:
其中,uniform()为初始化函数,k为词向量维度,h,r,t分别为头实体、关系和尾实体。
步骤9:TransE是基于实体和关系的分布式向量表示,利用词向量的平移不变现象,将每个三元组实例(h,r,t)中的关系r看做从头实体h到尾实体t的翻译,通过不断调整h、r和t的向量,使h+r尽可能与t相等,即h+r≈t,进而定义三元组(h,r,t)中实体向量、关系向量和距离向量之间的相互关联。用来衡量h和t之间的距离在实际应用中可以使用L1或L2范数。其距离公式如下:
步骤10:在模型的训练过程中,通过替换h或t所得。α是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0。梯度更新只需计算距离d(h+r,t)和d(h′+r,t′)。模型训练完成后,可得到实体和关系的向量表示。模型采用最大间隔方法,其目标函数如下:
[x]+=max(0,x) (12)
其中,S(h,r,t)是知识库中的三元组,S′(h′,r,t′)是负采样的三元组,对某一个对某一个正确关系组中的头元素的参数hi来说,
为了方便训练避免过拟合,需在目标函数下增加约束条件:
||h||≤1,||r||≤1,||t||≤1 (14)
阶段3:联合表示学习
步骤11:在我们的模型中,主要利用的是三元组自身结构信息,构成三元组信息,例如(USA,president,Trump),假设此三元组是事实,一个基本想法就是在训练BERT过程中,加入这些三元组信息,使得关联的和某种程度上更接近,也可以说是一种正则化约束,例如三元组信息是类别信息,即词语属于哪个领域的信息。为了与BERT模型融合,利用TransE思想,将TransE的目标函数将其相加,这样一来,我们就可以构建基于BERT和TransE的模型目标函数,如下:
Ltotal=L1+γL2 (15)
其中,γ是平衡两个模型贡献比率的参数。
BERT层输入的三元组由于BERT的预训练机制,可以将相同实体在文中不同词义分开训练,TransE的输入与BERT相同对标三元组输入。理论上拟合后的评价函数分阶段训练或同时训练较之单个模型都会有很好的提升。可通过不断试验调参得到最优解。
实施例:
Theappleisthecompanyofthetech.
Theappleisthekindofthefruit.
此文本中的三元组为(apple,company,the tech)其实体iphone,the Apple关系的表示学习向量表示是拟合BERT和TransE两个评价函数联合起来的得到的,其拟合结果与仅BERT和TransE拟合结果不同。训练得出的表示向量可以实现对不同语境语义不同的结果,其tech类的Apple与fruit类的Apple的表示学习向量不同。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (2)
1.一种基于深度学习的模型融合三元组表示学习系统,其特征在于,包括:
BERT三元组输入模块,用于将三元组序列化通过掩蔽语言建模完成三元组的嵌入,并利用BERT自带的SpecialTokens机制将三元组的描述性信息输入;
TransE三元组输入模块,用于将三元组通过TransE的训练机制对三元组进行训练;学习三元组中的结构信息,使用距离公式计算三元组之间的相似度以学习实体关系之间的依赖关系,从而生成三元组的词向量表示;
联合表示学习模块,用于将BERT三元组输入模块和TransE三元组输入模块结合起来,将二者结合联合训练,最终得到三元组词向量表示的最佳优化。
2.一种基于深度学习的模型融合三元组表示学习方法,其特征在于,包括以下步骤:
阶段0:数据预处理
步骤0:将数据集利用工具、众包或专家对其进行评价,除去无用错误的三元组集合,过滤掉与后续工作无关的噪声数据;
步骤1:给定数量为m的三元组集合,对其x实体和y关系进行初步的词向量初始化;
阶段1:基于BERT的三元组表示学习
步骤2:采用预训练的语言模型BERT作为单词嵌入工具,将每个单词映射到相应的向量空间中;使用[SEP]分隔符将三者分开,并且每个区域内部均为独立的位置编码;
步骤3:使用BERT的掩蔽语言模式来输入三元组,输入格式表示为“[CLS]头实体[SEP]关系[SEP]尾实体[SEP]”;通过BERT多头自注意力机制计算上下文以及评价对象之间的初级交互表示:
步骤4:Bert在进行词嵌入时,使用8层的Transformer作为基础框架,Transformer分为多头注意力和前馈层两个阶段;注意力为如下:
(attentionoutput)=Attention(Q,K,V) (2)
多头注意力是通过h个不同的线性变换对Q,K,V进行投影,最后将不同的attention结果拼接起来,每一个头当作独立的注意力机制,总共进行e次注意力计算,并将注意力结果拼接:
MultiHead(Q,K,V)=Concat(head1,...,heade)WO (3)
headi=Attention(QWi O,QWi K,VWi V) (4)
使用scaleddot-product的方式进行计算:
步骤5:头实体h被表示为包含Tokens的句子,关系r被表示为包含Tokens的句子;对于给定的Token,其输入表示是通过将相应的Token、段和位置嵌入相加来构造的;由[SEP]分隔的不同元素具有不同的段嵌入,首尾实体句中的标记具有相同的segmentembedding段嵌入,而关系句中的标记具有不同的segmentembedding段嵌入,不同的tokens在相同的位置,即具有相同的嵌入位置模型训练是首先分别构建positivetripleset和negativetripleset,然后用BERT的[CLS]标签做一个sigmoid打分:
其中,得分函数sτ是一个具有sτ0,sτ1∈[0,1]和sτ0+sτ1=1的二维实向量;
步骤6:每个输入Token都有一个输入表示Ei;Token表示被输入到BERT模型架构中;特殊[CLS]Token和第i个输入Token的最终隐藏向量表示为和H表示预训练BERT的隐藏状态的大小;对应于[CLS]的最终隐藏状态C被用作组合三元组分数的聚集序列表示;在对(h,r,t)三元组分类微调中引入的唯一新参数是分类层的权重,即
步骤7:通过三元组分类用于判读是否是合理的三元组;将输入序列切分成头,关系和尾三部分,并用sep分割;训练阶段设置正负样进行训练,用BERT的[CLS]标签做一个sigmoid打分以及最后交叉熵损失训练模型最后计算交叉熵损失:
阶段2:基于翻译模型TransE的三元组表示学习
步骤8:将三元组中h,r,t初始化,期间每次迭代更新都需归一化:
其中,uniform()为初始化函数,k为词向量维度,h,r,t分别为头实体、关系和尾实体;
步骤9:TransE是基于实体和关系的分布式向量表示,利用词向量的平移不变现象,将每个三元组实例(h,r,t)中的关系r看做从头实体h到尾实体t的翻译,通过不断调整h、r和t的向量,使h+r近似与t相等,即h+r≈t,进而定义三元组(h,r,t)中实体向量、关系向量和距离向量之间的相互关联;用来衡量h和t之间的距离在实际应用中可以使用L1或L2范数,其距离公式如下:
步骤10:在模型的训练过程中,通过替换h或t所得;α是取值大于0的间隔距离参数,[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0;梯度更新只需计算距离d(h+r,t)和d(h′+r,t′);模型训练完成后,得到实体和关系的向量表示;模型采用最大间隔方法,其目标函数如下:
[x]+=max(0,x) (12)
其中,S(h,r,t)是知识库中的三元组,S′(h′,r,t′)是负采样的三元组,对某一个正确关系组中的头元素的参数hi来说:
在目标函数下增加约束条件:
||h||≤1,||r||≤1,||t||≤1 (14)
阶段3:联合表示学习
步骤11:将TransE的目标函数将其相加,构建基于BERT和TransE的模型目标函数:
Ltotal=L1+γL2 (15)
其中,γ是平衡两个模型贡献比率的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373485.4A CN111581395B (zh) | 2020-05-06 | 2020-05-06 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010373485.4A CN111581395B (zh) | 2020-05-06 | 2020-05-06 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581395A true CN111581395A (zh) | 2020-08-25 |
CN111581395B CN111581395B (zh) | 2023-09-19 |
Family
ID=72124712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010373485.4A Active CN111581395B (zh) | 2020-05-06 | 2020-05-06 | 一种基于深度学习的模型融合三元组表示学习系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581395B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112308464A (zh) * | 2020-11-24 | 2021-02-02 | 中国人民公安大学 | 业务流程数据处理方法和装置 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN112820411A (zh) * | 2021-01-27 | 2021-05-18 | 清华大学 | 医学关系提取方法及装置 |
CN112836007A (zh) * | 2021-01-25 | 2021-05-25 | 北京理工大学 | 一种基于语境化注意力网络的关系元学习方法 |
CN112883197A (zh) * | 2021-02-08 | 2021-06-01 | 广东电网有限责任公司广州供电局 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113239184A (zh) * | 2021-07-09 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113312487A (zh) * | 2021-01-16 | 2021-08-27 | 江苏网进科技股份有限公司 | 一种基于TransE模型的面向法律文本的知识表示学习方法 |
CN113312492A (zh) * | 2021-05-24 | 2021-08-27 | 哈尔滨理工大学 | 一种基于动态翻译的知识图谱表示学习方法 |
CN113470811A (zh) * | 2021-06-16 | 2021-10-01 | 广州中康健数智能科技有限公司 | 一种基于深度强化学习的辅助智能问诊系统 |
CN113609311A (zh) * | 2021-09-30 | 2021-11-05 | 航天宏康智能科技(北京)有限公司 | 推荐项目的方法和装置 |
CN114639489A (zh) * | 2022-03-21 | 2022-06-17 | 广东莲藕健康科技有限公司 | 基于相互学习的问诊快捷回复推荐方法、装置及电子设备 |
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
CN117131936A (zh) * | 2023-10-26 | 2023-11-28 | 天津工业大学 | 一种基于多层级类比推理的知识图谱嵌入方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040098670A1 (en) * | 2002-11-15 | 2004-05-20 | Carroll Jeremy John | Processing of data |
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
-
2020
- 2020-05-06 CN CN202010373485.4A patent/CN111581395B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040098670A1 (en) * | 2002-11-15 | 2004-05-20 | Carroll Jeremy John | Processing of data |
CN110297870A (zh) * | 2019-05-30 | 2019-10-01 | 南京邮电大学 | 一种金融领域中文新闻标题情感分类方法 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
Non-Patent Citations (1)
Title |
---|
洪文兴等: "面向司法案件的案情知识图谱自动构建", 《中文信息学报》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131404A (zh) * | 2020-09-19 | 2020-12-25 | 哈尔滨工程大学 | 一种四险一金领域知识图谱中实体对齐方法 |
CN112149423A (zh) * | 2020-10-16 | 2020-12-29 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112149423B (zh) * | 2020-10-16 | 2024-01-26 | 中国农业科学院农业信息研究所 | 一种面向领域实体关系联合抽取的语料标注方法及系统 |
CN112308464A (zh) * | 2020-11-24 | 2021-02-02 | 中国人民公安大学 | 业务流程数据处理方法和装置 |
CN112308464B (zh) * | 2020-11-24 | 2023-11-24 | 中国人民公安大学 | 业务流程数据处理方法和装置 |
CN112487206A (zh) * | 2020-12-09 | 2021-03-12 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN113312487A (zh) * | 2021-01-16 | 2021-08-27 | 江苏网进科技股份有限公司 | 一种基于TransE模型的面向法律文本的知识表示学习方法 |
CN112836007A (zh) * | 2021-01-25 | 2021-05-25 | 北京理工大学 | 一种基于语境化注意力网络的关系元学习方法 |
CN112836007B (zh) * | 2021-01-25 | 2023-01-17 | 北京理工大学 | 一种基于语境化注意力网络的关系元学习方法 |
CN112820411B (zh) * | 2021-01-27 | 2022-07-29 | 清华大学 | 医学关系提取方法及装置 |
CN112820411A (zh) * | 2021-01-27 | 2021-05-18 | 清华大学 | 医学关系提取方法及装置 |
CN112883197B (zh) * | 2021-02-08 | 2023-02-07 | 广东电网有限责任公司广州供电局 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
CN112883197A (zh) * | 2021-02-08 | 2021-06-01 | 广东电网有限责任公司广州供电局 | 一种用于封闭开关设备的知识图谱构建方法与系统 |
CN113128214B (zh) * | 2021-03-17 | 2022-05-06 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113312492A (zh) * | 2021-05-24 | 2021-08-27 | 哈尔滨理工大学 | 一种基于动态翻译的知识图谱表示学习方法 |
CN113470811A (zh) * | 2021-06-16 | 2021-10-01 | 广州中康健数智能科技有限公司 | 一种基于深度强化学习的辅助智能问诊系统 |
CN113239184A (zh) * | 2021-07-09 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 知识库获取方法、装置、计算机设备及存储介质 |
CN113609311A (zh) * | 2021-09-30 | 2021-11-05 | 航天宏康智能科技(北京)有限公司 | 推荐项目的方法和装置 |
CN114639489A (zh) * | 2022-03-21 | 2022-06-17 | 广东莲藕健康科技有限公司 | 基于相互学习的问诊快捷回复推荐方法、装置及电子设备 |
CN116628174A (zh) * | 2023-02-17 | 2023-08-22 | 广东技术师范大学 | 一种融合实体和关系信息的端到端关系抽取方法以及系统 |
CN117131936A (zh) * | 2023-10-26 | 2023-11-28 | 天津工业大学 | 一种基于多层级类比推理的知识图谱嵌入方法 |
CN117131936B (zh) * | 2023-10-26 | 2024-01-30 | 天津工业大学 | 一种基于多层级类比推理的知识图谱嵌入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111581395B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581395A (zh) | 一种基于深度学习的模型融合三元组表示学习系统及方法 | |
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
Zhang et al. | BMT-Net: Broad multitask transformer network for sentiment analysis | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN106407333B (zh) | 基于人工智能的口语查询识别方法及装置 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN113779220B (zh) | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN113962219A (zh) | 面向电力变压器知识检索和问答的语义匹配方法及系统 | |
CN111488438B (zh) | 一种问答匹配注意力处理方法、计算机设备及存储介质 | |
CN113191357A (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN112417884A (zh) | 一种基于知识增强和知识迁移的句子语义相关度判断方法 | |
CN112115242A (zh) | 一种基于朴素贝叶斯分类算法的智能客服问答系统 | |
Chai | Design and implementation of English intelligent communication platform based on similarity algorithm | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116361438A (zh) | 基于文本-知识扩展图协同推理网络的问答方法及系统 | |
CN113010712B (zh) | 一种基于多图融合的视觉问答方法 | |
CN115129842A (zh) | 一种用于户外变电站的智能问答方法及置于户外的机器人 | |
CN109740163A (zh) | 应用于深度学习模型的语义表示资源生成方法及装置 | |
Alkwai | An explainable artificial-intelligence-based CNN model for knowledge extraction from the social Internet of Things: Proposing a new model | |
CN113821610A (zh) | 信息匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |