CN112347268A - 一种文本增强的知识图谱联合表示学习方法及装置 - Google Patents
一种文本增强的知识图谱联合表示学习方法及装置 Download PDFInfo
- Publication number
- CN112347268A CN112347268A CN202011235607.XA CN202011235607A CN112347268A CN 112347268 A CN112347268 A CN 112347268A CN 202011235607 A CN202011235607 A CN 202011235607A CN 112347268 A CN112347268 A CN 112347268A
- Authority
- CN
- China
- Prior art keywords
- representation
- vector
- text
- learning
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 290
- 238000012549 training Methods 0.000 claims abstract description 36
- 239000013604 expression vector Substances 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000004931 aggregating effect Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 abstract description 18
- 238000004364 calculation method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000004576 sand Substances 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本增强的知识图谱联合表示学习方法及装置,所述方法至少包括:基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;对可靠特征信息的可信度进行区分并建立注意力机制模型,将不同句子中的向量聚合得到关联度区分的文本表示向量;建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。本发明能够基于关联文本的重要程度对实体关系向量进行选择性增强,使得模型语义表现力更强,并采用2D卷积操作对联合表示向量进行训练,与传统翻译模型的得分函数训练方法进行对比,在链路预测及三元组分类等任务上具有更好的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本增强的知识图谱联合表示学习方法及装置。
背景技术
知识图谱本质上是一种知识库,数据间以有向图的形式组织起来。其中,图的节点表示实体或者概念,边表示实体/概念之间的各种语义关系,常常以知识三元组(h,r,t)的表现形式。现有的知识图谱通常是不完善的,并且数据关联稀疏,导致其在自动问答、智能推荐等应用系统上的表现非常糟糕。知识图谱补全能够预测缺实的实体或关系事实,完善知识图谱结构信息,提高知识图谱在应用系统上推理计算的准确性和可解释性。由于知识库数据结构的特异性,导致很多模态信息数据如文本数据无法应用到,基于文本的增强表示学习技术,充分利用文本数据丰富的语义信息,并将与知识库关联的文本信息进行融合,能够增强实体关系向量的语义表示,增加计算模型的可解释性。
近年来,以深度学习为代表的知识图谱表示学习技术,通过对数据特征的提取及计算流程的规范化,将实体和关系的语义信息表示为低维连续空间向量,对向量的计算来预测实体、关系间的复杂语义信息,极大地提高了图数据链接预测及推理计算的效率。翻译概念模型是近些年研究的热门,通过将关系向量看成实体向量之间的平移,实现知识向量的规范化表示。不过通用的翻译模型仅利用知识库中的内部结构信息进行表示学习,存在拟合度高、语义解释性差等问题。文本描述信息也越来越多地用于知识图谱表示学习中,利用word2vec训练文本词向量,借助外部文本信息对结构向量进行辅助,使得关系预测的结果更加合理。
例如,专利CN107423820B公开了一种结合实体层次类别的知识图谱表示学习方法,包括:获取知识图谱的三元组关系以及实体的层次结构类别信息;根据实体的层次结构类别信息,构建实体在预设三元组下的类别映射矩阵;根据三元组关系的实体向量和关系向量以及类别映射矩阵,构建能量方程;根据能量方程构建基于边际的评价函数,通过最小化评价函数,学习实体向量、关系向量以及类别映射矩阵的表示。
文本增强的知识图谱表示学习模型充分证明文本信息能够提升知识表示学习的效果,但对这个问题的研究仍处于初级阶段,仍存在-些问题:
(1)当前融入实体描述的知识图谱表示学习的工作大多采用词袋模型等方式学习实体描述的表示,忽略了实体描述中的词序,未能捕捉上下文的联系;
(2)现有工作未能将实体关联的多种文本重要程度进行有效的区分。
因此,如何在知识图谱表示学习中有侧重地融入外部关键文本信息,学习知识图谱中的实体和关系的增强向量表示,是本发明的核心问题。
此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
发明内容
针对现有技术之不足,本发明提供一种文本增强的知识图谱联合表示学习方法,其特征在于,所述方法至少包括:
基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
对可靠特征信息的可信度进行区分并建立注意力机制模型,将不同句子中的向量聚合得到关联度区分的文本表示向量;
建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。
本发明针对现有的知识图谱存在关系稀疏,结构知识不完备,表示学习方法忽略了对知识库外部文本信息的有效利用的缺陷,提供一种引入文本描述信息的知识联合表示学习方法,通过卷积神经网络模型对文本数据提取可靠特征信息,并基于注意力机制对不同关系的特征可信度进行区分,从而对现有知识库中的实体关系结构向量进行增强表示,得到语义信息丰富的知识表示模型,并通过卷积神经网络对联合表示向量进行维度强化训练,进一步捕捉隐式向量间的关联特征,更好地对知识图谱中的实体关系向量进行关联度聚类区分,最后进行实体与关系的向量计算完成知识图谱的补全及推理。
优选的,本发明的方法还包括:
所述可靠特征信息是基于卷积神经网络模型学习提取得到的,其中,
基于所述卷积神经网络模型学习表示实体相关文本描述信息,以对结构表示向量进行语义增强。
本发明通过卷积神经网络模型来学习表示实体相关文本描述信息,能够使其文本表示向量与结构表示向量空间保持一致。
优选的,基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括:
将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注;有利于实现知识图谱与文本的联合建模,形成高效的实体链接方法。
基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征;
基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义,有利于提升模型的稳定性,最后采用最大池化操作对输出向量进行维度一致性处理。
优选的,对可靠特征信息的可信度进行区分的方法至少包括:
获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;
基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。
优选的,对可靠特征信息的可信度进行区分的方法还包括:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。
优选的,构成文本表示向量的方法包括:
建立注意力权重矩阵,
基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。
优选的,所述方法还包括:设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关,即对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。
优选的,所述方法还包括:
基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。
本发明还提供了一种文本增强的知识图谱联合表示学习装置,其特征在于,所述装置至少包括:
结构表示向量生成模块,用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
文本表示向量生成模块,用于建立注意力机制模型以对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;
联合表示学习模块,用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。
优选的,所述装置还包括预测模块和/或推理模块,
所述预测模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测;
所述推理模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行数据智能推理。
附图说明
图1是本发明的文本处理的网络结构示意图;
图2是文本增强的联合训练模型的逻辑模块示意图。
附图标记列表
A1:输入层;A2:词表示层;A3:卷积层;A4:输出层;11:文本输入模块;12:实体标记模块;13:文本表示向量模块;21:知识图谱输入模块;22:翻译训练模块;23:结构表示向量模块;30:联合表示学习模块;40:预测模块;50:推理模块。
具体实施方式
下面结合附图进行详细说明。
基于现有技术的不足,本发明提供一种文本增强的知识图谱联合表示学习方法或装置,也可以称为一种文本增强的知识图谱联合表示学习系统。本发明还提供一种联合文本的知识图谱表示学习模型。
本发明提出的一种新型的联合文本的知识图谱表示学习模型TECRL,能够基于关联文本的重要程度对实体关系向量进行选择性增强,使得模型语义表现力更强,并采用2D卷积操作对联合表示向量进行训练,与传统翻译模型的得分函数训练方法进行对比,在链路预测及三元组分类等任务上具有更好的性能。
实施例1
本发明提供一种文本增强的知识图谱联合表示学习方法,其特征在于,所述方法至少包括:
S1:基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
S2:建立注意力机制模型以基于阈值σs对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;
S3:建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。
本发明针对现有的知识图谱存在关系稀疏,结构知识不完备,表示学习方法忽略了对知识库外部文本信息的有效利用的缺陷,提供一种引入文本描述信息的知识联合表示学习方法,通过卷积神经网络模型对文本数据提取可靠特征信息,并基于注意力机制对不同关系的特征可信度进行区分,从而对现有知识库中的实体关系结构向量进行增强表示,得到语义信息丰富的知识表示模型,并通过卷积神经网络对联合表示向量进行维度强化训练,进一步捕捉隐式向量间的关联特征,更好地对知识图谱中的实体关系向量进行关联度聚类区分,最后进行实体与关系的向量计算完成知识图谱的补全及推理。
优选的,本发明的方法还包括:
S4:所述可靠特征信息是基于卷积神经网络模型学习提取得到的,其中,
基于所述卷积神经网络模型学习表示实体相关文本描述信息,以对结构表示向量进行语义增强。
本发明通过卷积神经网络模型来学习表示实体相关文本描述信息,能够使其文本表示向量与结构表示向量空间保持一致。
本发明中,基于知识图谱中的实体对象及其关系链接学习结构向量表示的过程包括:
S11:将知识图谱中的实体与关系数据映射到低维连续向量空间,使含有链接关系的实体表示向量存在一定的计算加和关联性。
优选的,通过翻译模型、文本卷机神器网络模型等将知识图谱中的实体与关系数据映射到低维连续向量空间。
优选的,建立注意力机制模型以对可靠特征信息的可信度进行区分的方法至少包括:
S21:对于包含实体对(h,t)的句子s,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;
S22:基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。
在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值小于σs的情况下,则判定该向量缺少文本信息,属于不可靠特征信息。在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值不小于σs的情况下,则判定该向量不缺少文本信息,属于可靠特征信息。
选择符合阈值的结构表示向量为文本关系表示向量。
优选的,建立注意力机制模型以对可靠特征信息的可信度进行区分的方法还包括:
S23:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。
优选的,构成文本表示向量的方法包括:
S24:建立注意力权重矩阵,基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。
优选的,基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括:
S41:将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注,有利于实现知识图谱与文本的联合建模,形成高效的实体链接方法。具体地,利用候选实体之间的关系构建图,把命名实体作为节点纳入图中,对文本中出现的知识图谱中的同名实体进行自动化标注;
S42:基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征。
优选的,通过采用word2vec向量生成工具对文本中的标注词汇进行训练,得到所有的词向量集合。根据文本间的上下文关系,对文本中的词向量序列进行局部语义组合,从而在词向量层面提取出句子的局部语义特征。
S43:基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义,有利于提升模型的稳定性,最后采用最大池化操作对输出向量进行维度一致性处理。
优选的,本发明的文本增强的知识图谱联合表示学习方法还包括:
S5:设置阈机制对结构表示向量和文本表示向量进行综合加成。其阈值与数据的复杂度相关,即对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。
优选的,所述方法还包括:
S6:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。通过已经学习得到的基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。
本发明将文本数据处理形成文本表示向量、将知识图谱处理形成结构表示向量,并且将文本表示向量和结构表示向量进行联合表示学习的具体实施过程如下所示。
基于翻译模型训练的基本思想,假定知识图谱中的所有实体关系向量均处于同一维度,三元组信息的向量表示可看作(hs,rs,ts)。在理想状态下,知识库中已经存在的事实三元组应该满足hs+rs=ts,而不应该存在的错误三元组hs+rs的结果会远离ts。因此,为翻译模型的训练目标定义一个得分函数,具体形式如下:fr(h,t)=‖h+r-t‖2,得分函数的值越小,则三元组成立的可能性越高,反之亦然。
针对知识图谱中的实体向量hs或ts,通过共享向量的形式来表示文本句子中出现的实体指称,从而实现实体与文本间的语义映射。通过高效的实体链接方法,对原始文本信息进行自动化标注处理,主要对输入的句子进行处理实现实体指称的向量标注。去除句子中的所有停用词,构建训练预料词汇表,通过使用word2vec工具进行训练,得到所有的词向量集合V。采用卷积神经网络模型实现文本上下文的词向量嵌入,并根据句子中包含实体指称的差异分别对文本实体向量和文本关系向量进行分类处理。
本发明的文本上下文的词向量嵌入的算法流程如图1所示。
在输入层A1输入文字内容,文字内容例如是“Huazhong University of Scienceand Technology is located in the beautiful city of Wuhan”。
SA2:在词表示层A2,将输入层的例句进行实体的向量标注,去除了句子的所有停用词后,构建训练预期词汇表。即使用word2vec工具在词表示层中训练所有单词向量,将每个单词基于词汇表的向量和句子本身的局部位置特征向量进行局部语义组合,从而在词向量层面提取出句子的局部语义特征。
SA3:在卷积层A3,利用文本卷积网络模型CNN实现了相关文本描述的嵌入向量表示,通过设置滑动窗口将句子的词向量序列局部组合为句子的局部语义特征,并根据句子中包含的实体引用的差异对文本实体向量和关系向量进行分析。
SA4:在输出层A4,通过最大池化操作优化文本表示向量的特征信息,拼接最大值向量,得到卷积神经网络模型训练操作后的文本表示向量,可执行维数矩阵转换操作以获得文本表示向量,完成输出层的操作。
在嵌入文本上下文的词向量后,通过注意力机制模型对指定实体对的不同共现句子进行语义特征组合。在注意力机制模型预测实体对关系r时,根据每个句子与实体对关系的关联程度选择句子中的信息,以不同的权重对不同的句子进行组合。针对句子序列s={x1,x2,…,xn},位置特征是每个单词与实体指称之间的相对位置,可有效表示文本的语义。句子s中的每个词向量xi可由两部分组成,一部分是基于词汇表的单词向量w∈Rk,另一部分是位置特征向量p。句子中每个单词w相对于两个实体指称的位置表示为[d1,d2],其中d1和d2分别表示相对于头尾实体的方向和距离,在注意力机制模型中映射为两个kp维的向量。将距离向量进行首尾拼接可以得到位置特征向量p∈R2*kp。将单词的词向量和位置特征向量进行拼接,可以得到每个单词的向量表示,即xi=[Wi;Pi]。
将包含实体对(h,t)的句子集合记为S(h,t)。其中,S(h,t)=s1,s2,…,sm,表示包含m个句子。对于每一个句子,均可采用本发明提到的卷积神经网络模型编码为一个关系向量O,可选择用隐藏层对其进行维度转换,变成基于知识图谱结构信息的实体关系向量维度,便于分析计算。
优选的,结构表示向量包含结构实体向量和关系向量。根据知识图谱固有的结构实体向量和句子所代表的关系向量表示,计算得到每个句子的注意力权值:其中,t-h是基于知识图谱本身的结构向量表示。假设h+r≈t,用于表示实体对(h,t)之间的潜在关系。通过向量内积的形式可以有效表示每个句子与指定实体对之间的关联权重。Ej表示第j个句子的向量。
将得到的基于三元组结构的结构表示向量与基于文本描述的文本表示向量进行联合学习,得到文本中共现实体的增强表示向量,才能更好地利用外部文本语料信息对现有知识库进行补全。
具体地,针对实体/关系的联合文本向量表示,为了充分考虑到它的结构向量表示和文本向量表示,采用动态参数生成策略。动态参数生成策略为:对于结构相对复杂的知识图谱,其结构性向量表示的权重占比大,对于稀疏领域知识图谱而言,文本性向量表示的占比更大。动态参数生成策略的具体表现形式如下:h=hs·θh+ht·(1-θh),r=rs·θr+rt·(1-θr),t=ts·θt+tt·(1-θt),其中参数θh,θr和θt的值都在[0,1],通过logistic sigmoidfunction计算得到。
参数θh,θr和θt的具体计算公式如下:θ=σ(θ′),其中θ′∈Rk,由结构性变量初始化。在训练过程中,统计与实体或关系的相关联的文本描述数量改变其值,训练结束后的最终值作为联合表示学习模型的权重参数。
通过联合表示学习模型的学习结果可用于知识关联预测和数据智能推理。例如:通常用学习结果表现出来的实验数据判定链路预测或者推理三元组分类是否足够准确。
实施例2
本实施例提供一种本发明还提供了一种文本增强的知识图谱联合表示学习装置,如图2所示,所述装置至少包括:
结构表示向量生成模块,用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
文本表示向量生成模块,用于建立注意力机制模型以对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;
联合表示学习模块,用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。
优选的,本发明中的文本表示向量生成模块、结构表示向量生成模块和联合表示学习模块均可以是专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。
运行结构表示向量生成模块,以执行以下程序:
S11:将知识图谱中的实体与关系数据映射到低维连续向量空间,使含有链接关系的实体表示向量存在一定的计算加和关联性。
优选的,通过翻译模型、文本卷机神器网络模型等将知识图谱中的实体与关系数据映射到低维连续向量空间。
优选的,运行文本表示向量生成模块,以执行以下程序:
建立注意力机制模型以对可靠特征信息的可信度进行区分。其中,
S21:对于包含实体对(h,t)的句子s,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;有利于推理计算得到文本表示向量的关系r向量;
S22:基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。
在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值小于σs的情况下,则判定该向量缺少文本信息,属于不可靠特征信息。在知识图谱中指定向量的候选集合对应的文本向量表示的相似度值不小于σs的情况下,则判定该向量不缺少文本信息,属于可靠特征信息。
选择符合阈值的结构表示向量为文本关系表示向量。
优选的,在执行建立注意力机制模型以对可靠特征信息的可信度进行区分的程序中,还进行的步骤包括:
S23:根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。其中,
建立注意力权重矩阵,基于知识图谱中的结构表示向量和句子的关系向量表示通过所述注意力权重矩阵计算句子的注意力权值,从而将不同句子中的向量聚合得到关联度区分的文本关系表示向量。
文本表示向量生成模块至少包括文本输入模块11、实体标记模块12和文本表示向量模块13。
文本输入模块11用于文字信息的输入或者提取。文本输入模块11可以是具有信息提取、采集、输入功能的任意终端,例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。实体标记模块12和文本表示向量模块13均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。
实体标记模块12基于文本增强的卷积表示学习(TECRL)模型的实体标记方法将文本数据对应的信息标注过程自动化。
其中,运行实体标记模块以执行以下程序:
将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注;
基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征;
基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义。
文本表示向量模块13用于根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。
具体地,运行文本表示向量模块以执行以下程序:
根据注意力机制模型以对可靠特征信息的可信度进行区分。其中,获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。
其中,在注意力机制模型预测实体对关系r时,根据每个句子与实体对关系的关联程度选择句子中的信息,以不同的权重对不同的句子进行组合。针对句子序列s={x1,x2,…,xn},位置特征是每个单词与实体指称之间的相对位置,可有效表示文本的语义。句子s中的每个词向量xi可由两部分组成,一部分是基于词汇表的单词向量w∈Rk,另一部分是位置特征向量p。句子中每个单词w相对于两个实体指称的位置表示为[d1,d2],其中d1和d2分别表示相对于头尾实体的方向和距离,在注意力机制模型中映射为两个kp维的向量。将距离向量进行首尾拼接可以得到位置特征向量p∈R2*kp。将单词的词向量和位置特征向量进行拼接,可以得到每个单词的向量表示,即xi=[Wi;Pi]。
将包含实体对(h,t)的句子集合记为S(h,t),S(h,t)=s1,s2,…,sm,表示包含了m个句子。对于每一个句子,均可采用卷积神经网络编码为一个关系向量O,选择用隐藏层对其进行维度转换,变成基于知识图谱结构信息的实体关系向量维度,便于分析计算。其具体表现形式为:Ei=tanh(WsOi+bs),其中,是一个权重矩阵,而bs∈Rk是一个偏置向量。
根据知识图谱固有的结构实体向量和句子所代表的关系向量表示,计算得到每个句子的注意力权值:其中,t-h是基于知识图谱本身的结构向量表示,假设h+r≈t,用于表示实体对(h,t)之间的潜在关系。通过向量内积的形式可以有效表示每个句子与指定实体对之间的关联权重。可基于实体对相关联的所有句子的向量聚合得到最终的文本表示向量,具体形式如下:
结构表示向量生成模块至少包括知识图谱输入模块21、翻译训练模块22和结构表示向量模块23。
知识图谱输入模块21用于存储、输入或者提取知识图谱中的实体对象及其关系链接。知识图谱输入模块21可以是具有信息提取、采集、输入功能的任意终端,例如移动终端设备、不可移动的计算机设备等等。移动终端设备例如是智能可穿戴设备、手机、平板电脑、能够输入信息的操作平台等。
翻译训练模块22和结构表示向量模块23均可以是具有计算处理功能的专用集成芯片、服务器、服务器群组、云服务器中的一种或几种。
翻译训练模块22内设置有翻译模型TransE。运行翻译训练模块22,执行的程序为:
通过翻译模型TransE的训练方法处理输入的知识图谱,获得了结构化的文本表示形式的向量,同时经翻译模型处理得到对应的三元组结构表示向量。
具体地,假定知识图谱中的所有实体关系向量均处于同一维度,三元组信息的向量表示可看作(hs,rs,ts)。在理想状态下,知识库中已经存在的事实三元组应该满足hs+rs=ts,而不应该存在的错误三元组hs+rs的结果会远离ts。因此翻译模型的训练目标定义一个得分函数,具体形式如下:fr(h,t)=‖h+r-t‖2,得分函数的值越小,则三元组成立的可能性越高,反之亦然。
运行结构表示向量模块23,执行以下程序:
针对知识图谱中的实体向量hs或ts,可通过共享向量的形式来表示文本句子中出现的实体指称,从而实现实体与文本间的语义映射。
运行联合表示学习模块30,执行以下程序:
基于三元组结构的表示向量与基于文本描述的表示向量进行联合学习,得到文本中共现实体的增强表示向量。具体地,采用动态参数生成策略模型h=hs·θh+ht·(1-θh),r=rs·θr+rt·(1-θr),t=ts·θt+tt·(1-θt),进行学习训练。其中参数θh,θr和θt的值都在[0,1]。
优选的,所述装置还包括预测模块40和/或推理模块50。
运行预测模块40,执行的程序为:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测。
运行推理模块50,执行的程序为:基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行数据智能推理。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。
Claims (10)
1.一种文本增强的知识图谱联合表示学习方法,其特征在于,所述方法至少包括:
基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
对可靠特征信息的可信度进行区分并建立注意力机制模型,将不同句子中的向量聚合得到关联度区分的文本表示向量;
建立联合表示学习模型,采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于所述联合表示学习模型进行联合学习。
2.根据权利要求1所述的文本增强的知识图谱联合表示学习方法,其特征在于,所述方法还包括:
所述可靠特征信息是基于卷积神经网络模型学习提取得到的,其中,
基于所述卷积神经网络模型学习表示实体相关文本描述信息,以对结构表示向量进行语义增强。
3.根据权利要求2所述的文本增强的知识图谱联合表示学习方法,其特征在于,基于卷积神经网络模型学习表示实体相关文本描述信息的方法包括:
将知识图谱中的实体关系链接数据与文本进行关联并对同名实体进行自动标注;
基于文本中的词向量集合的上下文关系对文本中的词向量序列进行局部语义组合并提取句子的局部语义特征;
基于卷积神经网络模型对文本中的序列向量进行训练,并且基于非线性激活函数以迭代训练的方式优化句子表示的向量语义。
4.根据权利要求2所述的文本增强的知识图谱联合表示学习方法,其特征在于,对可靠特征信息的可信度进行区分的方法包括:
获取实体对共现的句子集合并提取对应的实体结构表示向量和/或句子临近词向量;
基于句子中实体对的位置特征信息和词序特征信息对指定名称实体进行向量优化,使得同一实体在不同句子中的表示向量存在一定的区分度。
5.根据权利要求4所述的文本增强的知识图谱联合表示学习方法,其特征在于,将不同句子中的向量聚合得到关联度区分的文本表示向量的方法还包括:
根据知识图谱中的结构表示向量的位置特征选择并进行信息重组以构成文本表示向量。
6.根据权利要求5所述的文本增强的知识图谱联合表示学习方法,其特征在于,构成文本表示向量的方法还包括:
建立注意力权重矩阵,
基于知识图谱中的结构实体向量和句子的关系表示向量通过所述注意力权重矩阵计算句子的注意力权值。
7.根据权利要求1~6任一项所述的文本增强的知识图谱联合表示学习方法,其特征在于,所述方法还包括:
设置阈机制对结构表示向量和文本表示向量进行综合加成。
8.根据权利要求7所述的文本增强的知识图谱联合表示学习方法,其特征在于,所述方法还包括:
基于卷积神经网络模型挖掘向量间隐式关联特征,
对知识图谱的缺失关系进行知识关联预测和/或数据智能推理。
9.一种文本增强的知识图谱联合表示学习装置,其特征在于,所述装置至少包括:
结构表示向量生成模块,用于基于知识图谱中的实体对象及其关系链接学习结构向量表示并形成结构表示向量;
文本表示向量生成模块,用于建立注意力机制模型以对可靠特征信息的可信度进行区分,将不同句子中的向量聚合得到关联度区分的文本表示向量;
联合表示学习模块,用于采用动态参数生成策略将所述文本表示向量和所述结构表示向量基于联合表示学习模型进行联合学习。
10.根据权利要求9所述的文本增强的知识图谱联合表示学习装置,其特征在于,所述装置还包括预测模块和/或推理模块,
所述预测模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行知识关联预测;
所述推理模块基于卷积神经网络模型挖掘向量间隐式关联特征,对知识图谱的缺失关系进行数据智能推理。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011235607.XA CN112347268B (zh) | 2020-11-06 | 2020-11-06 | 一种文本增强的知识图谱联合表示学习方法及装置 |
US17/169,869 US11631007B2 (en) | 2020-11-06 | 2021-02-08 | Method and device for text-enhanced knowledge graph joint representation learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011235607.XA CN112347268B (zh) | 2020-11-06 | 2020-11-06 | 一种文本增强的知识图谱联合表示学习方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347268A true CN112347268A (zh) | 2021-02-09 |
CN112347268B CN112347268B (zh) | 2024-03-19 |
Family
ID=74430089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011235607.XA Active CN112347268B (zh) | 2020-11-06 | 2020-11-06 | 一种文本增强的知识图谱联合表示学习方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11631007B2 (zh) |
CN (1) | CN112347268B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051408A (zh) * | 2021-03-30 | 2021-06-29 | 电子科技大学 | 一种基于信息增强的稀疏知识图谱推理方法 |
CN113111224A (zh) * | 2021-03-17 | 2021-07-13 | 中山大学 | 一种基于拓扑感知文本表征的网络嵌入学习方法 |
CN113190688A (zh) * | 2021-05-08 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113220895A (zh) * | 2021-04-23 | 2021-08-06 | 北京大数医达科技有限公司 | 基于强化学习的信息处理方法、装置、终端设备 |
CN113672741A (zh) * | 2021-08-19 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 一种信息的处理方法、装置及设备 |
CN114238524A (zh) * | 2021-12-21 | 2022-03-25 | 军事科学院系统工程研究院网络信息研究所 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
CN114610911A (zh) * | 2022-03-04 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 多模态知识本征表示学习方法、装置、设备及存储介质 |
CN114638231A (zh) * | 2022-03-21 | 2022-06-17 | 马上消费金融股份有限公司 | 实体链接方法、装置及电子设备 |
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401049A (zh) * | 2020-03-12 | 2020-07-10 | 京东方科技集团股份有限公司 | 一种实体链接方法及装置 |
US20230306203A1 (en) * | 2022-03-24 | 2023-09-28 | International Business Machines Corporation | Generating semantic vector representation of natural language data |
CN115146068B (zh) * | 2022-06-01 | 2023-10-03 | 西北工业大学 | 关系三元组的抽取方法、装置、设备及存储介质 |
CN115292504B (zh) * | 2022-09-29 | 2022-12-06 | 北京如炬科技有限公司 | 实体关系分类方法、装置、设备及存储介质 |
CN115952290B (zh) * | 2023-03-09 | 2023-06-02 | 太极计算机股份有限公司 | 基于主动学习和半监督学习的案情特征标注方法、装置和设备 |
CN116049448B (zh) * | 2023-03-31 | 2023-06-16 | 国网冀北电力有限公司 | 基于知识图谱的电能质量扰动识别模型的构建和识别方法 |
CN116108789B (zh) * | 2023-04-12 | 2023-06-30 | 广州智慧城市发展研究院 | 一种模拟电路版图结构化特性表示还原方法及组件 |
CN116401380B (zh) * | 2023-06-07 | 2023-08-11 | 湖北工业大学 | 面向异构知识图谱的对比学习预测方法及系统 |
CN116579631A (zh) * | 2023-07-11 | 2023-08-11 | 中国铁道科学研究院集团有限公司铁道建筑研究所 | 一种隧道施工地质灾害防控智能分析方法及系统 |
CN117034921B (zh) * | 2023-07-26 | 2024-04-05 | 中国海洋大学 | 一种基于用户数据的提示学习训练方法、装置和介质 |
CN117149948A (zh) * | 2023-08-22 | 2023-12-01 | 国家计算机网络与信息安全管理中心 | 基于向量动态扰动的新闻脉络关系检测方法及装置 |
CN117332784A (zh) * | 2023-09-28 | 2024-01-02 | 卓世科技(海南)有限公司 | 一种基于分层图注意力与动态元学习的智能知识增强方法 |
CN117540035B (zh) * | 2024-01-09 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于实体类型信息融合的rpa知识图谱构建方法 |
CN117610562A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合组合范畴语法和多任务学习的关系抽取方法 |
CN117688121B (zh) * | 2024-02-04 | 2024-04-26 | 南京师范大学 | SubGNN注入空间特征的地理知识图谱表示学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
-
2020
- 2020-11-06 CN CN202011235607.XA patent/CN112347268B/zh active Active
-
2021
- 2021-02-08 US US17/169,869 patent/US11631007B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111061843A (zh) * | 2019-12-26 | 2020-04-24 | 武汉大学 | 一种知识图谱引导的假新闻检测方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111224B (zh) * | 2021-03-17 | 2023-08-18 | 中山大学 | 一种基于拓扑感知文本表征的网络嵌入学习方法 |
CN113111224A (zh) * | 2021-03-17 | 2021-07-13 | 中山大学 | 一种基于拓扑感知文本表征的网络嵌入学习方法 |
CN113051408A (zh) * | 2021-03-30 | 2021-06-29 | 电子科技大学 | 一种基于信息增强的稀疏知识图谱推理方法 |
CN113051408B (zh) * | 2021-03-30 | 2023-02-14 | 电子科技大学 | 一种基于信息增强的稀疏知识图谱推理方法 |
CN113220895A (zh) * | 2021-04-23 | 2021-08-06 | 北京大数医达科技有限公司 | 基于强化学习的信息处理方法、装置、终端设备 |
CN113220895B (zh) * | 2021-04-23 | 2024-02-02 | 北京大数医达科技有限公司 | 基于强化学习的信息处理方法、装置、终端设备 |
CN113190688A (zh) * | 2021-05-08 | 2021-07-30 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113190688B (zh) * | 2021-05-08 | 2022-07-19 | 中国人民解放军国防科技大学 | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 |
CN113672741A (zh) * | 2021-08-19 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 一种信息的处理方法、装置及设备 |
CN114238524A (zh) * | 2021-12-21 | 2022-03-25 | 军事科学院系统工程研究院网络信息研究所 | 基于增强样本模型的卫星频轨数据信息抽取方法 |
CN114610911A (zh) * | 2022-03-04 | 2022-06-10 | 中国电子科技集团公司第十研究所 | 多模态知识本征表示学习方法、装置、设备及存储介质 |
CN114610911B (zh) * | 2022-03-04 | 2023-09-19 | 中国电子科技集团公司第十研究所 | 多模态知识本征表示学习方法、装置、设备及存储介质 |
CN114638231A (zh) * | 2022-03-21 | 2022-06-17 | 马上消费金融股份有限公司 | 实体链接方法、装置及电子设备 |
CN114638231B (zh) * | 2022-03-21 | 2023-07-28 | 马上消费金融股份有限公司 | 实体链接方法、装置及电子设备 |
CN114417845A (zh) * | 2022-03-30 | 2022-04-29 | 支付宝(杭州)信息技术有限公司 | 一种基于知识图谱的相同实体识别方法和系统 |
CN115829036A (zh) * | 2023-02-14 | 2023-03-21 | 山东山大鸥玛软件股份有限公司 | 面向文本知识推理模型持续学习的样本选择方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220147836A1 (en) | 2022-05-12 |
CN112347268B (zh) | 2024-03-19 |
US11631007B2 (en) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347268B (zh) | 一种文本增强的知识图谱联合表示学习方法及装置 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110866117B (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN111078889B (zh) | 一种基于多种注意力和改进预训练的药物间关系抽取方法 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN113312501A (zh) | 基于知识图谱的安全知识自助查询系统的构建方法及装置 | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN111522965A (zh) | 一种基于迁移学习的实体关系抽取的问答方法及系统 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN113407660B (zh) | 非结构化文本事件抽取方法 | |
CN111222330B (zh) | 一种中文事件的检测方法和系统 | |
CN111241303A (zh) | 一种大规模非结构化文本数据的远程监督关系抽取方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN111737467A (zh) | 一种基于分段卷积神经网络的对象级情感分类方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |