CN111522961B - 一种基于注意力机制及实体描述的产业图谱构建方法 - Google Patents

一种基于注意力机制及实体描述的产业图谱构建方法 Download PDF

Info

Publication number
CN111522961B
CN111522961B CN202010272951.XA CN202010272951A CN111522961B CN 111522961 B CN111522961 B CN 111522961B CN 202010272951 A CN202010272951 A CN 202010272951A CN 111522961 B CN111522961 B CN 111522961B
Authority
CN
China
Prior art keywords
entity
sentence
corpus
packet
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010272951.XA
Other languages
English (en)
Other versions
CN111522961A (zh
Inventor
熊盛武
陈小英
谢泽丰
陈伟
王盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010272951.XA priority Critical patent/CN111522961B/zh
Publication of CN111522961A publication Critical patent/CN111522961A/zh
Application granted granted Critical
Publication of CN111522961B publication Critical patent/CN111522961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法,基于远程监督的思想使用已有的知识图谱对无标注的语料数据进行产业实体对和产业实体关系的自动标注。在输入端加入语料语句每个词的位置特征,通过卷积层和多段池化层得到包含位置特征的句向量,使用r=e1‑e2来表示实体对之间的关系特征,引入注意力层并计算每个句子在注意力机制下的特征向量。在训练分段卷积神经网络中,以句子实体对与可能存在关系的匹配概率和句子中实体描述特征距离作为目标函数来提高对语料句的标注准确度。通过训练好的模型可以自动标注语料库中的语料数据,从而构建产业图谱。

Description

一种基于注意力机制及实体描述的产业图谱构建方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种产业图谱的构建方法,具体涉及一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法;为知识图谱领域提供了基于产业图谱的语义集成、知识推理等方面提供了技术基础,为宏观经济领域探寻经济运行新规律,提升经济管理和决策水平,完善调控体系,提升政府治理能力、推动政府治理精准化提供提供了技术支持。
背景技术
近年来,人工智能在全球蓬勃发展,其成功离不开知识图谱的贡献。目前知识大量存在于无结构化的文本数据、大量半结构化的表格和网页以及生产系统的结构化数据中。构建知识图谱的主要目的是获取大量的、让计算机可读的知识。当前在知识图谱构建方面,主要方法还是依赖于传统NLP和基于深度学习模型两类方法,利用信息提取技术对中文命名实体关系进行提取,对于复杂的非结构化数据,越来越倾向于使用深度学习来抽取实体间的关系。
虽然深度学习技术在图像和语音方面当前取得了突破性的进展,但应用在文本方面,优化实体抽取方式,提高知识的覆盖率与准确率,跨语言知识融合等方向还有很大发展空间。这一方面受限于自然语言的离散化表示形式;另一方面,在经济等特有领域知识图谱构建过程中,缺乏深度学习依赖的大量标注数据,难以进行大规模实体及关系提取。因此,利用NLP、深度学习、图卷积神经网络等技术,有效利用开放域普通文本数据,研究知识图谱实体和关系提取技术,对构建经济领域知识图谱具有重要意义。
发明内容
本发明针对背景技术中提出的产业领域知识图谱缺乏问题,本发明提供了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法。
本发明所采用的技术方案是:一种基于注意力机制及实体描述的产业图谱构建方法,其特征在于,包括以下步骤:
步骤1:获取无标注的产业领域语料数据并统一存储,获得产业语料库;
步骤2:利用知识图谱中的三元关系组r(e1,e2)将语料数据根据实体对分成多个语料包,记录每个语料包中实体对可能的实体对关系,其中e1和e2代表实体对,r代表实体对的关系;
步骤3:将每个语料包中每条句子的每个词和每个词的位置向量化,将词向量和词位置向量级联后作为分段卷积神经网络的输入;
步骤4:根据实体对位置将句子分割为三段,使用三个最大池对三段语句的特征向量分别进行最大池化后将得到的三个特征向量拼接得到整个句子的特征向量,通过非线性函数得到句子特征向量;
步骤5:在注意力层对语料包中每条句子注意力权值和每条句子特征向量计算加权和,获得实体对所在语料包的特征向量,通过softmax计算得到包中每条句子与实体对每个可能关系的置信度;
步骤6:通过卷积神经网络提取实体描述句子的特征向量,计算每条句子中实体特征向量与实体描述特征向量的距离;
步骤7:以句子中实体对与所有可能关系的置信度概率以及实体特征向量与实体描述特征向量的距离为目标函数,训练分段卷积神经网络;使用训练后的分段卷积神经网络自动标注语料库中语料并使用标注好的语料数据构建产业图谱。
作为优选,步骤1中所述产业领域语料数据包括产业相关企业基本信息及在生产经营情况,产业相关新闻事件,公开发布的产业分析报告,产业结构、产业链材料数据。
作为优选,步骤2中,基于多示例学习的方法论,使用已有的基础知识图谱(如YAGO,WikiData等中文知识图谱)的现存三元关系组,根据已有的三元组中的实体对,在产业语料库中查找包含e1和e2实体对的句子,并将这些句子根据实体对的不同分为不同的包,将语料库中所有语料根据实体对分为若干语料包,每个语料包的标签组是当前预料包实体对所在三元组的所有可能的关系;每个包在包级的关系标签标记为关系r,包内每条句子的关系标签标记为未知。
作为优选,步骤3中,将语料句中每个词通过word2vec方法向量化,得到每个词的词向量;提取每条句子中每个词与每条句子中实体对的相对位置信息,通过编码得到每个词的位置特征向量。
作为优选,步骤4中,通过一个双曲正切的非线性函数来输出句子的特征向量。
作为优选,步骤5中,在注意力层,将实体对关系表示为e1+r≈e2,通过计算得到每条句子的注意力权重。
作为优选,步骤7中,通过训练好的分段卷积神经网络计算语料包中每条句子实体对之间关系与所有可能的关系的置信度,并通过选取置信度最高的关系,标注出语料句子中的实体对和实体对之间置信度最高的关系。
本发明的有益效果在于:本发明提出了一种基于注意力机制及实体描述的分段卷积神经网络的产业图谱构建方法,使用远程监督的方法论,将无标注的语料数据可以通过这种方法自动标注实体对及关系。使用多示例学习方法对语料进行分包,并将语句标注问题转化为同一实体对的语料包中,实体对的关系置信度计算。使用分段卷积神经网络(分段卷积神经网络[PCNN]是一种基于传统卷积网络[CNN]的变种,特征在于经过传统卷积层后,可以对输入的数据进行多段池化。例如传统的CNN网络中输入的变量有n个,经过卷积后获得n个中间值,n个中间值将一同输入池化层进行池化。而在PCNN中,可以对输入的n个变量进行分割,本发明中就是针对句子中的两个实体位置将句子分割为三个部分,因此输入到卷积层的变量为3*n,但在池化层,并非对所有变量一同进行池化,而是针对三段中每一段的n个变量分别进行池化,这种分段池化的特征是区别于传统的CNN的池化层的)来考虑实体对的位置信息,引入注意力机制来增加关系匹配的准确率,使用实体描述信息特征来更好的表示实体。
通过本发明可以有效的解决在图谱构建中对无标注的纯文本语料的关系提取问题。避免人工标注这些训练数据费时昂贵的问题。使用本发明可以通过网络自动标注大规模训练数据,自动获取更多的训练数据来训练模型。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的分段卷积神经网络结构图。
具体实施方案
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明针对背景提出的产业领域知识图谱缺乏问题,在产业图谱构建中对无标注的纯文本语料的关系提取是非常重要的步骤,而训练关系抽取模型往往需要高精度的人工标注语料库数据作为训练集,但是人工标注这些训练数据非常费时昂贵。为了自动获取更多的训练数据训练模型,本发明基于远程监督的方法论,将纯文本与现有知识图谱进行对齐,能够自动标注大规模训练数据。
远程监督的提出主要基于以下假设:两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。该方法的具体步骤是1、从已有知识库中抽取存在关系的实体对2、从非结构化文本中抽取含有实体对的句子作为训练样例。
远程监督的方法虽然从一定程度上减少了模型对人工标注数据的依赖,但该类方法也存在明显的缺点:1、假设过于肯定,难免引入大量的噪声数据。2、数据构造过程依赖于NER等NLP工具,中间过程出错会造成错误传播问题。
本发明基于注意力机制及实体描述的分段卷积神经网络对无标注的产业领域语料进行关系提取,获取实体关系三元组,并构建成产业领域的知识图谱。
请见图1、图2,本发明提供的一种基于注意力机制及实体描述的产业图谱构建方法,包括以下步骤:
步骤1:获取无标注的产业领域语料数据并统一存储,获得产业语料库;
本实施例从百度百科、维基中国等爬取产业领域的语料,包括产业相关企业基本信息及在生产经营情况,产业相关新闻事件,从有关部门或行业协会获取的公开发布的产业分析报告,产业结构、产业链材料等相关语料数据,通过一定的命名规则存储到语料库中。产业语料库是构建图谱的基础,规范的产业图谱语料库可以便于后续对语料数据的训练及产业图谱的构建。
步骤2:利用知识图谱中的三元关系组r(e1,e2)将语料数据根据实体对分成多个语料包,记录每个语料包中实体对可能的实体对关系,其中e1和e2代表实体对,r代表实体对的关系;
本实施例基于多示例学习的思想,将之应用到无标注语料的实体关系标注问题中,使用已有的中文知识图谱对语料库中无标注的纯文本句子进行分包,分包操作的原理在于,通过在已有的中文知识图谱(如YAGO,WikiData等中文知识图谱)中发现的三元关系组r(e1,e2),其中e1和e2代表实体对,r代表实体对的关系。在产业语料库中查找包含e1和e2实体对的句子,并将这些句子根据实体对的不同分为不同的包。每个包在包级的关系标签标记为关系r,包内每条句子的关系标签标记为未知。
步骤3:将每个语料包中每条句子的每个词和每个词的位置向量化,将词向量和词位置向量级联后作为分段卷积神经网络的输入;
本实施例通过word2vec将各包中的语料句子的每个词向量化,得到词向量w。提取语料句子中每个词与句子中出现的实体对相对位置特征信息,对句子中每个词与句子中出现的实体对(e1,e2)的相对位置进行组合,每个词都有两个位置信息,分为是距离实体e1的位置、距离实体e2的位置。并将相对位置信息组合向量化,得到PF1及PF2。其中PF1和PF2分别对应每个词相对实体e1和实体e2的相对位置。编码后得到每个词的位置特征向量。将句子每个词的词向量与位置向量级联后作为分段卷积神经网络的输入。
步骤4:根据实体对位置将句子分割为三段,使用三个最大池对三段语句的特征向量分别进行最大池化后将得到的三个特征向量拼接得到整个句子的特征向量,通过非线性函数得到句子特征向量;
本实施例中,根据句中实体对位置将句子分割为三段,将输入向量卷积化,获得卷积结果矩阵C,计算如公式1所示,其中cij为矩阵C中的元素,W代表卷积神经网络的权重矩阵,q代表每个句子的句向量,s代表句子条数,n代表过滤层层数,w代表过滤层长度,i与j的取数范围为1≤i≤n,1≤j≤s+w-1,需要特别说明的是,当取的向量q不存在时,会以一个零向量代替。
cij=Wiqj-w+1:j   公式1
根据句子中(e1,e2)实体对的位置,将句子分为三段,在经过卷积层后一句话可以获得的三个向量{ci1,ci2,ci3},并在分段最大池中,使用公式2将一句话的三段向量计算获得一个最终的句子特征向量p。
pij=max(cij)   公式2
将最大池化后的向量通过一个双曲正切的非线性函数来输出句子的特征向量,计算过程如公式3所示。使用卷积和分段最大池化以及非线性函数得到句子的特征向量。
b=tanh(p1:n)   公式3
其中,1:n代指的是从1到n进行计算,其中pi是一个三维向量,存在关系pi={pi1,pi2,pi3},对应公式2中计算得到的向量pij
步骤5:在注意力层对语料包中每条句子注意力权值和每条句子特征向量计算加权和,获得实体对所在语料包的特征向量,通过softmax计算得到包中每条句子与实体对每个可能关系的置信度;
本实施例中,要进行包级特征向量计算,首先需要计算注意力权值。在注意力层,将实体对关系表示为e1+r≈e2,可以得到vrelation=e1-e2,通过公式4及公式5计算每个句子的注意力权值。ba是偏差权重矩阵。n是句子数量。Wa是一个权重矩阵。可以通过注意力权值与句特征向量的乘积计算得到加入注意力机制的句向量。可以通过公式6计算得到每个实体对包级的包特征向量。通过softmax计算语料包中每条句子与每个包标签之间的置信度。通过公式7得到网络输出向量,通过公式8计算置信度,公式8中θ=(E,W,PF1,PF2,Wa,Ws),其中E表示使用skip-gram方法对单词进行向量化获得的词向量;W代表公式1中的过滤层网络权重矩阵;其中PF1和PF2分别对应每个词相对实体e1和实体e2的相对位置(详见步骤三);Wa代表中间矩阵,在公式4中用于调整向量维数,以便公式4中得到的数值可用于公式5进行注意力权值的运算;Ws是一个权重矩阵;b是加入注意力机制的包的特征向量,bs是偏差矩阵;从公式7中计算得到的向量o代指获得注意力机制后的句向量,用于后续softmax的计算;B表示bag;p(ri|B;θ)代指第i个关系的条件概率。公式7中需要特别注明的是,
Figure BDA0002443754880000061
Figure BDA0002443754880000062
从而有
Figure BDA0002443754880000063
因此在公式8中的累加是j=1累加到n0
Figure BDA0002443754880000064
Figure BDA0002443754880000065
Figure BDA0002443754880000066
Figure BDA0002443754880000067
Figure BDA0002443754880000068
其中Ws是一个权重矩阵,b是加入注意力机制的包的特征向量,bs是偏差矩阵。
Figure BDA0002443754880000071
Figure BDA0002443754880000072
Figure BDA0002443754880000073
Figure BDA0002443754880000074
Figure BDA0002443754880000075
步骤6:通过卷积神经网络提取实体描述句子的特征向量,计算实体特征向量与实体描述特征向量的距离;本步骤中计算的并非是每条句子中的实体特征向量,而是在独立于纯文本内容的实体描述句子,是针对实体可能具有多种含义的情况。详细结构可见图1。
本实施中,通过一个常规的卷积神经网络对实体描述特征进行提取,获得实体描述向量di,使用公式9计算实体向量与实体描述向量的距离。
Figure BDA0002443754880000076
公式9表示纯文本中实体的特征向量与实体描述句子中实体的特征向量的距离。其中D={(ei-di)|i=1,…,|D|},|D|表示的是实体具有描述含义的数量。例如苹果,可以代指苹果水果,也可以代指苹果公司。如果仅有两条对苹果实体的描述语句,|D|为2
步骤7:以句子中实体对与所有可能关系的置信度概率以及实体特征向量与实体描述特征向量的距离为目标函数,训练分段卷积神经网络;使用训练后的分段卷积神经网络自动标注语料库中语料并使用标注好的语料数据构建产业图谱。
本实施例中,使用公式10对句级注意力的分段卷积神经网络进行训练,并以公式11作为训练目标。其中W是所有训练句子特征向量中的权重矩阵,Wa是注意力层的权重矩阵,Ws是计算softmax中的权重矩阵,E是词向量,PF1与PF2分别是词相对于实体对e1和e2的位置向量。训练句子层面注意力的分段卷积神经网络,使用该网络模型对语料库中无标注的语料数据进行远程监督自动标注。并使用有标注的语料数据构建得到产业图谱。
Figure BDA0002443754880000077
min L=LA+λLe   公式11
本实施例基于远程监督的思想使用已有的知识图谱对无标注的语料数据进行产业实体对和产业实体关系的自动标注。在输入端加入语料语句每个词的位置特征,通过卷积层和多段池化层得到包含位置特征的句向量,使用r=e1-e2来表示实体对之间的关系特征,引入注意力层并计算每个句子在注意力机制下的特征向量。在训练分段卷积神经网络中,以句子实体对与可能存在关系的匹配概率和句子中实体描述特征距离作为目标函数来提高对语料句的标注准确度。通过训练好的模型可以自动标注语料库中的语料数据,从而构建产业图谱。
应当理解的是,本说明书未详细阐述的部分均属于现有技术;上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于注意力机制及实体描述的产业图谱构建方法,其特征在于,包括以下步骤:
步骤1:获取无标注的产业领域语料数据并统一存储,获得产业语料库;
步骤2:利用知识图谱中的三元关系组r(e1,e2)将语料数据根据实体对分成多个语料包,记录每个语料包中实体对可能的实体对关系,其中e1和e2代表实体对,r代表实体对的关系;
步骤3:将每个语料包中每条句子的每个词和每个词的位置向量化,将词向量和词位置向量级联后作为分段卷积神经网络的输入;
步骤4:根据实体对位置将句子分割为三段,使用三个最大池对三段语句的特征向量分别进行最大池化后将得到的三个特征向量拼接得到整个句子的特征向量,通过非线性函数得到句子特征向量;
步骤5:在注意力层对语料包中每条句子注意力权值和每条句子特征向量计算加权和,获得实体对所在语料包的特征向量,通过softmax计算得到包中每条句子与实体对每个可能关系的置信度;
步骤6:通过卷积神经网络提取实体描述句子的特征向量,计算每条句子中实体特征向量与实体描述特征向量的距离;
步骤7:以句子中实体对与所有可能关系的置信度概率以及实体特征向量与实体描述特征向量的距离为目标函数,训练分段卷积神经网络;使用训练后的分段卷积神经网络自动标注语料库中语料并使用标注好的语料数据构建产业图谱。
2.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤1中所述产业领域语料数据包括产业相关企业基本信息及在生产经营情况,产业相关新闻事件,公开发布的产业分析报告,产业结构、产业链材料数据。
3.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤2中,基于多示例学习的方法论,使用已有的基础知识图谱的现存三元关系组,根据已有的三元组中的实体对,在产业语料库中查找包含e1和e2实体对的句子,并将这些句子根据实体对的不同分为不同的包,将语料库中所有语料根据实体对分为若干语料包,每个语料包的标签组是当前预料包实体对所在三元组的所有可能的关系;每个包在包级的关系标签标记为关系r,包内每条句子的关系标签标记为未知。
4.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤3中,将语料句中每个词通过word2vec方法向量化,得到每个词的词向量;提取每条句子中每个词与每条句子中实体对的相对位置信息,通过编码得到每个词的位置特征向量。
5.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤4中,通过一个双曲正切的非线性函数来输出句子的特征向量。
6.根据权利要求1所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤5中,在注意力层,将实体对关系表示为e1+r≈e2,通过计算得到每条句子的注意力权重。
7.根据权利要求1-6任意一项所述的基于注意力机制及实体描述的产业图谱构建方法,其特征在于:步骤7中,通过训练好的分段卷积神经网络计算语料包中每条句子实体对之间关系与所有可能的关系的置信度,并通过选取置信度最高的关系,标注出语料句子中的实体对和实体对之间置信度最高的关系。
CN202010272951.XA 2020-04-09 2020-04-09 一种基于注意力机制及实体描述的产业图谱构建方法 Active CN111522961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010272951.XA CN111522961B (zh) 2020-04-09 2020-04-09 一种基于注意力机制及实体描述的产业图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010272951.XA CN111522961B (zh) 2020-04-09 2020-04-09 一种基于注意力机制及实体描述的产业图谱构建方法

Publications (2)

Publication Number Publication Date
CN111522961A CN111522961A (zh) 2020-08-11
CN111522961B true CN111522961B (zh) 2023-04-07

Family

ID=71911690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010272951.XA Active CN111522961B (zh) 2020-04-09 2020-04-09 一种基于注意力机制及实体描述的产业图谱构建方法

Country Status (1)

Country Link
CN (1) CN111522961B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559765B (zh) * 2020-12-11 2023-06-16 中电科大数据研究院有限公司 一种多源异构数据库语义集成方法
CN113032496A (zh) * 2021-04-19 2021-06-25 北京华数云网科技有限公司 一种基于产业知识图谱的产业大脑数据分析系统
CN114781471B (zh) * 2021-06-02 2022-12-27 清华大学 一种实体记录匹配方法及系统
CN113312500B (zh) * 2021-06-24 2022-05-03 河海大学 一种面向大坝安全运行的事件图谱构建方法
CN116703441A (zh) * 2023-05-25 2023-09-05 云内控科技有限公司 一种基于知识图谱的医疗项目成本核算可视分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN109220226A (zh) * 2018-10-31 2019-01-18 哈尔滨理工大学 果实自动识别分类及采摘的果园智能化系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959328A (zh) * 2017-05-27 2018-12-07 株式会社理光 知识图谱的处理方法、装置及电子设备
CN109220226A (zh) * 2018-10-31 2019-01-18 哈尔滨理工大学 果实自动识别分类及采摘的果园智能化系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
熊盛武 等.基于可信向量的知识图谱上下文感知表示学习.《武汉大学学报(理学版)》.2019,全文. *

Also Published As

Publication number Publication date
CN111522961A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111522961B (zh) 一种基于注意力机制及实体描述的产业图谱构建方法
CN111241279B (zh) 一种基于多任务学习机制的自然语言关系抽取方法
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN113312501A (zh) 基于知识图谱的安全知识自助查询系统的构建方法及装置
CN112182191B (zh) 多轮口语理解的结构化记忆图网络模型
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN109271632B (zh) 一种监督的词向量学习方法
CN113488196A (zh) 一种药品说明书文本命名实体识别建模方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN108647254B (zh) 基于模式嵌入的自动树库转化方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN111507103A (zh) 一种利用部分标注集的自训练神经网络分词模型
CN116644757A (zh) 一种融合句法和语义表示的属性抽取方法
CN116629244A (zh) 融合理解与生成的文档级事件抽取方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant