CN112069823A - 信息处理方法和装置 - Google Patents

信息处理方法和装置 Download PDF

Info

Publication number
CN112069823A
CN112069823A CN202010980519.6A CN202010980519A CN112069823A CN 112069823 A CN112069823 A CN 112069823A CN 202010980519 A CN202010980519 A CN 202010980519A CN 112069823 A CN112069823 A CN 112069823A
Authority
CN
China
Prior art keywords
vector
module
coding
decoding
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010980519.6A
Other languages
English (en)
Other versions
CN112069823B (zh
Inventor
蔡华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unidt Technology Shanghai Co ltd
Original Assignee
Unidt Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unidt Technology Shanghai Co ltd filed Critical Unidt Technology Shanghai Co ltd
Priority to CN202010980519.6A priority Critical patent/CN112069823B/zh
Publication of CN112069823A publication Critical patent/CN112069823A/zh
Application granted granted Critical
Publication of CN112069823B publication Critical patent/CN112069823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种信息处理装置和方法,其中,所述方法包括对嵌入的向量进行编码处理得到编码向量;将所述编码向量的部分向量进行向量重新嵌入;将所述编码向量进行迭代解码和排序过滤处理;将所述迭代解码和排序过滤处理后的表示向量进行部分向量的重新嵌入。因此,本发明实施例通过特征编码模块和排序过滤模块的联合作用,利用特征编码的返回重用,并且不断对编码后的信息不断打分排序,实现特征编码对输入数据模块的高质量反馈。

Description

信息处理方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种信息处理方法和装置。
背景技术
从非结构化文本中提取关系三元组(实体-关系-实体)是构建大规模知识图的关键。通常,早期的信息抽取将实体抽取和关系抽取看作串联的任务,这样的串联模型在建模上相对更简单,但这样将实体识别和关系抽取当作两个独立的任务明显会存在以下缺点,1.实体冗余,由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率、增加计算复杂度。2.交互缺失,忽略了这两个任务之间的内在联系和依赖关系,从而导致关系抽取任务的结果严重依赖于实体抽取的结果,导致误差累积的问题。
针对上述串联模型明显存在的一些问题,近年来有许多工作考虑将实体识别与关系抽取任务进行联合建模。目前联合抽取模型总体上可分为两大类:1、共享参数的联合抽取模型,2、联合解码的联合抽取模型。
其中,共享参数的联合抽取模型,通过共享参数(共享输入特征或者内部隐层状态)实现联合,此种方法对子模型没有限制,但是由于使用独立的解码算法,导致实体模型和关系模型之间交互不强。
为了加强实体模型和关系模型的交互,联合解码的联合抽取模型被提出来。但是,这种情况下需要对子模型特征的丰富性以及联合解码的精确性之间做权衡:一方面如果设计精确的联合解码算法,往往需要对特征进行限制,例如用条件随机场建模,使用维特比解码算法可以得到全局最优解,但是往往需要限制特征的阶数,导致降低子模型特征的丰富性。另一方面如果使用近似解码算法,比如集束搜索,在特征方面可以抽取任意阶的特征,但是联合解码得到的结果是不精确的。
发明内容
本发明提供一种信息处理方法和装置,能够通过联合抽取模型训练过程中句子的迭代记忆,也可以通过知识图谱的更新进行迭代记忆,实现信息抽取准确率不断提升的良性循环的功能;并且还能够实现了端到端的实体及实体关系(属性)联合抽取,加强了实体和关系(属性)之间的信息交互。
本发明提供一种信息处理装置,包括数据嵌入模块、特征编码模块和排序过滤模块,其中
所述数据嵌入模块,用于向量的嵌入,并将嵌入的向量发送给所述特征编码模块进行编码处理;
所述特征编码模块,用于对所述数据嵌入模块嵌入的向量进行编码处理得到编码向量,并将所述编码向量部分反馈给所述数据嵌入模块进行向量的嵌入,以及将所述编码向量输出给所述排序过滤模块进行处理;
所述排序过滤模块,用于对所述特征编码模块输出的编码向量进行迭代解码和排序过滤处理,并将迭代解码和排序过滤处理后的表示向量部分发送给所述数据嵌入模块进行向量的嵌入;
所述嵌入的向量包括所述特征编码模块反馈的编码向量和所述排序过滤模块处理后反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
可选地,所述数据嵌入模块,具体还用于:对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层,并发送给所述特征编码模块。
可选地,所述排序过滤模块包括:
迭代解码单元:用于对所述特征编码模块输出的编码向量进行迭代解码处理,并将迭代解码处理后的表示向量发送给打分单元;
打分单元:用于通过打分函数对所述表示向量进行置信度计算;
过滤单元:用于根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较,并将相似度小于相似度阈值的表示向量发送给控制开关;
控制开关:用于控制所述过滤单元过滤后的表示向量发送给所述数据输入模块进行向量的嵌入;以及控制所述特征编码模块输出的编码向量直接进入特征解码模块进行特征解码。
可选地,所述的装置还包括:
特征解码模块,用于将排序过滤模块处理后的表示向量经过自注意力机制进行序列变换,将序列变换后的解码向量经过神经网络模型进行解码并输出。
可选地,所述的装置还包括:
更新辅助模块,用于将所述特征解码模块输出的解码向量更新知识图谱,并将更新后的知识图谱发送给所述数据嵌入模块。
本发明实施例还提供一种信息处理方法,包括:
对嵌入的向量进行编码处理得到编码向量;
将所述编码向量的部分向量进行向量重新嵌入;
将所述编码向量进行迭代解码和排序过滤处理;
将所述迭代解码和排序过滤处理后的表示向量进行部分向量的重新嵌入。
所述嵌入的向量包括所述特征编码模块部分反馈的编码向量和所述排序过滤模块处理后部分反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
可选地,将所述编码向量进行向量的嵌入包括:
对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层。
可选地,将所述编码向量进行迭代解码和排序过滤处理包括:
对所述编码向量进行迭代解码处理;
通过打分函数对所述迭代解码处理后的表示向量进行置信度计算;
根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较;
将相似度小于相似度阈值的表示向量重新组合进行向量的嵌入;
控制所述特征编码模块输出的编码向量直接进入特征解码模块进行特征解码。
可选地,将所述编码向量进行迭代解码和排序过滤处理之后还包括:
将排序过滤处理后的表示向量通过自注意力机制进行序列变换,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量。
可选地,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量之后还包括:
根据所述输出的解码向量更新知识图谱,以使向量嵌入时使用更新后的知识图谱。
本发明实施例所述的装置具有可迭代记忆功能,首先是通过特征编码模块和排序过滤模块的联合作用,利用特征编码的返回重用,并且不断对编码后的信息不断打分排序,实现特征编码对输入数据模块的高质量反馈。其次,还可以通过解码向量(即三元组信息:头实体,关系和尾实体)输出后,通过更新辅助实现训练过程中对知识图谱的更新,再通过远程监督实现对输入数据的扩充,加入记忆信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的信息处理装置结构示意图;
图2为本发明另一实施例提供的信息处理系统功能结构示意图;
图3为本发明实施例中数据嵌入模块的向量组成图;
图4为本发明实施例中特征编码模块对嵌入的向量进行编码的功能示意图;
图5为本发明实施例中排序过滤模块的构成示意图;
图6为本发明实施例中排序过滤模块中解码部分第i步迭代过程示意图;
图7为本发明实施例中特征编码模块解码过程示意图;
图8为本发明另一实施例提供的信息处理方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
图1为本发明一实施例提供的信息处理装置结构示意图,如图1所示,包括:数据嵌入模块11、特征编码模块12和排序过滤模块13,其中
数据嵌入模块11,用于向量的嵌入,并将嵌入的向量发送给所述特征编码模块进行编码处理;
特征编码模块12,用于对所述数据嵌入模块嵌入的向量进行编码处理得到编码向量,并将所述编码向量部分反馈给所述数据嵌入模块进行向量的嵌入,以及将所述编码向量输出给所述排序过滤模块进行处理;
排序过滤模块13,用于对所述特征编码模块输出的编码向量进行迭代解码和排序过滤处理,并将迭代解码和排序过滤处理后的表示向量部分发送给所述数据嵌入模块进行向量的嵌入;
所述嵌入的向量包括所述特征编码模块反馈的编码向量和所述排序过滤模块处理后反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
需要说明的是特征编码模块12,是部分反馈编码向量给数据嵌入模块11进行向量的嵌入,具体地,是对编码后的信息随机采样,得到几组三元组(头实体,关系,尾实体)信息,主要是为了提供高层语义信息,然后反馈回去给数据嵌入模块将编码向量(编码特征)进行融合,随着模型训练时间增加和迭代次数增加,会逐步采样到句子中的所有实体信息。
需要说明的是排序过滤模块13也是将迭代解码和排序过滤处理后的表示向量(或者抽取信息)部分发送给数据嵌入模块11进行向量的嵌入,即过滤后的数据,是为了减少冗余的抽取信息和错误的抽取信息。
其中,数据嵌入模块11具体在嵌入向量时的具体实现方式还包括:对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层,并发送给所述特征编码模块。
需要说明的是数据嵌入模块11,主要用于形成嵌入向量,这里的嵌入向量包括字词混合的嵌入向量(包括字向量、词向量),对位置信息的嵌入向量,还有特征编码模块12反馈回来的向量,这些向量要实现融合形成一个整体作为特征编码模块的输入。
其中数据嵌入模块11融合嵌入向量时涉及到两个方面的问题,一是怎么得到嵌入向量,二是怎么将这些嵌入向量进行融合。对于第一个问题怎么得到嵌入向量,可以使用预训练的字向量或词向量(Word2Vect,FastText,GloVe等算法均可以实现),也可以使用随机初始化的方法;对于第二个问题怎么将这些嵌入向量进行融合,有多种方法实现向量的融合,在不考虑批次的情况下,比如说字词混合向量的形状是length*dim1(length为句子长度,dim为维度),相对位置的嵌入向量为length*dim2,反馈回来的向量是length*dim3,一种简单的方法是将向量直接相加融合,首先需要通过乘以一个变换矩阵将向量变成一样维度dim,最后他们的元素相加融合为length*dim。另外一种方法是将向量进行维度方向的拼接,将维度扩大,最后融合成length*(dim1+dim2+dim3),其中反馈回来的向量可以当作为高质量的先验信息。
其中,排序过滤模块13包括:
迭代解码单元131:用于对所述特征编码模块输出的编码向量进行迭代解码处理,并将迭代解码处理后的表示向量发送给打分单元,这里的表示向量也就是对解码后的信息进行表示形成的向量,因为迭代解码后是文本信息,是三元组信息;
打分单元132:用于通过打分函数对所述表示向量进行置信度计算;
过滤单元133:用于根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较,并将相似度小于相似度阈值的表示向量发送给控制开关;
需要说明的是,这里的置信度其实是抽取出来三元组(头实体,关系,尾实体)的概率值;
这里相似度计算主要为了消除信息的冗余性,因为选择出来的表示向量(抽取信息)包含头实体、尾实体以及他们的关系。在向量空间中,两个对象之间的距离越近,说明它们的语义相似度越高.所以对于选择出来的表示向量(抽取信息),可以计算他们之间的距离来得到相似度,而这里只涉及两两比较,这里可以用训练好的TransE系列模型进行相似度计算,其得分函数可以为∥h+r-t∥2h,r,t分别为头实体,关系和尾实体的表示向量,其表示在向量空间中头实体经过关系转换之后与尾实体之间的欧氏距离。
控制开关134:用于控制所述过滤单元过滤后的表示向量发送给所述数据输入模块进行向量的嵌入;以及控制所述特征编码模块输出的编码向量直接进入特征解码模块14进行特征解码。
其中,当排序过滤模块13的解码部分解码出来的头实体从句子头开始逐步迭代到了句子尾时,即遇到迭代结束标志,也就是说解码出来的头实体位置从句首到了句尾。这时候,控制开关134将特征编码模块12输出的编码向量直接进入特征解码模块14进行特征解码,迭代结束前,对编码向量进入解码模块是阻断的。
可选地,本发明实施例所述装置还包括特征解码模块14,用于将排序过滤模块13处理后的表示向量经过自注意力机制进行序列变换,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量。
可选地,本发明实施例所述装置还包括更新辅助模块15,用于将所述特征解码模块输出的解码向量更新知识图谱,并将更新后的知识图谱发送给所述数据嵌入模块。
本发明实施例所述的装置具有可迭代记忆功能,首先是通过特征编码模块和排序过滤模块的联合作用,利用特征编码的返回重用,并且不断对编码后的信息不断打分排序,实现特征编码对输入数据模块的高质量反馈。其次,还可以通过解码向量(即三元组信息:头实体、关系和尾实体)输出后,通过更新辅助实现训练过程中对知识图谱的更新,再通过远程监督实现对输入数据的扩充,加入记忆信息。因此,能够通过联合抽取模型训练过程中句子的迭代记忆,也可以通过知识图谱的更新进行迭代记忆,实现信息抽取准确率不断提升的良性循环的功能;并且还能够实现了端到端的实体及实体关系(属性)联合抽取,加强了实体和关系(属性)之间的信息交互。
图2为本发明另一实施例提供的信息处理系统功能结构示意图,如图2所示,包括:数据嵌入模块,特征编码模块,排序过滤模块,特征解码模块和辅助更新模块.
该系统具有可迭代记忆的信息联合抽取的功能,通过可迭代记忆的反馈网络,形成信息联合抽取的闭环,不断提高端到端的信息抽取能力。
为了实现系统中的可迭代记忆功能,首先是通过特征编码模块和排序过滤模块的联合作用,利用特征编码的重用(编码向量的反馈),并且不断对编码后的信息不断打分排序,实现特征编码对输入数据模块的高质量反馈。其次,还可以通过三元组信息(头实体、关系和尾实体输出后,通过辅助更新模块实现训练过程中对知识图谱的更新,再通过远程监督实现对输入数据的扩充,加入记忆信息。
其中,数据嵌入模块的向量组成如图3所示,主要实现对输入数据进行字词混合的向量(包括字向量、词向量)嵌入,对位置信息的向量嵌入,以及对特征编码模块反馈的向量嵌入,并且将这些嵌入向量进行相加融合。其中,位置信息包括尾实体的位置信息、头实体的位置信息以及尾实体相对于头实体的相对位置,然后根据尾实体相对于头实体的相对位置,编码得到位置编码向量,将得到的位置编码向量与前述的固定维度大小的编码向量进行拼接,形成新的编码向量;
在数据嵌入模块中,为了最大程度上避免边界切分出错,需选择字标注的方式,即以字为基本单位进行输入。但是,单纯的字嵌入向量难以储存有效的语义信息,即单个字会有语义缺失问题,为了有效地融入语义信息,选择字词混合的向量嵌入方式。位置信息是有一定的价值的,比如头实体通常出现在句子前半部分,又比如尾实体通常出现在头实体附近。加入位置信息的一个有效信息是位置向量嵌入。对特征编码模块输出向量的嵌入,实现编码向量的重用,并且通过迭代不断提高嵌入向量的质量。
对于字词混合嵌入。首先,我们输入以字为单位的文本序列,经过一个字嵌入层后得到字向量序列;然后,将文本分词,通过一个预训练好的Word2Vec模型来提取对应的词向量,将每个词的词向量重复词长度的次数,进而得到对齐的词向量序列;接着,将词向量序列经过一个矩阵变换到跟字向量一样的维度,并将两者相加。在模型训练过程中,字向量使用随机初始化的字嵌入层,固定Word2Vec词向量不变,只优化变换矩阵和字向量,通过字向量和变换矩阵对Word2Vec的词向量进行微调。这样既可以融合预训练词向量模型所带来的先验语义信息,又可以保留了字向量的灵活性。
对于位置向量嵌入。首先,根据设定的句子最大长度,全零初始化一个新的嵌入层(维度跟字向量维度一样),然后,传入位置向量,得到对应的位置嵌入信息输出,并把这个位置嵌入向量与前面的字词混合嵌入向量相加。
对于特征编码模块反馈的向量嵌入。对于特征编码模块的输出编码向量进行维度变换,得到一个固定维度大小的向量,同时,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,将得到的位置编码向量与前述的固定维度大小的编码向量进行拼接,形成新的编码向量。之后与字词混合向量,位置向量共用融入到同一个嵌入层,传入到特征编码模块中
其中,特征编码模块对嵌入的向量进行编码的功能示意图,如图4所示,为了提取输入数据的高层语义信息,采用深度神经网络结构进行编码,例如基于注意力机制的Transfomer结构或者具有较大视野的膨胀门卷积(Dilate Gated Convolution NeuralNetwork)结构,同时还可以加入残差结构,实现信息的选择性多通道传输。
其中,排序过滤模块是为了减少冗余的抽取信息和错误的抽取信息,排序过滤模块的构成如图5所示,主要包含迭代的解码部分,打分函数,过滤函数和控制开关。
对于特征编码模块输出的向量,不能简单的将这些向量输入到解码模块中,因为这还是一些带有冗余信息和噪声的数据。需要将抽取出来的信息通过一个打分函数进行排序和过滤,选出质量相对好的数据,进而减少数据冗余和累计误差。其中过滤流程为,对于所有抽取出来的三元组信息,通过打分函数选择出较高置信度的三元组,同时,与其他已经选择出来的三元组具有较小的相似度,最后通过过滤函数得到选择的三元组信息
解码部分主要是为了实现一个句子可以产生不同多样的抽取结果。图6为排序过滤模块中解码部分第i步迭代过程示意图,其下一个抽取的结果与其之前抽取出来的结果都有关系,其中用到了可迭代的记忆网络,每一个抽取出来三元组信息的结果都会存储起来,所以下一次迭代抽取时,都会参考之前抽取出来的结果,得到哪些三元组已经产生了的信息。因此,第i步抽取会将之前1,…,i-1步抽取出来的信息进行拼接,并且将拼接后的信息作为输入,这个过程会不断迭代,直至遇到抽取结束标志。
控制开关部分,可以控制过滤信息和控制编码向量。其一,可以控制过滤后的信息以数据重组的方式重新反馈到数据输入模块进行下一步迭代;其二,控制编码向量直接进入特征解码模块进行特征解码。
在特征编码模块中,其主要学习输入序列的表示,捕捉其特征或上下文信息,并且输出编码向量。对于特征解码模块,其接受编码向量,并从中学习读取、提取(解码),输出序列。特征编码模块解码过程示意图如图7所示:首先,编码向量序列经过注意力网络,对编码向量进行序列变换,突出序列中重要信息;接着,将变换后的向量序列,经过序列神经网络模型进行解码;然后,解码后的向量会进入输出层,该输出层会根据当前时间步的隐层状态生成预测值及其概率分布,对于多任务的信息联合抽取,解码模块的输出端会根据任务类型选择不同的解码方式,比如关系类型解码会选择全连接这种分类网络,实体解码会选择条件随机场这种标注网络。
对于知识图谱辅助训练部分,首先是利用少量标注的文本句子,结合已有的图谱加入先验特征,当一个训练数据(句子)输入时,从这个知识库中进行远程监督式的搜索(指一个句子的某两个实体刚好是知识库的某个三元组的头实体和尾实体,那么就把这个三元组抽取出来作为一个候选三元组),即只根据检索的方式,抽取出这个句子的一些候选三元组,之后将远程监督的结果作为特征向量传入到模型中。
更新辅助模块中包含全局实体评估部分,全局关系检测部分以及全局关系存在性判断部分。这个更新辅助模块不参与训练,仅仅为一些超参数的组合。在联合抽取模型训练过程中,通过该模块对知识图谱的更新操作,可以更好的实现实体及其关系和属性的长期可迭代记忆。
本发明实施例所示系统中的网络为一个带有反馈结果的可迭代记忆的学习结构,能够通过联合抽取模型训练过程中句子的迭代记忆,也可以通过知识图谱的更新进行迭代记忆,实现系统抽取准确率不断提升的良性循环的功能;
其次,系统中的网络结构实现了端到端的实体及实体关系(属性)联合抽取,加强了实体和关系(属性)之间的信息交互;该系统可以在信息抽取训练过程中,通过更新辅助模块,实现知识图谱的自动更新,形成联合信息抽取的一个闭环。该系统中网络结构,融合了深度学习,实现了信息的自动化智能抽取,为知识图谱的自动化构建奠定了基础。
图8为本发明另一实施例提供的信息处理方法的流程示意图,如图8所示,包括:
101、对嵌入的向量进行编码处理得到编码向量;
102、将所述编码向量的部分向量重新进行向量的嵌入;
同时
103、将所述编码向量进行迭代解码和排序过滤处理;
具体地,本步骤将所述编码向量进行迭代解码和排序过滤处理过程包括:
对所述编码向量进行迭代解码处理;
通过打分函数对所述迭代解码处理后的表示向量进行置信度计算;
根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较;
将相似度小于相似度阈值的表示向量重新组合进行向量的嵌入;
控制所述特征编码模块输出的编码向量直接进入特征解码模块进行特征解码。
104、将所述迭代解码和排序过滤处理后的表示向量的部分向量重新进行向量的嵌入。
需要说明的是,上述嵌入的向量包括所述特征编码模块部分反馈的编码向量和所述排序过滤模块处理后部分反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
需要说明的是,上述将所述编码向量进行向量的嵌入包括:
对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层。
需要说明的是,上述步骤103将所述编码向量进行迭代解码和排序过滤处理之后还包括:
105、将排序过滤处理后的表示向量通过自注意力机制进行序列变换,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量。
106、根据所述输出的解码向量更新知识图谱,以使向量嵌入时使用更新后的知识图谱。
本发明实施例所示方法是通过特征编码和排序过滤的联合作用,利用特征编码的反馈重新进行向量嵌入,并且不断对编码后的信息不断打分排序,实现特征编码对输入数据模块的高质量反馈。其次,还可以通过解码向量(即三元组信息:头实体、关系和尾实体)输出后,通过更新辅助实现训练过程中对知识图谱的更新,再通过远程监督实现对输入数据的扩充,加入记忆信息。因此,能够通过联合抽取模型训练过程中句子的迭代记忆,也可以通过知识图谱的更新进行迭代记忆,实现信息抽取准确率不断提升的良性循环的功能;并且还能够实现了端到端的实体及实体关系(属性)联合抽取,加强了实体和关系(属性)之间的信息交互。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种信息处理装置,其特征在于,包括数据嵌入模块、特征编码模块和排序过滤模块,其中
所述数据嵌入模块,用于向量的嵌入,并将嵌入的向量发送给所述特征编码模块进行编码处理;
所述特征编码模块,用于对所述数据嵌入模块嵌入的向量进行编码处理得到编码向量,并将所述编码向量部分反馈给所述数据嵌入模块进行向量的嵌入,以及将所述编码向量输出给所述排序过滤模块进行处理;
所述排序过滤模块,用于对所述特征编码模块输出的编码向量进行迭代解码和排序过滤处理,并将迭代解码和排序过滤处理后的表示向量部分发送给所述数据嵌入模块进行向量的嵌入;
所述嵌入的向量包括所述特征编码模块反馈的编码向量和所述排序过滤模块处理后反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
2.根据权利要求1所述的装置,其特征在于,所述数据嵌入模块,具体还用于:对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层,并发送给所述特征编码模块。
3.根据权利要求1所述的装置,其特征在于,所述排序过滤模块包括:
迭代解码单元:用于对所述特征编码模块输出的编码向量进行迭代解码处理,并将迭代解码处理后的表示向量发送给打分单元;
打分单元:用于通过打分函数对所述表示向量进行置信度计算;
过滤单元:用于根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较,并将相似度小于相似度阈值的表示向量发送给控制开关;
控制开关:用于控制所述过滤单元过滤后的表示向量发送给所述数据输入模块进行向量的嵌入;以及控制所述特征编码模块输出的编码向量直接进入特征解码模块进行特征解码。
4.根据权利要求1-3中任一项所述的装置,其特征在于,还包括:
特征解码模块,用于将排序过滤模块处理后的表示向量经过自注意力机制进行序列变换,将序列变换后的解码向量经过神经网络模型进行解码并输出。
5.根据权利要求4所述的装置,其特征在于,还包括:
更新辅助模块,用于将所述特征解码模块输出的解码向量更新知识图谱,并将更新后的知识图谱发送给所述数据嵌入模块。
6.一种信息处理方法,其特征在于:
对嵌入的向量进行编码处理得到编码向量;
将所述编码向量的部分向量进行向量重新嵌入;
将所述编码向量进行迭代解码和排序过滤处理;
将所述迭代解码和排序过滤处理后的表示向量进行部分向量的重新嵌入。
所述嵌入的向量包括所述特征编码模块部分反馈的编码向量和所述排序过滤模块处理后部分反馈的表示向量,还包括预先对输入数据进行处理后的字词混合向量和位置信息向量。
7.根据权利要求6所述的方法,其特征在于,将所述编码向量进行向量的嵌入包括:
对所述编码向量进行维度变换,得到一个固定维度大小的编码向量,根据尾实体相对于头实体的相对位置,编码得到位置编码向量,然后将其与前述的固定维度大小的编码向量进行拼接,形成新的编码向量,之后,将新的编码向量与所述字词混合向量和位置信息向量共用融入到同一个嵌入层。
8.根据权利要求6所述的方法,其特征在于,将所述编码向量进行迭代解码和排序过滤处理包括:
对所述编码向量进行迭代解码处理;
通过打分函数对所述迭代解码处理后的表示向量进行置信度计算;
根据所述表示向量的置信度,选择出置信度大于置信度阈值的表示向量,并且将每个选择出的表示向量与其他已经选择出的表示向量进行相似度比较;
将相似度小于相似度阈值的表示向量重新组合进行向量的嵌入;
控制所述特征编码模块输出的编码向量直接进入特征解码模块进行特征解码。
9.根据权利要求6-8中任一项所述的方法,其特征在于,将所述编码向量进行迭代解码和排序过滤处理之后还包括:
将排序过滤处理后的表示向量通过自注意力机制进行序列变换,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量。
10.根据权利要求9所述的方法,其特征在于,将序列变换后的表示向量经过神经网络模型进行解码并输出解码向量之后还包括:
根据所述输出的解码向量更新知识图谱,以使向量嵌入时使用更新后的知识图谱。
CN202010980519.6A 2020-09-17 2020-09-17 信息处理方法和装置 Active CN112069823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010980519.6A CN112069823B (zh) 2020-09-17 2020-09-17 信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010980519.6A CN112069823B (zh) 2020-09-17 2020-09-17 信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN112069823A true CN112069823A (zh) 2020-12-11
CN112069823B CN112069823B (zh) 2021-07-09

Family

ID=73680592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010980519.6A Active CN112069823B (zh) 2020-09-17 2020-09-17 信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN112069823B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077526A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种知识图嵌入复合邻居链路预测方法
CN113361279A (zh) * 2021-06-25 2021-09-07 扬州大学 一种基于双邻域图神经网络的医疗实体对齐方法及系统
CN113695058A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372318A1 (en) * 2016-06-23 2017-12-28 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111488402A (zh) * 2020-03-26 2020-08-04 天津大学 一种带有层次关系结构知识图谱的表示学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372318A1 (en) * 2016-06-23 2017-12-28 Capital One Services, Llc Neural network systems and methods for generating distributed representations of electronic transaction information
CN110196913A (zh) * 2019-05-23 2019-09-03 北京邮电大学 基于文本生成式的多实体关系联合抽取方法和装置
CN110781683A (zh) * 2019-11-04 2020-02-11 河海大学 一种实体关系联合抽取方法
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111160008A (zh) * 2019-12-18 2020-05-15 华南理工大学 一种实体关系联合抽取方法及系统
CN111488402A (zh) * 2020-03-26 2020-08-04 天津大学 一种带有层次关系结构知识图谱的表示学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DEEPAK NATHANI 等: "Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs", 《MACHINE LEARNING》 *
孙长志: "基于深度学习的联合实体关系抽取", 《中国博士学位论文全文数据库信息科技辑》 *
马建红 等: "反馈机制的实体及关系联合抽取方法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077526A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种知识图嵌入复合邻居链路预测方法
CN113361279A (zh) * 2021-06-25 2021-09-07 扬州大学 一种基于双邻域图神经网络的医疗实体对齐方法及系统
CN113361279B (zh) * 2021-06-25 2023-07-25 扬州大学 一种基于双邻域图神经网络的医疗实体对齐方法及系统
CN113695058A (zh) * 2021-10-28 2021-11-26 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法
CN113695058B (zh) * 2021-10-28 2022-03-15 南通金驰机电有限公司 换热器生产用智能废料破碎装置自保护方法

Also Published As

Publication number Publication date
CN112069823B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN112069823B (zh) 信息处理方法和装置
CN108829722B (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109492113B (zh) 一种面向软件缺陷知识的实体、关系联合抽取方法
CN111694924A (zh) 一种事件抽取方法和系统
CN112215013B (zh) 一种基于深度学习的克隆代码语义检测方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN111782768A (zh) 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN114818721B (zh) 一种结合序列标注的事件联合抽取模型与方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN114529903A (zh) 文本细化网络
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN114154486A (zh) 一种针对中文语料拼写错误的智能纠错系统
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN115017907A (zh) 一种基于领域词典的中文农业命名实体识别方法
CN113010662B (zh) 一种层次化会话式机器阅读理解系统和方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
CN112784576B (zh) 一种文本依存句法分析方法
CN113392929A (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
CN116662566A (zh) 一种基于对比学习机制的异质信息网络链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200072 9th floor, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant after: Huayuan computing technology (Shanghai) Co.,Ltd.

Address before: 9 / F, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai

Applicant before: UNIDT TECHNOLOGY (SHANGHAI) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant