CN111881687B - 一种基于上下文编码和多层感知机的关系抽取方法及装置 - Google Patents

一种基于上下文编码和多层感知机的关系抽取方法及装置 Download PDF

Info

Publication number
CN111881687B
CN111881687B CN202010765659.1A CN202010765659A CN111881687B CN 111881687 B CN111881687 B CN 111881687B CN 202010765659 A CN202010765659 A CN 202010765659A CN 111881687 B CN111881687 B CN 111881687B
Authority
CN
China
Prior art keywords
entity
relation
context
aft
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010765659.1A
Other languages
English (en)
Other versions
CN111881687A (zh
Inventor
王功明
谢超
张娴
周庆勇
孙思清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202010765659.1A priority Critical patent/CN111881687B/zh
Publication of CN111881687A publication Critical patent/CN111881687A/zh
Application granted granted Critical
Publication of CN111881687B publication Critical patent/CN111881687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明明提供一种基于上下文编码和多层感知机的关系抽取方法及装置,属于关系抽取技术领域,本发明包括以下步骤:S1:提取实体对的上下文编码信息;S2:生成实体关系的编码信息;S3:训练基于多层感知机的关系分类模型;S4:使用模型抽取待处理文本的关系。本发明的理论基础是两个实体之间的关系类型依赖于实体所在的上下文环境,尤其是实体两侧近邻要素的语义特征,如果能够提取实体对所在上下文环境的语义特征,可以提高关系(尤其是多义关系)抽取的准确性。相比其它关系抽取方法,本发明能够更好地描述实体对的上下文环境信息,提高关系抽取的准确率。

Description

一种基于上下文编码和多层感知机的关系抽取方法及装置
技术领域
本发明涉及命名实体识别、关系抽取、上下文编码、多层感知机等技术,尤其涉及一种基于上下文编码和多层感知机的关系抽取方法及装置。
背景技术
关系是描述实体对之间语义联系的三元组,其形式是(A,ɑ,B),其中A、B是实体,ɑ是实体间的语义联系。关系大量存在于自然文本中,例如:句子“M国总统A来到C国”中包含关系(M国,总统,A)和(A,来到,C国)。关系抽取是信息抽取领域的重要研究内容,可以建立不同实体间的依赖类型,将非结构化文本转化为结构化或半结构化知识,形成由知识构成的关系网络,用于智能问答、语义搜索、社团发现等智能型服务。
目前,常用的关系抽取方法包括下述三种:
(1)规则模板法
通过分析句式特点,设计若干模板(正则表达式),使用模板在文本中匹配出关系三元组。这种方法需要构建庞大的模板库,早期由专家手工写出模板,人力耗费极大;近年来开始采用自动化方式生成模板,最常用的是Bootstrapping算法,根据最初几个实例从文本中提取种子模板,然后将进一步应用于文本,获得新的实例,重复上述过程,获得更多的模板。Bootstrapping算法的基础是多次重复抽样,如果初始实例质量不佳,提取出的种子模板适用面窄,在后继迭代(重复抽样)中容易陷入局部收敛,缺乏扩展性和普适性;此外,在模板扩增的过程中,会产生适用面窄、不正确或彼此冲突(对于同一句话的相同实体,得到彼此矛盾的关系)的新模板,影响关系抽取的准确性。
(2)依存分析法
对文本进行句法或语法分析,根据关系三元组各个元素在句中的依存关系(如主谓、动宾、动补、定中、介宾等),确定对应的抽取规范。该方法与规则模板法类似,但处理对象是文本的句法或语法分析结果,要综合多条规则进行抽取,而不是使用模板直接匹配。该方法在句法或语法层进行处理,抽取结果能够更准确揭示实体间的语义联系。但是,依存关系种类有限,导致可用的抽取规则数量不多;此外,不同树库(或相同树库的不同版本)的依存关系定义和符号均有差异,更换树库类型或版本后,原有的关系抽取规则会失去效果;上述问题,影响该方法的普适性。
(3)机器学习法
该方法把关系抽取任务当作分类训练问题。首先,对句子进行词法和句法分析,得到每个实体的平面特征和句法特征;然后,综合平面特征和句法特征,以及语义角色标注特征,生成完整的关系特征;最后,根据关系特征和已标注的特征标签,采用合适的方法(LR、SVM、CRF等)进行训练,从而得到不同关系的生成模型。该方法具有自学习能力,不受模板库范围、种子模板质量、句法库规模、依存关系定义符号等限制,可以解决规则模板法和依存分析法存在的问题。但是,两个实体之间的关系类型依赖于实体所在的上下文环境,尤其是实体两侧近邻要素的语义特征,对于两个相同的实体,在不同的语境中会存在不同的关系类型。例如:“苹果公司是M国高科技企业的代表”中实体“苹果”和“M国”的关系是“企业”,而“苹果是M国对外出口的重要农产品”中实体“苹果”和“M国”的关系是“农产品”。常用的平面特征、句法特征和语义角色标注特征仅是实体本身的特征,不能很好地反映实体所在上下文环境的特征,会影响关系(尤其是多义关系)抽取的准确性。
发明内容
为了解决以上技术问题,本发明提供了一种基于上下文编码和多层感知机的关系抽取方法。
本发明的技术方案是:
一种基于上下文编码和多层感知机的关系抽取方法,包括以下步骤:
S1:提取实体对的上下文编码信息;
S2:生成实体关系的编码信息;
S3:训练基于多层感知机的关系分类模型;
S4:使用模型抽取待处理文本的关系。
进一步的,
所述步骤S1中,实体对的上下文建模如下:
用(WA,WB)表示句子S中任意两个实体WA和WB构成实体对,这两个实体将句子S划分为三部分:WA和WB之间的子句SAB_In、WA外侧的子句SA_Out、WB外侧的子句SB_Out,WA两侧的词汇是WA_Pre和WA_Aft,词性表示为SA_Pre和SA_Aft,WB两侧的词汇是WB_Pre和WB_Aft,词性表示为SB_Pre和SB_Aft,WA和WB的实体标签分别为LA和LB,上述描述构成实体对(WA,WB)的上下文。
所述步骤S1具体包括:
S11:生成词汇的向量化编码;所述步骤S11具体包括:
S111:计算词汇WA_Pre、WA、WA_Aft、WB_Pre、WB、WB_Aft的词嵌入EWA_Pre、EWA、EWA_Aft、EWB_Pre、EWB、EWB_Aft
S112:拼接词嵌入结果,得到词汇的向量化编码EW=[EWA_Pre,EWA,EWA_Aft,EWB_Pre,EWB,EWB_Aft]。
S12:生成词性的向量化编码;所述步骤S12具体包括:
S121:计算词性SA_Pre、SA_Aft、SB_Pre和SB_Aft的词性嵌入ESA_Pre、ESA_Aft、ESB_Pre、ESB_Aft
S122:拼接词性嵌入结果,得到词性的向量化编码ES=[ESA_Pre,ESA_Aft,ESB_Pre,ESB_Aft]。
S13:生成实体标签的向量化编码;所述步骤S13具体包括:
S131:计算实体标签LA和LB的标签嵌入ELA和ELB
S132:拼接标签嵌入结果,得到实体标签的向量化编码EL=[ELA,ELB]。
S14:合成上下文的向量化编码。
进一步的,
所述步骤S2中,实体关系的编码信息是采用One-Hot编码表示实体之间的关系类型,即用长度为k的向量RVeci表示关系Ri,i∈[1,k],在RVeci中,除了第i位是1外,其它位均为0。
进一步的,
所述步骤S3具体包括:
S31:初始化多层感知机参数;
S32:将所有实体对的上下文编码信息送入多层感知机输入层;
S33:将所有实体对的关系编码信息送入多层感知机输出层;
S34:根据收敛条件训练多层感知机模型;
S35:返回多层感知机模型权重。
进一步的,
用E1、E2、……、En表示待处理文本中的实体,所述步骤S4具体包括:
S41:初始化i=1,j=2;
S42:读取实体Ei和Ej
S43:计算实体对(Ei,Ej)的上下文编码信息EWSL
S44:将上下文编码信息EWSL送入多层感知机的输入层;
S45:运行多层感知机,获取输出层信息;
S46:根据输出层结果确定关系类型;
S47:j=j+1;
S48:如果j>n,那么转S4A,否则转S49;
S49:读取实体Ej,转S43;
S4A:i=i+1,j=i+1;
S4B:如果i>=n,转S4C,否则转S42;
S4C:返回待处理文本的关系。
此外,本发明还提供了一种基于上下文编码和多层感知机的关系抽取装置,包括:
实体对上下文编码部件M1,用于获取实体对的上下文编码信息;
实体关系编码部件M2,用于采用One-Hot编码表示实体之间的关系类型;
关系分类模型训练部件M3,用于训练基于多层感知机的关系分类模型;
关系分类模型应用部件M4,用于使用模型提取待处理文本中实体之间的关系类型。
进一步的,
所述实体对上下文编码部件M1,具体包括:
词汇向量化编码部件M11,用于生成实体对上下文中各个词汇的向量化编码信息;
词性向量化编码部件M12,用于生成实体两侧词汇词性的向量化编码信息;
实体标签向量化编码部件M13,用于生成实体标签的向量化编码信息;
实体对上下文编码合成部件M14,用于根据词汇/词性/实体标签向量化编码信息生成实体对的上下文编码信息。
进一步的,
所述关系分类模型训练部件M3,具体包括:
参数初始化部件M31,用于设置多层感知机模型的初始化参数;
输入层设置部件M32,用于将所有实体对的上下文编码信息送入多层感知机输入层;
输出层设置部件M33,用于将所有实体对的关系编码信息送入多层感知机输出层;
训练收敛部件M34,根据收敛条件训练多层感知机模型。
本发明的有益效果是
根据实体对所在上下文环境进行向量化编码,可以更好地描述实体对的上下文环境信息,提高关系抽取的准确率。从词汇、词性、实体标签三个方面对实体对上下文环境进行向量化编码,融合成实体对的上下文编码,采用多层感知机训练关系类型判定模型;相比其它关系抽取方法,本发明根据实体对上下文环境的语义特征进行编码,能够提高关系抽取模型在歧义环境下的适用性。
附图说明
图1是本发明方法的步骤流程图;
图2是实体对(WA,WB)的上下文示意图;
图3是步骤S1的具体步骤流程图;
图4是步骤S3的具体步骤流程图;
图5是步骤S4的具体步骤流程图;
图6是本发明装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
两个实体之间的关系类型依赖于实体所在的上下文环境,尤其是实体两侧近邻要素的语义特征,如果能够提取实体对所在上下文环境的语义特征,可以提高关系(尤其是多义关系)抽取的准确性。
本发明通过以下方案实现:一种基于上下文编码和多层感知机的关系抽取方法,如图1所示,包括以下步骤:
S1:提取实体对的上下文编码信息;
用(WA,WB)表示句子S中任意两个实体WA和WB构成实体对,这两个实体将句子S划分为三部分:WA和WB之间的子句SAB_In、WA外侧的子句SA_Out、WB外侧的子句SB_Out,WA两侧的词汇是WA_Pre和WA_Aft,词性表示为SA_Pre和SA_Aft,WB两侧的词汇是WB_Pre和WB_Aft,词性表示为SB_Pre和SB_Aft,WA和WB的实体标签分别为LA和LB,上述描述构成实体对(WA,WB)的上下文,如图2所示。
本步骤对实体对(WA,WB)上下文的词汇、词性、实体标签进行向量化,形成对应的上下文编码信息。进一步,如图3所示,所述步骤S1具体包括:
S11:生成词汇的向量化编码;
本步骤对实体对(WA,WB)上下文中各个词汇进行向量化,然后进行拼接,得到词汇的向量化编码。进一步,所述步骤S11具体包括:
S111:计算词汇WA_Pre、WA、WA_Aft、WB_Pre、WB、WB_Aft的词嵌入EWA_Pre、EWA、EWA_Aft、EWB_Pre、EWB、EWB_Aft
S112:拼接词嵌入结果,得到词汇的向量化编码EW=[EWA_Pre,EWA,EWA_Aft,EWB_Pre,EWB,EWB_Aft]。
S12:生成词性的向量化编码;
本步骤对实体WA和WB两侧词汇的词性进行向量化,然后进行拼接,得到词性的向量化编码。进一步,所述步骤S12具体包括:
S121:计算词性SA_Pre、SA_Aft、SB_Pre和SB_Aft的词性嵌入ESA_Pre、ESA_Aft、ESB_Pre、ESB_Aft
S122:拼接词性嵌入结果,得到词性的向量化编码ES=[ESA_Pre,ESA_Aft,ESB_Pre,ESB_Aft]。
S13:生成实体标签的向量化编码;
本步骤对实体WA和WB的实体标签进行向量化,然后进行拼接,得到标签的向量化编码。进一步,所述步骤S13具体包括:
S131:计算实体标签LA和LB的标签嵌入ELA和ELB
S132:拼接标签嵌入结果,得到实体标签的向量化编码EL=[ELA,ELB]。
S14:合成上下文的向量化编码。
本步骤拼接词汇、词性、实体标签的向量化编码,得到上下文的向量化编码EWSL=[EW,ES,EL]。
S2:生成实体关系的编码信息;
用Ri表示实体WA和WB之间的关系,i∈[1,k]。本步骤采用One-Hot编码表示实体之间的关系类型,即用长度为k的向量RVeci表示关系Ri,i∈[1,k],在RVeci中,除了第i位是1外,其它位均为0。
S3:训练基于多层感知机的关系分类模型;
本步骤将每个实体对的上下文编码信息和关系编码信息送入多层感知机,通过训练得到关系分类模型。进一步,如图4所示,所述步骤S3具体包括:
S31:初始化多层感知机参数;
S32:将所有实体对的上下文编码信息送入多层感知机输入层;
S33:将所有实体对的关系编码信息送入多层感知机输出层;
S34:根据收敛条件训练多层感知机模型;
S35:返回多层感知机模型权重。
S4:使用模型抽取待处理文本的关系。
用E1、E2、……、En表示待处理文本中的实体,进一步,如图5所示,所述步骤S4具体包括:
S41:初始化i=1,j=2;
S42:读取实体Ei和Ej
S43:计算实体对(Ei,Ej)的上下文编码信息EWSL
S44:将上下文编码信息EWSL送入多层感知机的输入层;
S45:运行多层感知机,获取输出层信息;
S46:根据输出层结果确定关系类型;
S47:j=j+1;
S48:如果j>n,那么转S4A,否则转S49;
S49:读取实体Ej,转S43;
S4A:i=i+1,j=i+1;
S4B:如果i>=n,转S4C,否则转S42;
S4C:返回待处理文本的关系。
例如:
用LabeledSet表示关系已知的数据集,UnLabeledSet表示关系未知的数据集,使用本发明中的方法处理LabeledSet,得到关系分类模型,用于提取UnLabeledSet中存在的关系。
在数据集中,每行表示句子中实体对之间的一种关系,如果句子中存在多个关系,那么就用多行表示,格式如下:
实体1实体2关系句子。
例如:ZS FY亲戚-家庭出生演艺世家的ZF,父亲为某综艺大哥ZS,叔叔是FY,姑姑是FZ。
上述示例表示实体“ZS”和“FY”之间的关系类型是“亲戚”。
数据集中存在12种关系:情侣、夫妻、父母、兄弟姐妹、祖孙、亲戚、师生、同门、好友、上下级、合作、其它。
数据集中仅包括实体和关系,缺少分词和词性信息,所以在使用本发明的方法之前,需要对数据集进行预处理。首先去除空格,然后根据停用词表剔除停用词,并使用Stanford NLP进行分词和词性标注。
执行S111:采用静态的预训练模型GloVe获取实体上下文中词汇WA_Pre、WA、WA_Aft、WB_Pre、WB、WB_Aft的词嵌入EWA_Pre、EWA、EWA_Aft、EWB_Pre、EWB、EWB_Aft,所得词嵌入的维度是100;
执行S112:通过拼接词嵌入结果,得到词汇的向量化编码EW,维度是600。
执行S121:采用动态的预训练模型ELMo,将句子中所有分词的词性输入神经网络模型,通过上下文推算不同词性对应的向量,从中提取词性SA_Pre、SA_Aft、SB_Pre和SB_Aft的词性嵌入ESA_Pre、ESA_Aft、ESB_Pre、ESB_Aft,所得词性嵌入的维度是100;
执行S122:通过拼接词性嵌入结果,得到词性的向量化编码ES,维度是400。
执行S131:采用动态的预训练模型ELMo,将句子中所有实体的标签输入神经网络模型,通过上下文推算不同标签对应的向量,从中提取实体标签LA和LB的标签嵌入ELA和ELB,所得标签嵌入的维度是100;
执行S132:通过拼接标签嵌入结果,得到实体标签的向量化编码EL,维度是200。
执行S14:通过拼接词汇、词性、实体标签的向量化编码,得到上下文的向量化编码EWSL,维度是1200。
执行S2:对12种关系类型进行ID编码,如下(括号内的数字是对应的ID编码):
情侣(0)、夫妻(1)、父母(2)、兄弟姐妹(3)、祖孙(4)、亲戚(5)、师生(6)、同门(7)、好友(8)、上下级(9)、合作(10)、其它(11)。
采用One-Hot编码将ID编码向量化,每个ID编码对应向量的维度是12,编码所对应位的分量值是1,其余位的分量值均为0。
例如:关系“兄弟姐妹”的ID编码是3,其对应向量是[0,0,0,1,0,0,0,0,0,0,0,0]。
执行S3:多层感知机的输入层结点个数为1200,输出层结点个数为12,分别表示12种关系类型,设置4个隐含层,每层结点个数均相同。
采用公式来确定隐含层结点个数,其中,d、b、u分别是隐含层、输入层、输出层的结点个数,f是处于1到10之间的常数。对于本实施例而言,b=1200、u=12,所以d的范围是[35.8,44.8],选择中间值的整数部分40作为隐含层结点数。
在Python环境中,采用sklearn.neural_network的MLPClassifier函数来训练基于多层感知机的案情描述判定模型,主要参数设置如下:
隐含层结点数:hidden_layer_sizes=(40,40,40,40),4个隐含层都是40个结点;
激活函数:activation='logistic';
权重优化的求解器:solver='sgd';
L2惩罚(正则化项)参数:alpha='1e-4';
初始学习率:learning_rate_init=0.002;
根据上述参数创建MLPClassifier对象RelationClf,如下:
RelationClf=MLPClassifier(hidden_layer_sizes=(40,40,40,40),activation='logistic',solver='sgd',alpha='1e-4',learning_rate_init=0.002);
分别用FeatureSet_Labeled和TargetSet_Labeled表示LabeledSet中实体对上下文的向量化编码集合和关系类型编码集合,使用MLPClassifier对象的fit函数训练模型,如下:
RelationClf.fit(FeatureSet_Labeled,TargetSet_Labeled);
执行S4:用FeatureSet_UnLabeled表示UnLabeledSet中实体对上下文的向量化编码集合,使用MLPClassifier对象的predict函数预测判定结果,如下:
TargetSet_UnLabeled=RelationClf.predict(FeatureSet_UnLabeled);
所得到的TargetSet_UnLabeled是UnLabeledSet中实体对关系类型编码集合,其格式为One-Hot编码,分量值为1的维度编号是关系类型的ID编码,根据该编码可以确定对应的关系类型。
本发明还提供了一种基于上下文编码和多层感知机的关系抽取装置,如图6所示,包括:
实体对上下文编码部件M1,用于获取实体对的上下文编码信息,所述实体对上下文编码部件M1包括:
词汇向量化编码部件M11,用于生成实体对上下文中各个词汇的向量化编码信息;
词性向量化编码部件M12,用于生成实体两侧词汇词性的向量化编码信息;
实体标签向量化编码部件M13,用于生成实体标签的向量化编码信息;
实体对上下文编码合成部件M14,用于根据词汇/词性/实体标签向量化编码信息生成实体对的上下文编码信息。
实体关系编码部件M2,用于采用One-Hot编码表示实体之间的关系类型;
关系分类模型训练部件M3,用于训练基于多层感知机的关系分类模型,所述关系分类模型训练部件M3包括:
参数初始化部件M31,用于设置多层感知机模型的初始化参数;
输入层设置部件M32,用于将所有实体对的上下文编码信息送入多层感知机输入层;
输出层设置部件M33,用于将所有实体对的关系编码信息送入多层感知机输出层;
训练收敛部件M34,根据收敛条件训练多层感知机模型。
关系分类模型应用部件M4,用于使用模型提取待处理文本中实体之间的关系类型。
本发明从词汇、词性、实体标签三个方面对实体对上下文环境进行向量化编码,融合成实体对的上下文编码,采用多层感知机训练关系类型判定模型;相比常规基于机器学习的关系抽取方法,本发明能够更好地描述实体对的上下文环境信息,提高关系抽取的准确率。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种基于上下文编码和多层感知机的关系抽取方法,其特征在于,
包括以下步骤:
S1:提取实体对的上下文编码信息;
S2:生成实体关系的编码信息;
S3:训练基于多层感知机的关系分类模型;
S4:使用模型抽取待处理文本的关系;
所述步骤S1中,实体对的上下文建模如下:
用(WA,WB)表示句子S中任意两个实体WA和WB构成实体对,这两个实体将句子S划分为三部分:WA和WB之间的子句SAB_In、WA外侧的子句SA_Out、WB外侧的子句SB_Out,WA两侧的词汇是WA_Pre和WA_Aft,词性表示为SA_Pre和SA_Aft,WB两侧的词汇是WB_Pre和WB_Aft,词性表示为SB_Pre和SB_Aft,WA和WB的实体标签分别为LA和LB,上述描述构成实体对(WA,WB)的上下文;
所述步骤S1包括:
S11:生成词汇的向量化编码;具体包括:
S111:计算词汇WA_Pre、WA、WA_Aft、WB_Pre、WB、WB_Aft的词嵌入EWA_Pre、EWA、EWA_Aft、EWB_Pre、EWB、EWB_Aft
S112:拼接词嵌入结果,得到词汇的向量化编码EW=[EWA_Pre,EWA,EWA_Aft,EWB_Pre,EWB,EWB_Aft];
S12:生成词性的向量化编码;具体包括:
S121:计算词性SA_Pre、SA_Aft、SB_Pre和SB_Aft的词性嵌入ESA_Pre、ESA_Aft、ESB_Pre、ESB_Aft
S122:拼接词性嵌入结果,得到词性的向量化编码ES=[ESA_Pre,ESA_Aft,ESB_Pre,ESB_Aft];
S13:生成实体标签的向量化编码;具体包括:
S131:计算实体标签LA和LB的标签嵌入ELA和ELB
S132:拼接标签嵌入结果,得到实体标签的向量化编码EL=[ELA,ELB];
S14:合成上下文的向量化编码。
2.根据权利要求1所述的方法,其特征在于,
所述步骤S2中,实体关系的编码信息是采用One-Hot编码表示实体之间的关系类型,即用长度为k的向量RVeci表示关系Ri,i∈[1,k],在RVeci中,除了第i位是1外,其它位均为0。
3.根据权利要求1所述的方法,其特征在于,
所述步骤S3包括:
S31:初始化多层感知机参数;
S32:将所有实体对的上下文编码信息送入多层感知机输入层;
S33:将所有实体对的关系编码信息送入多层感知机输出层;
S34:根据收敛条件训练多层感知机模型;
S35:返回多层感知机模型权重。
4.根据权利要求1所述的方法,其特征在于,
用E1、E2、……、En表示待处理文本中的实体,所述步骤S4包括:
S41:初始化i=1,j=2;
S42:读取实体Ei和Ej
S43:计算实体对(Ei,Ej)的上下文编码信息EWSL
S44:将上下文编码信息EWSL送入多层感知机的输入层;
S45:运行多层感知机,获取输出层信息;
S46:根据输出层结果确定关系类型;
S47:j=j+1;
S48:如果j>n,那么转S4A,否则转S49;
S49:读取实体Ej,转S43;
S4A:i=i+1,j=i+1;
S4B:如果i>=n,转S4C,否则转S42;
S4C:返回待处理文本的关系。
5.一种基于上下文编码和多层感知机的关系抽取装置,其特征在于,
包括:
实体对上下文编码部件M1,用于获取实体对的上下文编码信息;
实体关系编码部件M2,用于采用One-Hot编码表示实体之间的关系类型;
关系分类模型训练部件M3,用于训练基于多层感知机的关系分类模型;
关系分类模型应用部件M4,用于使用模型提取待处理文本中实体之间的关系类型;
所述实体对上下文编码部件M1,具体包括:
词汇向量化编码部件M11,用于生成实体对上下文中各个词汇的向量化编码信息;
词性向量化编码部件M12,用于生成实体两侧词汇词性的向量化编码信息;
实体标签向量化编码部件M13,用于生成实体标签的向量化编码信息;
实体对上下文编码合成部件M14,用于根据词汇/词性/实体标签向量化编码信息生成实体对的上下文编码信息。
6.根据权利要求5所述的装置,其特征在于,
所述关系分类模型训练部件M3,具体包括:
参数初始化部件M31,用于设置多层感知机模型的初始化参数;
输入层设置部件M32,用于将所有实体对的上下文编码信息送入多层感知机输入层;
输出层设置部件M33,用于将所有实体对的关系编码信息送入多层感知机输出层;
训练收敛部件M34,根据收敛条件训练多层感知机模型。
CN202010765659.1A 2020-08-03 2020-08-03 一种基于上下文编码和多层感知机的关系抽取方法及装置 Active CN111881687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010765659.1A CN111881687B (zh) 2020-08-03 2020-08-03 一种基于上下文编码和多层感知机的关系抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010765659.1A CN111881687B (zh) 2020-08-03 2020-08-03 一种基于上下文编码和多层感知机的关系抽取方法及装置

Publications (2)

Publication Number Publication Date
CN111881687A CN111881687A (zh) 2020-11-03
CN111881687B true CN111881687B (zh) 2024-02-20

Family

ID=73205440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010765659.1A Active CN111881687B (zh) 2020-08-03 2020-08-03 一种基于上下文编码和多层感知机的关系抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111881687B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
WO2019205318A1 (zh) * 2018-04-25 2019-10-31 平安科技(深圳)有限公司 舆情信息分类方法、装置、计算机设备和存储介质
CN110188193A (zh) * 2019-04-19 2019-08-30 四川大学 一种基于最短依存子树的电子病历实体关系抽取方法
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
基于深度学习框架的实体关系抽取研究进展;李枫林;柯佳;;情报科学(03);全文 *
基于深度学习的中文实体关系抽取方法;孙紫阳;顾君忠;杨静;;计算机工程(09);全文 *
基于深度学习的关系抽取研究综述;庄传志;靳小龙;朱伟建;刘静伟;白龙;程学旗;;中文信息学报(12);全文 *
实体关系抽取方法研究综述;李冬梅;张扬;李东远;林丹琼;;计算机研究与发展(07);全文 *
深度学习实体关系抽取研究综述;鄂海红;张文静;肖思琪;程瑞;胡莺夕;周筱松;牛佩晴;;软件学报(06);全文 *
融合实体上下文特征的深度文本语义匹配模型;徐文峰;杨艳;张春凤;;武汉大学学报(理学版)(05);全文 *

Also Published As

Publication number Publication date
CN111881687A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN107133220B (zh) 一种地理学科领域命名实体识别方法
CN109635288B (zh) 一种基于深度神经网络的简历抽取方法
CN113642330B (zh) 基于目录主题分类的轨道交通规范实体识别方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112989841A (zh) 一种用于突发事件新闻识别与分类的半监督学习方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN114491024B (zh) 一种基于小样本的特定领域多标签文本分类方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN111783461A (zh) 一种基于句法依存关系的命名实体识别方法
CN114911945A (zh) 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN112802570A (zh) 一种针对电子病历命名实体识别系统及方法
CN113254675A (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN113282757A (zh) 基于电商领域表示模型的端到端三元组提取方法及系统
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN111881687B (zh) 一种基于上下文编码和多层感知机的关系抽取方法及装置
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN111125378A (zh) 一种基于自动样本标注的闭环实体抽取方法
CN112329440B (zh) 一种基于两阶段筛选和分类的关系抽取方法和装置
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant