CN112836062B - 一种文本语料库的关系抽取方法 - Google Patents

一种文本语料库的关系抽取方法 Download PDF

Info

Publication number
CN112836062B
CN112836062B CN202110039879.0A CN202110039879A CN112836062B CN 112836062 B CN112836062 B CN 112836062B CN 202110039879 A CN202110039879 A CN 202110039879A CN 112836062 B CN112836062 B CN 112836062B
Authority
CN
China
Prior art keywords
sentence
relation
entity
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110039879.0A
Other languages
English (en)
Other versions
CN112836062A (zh
Inventor
黄少滨
姜梦奇
李熔盛
申林山
刘汪洋
杨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
CETC Big Data Research Institute Co Ltd
Original Assignee
Harbin Engineering University
CETC Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University, CETC Big Data Research Institute Co Ltd filed Critical Harbin Engineering University
Priority to CN202110039879.0A priority Critical patent/CN112836062B/zh
Publication of CN112836062A publication Critical patent/CN112836062A/zh
Application granted granted Critical
Publication of CN112836062B publication Critical patent/CN112836062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。

Description

一种文本语料库的关系抽取方法
技术领域
本发明属于关系抽取技术领域,具体涉及一种文本语料库的关系抽取方法。
背景技术
近年来,神经网络模型由于能在不需要人工干预的情况下有效地学习有意义的隐藏特征而成为关系分类研究的主流。大部分神经网络的方法使用卷积神经网络和循环神经网络两种模型。相比较于卷积神经网络能够学习局部特征,循环神经网络在学习长距离特征方面更有效果。
关系抽取是信息抽取的一个重要部分,解决了原始文本中目标实体之间的关系分类问题。实体关系抽取对自然语言处理任务的许多应用如本体构建、自动问答、自动文摘等具有重要的意义。传统的关系抽取方法包括基于规则的方法和基于核的方法,这些都非常耗时且难以适应新的领域。近年来,神经网络能够在没有人工干预的情况下有效地学习有意义的特征,称为关系抽取研究的主流。基于机器学习的关系抽取常用的神经网络模型是卷积神经网络(CNN)和循环神经网络(RNN)。
Zeng等人首先将卷积神经网络引入到关系抽取研究中,提出一种有监督的卷积神经网络模型,将关系抽取视为多分类任务,每一个关系为一个类别。Santos等人对Zeng等人的卷积神经网络进行了改进,提出一种新的卷积神经网络(CR-CNN),为每个关系类学习一个分布式向量表示,并通过排名进行分类。CR-CNN不使用softmax分类器,而设计了一个新的成对排序损失函数,以此减轻人为定义类的影响。Wang等人在Zeng等人的方法上,增加了多级注意力机制,使得模型能够检测到更细微的部分,并且提出了一种新的基于双边值得目标函数,取代标准的损失函数。Ren等人提出了一种新的方法,将百科中查到的名词解释也输入到CNN中得到实体描述向量,整合到最终的句子特征向量中,并添加了句内和跨句子两种注意力机制,来提升分类器的性能。
卷积神经网络在特征工程方面表现出非常好的性能,但是基于CNN的方法缺乏学习时间特征的能力,特别是实体对之间的长距离依赖。Zhang等人提出了一种有监督的循环神经网络模型,更擅长对序列数据进行建模,并提出了一种新的方法代替Zeng等人提出的位置特征,标记句子中的两个实体。Zhou等人为了解决重要信息可以出现句子任意位置的问题,提出了基于注意力机制的双向长短期记忆网络模型来捕捉句子中最重要的语义信息。Du等人对Zhou等人的方法进行了改进,提出了一种使用双向循环网络的基于多实例学习框架的多级结构自注意机制,包括单词级自注意机制和句子级自注意机制。
随着中文在全球的使用越来越广泛,中文实体关系抽取的研究也越来越紧迫,但中文上的研究难度远远大于英文,因此基于中文的关系抽取工作仍然是个不小的挑战。徐芬等人使用支持向量机的方法进行中文关系抽取,针对中文实体关系的特点,设计了词、词性标注、实体、包含关系、实体概念等特征,组成了实体间关系的上下文特征向量。李卫疆等人提出了一种基于多特征自注意力双向长短期记忆网络的方法。为了解决中文句式和语法结构复杂的问题,在单词嵌入层引入了额外特征嵌入,包括词性标注、依存句法分、语义角色标注和位置特征;同时使用双向长短期记忆网络解决梯度消失问题。马月坤等人提出了基于BERT的中文关系抽取方法,基于双向Transformer结构,不使用额外特征的条件下有效捕捉语言的深层信息。车金立等人提出了一种基于双重注意力机制的中文关系抽取方法,通过双向门限循环单元网络获取训练数据的双向上下文语义信息。第一重注意力机制获取实例中重要的语义特征,第二重注意力机制降低噪声数据的权重。
发明内容
本发明的目的在于提供一种文本语料库的关系抽取方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入文本语料库和需要抽取的关系实体对集合M;所述的关系实体对集合M中的关系类型由关系实体对<e1,r,e2>表示,关系实体对<e1,r,e2>由描述两个实体间关系的关系特征词r、与关系特征词有主谓关系的实体e1以及与关系特征词有动宾关系的实体e2组成;
步骤2:将文本语料库进行分句处理,得到句子集合D;将文本语料库的句子集合D与关系实体对集合M进行匹配,提取文本语料库中包含关系实体对集合M中任意关系实体对<e1,r,e2>的句子,并标记实体e1和e2;整合所有提取出的句子,组成句子集合E;
步骤3:对句子集合E中的句子进行分词处理;
步骤3.1:句子S由单词
Figure BDA0002895351210000021
组成,
Figure BDA0002895351210000022
为句子S的左实体,
Figure BDA0002895351210000023
为句子S的右实体,el和er分别为左实体和右实体的索引;将句子S划分成三部分,第一部分为
Figure BDA0002895351210000024
第二部分为
Figure BDA0002895351210000025
第三部分为
Figure BDA0002895351210000026
步骤3.2:查找GloVe预训练词向量,把每个索引转换成与之对应单词的词向量,对于不在GloVe预训练词向量中的单词,对其词向量采用随机均匀分布进行初始化,将句子S的第一部分映射为
Figure BDA0002895351210000027
第二部分被映射为
Figure BDA0002895351210000028
第三部分为
Figure BDA0002895351210000029
xi为单词wi对应的词向量;
步骤4:将句子集合E中的句子输入训练好的分段循环神经网络中,得到句子集合E中每个句子S的特征向量U;
步骤4.1:将句子S的第一部分
Figure BDA0002895351210000031
输入到第一LSTM中,得到句子S的左上下文表示lc,
Figure BDA0002895351210000032
Figure BDA0002895351210000033
步骤4.2:将句子S的第三部分
Figure BDA0002895351210000034
输入到第二LSTM中,得到句子S的右上下文表示rc,
Figure BDA0002895351210000035
Figure BDA0002895351210000036
步骤4.3:将句子S的第二部分
Figure BDA0002895351210000037
左上下文表示lc和右上下文表示rc输入到第三LSTM中,得到句子S的特征向量U;
Figure BDA0002895351210000038
步骤5:将句子集合E中每个句子S的特征向量U和左右实体的关系特征lr连接在一起后进行计算,得到句子集合E中每个句子S的最终特征向量H:
H=αU
其中,lr=lc-rc+b,
Figure BDA0002895351210000039
为偏置向量;α=[α12,…,αk]是句子特征的权重矩阵;
Figure BDA00028953512100000310
Figure BDA00028953512100000311
其中,[ui;lr]表示ui和lr的直接连接;
Figure BDA00028953512100000312
为中间矩阵;ba是偏置值;
步骤6:将句子集合E中每个句子S的最终特征向量H输入到softmax分类器中,计算得到每个句子S对应关系实体对集合M中每种关系类型的概率p,取最大概率作为句子S所属的关系类型;
p=softmax(WsH+bs)
其中,Ws是softmax分类器的权重,bs是偏置。
本发明的有益效果在于:
本发明解决了传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征的问题,本发明提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。
附图说明
图1为本发明的关系抽取模型图。
图2为本发明的关系抽取流程图。
图3为本发明的实施例中三种基线模型与本发明的对比实验结果表。
图4为本发明的实施例中不同的注意力机制对F1值的影响实验结果表。
具体实施方式
下面结合附图对本发明做进一步描述。
为了解决传统关系分类模型不能很好的利用句子中重要的信息对关系进行建模,并且一些神经网络模型往往需要使用NLP工具来提取额外的特征,本发明提出了基于注意力机制的分段循环神经网络。本发明所提出模型可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充,然后利用潜在关系向量和注意力机制得到句子的关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。实验表明本发明中的模型比大多传统的关系抽取模型有着更好的性能。
近年来,神经网络模型由于能在不需要人工干预的情况下有效地学习有意义的隐藏特征而成为关系分类研究的主流。大部分神经网络的方法使用卷积神经网络和循环神经网络两种模型。相比较于卷积神经网络能够学习局部特征,循环神经网络在学习长距离特征方面更有效果。本发明使用基于循环神经网络的方法处理关系抽取任务,来自动学习原始句子中的特征,并尽量减少外部资源的使用,在保证句子信息完整的前提下,更好地利用句子中两个实体之间的上下文进行关系抽取;同时通过注意力模块对有效的词汇赋予更高地权重并对无效词汇赋予更低的权重,来有选择地关注相关词汇。
一种文本语料库的关系抽取方法,包括以下步骤:
步骤1:输入文本语料库和需要抽取的关系实体对集合M;所述的关系实体对集合M中的关系类型由关系实体对<e1,r,e2>表示,关系实体对<e1,r,e2>由描述两个实体间关系的关系特征词r、与关系特征词有主谓关系的实体e1以及与关系特征词有动宾关系的实体e2组成;
步骤2:将文本语料库进行分句处理,得到句子集合D;将文本语料库的句子集合D与关系实体对集合M进行匹配,提取文本语料库中包含关系实体对集合M中任意关系实体对<e1,r,e2>的句子,并标记实体e1和e2;整合所有提取出的句子,组成句子集合E;
步骤3:对句子集合E中的句子进行分词处理;
步骤3.1:句子S由单词
Figure BDA0002895351210000051
组成,
Figure BDA0002895351210000052
为句子S的左实体,
Figure BDA0002895351210000053
为句子S的右实体,el和er分别为左实体和右实体的索引;将句子S划分成三部分,第一部分为
Figure BDA0002895351210000054
第二部分为
Figure BDA0002895351210000055
第三部分为
Figure BDA0002895351210000056
步骤3.2:查找GloVe预训练词向量,把每个索引转换成与之对应单词的词向量,对于不在GloVe预训练词向量中的单词,对其词向量采用随机均匀分布进行初始化,将句子S的第一部分映射为
Figure BDA0002895351210000057
第二部分被映射为
Figure BDA0002895351210000058
第三部分为
Figure BDA0002895351210000059
xi为单词wi对应的词向量;
步骤4:将句子集合E中的句子输入训练好的分段循环神经网络中,得到句子集合E中每个句子S的特征向量U;
步骤4.1:将句子S的第一部分
Figure BDA00028953512100000510
输入到第一LSTM中,得到句子S的左上下文表示lc,
Figure BDA00028953512100000511
Figure BDA00028953512100000512
步骤4.2:将句子S的第三部分
Figure BDA00028953512100000513
输入到第二LSTM中,得到句子S的右上下文表示rc,
Figure BDA00028953512100000514
Figure BDA00028953512100000515
步骤4.3:将句子S的第二部分
Figure BDA00028953512100000516
左上下文表示lc和右上下文表示rc输入到第三LSTM中,得到句子S的特征向量U;
Figure BDA00028953512100000517
步骤5:将句子集合E中每个句子S的特征向量U和左右实体的关系特征lr连接在一起后进行计算,得到句子集合E中每个句子S的最终特征向量H:
H=αU
其中,lr=lc-rc+b,
Figure BDA00028953512100000518
为偏置向量;α=[α12,…,αk]是句子特征的权重矩阵;
Figure BDA00028953512100000519
Figure BDA00028953512100000520
其中,[ui;lr]表示ui和lr的直接连接;
Figure BDA00028953512100000521
为中间矩阵;ba是偏置值;
步骤6:将句子集合E中每个句子S的最终特征向量H输入到softmax分类器中,计算得到每个句子S对应关系实体对集合M中每种关系类型的概率p,取最大概率作为句子S所属的关系类型;
p=softmax(WsH+bs)
其中,Ws是softmax分类器的权重,bs是偏置。
本发明提出了一种基于分段循环神经网络的关系分类模型,该模型的输入不需要任何手工设计的特征,并且能够突出考虑句子中的关键信息来进行关系分类,提出了潜在关系向量,它可以在一定程度上表达出句子中实体间的关系。同时,本发明通过依存句法分析发现关系类型,并提出了一种用来构建训练语料的弱监督方法。实验结果显示提出的关系抽取模型在弱监督获取的训练数据集上达到了较高的性能。
实施例1:
本发明针对于当前四险一金领域的关系抽取方法存在以下两个问题:一是目前没有可以用于关系抽取模型研究的四险一金政策法规数据集,二是四险一金政策法规文本中的句子大多较长,而传统基于神经网络的关系抽取模型不能很好的利用句子中重要的信息对关系进行建模。本发明提出了基于注意力机制的分段循环神经网络和基于回标思想构建数据的方法来解决上述问题。本发明先通过依存句法分析获取关系类型和关系实体对,然后基于回标的思想,将关系实体对和四险一金文本集合进行匹配,自动获取包含关系实体对的实例,得到有标注的训练数据。然后将句子输入到分段循环神经网络中,它不仅可以突出考虑句子中的关键部分,而且能够利用句子的其他部分对关键部分进行补充。本发明还提出潜在关系向量,利用潜在关系向量和注意力机制得到句子最终关系表示向量,在这个过程中不需要任何手工设计的特征或者NLP工具。最后把最终关系表示向量输入到softmax函数中进行关系分类。
本发明的弱监督构建训练数据的方法描述如下:
(1)原始的数据是四险一金政策法规文本,通过已有的命名实体词表将四险一金政策法规文本进行分词、词性标注和依存句法分析,根据各个词汇之间的依存关系,找到与中心谓词是主谓关系和动宾关系的两个名词,组成实体关系三元组。提取出实体关系三元组中包含的全部关系特征词,选出其中数量排名前三十的为关系类型。针对每一种关系类型,分别从实体关系三元组中筛选出具有语义信息的三元组组成三元组集合。
(2)将四险一金政策法规文本进行分句得到四险一金文本集合,以得到的三元组集合为字典,将集合中的句子与字典中的实体对进行匹配,提取出包含一个实体和关系特征词的句子,整合到一起并进行标记,构成训练数据。
本发明的关系抽取模型描述如下:
(1)模型的输入是一段包含两个实体的文本,它由一系列单词组成,首先把它拆分成三部分,左部分为句子开始到左边实体(包括左实体),中间部分为左边实体到右边实体(包括左实体和右实体),右部分为右实体到句子末尾(包括右实体),通过查找300维GloVe预训练词向量,得到输入文本中每个单词对应的词向量作为神经网络的输入。
(2)使用双向LSTM作用于左部分句子对应的词向量,把前向LSTM的最终状态与反向LSTM的最终状态进行相加得到左上下文信息。
(3)使用双向LSTM作用于右部分句子对应的词向量,把前向LSTM的最终状态与反向LSTM的最终状态进行相加得到右上下文信息。。
(4)把左上下文信息、句子的中间部分、右上下文信息拼接起来,输入到双向LSTM中得到句子的关键部分信息表示。
(5)把左上下文信息与右上下文信息相减,然后加上偏移向量,得到潜在关系向量,然后把潜在关系向量与句子的关键部分信息表示拼接起来,通过注意力机制得到句子的最终关系表示向量。
实体关系抽取是构建知识图谱的关键,传统的方法通常依赖于手工制作的特性和词汇资源,这些都需要耗费大量的人力和时间并难以适应新领域。有监督关系抽取由于其性能较好,目前占据主导地位。但是有监督关系抽取需要人工定义关系类型并且需要人工标注训练语料。面对四险一金领域大量的政策法规文本,人工定义关系类型无法全面地考虑所有文本,且费时费力。为了解决该问题,本发明提出一种弱监督学习方法来实现关系类型半自动化发现及训练语料半自动化生成,解决了训练语料不足的问题。
1.构建训练数据
1)关系实体对获取
首先通过已有的命名实体词表将四险一金政策法规文本进行分词、词性标注和依存句法分析,根据各个词汇之间的依存关系,以谓词为中心词,找到与中心词有主谓关系的实体e1,以及与中心词有动宾关系的实体e2。两个实体和中心词构成关系实体对<e1,r,e2>,其中r就是可以描述两个实体间关系的关系特征词。将提取出的关系特征词整合到一起并进行泛化、人工筛选,得到可以覆盖所有关系实体对的关系类型,并选取数量排名前三十的为最终确定的关系类型。同时,针对每一种关系,将提取出来的关系实体对进行人工筛选,具有语义信息的关系实体对保留下来,组成关系实体对集合M。
2)训练数据构建
以得到的关系实体对集合M为字典,利用字符串匹配技术回标文本。将四险一金政策法规文本进行分句得到四险一金文本集合D。将四险一金文本集合D与集合M中的关系实体对<e1,r,e2>进行匹配,自动提取文本集合D中包含实体对<e1,e2>的句子作为关系类型r的实例,同时用<e1></e1><e2></e2>标记出实体e1和e2。将所有提取出的句子整合到一起,构成训练数据。
2.分段循环神经网络模型
1)语料的预处理
首先对文本进行分词处理,分词工具采用的是NLTK分词器。令输入的句子为S,它是由单词
Figure BDA0002895351210000081
组成,其中
Figure BDA0002895351210000082
Figure BDA0002895351210000083
为分别是句子中的左实体和右实体,el和er分别为它们的索引。本发明将句子划分成三部分,第一部分为
Figure BDA0002895351210000084
第二部分为
Figure BDA0002895351210000085
第三部分为
Figure BDA0002895351210000086
通过查找300维GloVe预训练词向量,把每个索引转换成与之对应单词的词向量,对于不在GloVe中的单词,对其词向量采用随机均匀分布进行初始化。这样句子S的第一部分就被映射
Figure BDA0002895351210000087
第二部分被映射为
Figure BDA0002895351210000088
第三部分为
Figure BDA0002895351210000089
其中xi为单词wi对应的词向量。
2)分段循环神经网络
我们把得到三部分单词表示分别输入到三个不同的RNN中,这相当于断开了RNN的数据流动,因此叫它Piecewise RNN.
首先把左边部分
Figure BDA00028953512100000810
输入到LSTM中得到左上下文表示:
Figure BDA00028953512100000811
其中
Figure BDA00028953512100000812
为左边LSTM的最终表示,h为LSTM隐藏单元的个数。lc中包含了许多的左实体的信息。
其次我们把右边部分
Figure BDA00028953512100000813
输入到另一个LSTM中得到右上下文表示:
Figure BDA00028953512100000814
其中
Figure BDA00028953512100000815
为右边部分的最终表示,h为LSTM隐藏单元的个数。rc中包含了许多右实体的信息。
由于我们把整个句子的信息流动断开了,而在关系分类中左边部分和右边部分也对关系的表示起到了补充作用,为了使中间部分能够利用左上下文信息和右上下文信息,我们把左上下文表示和中间部分的输入以及右上下文表示连接起来得到
Figure BDA00028953512100000816
Figure BDA00028953512100000817
把它输入到LSTM中:
Figure BDA0002895351210000091
此时我们保留LSTM每个时间步的输出信息,因此
Figure BDA0002895351210000092
el表示左实体在句子中的索引,er表示右实体在句子中的索引,h是LSTM隐藏单元的个数。
3)注意力机制
引入TransE模型的假设,将关系视为左实体el到右实体er的转换,利用差分向量来表示连接左实体和右实体的关系的特征。基于这个思想,我们使用差分向量,并引入一个偏移向量,来表示两个实体的关系特征lr=lc-rc+b,其中,
Figure BDA0002895351210000093
为偏置向量,
Figure BDA0002895351210000094
为左实体和右实体的关系特征。如果特征向量中某些部分可以更好地表达实体间关系,那么它们应该与lr有更高的相似度。
令句子特征U={u1,u2,…,uk},其中k=er-el+3。将分段循环神经网络的结果和左右实体的关系特征连接在一起后进行计算,得到句子特征向量与实体关系特征的注意力分布:
Figure BDA0002895351210000095
Figure BDA0002895351210000096
其中[x1;x2]表示x1和x2的直接连接,
Figure BDA0002895351210000097
是一个中间矩阵,ba是偏置值。α=[α12,…,αk]是句子特征的权重矩阵。
与句子特征向量进行计算,得到最终特征向量:
H=αU
其中,
Figure BDA0002895351210000098
为最终的特征向量。
4)关系分类
将最终特征向量H输入到softmax分类器中,计算得到每个关系类型对应的概率。
p=softmax(WsH+bs)
其中,Ws是softmax分类器的权重,bs是偏置。
3.实验
为了证明本发明所提出的模型效果优于其它模型,本模型与其它三个基线模型进行了比较,数据集使用的是四险一金政策法规数据集,并使用F1值来作为评价标准。
Figure BDA0002895351210000099
其中,F1是F1值,P是准确率,R是召回率。Tp是预测为正确并且事实也是正确的信息数量;Fp是预测为正确但是事实却是错误的信息数量;Fn是预测为错误但是事实却是正确的信息数量。
三个基线模型介绍:
CNN:Zeng等人在2014年提出的卷积神经网络模型。
att-BiLSTM:Zhou等人在2016年提出的结合注意力机制的双向长短期记忆网络模型。
SelfATT-BLSTM:李卫疆在2019年提出的基于多特征自注意力的BLSTM模型,嵌入了词性标注、依存句法分析、语义角色标注和位置特征四个额外特征。
实验的设置如下:
所有的实验都是Windows系统上使用深度学习框架Keras实现的。对于词向量的初始化,使用300维GloVe词向量来初始化神经网络的输入,对于不在GloVe中的单词,使用均匀分布对其词向量进行初始化。双向LSTM的隐藏状态维度都是300。对于正则化,使用dropout分别应用在Embedding层之后。对于模型的优化,使用Adam优化器来最小化损失,学习率设置为3e-4。对于模型的训练,设置每个batch的大小为32,epoch(总轮次)为20。实验结果如图3所示。
从图3的实验结果中可以看出,CNN模型表现较差,F1值只有0.6488,可能因为CNN模型仅使用单层的卷积层与最大池化的组合,对于长距离依赖问题处理较差。att-BiLSTM模型的效果相比CNN模型强一些,F1值为0.7295,但是数据过长的情况下,即便使用了LSTM模型也只能在一定程度上解决梯度消失问题,本模型将句子划分为三部分,从而避免句子过长的问题,与att-BiLSTM模型相比,本模型的F1值提高了0.09。SelfATT-BLSTM增加额外特征可以为模型提供更丰富的信息用于关系抽取,效果较好,F1值达到0.8065,但是依然没有解决句子过长问题,额外特征也增加了模型运行的负担。本模型将句子分段解决了句子过长问题,同时注意力机制也提高了多分类的效果。与其他模型相比,本模型获得了更好的效果,F1值达到0.8221。
为了验证本模型选择的注意力机制的有效性,将本发明提出的分段循环神经网络与不同注意力机制结合进行了实验,比较了不同的注意力机制对F1值的影响。其中,BLSTM-Original是本发明的方法不结合注意力机制的情况,BLSTM-Att是本发明的方法结合传统的注意力机制的情况,BLSTM-OurAtt是本文的方法结合本发明使用的注意力机制的情况。实验结果如图4所示。
从图4中的实验结果可以看出,注意力机制对模型还是有很大的影响的,注意力机制可以过滤大量无关信息,快速提取信息中的重要特征。而本发明使用的注意力机制可以更多地关注信息中与实体间关系有关的特征。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种文本语料库的关系抽取方法,其特征在于,包括以下步骤:
步骤1:输入文本语料库和需要抽取的关系实体对集合M;所述的关系实体对集合M中的关系类型由关系实体对<e1,r,e2>表示,关系实体对<e1,r,e2>由描述两个实体间关系的关系特征词r、与关系特征词有主谓关系的实体e1以及与关系特征词有动宾关系的实体e2组成;
步骤2:将文本语料库进行分句处理,得到句子集合D;将文本语料库的句子集合D与关系实体对集合M进行匹配,提取文本语料库中包含关系实体对集合M中任意关系实体对<e1,r,e2>的句子,并标记实体e1和e2;整合所有提取出的句子,组成句子集合E;
步骤3:对句子集合E中的句子进行分词处理;
步骤3.1:句子S由单词
Figure FDA0002895351200000011
组成,
Figure FDA0002895351200000012
为句子S的左实体,
Figure FDA0002895351200000013
为句子S的右实体,el和er分别为左实体和右实体的索引;将句子S划分成三部分,第一部分为
Figure FDA0002895351200000014
第二部分为
Figure FDA0002895351200000015
第三部分为
Figure FDA0002895351200000016
步骤3.2:查找GloVe预训练词向量,把每个索引转换成与之对应单词的词向量,对于不在GloVe预训练词向量中的单词,对其词向量采用随机均匀分布进行初始化,将句子S的第一部分映射为
Figure FDA0002895351200000017
第二部分被映射为
Figure FDA0002895351200000018
第三部分为
Figure FDA0002895351200000019
xi为单词wi对应的词向量;
步骤4:将句子集合E中的句子输入训练好的分段循环神经网络中,得到句子集合E中每个句子S的特征向量U;
步骤4.1:将句子S的第一部分
Figure FDA00028953512000000110
输入到第一LSTM中,得到句子S的左上下文表示lc,
Figure FDA00028953512000000111
Figure FDA00028953512000000112
步骤4.2:将句子S的第三部分
Figure FDA00028953512000000113
输入到第二LSTM中,得到句子S的右上下文表示rc,
Figure FDA00028953512000000114
Figure FDA00028953512000000115
步骤4.3:将句子S的第二部分
Figure FDA00028953512000000116
左上下文表示lc和右上下文表示rc输入到第三LSTM中,得到句子S的特征向量U;
Figure FDA00028953512000000117
步骤5:将句子集合E中每个句子S的特征向量U和左右实体的关系特征lr连接在一起后进行计算,得到句子集合E中每个句子S的最终特征向量H:
H=αU
其中,lr=lc-rc+b,
Figure FDA0002895351200000021
为偏置向量;α=[α12,…,αk]是句子特征的权重矩阵;
Figure FDA0002895351200000022
Figure FDA0002895351200000023
其中,[ui;lr]表示ui和lr的直接连接;
Figure FDA0002895351200000024
为中间矩阵;ba是偏置值;
步骤6:将句子集合E中每个句子S的最终特征向量H输入到softmax分类器中,计算得到每个句子S对应关系实体对集合M中每种关系类型的概率p,取最大概率作为句子S所属的关系类型;
p=softmax(WsH+bs)
其中,Ws是softmax分类器的权重,bs是偏置。
CN202110039879.0A 2021-01-13 2021-01-13 一种文本语料库的关系抽取方法 Active CN112836062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110039879.0A CN112836062B (zh) 2021-01-13 2021-01-13 一种文本语料库的关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110039879.0A CN112836062B (zh) 2021-01-13 2021-01-13 一种文本语料库的关系抽取方法

Publications (2)

Publication Number Publication Date
CN112836062A CN112836062A (zh) 2021-05-25
CN112836062B true CN112836062B (zh) 2022-05-13

Family

ID=75927999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110039879.0A Active CN112836062B (zh) 2021-01-13 2021-01-13 一种文本语料库的关系抽取方法

Country Status (1)

Country Link
CN (1) CN112836062B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997398B (zh) * 2022-03-09 2023-05-26 哈尔滨工业大学 一种基于关系抽取的知识库融合方法
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106611055A (zh) * 2016-12-27 2017-05-03 大连理工大学 基于层叠式神经网络的中文模糊限制信息范围检测方法
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11714965B2 (en) * 2018-11-09 2023-08-01 Genesys Telecommunications Laboratories, Inc. System and method for model derivation for entity prediction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034693A (zh) * 2012-12-03 2013-04-10 哈尔滨工业大学 开放式实体及其类型识别方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN107180045A (zh) * 2016-03-10 2017-09-19 中国科学院地理科学与资源研究所 一种互联网文本蕴含地理实体关系的抽取方法
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106611055A (zh) * 2016-12-27 2017-05-03 大连理工大学 基于层叠式神经网络的中文模糊限制信息范围检测方法
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111027324A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于句法模式和机器学习的开放式关系的抽取方法
CN111914558A (zh) * 2020-07-31 2020-11-10 湖北工业大学 基于句袋注意力远程监督的课程知识关系抽取方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Bidirectional LSTM and Conditional Random Fields Approach to Medical Named Entity Recognition;Kai Xu;《International Conference on Advanced Intelligent Systems and Informatics》;20170831;第355-365页 *
用于文本分类的CNN_BiLSTM_Attention混合模型;黄少滨;《计算机科学》;20201231;第23-34页 *
面向中文新闻文本的实体关系抽取研究;石锋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;I138-2799 *

Also Published As

Publication number Publication date
CN112836062A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
AU2020103654A4 (en) Method for intelligent construction of place name annotated corpus based on interactive and iterative learning
Xu et al. Jointly modeling deep video and compositional text to bridge vision and language in a unified framework
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109710932A (zh) 一种基于特征融合的医疗实体关系抽取方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN112836062B (zh) 一种文本语料库的关系抽取方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Sifa et al. Towards contradiction detection in german: a translation-driven approach
CN111191464A (zh) 基于组合距离的语义相似度计算方法
Song et al. Classification of traditional chinese medicine cases based on character-level bert and deep learning
CN114254645A (zh) 一种人工智能辅助写作系统
CN114897167A (zh) 生物领域知识图谱构建方法及装置
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
Kliegr et al. Combining image captions and visual analysis for image concept classification
Yan et al. MoGCN: Mixture of gated convolutional neural network for named entity recognition of chinese historical texts
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
Han et al. Unsupervised Word Sense Disambiguation based on Word Embedding and Collocation.
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
Wen Structure regularized bidirectional recurrent convolutional neural network for relation classification
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115577072A (zh) 一种基于深度学习的短文本情感分析方法
Wei et al. Stack-vs: Stacked visual-semantic attention for image caption generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant