CN113449517B - 基于bert门控多窗口注意力网络模型的实体关系抽取方法 - Google Patents
基于bert门控多窗口注意力网络模型的实体关系抽取方法 Download PDFInfo
- Publication number
- CN113449517B CN113449517B CN202110773065.XA CN202110773065A CN113449517B CN 113449517 B CN113449517 B CN 113449517B CN 202110773065 A CN202110773065 A CN 202110773065A CN 113449517 B CN113449517 B CN 113449517B
- Authority
- CN
- China
- Prior art keywords
- phrase
- information
- attention
- entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开基于BERT门控多窗口注意力网络模型的实体关系抽取方法,对数据集进行预处理;利用最短依存路径解析数据集生成相应的约束信息;采用BERT编码原始序列及其约束信息构建单词的动态语义表示特征、并通过语义表示特征形成句子向量、实体向量表示以及约束信息向量表示;构建了一种关键词组提取网络,采用多窗口CNN获取句子中多粒度词组特征并采用逐元最大池化筛选出关键词组特征;使用自注意力机制和BiLSTM‑Attention对关键词组特征进行筛选和全局感知,形成用于分类的整体特征;利用全连接层和Softmax分类函数进行分类处理。本发明提高了关系抽取的准确率。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及基于BERT门控多窗口注意力网络模型的实体关系抽取方法。
背景技术
在数据量呈指数增长的信息化时代,信息泛滥的问题越来越严重,迫使人们重视研究如何从海量数据中快速、高效、便捷的提取知识。为了迅速有效的从海量的非结构化文本数据中提取所需信息,信息抽取成为自然语言处理领域的研究热点。信息抽取的目的是将非结构化文本转化为结构化的或者半结构的信息,以供进一步分析以及用户查询。实体关系作为信息抽取领域的核心分支,其目的是从自然语言文本中挖掘给定实体对之间的语义关系信息。实体关系抽取技术研究为知识库构建、自动文摘、自动问答等下游任务提供重要的技术支持。
随着深度学习技术的快速发展,大量深度学习模型应用到关系抽取任务中,目前基于深度学习的关系抽取模型大多采用word2vec生成的词向量作为输入,但word2vec生成的词向量无法根据上下文的语义信息进行调整,导致实体上下文信息表示能力有限。有些文献在使用word2vec生成的词向量作为输入时,通过引入实体位置、潜在实体等信息来增强实体上下文信息的语义表达能力,但该方法对实体语义信息增强有限,模型性难以取得较大提升,且忽略了句子中关键词组对实体关系抽取分类结果的积极影响以及噪声信息对分类结果的消极影响。
发明内容
本发明的目的在于提供基于BERT门控多窗口注意力网络模型的实体关系抽取方法。
本发明采用的技术方案是:
基于BERT门控多窗口注意力网络模型的实体关系抽取方法,其包括以下步骤:
步骤1:对数据集进行预处理;
步骤2:利用最短依存路径解析数据集生成相应的约束信息;
步骤3:采用BERT编码数据集文本及其约束信息构建单词的动态语义表示特征X、并通过单词的动态语义表示特征X形成句子向量V0、实体向量表示Ve1,Ve2以及约束信息向量表示VSDP;
步骤4:构建了一种关键词组提取网络,采用多窗口CNN获取单词的动态语义表示特征X中多粒度词组特征并采用逐元最大池化筛选出关键词组特征T′;
进一步的改进,所述步骤2中约束信息是通过最短依存路径寻找实体对之间的最短路径,去除依存关系的同时保留目标实体之间的主干信息所形成。
进一步的改进,所述步骤3中使用BERT对上述句子进行编码构建单词的动态语义表示特征X={x0,x1,…,xi,…xi+h,…,xj,…,xj+l,…,xp,…,xp+q,…,xn}。
进一步的改进,述步骤3中句子向量V0、实体向量表示Ve1,Ve2以及约束信息向量表示VSDP通过如下公式计算:
V0=W0(tanh(x0))+b0
其中xi至xi+h为实体e1对应的词向量,xj至xj+l为实体e2对应的词向量,xp至xp+q为约束信息对应的词向量,x0为包含句子信息的向量,W0,We,Ws和b0,be,bs分别表示全连接层的权重矩阵和偏置向量。
进一步的改进,所述步骤4中构建的关键词组提取网络结构具体为:
网络结构的第二层为全局门控机制:该层利用不同粒度词组上下文信息增强词组自身语义表达信息,将第一层多窗口CNN提取的多粒度词组矩阵作为输入,通过全局门控机制增强各个粒度词组自身的语义信息,该机制具体公式如下:
Tk=Ck⊙Gk
网络结构的第三层为逐元最大池化:该层通过逐元最大池化策略对全局门控机制的输出Tk进行筛选,形成句子的关键词组特征T′,逐元最大池化策略具体操作公式如下:
T′=[t′1,t′2,…t′i,…t′n]
进一步的改进,述步骤5所述自注意力机制为多头的自注意力机制,用于对关键词组特征T′进行筛选以形成具有不同权重的相关性词组特征Z;BiLSTM-Attention是采用BiLSTM对关键词组特征T′的上下文进行编码以捕获词组上下文表示H=[h1,…,hi,…,hn],并采用添加了实体特征的Attention将相关性词组特征Z和词组上下文表示H转化成句子整体特征
进一步的改进,相关性词组特征Z按如下公式计算生成:
Z=MultiHead(T′,T′,T′)
本发明采用以上技术方案,采用BERT替代原始的word2vec的方法,可较好的解决word2vec无法根据上下文进行调整的缺陷,在增强实体上下文信息语义表达能力的同时减少了噪声信息的干扰,并构建了一种关键词组提取网络捕获句子中关键词组信息以丰富句子的语义信息。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明方法的流程图;
图2为本发明的语义表示生成网络的结构示意图;
图3为本发明的关键词组提取网络的结构示意图;
图4为本发明全局门控机制的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1至图4之一所示,本发明公开了基于BERT门控多窗口注意力网络模型的实体关系抽取方法,步骤如下:
步骤1:对数据集进行预处理;
步骤2:利用最短依存路径解析数据集生成相应的约束信息;
对文本内容采用最短依存路径寻找实体对之间的最短路径,去除依存关系的同时保留目标实体之间的主干信息,生成文本的约束信息。
步骤3:采用BERT编码数据集文本及其约束信息构建单词的动态语义表示特征X、并通过单词的动态语义表示特征X形成句子向量V0、实体向量表示Ve1,Ve2以及约束信息向量表示VSDP;
如图2所示,使用BERT对句子S进行编码构建单词的动态语义表示特征X={x0,x1,…,xi,…xi+h,…,xj,…,xj+l,…,xp,…,xp+q,…,xn},同时,通过语义表示矩阵X形成句子向量V0、实体向量表示Ve1,Ve2以及约束信息向量表示VSDP,计算公式如下:
V0=W0(tanh(x0))+b0
其中xi至xi+h为实体e1对应的词向量,xj至xj+l为实体e2对应的词向量,xp至xp+q为约束信息对应的词向量,x0为包含句子信息的向量,W0,We,Ws和b0,be,bs分别表示全连接层的权重矩阵和偏置向量。
步骤4:构建了一种关键词组提取网络,采用多窗口CNN获取动态语义表示特征X中多粒度词组特征并采用逐元最大池化筛选出关键词组特征T′;
构建的关键词组提取网络结构如图3所示,具体为:
网络结构的第二层为全局门控机制:该层利用不同粒度词组上下文信息增强词组自身语义表达信息,将第一层多窗口CNN提取的多粒度词组矩阵作为输入,通过全局门控机制增强各个粒度词组自身的语义信息,如图4所示。该机制具体公式如下:
Tk=Ck⊙Gk
网络结构的第三层为逐元最大池化:该层通过逐元最大池化策略对全局门控机制的输出Tk进行筛选,形成句子的关键词组特征T′,逐元最大池化策略具体操作公式如下:
T′=[t′1,t′2,…t′i,…t′n]
自注意力机制为多头的自注意力机制,用于对关键词组特征T′进行筛选以形成具有不同权重的相关性词组特征Z,其按如下公式计算生成:
Z=MultiHead(T′,T′,T′)
BiLSTM-Attention是采用BiLSTM对关键词组特征T′的上下文进行编码以捕获词组上下文表示H=[h1,…,hi,…,hn],并采用添加了实体特征的Attention将相关性词组特征Z和词组上下文表示H转化成句子整体特征句子整体特征按如下公式计算生成:
本发明采用以上技术方案,采用BERT替代原始的word2vec的方法,可较好的解决word2vec无法根据上下文进行调整的缺陷,在增强实体上下文信息语义表达能力的同时减少了噪声信息的干扰,并构建了一种关键词组提取网络捕获句子中关键词组信息以丰富句子的语义信息。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
Claims (6)
1.基于BERT门控多窗口注意力网络模型的实体关系抽取方法,其特征在于:其包括以下步骤:
步骤1:对数据集进行预处理;
步骤2:利用最短依存路径解析数据集生成相应的约束信息;
步骤3:采用BERT编码数据集文本及其约束信息构建单词的动态语义表示特征X={x0,x1,…,xi,…xi+h,…,xj,…,xj+l,…,xp,…,xp+q,…,xn}、并通过单词的动态语义表示特征X形成句子向量V0、实体向量表示Ve1,Ve2以及约束信息向量表示VSDP,通过如下公式计算:
V0=W0(tanh(x0))+b0
其中xi至xi+h为实体e1对应的词向量,xj至xj+l为实体e2对应的词向量,xp至xp+q为约束信息对应的词向量,x0为包含句子信息的向量,W0,We,Ws和b0,be,bs分别表示全连接层的权重矩阵和偏置向量;
步骤4:构建了一种关键词组提取网络,采用多窗口CNN获取单词的动态语义表示特征X中多粒度词组特征并采用逐元最大池化筛选出关键词组特征T′;
2.根据权利要求1所述的基于BERT门控多窗口注意力网络模型的实体关系抽取方法,其特征在于:步骤2中约束信息是通过最短依存路径寻找实体对之间的最短路径,去除依存关系的同时保留目标实体之间的主干信息所形成。
3.根据权利要求1所述的基于BERT门控多窗口注意力网络模型的实体关系抽取方法,其特征在于:步骤4中构建的关键词组提取网络结构具体为:
网络结构的第二层为全局门控机制:该层利用不同粒度词组上下文信息增强词组自身语义表达信息,将第一层多窗口CNN提取的多粒度词组矩阵作为输入,通过全局门控机制增强各个粒度词组自身的语义信息,该机制具体公式如下:
Tk=Ck⊙Gk
网络结构的第三层为逐元最大池化:该层通过逐元最大池化策略对全局门控机制的输出Tk进行筛选,形成句子的关键词组特征T′,逐元最大池化策略具体操作公式如下:
T′=[t′1,t′2,…t′i,…t′n]
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773065.XA CN113449517B (zh) | 2021-07-08 | 2021-07-08 | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110773065.XA CN113449517B (zh) | 2021-07-08 | 2021-07-08 | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449517A CN113449517A (zh) | 2021-09-28 |
CN113449517B true CN113449517B (zh) | 2023-03-28 |
Family
ID=77815460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110773065.XA Active CN113449517B (zh) | 2021-07-08 | 2021-07-08 | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449517B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108121829B (zh) * | 2018-01-12 | 2022-05-24 | 扬州大学 | 面向软件缺陷的领域知识图谱自动化构建方法 |
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
CN109522557B (zh) * | 2018-11-16 | 2021-07-16 | 中山大学 | 文本关系抽取模型的训练方法、装置及可读存储介质 |
CN111339774B (zh) * | 2020-02-07 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法和模型训练方法 |
CN111985245B (zh) * | 2020-08-21 | 2024-03-12 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
-
2021
- 2021-07-08 CN CN202110773065.XA patent/CN113449517B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113449517A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN109359297B (zh) | 一种关系抽取方法及系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN104834747A (zh) | 基于卷积神经网络的短文本分类方法 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN114547298B (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN110941958B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
CN111464881A (zh) | 基于自优化机制的全卷积视频描述生成方法 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN116304748A (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN115374270A (zh) | 一种基于图神经网络的法律文本摘要生成方法 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN110377753B (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
CN115358227A (zh) | 一种基于短语增强的开放域关系联合抽取方法及系统 | |
CN116266268A (zh) | 基于对比学习与语义感知的语义解析方法及装置 | |
CN112015891A (zh) | 基于深度神经网络的网络问政平台留言分类的方法及系统 | |
Zhao et al. | Representation Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |