CN114861601B - 基于旋转式编码的事件联合抽取方法及存储介质 - Google Patents

基于旋转式编码的事件联合抽取方法及存储介质 Download PDF

Info

Publication number
CN114861601B
CN114861601B CN202210473365.0A CN202210473365A CN114861601B CN 114861601 B CN114861601 B CN 114861601B CN 202210473365 A CN202210473365 A CN 202210473365A CN 114861601 B CN114861601 B CN 114861601B
Authority
CN
China
Prior art keywords
text
sequence
vector
word
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210473365.0A
Other languages
English (en)
Other versions
CN114861601A (zh
Inventor
强保华
周翔宇
王玉峰
王岳萌
韩博
陈鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
CETC 54 Research Institute
Original Assignee
Guilin University of Electronic Technology
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology, CETC 54 Research Institute filed Critical Guilin University of Electronic Technology
Priority to CN202210473365.0A priority Critical patent/CN114861601B/zh
Publication of CN114861601A publication Critical patent/CN114861601A/zh
Application granted granted Critical
Publication of CN114861601B publication Critical patent/CN114861601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于旋转式编码的事件联合抽取方法,所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段;以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系,从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,丰富文本的语义信息的手段;还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性,提高模型的鲁棒性和泛化能力的手段;通过上述三个方面提高了事件抽取的准确率和召回率。

Description

基于旋转式编码的事件联合抽取方法及存储介质
技术领域
本发明涉及计算机技术,具体涉及一种基于旋转式编码的事件联合抽取方法及存储介质。
背景技术
信息抽取是利用计算机从文本、音频、视频、图像等数据中自动抽取结构化信息的过程,信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等,事件抽取任务研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示。事件抽取包括识别事件类型和识别事件元素两部分,通常在一个文本中会有多个事件元素和多个事件类型,一个事件元素有可能属于多个事件类型,一个事件类型可能拥有多个事件元素,即多对多的形态,并且这些元素可能会分布在多个句子中,这些特性是导致事件抽取困难的重要原因。如何更充分有效地利用文本特征去提高事件抽取模型的鲁棒性和泛化能力,是事件抽取领域研究的重点和难点。
发明内容
本发明提供了一种基于旋转式编码的事件联合抽取方法,所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段;以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系,从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,丰富文本的语义信息的手段;还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性,提高模型的鲁棒性和泛化能力的手段;通过上述三个方面提高了事件抽取的准确率和召回率。
本发明提供的事件联合抽取方法,包括以下步骤:
(1)BERT预训练模型中的位置编码为绝对位置编码,使用旋转式编码替换绝对位置编码,使其能够处理超过512字节的文本。
(2)对文本预处理后生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化;通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;给定输入句子序列,将句子进行字符向量映射,得到字符向量序列。
(3)对于文本预处理后生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列,将字符向量序列和词向量序列两个序列叠加,得到一个字词综合向量序列。
(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,生成字符隐状态向量;将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量。
(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量;向全局特征隐状态向量中加入一定量的负样本,使得模型在预测的时候受到干扰,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。
(6)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签,正则化计算给定句子序列标记为标签序列的得分,并使用维特比算法计算出最高得分的事件标签序列。
步骤(2)中的文本预处理可以优选采用的方法:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左两种序列标注方法进行标注,取两种标注结果的并集作为最终的标注结果;将标注结果以字符为单位,分割为字符集合;用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述事件联合抽取方法的步骤。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合流程图对本发明作进一步的详细描述,利于更好的理解本发明的技术方案。
如图1所示,本发明主要包括以下步骤:
(1)对文本进行预处理,得到预处理结果:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果。将标注结果文本以字符为单位,分割为字符集合;利用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
(2)使用旋转式编码替换BERT模型的绝对位置编码,使得可以处理超512长度的文本:以二维情形为例:在m位置的绝对位置编码向量为qm,旋转式位置编码为pm其中q0、q1为qm的二维绝对位置编码表示,超参数θ=10000-2/d,d是位置向量的维度,通过正交矩阵/>将绝对位置编码进行压缩,使其能够处理超过512字节的文本。
(3)利用预训练模型对预处理后文本的字符特征信息进行向量化,生成文本的字符向量序列:对步骤(1)中生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化,缓解预训练与微调阶段的误差,提高向量表示的精准性。通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列。给定输入句子序列X={X1,X2,…,Xn},将句子进行字符向量映射,得到字符向量序列EC
(4)利用静态词嵌入模型对预处理后文本的词特征信息进行训练,生成词向量序列;融合字符向量序列和词向量序列,生成字词综合向量序列:
对于步骤(1)中生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列EW。将字符向量序列EC和词向量序列EW两个序列线性相加,得到一个字词综合向量序列ET。给定输入第j位置的字符向量序列和词向量序列和/>字词综合向量序列
(5)对字符向量序列EC和字词综合向量序列ET进行编码,将字符向量序列EC和字词综合向量序列ET分别输入到一个独立的循环神经网络,捕获全局特征,加入字词的位置信息和上下文信息,生成字符隐状态向量和字词综合隐状态向量:
将字符向量序列EC作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,生成字符隐状态向量hC。将字词综合向量序列ET作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量hW。在双向长短期记忆神经网络BiLSTM加入自注意力机制,让模型注意到整个输入中不同部分之间的相关性。
(6)将所述字符隐状态向量hC、字词综合隐状态向量hW进行合并,得到全局特征隐状态向量。将全局特征隐状态向量,输入到对抗神经网络层进行扰动,得到扰动后全局特征隐状态向量:
将上述步骤生成的字符隐状态向量hC和字词综合隐状态向量hW二个向量线性相加得到一个全局特征隐状态向量hsum。给定输入第j位置的字符隐状态向量和字词综合隐状态向量和/>全局特征隐状态向量/>在全局特征隐状态向量hsum里面加入扰动,使得模型在预测的时候受到干扰,提高模型泛化性。加入扰动使用梯度上升的方式,具体做法为/>其中Δx是对抗扰动,x是输入,y是标签,θ是模型参数,L(x,y;θ)是单个样本的loss,sign函数是防止扰动过大对/>做标准化处理,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量hsum′
(7)把所述扰动后字词特征隐状态向量hsum′输入到CRF模型中进行解码,标注出所述文本特征向量序列中的事件元素及该元素的事件类型,生成对应的事件标签序列。具体实现过程:把所述扰动后字词特征隐状态向量hsum′和所述文本的字符向量序列输入至条件随机场CRF进行解码预测标签,正则化计算给定句子序列s标记为标签序列l的得分,并使用维特比算法计算出最高概率的事件标签序列。
本发明的技术特点和有益效果:
本发明从联合抽取、通过加入自注意力机制的BiLSTM模型获取更加充分语义信息和加入对抗训练三个方面提高事件抽取的准确率和召回率。

Claims (3)

1.一种基于旋转式编码的事件联合抽取方法,其特征在于,包括以下步骤:
(1)BERT预训练模型中的位置编码为绝对位置编码,使用旋转式编码替换绝对位置编码,使其能够处理超过512字节的文本;具体为:在m位置的绝对位置编码向量为qm,旋转式位置编码为pm其中q0、q1为qm的二维绝对位置编码表示,超参数θ=10000-2/d,d是位置向量的维度,通过正交矩阵/>将绝对位置编码进行压缩;
(2)对文本预处理后生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化;通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;给定输入句子序列,将句子进行字符向量映射,得到字符向量序列;
(3)对于文本预处理后生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列,将字符向量序列和词向量序列两个序列叠加,得到一个字词综合向量序列;
(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,生成字符隐状态向量;将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量;
(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量;向全局特征隐状态向量中加入一定量的负样本,使得模型在预测的时候受到干扰,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量;
(6)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签,正则化计算给定句子序列标记为标签序列的得分,并使用维特比算法计算出最高得分的事件标签序列。
2.根据权利要求1所述的方法,其特征在于,所述文本预处理方法为:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左两种序列标注方法进行标注,取两种标注结果的并集作为最终的标注结果;将标注结果以字符为单位,分割为字符集合;用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
3.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的基于旋转式编码的事件联合抽取方法的步骤。
CN202210473365.0A 2022-04-29 2022-04-29 基于旋转式编码的事件联合抽取方法及存储介质 Active CN114861601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210473365.0A CN114861601B (zh) 2022-04-29 2022-04-29 基于旋转式编码的事件联合抽取方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210473365.0A CN114861601B (zh) 2022-04-29 2022-04-29 基于旋转式编码的事件联合抽取方法及存储介质

Publications (2)

Publication Number Publication Date
CN114861601A CN114861601A (zh) 2022-08-05
CN114861601B true CN114861601B (zh) 2024-04-12

Family

ID=82635528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210473365.0A Active CN114861601B (zh) 2022-04-29 2022-04-29 基于旋转式编码的事件联合抽取方法及存储介质

Country Status (1)

Country Link
CN (1) CN114861601B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252159A (zh) * 2023-08-03 2023-12-19 吉贝克信息技术(北京)有限公司 一种支持撤销重做的多人协作的在线xbrl编辑器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190602A (zh) * 2021-04-09 2021-07-30 桂林电子科技大学 融合字词特征与深度学习的事件联合抽取方法
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN113889095A (zh) * 2021-09-06 2022-01-04 西北工业大学 一种基于旋转位置编码的端到端语音识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179570A1 (zh) * 2020-03-13 2021-09-16 平安科技(深圳)有限公司 序列标注方法、装置、计算机设备和存储介质
CN113190602A (zh) * 2021-04-09 2021-07-30 桂林电子科技大学 融合字词特征与深度学习的事件联合抽取方法
CN113889095A (zh) * 2021-09-06 2022-01-04 西北工业大学 一种基于旋转位置编码的端到端语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深层语境词表示与自注意力的生物医学事件抽取;魏优;刘茂福;胡慧君;;计算机工程与科学;20200930(09);全文 *

Also Published As

Publication number Publication date
CN114861601A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN113255294B (zh) 命名实体识别模型训练方法、识别方法及装置
CN113190602B (zh) 融合字词特征与深度学习的事件联合抽取方法
Xue et al. A better way to attend: Attention with trees for video question answering
CN110377902B (zh) 描述文本生成模型的训练方法和装置
CN115130613B (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN111897954A (zh) 一种用户评论方面挖掘系统、方法、及存储介质
CN114255159A (zh) 手写文本图像生成方法、装置、电子设备和存储介质
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
Kotani et al. Generating handwriting via decoupled style descriptors
CN110046356A (zh) 标签嵌入在微博文本情绪多标签分类中的应用研究
CN115952791A (zh) 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Mattick et al. SmartPatch: improving handwritten word imitation with patch discriminators
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN113836929A (zh) 命名实体识别方法、装置、设备及存储介质
CN114429106B (zh) 页面信息处理方法、装置、电子设备和存储介质
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
Gabajiwala et al. Comprehensive review of various optimization algorithms for image captioning
CN116341554B (zh) 面向生物医学文本的命名实体识别模型的训练方法
Genthial et al. Image to Latex

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant