CN114861601A - 基于旋转式编码的事件联合抽取方法及存储介质 - Google Patents
基于旋转式编码的事件联合抽取方法及存储介质 Download PDFInfo
- Publication number
- CN114861601A CN114861601A CN202210473365.0A CN202210473365A CN114861601A CN 114861601 A CN114861601 A CN 114861601A CN 202210473365 A CN202210473365 A CN 202210473365A CN 114861601 A CN114861601 A CN 114861601A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- word
- vector
- hidden state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 83
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000015654 memory Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于旋转式编码的事件联合抽取方法,所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段;以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系,从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,丰富文本的语义信息的手段;还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性,提高模型的鲁棒性和泛化能力的手段;通过上述三个方面提高了事件抽取的准确率和召回率。
Description
技术领域
本发明涉及计算机技术,具体涉及一种基于旋转式编码的事件联合抽取方法及存储介质。
背景技术
信息抽取是利用计算机从文本、音频、视频、图像等数据中自动抽取结构化信息的过程,信息抽取的任务包括实体识别与抽取、实体消解、关系抽取和事件抽取等,事件抽取任务研究从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示。事件抽取包括识别事件类型和识别事件元素两部分,通常在一个文本中会有多个事件元素和多个事件类型,一个事件元素有可能属于多个事件类型,一个事件类型可能拥有多个事件元素,即多对多的形态,并且这些元素可能会分布在多个句子中,这些特性是导致事件抽取困难的重要原因。如何更充分有效地利用文本特征去提高事件抽取模型的鲁棒性和泛化能力,是事件抽取领域研究的重点和难点。
发明内容
本发明提供了一种基于旋转式编码的事件联合抽取方法,所述方法使用了融合旋转式编码的BERT模型解决文本过长无法全部放入预训练模型提取特征的手段;以及使用了加入自注意力机制的BiLSTM捕获相关的时序特征和上下文关系,从多角度获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,丰富文本的语义信息的手段;还有在模型训练过程中通过对抗训练加入扰动提升文本语义多样性,提高模型的鲁棒性和泛化能力的手段;通过上述三个方面提高了事件抽取的准确率和召回率。
本发明提供的事件联合抽取方法,包括以下步骤:
(1)BERT预训练模型中的位置编码为绝对位置编码,使用旋转式编码替换绝对位置编码,使其能够处理超过512字节的文本。
(2)对文本预处理后生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化;通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;给定输入句子序列,将句子进行字符向量映射,得到字符向量序列。
(3)对于文本预处理后生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列,将字符向量序列和词向量序列两个序列叠加,得到一个字词综合向量序列。
(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,生成字符隐状态向量;将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量。
(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量;向全局特征隐状态向量中加入一定量的负样本,使得模型在预测的时候受到干扰,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量。
(6)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签,正则化计算给定句子序列标记为标签序列的得分,并使用维特比算法计算出最高得分的事件标签序列。
步骤(2)中的文本预处理可以优选采用的方法:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左两种序列标注方法进行标注,取两种标注结果的并集作为最终的标注结果;将标注结果以字符为单位,分割为字符集合;用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述事件联合抽取方法的步骤。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合流程图对本发明作进一步的详细描述,利于更好的理解本发明的技术方案。
如图1所示,本发明主要包括以下步骤:
(1)对文本进行预处理,得到预处理结果:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左二种序列标注方法进行标注,把二个标注结果求并集当作最终标注结果。将标注结果文本以字符为单位,分割为字符集合;利用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
(2)使用旋转式编码替换BERT模型的绝对位置编码,使得可以处理超512长度的文本:以二维情形为例:在m位置的绝对位置编码向量为qm,旋转式位置编码为pm,其中q0、q1为qm的二维绝对位置编码表示,超参数θ=10000-2/d,d是位置向量的维度,通过正交矩阵将绝对位置编码进行压缩,使其能够处理超过512字节的文本。
(3)利用预训练模型对预处理后文本的字符特征信息进行向量化,生成文本的字符向量序列:对步骤(1)中生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化,缓解预训练与微调阶段的误差,提高向量表示的精准性。通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列。给定输入句子序列X={X1,X2,…,Xn},将句子进行字符向量映射,得到字符向量序列EC。
(4)利用静态词嵌入模型对预处理后文本的词特征信息进行训练,生成词向量序列;融合字符向量序列和词向量序列,生成字词综合向量序列:
对于步骤(1)中生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列EW。将字符向量序列EC和词向量序列EW两个序列线性相加,得到一个字词综合向量序列ET。给定输入第j位置的字符向量序列和词向量序列和字词综合向量序列
(5)对字符向量序列EC和字词综合向量序列ET进行编码,将字符向量序列EC和字词综合向量序列ET分别输入到一个独立的循环神经网络,捕获全局特征,加入字词的位置信息和上下文信息,生成字符隐状态向量和字词综合隐状态向量:
将字符向量序列EC作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,获得文本中字符间关联权重表示来更准确地关注句子中的重要字符或单词,生成字符隐状态向量hC。将字词综合向量序列ET作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量hW。在双向长短期记忆神经网络BiLSTM加入自注意力机制,让模型注意到整个输入中不同部分之间的相关性。
(6)将所述字符隐状态向量hC、字词综合隐状态向量hW进行合并,得到全局特征隐状态向量。将全局特征隐状态向量,输入到对抗神经网络层进行扰动,得到扰动后全局特征隐状态向量:
将上述步骤生成的字符隐状态向量hC和字词综合隐状态向量hW二个向量线性相加得到一个全局特征隐状态向量hsum。给定输入第j位置的字符隐状态向量和字词综合隐状态向量和全局特征隐状态向量在全局特征隐状态向量hsum里面加入扰动,使得模型在预测的时候受到干扰,提高模型泛化性。加入扰动使用梯度上升的方式,具体做法为其中Δx是对抗扰动,x是输入,y是标签,θ是模型参数,L(x,y;θ)是单个样本的loss,sign函数是防止扰动过大对做标准化处理,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量hsum′。
(7)把所述扰动后字词特征隐状态向量hsum′输入到CRF模型中进行解码,标注出所述文本特征向量序列中的事件元素及该元素的事件类型,生成对应的事件标签序列。具体实现过程:把所述扰动后字词特征隐状态向量hsum′和所述文本的字符向量序列输入至条件随机场CRF进行解码预测标签,正则化计算给定句子序列s标记为标签序列l的得分,并使用维特比算法计算出最高概率的事件标签序列。
本发明的技术特点和有益效果:
本发明从联合抽取、通过加入自注意力机制的BiLSTM模型获取更加充分语义信息和加入对抗训练三个方面提高事件抽取的准确率和召回率。
Claims (3)
1.一种基于旋转式编码的事件联合抽取方法,其特征在于,包括以下步骤:
(1)BERT预训练模型中的位置编码为绝对位置编码,使用旋转式编码替换绝对位置编码,使其能够处理超过512字节的文本;
(2)对文本预处理后生成的字符集合,使用融合旋转式编码的BERT预训练模型进行向量化;通过BERT预训练模型中内置词汇表建立分词器,将待处理文本以字符为单位,根据固定的文本最大长度对所述文本进行截断或者补0,得到字符向量序列;给定输入句子序列,将句子进行字符向量映射,得到字符向量序列;
(3)对于文本预处理后生成的词汇集合,使用Word2Vec的skip-gram模型进行词嵌入,生成词向量序列,将字符向量序列和词向量序列两个序列叠加,得到一个字词综合向量序列;
(4)将字符向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,生成字符隐状态向量;将字词综合向量序列作为输入序列输入到加入自注意力机制的双向长短期记忆神经网络BiLSTM中,提取文本上下文特征信息,学习词语和词语对应字符之间的语义关系,生成字词综合隐状态向量;
(5)将所述字符隐状态向量和字词综合隐状态向量融合成一个全局特征隐状态向量;向全局特征隐状态向量中加入一定量的负样本,使得模型在预测的时候受到干扰,将全局特征隐状态向量输入到基于梯度上升的对抗神经网络层进行扰动,得到扰动后字词特征隐状态向量;
(6)把所述扰动后字词特征隐状态向量输入至条件随机场CRF进行解码并预测标签,正则化计算给定句子序列标记为标签序列的得分,并使用维特比算法计算出最高得分的事件标签序列。
2.根据权利要求1所述的方法,其特征在于,所述文本预处理方法为:对文本采取BIO的标注方式,把事件类型和事件元素当作一个联合标签进行标注,通过从左往右和从右往左两种序列标注方法进行标注,取两种标注结果的并集作为最终的标注结果;将标注结果以字符为单位,分割为字符集合;用jieba开源中文分词工具对待处理的文本进行分词,生成词汇集合。
3.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述的基于旋转式编码的事件联合抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210473365.0A CN114861601B (zh) | 2022-04-29 | 2022-04-29 | 基于旋转式编码的事件联合抽取方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210473365.0A CN114861601B (zh) | 2022-04-29 | 2022-04-29 | 基于旋转式编码的事件联合抽取方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861601A true CN114861601A (zh) | 2022-08-05 |
CN114861601B CN114861601B (zh) | 2024-04-12 |
Family
ID=82635528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210473365.0A Active CN114861601B (zh) | 2022-04-29 | 2022-04-29 | 基于旋转式编码的事件联合抽取方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861601B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252159A (zh) * | 2023-08-03 | 2023-12-19 | 吉贝克信息技术(北京)有限公司 | 一种支持撤销重做的多人协作的在线xbrl编辑器 |
CN118013201A (zh) * | 2024-03-07 | 2024-05-10 | 暨南大学 | 基于改进bert融合对比学习的流量异常检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
WO2021179570A1 (zh) * | 2020-03-13 | 2021-09-16 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN113889095A (zh) * | 2021-09-06 | 2022-01-04 | 西北工业大学 | 一种基于旋转位置编码的端到端语音识别方法 |
-
2022
- 2022-04-29 CN CN202210473365.0A patent/CN114861601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179570A1 (zh) * | 2020-03-13 | 2021-09-16 | 平安科技(深圳)有限公司 | 序列标注方法、装置、计算机设备和存储介质 |
CN113190602A (zh) * | 2021-04-09 | 2021-07-30 | 桂林电子科技大学 | 融合字词特征与深度学习的事件联合抽取方法 |
CN113889095A (zh) * | 2021-09-06 | 2022-01-04 | 西北工业大学 | 一种基于旋转位置编码的端到端语音识别方法 |
Non-Patent Citations (1)
Title |
---|
魏优;刘茂福;胡慧君;: "基于深层语境词表示与自注意力的生物医学事件抽取", 计算机工程与科学, no. 09, 30 September 2020 (2020-09-30) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252159A (zh) * | 2023-08-03 | 2023-12-19 | 吉贝克信息技术(北京)有限公司 | 一种支持撤销重做的多人协作的在线xbrl编辑器 |
CN118013201A (zh) * | 2024-03-07 | 2024-05-10 | 暨南大学 | 基于改进bert融合对比学习的流量异常检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114861601B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN111626056B (zh) | 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 | |
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN110377902B (zh) | 描述文本生成模型的训练方法和装置 | |
CN114861601A (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN112612871B (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN111897954B (zh) | 一种用户评论方面挖掘系统、方法、及存储介质 | |
Tang et al. | FontRNN: Generating Large‐scale Chinese Fonts via Recurrent Neural Network | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
CN115906815A (zh) | 一种用于修改一种或多种类型错误句子的纠错方法及装置 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115130613A (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
CN111340006A (zh) | 一种手语识别方法及系统 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN114637852A (zh) | 医学文本的实体关系抽取方法、装置、设备及存储介质 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN114155387A (zh) | 利用Logo标志图文信息的相似度Logo发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |