CN114818721A - 一种结合序列标注的事件联合抽取模型与方法 - Google Patents

一种结合序列标注的事件联合抽取模型与方法 Download PDF

Info

Publication number
CN114818721A
CN114818721A CN202210760629.0A CN202210760629A CN114818721A CN 114818721 A CN114818721 A CN 114818721A CN 202210760629 A CN202210760629 A CN 202210760629A CN 114818721 A CN114818721 A CN 114818721A
Authority
CN
China
Prior art keywords
layer
event
sequence
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210760629.0A
Other languages
English (en)
Other versions
CN114818721B (zh
Inventor
熊曙初
张承泉
李轩
胡文灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210760629.0A priority Critical patent/CN114818721B/zh
Publication of CN114818721A publication Critical patent/CN114818721A/zh
Application granted granted Critical
Publication of CN114818721B publication Critical patent/CN114818721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合序列标注的事件联合抽取模型与方法,涉及文本数据挖掘领域技术领域,通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高抽取精度。

Description

一种结合序列标注的事件联合抽取模型与方法
技术领域
本发明属于文本数据挖掘领域,涉及神经网络技术,具体是一种结合序列标注的事件联合抽取模型与方法。
背景技术
随着数字化社会的快速发展,当今世界已进入信息爆炸时代,人工智能方法处理提炼海量信息成为当下的重点研究;事件抽取作为自然语言处理中的关键任务之一,其目的是对各类非结构化信息进行挖掘提取,形成结构化信息,为事件的处理、研判和决策提供支撑;
传统事件抽取方法主要分为基于规则模版与基于机器学习两种;基于规则模版的方法需要针对特定任务构建规则模版,泛化性较差且可移植性较低;基于机器学习的方法需要构造合适的特征与分类器,将事件抽取归类于分类任务,可以获得更好的灵活性与精准度;但该方法需要构建大规模标注训练语料库,语料库质量直接影响抽取效果,需要较高的训练成本;
针对传统方法的不足,现阶段事件抽取主要使用深度学习方法;通过构建大规模深度神经网络,可以获得更强的特征学习与上下文语义感知能力;但现有的深度学习方法都采用管道方式,即先识别事件触发词,再确定事件元素,最后判断事件类型;该方法存在传递误差,任意环节的效果都会极大的影响事件抽取精准度;并且目前的方法忽视了上下文语义关系与词元原始特征的结合,仅仅关注上下文语义关系或词元原始特征,导致捕捉触发词语义能力不足、实体边界识别模糊,限制了事件抽取精度,影响了模型的泛化性。
为此,提出一种结合序列标注的事件联合抽取模型与方法。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出一种结合序列标注的事件联合抽取模型与方法,该一种结合序列标注的事件联合抽取模型与方法通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高了抽取精度。
为实现上述目的,根据本发明的第一方面的实施例提出一种结合序列标注的事件联合抽取模型,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
其中,所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量;所述数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput;
所述最终输入向量Einput的拼接公式如公式(1)所示:
Einput = Etoken + Eposition + Esegment (1);
输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
其中,所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示:
Figure 100002_DEST_PATH_IMAGE001
Figure 989241DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
Figure 100002_DEST_PATH_IMAGE005
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行拼接(向量首尾相连)得到多头自注意力编码层的表征向量;
Figure 100002_DEST_PATH_IMAGE007
将字的表征向量标记为
Figure 46190DEST_PATH_IMAGE008
步骤S6:多头自注意力编码层将表征向量
Figure 704704DEST_PATH_IMAGE008
通过电气方式传输至前馈层;
其中,所述前馈层主要用于利用预训练BERT模型将输出向量
Figure 574833DEST_PATH_IMAGE010
进行编码,获得卷积特征融合层所需要的字向量编码
Figure 609786DEST_PATH_IMAGE012
,其中
Figure 380295DEST_PATH_IMAGE013
为句子包含字符长度,
Figure 209711DEST_PATH_IMAGE014
为BERT嵌入的词向量维度768;前馈层将字向量编码
Figure 65672DEST_PATH_IMAGE015
通过电气方式传输至卷积特征融合层;
其中,所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升;在局部窗口卷积操作上,为输入句子序列词向量设计了窗口大小
Figure 904315DEST_PATH_IMAGE016
为3和5的两种并行化卷积操作,然后将两者结果在特征图上进行堆叠;在上下文语义信息提升部分,利用双层
Figure 998173DEST_PATH_IMAGE016
为5的卷积操作,用来提取上下文高层语义空间信息;特征图表示为公式(5),矩阵
Figure 264069DEST_PATH_IMAGE018
作为卷积操作的卷积核,
Figure 840282DEST_PATH_IMAGE019
为上下文窗口大小,
Figure 826823DEST_PATH_IMAGE020
为词向量的维度;
Figure 306346DEST_PATH_IMAGE022
表示触发词或事件元素周围
Figure 979029DEST_PATH_IMAGE023
个词向量(
Figure 278424DEST_PATH_IMAGE024
),
Figure 458869DEST_PATH_IMAGE026
表示偏置,
Figure 792899DEST_PATH_IMAGE028
表示非线性激活函数;将卷积核扫描句子中每个词,获取融合上下文词级的特征C如公式(6)所示;
Figure 135018DEST_PATH_IMAGE030
Figure 187288DEST_PATH_IMAGE031
所述卷积特征融合层将特征C通过电气方式传输至条件随机场序列解码层;
其中,所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;其中,所述BI标注方式为标注实体的起始位置标记为标签B,实体其余部分标记为标签I,不属于标注内容的标记为标签O;
给定输入序列
Figure 404380DEST_PATH_IMAGE033
和其对应的标签序列
Figure 592916DEST_PATH_IMAGE035
的条件概率
Figure 371516DEST_PATH_IMAGE037
为公式(7),其中
Figure 911082DEST_PATH_IMAGE039
Figure 167751DEST_PATH_IMAGE041
Figure 476373DEST_PATH_IMAGE043
分别是参数权重和偏置;训练过程为学习一组特征向量
Figure 691453DEST_PATH_IMAGE045
,利用条件随机场进行预测条件概率最大的输出序列
Figure 688622DEST_PATH_IMAGE047
为公式(8);
由公式(8)从而得到全局最优的类别标签序列
Figure 14561DEST_PATH_IMAGE049
;训练过程中的优化目标便为正确路径的最大似然,即
Figure 177689DEST_PATH_IMAGE051
,预测时,根据句子标签序列的预测概率进行维特比解码,得到最终的正确标签;
Figure 298092DEST_PATH_IMAGE053
Figure 812249DEST_PATH_IMAGE054
其中,所述输出层用于输出正确标签;
根据本发明的第二方面实施例,提出一种结合序列标注的事件联合抽取方法,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:其中,所述事件触发词是标志某类事件发生的文本,其在事件类别识别中扮演了及其重要的作用;所述事件元素实体是事件中涉及的具体要素所对应的文本,其在事件元素分类中扮演重要角色;事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等;
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签,由于要处理的文本数据为不定长的非结构化数据,不利于模型的并行化处理,为解决这个问题需要将文本固定长度为512个字,如果超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注;
步骤四:将文本信息中每个字经过输入层、多头自注意力编码层以及前馈层,获得相应的字符级特征词向量,得到句子编码表示为
Figure 676300DEST_PATH_IMAGE055
,其中
Figure 428356DEST_PATH_IMAGE015
是句子中的第
Figure 985239DEST_PATH_IMAGE056
个字的编码;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图(feature map)作为每个位置的向量输出,通过最后全连接层的维度转换,可以得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码(BI序列标注Y向量)和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件(矩阵A的参数表现为约束条件)的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中
Figure 219649DEST_PATH_IMAGE058
表示第
Figure 621811DEST_PATH_IMAGE056
个标签到第
Figure 493952DEST_PATH_IMAGE060
个标签的转移得分;模型将整个句子
Figure 221737DEST_PATH_IMAGE062
相对于标签序列
Figure 710487DEST_PATH_IMAGE064
的得分定义为公式(10)其中
Figure 650761DEST_PATH_IMAGE066
为卷积特征融合层的输出标签概率向量,由公式(10)所知,句子序列的得分是由CNN层的输出
Figure 642988DEST_PATH_IMAGE067
与CRF层的转移矩阵
Figure 31420DEST_PATH_IMAGE069
共同决定的;即整个句子对应的标签序列的打分由每个标签位置的得分与标签之间的转移得分共同决定的;随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为
Figure 476308DEST_PATH_IMAGE071
Figure 485852DEST_PATH_IMAGE072
为句子中每个词的标签得分最大的序列;
Figure 598165DEST_PATH_IMAGE073
Figure 402173DEST_PATH_IMAGE075
Figure 599936DEST_PATH_IMAGE077
步骤七:输出句子文本的正确标签。
与现有技术相比,本发明的有益效果是:
本发明通过构建事件描述文件模板,对文本内容进行分词预处理;利用BERT预训练模型转换成对应的词向量,得到事件词向量,并输入至一维卷积神经网络对词向量进行局部特征提取,得到融合上下文特征的词向量;将词向量和通过序列标注编码的事件元素特征输入到条件随机场中,通过随机梯度下降优化方法进行训练;最后利用训练完成的条件随机场序列标注解码模型进行事件联合抽取;本发明利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,提升捕捉语义能力,强化事件元素实体边界,提高了抽取精度;在使用预训练模型的基础上融入上下文词汇语义特征的联合抽取方法,增强对关键实体的抽取和对全局句子语义与局部词汇特征的捕捉能力。
附图说明
图1为本发明的模型图;
图2为本发明的流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种结合序列标注的事件联合抽取模型,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
其中,所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量;所述数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput;
所述最终输入向量Einput的拼接公式为公式(1):
Einput = Etoken + Eposition + Esegment (1);
输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
其中,所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示,
Figure 147592DEST_PATH_IMAGE001
Figure 114411DEST_PATH_IMAGE002
Figure 587855DEST_PATH_IMAGE003
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
Figure 272914DEST_PATH_IMAGE078
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行拼接(向量首尾相连)得到多头自注意力编码层的输出向量;
Figure 624261DEST_PATH_IMAGE079
将字的表征向量标记为
Figure 445587DEST_PATH_IMAGE008
步骤S6:多头自注意力编码层将表征向量
Figure 856977DEST_PATH_IMAGE008
通过电气方式传输至前馈层;
其中,所述前馈层主要用于利用预训练BERT模型将输出向量
Figure 29332DEST_PATH_IMAGE008
进行编码,获得卷积特征融合层所需要的字向量编码
Figure 918791DEST_PATH_IMAGE080
,其中
Figure 860202DEST_PATH_IMAGE081
为句子包含字符长度,
Figure 176914DEST_PATH_IMAGE082
为BERT嵌入的词向量维度768;前馈层将字向量编码
Figure 806871DEST_PATH_IMAGE015
通过电气方式传输至卷积特征融合层;
其中,所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升;在局部窗口卷积操作上,为输入句子序列词向量设计了窗口大小
Figure 500021DEST_PATH_IMAGE083
为3和5的两种并行化卷积操作,然后将两者结果在特征图上进行堆叠;在上下文语义信息提升部分,利用双层
Figure 295939DEST_PATH_IMAGE016
为5的卷积操作,用来提取上下文高层语义空间信息;特征图表示为公式(5),矩阵
Figure 49131DEST_PATH_IMAGE084
作为卷积操作的卷积核,
Figure 930499DEST_PATH_IMAGE085
为上下文窗口大小,
Figure 161761DEST_PATH_IMAGE086
为词向量的维度,“
Figure 77764DEST_PATH_IMAGE087
”操作符表示为两个矩阵对应位置相乘之和;
Figure 1858DEST_PATH_IMAGE021
表示触发词或事件元素周围
Figure 869057DEST_PATH_IMAGE088
个词向量(
Figure 904009DEST_PATH_IMAGE024
),
Figure 143361DEST_PATH_IMAGE089
表示偏置,
Figure 238356DEST_PATH_IMAGE090
表示非线性激活函数;将卷积核扫描句子中每个词,获取融合上下文词级的特征C如公式(6)所示;
Figure 94316DEST_PATH_IMAGE029
Figure 667380DEST_PATH_IMAGE031
所述卷积特征融合层将特征C通过电气方式传输至条件随机场序列解码层;
其中,所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;其中,所述BI标注方式为标注实体的起始位置标记为标签B,实体其余部分标记为标签I,不属于标注内容的标记为标签O;例如表1所示的BI标注示例:
表1
原文
BI标注 B I I I I I I O O B I B I
给定输入序列
Figure 292396DEST_PATH_IMAGE091
和其对应的标签序列
Figure 59758DEST_PATH_IMAGE092
的条件概率
Figure 137435DEST_PATH_IMAGE036
为公式(7),其中
Figure 779769DEST_PATH_IMAGE093
Figure 259292DEST_PATH_IMAGE094
Figure 696089DEST_PATH_IMAGE095
分别是参数权重和偏置;训练过程为学习一组特征向量
Figure 261063DEST_PATH_IMAGE096
,利用条件随机场进行预测条件概率最大的输出序列
Figure 175929DEST_PATH_IMAGE097
为公式(8);
由公式(8)从而得到全局最优的类别标签序列
Figure 775538DEST_PATH_IMAGE098
;训练过程中的优化目标便为正确路径的最大似然,即
Figure 881772DEST_PATH_IMAGE099
,预测时,根据句子标签序列的预测概率进行维特比解码,得到最终的正确标签;
Figure 934042DEST_PATH_IMAGE100
Figure 387020DEST_PATH_IMAGE054
其中,所述输出层用于输出正确标签;
通过结合序列标注的事件联合抽取模型利用单个汉字级的字符特征,避免词表分词错误的问题,并通过局部卷积神经网络,融合局部上下文特征,
提升捕捉语义能力,强化区分事件元素实体边界,提升了抽取精度。
如图2所示,一种结合序列标注的事件联合抽取方法,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;例如自然灾害中的地震事件,其包含以下事件元素:时间、地点、震源深度、震级、受伤人数、死亡人数、财产损失;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:其中,所述事件触发词是标志某类事件发生的文本,其在事件类别识别中扮演了极其重要的作用;所述事件元素实体是事件中涉及的具体要素所对应的文本,其在事件元素分类中扮演重要角色;事件元素实体包括但不限于发生事件、发生地点、事件影响、事件参与方等;
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签,由于要处理的文本数据为不定长的非结构化数据,不利于模型的并行化处理,为解决这个问题需要将文本固定长度为512个字,如果超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注,并将所有文本划分为7:2:1的训练集,测试集以及验证集,划分比例为7:2:1;
步骤四:将文本信息中每个字经过输入层、多头自注意力编码层以及前馈层,获得相应的字符级特征词向量,得到句子编码表示为
Figure 841135DEST_PATH_IMAGE101
,其中
Figure 619735DEST_PATH_IMAGE102
是句子中的第
Figure 628142DEST_PATH_IMAGE103
个字的编码;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图(feature map)作为每个位置的向量输出,通过最后全连接层的维度转换,可以得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码(BI序列标注Y向量)和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件(矩阵A的参数表现为约束条件)的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中
Figure 386276DEST_PATH_IMAGE104
表示第
Figure 694898DEST_PATH_IMAGE056
个标签到第
Figure 644399DEST_PATH_IMAGE059
个标签的转移得分;模型将整个句子
Figure 405682DEST_PATH_IMAGE105
相对于标签序列
Figure 731621DEST_PATH_IMAGE106
的得分定义为公式(10)其中
Figure 894749DEST_PATH_IMAGE107
为卷积特征融合层的输出标签概率向量,由公式(10)所知,句子序列的得分是由CNN层的输出
Figure 15152DEST_PATH_IMAGE108
与CRF层的转移矩阵
Figure 529310DEST_PATH_IMAGE109
共同决定的;即整个句子对应的标签序列的打分由每个标签位置的得分与标签之间的转移得分共同决定的;随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为
Figure 891896DEST_PATH_IMAGE110
Figure 909530DEST_PATH_IMAGE111
为句子中每个词的标签得分最大的序列;例如:
Figure 466413DEST_PATH_IMAGE112
Figure 202288DEST_PATH_IMAGE073
Figure 604451DEST_PATH_IMAGE113
Figure 742171DEST_PATH_IMAGE114
步骤七:输出句子文本的正确标签。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (8)

1.一种结合序列标注的事件联合抽取模型,其特征在于,包括输入层、多头自注意力编码层、前馈层、卷积特征融合层、条件随机场序列解码层以及输出层;
所述输入层用于通过BERT的中文词典对输入的文本序列进行编码,生成模型可以识别的数字向量Einput;输入层生成的最终输入向量Einput通过电气方式传输至多头自注意力编码层;
所述多头自注意力编码层用于通过计算文本序列中不同词之间关联程度,调整权重系数矩阵来计算字的表征向量;多头自注意力编码层将表征向量通过电气方式传输至前馈层;
所述前馈层用于利用预训练BERT模型将输出向量
Figure DEST_PATH_IMAGE001
进行编码,获得卷积特征融合层所需要的字向量编码
Figure DEST_PATH_IMAGE003
,其中
Figure DEST_PATH_IMAGE005
为句子包含字符长度,
Figure DEST_PATH_IMAGE007
为BERT嵌入的词向量维度768;前馈层将字向量编码
Figure 464764DEST_PATH_IMAGE008
通过电气方式传输至卷积特征融合层;
所述卷积特征融合层用于实现局部窗口卷积和上下文语义信息提升并获得融合上下文词级的特征;卷积特征融合层将融合上下文词级的特征通过电气方式传输至条件随机场序列解码层;
所述条件随机场序列解码层用于将文本序列通过BI标注将事件触发词识别、事件要素识别视为一个序列标签分类任务,对标签之间的依赖关系进行建模,获得正确的标签组合;条件随机场序列解码层将正确的标签组合通过电气方式传输至输出层;
所述输出层用于输出正确的标签组合。
2.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述输入层生成的数字向量有词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment三部分组成;并将词向量Etoken、位置表示向量Eposition以及句间分隔向量Esegment拼接为最终输入向量Einput。
3.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述多头自注意力编码层计算字的表征向量包括以下步骤:
步骤S1:所述多头自注意力编码层接收由输入层发送的最终输入向量Einput;
步骤S2:所述多头自注意力编码层加载BERT注意力权重变量Q、K、V,加载公式如公式(2)所示,
Figure DEST_PATH_IMAGE009
Figure 194954DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
步骤S3:对注意力权重变量使用公式(3)自注意力函数得到注意力分数;
Figure DEST_PATH_IMAGE013
步骤S4:设置多头自注意力编码层注意力个数变量m,提供m个不同的视角;对于m个不同的视角,重复执行步骤S2-S3;注意力个数以及视角根据实际经验设置;
步骤S5:将所有自注意力头的信息按公式(4)进行向量首尾相连得到多头自注意力编码层的表征向量;
Figure DEST_PATH_IMAGE015
将字的表征向量标记为
Figure DEST_PATH_IMAGE017
4.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述卷积特征融合层在局部窗口卷积操作上,为输入句子序列词向量设计了窗口大小
Figure 410909DEST_PATH_IMAGE018
为3和5的两种并行化卷积操作,然后将两者结果在特征图上进行堆叠;在上下文语义信息提升部分,利用双层
Figure 150326DEST_PATH_IMAGE018
为5的卷积操作,用来提取上下文高层语义空间信息;特征图表示为公式(5),矩阵
Figure 433540DEST_PATH_IMAGE020
作为卷积操作的卷积核,
Figure DEST_PATH_IMAGE021
为上下文窗口大小,
Figure 318319DEST_PATH_IMAGE006
为词向量的维度;
Figure 708323DEST_PATH_IMAGE022
表示触发词或事件元素周围
Figure DEST_PATH_IMAGE023
个词向量(
Figure 969540DEST_PATH_IMAGE025
),
Figure 185889DEST_PATH_IMAGE026
表示偏置,
Figure 913674DEST_PATH_IMAGE027
表示非线性激活函数;将卷积核扫描句子中每个词,获取融合上下文词级的特征C如公式(6)所示;
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
5.根据权利要求1所述的一种结合序列标注的事件联合抽取模型,其特征在于,所述条件随机场序列解码层给定输入序列
Figure 41904DEST_PATH_IMAGE033
和其对应的标签序列
Figure 575654DEST_PATH_IMAGE035
的条件概率
Figure 443247DEST_PATH_IMAGE037
为公式(7),其中
Figure 341933DEST_PATH_IMAGE039
Figure 442613DEST_PATH_IMAGE041
Figure 186578DEST_PATH_IMAGE043
分别是参数权重和偏置;训练过程为学习一组特征向量
Figure 675721DEST_PATH_IMAGE045
,利用条件随机场进行预测条件概率最大的输出序列
Figure 479729DEST_PATH_IMAGE047
为公式(8);
由公式(8)从而得到全局最优的类别标签序列
Figure 802126DEST_PATH_IMAGE049
;训练过程中的优化目标便为正确路径的最大似然,即
Figure 428411DEST_PATH_IMAGE051
,预测时,根据句子标签序列的预测概率进行维特比解码,得到最终的正确标签
Figure 395230DEST_PATH_IMAGE053
Figure 760352DEST_PATH_IMAGE054
6.一种结合序列标注的事件联合抽取方法,其特征在于,包括以下步骤:
步骤一:构建事件描述文件模板;构建突发事件模板;所述突发事件模板为确定某个突发事件包含多少事件元素;
步骤二:运用JSON格式保存标注好的文本,文本标注按照步骤一中事件描述文件模板的格式,确定事件触发词与事件元素实体事件:
步骤三:读取标注好的JSON文件,对文本进行预处理并根据标注的实体对预处理后的文本打标签;
步骤四:将文本信息中每个字经过输入层、多头自注意力编码层以及前馈层,计算相应的字符级特征词向量,得到句子编码表示为
Figure 179832DEST_PATH_IMAGE056
,其中
Figure 905080DEST_PATH_IMAGE057
是句子中的第
Figure 726406DEST_PATH_IMAGE058
个字的编码;
步骤五:在卷积特征融合层,利用卷积核在句子序列的方向上进行滑动,捕捉每个位置字的语义信息及其上下文窗口特征,最后综合得到特征图作为每个位置的向量输出,通过最后全连接层的维度转换,得到最终标签分类概率;
步骤六:将整个句子的事件类型、事件触发词、事件元素实体特征编码和句子X向量输入到条件随机场中,条件随机场层初始化转移矩阵A,通过模型训练迭代更新参数得到具有约束条件的转移矩阵A,以确保最后预测结果的有效性;将转移矩阵A定义为公式(9), 其中
Figure 771417DEST_PATH_IMAGE060
表示第
Figure 22401DEST_PATH_IMAGE061
个标签到第
Figure 708597DEST_PATH_IMAGE063
个标签的转移得分;模型将整个句子
Figure 23910DEST_PATH_IMAGE065
相对于标签序列
Figure 606201DEST_PATH_IMAGE067
的得分定义为公式(10);其中
Figure 390486DEST_PATH_IMAGE069
为卷积特征融合层的输出标签概率向量,随后,如公式(11)所示用极大似然估计函数作为模型的损失函数;最终模型的输出为
Figure 83635DEST_PATH_IMAGE071
Figure 489340DEST_PATH_IMAGE072
为句子中每个词的标签得分最大的序列;
Figure 570428DEST_PATH_IMAGE073
Figure 451797DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE077
根据句子标签序列的预测概率进行维特比解码,得到最终的正确标签;
步骤七:输出句子文本的正确标签。
7.根据权利要求6所述的一种结合序列标注的事件联合抽取方法,其特征在于,所述事件触发词是标志发生事件的文本;所述事件元素实体是事件中涉及的具体要素所对应的文本。
8.根据权利要求6所述的一种结合序列标注的事件联合抽取方法,其特征在于,所述预处理为将文本固定长度为512个字,若超出固定长度则舍弃多余部分文本,不够补0至固定长度;对文本内容进行BI标注。
CN202210760629.0A 2022-06-30 2022-06-30 一种结合序列标注的事件联合抽取模型与方法 Active CN114818721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210760629.0A CN114818721B (zh) 2022-06-30 2022-06-30 一种结合序列标注的事件联合抽取模型与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210760629.0A CN114818721B (zh) 2022-06-30 2022-06-30 一种结合序列标注的事件联合抽取模型与方法

Publications (2)

Publication Number Publication Date
CN114818721A true CN114818721A (zh) 2022-07-29
CN114818721B CN114818721B (zh) 2022-11-01

Family

ID=82522898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210760629.0A Active CN114818721B (zh) 2022-06-30 2022-06-30 一种结合序列标注的事件联合抽取模型与方法

Country Status (1)

Country Link
CN (1) CN114818721B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN115292504A (zh) * 2022-09-29 2022-11-04 北京如炬科技有限公司 实体关系分类方法、装置、设备及存储介质
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN117390090A (zh) * 2023-12-11 2024-01-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117745395A (zh) * 2024-02-19 2024-03-22 西昌学院 基于个性化居家养老服务的ai信息推送方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN113157916A (zh) * 2021-03-10 2021-07-23 南京航空航天大学 一种基于深度学习的民航突发事件抽取方法
CN113536799A (zh) * 2021-08-10 2021-10-22 西南交通大学 基于融合注意力的医疗命名实体识别建模方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN114298053A (zh) * 2022-03-10 2022-04-08 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114429132A (zh) * 2022-02-24 2022-05-03 南京航空航天大学 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114490995A (zh) * 2022-03-31 2022-05-13 南京众智维信息科技有限公司 多级自注意力的网络安全协同处置作战室语义摘要方法
CN114579695A (zh) * 2022-01-20 2022-06-03 杭州量知数据科技有限公司 一种事件抽取方法、装置、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN108628823A (zh) * 2018-03-14 2018-10-09 中山大学 结合注意力机制和多任务协同训练的命名实体识别方法
CN108897989A (zh) * 2018-06-06 2018-11-27 大连理工大学 一种基于候选事件元素注意力机制的生物事件抽取方法
CN110633409A (zh) * 2018-06-20 2019-12-31 上海财经大学 一种融合规则与深度学习的汽车新闻事件抽取方法
CN111259666A (zh) * 2020-01-15 2020-06-09 上海勃池信息技术有限公司 一种结合多头自注意力机制的cnn文本分类方法
CN112528643A (zh) * 2020-12-14 2021-03-19 上海栖盟科技有限公司 一种基于神经网络的文本信息提取方法及装置
CN113157916A (zh) * 2021-03-10 2021-07-23 南京航空航天大学 一种基于深度学习的民航突发事件抽取方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法
CN113536799A (zh) * 2021-08-10 2021-10-22 西南交通大学 基于融合注意力的医疗命名实体识别建模方法
CN114579695A (zh) * 2022-01-20 2022-06-03 杭州量知数据科技有限公司 一种事件抽取方法、装置、设备及存储介质
CN114429132A (zh) * 2022-02-24 2022-05-03 南京航空航天大学 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114330354A (zh) * 2022-03-02 2022-04-12 杭州海康威视数字技术股份有限公司 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114298053A (zh) * 2022-03-10 2022-04-08 中国科学院自动化研究所 一种基于特征和注意力机制融合的事件联合抽取系统
CN114490995A (zh) * 2022-03-31 2022-05-13 南京众智维信息科技有限公司 多级自注意力的网络安全协同处置作战室语义摘要方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238685A (zh) * 2022-09-23 2022-10-25 华南理工大学 一种基于位置感知的建筑工程变更事件联合抽取方法
CN115292504A (zh) * 2022-09-29 2022-11-04 北京如炬科技有限公司 实体关系分类方法、装置、设备及存储介质
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN115994539B (zh) * 2023-02-17 2024-05-10 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN117390090A (zh) * 2023-12-11 2024-01-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117390090B (zh) * 2023-12-11 2024-04-12 安徽思高智能科技有限公司 一种rpa流程挖掘方法、存储介质、电子设备
CN117745395A (zh) * 2024-02-19 2024-03-22 西昌学院 基于个性化居家养老服务的ai信息推送方法及系统
CN117745395B (zh) * 2024-02-19 2024-05-14 西昌学院 基于个性化居家养老服务的ai信息推送方法及系统

Also Published As

Publication number Publication date
CN114818721B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN114818721B (zh) 一种结合序列标注的事件联合抽取模型与方法
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
US20240177047A1 (en) Knowledge grap pre-training method based on structural context infor
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN113255294B (zh) 命名实体识别模型训练方法、识别方法及装置
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111695053A (zh) 序列标注方法、数据处理设备、可读存储介质
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
CN114065702A (zh) 一种融合实体关系和事件要素的事件检测方法
CN113806646A (zh) 序列标注系统及序列标注模型的训练系统
CN113609857B (zh) 基于级联模型和数据增强的法律命名实体识别方法及系统
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN114020900A (zh) 基于融合空间位置注意力机制的图表英语摘要生成方法
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN112148879B (zh) 一种自动给代码打数据结构标签的计算机可读存储介质
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN114297408A (zh) 一种基于级联二进制标注框架的关系三元组抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant