CN116861901B - 一种基于多任务学习的中文事件检测方法、系统和电子设备 - Google Patents
一种基于多任务学习的中文事件检测方法、系统和电子设备 Download PDFInfo
- Publication number
- CN116861901B CN116861901B CN202310817127.1A CN202310817127A CN116861901B CN 116861901 B CN116861901 B CN 116861901B CN 202310817127 A CN202310817127 A CN 202310817127A CN 116861901 B CN116861901 B CN 116861901B
- Authority
- CN
- China
- Prior art keywords
- event
- prompt
- event detection
- chinese
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 187
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000002372 labelling Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 77
- 239000011159 matrix material Substances 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 36
- 239000000463 material Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000002457 bidirectional effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于多任务学习的中文事件检测方法,本发明通过设计一种基于标注数据构建的事件检测提示,事件检测提示包括可学习的占位提示符,基于该事件检测提示,构建基于多任务学习的语言模型网络,并将该事件检测提示和原始文本一同对语言模型网络进行训练;与现有技术相比,由于事件检测提示包含可学习的占位提示符,所以能够自动根据原始文本进行构建,打破了人工构建提示模块无法穷举的局限性;同时本发明将原始文本与本发明构建的事件检测提示一起输入到语言模型网络中进行训练,能够很好的获取到中文的触发词以及对应的上下文信息,提高对中文事件的检测性能。
Description
技术领域
本发明涉及文本事件检测领域,更具体地,涉及一种基于多任务学习的中文事件检测方法、系统和电子设备。
背景技术
事件是指发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或多个角色参与的一个或多个动作组成的事情或状态的改变。事件检测旨在从描述事件信息的非结构文本中识别出事件及其类型并以结构化的形式呈现出来。随着Web2.0的快速发展,人类社会步入大数据时代。利用事件检测技术,让计算机具备从文本中获取事件粒度信息能力,帮助用户自动化处理海量文本数据,提升文字处理效率和文本挖掘深度,降低人工成本。现有事件检测研究主要面向英文文本,中文事件检测仍在起步阶段。因此,面向中文文本开展事件检测研究是非常有必要的。中文事件检测技术实现自动化获取事件粒度的语言资源,为信息检索、智能问题和事件知识图谱构建奠定坚实基础,具有重要的应用价值和研究意义。
由于中文文本最小单位与语义最小单位不一致,传统的循环神经网络和卷积神经网络很难捕获到事件触发词和上下文之间的全局信息,导致事件检测性能不高。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供一种基于多任务学习的中文事件检测方法,用于提高文本事件检测对中文事件检测的性能。
本发明采取的技术方案是:
一种基于多任务学习的中文事件检测方法,所述方法包括:
获取目标领域的中文语料,,然后对所述中文语料进行标注,以标注好的中文语料构建事件检测语料;所述事件检测语料包括中文语料的原始文本和对应的标注,以及根据中文语料构建的触发词词典,所述触发词词典用于根据触发词查询对应的事件类型,以及根据事件类型查询对应的触发词;原始文本为获取到的没有进行标注和操作的中文原始文本;
根据所述事件检测语料的原始文本构建事件检测提示;所述事件检测提示包括提示占位符,用于将事件检测语料中对应的原始文本转换为向量然后根据标注信息把该向量注入所述提示占位符中;构建基于多任务学习的语言模型网络;所述语言模型网络包括共享编码层和多任务学习层,其中所述共享编码层用于将事件检测提示根据对应的事件检测语料编码为隐藏向量矩阵,再转化为嵌入向量矩阵;所述多任务学习层通过多任务方式接收共享编码层输出的嵌入向量矩阵,然后基于该嵌入向量矩阵对触发词进行预测和事件类型识别,并根据预测结果反向更新所述共享编码层;将事件检测语料的原始文本和对应的事件检测提示构建输入序列输入所述语言模型网络进行训练,获得训练好的语言模型网络;
使用训练好的语言模型网络对需要识别的中文事件进行类型识别。
本发明设计了一种基于标注数据构建的事件检测提示,事件检测提示包括可学习的占位提示符,所以能够自动根据原始文本进行构建,打破了人工构建提示模块无法穷举的局限性;同时本发明构建了基于多任务学习的语言模型网络,将原始文本与本发明构建的事件检测提示一起输入到语言模型网络中进行训练,能够很好的获取到中文的触发词以及对应的上下文信息,另外,在学习的过程中通过多任务学习层来反向更新共享编码层,以对触发词的预测作为辅助任务,类型识别作为主要任务,能够更好的提高模型对中文识别任务的精度。
进一步的,所述事件检测提示Prompt(Event Detection)包括字符级提示占位符[Event_Prompt_n,EP_n]和[Trigger_Prompt,TP],Prompt(Event Detection)的具体形式为:
Prompt(Event Detection)=[EP_1][EP_2]…[TP][TP]…[EP_n-1][EP_n]
其中,[TP]为待预测的事件类型触发词对应的提示占位符,[EP_n]为待预测的事件触发词的上下文信息对应的提示占位符,[TP]设置在Prompt(Event Detection)中的任意位置,[EP_n]和[TP]为连续空间内的可学习向量,n为可设置超参数。事件检测提示由两种字符级提示占位符组成,其中[TP]中填充事件的触发词向量,[EP_n]则填充触发词对应的上下文信息向量信息,能够将原始文本的对应内容自动的填充到该事件检测提示的对应占位符中。
进一步的,根据所述事件检测语料的原始文本构建事件检测提示包括:
根据所述触发词词典,从所述事件检测语料中获取原始文本和其对应的标注,根据标注获得该原始文本的事件类型以及该事件类型的代表触发词,标记其对应的事件检测提示Prompt(Event Detection)中提示占位符[TP]为事件类型的代表触发词,然后将上下文内容填充至Prompt(Event Detection)中提示占位符[EP_n]中。进一步的,所述根据标注获得原始文本的事件类型以及该事件类型的代表触发词包括:
通过统计所述触发词词典中所有事件类型的触发词的出现频率,根据公式:
Ts=argmax(x=t,y=S)
选取出现词频最高的触发词来作为该事件类型的代表触发词Ts,其中,S为当前统计的事件类型,t为该事件类型的触发词集合。一个类型的事件的触发词可能有多个,为了能够更好的进行识别,需要确定一类事件的一类事件的代表触发词,以出现频率作为依据,能够更好的确定该类事件的代表触发词,并以该代表触发词来填充至事件检测提示的占位符中,使对该类事件的预测和识别更精确。
进一步的,所述共享编码层包括事件检测提示编码层和预训练语言编码层;所述多任务学习层包括事件触发词预测任务层和事件触发词识别任务层;
所述共享编码层的输入包括事件检测语料的原始文本与其对应事件检测提示,其中,所述事件检测提示编码层用于捕获输入的事件检测提示部分的[EP_n]和[TP]之间的信息并对其进行编码输出对应的嵌入向量矩阵;所述预训练语言编码层用于对输入的原始文本部分进行编码输出对应的嵌入向量矩阵;
所述事件触发词预测任务层包括MLM(Masked Language Model)层,用于根据共享编码层输出的向量矩阵完成事件类型的触发词预测任务,并根据预测结果通过反向传播优化方式来优化所述事件检测提示编码层和共享编码层的权重参数;
所述事件触发词识别任务层包括Token Classifier层,用于根据共享编码层输出的向量矩阵完成事件类型的触发词识别任务。
优选的,所述事件检测提示编码层包括Embedding向量矩阵和双向GRU神经网络,所述Embedding向量矩阵将输入进行向量化,然后输入所述双向GRU神经网络的重置门和更新门进行训练;所述双向GRU神经网络通过更新门和重置门捕获所述提示占位符[EP_n]和[TP]之间的信息;
其中,所述预训练语言编码层包括经过海量无监督语料训练的预训练语言模型,蕴含丰富的文本知识,在其训练的过程中形成了对应的语义词典;另外,事件检测编码层中通过双向GRU神经网络来获取所述提示占位符[EP_n]和[TP]之间的信息,具体包括:
将每个提示占位符向量输入更新门,更新门中每一时刻的占位提示符与权重W(z)相乘,同时将前一时刻的占位提示符相加并投入到激活函数中,从而有效捕获提示占位符间长期依赖关系信息,所输出的信息为:
zt=σ(W(z)xt+U(z)ht-1)
其中,zt为t时刻更新门的门控信号,W(z)为更新门中对输入进行编码的参数矩阵,xt为当前的输入,ht-1为上一时刻的隐藏层状态,U(z)为更新门的权重,W(z)和U(z)为待训练参数,σ(·)为用于门的sigmoid激活函数;
同时,将每个提示占位符向量输入重置门,通过重置门捕获短期依赖关系信息,所输出的信息为:
rt=σ(W(r)xt+U(r)ht-1)
其中,rt为t时刻重置门的输出信息,W(r)为重置门中对输入进行编码的参数矩阵,xt为当前的输入,ht-1为上一时刻的隐藏层状态,U(r)为重置门的权重,W(r)和U(r)为待训练参数,σ(·)为用于门的sigmoid激活函数;
通过计算每个提示占位符的信息关系,将事件检测提示编码为隐藏向量矩阵,然后再将隐藏向量矩阵转换为与预训练语音编码层输出维度一致的嵌入向量矩阵,具体的维度可以为768维;通过将事件检测编码层与预训练语言编码层构建共享编码层,事件检测编码层能够有效的利用预训练语言编码层的丰富的文本知识,提高对事件检测提示编码的精度;同时,MLM层的输出空间为预训练语言模型词典的子集,通过在预训练语言模型上进行微调实现,这样使得MLM层所在的事件触发词预测任务层的预测任务与预训练语言模型的任务一致,可以更好的激活预训练语言模型的潜力,通过MLM层将下游任务转换为更接近预训练语言模型的形式,提高事件触发词预测的精度,进而提高最终事件类型识别的精度。
进一步的,所述输入序列的构建方法包括:将事件检测提示作为前置语义信息拼接到对应的原始文本前,形成输入序列Inputh=prompth+texth,具体为:
Inputh=[CLS][EP1][EP2]…[TP][TP]…[EPn-1][EPn][SEP][原始文本][SEP];
其中[CLS]标志放在第一个句子的首位,[SEP]用于分开两个句子。
通过将事件检测提示与原始文本进行拼接,使事件检测提示能够更好的与原始文本信息进行关联,提高中文事件类型识别的精度。
进一步的,所述触发词预测任务包括:
在[TP]位置待预测输出的候选词集合T={T0,T1,……Ti}中选择语义最合理的词填入到所述事件检测提示的[TP]位置;
所述候选词集合T={T0,T1,……Ti}为所述预训练语言编码层对应的语义词典的子集,以M(Ti|Inputh)表示对应的输入序列在其[TP]位置预测为触发词Ti的得分:
Logits(Ti)=M(Ti|Inputh)
使用Softmax函数对所述Logits(Ti)归一化求出[TP]位置的输出预测值。
通过这种计算方式无需引入额外参数作为每个通过标注添加的标签所对应的空间表征,过去这部分参数往往需要针对下游任务从头学习,而MLM层输出的[TP]是在预训练语言编码层的语义词典中的,于是只需要调整事件触发词的预训练表征让它在事件类型上线性可分即可。
进一步的,所述使用训练好的语言模型网络对需要识别的中文事件进行类型识别包括:
S51:为需要检测的中文事件进行初始化得到对应的事件检测提示;
S52:将所述事件检测提示与所述需要检测的中文事件的原始文本进行拼接形成所述输入序列;
S53:将输入序列输入到所述共享编码层获取对应的嵌入向量矩阵;
S54:将嵌入向量矩阵输入所述事件触发词预测任务层完成事件触发词预测任务,并将预测的事件触发词和对应的上下文信息注入到事件检测提示对应的提示占位符位置;
S55:将步骤S54中获取的事件检测提示与原始文本拼接形成新输入序列并将该新输入序列输入共享编码层重新编码,然后将重新编码后的输入序列输入事件触发词识别任务层完成对事件触发词的识别。
本发明还提供一种基于多任务学习的中文事件检测系统,所述系统基于上述所述的一种基于多任务学习的中文事件检测方法,包括:
事件抓取模块:用于抓取目标领域的中文语料,以及获取待识别的中文事件;
数据处理模块:用于对事件抓取模块抓取的中文语料进行标注,以及将标注好的中文语料构建用于语言模型网络训练的训练集;
数据存储模块:用于将标注好的中文语料存储至语料数据库;
模型训练模块:用于使用构建好的训练集来对语言模型网络进行训练,获取训练好的语言模型网络;
事件识别模块:将所述待识别的中文事件输入训练好的语言模型网络,对中文事件类型进行识别,同时将识别后的中文事件存储至数据存储模块。
本发明还提供一种基于多任务学习的中文事件检测的电子设备,包括:
存储器和处理器;
所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器处理时根据上述所述的一种基于多任务学习的中文事件检测方法或上述所述的一种基于多任务学习的中文事件检测系统。
与现有技术相比,本发明的有益效果为:
1.本发明通过设计了一种基于标注数据的事件检测提示,事件检测提示包括可学习的提示占位符,能够在学习过程中将中文事件的向量自动填充到其中,打破了人工构建提示模块无法穷举的局限性;并且为中文的事件触发词设置了对应的占位符,能够与原始文本一同输入识别学习,获取上下文信息,提高对中文事件类型识别的精度。
2.本发明通过构建了基于多任务学习的语言模型网络,将事件检测提示编码层和经过预先学习的预训练语言编码层构建共享编码层,充分的利用了预训练语言编码层在文本识别上的优势;同时以事件触发词预测任务为辅,以事件触发词识别任务为主,通过事件触发词预测层的MLM层反向优化共享编码层的权重,以预测的结果注入到事件检测提示中,进一步提高事件类型识别的精度。
附图说明
图1为本发明的检测方法的步骤流程图。
图2为本发明的具体识别的步骤流程图。
图3为本发明的事件触发词预测任务的结构流程图。
图4为本发明的整体结构流程图。
图5为本发明的实施例2的系统结构图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例提供一种基于多任务学习中文事件检测方法,所述方法包括:
S1:获取目标领域的中文语料,,然后对所述中文语料进行标注,以标注好的中文语料构建事件检测语料;所述事件检测语料包括中文语料的原始文本和对应的标注,以及根据中文语料构建的触发词词典,通过触发词词典能够根据领域的触发词查询对应的事件类型,以及根据事件类型查询对应的触发词;原始文本为获取到的没有进行标注和操作的中文原始文本。
具体的,在本步骤中,可以从粤港澳高校联盟官方网站上爬取高校国际交流合作成果信息包括正文、标题等内容。根据从网站爬取的中文语料构建高校国际合作与交流领域的触发词词典,并采用BIO标注规范对爬取的中文语料进行标注,根据标注好的中文语料构建事件检测语料库,其中B表示触发词的开始位置,I表示触发词的内部位置,O表示为非触发词字符。例如在文本“粤港两地姊妹学校缔结,是推动粤港澳大湾区教育交流合作的重要举措”中,“缔结”为事件触发词,“缔”标注为“B-合作行为-教育交流”,“结”标注为“I-合作行为-教育交流”,其他字符标注为O。本实施例提供的标注方法,相较于现有技术中提供的针对命名实体等名词为主的标注方法,更适用于以动词为主的事件触发词,从而实现对事件进行准确快速标记。
S2:根据所述事件检测语料的原始文本构建事件检测提示;所述事件检测提示包括提示占位符,用于将事件检测语料中对应的原始文本转换为向量然后根据标注信息把该向量注入所述提示占位符中,则事件检测提示中的提示占位符对应形成用于学习的标签;如上述例子中,原始文本为“粤港两地姊妹学校缔结,是推动粤港澳大湾区教育交流合作的重要举措”这一中文文本内容,则将该中文文本内容转换为向量后注入到一个事件检测提示中;
进一步的,在本步骤中,通过事件检测语料,具体为通过事件检测语料中的触发词词典,统计触发词词典中所有事件类型的触发词的出现频率,根据公式:
Ts=argmax(x=t,y=S)
其中S为当前统计的事件类型,t为该事件类型的触发词集合,选取出现词频最高的触发词来作为该事件类型的代表触发词Ts。
同时,在本步骤中所构建的事件检测提示表示为Prompt(Event Detection),其中包括字符级提示占位符[Event_Prompt_n,EP_n]和[Trigger_Prompt,TP],Prompt(Event Detection)的具体形式表现为:
Prompt(Event Detection)=[EP_1][EP_2]…[TP][TP]…[EP_n-1][EP_n]
其中,[TP]为待预测的事件类型触发词对应的提示占位符,[EP_n]为待预测的事件触发词的上下文信息对应的提示占位符,[TP]设置在Prompt(Event Detection)中的任意位置,[EP_n]和[TP]为连续空间的可学习向量,n为可设置超参数;通过设置提示占位符,并且设置为可学习向量,在模型学习和识别的过程中能够自动将对应的向量注入其中;在本步骤的构建事件检测提示的过程中,根据触发词词典,从在步骤S1中构建的事件检测语料中获取原始文本和其对应的标注,根据标注获得该原始文本的事件类型以及该事件类型的代表触发词,标记其对应的事件检测提示Prompt(Event Detection)中提示占位符[TP]为事件类型的代表触发词,然后将上下文内容填充至Prompt(Event Detection)中提示占位符[EP_n]中。同样以“粤港两地姊妹学校缔结,是推动粤港澳大湾区教育交流合作的重要举措”为例,通过其标注“合作行为-教育交流”查询触发词词典,获取到其代表触发词为“缔结”,然后将“缔结”转换为向量注入到其对应的事件检测提示中的[TP]位置,其他部分则作为上下文信息转换为向量后注入到事件检测提示中的[EP_n]位置。
S3:构建基于多任务学习的语言模型网络;所述语言模型网络包括共享编码层和多任务学习层,其中所述共享编码层用于将事件检测提示根据对应的事件检测语料编码为隐藏向量矩阵,再转化为嵌入向量矩阵;所述多任务学习层通过多任务方式接收共享编码层输出的嵌入向量矩阵,然后基于该嵌入向量矩阵对触发词进行预测和事件类型识别,并根据预测结果反向更新所述共享编码层;
具体的,在该步骤中,如图4所示,所述共享编码层包括事件检测提示编码层和预训练语言编码层;共享编码层的输入包括事件检测语料的原始文本与其对应事件检测提示,其中,事件检测提示编码层用于捕获输入的事件检测提示部分的[EP_n]和[TP]之间的信息并对其进行编码输出对应的嵌入向量矩阵,预训练语言编码层用于对输入的原始文本部分进行编码输出对应的嵌入向量矩阵;其中预训练语言编码层包括预训练语言模型,该预训练语言模型经过海量无监督语料训练所得,蕴含丰富的文本知识;以该预训练语言模型形成的共享编码层,能够使其中的事件检测提示很好的利用该预训练语言模型的资源;同时所述事件检测提示编码层包括Embedding向量矩阵和双向GRU神经网络,所述Embedding向量矩阵将输入进行向量化,然后输入所述双向GRU神经网络的重置门和更新门进行训练,通过重置门和更新门来捕获其中的提示占位符[EP_n]和[TP]之间的信息,具体为:
将每个提示占位符向量输入更新门,更新门中每一时刻的占位提示符与权重U(z)相乘,同时将前一时刻的占位提示符相加并投入到激活函数中,从而有效捕获提示占位符间长期依赖关系信息,所输出的信息为:
zt=σ(W(z)xt+U(z)ht-1)
其中,zt为t时刻更新门的门控信号,W(z)为更新门中对输入进行编码的参数矩阵,xt为当前的输入,ht-1为上一时刻的隐藏层状态,U(z)为更新门的权重,W(z)和U(z)为待训练参数;
同时,将每个提示占位符向量输入重置门,通过重置门捕获短期依赖关系信息,所输出的信息为:
rt=σ(W(r)xt+U(r)ht-1)
其中,rt为t时刻重置门的输出信息,W(r)为重置门中对输入进行编码的参数矩阵,xt为当前的输入,ht-1为上一时刻的隐藏层状态,U(r)为重置门的权重,W(r)和U(r)为待训练参数;通过获取提示占位符的短期依赖关系信息和长期依赖关系信息,进而能够很好地获取提示占位符[EP_n]和[TP]之间的信息;通过事件检测编码层后,事件检测提示被编码为隐藏向量矩阵,为了能够使事件检测编码层的输出与预训练语言编码层的输出保持一致,事件检测提示层还包括全连接神经网络层,全连接神经网络层设置在事件检测提示编码层后,事件检测提示的隐藏向量矩阵通过全连接神经网络层将其转换为与预训练语言编码层输出具有相同维度的嵌入向量矩阵,该维度可以设置为786维;经过编码的事件检测提示和原始文本的嵌入向量矩阵具有相同的向量维度,能够很好的实现两个部分的拼接。
所述多任务学习层包括事件触发词预测任务层和事件触发词识别任务层;其中,事件触发词预测任务层包括MLM(Masked Language Model)层,用于根据共享编码层输出的嵌入向量矩阵完成事件类型的触发词预测任务,并根据预测结果通过反向传播优化方式来优化所述事件检测提示编码层和共享编码层的权重参数;MLM层的输出空间为预训练语言编码层中的预训练语言模型所对应的语义词典的子集,该语义词典为对预训练语言模型进行预训练中获得的,与上述触发词词典的构建方式类似,MLM层通过对预训练语言模型进行微调获得,这使得事件触发词预测任务层的预测任务与预训练语言模型的任务一致,可以更好的激活预训练语言模型的潜力,同时通过MLM层将下游任务转换为更接近预训练语言模型的形式,也能够提高MLM层精度,进而提高触发词预测任务的精度;
触发词预测任务其实质为根据输入到事件触发词预测任务层的嵌入向量矩阵,将最合适的触发词填入到事件检测提示的[TP]位置,具体为,首先需要构建输入序列,构建输入序列具体包括:将事件检测提示作为前置语义信息拼接到对应的原始文本前,形成输入序列Inputh=prompth+texth,具体形式为:
Inputh=[CLS][EP1][EP2]…[TP][TP]…[EPn-1][EPn][SEP][原始文本][SEP]。
其中[CLS]标志放在第一个句子的首位,[SEP]用于分开两个句子。将该输入序列输入到共享编码层,共享编码层根据标志将事件检测提示部分使用事件检测编码层进行编码,将原始文本部分使用预训练语言编码层进行编码,然后将生成的嵌入向量矩阵拼接后进入事件触发词预测层,在上述说明中,MLM层通过对预训练语言模型微调而成,其输出空间为语义词典的子集,所以具体的触发词预测任务相当于:在候选词集合,即语义词典的子集T={T0,T1,……Ti}中选择语义最合理的词来填入事件检测提示的[TP]位置;更具体的,以M(Ti|Inputh)表示对应的输入序列在其[TP]位置预测为触发词Ti的得分:
Logits(Ti)=M(Ti|Inputh)
使用Softmax函数对所述Logits(Ti)归一化求出[TP]位置的输出预测值。通过这种计算方式无需引入额外参数作为每个通过标注添加的标签所对应的空间表征,过去这部分参数往往需要针对下游任务从头学习,而MLM层输出的[TP]是在预训练语言编码层的语义词典中的,于是只需要调整事件触发词的预训练表征让它在事件类型上线性可分即可。同时,事件触发词预测任务与预训练语言模型中的预训练任务在形式上高度一致,都是类完形填空的形式,在训练过程中学习目标一致。
所述事件触发词识别任务层包括Token Classifier层,用于根据共享编码层输出的向量矩阵完成事件类型的触发词识别任务。Token Classifier是通过随机初始化进行训练的。
S4:将事件检测语料的原始文本和对应的事件检测提示构建输入序列输入所述语言模型网络进行训练,获得训练好的语言模型网络;
具体的,在本步骤中,以事件检测提示和原始文本构建输入序列的方法在上述描述中已经叙述,这里不再叙述,在构建好输入序列后,将输入序列输入到构建好的语言模型网络中进行训练,在训练过程中,主要基于MLM层完成事件触发词预测任务,在语言模型网络的学习过程中,从原始文本转换的连续向量空间内搜索[TP]和[EP_n]的最优表示作为事件检测提示,在上述描述也已说明。而模型的目标在于收敛事件触发词预测任务的预测得到的标签与作为训练集的事件检测提示的标签之间的差距,具体使用交叉熵来计算这一差距。为了使事件触发词预测任务更接近预训练语言模型的训练任务,有效利用预训练语言模型的丰富的文本知识和在类完形填空上的先验优势,在本实施例中,事件触发词预测任务只预测[TP]位置的词,其他位置的词以0作为标注进行遮蔽,使其不参加交叉熵的计算。并且在整体的模型训练过程中,通过反向传播机制来更新共享编码层的参数和权重,同时将预测的事件触发词和事件触发词对应的上下文信息以向量形式注入事件检测提示中,并以该注入事件触发词和上下文信息后的事件检测提示重新通过共享编码层进行编码,然后通过事件触发词识别任务进行学习和识别。
S5:使用训练好的语言模型网络对需要识别的中文事件类型进行类型识别。
具体的,如图2所示,该步骤包括以下步骤:
S51:为需要检测的中文事件进行初始化得到对应的事件检测提示;
S52:将所述事件检测提示与所述需要检测的中文事件的原始文本进行拼接形成所述输入序列;
S53:将输入序列输入到所述共享编码层获取对应的嵌入向量矩阵;
S54:将嵌入向量矩阵输入所述事件触发词预测任务层完成事件触发词预测任务,并将预测的事件触发词和对应的上下文信息注入到事件检测提示对应的提示占位符位置;
S55:将步骤S54中获取的事件检测提示与原始文本拼接形成新输入序列并将该新输入序列输入共享编码层重新编码,然后将重新编码后的输入序列输入事件触发词识别任务层完成对事件触发词的识别。
以具体实施方式进行说明,对原始文本“中国拳王徐灿击败日本拳王”进行触发词识别,首先为该原始文本初始化一个事件检测提示,然后将该事件检测提示与原始的中文文本进行拼接形成输入序列,具体为:
Inputh=[CLS][EP1][EP2][TP][TP][EP3][EP4][SEP][中国拳王徐灿击败日本拳王][SEP];
如图3所示,将该输入序列输出到训练好的语言模型网络中,其中共享编码层根据检测到的标签信息,将前置的事件检测提示输入到事件检测提示编码层进行编码处理,将原始文本输入到预训练语言编码层进行编码处理;经过共享编码层编码后,将输入序列转化为对应的嵌入向量矩阵,并输入到事件触发词预测层来对事件触发词进行预测,在本实施例中,所识别到的事件触发词为“击败”。在获得事件触发词后,通过反向更新将该触发词与上下文信息重新以向量的形成重新注入到事件检测提示中,“击败”注入到事件检测提示的[TP]位置,其他部分作为上下文信息注入[EP_n]的位置,然后将事件检测提示重新与原始文本进行拼接形成新的输入序列,在将该新输入序列输入到共享编码层,共享编码层获取该新输入序列的隐藏向量表示,并通过微调获取每个事件检测提示上的标签所对应的向量表示,然后将该向量输入事件触发词识别任务层,事件触发词识别任务层会根据事件检测提示和原始文本中的信息来完成对事件触发词的识别,并以BIO的形式来表示,在本实施例中,根据预测的事件触发词“击败”,最终识别的结果表示为“击”被识别为“B-竞赛行为-胜负”,“败”被识别为“I-竞赛行为-胜负”。
实施例2
如图5所示,本实施例提供一种基于多任务学习的中文事件检测系统,所述系统基于实施例1中的一种基于多任务学习的中文事件检测方法,包括:
事件抓取模块:用于抓取目标领域的中文语料,以及获取待识别的中文事件;
数据处理模块:用于对事件抓取模块抓取的中文语料进行标注,以及将标注好的中文语料构建用于语言模型网络训练的训练集;
数据存储模块:用于将标注好的中文语料存储至语料数据库;
模型训练模块:用于使用构建好的训练集来对语言模型网络进行训练,获取训练好的语言模型网络;
事件识别模块:将所述待识别的中文事件输入训练好的语言模型网络,对中文事件类型进行识别,同时将识别后的中文事件存储至数据存储模块。
实施例3
本实施例提供一种基于多任务学习的中文事件检测的电子设备,包括:
存储器和处理器;
所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器处理时根据实施例1中的一种基于多任务学习的中文事件检测方法或实施例2中的一种基于多任务学习的中文事件检测系统。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于多任务学习的中文事件检测方法,其特征在于,所述方法包括:
获取目标领域的中文语料,然后对所述中文语料进行标注,以标注好的中文语料构建事件检测语料;所述事件检测语料包括中文语料的原始文本和对应的标注,以及根据中文语料构建的触发词词典,所述触发词词典用于根据触发词查询对应的事件类型,以及根据事件类型查询对应的触发词;原始文本为获取到的没有进行标注和操作的中文原始文本;
根据所述事件检测语料的原始文本构建事件检测提示;所述事件检测提示包括提示占位符,用于将事件检测语料中对应的原始文本转换为向量然后根据标注信息把该向量注入所述提示占位符中;
所述事件检测提示Prompt(Event Detection)包括字符级提示占位符[Event_Prompt_n,EP_n]和[Trigger_Prompt,TP],Prompt(Event Detection)的具体形式为:
Prompt(Event Detection)=[EP_1][EP_2]…[TP][TP]…[EP_n-1][EP_n]
其中,[TP]为待预测的事件类型触发词对应的提示占位符,[EP_n]为待预测的事件触发词的上下文信息对应的提示占位符,[TP]设置在Prompt(Event Detection)中的任意位置,[EP_n]和[TP]为连续空间内的可学习向量,n为可设置超参数;
所述根据所述事件检测语料的原始文本构建事件检测提示,具体包括:
根据所述触发词词典,从所述事件检测语料中获取原始文本和其对应的标注,根据标注获得该原始文本的事件类型以及该事件类型的代表触发词,标记其对应的事件检测提示Prompt(Event Detection)中提示占位符[TP]为事件类型的代表触发词,然后将上下文内容填充至Prompt(Event Detection)中提示占位符[EP_n]中;
构建基于多任务学习的语言模型网络;所述语言模型网络包括共享编码层和多任务学习层,其中所述共享编码层用于将事件检测提示根据对应的事件检测语料编码为隐藏向量矩阵,再转化为嵌入向量矩阵;所述多任务学习层通过多任务方式接收共享编码层输出的嵌入向量矩阵,然后基于该嵌入向量矩阵对触发词进行预测和事件类型识别,并根据预测结果反向更新所述共享编码层;将事件检测语料的原始文本和对应的事件检测提示构建输入序列输入所述语言模型网络进行训练,获得训练好的语言模型网络;
所述共享编码层包括事件检测提示编码层和预训练语言编码层;所述多任务学习层包括事件触发词预测任务层和事件触发词识别任务层;
所述共享编码层的输入包括事件检测语料的原始文本与其对应事件检测提示,其中,所述事件检测提示编码层用于捕获输入的事件检测提示部分的[EP_n]和[TP]之间的信息并对其进行编码输出对应的嵌入向量矩阵;所述预训练语言编码层用于对输入的原始文本部分进行编码输出对应的嵌入向量矩阵;
所述事件触发词预测任务层包括MLM(Masked Language Model)层,用于根据共享编码层输出的嵌入向量矩阵完成事件类型的触发词预测任务,并根据预测结果通过反向传播优化方式来优化所述事件检测提示编码层和共享编码层的权重参数;
所述事件触发词识别任务层包括Token Classifier层,用于根据共享编码层输出的向量矩阵完成事件类型的触发词识别任务;
使用训练好的语言模型网络对需要识别的中文事件进行类型识别;
所述使用训练好的语言模型网络对需要识别的中文事件进行类型识别包括:
S51:为需要检测的中文事件进行初始化得到对应的事件检测提示;
S52:将所述事件检测提示与所述需要检测的中文事件的原始文本进行拼接形成所述输入序列;
S53:将输入序列输入到所述共享编码层获取对应的嵌入向量矩阵;
S54:将嵌入向量矩阵输入所述事件触发词预测任务层完成事件触发词预测任务,并将预测的事件触发词和对应的上下文信息注入到事件检测提示对应的提示占位符位置;
S55:将步骤S54中获取的事件检测提示与原始文本拼接形成新输入序列并将该新输入序列输入共享编码层重新编码,然后将重新编码后的输入序列输入事件触发词识别任务层完成对事件触发词的识别。
2.根据权利要求1所述的一种基于多任务学习的中文事件检测方法,其特征在于,所述根据标注获得该原始文本的事件类型以及该事件类型的代表触发词包括:
通过统计所述触发词词典中所有事件类型的触发词的出现频率,根据公式:
Ts=argmax(x=t,y=S)
选取出现词频最高的触发词来作为该事件类型的代表触发词Ts,其中,S为当前统计的事件类型,t为该事件类型的触发词集合。
3.根据权利要求1所述的一种基于多任务学习的中文事件检测方法,其特征在于,所述输入序列的构建方法包括:将事件检测提示作为前置语义信息拼接到对应的原始文本前,形成输入序列Inputh=prompth+texth,具体为:
Inputh=
[CLS][EP1][EP2]…[TP][TP]…[EPn-1][EPn][SEP][原始文本][SEP];
其中[CLS]标志放在第一个句子的首位,[SEP]用于分开两个句子。
4.根据权利要求3所述的一种基于多任务学习的中文事件检测方法,其特征在于,所述触发词预测任务包括:
在[TP]位置待预测输出的候选词集合T={T0,T1,……Ti}中选择语义最合理的词填入到所述事件检测提示的[TP]位置;
所述候选词集合T={T0,T1,……Ti}为所述预训练语言编码层对应的语义词典的子集,以M(Ti|Inputh)表示对应的输入序列在其[TP]位置预测为触发词Ti的得分:
Logits(Ti)=M(Ti|Inputh)
使用Softmax函数对所述Logits(Ti)归一化求出[TP]位置的输出预测值。
5.一种基于多任务学习的中文事件检测系统,其特征在于,所述系统基于权利要求1-4任一项所述的一种基于多任务学习的中文事件检测方法,包括:
事件抓取模块:用于抓取目标领域的中文语料,以及获取待识别的中文事件;
数据处理模块:用于对事件抓取模块抓取的中文语料进行标注,以及将标注好的中文语料构建用于语言模型网络训练的训练集;
数据存储模块:用于将标注好的中文语料存储至语料数据库;
模型训练模块:用于使用构建好的训练集来对语言模型网络进行训练,获取训练好的语言模型网络;
事件识别模块:将所述待识别的中文事件输入训练好的语言模型网络,对中文事件进行类型识别,同时将识别后的中文事件存储至数据存储模块。
6.一种基于多任务学习的中文事件检测的电子设备,其特征在于,包括:
存储器和处理器;
所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器处理时根据权利要求1-4任一项所述的一种基于多任务学习的中文事件检测方法或权利要求5所述的一种基于多任务学习的中文事件检测系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817127.1A CN116861901B (zh) | 2023-07-04 | 2023-07-04 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817127.1A CN116861901B (zh) | 2023-07-04 | 2023-07-04 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116861901A CN116861901A (zh) | 2023-10-10 |
CN116861901B true CN116861901B (zh) | 2024-04-09 |
Family
ID=88235271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310817127.1A Active CN116861901B (zh) | 2023-07-04 | 2023-07-04 | 一种基于多任务学习的中文事件检测方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116861901B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
CN114780677A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 基于特征融合的中文事件抽取方法 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN115203507A (zh) * | 2022-05-23 | 2022-10-18 | 北京计算机技术及应用研究所 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
CN115759036A (zh) * | 2022-10-28 | 2023-03-07 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
WO2023051399A1 (zh) * | 2021-09-28 | 2023-04-06 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN116151256A (zh) * | 2023-01-04 | 2023-05-23 | 北京工业大学 | 一种基于多任务和提示学习的小样本命名实体识别方法 |
CN116186241A (zh) * | 2022-12-23 | 2023-05-30 | 中国科学院新疆理化技术研究所 | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 |
-
2023
- 2023-07-04 CN CN202310817127.1A patent/CN116861901B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
WO2023051399A1 (zh) * | 2021-09-28 | 2023-04-06 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
CN114580428A (zh) * | 2022-01-24 | 2022-06-03 | 中国电子科技集团公司第十五研究所 | 融合多任务和多标签学习的司法领域深度事件抽取方法 |
CN114780677A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 基于特征融合的中文事件抽取方法 |
CN115203507A (zh) * | 2022-05-23 | 2022-10-18 | 北京计算机技术及应用研究所 | 一种面向文书领域的基于预训练模型的事件抽取方法 |
CN115062146A (zh) * | 2022-06-07 | 2022-09-16 | 重庆邮电大学 | 基于BiLSTM结合多头注意力的中文重叠事件抽取系统 |
CN115759036A (zh) * | 2022-10-28 | 2023-03-07 | 中国矿业大学(北京) | 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 |
CN116186241A (zh) * | 2022-12-23 | 2023-05-30 | 中国科学院新疆理化技术研究所 | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 |
CN116151256A (zh) * | 2023-01-04 | 2023-05-23 | 北京工业大学 | 一种基于多任务和提示学习的小样本命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
The Art of Prompting: Event Detection based on Type Specific Prompts;SijiaWang等;https://arxiv.org/pdf/2204.07241.pdf;第1-15页 * |
Unleashing Pre-trained Masked Language Model Knowledge for Label Signal Guided Event Detection;Mengnan Xiao等;Lecture Notes in Computer Science;第13945卷;第572–581页 * |
基于混合表示的中文事件检测方法研究;秦彦霞等;中文信息学报;第33卷(第4期);第85-92页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116861901A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Young et al. | Recent trends in deep learning based natural language processing | |
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN110162749B (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与系统 | |
Xu et al. | A FOFE-based local detection approach for named entity recognition and mention detection | |
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
US11080589B2 (en) | Sequence processing using online attention | |
CN112183064B (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
Feng et al. | Cascaded revision network for novel object captioning | |
CN110210032A (zh) | 文本处理方法及装置 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN113035231A (zh) | 关键词检测方法及装置 | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116955579B (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN116861901B (zh) | 一种基于多任务学习的中文事件检测方法、系统和电子设备 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
Kakishita et al. | Ethological data mining: an automata-based approach to extract behavioral units and rules | |
CN115512692B (zh) | 语音识别方法、装置、设备及存储介质 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN109308295A (zh) | 一种面向数据发布的隐私暴露实时监测方法 | |
CN112580365B (zh) | 篇章解析方法及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |