CN113312916B - 基于触发词语态学习的金融文本事件抽取方法 - Google Patents

基于触发词语态学习的金融文本事件抽取方法 Download PDF

Info

Publication number
CN113312916B
CN113312916B CN202110589745.6A CN202110589745A CN113312916B CN 113312916 B CN113312916 B CN 113312916B CN 202110589745 A CN202110589745 A CN 202110589745A CN 113312916 B CN113312916 B CN 113312916B
Authority
CN
China
Prior art keywords
financial
word
text
event
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110589745.6A
Other languages
English (en)
Other versions
CN113312916A (zh
Inventor
李建欣
李倩
司靖辉
孙睿
毛乾任
黄洪仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110589745.6A priority Critical patent/CN113312916B/zh
Publication of CN113312916A publication Critical patent/CN113312916A/zh
Application granted granted Critical
Publication of CN113312916B publication Critical patent/CN113312916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明通过神经网络领域的方法,实现了基于触发词语态学习的金融文本事件抽取方法。方法包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;金融领域文本预训练步骤的实现结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,结合神经网络方法,在已有的金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征,而后通过词表征做多标签多分类任务得到事件检测结果,最后每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算得到输出结果,从而形成一个能够自动精准抽取金融文本事件的方法。

Description

基于触发词语态学习的金融文本事件抽取方法
技术领域
本发明涉及神经网络领域,尤其涉及基于触发词语态学习的金融文本事件抽取方法。
背景技术
在当今信息爆炸的时代,快速高效的从大量的文本中捕获事件并挖掘事件的关键信息是亟需解决的一个重要难题。因此,事件抽取任务应运而生。然而对于事件抽取任务,由于数据标注难度大,领域数据更难标注,且需要特定领域的从业者来标注。因此,这给领域事件抽取任务增加难度。目前针对金融领域事件抽取的研究相对较少,很少有考虑触发词和事件要素的语态关系,对于金融领域大量的领域词汇,增加理解文本语态的难度。
金融领域事件抽取近年来受到广泛关注,主要包括事件检测、事件分类、事件论元识别与论元角色分类四个任务。金融领域事件抽取技术帮助金融领域从业人员直观获取事件重要信息,一般来说金融领域事件抽取包含的事件要素有机构、个人、触发词、事件和地点等内容,通过结构化展示这些要素辅助人们高效的完成工作。目前没有一套基于触发词语态学习的金融文本事件抽取方法与装置实现针对金融领域事件要素抽取的方法。而从基于学习触发词与事件要素的语态关系来提升事件要素抽取是提升具有大量专业术语少量标注数据的金融文本事件抽取技术的有效手段。
发明内容
为此,本发明首先提出基于触发词语态学习的金融文本事件抽取方法,包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;
所述金融领域文本预训练步骤的实现方式为,首先进行金融领域标注数据集自动构建,之后结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,得到有对应实体的输出词和没有对应实体的输出词作为输出结果,token input为单词表征,entityinput为由TransE得到的实体表征,最后在用远程监督得到的金融文本训练集和开源金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征;
所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果;
所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算,其中元素值超过设定阈值即打上对应要素的标签,若对应分量值大于阈值,即该词触发对应的事件类型。
所述标注数据集自动构建的方法为:将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据,并通过扩大匹配空间,时间调整等优化技巧提高标注的数据集质量。
所述BERT预训练模型由文本表征层和知识融合层构成,所述文本表征层采用Bert模型对输入词序列进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层;所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列,具体地,以{w1,…,wn}表示词序列的embedding,{e1,…,em}表示TransE得到的所述实体序列的embedding,两个序列各自通过多头注意力机制:
Figure GDA0003592629690000021
Figure GDA0003592629690000022
然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算:
对于有对应实体的词:
Figure GDA0003592629690000023
Figure GDA0003592629690000024
Figure GDA0003592629690000025
对于没有对应实体的词:
Figure GDA0003592629690000026
Figure GDA0003592629690000027
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
所述事件分类步骤根据预定义的事件分类标准,定义层级事件分类标签。
所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为:
Figure GDA0003592629690000031
Figure GDA0003592629690000032
用多任务学习的模型架构对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享,并针对各任务收敛速度为各参数区分别设置了不同的学习率,多任务学习通过多个任务之间共享信息的互通提升模型整体表现。
基于触发词语态学习的金融文本事件抽取装置,应用上述方法进行事件抽取。
本发明所要实现的技术效果在于:
本发明提出一套基于金融领域的文本预训练方法,针对金融领域,提出一套基于触发词语态学习的金融文本事件抽取方法,能够自动精准抽取金融文本事件。
附图说明
图1举例的金融实体知识图谱和金融文本;
图2预训练结构模型图;
图3事件分类模型图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了基于触发词语态学习的金融文本事件抽取方法,通过引入图1的金融实体知识图谱和金融文本,说明基于触发词语态学习的金融文本事件抽取方法的机制,其中金融文本为华润集团公司董事长张平卖出汇丰公司25000股股份;金融知识图谱如图1所示;事件类型:股份售卖;事件论元:张平(出售人),汇丰公司(出售对象),25000股(出售额度)。
本发明的基于触发词语态学习的金融文本事件抽取方法主要包括三个方面:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取。
金融领域文本预训练方法
步骤一:金融领域标注数据集自动构建。
基于有监督学习的事件抽取范式需要大量的人工标注数据,由于人工标注的高成本,我们采用远程监督(Distant Supervision)方法自动获取大量标注数据。具体操作是将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据,并可通过扩大匹配空间,时间对齐排序等优化技巧提高标注的数据集质量。
步骤二:结合金融知识图谱的BERT预训练模型。
这一步我们将金融知识图谱中的实体知识融入bert模型中,通过知识图谱来增强BERT语言表征模型,使得新模型能够更好适应我们的金融领域的事件抽取任务。我们使用的模型图如2。
模型分为文本表征层和知识融合层。
文本表征层:采用BERT模型对输入token进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取。
知识融合层:首先通过知识嵌入算法TransE得到结构化的知识编码,然后再通过信息融合模块(Information Fusion)整合知识编码与语义信息。该步使得tokenembedding在原有的语义信息基础上,还加入了来自于实体的知识信息,实现了对于BERT语言表征模型的增强,最后将整合之后得到的增强的新表征作为后续任务的表征向量。公式推演如下:
{w1,…,wn}来表示token序列的embedding,{e1,…,em}表示该序列中实体的embedding(由TransE得到),两个序列各自通过多头注意力机制:
Figure GDA0003592629690000041
Figure GDA0003592629690000042
将上述得到的序列文本表征和实体表征输入到信息融合模块(InformationFusion),信息融合模块的计算公式如下:
对于有对应实体的token:
Figure GDA0003592629690000043
Figure GDA0003592629690000044
Figure GDA0003592629690000045
对于没有对应实体的token:
Figure GDA0003592629690000046
Figure GDA0003592629690000047
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
步骤三:金融文本预训练。
在已有的金融文本训练集和金融知识图谱数据上进行再训练。得到适合下游事件分类和事件抽取的词表征和实体表征。我们利用上面生成的tokenoutput做多标签多分类任务得到我们的事件检测结果。
具体模型图如图3。
由知识融合层得到融合金融知识图谱的金融文本表征token output,对应于每一个输入的token,我们将每一个token对应的token output作为多标签分类任务的表征向量。具体公式如下:
Figure GDA0003592629690000051
Figure GDA0003592629690000052
最终得到的
Figure GDA0003592629690000053
结果(33维向量)形如{0.1,0.3,0.6,0.8,…,0.8},我们设定一个阈值(如0.5),超过这个阈值即打上对应的标签(也即该token触发了该事件类型)。
步骤四:金融文本事件要素抽取。
针对在金融风险识别包含多个子任务的情况下无法充分利用所有训练数据从而学习到具有更强泛化性能的表征的问题,我们用多任务学习的模型架构对基于金融预训练语言模型的金融文本要素抽取方法做了进一步的优化与改进。为了实现各任务之间可用训练信息的流通,对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享,并针对各任务收敛速度为各参数区分别设置了不同的学习率,多任务学习通过多个任务之间共享信息的互通提升模型整体表现。

Claims (5)

1.基于触发词语态学习的金融文本事件抽取方法,其特征在于:包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;
所述金融领域文本预训练步骤的实现方式为,首先进行金融领域标注数据集自动构建,之后结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,得到有对应实体的输出词作为输出结果,最后在金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征;
所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果;
所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算,其中元素值超过设定阈值即打上对应要素的标签。
2.如权利要求1所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述标注数据集自动构建的方法为:将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据。
3.如权利要求2所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述BERT预训练模型由文本表征层和知识融合层构成,所述文本表征层采用BERT模型对输入词序列进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层;所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列,具体地,以{w1,…,wn}表示词序列的embedding,{e1,…,em}表示TransE得到的所述实体序列的embedding,两个序列各自通过多头注意力机制:
Figure FDA0003592629680000011
Figure FDA0003592629680000012
然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算:
对于有对应实体的词:
Figure FDA0003592629680000013
Figure FDA0003592629680000021
Figure FDA0003592629680000022
对于没有对应实体的词:
Figure FDA0003592629680000023
Figure FDA0003592629680000024
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
4.如权利要求3所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述事件分类步骤根据预定义的事件分类标准,定义层级事件分类标签。
5.如权利要求4所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为:
Figure FDA0003592629680000025
Figure FDA0003592629680000026
CN202110589745.6A 2021-05-28 2021-05-28 基于触发词语态学习的金融文本事件抽取方法 Active CN113312916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110589745.6A CN113312916B (zh) 2021-05-28 2021-05-28 基于触发词语态学习的金融文本事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110589745.6A CN113312916B (zh) 2021-05-28 2021-05-28 基于触发词语态学习的金融文本事件抽取方法

Publications (2)

Publication Number Publication Date
CN113312916A CN113312916A (zh) 2021-08-27
CN113312916B true CN113312916B (zh) 2022-05-27

Family

ID=77375851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110589745.6A Active CN113312916B (zh) 2021-05-28 2021-05-28 基于触发词语态学习的金融文本事件抽取方法

Country Status (1)

Country Link
CN (1) CN113312916B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743114B (zh) * 2021-09-03 2024-09-20 上海欧冶金诚信息服务股份有限公司 一种基于多任务的智能要素抽取方法及系统
CN113535963B (zh) * 2021-09-13 2021-12-21 深圳前海环融联易信息科技服务有限公司 一种长文本事件抽取方法、装置、计算机设备及存储介质
US20240143633A1 (en) * 2021-09-28 2024-05-02 Zhejiang University Generative event extraction method based on ontology guidance
CN114943221A (zh) * 2022-04-11 2022-08-26 哈尔滨工业大学(深圳) 片段指针交互模型的构建方法及社会传感灾情监测方法
CN114938337B (zh) * 2022-04-12 2024-07-26 华为技术有限公司 一种模型训练方法、装置及电子设备
CN114741473B (zh) * 2022-04-17 2023-04-18 中国人民解放军国防科技大学 一种基于多任务学习的事件抽取方法
CN115017917B (zh) * 2022-08-09 2022-10-28 北京肇祺信息科技有限公司 基于多头注意力机制的裁判文书争议焦点识别方法
CN115186820B (zh) * 2022-09-07 2023-01-10 粤港澳大湾区数字经济研究院(福田) 事件共指消解方法、装置、终端及计算机可读存储介质
CN115907568A (zh) * 2023-02-27 2023-04-04 北京金信网银金融信息服务有限公司 一种基于冒烟指数的非法金融活动监测方法及系统
CN116501898B (zh) * 2023-06-29 2023-09-01 之江实验室 适用于少样本和有偏数据的金融文本事件抽取方法和装置
CN116757159B (zh) * 2023-08-15 2023-10-13 昆明理工大学 一种端到端的多任务联合篇章级事件抽取方法及系统
CN117312862B (zh) * 2023-11-29 2024-02-27 之江实验室 基于glm的金融事件抽取样本的生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112507059A (zh) * 2020-12-07 2021-03-16 宁波深擎信息科技有限公司 金融领域舆情监控中的事件抽取方法、装置和计算机设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2257896B1 (en) * 2008-01-30 2021-07-14 Thomson Reuters Enterprise Centre GmbH Financial event and relationship extraction
CN110765265B (zh) * 2019-09-06 2023-04-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111897908B (zh) * 2020-05-12 2023-05-02 中国科学院计算技术研究所 融合依存信息和预训练语言模型的事件抽取方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN112507059A (zh) * 2020-12-07 2021-03-16 宁波深擎信息科技有限公司 金融领域舆情监控中的事件抽取方法、装置和计算机设备

Also Published As

Publication number Publication date
CN113312916A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN113312916B (zh) 基于触发词语态学习的金融文本事件抽取方法
Yin et al. Adversarial attribute-image person re-identification
CN112085012B (zh) 项目名称和类别识别方法及装置
Chen et al. Hierarchical visual-textual graph for temporal activity localization via language
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN114490953B (zh) 训练事件抽取模型的方法、事件抽取的方法、装置及介质
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
Dhingra et al. Linguistic knowledge as memory for recurrent neural networks
CN114140673B (zh) 一种违规图像识别方法、系统及设备
CN113821605A (zh) 一种事件抽取方法
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
Ji et al. Deep pedestrian attribute recognition based on LSTM
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
Visotsky et al. Few-shot learning with per-sample rich supervision
CN113836929A (zh) 命名实体识别方法、装置、设备及存储介质
CN117133408A (zh) 用于青少年的心理咨询辅助系统及其方法
Ma et al. Bottleneck feature extraction-based deep neural network model for facial emotion recognition
CN116910683A (zh) 一种基于事件依赖的多模态虚假新闻检测方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
Chae et al. Uncertainty-based visual question answering: estimating semantic inconsistency between image and knowledge base
CN115098687A (zh) 面向电力sdh光传输系统调度运行的告警排查方法及装置
CN113821681A (zh) 视频标签生成方法、装置及设备
Gawade et al. Algorithm for safety decisions in social media feeds using personification patterns
CN117221839B (zh) 5g信令识别方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant