CN113312916B - 基于触发词语态学习的金融文本事件抽取方法 - Google Patents
基于触发词语态学习的金融文本事件抽取方法 Download PDFInfo
- Publication number
- CN113312916B CN113312916B CN202110589745.6A CN202110589745A CN113312916B CN 113312916 B CN113312916 B CN 113312916B CN 202110589745 A CN202110589745 A CN 202110589745A CN 113312916 B CN113312916 B CN 113312916B
- Authority
- CN
- China
- Prior art keywords
- financial
- word
- text
- event
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明通过神经网络领域的方法,实现了基于触发词语态学习的金融文本事件抽取方法。方法包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;金融领域文本预训练步骤的实现结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,结合神经网络方法,在已有的金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征,而后通过词表征做多标签多分类任务得到事件检测结果,最后每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算得到输出结果,从而形成一个能够自动精准抽取金融文本事件的方法。
Description
技术领域
本发明涉及神经网络领域,尤其涉及基于触发词语态学习的金融文本事件抽取方法。
背景技术
在当今信息爆炸的时代,快速高效的从大量的文本中捕获事件并挖掘事件的关键信息是亟需解决的一个重要难题。因此,事件抽取任务应运而生。然而对于事件抽取任务,由于数据标注难度大,领域数据更难标注,且需要特定领域的从业者来标注。因此,这给领域事件抽取任务增加难度。目前针对金融领域事件抽取的研究相对较少,很少有考虑触发词和事件要素的语态关系,对于金融领域大量的领域词汇,增加理解文本语态的难度。
金融领域事件抽取近年来受到广泛关注,主要包括事件检测、事件分类、事件论元识别与论元角色分类四个任务。金融领域事件抽取技术帮助金融领域从业人员直观获取事件重要信息,一般来说金融领域事件抽取包含的事件要素有机构、个人、触发词、事件和地点等内容,通过结构化展示这些要素辅助人们高效的完成工作。目前没有一套基于触发词语态学习的金融文本事件抽取方法与装置实现针对金融领域事件要素抽取的方法。而从基于学习触发词与事件要素的语态关系来提升事件要素抽取是提升具有大量专业术语少量标注数据的金融文本事件抽取技术的有效手段。
发明内容
为此,本发明首先提出基于触发词语态学习的金融文本事件抽取方法,包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;
所述金融领域文本预训练步骤的实现方式为,首先进行金融领域标注数据集自动构建,之后结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,得到有对应实体的输出词和没有对应实体的输出词作为输出结果,token input为单词表征,entityinput为由TransE得到的实体表征,最后在用远程监督得到的金融文本训练集和开源金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征;
所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果;
所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算,其中元素值超过设定阈值即打上对应要素的标签,若对应分量值大于阈值,即该词触发对应的事件类型。
所述标注数据集自动构建的方法为:将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据,并通过扩大匹配空间,时间调整等优化技巧提高标注的数据集质量。
所述BERT预训练模型由文本表征层和知识融合层构成,所述文本表征层采用Bert模型对输入词序列进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层;所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列,具体地,以{w1,…,wn}表示词序列的embedding,{e1,…,em}表示TransE得到的所述实体序列的embedding,两个序列各自通过多头注意力机制:
然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算:
对于有对应实体的词:
对于没有对应实体的词:
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
所述事件分类步骤根据预定义的事件分类标准,定义层级事件分类标签。
所述每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算的方法为:
用多任务学习的模型架构对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享,并针对各任务收敛速度为各参数区分别设置了不同的学习率,多任务学习通过多个任务之间共享信息的互通提升模型整体表现。
基于触发词语态学习的金融文本事件抽取装置,应用上述方法进行事件抽取。
本发明所要实现的技术效果在于:
本发明提出一套基于金融领域的文本预训练方法,针对金融领域,提出一套基于触发词语态学习的金融文本事件抽取方法,能够自动精准抽取金融文本事件。
附图说明
图1举例的金融实体知识图谱和金融文本;
图2预训练结构模型图;
图3事件分类模型图;
具体实施方式
以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。
本发明提出了基于触发词语态学习的金融文本事件抽取方法,通过引入图1的金融实体知识图谱和金融文本,说明基于触发词语态学习的金融文本事件抽取方法的机制,其中金融文本为华润集团公司董事长张平卖出汇丰公司25000股股份;金融知识图谱如图1所示;事件类型:股份售卖;事件论元:张平(出售人),汇丰公司(出售对象),25000股(出售额度)。
本发明的基于触发词语态学习的金融文本事件抽取方法主要包括三个方面:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取。
金融领域文本预训练方法
步骤一:金融领域标注数据集自动构建。
基于有监督学习的事件抽取范式需要大量的人工标注数据,由于人工标注的高成本,我们采用远程监督(Distant Supervision)方法自动获取大量标注数据。具体操作是将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据,并可通过扩大匹配空间,时间对齐排序等优化技巧提高标注的数据集质量。
步骤二:结合金融知识图谱的BERT预训练模型。
这一步我们将金融知识图谱中的实体知识融入bert模型中,通过知识图谱来增强BERT语言表征模型,使得新模型能够更好适应我们的金融领域的事件抽取任务。我们使用的模型图如2。
模型分为文本表征层和知识融合层。
文本表征层:采用BERT模型对输入token进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取。
知识融合层:首先通过知识嵌入算法TransE得到结构化的知识编码,然后再通过信息融合模块(Information Fusion)整合知识编码与语义信息。该步使得tokenembedding在原有的语义信息基础上,还加入了来自于实体的知识信息,实现了对于BERT语言表征模型的增强,最后将整合之后得到的增强的新表征作为后续任务的表征向量。公式推演如下:
{w1,…,wn}来表示token序列的embedding,{e1,…,em}表示该序列中实体的embedding(由TransE得到),两个序列各自通过多头注意力机制:
将上述得到的序列文本表征和实体表征输入到信息融合模块(InformationFusion),信息融合模块的计算公式如下:
对于有对应实体的token:
对于没有对应实体的token:
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
步骤三:金融文本预训练。
在已有的金融文本训练集和金融知识图谱数据上进行再训练。得到适合下游事件分类和事件抽取的词表征和实体表征。我们利用上面生成的tokenoutput做多标签多分类任务得到我们的事件检测结果。
具体模型图如图3。
由知识融合层得到融合金融知识图谱的金融文本表征token output,对应于每一个输入的token,我们将每一个token对应的token output作为多标签分类任务的表征向量。具体公式如下:
步骤四:金融文本事件要素抽取。
针对在金融风险识别包含多个子任务的情况下无法充分利用所有训练数据从而学习到具有更强泛化性能的表征的问题,我们用多任务学习的模型架构对基于金融预训练语言模型的金融文本要素抽取方法做了进一步的优化与改进。为了实现各任务之间可用训练信息的流通,对基于触发词语态学习和要素抽取两个任务的嵌入层和编码层进行了参数共享,并针对各任务收敛速度为各参数区分别设置了不同的学习率,多任务学习通过多个任务之间共享信息的互通提升模型整体表现。
Claims (5)
1.基于触发词语态学习的金融文本事件抽取方法,其特征在于:包括三个步骤:金融领域文本预训练、事件分类和基于触发词语态学习的金融文本事件要素抽取;
所述金融领域文本预训练步骤的实现方式为,首先进行金融领域标注数据集自动构建,之后结合金融知识图谱构建BERT预训练模型,以输入词序列作为模型输入,得到有对应实体的输出词作为输出结果,最后在金融文本训练集和金融知识图谱数据上进行再训练,得到适合下游事件分类和事件抽取的词表征和实体表征;
所述事件分类步骤根据所述金融领域文本预训练步骤生成的词表征做多标签多分类任务得到事件检测结果;
所述基于触发词语态学习的金融文本事件要素抽取步骤将每一个输入词对应的词表征作为多标签分类任务的表征向量进行计算,其中元素值超过设定阈值即打上对应要素的标签。
2.如权利要求1所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述标注数据集自动构建的方法为:将现有非结构化金融新闻文本与结构化金融事件知识库进行对齐操作获得标注数据。
3.如权利要求2所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述BERT预训练模型由文本表征层和知识融合层构成,所述文本表征层采用BERT模型对输入词序列进行表征,通过多层的双向Transformer编码器来实现对于语义特征的提取并将得到的词序列输入所述知识融合层;所述知识融合层首先通过知识嵌入算法TransE得到结构化的知识编码实体序列,具体地,以{w1,…,wn}表示词序列的embedding,{e1,…,em}表示TransE得到的所述实体序列的embedding,两个序列各自通过多头注意力机制:
然后将上述得到的两个序列词表征和实体表征输入到信息融合模块计算:
对于有对应实体的词:
对于没有对应实体的词:
其中Wt代表隐藏层的权重,δ表示非线性激活函数。
4.如权利要求3所述的基于触发词语态学习的金融文本事件抽取方法,其特征在于:所述事件分类步骤根据预定义的事件分类标准,定义层级事件分类标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589745.6A CN113312916B (zh) | 2021-05-28 | 2021-05-28 | 基于触发词语态学习的金融文本事件抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589745.6A CN113312916B (zh) | 2021-05-28 | 2021-05-28 | 基于触发词语态学习的金融文本事件抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312916A CN113312916A (zh) | 2021-08-27 |
CN113312916B true CN113312916B (zh) | 2022-05-27 |
Family
ID=77375851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110589745.6A Active CN113312916B (zh) | 2021-05-28 | 2021-05-28 | 基于触发词语态学习的金融文本事件抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312916B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743114B (zh) * | 2021-09-03 | 2024-09-20 | 上海欧冶金诚信息服务股份有限公司 | 一种基于多任务的智能要素抽取方法及系统 |
CN113535963B (zh) * | 2021-09-13 | 2021-12-21 | 深圳前海环融联易信息科技服务有限公司 | 一种长文本事件抽取方法、装置、计算机设备及存储介质 |
US20240143633A1 (en) * | 2021-09-28 | 2024-05-02 | Zhejiang University | Generative event extraction method based on ontology guidance |
CN114943221A (zh) * | 2022-04-11 | 2022-08-26 | 哈尔滨工业大学(深圳) | 片段指针交互模型的构建方法及社会传感灾情监测方法 |
CN114938337B (zh) * | 2022-04-12 | 2024-07-26 | 华为技术有限公司 | 一种模型训练方法、装置及电子设备 |
CN114741473B (zh) * | 2022-04-17 | 2023-04-18 | 中国人民解放军国防科技大学 | 一种基于多任务学习的事件抽取方法 |
CN115017917B (zh) * | 2022-08-09 | 2022-10-28 | 北京肇祺信息科技有限公司 | 基于多头注意力机制的裁判文书争议焦点识别方法 |
CN115186820B (zh) * | 2022-09-07 | 2023-01-10 | 粤港澳大湾区数字经济研究院(福田) | 事件共指消解方法、装置、终端及计算机可读存储介质 |
CN115907568A (zh) * | 2023-02-27 | 2023-04-04 | 北京金信网银金融信息服务有限公司 | 一种基于冒烟指数的非法金融活动监测方法及系统 |
CN116501898B (zh) * | 2023-06-29 | 2023-09-01 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
CN116757159B (zh) * | 2023-08-15 | 2023-10-13 | 昆明理工大学 | 一种端到端的多任务联合篇章级事件抽取方法及系统 |
CN117312862B (zh) * | 2023-11-29 | 2024-02-27 | 之江实验室 | 基于glm的金融事件抽取样本的生成方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN112507059A (zh) * | 2020-12-07 | 2021-03-16 | 宁波深擎信息科技有限公司 | 金融领域舆情监控中的事件抽取方法、装置和计算机设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2257896B1 (en) * | 2008-01-30 | 2021-07-14 | Thomson Reuters Enterprise Centre GmbH | Financial event and relationship extraction |
CN110765265B (zh) * | 2019-09-06 | 2023-04-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111897908B (zh) * | 2020-05-12 | 2023-05-02 | 中国科学院计算技术研究所 | 融合依存信息和预训练语言模型的事件抽取方法及系统 |
-
2021
- 2021-05-28 CN CN202110589745.6A patent/CN113312916B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134772A (zh) * | 2019-04-18 | 2019-08-16 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN112507059A (zh) * | 2020-12-07 | 2021-03-16 | 宁波深擎信息科技有限公司 | 金融领域舆情监控中的事件抽取方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113312916A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113312916B (zh) | 基于触发词语态学习的金融文本事件抽取方法 | |
Yin et al. | Adversarial attribute-image person re-identification | |
CN112085012B (zh) | 项目名称和类别识别方法及装置 | |
Chen et al. | Hierarchical visual-textual graph for temporal activity localization via language | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN114490953B (zh) | 训练事件抽取模型的方法、事件抽取的方法、装置及介质 | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
Dhingra et al. | Linguistic knowledge as memory for recurrent neural networks | |
CN114140673B (zh) | 一种违规图像识别方法、系统及设备 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
Ji et al. | Deep pedestrian attribute recognition based on LSTM | |
CN113254575B (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
Visotsky et al. | Few-shot learning with per-sample rich supervision | |
CN113836929A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN117133408A (zh) | 用于青少年的心理咨询辅助系统及其方法 | |
Ma et al. | Bottleneck feature extraction-based deep neural network model for facial emotion recognition | |
CN116910683A (zh) | 一种基于事件依赖的多模态虚假新闻检测方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
Chae et al. | Uncertainty-based visual question answering: estimating semantic inconsistency between image and knowledge base | |
CN115098687A (zh) | 面向电力sdh光传输系统调度运行的告警排查方法及装置 | |
CN113821681A (zh) | 视频标签生成方法、装置及设备 | |
Gawade et al. | Algorithm for safety decisions in social media feeds using personification patterns | |
CN117221839B (zh) | 5g信令识别方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |