CN117493486A - 基于数据重放的可持续金融事件抽取系统及方法 - Google Patents
基于数据重放的可持续金融事件抽取系统及方法 Download PDFInfo
- Publication number
- CN117493486A CN117493486A CN202311500765.7A CN202311500765A CN117493486A CN 117493486 A CN117493486 A CN 117493486A CN 202311500765 A CN202311500765 A CN 202311500765A CN 117493486 A CN117493486 A CN 117493486A
- Authority
- CN
- China
- Prior art keywords
- data
- financial
- event
- training
- enhanced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002085 persistent effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于数据重放的可持续金融事件抽取系统及方法,属于人工智能自然语言处理技术领域,具体为:抽取并解析金融事件,获得金融事件类型和关联的金融数据;对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集并制作训练数据,导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数用于修正抽取模型并基于修正后的抽取模型对后续输入的金融数据,抽取持续性金融事件;本发明将数据增强与知识蒸馏技术相结合,提高系统数据泛化能力;使系统在较小数据量下依然具备旧任务的学习能力。
Description
技术领域
本发明属于人工智能自然语言处理技术领域,具体涉及一种基于数据重放的可持续金融事件抽取系统及方法。
背景技术
现有的金融事件抽取系统持续学习能力非常有限,在面临不断变化的金融风险环境中无法保持和提高其计算模型的性能,体现在学习新任务时难以保持对旧任务的知识,进而在事件类型不断增加的动态场景中不能取得一个令人满意的表现;使得系统金融事件要素的分析能力差,无法精确地构建金融风险管理和预警系统,最终不能对市场风险进行实时评估和预警。
发明内容
发明目的:为了克服现有技术中的不足,本发明提供一种基于数据重放的可持续金融事件抽取系统及方法,通过本发明的方法和系统将数据增强与知识蒸馏技术相结合,提高系统数据泛化能力;使系统在较小数据量下依然具备旧任务的学习能力。
技术方案:第一方面本发明提供一种基于数据重放的可持续金融事件抽取方法,包括:
抽取并解析金融事件,获得金融事件类型和关联的金融数据;
对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
基于增强且泛化的金融数据集制作训练数据,并将训练数据导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;
将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数;
根据训练参数,修正抽取模型;
修正后的抽取模型用于根据后续输入的金融数据,抽取持续性的金融事件。
在进一步的实施例中,抽取并解析金融事件,获得金融事件类型和关联的金融数据,包括:
采用贪心策略随机从缓存数据中获取包含实体数量较多的部分数据作为与当前抽取的金融事件关联的金融数据,或者将缓存数据导入预训练神经网络模型,获取当前抽取的金融事件中每条数据所对应的特征;
根据每条数据所对应的特征计算当前抽取的金融事件在特征空间内的当前金融事件特征原型,并计算每条数据所对应的特征与当前金融事件特征原型的距离;
选择距离最近的若干条数据作为与当前金融事件关联的金融数据,并存储为缓存池中的记忆数据用于后续金融事件的重放训练,以及在每一次抽取金融事件时重复训练并从记忆数据中随机抽取数据进行循环训练。
在进一步的实施例中,所述记忆数据预设有数据存储的固定量。
在进一步的实施例中,对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集,包括:
根据同义词表对金融数据中包含的实体进行实体命名的同义词替换,扩展相似数据;
根据提及词表对相似数据中的句子进行语义修正并标注实体信息,获得增强后的金融数据集;
将缓存池中的记忆数据与增强后的金融数据集进行混合,得到增强且泛化的金融数据集。
在进一步的实施例中,将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数,包括:
将软标签代入知识蒸馏损失函数计算非新事体位置的知识蒸馏损失;将硬标签代入知识蒸馏损失函数计算非新事体位置的交叉熵损失;
软标签对应的非新事体位置的知识蒸馏损失和硬标签对应的非新事体位置的交叉熵损失进行加权平均计算,获得最终损失。
在进一步的实施例中,软标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,pi,qi分别为当前模型θ和保存的旧模型θ*的预测概率;
硬标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,y为硬标签对应的下标;
最终损失的表达式为:
Ltot=αLkd+βLce
式中,α,β分别为知识蒸馏损失和交叉熵损失的权重系数。
在进一步的实施例中,修正后的抽取模型用于根据后续输入的金融数据,抽取持续性的金融事件的方法包括:
采用多个预训练语言模型BERT对输入的金融数据进行特征抽取,获得数据对应的特征;
将数据对应的特征导入token层,并在所有token的最后一层的输出表示hi后,接入一个实体识别分类器,得到每个实体类别的分数向量zi;
采用softmax归一化函数对每个实体类别的分数向量zi进行计算,获得实体类别的概率分布;
选择实体类别概率大于其它的进行事件类别嵌入增强,获得实体类别嵌入信息增强的事件类别;
根据实体类别嵌入信息增强的事件类别抽取金融事件。
在进一步的实施例中,实体类别的概率分布的计算表达式为:
式中,e为自然底数,为实体类别j的分数;
获得实体类别嵌入信息增强的事件类别的表达式为:
ei=wtei+posi+segi+event_embdi
式中,wtei、posi、segi分别表示字嵌入、位置嵌入以及分段嵌入,event_embdi为提出的实体类型的嵌入信息。
第二方面本发明提供一种基于数据重放的可持续金融事件抽取系统,包括:
数据获取模块、数据处理模块、知识蒸馏模块、事件抽取模块
所述数据获取模块用于抽取并解析金融事件,获得金融事件类型和关联的金融数据;
所述数据处理模块用于对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
所述知识蒸馏模块用于基于增强且泛化的金融数据集制作训练数据,并将训练数据导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数;并根据训练参数,修正抽取模型;
所述事件抽取模块用于基于修正后的抽取模型进行后续金融数据输入,获得持续性金融事件的抽取功能。
有益效果:本发明与现有技术相比具有以下优点:
通过数据获取与重放模块选择贪心或原型两种方法进行数据获取和训练,选出更具有代表性的样本,增加样本在后期增强的效用。
对于数据增强方法采用基于同义词表以及同实体类型两种替换策略,增加了大量的伪数据,可以处理低资源场景。
通过将知识蒸馏算法优化抽取模型,避免了模型在持续学习的过程中失去解决旧任务的能力。
附图说明
图1是本发明抽取模型持续学习整体框架图;
图2是本发明数据增强策略的实施例图;
图3是本发明损失函数计算流程图;
图4是本发明事件抽取模块的实施例图;
图5是本发明事件抽取方法的流程图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
结合图1进一步说明本发明的抽取模型持续学习整体框架,使得事件抽取模型不仅能够处理事件数量固定的场景,也能够处理金融事件类型不断增加的场景。基于数据重放的可持续金融事件抽取系统包括:
数据获取模块、数据处理模块、知识蒸馏模块、事件抽取模块
数据获取模块用于抽取并解析金融事件,获得金融事件类型和关联的金融数据;
数据处理模块用于对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
知识蒸馏模块用于基于增强且泛化的金融数据集制作训练数据,并将训练数据导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数;并根据训练参数,修正抽取模型;
事件抽取模块用于基于修正后的抽取模型进行后续金融数据输入,获得持续性金融事件的抽取功能。
本实施例中通过数据获取模块进行数据重放,通过在训练新任务的同时,重温旧任务的数据,以保持或恢复神经网络之前任务的知识。这种方法可以帮助模型在保持对已学习任务的性能的同时,更好地拟合新任务,提高模型在多任务场景下的泛化能力;
数据处理模块通过构造新的伪数据来扩充现有数据集。这些伪数据通常是通过对原始数据进行一定的变换,如旋转、缩放、翻转等操作得到的。通过数据增强,可以有效地扩大数据量,增强模型对不同数据分布的适应能力,从而提高模型的泛化性能。
知识蒸馏模块通过知识蒸馏,可以使小模型学习大模型在任务数据分布上的输出,从而实现在保持较高性能的同时,降低模型的计算资源消耗。这种方法在许多场景下具有重要价值,例如在移动设备、边缘计算等资源受限的环境中部署深度学习模型。
结合图2至图5进一步说明本实施例的可持续金融事件抽取方法,包括:
步骤1:对于新增的事件类型,获取与该事件类型相关联的金融数据;
步骤2:对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
步骤3:基于增强且泛化的金融数据集制作训练数据:当前非首个事件类型时,将训练数据导入抽取模型获得金融数据在之前事件类型上的软标签;训练数据中标注有硬标签;
步骤4:使用软标签(如有)计算知识蒸馏损失函数,使用硬标签计算交叉熵损失函数,加权求和后获得最终损失,并根据最终损失优化抽取模型;
步骤5:保存优化后的抽取模型。
步骤6:当新增事件类型时,重新执行步骤1,完成金融事件的持续抽取。
结合图2进一步说明获取与该事件类型相关联的金融数据的方法包括:
采用贪心策略随机从缓存数据中获取包含实体数量较多的部分数据作为与当前抽取的金融事件关联的金融数据,或者将缓存数据导入预训练神经网络模型,获取当前抽取的金融事件中每条数据所对应的特征;
根据每条数据所对应的特征计算当前抽取的金融事件在特征空间内的当前金融事件特征原型,并计算每条数据所对应的特征与当前金融事件特征原型的距离;
选择距离最近的若干条数据作为与当前金融事件关联的金融数据,并存储为缓存池中的记忆数据用于后续金融事件的重放训练,以及在每一次抽取金融事件时重复训练并从记忆数据中随机抽取数据进行循环训练;以及在收集属于该事件类型的数据时,通过人工标注的方式标注其中的每条数据中属于该事件类型的实体;其中记忆数据预设有数据存储的固定量。
对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集,包括:
根据同义词表对金融数据中包含的实体进行实体命名的同义词替换,扩展相似数据;
根据提及词表对相似数据中的句子进行语义修正并标注实体信息,获得增强后的金融数据集;
将缓存池中的记忆数据与增强后的金融数据集进行混合,得到增强且泛化的金融数据集;
其中本实施例中数据增强方法样例展示如下表所示(替换部分使用粗体标出):
结合图3进一步说明将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数的方法:
将软标签代入知识蒸馏损失函数计算非新事体位置的知识蒸馏损失;将硬标签代入知识蒸馏损失函数计算非新事体位置的交叉熵损失;
软标签对应的非新事体位置的知识蒸馏损失和硬标签对应的非新事体位置的交叉熵损失进行加权平均计算,获得最终损失。
软标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,pi,qi分别为当前模型θ和保存的旧模型θ*的预测概率;
硬标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,y为硬标签对应的下标;
最终损失的表达式为:
Ltot=αLkd+βLce
式中,α,β分别为知识蒸馏损失和交叉熵损失的权重系数。
结合图4进一步说明当新增事件类型时,重新执行步骤1,采用优化的模型进行金融事件的持续抽取,方法为:采用多个预训练语言模型BERT对输入的金融数据进行特征抽取,获得数据对应的特征;
将数据对应的特征导入token层,并在所有token的最后一层的输出表示hi后,接入一个实体识别分类器,得到每个实体类别的分数向量zi;
采用softmax归一化函数对每个实体类别的分数向量zi进行计算,获得实体类别的概率分布;
选择实体类别概率大于其它的进行事件类别嵌入增强,获得实体类别嵌入信息增强的事件类别;
根据实体类别嵌入信息增强的事件类别抽取金融事件。
实体类别的概率分布的计算表达式为:
式中,e为自然底数,为实体类别j的分数;
获得实体类别嵌入信息增强的事件类别的表达式为:
ei=wtei+posi+segi+event_embdi
式中,wtei、posi、segi分别表示字嵌入、位置嵌入以及分段嵌入,event_embdi为提出的实体类型的嵌入信息。
综上所述本发明能够通过数据获取与重放模块选择贪心或原型两种方法进行数据获取和训练,选出更具有代表性的样本,增加样本在后期增强的效用。其次对于数据增强方法采用基于同义词表以及同实体类型两种替换策略,增加了大量的伪数据,可以处理低资源场景。此外通过将知识蒸馏算法优化抽取模型,避免了模型在持续学习的过程中失去解决旧任务的能力。
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种基于数据重放的可持续金融事件抽取方法,其特征在于,包括:
抽取并解析金融事件,获得金融事件类型和关联的金融数据;
对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
基于增强且泛化的金融数据集制作训练数据,并将训练数据导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;
将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数;
根据训练参数,修正抽取模型;
修正后的抽取模型用于根据后续输入的金融数据,抽取持续性的金融事件。
2.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法,其特征在于,抽取并解析金融事件,获得金融事件类型和关联的金融数据的方法包括:
采用贪心策略随机从缓存数据中获取包含实体数量较多的部分数据作为与当前抽取的金融事件关联的金融数据,或者将缓存数据导入预训练神经网络模型,获取当前抽取的金融事件中每条数据所对应的特征;
根据每条数据所对应的特征计算当前抽取的金融事件在特征空间内的当前金融事件特征原型,并计算每条数据所对应的特征与当前金融事件特征原型的距离;
选择距离最近的若干条数据作为与当前金融事件关联的金融数据,并存储为缓存池中的记忆数据用于后续金融事件的重放训练,以及在每一次抽取金融事件时重复训练并从记忆数据中随机抽取数据进行循环训练。
3.根据权利要求2所述的基于数据重放的可持续金融事件抽取方法,其特征在于,所述记忆数据预设有数据存储的固定量。
4.根据权利要求3所述的基于数据重放的可持续金融事件抽取方法,其特征在于,对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集,包括:
根据同义词表对金融数据中包含的实体进行实体命名的同义词替换,扩展相似数据;
根据提及词表对相似数据中的句子进行语义修正并标注实体信息,获得增强后的金融数据集;
将缓存池中的记忆数据与增强后的金融数据集进行混合,得到增强且泛化的金融数据集。
5.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法,其特征在于,将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数,包括:
将软标签代入知识蒸馏损失函数计算非新事体位置的知识蒸馏损失;将硬标签代入知识蒸馏损失函数计算非新事体位置的交叉熵损失;
软标签对应的非新事体位置的知识蒸馏损失和硬标签对应的非新事体位置的交叉熵损失进行加权平均计算,获得最终损失。
6.根据权利要求5所述的基于数据重放的可持续金融事件抽取方法,其特征在于,软标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,pi,qi分别为当前模型θ和保存的旧模型θ*的预测概率;
硬标签对应的非新事体位置的知识蒸馏损失的计算表达式为:
式中,y为硬标签对应的下标;
最终损失的表达式为:
Ltot=αLkd+βLce
式中,α,β分别为知识蒸馏损失和交叉熵损失的权重系数。
7.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法,其特征在于,修正后的抽取模型用于根据后续输入的金融数据,抽取持续性的金融事件的方法包括:
采用多个预训练语言模型BERT对输入的金融数据进行特征抽取,获得数据对应的特征;
将数据对应的特征导入token层,并在所有token的最后一层的输出表示hi后,接入一个实体识别分类器,得到每个实体类别的分数向量zi;
采用softmax归一化函数对每个实体类别的分数向量zi进行计算,获得实体类别的概率分布;
选择实体类别概率大于其它的进行事件类别嵌入增强,获得实体类别嵌入信息增强的事件类别;
根据实体类别嵌入信息增强的事件类别抽取金融事件。
8.根据权利要求7所述的基于数据重放的可持续金融事件抽取方法,其特征在于,实体类别的概率分布的计算表达式为:
式中,e为自然底数,为实体类别j的分数;
获得实体类别嵌入信息增强的事件类别的表达式为:
ei=wtei+posi+segi+event_embdi
式中,wtei、posi、segi分别表示字嵌入、位置嵌入以及分段嵌入,event_embdi为提出的实体类型的嵌入信息。
9.一种基于数据重放的可持续金融事件抽取系统,其特征在于,包括:
数据获取模块、数据处理模块、知识蒸馏模块、事件抽取模块
所述数据获取模块用于抽取并解析金融事件,获得金融事件类型和关联的金融数据;
所述数据处理模块用于对金融数据进行数据增强、绑定、泛化处理,获得增强且泛化的金融数据集;
所述知识蒸馏模块用于基于增强且泛化的金融数据集制作训练数据,并将训练数据导入抽取模型获得金融数据的软标签;其中训练数据中标注有硬标签;将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失,并对最终损失采用梯度优化,获得训练参数;并根据训练参数,修正抽取模型;
所述事件抽取模块用于基于修正后的抽取模型进行后续金融数据输入,获得持续性金融事件的抽取功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311500765.7A CN117493486B (zh) | 2023-11-10 | 2023-11-10 | 基于数据重放的可持续金融事件抽取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311500765.7A CN117493486B (zh) | 2023-11-10 | 2023-11-10 | 基于数据重放的可持续金融事件抽取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117493486A true CN117493486A (zh) | 2024-02-02 |
CN117493486B CN117493486B (zh) | 2024-06-14 |
Family
ID=89679748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311500765.7A Active CN117493486B (zh) | 2023-11-10 | 2023-11-10 | 基于数据重放的可持续金融事件抽取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493486B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892799A (zh) * | 2024-03-15 | 2024-04-16 | 中国科学技术大学 | 以多层次任务为导向的金融智能分析模型训练方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN112967144A (zh) * | 2021-03-09 | 2021-06-15 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN114490954A (zh) * | 2022-04-18 | 2022-05-13 | 东南大学 | 一种基于任务调节的文档级生成式事件抽取方法 |
CN115544210A (zh) * | 2022-10-21 | 2022-12-30 | 中国科学院空天信息创新研究院 | 基于持续学习的事件抽取的模型训练、事件抽取的方法 |
WO2023051399A1 (zh) * | 2021-09-28 | 2023-04-06 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
WO2023071743A1 (zh) * | 2021-10-25 | 2023-05-04 | 中兴通讯股份有限公司 | 网络模型训练方法、装置和计算机可读存储介质 |
CN116089584A (zh) * | 2023-02-02 | 2023-05-09 | 北京有竹居网络技术有限公司 | 事件抽取的方法、装置、电子设备和介质 |
US20230237512A1 (en) * | 2022-01-07 | 2023-07-27 | Jpmorgan Chase Bank, N.A. | Method and system for understanding financial documents |
CN116501898A (zh) * | 2023-06-29 | 2023-07-28 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
CN116776950A (zh) * | 2023-04-27 | 2023-09-19 | 北京计算机技术及应用研究所 | 一种基于样本重放和知识蒸馏的终身学习方法 |
-
2023
- 2023-11-10 CN CN202311500765.7A patent/CN117493486B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783394A (zh) * | 2020-08-11 | 2020-10-16 | 深圳市北科瑞声科技股份有限公司 | 事件抽取模型的训练方法、事件抽取方法和系统及设备 |
CN112967144A (zh) * | 2021-03-09 | 2021-06-15 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
WO2023051399A1 (zh) * | 2021-09-28 | 2023-04-06 | 浙江大学 | 一种基于本体指导的生成式事件抽取方法 |
WO2023071743A1 (zh) * | 2021-10-25 | 2023-05-04 | 中兴通讯股份有限公司 | 网络模型训练方法、装置和计算机可读存储介质 |
US20230237512A1 (en) * | 2022-01-07 | 2023-07-27 | Jpmorgan Chase Bank, N.A. | Method and system for understanding financial documents |
CN114490954A (zh) * | 2022-04-18 | 2022-05-13 | 东南大学 | 一种基于任务调节的文档级生成式事件抽取方法 |
CN115544210A (zh) * | 2022-10-21 | 2022-12-30 | 中国科学院空天信息创新研究院 | 基于持续学习的事件抽取的模型训练、事件抽取的方法 |
CN116089584A (zh) * | 2023-02-02 | 2023-05-09 | 北京有竹居网络技术有限公司 | 事件抽取的方法、装置、电子设备和介质 |
CN116776950A (zh) * | 2023-04-27 | 2023-09-19 | 北京计算机技术及应用研究所 | 一种基于样本重放和知识蒸馏的终身学习方法 |
CN116501898A (zh) * | 2023-06-29 | 2023-07-28 | 之江实验室 | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 |
Non-Patent Citations (2)
Title |
---|
席建文: "基于金融领域的因果事件抽取算法研究", 现代计算机, 10 February 2023 (2023-02-10) * |
胡扬;闫宏飞;陈翀;: "面向金融知识图谱的实体和关系联合抽取算法", 重庆理工大学学报(自然科学), no. 05, 15 May 2020 (2020-05-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892799A (zh) * | 2024-03-15 | 2024-04-16 | 中国科学技术大学 | 以多层次任务为导向的金融智能分析模型训练方法及系统 |
CN117892799B (zh) * | 2024-03-15 | 2024-06-04 | 中国科学技术大学 | 以多层次任务为导向的金融智能分析模型训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117493486B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN112749608B (zh) | 视频审核方法、装置、计算机设备和存储介质 | |
CN108520503A (zh) | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN117493486B (zh) | 基于数据重放的可持续金融事件抽取系统及方法 | |
CN111143578B (zh) | 基于神经网络抽取事件关系的方法、装置和处理器 | |
CN113434685B (zh) | 一种资讯分类处理的方法及系统 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN111242033A (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN112597366B (zh) | 基于Encoder-Decoder的事件抽取方法 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN116151235A (zh) | 文章生成方法、文章生成模型训练方法及相关设备 | |
Yu et al. | Diffusion-based data augmentation for nuclei image segmentation | |
CN109409529B (zh) | 一种事件认知分析方法、系统及存储介质 | |
Deng et al. | Boosting semi-supervised learning with Contrastive Complementary Labeling | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN113221546B (zh) | 手机银行资讯数据处理方法及装置 | |
CN113434686A (zh) | 一种基于多重语义信息的资讯分类方法及系统 | |
CN114255300A (zh) | 流程图的提取模型训练方法、获取方法、设备及介质 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
Yu et al. | Construction of garden landscape design system based on multimodal intelligent computing and deep neural network | |
CN117436457B (zh) | 反讽识别方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |