CN117493486A

CN117493486A - 基于数据重放的可持续金融事件抽取系统及方法

Info

Publication number: CN117493486A
Application number: CN202311500765.7A
Authority: CN
Inventors: 叶超; 邵旭; 曾文秋; 朱冰; 王晓玲; 吴苑斌; 潘明慧; 邱震宇; 姜聪聪; 王志承; 杜威; 纪焘
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-02
Anticipated expiration: 2043-11-10
Also published as: CN117493486B

Abstract

本发明公开了一种基于数据重放的可持续金融事件抽取系统及方法，属于人工智能自然语言处理技术领域，具体为：抽取并解析金融事件，获得金融事件类型和关联的金融数据；对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集并制作训练数据，导入抽取模型获得金融数据的软标签；其中训练数据中标注有硬标签；将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数用于修正抽取模型并基于修正后的抽取模型对后续输入的金融数据，抽取持续性金融事件；本发明将数据增强与知识蒸馏技术相结合，提高系统数据泛化能力；使系统在较小数据量下依然具备旧任务的学习能力。

Description

基于数据重放的可持续金融事件抽取系统及方法

技术领域

本发明属于人工智能自然语言处理技术领域，具体涉及一种基于数据重放的可持续金融事件抽取系统及方法。

背景技术

现有的金融事件抽取系统持续学习能力非常有限，在面临不断变化的金融风险环境中无法保持和提高其计算模型的性能，体现在学习新任务时难以保持对旧任务的知识，进而在事件类型不断增加的动态场景中不能取得一个令人满意的表现；使得系统金融事件要素的分析能力差，无法精确地构建金融风险管理和预警系统，最终不能对市场风险进行实时评估和预警。

发明内容

发明目的：为了克服现有技术中的不足，本发明提供一种基于数据重放的可持续金融事件抽取系统及方法，通过本发明的方法和系统将数据增强与知识蒸馏技术相结合，提高系统数据泛化能力；使系统在较小数据量下依然具备旧任务的学习能力。

技术方案：第一方面本发明提供一种基于数据重放的可持续金融事件抽取方法，包括：

抽取并解析金融事件，获得金融事件类型和关联的金融数据；

对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集；

基于增强且泛化的金融数据集制作训练数据，并将训练数据导入抽取模型获得金融数据的软标签；其中训练数据中标注有硬标签；

将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数；

根据训练参数，修正抽取模型；

修正后的抽取模型用于根据后续输入的金融数据，抽取持续性的金融事件。

在进一步的实施例中，抽取并解析金融事件，获得金融事件类型和关联的金融数据，包括：

采用贪心策略随机从缓存数据中获取包含实体数量较多的部分数据作为与当前抽取的金融事件关联的金融数据，或者将缓存数据导入预训练神经网络模型，获取当前抽取的金融事件中每条数据所对应的特征；

根据每条数据所对应的特征计算当前抽取的金融事件在特征空间内的当前金融事件特征原型，并计算每条数据所对应的特征与当前金融事件特征原型的距离；

选择距离最近的若干条数据作为与当前金融事件关联的金融数据，并存储为缓存池中的记忆数据用于后续金融事件的重放训练，以及在每一次抽取金融事件时重复训练并从记忆数据中随机抽取数据进行循环训练。

在进一步的实施例中，所述记忆数据预设有数据存储的固定量。

在进一步的实施例中，对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集，包括：

根据同义词表对金融数据中包含的实体进行实体命名的同义词替换，扩展相似数据；

根据提及词表对相似数据中的句子进行语义修正并标注实体信息，获得增强后的金融数据集；

将缓存池中的记忆数据与增强后的金融数据集进行混合，得到增强且泛化的金融数据集。

在进一步的实施例中，将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数，包括：

将软标签代入知识蒸馏损失函数计算非新事体位置的知识蒸馏损失；将硬标签代入知识蒸馏损失函数计算非新事体位置的交叉熵损失；

软标签对应的非新事体位置的知识蒸馏损失和硬标签对应的非新事体位置的交叉熵损失进行加权平均计算，获得最终损失。

在进一步的实施例中，软标签对应的非新事体位置的知识蒸馏损失的计算表达式为：

式中，p_i，q_i分别为当前模型θ和保存的旧模型θ^*的预测概率；

硬标签对应的非新事体位置的知识蒸馏损失的计算表达式为：

式中，y为硬标签对应的下标；

最终损失的表达式为：

L_tot＝αL_kd+βL_ce

式中，α，β分别为知识蒸馏损失和交叉熵损失的权重系数。

在进一步的实施例中，修正后的抽取模型用于根据后续输入的金融数据，抽取持续性的金融事件的方法包括：

采用多个预训练语言模型BERT对输入的金融数据进行特征抽取，获得数据对应的特征；

将数据对应的特征导入token层，并在所有token的最后一层的输出表示h_i后，接入一个实体识别分类器，得到每个实体类别的分数向量z_i；

采用softmax归一化函数对每个实体类别的分数向量z_i进行计算，获得实体类别的概率分布；

选择实体类别概率大于其它的进行事件类别嵌入增强，获得实体类别嵌入信息增强的事件类别；

根据实体类别嵌入信息增强的事件类别抽取金融事件。

在进一步的实施例中，实体类别的概率分布的计算表达式为：

式中，e为自然底数，为实体类别j的分数；

获得实体类别嵌入信息增强的事件类别的表达式为：

e_i＝wte_i+pos_i+seg_i+event_embd_i

式中，wte_i、pos_i、seg_i分别表示字嵌入、位置嵌入以及分段嵌入，event_embd_i为提出的实体类型的嵌入信息。

第二方面本发明提供一种基于数据重放的可持续金融事件抽取系统，包括：

数据获取模块、数据处理模块、知识蒸馏模块、事件抽取模块

所述数据获取模块用于抽取并解析金融事件，获得金融事件类型和关联的金融数据；

所述数据处理模块用于对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集；

所述知识蒸馏模块用于基于增强且泛化的金融数据集制作训练数据，并将训练数据导入抽取模型获得金融数据的软标签；其中训练数据中标注有硬标签；将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数；并根据训练参数，修正抽取模型；

所述事件抽取模块用于基于修正后的抽取模型进行后续金融数据输入，获得持续性金融事件的抽取功能。

有益效果：本发明与现有技术相比具有以下优点：

通过数据获取与重放模块选择贪心或原型两种方法进行数据获取和训练，选出更具有代表性的样本，增加样本在后期增强的效用。

对于数据增强方法采用基于同义词表以及同实体类型两种替换策略，增加了大量的伪数据，可以处理低资源场景。

通过将知识蒸馏算法优化抽取模型，避免了模型在持续学习的过程中失去解决旧任务的能力。

附图说明

图1是本发明抽取模型持续学习整体框架图；

图2是本发明数据增强策略的实施例图；

图3是本发明损失函数计算流程图；

图4是本发明事件抽取模块的实施例图；

图5是本发明事件抽取方法的流程图。

具体实施方式

为了更充分理解本发明的技术内容，下面结合具体实施例对本发明的技术方案进一步介绍和说明，但不局限于此。

结合图1进一步说明本发明的抽取模型持续学习整体框架，使得事件抽取模型不仅能够处理事件数量固定的场景，也能够处理金融事件类型不断增加的场景。基于数据重放的可持续金融事件抽取系统包括：

数据获取模块用于抽取并解析金融事件，获得金融事件类型和关联的金融数据；

数据处理模块用于对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集；

知识蒸馏模块用于基于增强且泛化的金融数据集制作训练数据，并将训练数据导入抽取模型获得金融数据的软标签；其中训练数据中标注有硬标签；将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数；并根据训练参数，修正抽取模型；

事件抽取模块用于基于修正后的抽取模型进行后续金融数据输入，获得持续性金融事件的抽取功能。

本实施例中通过数据获取模块进行数据重放，通过在训练新任务的同时，重温旧任务的数据，以保持或恢复神经网络之前任务的知识。这种方法可以帮助模型在保持对已学习任务的性能的同时，更好地拟合新任务，提高模型在多任务场景下的泛化能力；

数据处理模块通过构造新的伪数据来扩充现有数据集。这些伪数据通常是通过对原始数据进行一定的变换，如旋转、缩放、翻转等操作得到的。通过数据增强，可以有效地扩大数据量，增强模型对不同数据分布的适应能力，从而提高模型的泛化性能。

知识蒸馏模块通过知识蒸馏，可以使小模型学习大模型在任务数据分布上的输出，从而实现在保持较高性能的同时，降低模型的计算资源消耗。这种方法在许多场景下具有重要价值，例如在移动设备、边缘计算等资源受限的环境中部署深度学习模型。

结合图2至图5进一步说明本实施例的可持续金融事件抽取方法，包括：

步骤1：对于新增的事件类型，获取与该事件类型相关联的金融数据；

步骤2：对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集；

步骤3：基于增强且泛化的金融数据集制作训练数据：当前非首个事件类型时，将训练数据导入抽取模型获得金融数据在之前事件类型上的软标签；训练数据中标注有硬标签；

步骤4：使用软标签(如有)计算知识蒸馏损失函数，使用硬标签计算交叉熵损失函数，加权求和后获得最终损失，并根据最终损失优化抽取模型；

步骤5：保存优化后的抽取模型。

步骤6：当新增事件类型时，重新执行步骤1，完成金融事件的持续抽取。

结合图2进一步说明获取与该事件类型相关联的金融数据的方法包括：

选择距离最近的若干条数据作为与当前金融事件关联的金融数据，并存储为缓存池中的记忆数据用于后续金融事件的重放训练，以及在每一次抽取金融事件时重复训练并从记忆数据中随机抽取数据进行循环训练；以及在收集属于该事件类型的数据时，通过人工标注的方式标注其中的每条数据中属于该事件类型的实体；其中记忆数据预设有数据存储的固定量。

对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集，包括：

将缓存池中的记忆数据与增强后的金融数据集进行混合，得到增强且泛化的金融数据集；

其中本实施例中数据增强方法样例展示如下表所示(替换部分使用粗体标出)：

结合图3进一步说明将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数的方法：

软标签对应的非新事体位置的知识蒸馏损失的计算表达式为：

式中，y为硬标签对应的下标；

最终损失的表达式为：

L_tot＝αL_kd+βL_ce

式中，α，β分别为知识蒸馏损失和交叉熵损失的权重系数。

结合图4进一步说明当新增事件类型时，重新执行步骤1，采用优化的模型进行金融事件的持续抽取，方法为：采用多个预训练语言模型BERT对输入的金融数据进行特征抽取，获得数据对应的特征；

根据实体类别嵌入信息增强的事件类别抽取金融事件。

实体类别的概率分布的计算表达式为：

式中，e为自然底数，为实体类别j的分数；

获得实体类别嵌入信息增强的事件类别的表达式为：

e_i＝wte_i+pos_i+seg_i+event_embd_i

综上所述本发明能够通过数据获取与重放模块选择贪心或原型两种方法进行数据获取和训练，选出更具有代表性的样本，增加样本在后期增强的效用。其次对于数据增强方法采用基于同义词表以及同实体类型两种替换策略，增加了大量的伪数据，可以处理低资源场景。此外通过将知识蒸馏算法优化抽取模型，避免了模型在持续学习的过程中失去解决旧任务的能力。

本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于数据重放的可持续金融事件抽取方法，其特征在于，包括：

根据训练参数，修正抽取模型；

2.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法，其特征在于，抽取并解析金融事件，获得金融事件类型和关联的金融数据的方法包括：

3.根据权利要求2所述的基于数据重放的可持续金融事件抽取方法，其特征在于，所述记忆数据预设有数据存储的固定量。

4.根据权利要求3所述的基于数据重放的可持续金融事件抽取方法，其特征在于，对金融数据进行数据增强、绑定、泛化处理，获得增强且泛化的金融数据集，包括：

5.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法，其特征在于，将软标签、硬标签分别代入知识蒸馏损失函数、交叉熵损失函数计算获得最终损失，并对最终损失采用梯度优化，获得训练参数，包括：

6.根据权利要求5所述的基于数据重放的可持续金融事件抽取方法，其特征在于，软标签对应的非新事体位置的知识蒸馏损失的计算表达式为：

式中，y为硬标签对应的下标；

最终损失的表达式为：

L_tot＝αL_kd+βL_ce

式中，α，β分别为知识蒸馏损失和交叉熵损失的权重系数。

7.根据权利要求1所述的基于数据重放的可持续金融事件抽取方法，其特征在于，修正后的抽取模型用于根据后续输入的金融数据，抽取持续性的金融事件的方法包括：

根据实体类别嵌入信息增强的事件类别抽取金融事件。

8.根据权利要求7所述的基于数据重放的可持续金融事件抽取方法，其特征在于，实体类别的概率分布的计算表达式为：

式中，e为自然底数，为实体类别j的分数；

获得实体类别嵌入信息增强的事件类别的表达式为：

e_i＝wte_i+pos_i+seg_i+event_embd_i

9.一种基于数据重放的可持续金融事件抽取系统，其特征在于，包括：