CN114817528A

CN114817528A - 基于提示模板的金融文本分类方法、装置及电子设备

Info

Publication number: CN114817528A
Application number: CN202210280524.5A
Authority: CN
Inventors: 景泳霖; 周靖宇
Original assignee: Beijing Kuaique Information Technology Co ltd
Current assignee: Beijing Kuaique Information Technology Co ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-07-29

Abstract

本发明公开了一种基于提示模板的金融文本分类方法、装置及电子设备，方法包括：获取原始的金融语料，将金融语料转化为基于提示模板的MLM标签；对MLM标签进行转换，生成MLM标签训练样本；构建预训练模型，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型；将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类结果。本发明实施例能实现仅有少量标注数据的情况下，仍然使分类模型达到接近预训练模型类似的泛化能力；大大减少了标注的量，减少了大规模数据依赖；提高了金融文本分类效率。

Description

基于提示模板的金融文本分类方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于提示模板的金融文本分类方法、装置及电子设备。

背景技术

在金融领域，需要对各种文本进行分类判断。例如对债券发行价格的咨询，问价等，这一类文本数据比较杂乱，在通常的建模过程中涉及商业机密，因此数据收集量往往不足，给分类建模带来了很多困难。通常解决办法是使用数据增强，但小样本学习的困难仍很难解决。

金融领域的文本，或者样本文本的样式由于行业自身的保密性特点，通常是不容易进行收集的，一般的泛化方法，比如问候语，前后词缀的调整等并不能真正意义的增强数据的丰富程度，在此基础上的建模通常容易限于严重的过拟合。

文本分类任务的做法有非常多，从经典的text-CNN结构，抽取数据特征汇总计算，还有预训练方法encoder得到池化隐层，再由池化隐层进行后续全连接操作得到结果。这些成熟的方法在数据充分的情况下有很高的准确率。对于小样本学习，近年来也提出过很多不同的方案，比如对比学习，孪生网络，数据增强等框架。基本分为两大类：第一类是对于原始数据加以扰乱和替换,在金融语料中举例,改变金融主语的词缀就是一个很好的例子。第二类是根据已有数据进行生成和判别,比如用GAN的结构，生成假金融语料，再用判别器判别真伪，从而在训练中得到一个很好的文本生成器。

除了经典的语言类深度学习的方法，在金融上还常用一些‘金融理论逻辑’做知识图谱，去预先给定一部分信息和结构的先验知识，再根据这些先验知识去丰富网络结构或者生成新的数据的方式去提高模型的性能。这种方法对于外部信息的依赖程度很高,极其依赖外部信息的准确性和丰富性。

数据增强的做法,本质在于不影响数据分布的前提下,加大已有数据的泛用性,并不影响数据的原始分布。然而在小样本学习的大前提下，测试集合实际情况比较严苛，可能完全不同于训练集的分布，对模型的泛化程度要求极高，通常的数据增强或生成判别方法很难达到泛化性目标。

对于金融语料而言，不同机构的分类任务和目标之间的差异可能很大，一般的规则梳理和先验知识很难做到全面涵盖。准确性和丰富性的要求使得能够泛用的规则数量十分有限。且规则需要专家的细致梳理，成本和回报产出之间的不对等会影响具体工程的落地，诸多限制下，规则和外部知识让任务变得难以开展和维护。

因此现有的金融文本分类方法，需要大量的先验知识，在标注数量较少情况下，数据分类效果较差。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明提供了一种基于提示模板的金融文本分类方法、装置及电子设备，旨在解决现有技术中金融文本分类方法，需要大量的先验知识，在标注数量较少情况下，数据分类效果较差的问题。

本发明的技术方案如下：

本发明第一实施例提供了一种基于提示模板的金融文本分类方法，方法包括：

获取原始的金融语料，将金融语料转化为基于提示模板的MLM标签；

对MLM标签进行转换，生成MLM标签训练样本；

构建预训练模型，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型；

将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类结果。

进一步地，所述获取原始的金融语料，包括：

获取原始的金融语料，对所述金融语料进行解析，根据解析结果获取所述金融语料对应的分类任务。

进一步地，所述将金融语料转化为基于提示模板的MLM标签前，还包括：

根据金融语料对应的分类任务，生成对应的提示模板。

进一步地，所述将金融语料转化为基于提示模板的MLM标签，包括：

根据金融语料对应的分类任务，生成分类映射模板；

根据所述分类映射模板，将金融语料的分类任务映射为基于提示模板的MLM标签。

根据金融语料对应的分类任务，生成分类映射模板；

本发明的另一实施例提供了一种基于提示模板的金融文本分类装置，装置包括：

MLM标签转化模块，用于获取原始的金融语料，将金融语料转化为基于提示模板的MLM标签；

样本生成模块，用于对MLM标签进行转换，生成MLM标签训练样本；

模型训练模块，用于构建预训练模型，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型；

文本分类模块，用于将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类结果。

本发明的另一实施例提供了一种电子设备，所述电子设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于提示模板的金融文本分类方法。

本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于提示模板的金融文本分类方法。

有益效果：本发明实施例能实现仅有少量标注数据的情况下，仍然使分类模型达到接近预训练模型类似的泛化能力；大大减少了标注的量，减少了大规模数据依赖；提高了金融文本分类效率。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于提示模板的金融文本分类方法较佳实施例的流程图；

图2为本发明一种基于提示模板的金融文本分类方法较佳实施例的网络结构示意图；

图3为本发明一种基于提示模板的金融文本分类方法较佳实施例的预训练网络模型的示意图；

图4为本发明一种基于提示模板的金融文本分类装置的较佳实施例的功能模块示意图；

图5为本发明一种电子设备的较佳实施例的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合附图对本发明实施例进行介绍。

针对上述问题，本发明实施例提供了一种基于提示模板的金融文本分类方法，请参阅图1，图1为本发明一种基于提示模板的金融文本分类方法较佳实施例的流程图。如图1所示，其包括：

步骤S100、获取原始的金融语料，将金融语料转化为基于提示模板的MLM标签；

步骤S200、对MLM标签进行转换，生成MLM标签训练样本；

步骤S300、构建预训练模型，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型；

步骤S400、将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类结果。

具体实施时，本发明实施例主要是将prompt工程，融合到金融文本学习的过程之中。利用prompt工程的特性辅助金融文本分类工程的落地。其中，Prompt工程的本质是利用特定的提示模板，给与文本理解模型以指示，指导模型的任务与文本的原始关系，在不暴露标签信息的基础上，最大程度的利用预训练模型原本的样式，模拟MLM(mask languagemodel掩码模型)任务。金融对话及金融语料中常有简单的隐藏背景语句，不需要很强的先验知识也能够使用有一定意义的prompt模板，也因此训练生成的金融文本分类模型有着很强的泛化能力，为小样本学习提供了方便。

如图2所示为本发明实施例的模型架构示意图。本发明实施例搭建了一套深度神经网络模型，将原始的金融语料分类任务转换为prompt辅助下的MLM任务，将原始的标签加以转换，生成MLM标签训练样本，以便于预训练模型的成功接入。构建预训练模型，预训练模型结构部分使用非常灵活，如果用最大规模的模型，如GPT-3，则无需再进行fine-tuning(进一步调参)，直接预测就能在小样本学习中达到预想的理想效果。也可以使用较小的预训练模型，例如albert-tiny，bert-tiny等。这些小规模的模型易于部署且同样具有很强的泛化能力。将MLM标签训练样本输入预训练模型，实现将这一类预训练模型加入prompt模式，进行fine-tuning，或者p-tuning(下游MLP/LSTM调参)训练操作，生成金融文本分类模型。获取待识别的金融文本数据，将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类模型的输出结果，

所述输出结果为金融文本分类结果；实现在小样本的模式下达到理想的效果。因此在金融场景下的语言分类问题，可以利用prompt的性质，把原始问题通过语言模板提示的方式变得清晰。模块的变动方式也可以很灵活。预训练模型经过p-tuning操作后，还通过MLM预测位置逻辑值后，通过文本回译模块，生成分类结果。

在一个实施例中，获取原始的金融语料，包括：

具体实施时，获取原始的金融语料，其中金融语料是指一定数量和规模的金融文本资源集合。规模会根据获取资源数目的不同而不同，语料规模可大可小，大至千万，甚至数亿句或更大，小至几百句。对金融语料进行解析，从而判断金融语料对应的分类任务的具体内容。

在一个实施例中，将金融语料转化为基于提示模板的MLM标签前，还包括：

根据金融语料对应的分类任务，生成对应的提示模板。

具体实施时，不同的金融语料的分类任务所面临的场景不一样，需要按照具体的场景进行prompt模板的设计，比如区分债券的询价意图和普通问候意图，所选择的模板可以设计为‘[原句]+[这是在询问债券的价格么？]+[是/否]’，其中加号代表并列排布，半括号代表部分。[是/否]为选择填入的MLM位置。

在一个实施例中，将金融语料转化为基于提示模板的MLM标签，包括：

根据金融语料对应的分类任务，生成分类映射模板；

具体实施时，不同金融任务的分类方式可能存在较大差异，在结论选择部分，有二分类的情况，多分类的情况。需要根据具体分类情况制定分类映射prompt verbalizer模板(将分类标签做为MLM任务的映射)，比如：(属于,不属于)->(是/否),(询价语句,问候语句,操作语句)->(是/否属于询价语句,是否属于问候语句,是否输入操作语句)这样做符合小样本学习对prompt学习的基本要求,能做到最快的拟合。

在一个实施例中，构建预训练模型，包括：

获取金融语料的分类任务的类型及服务器的参数；

根据所述分类任务的类型及服务器参数，构建对应的预训练模型。

具体实施时，关于预训练模型的选择问题,可以采取的策略是:针对特定任务,在有大量无标注语料支持的情况下可以进行预先的小型模型预训练步骤,无数据支持的情况下,优先使用偏向泛化阅读理解能力的预训练模型,例如xlnet,bert等。

在一个实施例中，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型，包括：

将MLM标签训练样本输入预训练模型，根据提示模板对预训练模型进行训练，生成金融文本分类模型。

具体实施时，对于低并发,准确率要求较高的金融语言分类任务，在服务器允许的情况下，可以部署较大的模型，即使不加以训练，大型预训练模型在prompt模板下的小样本学习也能保证较好的精度，而且可以实现联邦学习，保证了安全性和保密属性。这种情形下使用的模块为偏大型预训练模块，prompt模板模块，标签文本转化label verbalizer模块。

对于高并发，准确率要求较高，且对服务器要求低的金融语言分类任务,允许对模型进行再训练,也可以使用prompt模板对模型进行fine tuning或者p-tuning.其中finetuning适合于中小型预训练模型,p-tuning适配所有大小的预训练模型,且对训练模型服务器的要求更低。

在一个实施例中，根据提示模板对预训练模型进行训练，包括：

根据提示模板对预训练模型进行fine-tuning或者p-tunning训练。

具体实施时，由于部署的方式，不同任务的特点，精度，还有服务器承载问题的影响，分类任务的训练和部署设计要仔细的考量。

针对要求规模超小，且与通常文本有较大区分的金融语料分类任务，p-tuning的训练方式很有必要，固定住预训练模型的参数，在预训练下游接入双向LSTM/MLP模块.或者直接对于有保密性要求的机构,可以放弃使用固定prompt模板,直接使用占位符加p-tuning的方式可以在不了解语料内容的情况下,仍然胜任小样本分类任务。

占位符prompt的设计，也属于超参设计的一种，通常更长的金融语料，寓意也偏向复杂，占位符prompt设计长度也会偏向更长。以平均长度为N的金融语料举例，NLP的经验占位符要求通常为大于0.2*N。占位符embedding可以尝试多种初始化，以具体分类任务情况而定，通常默认采用标准正态分布作为初始分布，在多轮p-tuning后逐渐收敛。在前沿的研究中。占位符prompt模板在小样本学习上的效果仍然优于不使用占位符的方案。

如图3所示，p-tuning的两个版本，这里简称版本一，版本二，版本一为在预训练模型输出最后一层进行MLP/LSTM操作,版本二为在预训练多层截断后进行MLP/LSTM操作,最终合并并接入分类模型。两个版本也可以加以结合。

进一步地，本发明实施例主要针对金融文本的分类任务；在应用上并不限于金融行业。

本发明实施例主要解决的是只有少量标注样本且计算资源较少的分类情况，可用于其它相关问题的应用上。

本发明实施例提供了一种基于提示模板的金融文本分类方法，构建基于金融规则模板适配prompt模式的分类模型，通过分类模型对金融文本进行分类，其中金融初始模板的连续占位tuning(p-tuning)分类模型，实现仅有少量标注数据的情况下，仍然使分类模型达到接近预训练模型类似的泛化能力；大大减少了标注的量，减少了大规模数据依赖；对模型规模需求量小，完全可以实现轻量部署的要求。

需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。

本发明另一实施例提供一种基于提示模板的金融文本分类装置，如图4所示，装置1包括：

MLM标签转化模块11，用于获取原始的金融语料，将金融语料转化为基于提示模板的MLM标签；

样本生成模块12，用于对MLM标签进行转换，生成MLM标签训练样本；

模型训练模块13，用于构建预训练模型，将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型；

文本分类模块14，用于将待识别的金融文本数据输入金融文本分类模型，获取金融文本分类结果。

具体实施方式见方法实施例，此处不再赘述。

本发明另一实施例提供一种电子设备，如图5所示，电子设备10包括：

一个或多个处理器110以及存储器120，图5中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器110用于完成电子设备10的各种控件逻辑，其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件控件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP核、或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于提示模板的金融文本分类方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的基于提示模板的金融文本分类方法。

存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于提示模板的金融文本分类方法，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤S100至步骤S400。

作为示例，非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明并非限制，RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器控件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的基于提示模板的金融文本分类方法。例如，执行以上描述的图1中的方法步骤S100至步骤S400。

以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。

除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。

已经在本文中在本说明书和附图中描述的内容包括能够提供基于提示模板的金融文本分类方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

Claims

1.一种基于提示模板的金融文本分类方法,其特征在于,所述方法包括：

对MLM标签进行转换，生成MLM标签训练样本；

2.根据权利要求1所述的方法，其特征在于，所述获取原始的金融语料，包括：

3.根据权利要求2所述的方法，其特征在于，所述将金融语料转化为基于提示模板的MLM标签前，还包括：

根据金融语料对应的分类任务，生成对应的提示模板。

4.根据权利要求3所述的方法，其特征在于，所述将金融语料转化为基于提示模板的MLM标签，包括：

根据金融语料对应的分类任务，生成分类映射模板；

5.根据权利要求4所述的方法，其特征在于，所述构建预训练模型，包括：

获取金融语料的分类任务的类型及服务器的参数；

6.根据权利要求5所述的方法，其特征在于，所述将MLM标签训练样本输入预训练模型，对预训练模型进行训练，生成金融文本分类模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据提示模板对预训练模型进行训练，包括：

根据提示模板对预训练模型进行fine-tuning或者p-tunning训练。

8.一种基于提示模板的金融文本分类装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于提示模板的金融文本分类方法。

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于提示模板的金融文本分类方法。