CN112926631A - 金融文本的分类方法、装置及计算机设备 - Google Patents
金融文本的分类方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112926631A CN112926631A CN202110139094.0A CN202110139094A CN112926631A CN 112926631 A CN112926631 A CN 112926631A CN 202110139094 A CN202110139094 A CN 202110139094A CN 112926631 A CN112926631 A CN 112926631A
- Authority
- CN
- China
- Prior art keywords
- text classification
- text
- training
- classifier
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 124
- 238000013145 classification model Methods 0.000 claims abstract description 96
- 238000004821 distillation Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims description 51
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种金融文本的分类方法、装置及计算机设备,涉及金融数据处理技术领域,可以解决目前在对金融文本进行分类时,样本标注难度较大,训练和预测时间较长,对硬件要求较高,且存在金融文本分类效果不佳的技术问题。其中方法包括:基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。本申请适用于对金融文本的分类划分。
Description
技术领域
本申请涉及金融数据处理技术领域,尤其涉及到一种金融文本的分类方法、装置及计算机设备。
背景技术
在互联网飞速发展的今天,人们在各个方面对文本信息获取的要求越来越高。随着金融行业的蓬勃发展,金融行业对金融文本的分类划分提出了更高的要求,迫切要求更高效更便捷的方式来实现对金融文本的分类处理。
目前在对金融文本进行分类时,往往采用通用预训练模型在金融文本中精调的传统方法,然而金融垂直领域语言和通用语言模型中的语料库存在较大差异,且基于语言模型精调的传统方法无法较好地利用无标注样本,而现实中样本的标注成本较高,标注难度较大。此外,预训练模型较大较深,其训练和预测时间较长,对硬件要求较高,进而导致金融文本分类效果不佳。
发明内容
有鉴于此,本申请提供了一种金融文本的分类方法、装置及计算机设备,主要解决目前在对金融文本进行分类时,样本标注难度较大,训练和预测时间较长,对硬件要求较高,且存在金融文本分类效果不佳的技术问题。
根据本申请的一个方面,提供了一种金融文本的分类方法,其特征在于,包括:
基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;
利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
可选地,所述基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型,具体包括:
基于标签样本对FinBERT预训练模型进行精调,更新主干参数;
对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型;
根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数;
若判断所述损失函数处于收敛状态,则确定所述文本分类型模型符合预设训练标准。
可选地,所述对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型,具体包括:
在所述FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。
可选地,所述根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数,具体包括:
将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项;
比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项;
将所述第一损失项和所述第二损失项的加和确定为所述文本分类模型训练时的损失函数。
可选地,所述将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项,具体包括:
利用KL散度度量所述分支分类器和主干分类器的概率分布距离;
计算拟合所述分支分类器和所述主干分类器概率分布的第一损失项。
可选地,所述比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项,具体包括:
利用KL散度度量所述分支分类器数据增强前后的概率分布距离;
计算拟合所述分支分类器数据增强前后概率分布的第二损失项。
可选地,所述利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果,具体包括:
将目标金融文本输入符合预设训练标准的文本分类型模型中,按照分类器由下至上的层级顺序预测所述目标金融文本的分类标签,并计算预测结果的熵;
若判定预测结果的熵小于预设阈值,则根据当前分类器的置信度划分直接输出文本分类结果。
根据本申请的另一个方面,提供了一种金融文本的分类装置,该装置包括:
训练模块,用于基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;
分类模块,用于利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
可选地,所述训练模块,具体可包括:
更新单元,用于基于标签样本对FinBERT预训练模型进行精调,更新主干参数;
调整单元,用于对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型;
计算单元,用于根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数;
确定单元,用于若判断所述损失函数处于收敛状态,则确定所述文本分类型模型符合预设训练标准。
可选地,所述调整单元,具体可用于:在所述FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。
可选地,所述计算单元,具体可用于:将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项;比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项;将所述第一损失项和所述第二损失项的加和确定为所述文本分类模型训练时的损失函数。
可选地,所述计算单元,具体可用于:利用KL散度度量所述分支分类器和主干分类器的概率分布距离;计算拟合所述分支分类器和所述主干分类器概率分布的第一损失项。
可选地,所述计算单元,具体可用于:利用KL散度度量所述分支分类器数据增强前后的概率分布距离;计算拟合所述分支分类器数据增强前后概率分布的第二损失项。
可选地,所述分类模块,具体可包括:
输入单元,用于将目标金融文本输入符合预设训练标准的文本分类型模型中,按照分类器由下至上的层级顺序预测所述目标金融文本的分类标签,并计算预测结果的熵;
输出单元,用于若判定预测结果的熵小于预设阈值,则根据当前分类器的置信度划分直接输出文本分类结果。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述金融文本的分类方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述金融文本的分类方法。
借由上述技术方案,本申请提供的一种金融文本的分类方法、装置及计算机设备,与目前采用通用预训练模型在金融文本中精调的传统方法相比,本申请可预先基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;进而利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。在本申请中,通过在金融预训练模型中增加自蒸馏模块、数据增强模块,以及在推理过程中应用样本自适应机制,可有效提高文本分类模型的训练和预测速度。此外,自蒸馏和无监督一致化的融合一方面可提升文本分类模型对无标签样本的利用,另一方面可弥补预训练模型在金融生僻词上的词汇缺失,故本申请能够在少样本标注的前提下达到较高精度和较好性能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种金融文本的分类方法的流程示意图;
图2示出了本申请实施例提供的另一种金融文本的分类方法的流程示意图;
图3示出了本申请实施例提供的一种文本分类模型的网络结构示意图;
图4示出了本申请实施例提供的一种文本分类模型训练的原理示意图;
图5示出了本申请实施例提供的一种金融文本的分类装置的结构示意图;
图6示出了本申请实施例提供的另一种金融文本的分类装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在对金融文本进行分类时,样本标注难度较大,训练和预测时间较长,对硬件要求较高,且存在金融文本分类效果不佳的技术问题,本申请实施例提供了一种金融文本的分类方法,如图1所示,该方法包括:
101、基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型。
在具体的应用场景中,由于金融垂直领域语言和通用语言模型中的语料库存在较大差异,下游任务的模型效果提升不显著。且基于语言模型精调的传统方法无法较好地利用无标注样本,而现实中样本的标注成本较高,标注难度较大。故在本申请中,可融合金融领域词汇训练得到的FinBERT作为初始化预训练模型,利用少量的标注样本精调FinBERT预训练模型中的主干参数,使精调后的FinBERT预训练模型能够在某一类金融文本识别中具有较高精度。此外,还在金融预训练模型中增加自蒸馏模块和数据增强模块,通过自蒸馏和无监督一致化的融合,一方面提升模型对无标签样本的利用,另一方面可弥补预训练模型在金融生僻词上的词汇缺失,进一步可在少样本标注的前提下,得到针对金融文本分类具有较高精度的文本分类模型。
对于本申请的执行主体可为用于对金融文本进行分类处理的数据处理系统,通过在数据处理系统中训练用于对金融文本进行分类处理的文本分类模型,进而可通过控制文本分类模型对目标金融文本进行文本分类处理,获取文本分类结果。
102、利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
对于本实施例,在训练得到符合预设训练标准的文本分类模型后,可基于文本分类模型对待进行分类处理的目标金融文本进行文本分类识别。其中,在进行文本分类识别时,可基于样本自适应机制对样本进行推理,由下往上层预测样本标签,进而可减少模型的运算量,提升模型的识别速度。
通过本实施例中金融文本的分类方法,与目前采用通用预训练模型在金融文本中精调的传统方法相比,本申请可预先基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;进而利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。在本申请中,通过在金融预训练模型中增加自蒸馏模块,以及在推理过程中应用样本自适应机制,可有效提高文本分类模型的训练和预测速度。此外,自蒸馏和无监督一致化的融合一方面可提升文本分类模型对无标签样本的利用,另一方面可弥补了预训练模型在金融生僻词上的词汇缺失,故本申请能够在少样本标注的前提下达到较高精度和较好性能。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种金融文本的分类方法,如图2所示,该方法包括:
201、基于标签样本对FinBERT预训练模型进行精调,更新主干参数。
对于本实施例,FinBERT预训练模型可在公共网络下载,为了让FinBERT预训练模型能够更好地学习到本任务下的语义层的金融领域知识,从而更全面地学习到金融领域词句的特征分布,故可针对待识别的目标金融文本的语料类型,获取对应的标签样本。其中,在每个标签样本中,均配置一个相同或不相同的预设分类标签,例如,针对贷款类的语料类型,对应配置的预设分类标签可为:信用卡、银行、互联网贷款下的贷款还款、贷款申请、贷款发放、贷款逾期等。针对餐饮类的语料类型,对应配置的预设分类标签可为:餐饮消费、餐饮订单、点餐、在线支付等。在获取到标签样本后,进而可利用配置预设分类标签的标签样本对FinBERT预训练模型进行精调,使模型更贴近于本申请中的分类任务,精调完成后更新并冻结FinBert预训练模型的主干参数,进一步使FinBERT预训练模型能够适用于对该语料类型下的目标金融文本的精准分类识别。
202、对更新主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型。
对于本实施例,为了实现对无标注样本的利用,在本申请中,如图3所示,可针对FinBERT预训练模型的网络结构进行调整,在FinBERT预训练模型的每层Transformer加上分支分类器Student Classifier,将原FinBERT预训练模型称为主干Backbone,每个分支称为Branch。需要说明的是,这里的分支分类器Student Classifier都是最后一层的主干分类器Teacher Classifier蒸馏来的,即自蒸馏Self-distillation。相应的,实施例步骤202具体可以包括:在FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。
203、根据自蒸馏算法以及数据增强算法,并基于无标签样本训练文本分类模型,计算损失函数。
在将无标签样本输入文本分类模型时,从文本输入到概率输出的过程可为:(1)向文本分类模型输入无标签样本s,利用Embedding layer生成文本的Embbeding向量e,e=Embedding(s);(2)利用Transformer 0至Transformer L-1的层级顺序进行识别,其中,第i层Transformer的输出可为:hi=Transformeri(hi-1);(3)主干分类器Teacher Classifier的输出,pt=TeacherCla ssifier(hL-1);(4)第i层分支分类器Student Classifier基于原始样本x的输出,(5)第i层Student Classifier基于增强样本x′的输出,即将无标签样本x经过替换为x′,经过相同模型得到输出,
对于本实施例,在得到更新网络结构后的文本分类模型后,可用无标签任务数据对分支Branch进行自蒸馏,具体可将主干分类器Teacher Classifier预测的概率分布蒸馏给各个分支分类器Student Classifier。相应的,为了基于无标签样本训练文本分类模型,计算损失函数,可使用KL散度衡量分支分类器与主干分类器的概率分布距离,计算得到第一损失项;使用KL散度度量分支分类器数据增强前后的数据分布,计算得到第二损失项;进一步利用第一损失项和第二损失项计算得到文本分类模型的整体损失函数。其中,第一损失项为无监督自蒸馏损失项Unsupervised Self-distillation Loss,第二损失项为无监督一致性损失项Unsupervised Consistency Loss。相应的,实施例步骤203具体可以包括:将无标签样本输入文本分类模型中,并利用分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项;比对分支分类器中数据增强前后的概率分布距离,计算得到第二损失项;将第一损失项和第二损失项的加和确定为文本分类模型训练时的损失函数。
在具体的应用场景中,在将无标签样本输入文本分类模型中,并利用分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项时,实施例步骤203具体可以包括:利用KL散度度量分支分类器和主干分类器的概率分布距离;计算拟合分支分类器和主干分类器概率分布的第一损失项。
在使用KL散度衡量分支分类器与主干分类器的概率分布距离时,对应的公式特征描述可为:
其中,DKL(ps,pt)为分支分类器与主干分类器的概率分布距离;N为预设分类标签的预设个数,具体可根据金融文本的分类需求进行设定;ps(i)为分支分类器针对第i个预设分类标签的预测概率,pt(j)为主干分类器针对第j个预设分类标签的预测概率。
相应的,在计算拟合分支分类器和主干分类器概率分布的第一损失项时,对应的公式特征描述可为:
其中,Losssd为第一损失项,即无监督自蒸馏损失项Unsupervised Self-distillation Loss;DKL(psi,pt)为分支分类器与主干分类器的概率分布距离。
在具体的应用场景中,在比对分支分类器中数据增强前后的概率分布距离,计算得到第二损失项时,实施例步骤203具体可以包括:利用KL散度度量分支分类器数据增强前后的概率分布距离;计算拟合分支分类器数据增强前后概率分布的第二损失项。
在利用KL散度度量分支分类器数据增强前后的概率分布距离时,对应的公式特征描述可为:
其中,DKL(ps,p′s)为分支分类器数据增强前后的概率分布距离,N为预设分类标签的预设个数,具体可根据金融文本的分类需求进行设定;ps(i)为数据增强处理前,分支分类器针对第i个预设分类标签的预测概率,p′s(j)为数据增强处理后,分支分类器针对第j个预设分类标签的预测概率。
相应的,在计算拟合分支分类器数据增强前后概率分布的第二损失项时,对应的公式特征描述可为:
其中,Losscon为第二损失项,即无监督一致性损失项Unsupervised ConsistencyLoss;DKL(psi,p′si)为分支分类器数据增强前后概率分布距离。
相应的,在计算得到无监督自蒸馏损失项Unsupervised Self-distillationLoss以及无监督一致性损失项Unsupervised Consistency Loss后,可通过计算无监督自蒸馏损失项和无监督一致性损失项的加和,确定文本分类模型训练时的损失函数。
具体的,损失函数的公式特征描述为:
Lossfinal=Losssd+Losscon
其中Lossfinal为文本分类模型训练时的损失函数,Losssd为无监督自蒸馏损失项,Losscon为无监督一致性损失项。
204、若判断损失函数处于收敛状态,则确定文本分类型模型符合预设训练标准。
在具体的应用场景中,可通过判断模型的损失函数是否平稳,来确定文本分类型模型是否通过训练,即当判断损失函数处于收敛状态时,则可确定文本分类模型符合预设训练标准。反之,则需要利用无标注数据对文本分类型模型进行重复训练,以使文本分类模型符合预设训练标准。
205、将目标金融文本输入符合预设训练标准的文本分类型模型中,按照分类器由下至上的层级顺序预测目标金融文本的分类标签,并计算预测结果的熵。
在具体的应用场景中,在判定文本分类型模型符合预设训练标准后,可利用文本分类型模型实现对目标金融文本的分类标签的预测。具体的,如图3所示,可按照Transformer 0至Transformer L-1的层级顺序进行识别,在每层Transformer后都去预测样本标签,如果某样本预测结果的置信度很高,就不用继续计算了。在本申请中,文本分类型模型对金融垂直领域文本的预测借鉴样本自适应机制(Sample-wise adaptivemechanism),即若目标金融文本在前面层分类器下置信度较高,则直接输出不需继续计算。而置信度的高低由样本预测结果的熵控制,熵越大则不确定性越大,阈值控制推理速度可人为设定。在具体的应用场景中,容易识别的未标注样本的分类标签通过一两层即可以预测出来,较难的未标注样本则需要走完全程。具体可用预测结果的熵来衡量。
预测结果的熵的公式特征描述可为:
其中,Uncertainty为预测结果的熵,N为预设分类标签的预设个数,具体可根据金融文本的分类需求进行设定;ps(i)为分支分类器针对第i个预设分类标签的预测概率。
206、若判定预测结果的熵小于预设阈值,则根据当前分类器的置信度划分直接输出文本分类结果。
对于本实施例,可在判定预测结果的熵小于预设阈值时,利用当前分类器针对各个预设分类标签的置信度大小确定目标金融文本的文本分类结果,具体可将对应置信度最大的预设分类标签确定为目标金融文本的分类标签。
其中,预设阈值可以控制目标金融文本的推理速度,预设阈值是针对预测结果的不确定性指标(预测结果的熵)设定的。预设阈值越小,样本类别预测所需不确定性越小(熵越小),低层分类器过滤的样本越少,推理速度越慢。
例如,预先设定a、b、c、d、e、f六个预设分类标签,在将目标金融文本输入符合预设训练标准的文本分类型模型中时,可按照Transformer 0至Transformer L-1的层级顺序进行识别。在识别时,每层Transformer都会针对a、b、c、d、e、f六个预设分类标签分别输出对应的置信度大小,在判定预测结果的熵小于预设阈值时,可直接根据当前运行层级对应的分类器输出文本分类结果。如当前运行层级对应的分类器为Transformer 1,且Transformer 1针对上述6个预设分类标签的置信度大小分别为:0.1、0.15、0.02、0.23、0.4、0.04、0.06,通过置信度大小的对比,可确定预设分类标签e对应的置信度最大,故可将预设分类标签e确定为目标金融文本的文本分类结果。
在具体的应用场景中,文本分类型模型训练的原理可参见图4所示,在输入目标金融文本x后,可首先利用主干分类器根据目标金融文本x输出关于各个预设分类标签的预测概率Pt,利用各个分支分类器根据目标金融文本x输出关于各个预设分类标签的预测概率Ps,进而利用主干分类器的预测概率和分支分类器的预测概率计算得到无监督自蒸馏损失项Unsupervised Self-distillation Loss。与此同时,还采用数据增强模块Augmentations对目标金融文本x进行数据增强处理,得到增强后的目标金融文本x′,进而利用各个分支分类器根据增强后的目标金融文本x′输出关于各个预设分类标签的预测概率P′s,之后通过各个分支分类器关于增强前后的预测概率,计算得到无监督一致性损失项Unsupervised Consistency Loss。最后通过计算无监督自蒸馏损失项和无监督一致性损失项的加和,确定出文本分类模型训练时的损失函数。通过对损失函数的收敛状态的判断,可确定文本分类模型是否通过训练。进而在判定文本分类模型符合预设训练标准时,可利用该文本分类模型对目标金融文本进行文本分类处理,获取文本分类结果。
借由上述金融文本的分类方法,本申请可预先基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;进而利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。在本申请中,通过在金融预训练模型中增加自蒸馏模块,以及在推理过程中应用样本自适应机制,可有效提高文本分类模型的训练和预测速度。此外,自蒸馏和无监督一致化的融合一方面可提升文本分类模型对无标签样本的利用,另一方面可弥补预训练模型在金融生僻词上的词汇缺失。故本申请能够在少样本标注的前提下达到较高精度和较好性能。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种金融文本的分类装置,如图5所示,该装置包括:训练模块31、分类模块32;
训练模块31,可用于基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;
分类模块32,可用于利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
在具体的应用场景中,为了训练得到用于对金融文本进行分类处理的文本分类模型,如图6所示,训练模块31,具体可包括:更新单元311、调整单元312、计算单元313、确定单元314;
更新单元311,可用于基于标签样本对FinBERT预训练模型进行精调,更新主干参数;
调整单元312,可用于对更新主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型;
计算单元313,可用于根据自蒸馏算法以及数据增强算法,并基于无标签样本训练文本分类模型,计算损失函数;
确定单元314,可用于若判断损失函数处于收敛状态,则确定文本分类型模型符合预设训练标准。
相应的,调整单元312,具体可用于在FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。
在具体的应用场景中,计算单元313,具体可用于将无标签样本输入文本分类模型中,并利用分支分类器蒸馏主干分类器的概率分布,计算得到第一损失项;比对分支分类器中数据增强前后的概率分布,计算得到第二损失项;将第一损失项和第二损失项的加和确定为文本分类模型训练时的损失函数。
相应的,为了利用分支分类器蒸馏主干分类器的概率分布,计算得到第一损失项,计算单元313,具体可用于利用KL散度度量分支分类器和主干分类器的概率分布;计算拟合分支分类器和主干分类器概率分布的第一损失项。
相应的,为了通过比对分支分类器中数据增强前后的概率分布,计算得到第二损失项,计算单元313,具体可用于利用KL散度度量分支分类器数据增强前后的概率分布;计算拟合分支分类器数据增强前后概率分布的第二损失项。
在具体的应用场景中,分类模块32,具体可包括:输入单元321、输出单元322;
输入单元321,可用于将目标金融文本输入符合预设训练标准的文本分类型模型中,按照分类器由下至上的层级顺序预测目标金融文本的分类标签,并计算预测结果的熵;
输出单元322,可用于若判定预测结果的熵小于预设阈值,则根据当前分类器的置信度划分直接输出文本分类结果。
需要说明的是,本实施例提供的一种金融文本的分类装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的金融文本的分类方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图5、图6所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的金融文本的分类方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可预先基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;进而利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。在本申请中,通过在金融预训练模型中增加自蒸馏模块,以及在推理过程中应用样本自适应机制,可有效提高文本分类模型的训练和预测速度。此外,自蒸馏和无监督一致化的融合一方面可提升文本分类模型对无标签样本的利用,另一方面可弥补预训练模型在金融生僻词上的词汇缺失。故本申请能够在少样本标注的前提下达到较高精度和较好性能。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种金融文本的分类方法,其特征在于,包括:
基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;
利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型,具体包括:
基于标签样本对FinBERT预训练模型进行精调,更新主干参数;
对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型;
根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数;
若判断所述损失函数处于收敛状态,则确定所述文本分类型模型符合预设训练标准。
3.根据权利要求2所述的方法,其特征在于,所述对更新所述主干参数的FinBERT预训练模型的网络结构进行调整,得到文本分类模型,具体包括:
在所述FinBERT预训练模型的每层Transformer后面添加分支分类器,得到文本分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据自蒸馏算法以及数据增强算法,并基于无标签样本训练所述文本分类模型,计算损失函数,具体包括:
将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项;
比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项;
将所述第一损失项和所述第二损失项的加和确定为所述文本分类模型训练时的损失函数。
5.根据权利要求4所述的方法,其特征在于,所述将无标签样本输入所述文本分类模型中,并利用所述分支分类器蒸馏主干分类器的概率分布距离,计算得到第一损失项,具体包括:
利用KL散度度量所述分支分类器和主干分类器的概率分布距离;
计算拟合所述分支分类器和所述主干分类器概率分布的第一损失项。
6.根据权利要求4所述的方法,其特征在于,所述比对所述分支分类器中数据增强前后的概率分布距离,计算得到第二损失项,具体包括:
利用KL散度度量所述分支分类器数据增强前后的概率分布距离;
计算拟合所述分支分类器数据增强前后概率分布的第二损失项。
7.根据权利要求1所述的方法,其特征在于,所述利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果,具体包括:
将目标金融文本输入符合预设训练标准的文本分类型模型中,按照分类器由下至上的层级顺序预测所述目标金融文本的分类标签,并计算预测结果的熵;
若判定预测结果的熵小于预设阈值,则根据当前分类器的置信度划分直接输出文本分类结果。
8.一种金融文本的分类装置,其特征在于,包括:
训练模块,用于基于FinBERT预训练模型、自蒸馏算法以及数据增强算法,训练用于对金融文本进行分类处理的文本分类模型;
分类模块,用于利用符合预设训练标准的文本分类型模型,并基于样本自适应机制对目标金融文本进行文本分类处理,获取文本分类结果。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的金融文本的分类方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的金融文本的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139094.0A CN112926631A (zh) | 2021-02-01 | 2021-02-01 | 金融文本的分类方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139094.0A CN112926631A (zh) | 2021-02-01 | 2021-02-01 | 金融文本的分类方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112926631A true CN112926631A (zh) | 2021-06-08 |
Family
ID=76169406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139094.0A Pending CN112926631A (zh) | 2021-02-01 | 2021-02-01 | 金融文本的分类方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926631A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220892A (zh) * | 2021-06-15 | 2021-08-06 | 苏州大学 | 基于bert的自适应文本分类方法及装置 |
CN116741372A (zh) * | 2023-07-12 | 2023-09-12 | 东北大学 | 一种基于双分支表征一致性损失的辅助诊断系统及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN111507155A (zh) * | 2020-01-17 | 2020-08-07 | 长江大学 | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 |
CN111881983A (zh) * | 2020-07-30 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN112182020A (zh) * | 2020-09-25 | 2021-01-05 | 国家计算机网络与信息安全管理中心 | 金融行为识别与分类的方法、装置及计算机可读存储介质 |
US20210216723A1 (en) * | 2018-12-18 | 2021-07-15 | Tencent Technology (Shenzhen) Company Limited | Classification model training method, classification method, device, and medium |
-
2021
- 2021-02-01 CN CN202110139094.0A patent/CN112926631A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804512A (zh) * | 2018-04-20 | 2018-11-13 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
US20210216723A1 (en) * | 2018-12-18 | 2021-07-15 | Tencent Technology (Shenzhen) Company Limited | Classification model training method, classification method, device, and medium |
CN111507155A (zh) * | 2020-01-17 | 2020-08-07 | 长江大学 | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 |
CN111881983A (zh) * | 2020-07-30 | 2020-11-03 | 平安科技(深圳)有限公司 | 基于分类模型的数据处理方法、装置、电子设备及介质 |
CN112182020A (zh) * | 2020-09-25 | 2021-01-05 | 国家计算机网络与信息安全管理中心 | 金融行为识别与分类的方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
QIZHEXIE: "Unsupervised Data Augmentation for Consistency Training", ARXIV, pages 1 - 20 * |
WEIJIE LIU: "FastBERT: a Self-distilling BERT with Adaptive Inference Time", ARXIV, pages 1 - 10 * |
XIAOQI JIAO: "TinyBERT: Distilling BERT for Natural Language Understanding", ARXIV, pages 1 - 12 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220892A (zh) * | 2021-06-15 | 2021-08-06 | 苏州大学 | 基于bert的自适应文本分类方法及装置 |
CN116741372A (zh) * | 2023-07-12 | 2023-09-12 | 东北大学 | 一种基于双分支表征一致性损失的辅助诊断系统及装置 |
CN116741372B (zh) * | 2023-07-12 | 2024-01-23 | 东北大学 | 一种基于双分支表征一致性损失的辅助诊断系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
EP3459016B1 (en) | Classifying input examples using a comparison set | |
CN109726396A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN115115029A (zh) | 训练神经网络的方法、系统及存储介质 | |
CN108846077A (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
US11803731B2 (en) | Neural architecture search with weight sharing | |
CN111783993A (zh) | 智能标注方法、装置、智能平台及存储介质 | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
CN111475613A (zh) | 案件分类方法、装置、计算机设备及存储介质 | |
CN112926631A (zh) | 金融文本的分类方法、装置及计算机设备 | |
CN111191445A (zh) | 广告文本分类方法及装置 | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN115455189A (zh) | 基于提示学习的政策文本分类方法 | |
JP2020098592A (ja) | ウェブページ内容を抽出する方法、装置及び記憶媒体 | |
CN114495113A (zh) | 文本分类方法和文本分类模型的训练方法、装置 | |
Makwe et al. | An empirical study of neural network hyperparameters | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
US9348810B2 (en) | Model learning method | |
CN115098722B (zh) | 文本和图像的匹配方法、装置、电子设备和存储介质 | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
Verma et al. | Toward prediction of student’s guardian in the Secondary Schools for the real time | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
Costa et al. | Recognition of apparent personality traits from text and handwritten images | |
JP7364228B2 (ja) | 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |