CN115345167A

CN115345167A - 一种多模型文本处理方法、装置、计算机设备及存储介质

Info

Publication number: CN115345167A
Application number: CN202211043187.4A
Authority: CN
Inventors: 王伟; 董坤磊; 陈焕坤; 张黔; 钟焰涛
Original assignee: China Resources Digital Technology Co Ltd
Current assignee: China Resources Digital Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-15
Anticipated expiration: 2042-08-29
Also published as: CN115345167B

Abstract

本发明公开了一种多模型文本处理方法、装置、计算机设备及存储介质，该方法包括：获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；根据所述表征向量计算每一预训练语言模型的贡献度；按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。本发明在多个模型层面，考根据每个预训练语言模型不同的贡献度，对输出结果在最后集成时赋予不同的权重，从而得到更好的集成效果，如此可以提高文本任务的处理效果。

Description

一种多模型文本处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及文本处理技术领域，特别涉及一种多模型文本处理方法、装置、计算机设备及存储介质。

背景技术

预训练语言模型是自然语言处理领域的基础概念，通过预训练语言模型来实现各类任务(如文本分类、序列标注、生成文本)。经过多年发展，目前已有ELMO、BERT、XLNET等多种预训练语言模型涌现出来。但由于每个预训练语言模型对不同任务的适应能力差别较大，因此，有必要通过集成多个预训练语言模型的输出结果，实现博采众长。

但现有集成方法的思路多较为简单。一种思路是对样本划分成多个小数据集，训练多个模型，给每个模型输出结果分配权重，加权得到最后输出结果；另一种思路利用Bootstrap方法进行抽样，得到多个数据集，分别训练多个模型，给每个模型输出结果分配权重，再加权得到最后输出结果。总体而言，现有集成多个模型结果的手段还存在诸多不足，这便导致最终输出的文本任务处理结果达不到期望的效果。

发明内容

本发明实施例提供了一种多模型文本处理方法、装置、计算机设备及存储介质，旨在提高文本任务的处理效果。

第一方面，本发明实施例提供了一种多模型文本处理方法，包括：

获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；

将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；

根据所述表征向量计算每一预训练语言模型的贡献度；

按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

第二方面，本发明实施例提供了一种多模型文本处理装置，包括：

文本获取单元，语言获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；

向量输入单元，用于将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；

贡献度计算单元，用于根据所述表征向量计算每一预训练语言模型的贡献度；

权重赋予单元，用于按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的多模型文本处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的多模型文本处理方法。

本发明实施例提供了一种多模型文本处理方法、装置、计算机设备及存储介质，该方法包括：获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；根据所述表征向量计算每一预训练语言模型的贡献度；按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。本发明实施例在单个模型层面，考虑了实体、表征向量对于预训练语言模型的贡献程度，在多个模型层面，考虑了每个预训练语言模型对于整体微调训练效果的不同贡献程度，然后根据每个预训练语言模型不同的贡献度，对输出结果在最后集成时赋予不同的权重，从而得到更好的集成效果，如此可以提高文本任务的处理效果。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多模型文本处理方法的流程示意图；

图2为本发明实施例提供的一种多模型文本处理方法的子流程示意图；

图3为本发明实施例提供的一种多模型文本处理装置的示意性框图；

图4为本发明实施例提供的一种多模型文本处理装置的子示意性框图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

下面请参见图1，图1为本发明实施例提供的一种多模型文本处理方法的流程示意图，具体包括：步骤S101～S104。

S101、获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；

S102、将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；

S103、根据所述表征向量计算每一预训练语言模型的贡献度；

S104、按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

本实施例中，对文本处理任务进行处理时，首先通过句向量模型将对应的文本序列转化为对应的表征向量，然后将所述表征向量输入至各预训练语言模型中。通过计算各训练语言模型对于该文本处理任务的贡献度，对各预训练语言模型的输出结果赋予不同的权重，例如贡献度高的赋予较大的权重，然后按照权重对各预训练语言模型的输出结果进行相加求和，得到文本处理任务最终的处理结果。

本实施例在单个模型层面，考虑了实体、表征向量对于预训练语言模型的贡献程度，在多个模型层面，考虑了每个预训练语言模型对于整体微调训练效果的不同贡献程度，然后根据每个预训练语言模型不同的贡献度，对输出结果在最后集成时赋予不同的权重，从而得到更好的集成效果，如此可以提高文本任务的处理效果。

在具体实施例中，利用文本序列的表征向量对预训练语言模型进行微调训练，该微调训练可以理解为一种由模型库、微调训练样本库、微调训练Agent和部署Agent组成的微调训练系统。其中，模型库存储了多个预训练语言模型，如BERT、XLNET等；微调训练样本库存储了用于预训练语言模型微调训练、验证和测试的所有样本即文本序列；微调训练Agent安装了微调训练预训练语言模型的代码，部署Agent负责将预训练语言模型部署到生产环境供其它程序调用。这里所指的微调训练是指对原来已经训练好的模型，给定新数据集进行再次训练；通常来说，微调训练的目的在于更好地适应新数据集，使得模型的泛化效果更好。通过上述凡是，微调训练所需耗费的时间和计算资源开销都远小于初次训练该模型的开销。

进一步的，设微调训练Agent需微调训练预训练语言模型，代表预训练语言模型中神经网络的权重参数，k表示第k个模型，模型总数为p。模型微调训练过程中，权重参数不断被调整直至达到收敛条件。设某文本序列即样本Si对应的表征向量为Vsⁱ，Vsⁱ是通过将样本输入到句向量模型(例如句向量模型SentenceBert)，得到的固定维度向量，在本实施例中将表征向量作为预训练语言模型的输入。

还需说明的是，本实施例中的预训练语言模型的输入是文本序列对应的表征向量，而预训练语言模型的输出结果则针对不同的文本处理任务而不同，例如当文本处理任务为文本分类任务，则各预训练语言模型的输出结果是类别标签，并按照各预训练语言模型对于文本分类任务的贡献度对输出结果赋予不同的权重，从而对输出结果进行加权求和，得到文本分类任务最终的处理结果，例如将一篇新闻划分到“军事”、“经济”等不同类别中的一个类别。当文本处理任务是阅读理解任务，则各预训练语言模型的输出结果是阅读理解答案，并按照各预训练语言模型对于阅读理解任务的贡献度对输出结果赋予不同的权重，从而对输出结果进行加权求和，得到阅读理解任务最终的处理结果。当然，在其他实施例中，还可以通过本实施例提供的方法对其他文本处理任务及对应的文本序列进行任务处理，以提高文本任务处理效果。

在一实施例中，所述贡献度包括固定贡献度和非固定贡献度；

所述步骤S102包括：

针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度。

本实施例所述贡献度包括固定贡献度和非固定贡献度，因此在计算贡献度时，需要按照一定的权重比例对固定贡献度和非固定贡献度进行相加求和。具体的，可以按照下式对对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度：

其中，χ和γ为权重系数，取值在0～1之间，C_S_k ^m表示第k个预训练语言模型在第m个训练周期的贡献度，Cf_S_k ^m表示第k个预训练语言模型在第m个训练周期的固定贡献度，Cuf_S_k ^m表示第k个预训练语言模型在第m个训练周期的非固定贡献度。

在一实施例中，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，包括：

采用命名实体识别技术对所述表征向量进行实体识别，得到实体总数；

按照下式，结合所述实体总数和每一实体在训练周期内的出现次数，计算预训练语言模型的实体贡献度：

式中，Cf_SE_k ^m表示第k个预训练语言模型在第m个训练周期的实体贡献度，NE^m表示实体总数，NE_k ^m表示第k个预训练语言模型的实体数量，EF_k ^mi表示第i个实体的出现次数；

获取第k个预训练语言模型在第m个训练周期的表征向量VS_k ^mi，并通过相似度函数计算所述表征向量VS_k ^mi与其他表征向量之间的相似度，以统计得到相似度超过预设阈值的表征向量数量SimN_k ⁱ；

按照下式，基于表征向量数量SimN_k ⁱ计算所述序列贡献度：

式中，Cf_SS_k ^m表示第k个预训练语言模型在第m个训练周期的序列贡献度，p表示预训练语言模型的数量，q表示表征向量的数量。

本实施例中，所述的固定贡献度包括实体贡献度和序列贡献度。其中，在计算实体贡献度时，对第k个预训练语言模型在第m个微调训练周期使用的所有样本(即所述表征向量)，采用命名实体识别技术识别实体(实体包括人名、地名、公司名称等类型的名词，由于该技术已较为成熟，本实施例不限定具体技术)。设该训练周期内，所有预训练语言模型的实体总数为NE^m，设第k个预训练语言模型进行命名实体识别后的实体集合中实体数量为

统计该集合中每个实体i在第k个预训练语言模型本周期内所用训练语料中出现次数

则第k个预训练语言模型在第m个微调训练周期的实体贡献度

的计算方法为：

对于序列贡献度，设第k个预训练语言模型将第m个微调训练周期内的第i条训练样本

转化为表征向量

后，总样本数为q。通过相似度函数(实践中可采用余弦相似度、内积相似度)，计算微调训练样本库中其它样本的表征向量与

的相似度，统计与

相似度超过阈值ST(0到1之间)的样本数量

得到第k个预训练语言模型在第m个微调训练周期的序列贡献度

进一步的，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，还包括：

按照下式对所述实体贡献度和序列贡献度进行加权求和，得到所述固定贡献度：

式中，Cf_S_k ^m表示第k个预训练语言模型在第m个训练周期的固定贡献度，α和β分别表示权重系数，取值为0到1之间。

在一实施例中，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，还包括：

按照下式计算预训练语言模型的沙普利值：

式中，

表示第k个预训练语言模型在第m个训练周期的沙普利值，v表示价值函数，N表示所有可能的模型组合，S为N的子集，v(S)表示所述子集的贡献值，！为阶乘符号；

按照下式，基于所述沙普利值计算得到所述非固定贡献度：

式中，Cuf_S_k ^m表示第k个预训练语言模型在第m个训练周期的非固定贡献度，

表示非固定度贡献系数。

本实施例中，在计算非固定贡献度时，对第k个预训练语言模型而言，若在第m个微调训练周期，损失函数值较上一个周期有下降，则为该模型分配基准非固定贡献系数

否则该值为0。可以理解的是，在AI训练中，正常来说，损失函数的值是逐渐下降的，直到某个值的附近就基本不下降了。若损失函数值还增加，说明这一个周期训练得不好，所以认为这个周期没有贡献。

然后分别计算每个预训练语言模型的沙普利值(Shapelyvalue)。沙普利值能够在一个由多个成员构成的组织中，公平反应各成员对组织总目标的贡献程度，避免了分配上的平均主义。同时，给定价值函数υ，它表示每个预训练语言模型对微调训练的贡献，以每个预训练语言模型的输出向量与所有预训练语言模型中微调训练效果(可采用F1值)最好的输出向量的余弦相似度作为贡献值。S是N的子集，表示所有可能的模型组合，然后υ(S)给出了该子集的贡献值。使用如下公式来计算第k个预训练语言模型的在第m个微调训练周期的贡献，即它的Shapely值φ_i(υ)：

接着按照下式，第k个预训练语言模型在第m个微调训练周期的非固定贡献度为其在每个微调训练周期的沙普利值乘以每个微调训练周期的基准非固定贡献系数：

在一实施例中，如图2所示，所述步骤S104包括：步骤S201～S204。

S201、按照各预训练语言模型的贡献度高低进行排序，得到模型贡献度队列；

S202、将每一预训练语言模型在每一训练周期内的贡献度排名设置为所述模型贡献度队列中的位次ID；

S203、在完成全部训练周期后，对所有训练周期的贡献度排名相加求和，并将求和结果作为总贡献度位次；

S204、根据总贡献度位次对每一预训练语言模型设置权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

本实施例中，对所有预训练语言模型，在第m个微调训练周期结束后，按照其贡献度高低，降序排列形成“模型贡献度队列”。定义每个预训练语言模型在每个训练周期内的贡献度排名为在该预训练语言模型在每个周期的模型贡献度队列中的位次ID(若排名第i位，则位次ID即为i)。在全部训练周期结束后，统计每个预训练语言模型在全部微调训练周期内的贡献度排名之和，作为总贡献度位次。在最后集各模型的结果时，给予总贡献度位次最大的模型更高的权重，权重比例可根据实际应用设定。

图3为本发明实施例提供的一种多模型文本处理装置300的示意性框图，该装置300包括：

文本获取单元301，语言获取文本序列及对应的文本处理任务，并通过句向量模型提取得到所述文本序列对应的表征向量；

向量输入单元302，用于将所述表征向量分别输入至多个预训练语言模型中，并由每一预训练语言模型输出所述文本处理任务对应的处理结果；

贡献度计算单元303，用于根据所述表征向量计算每一预训练语言模型的贡献度；

权重赋予单元304，用于按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

所述贡献度计算单元303包括：

第一加权求和单元，用于针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度。

在一实施例中，所述第一加权求和单元包括：

实体识别单元，用于采用命名实体识别技术对所述表征向量进行实体识别，得到实体总数；

实体贡献度计算单元，用于按照下式，结合所述实体总数和每一实体在训练周期内的出现次数，计算预训练语言模型的实体贡献度：

相似度计算单元，用于获取第k个预训练语言模型在第m个训练周期的表征向量VS_k ^mi，并通过相似度函数计算所述表征向量VS_k ^mi与其他表征向量之间的相似度，以统计得到相似度超过预设阈值的表征向量数量SimN_k ⁱ；

序列贡献度计算单元，用于按照下式，基于表征向量数量SimN_k ⁱ计算所述序列贡献度：

在一实施例中，所述第一加权求和单元还包括：

第二加权求和单元，用于按照下式对所述实体贡献度和序列贡献度进行加权求和，得到所述固定贡献度：

式中，Cf_S_k ^m表示第k个预训练语言模型在第m个训练周期的固定贡献度，α和β分别表示权重系数。

在一实施例中，所述第一加权求和单元还包括：

沙普利值计算单元，用于按照下式计算预训练语言模型的沙普利值：

式中，

非固定贡献度计算单元，用于按照下式，基于所述沙普利值计算得到所述非固定贡献度：

表示非固定度贡献系数。

在一实施例中，所述句向量模型为SentenceBert模型。

在一实施例中，如图4所示，所述权重赋予单元304包括：

贡献度排序单元401，用于按照各预训练语言模型的贡献度高低进行排序，得到模型贡献度队列；

位次设置单元402，用于将每一预训练语言模型在每一训练周期内的贡献度排名设置为所述模型贡献度队列中的位次ID；

相加求和单元403，用于在完成全部训练周期后，对所有训练周期的贡献度排名相加求和，并将求和结果作为总贡献度位次；

权重设置单元404，用于根据总贡献度位次对每一预训练语言模型设置权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多模型文本处理方法，其特征在于，包括：

根据所述表征向量计算每一预训练语言模型的贡献度；

2.根据权利要求1所述的多模型文本处理方法，其特征在于，所述贡献度包括固定贡献度和非固定贡献度；

所述根据所述表征向量计算每一预训练语言模型的贡献度，包括：

3.根据权利要求2所述的多模型文本处理方法，其特征在于，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，包括：

按照下式，基于表征向量数量SimN_k ⁱ计算所述序列贡献度：

4.根据权利要求3所述的多模型文本处理方法，其特征在于，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，还包括：

5.根据权利要求2所述的多模型文本处理方法，其特征在于，所述针对每一预训练语言模型，分别计算固定贡献度和非固定贡献度，并对所述固定贡献度和非固定贡献度进行加权求和，得到所述贡献度，还包括：

按照下式计算预训练语言模型的沙普利值：

式中，

按照下式，基于所述沙普利值计算得到所述非固定贡献度：

表示非固定度贡献系数。

6.根据权利要求1所述的多模型文本处理方法，其特征在于，所述句向量模型为SentenceBert模型。

7.根据权利要求1所述的多模型文本处理方法，其特征在于，所述按照贡献度对各预训练语言模型赋予相应的权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果，包括：

按照各预训练语言模型的贡献度高低进行排序，得到模型贡献度队列；

将每一预训练语言模型在每一训练周期内的贡献度排名设置为所述模型贡献度队列中的位次ID；

在完成全部训练周期后，对所有训练周期的贡献度排名相加求和，并将求和结果作为总贡献度位次；

根据总贡献度位次对每一预训练语言模型设置权重，并按照所述权重对所有的处理结果进行加权求和，以得到所述文本处理任务最终的处理结果。

8.一种多模型文本处理装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模型文本处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多模型文本处理方法。