CN116108185A

CN116108185A - 一种用于文本分类的注意力增强预训练方法和装置

Info

Publication number: CN116108185A
Application number: CN202310221504.5A
Authority: CN
Inventors: 王静宇; 王远航; 李建华; 马亚中; 李蹊; 郭宝松; 张聪聪
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-05-12

Abstract

本发明的实施例提供了一种用于文本分类的注意力增强预训练方法和装置。所述方法包括利用BERT网络多头注意力模型对输入文本数据进行语义提取，输出句子表征向量；以及利用注意力增强方法得到句子关键词增强向量；将句子表征向量和句子增强向量进行融合，得到句子向量输入全连接层，通过Softmax函数进行分类，输出分类结果。以此方式，可以改进词频统计的方法，利用总体语料库信息，挖掘关键词增强向量，对关键词信息进行增强，不仅大大提高了分类准确率，而且还提高了整体网络结构的可解释性。

Description

一种用于文本分类的注意力增强预训练方法和装置

技术领域

本发明一般涉及文本分类领域，并且更具体地，涉及一种用于文本分类的注意力增强预训练方法和装置。

背景技术

公民投诉案件是一类极其依赖关键词表征词信息来表达整个案件语义信息的文本数据，例如两条整体结构相似的语句：A：市民反映，我在星临街道购买的台灯不亮；B：市民反映，我在星临街道看到路灯不亮；往往会由于特殊关键词购买的出现，而造成整个语义的巨变，显然A语句应派送到消费者协会来解决，B语句应派送到基层居委会来解决。现有的传统文本分类模型，如RNN、LSTM及双向LSTM模型，往往是以单一词向量的形式来挖掘整个句子的语义，因此它忽视了在整个语句的学习中，为不同词向量添加不同的注意力，Transformer结构虽然是完全基于注意力机制来实现分类任务的，但是他缺少了对整个数据库知识的宏观利用。由于公民投诉案件事发场景较多、分类界限模糊且依赖关键词表征信息的特性，所以很难用现有的技术来获得一个不错的分类效果。

发明内容

根据本发明的实施例，提供了一种用于文本分类的注意力增强预训练方案。本方案改进词频统计的方法，利用总体语料库信息，挖掘关键词增强向量，对关键词信息进行增强，不仅大大提高了分类准确率，而且还提高了整体网络结构的可解释性。

在本发明的第一方面，提供了一种注意力增强方法。该方法包括：

构建Word2vec模型，利用文本数据对所述Word2vec模型进行训练，输出词嵌入向量作为训练数据；

将所述训练数据按类别进行类别内拼接，使每个类别对应一个类别文档，若干个类别文档组成语料库；

计算所述语料库中所有单词相对于所述语料库中每个类别文档的TF-IDF值，得到类别字典；

利用每个类别文档的TF-IDF值对类别文档中句子的单词进行归一化处理，得到句子的增强向量。

进一步地，所述Word2vec模型，包括Skip-gram模型和CBOW模型；

所述Skip-gram模型，用于通过将单词的one-hot编码作为输入，预测上下文单词；

所述CBOW模型，用于通过输入上下文单词，对单词进行预测，输出768维度的词嵌入向量。

进一步地，若所述训练数据为中文数据，则对所述训练数据进行分词处理。

进一步地，所述类别字典包括：

其中，d_j代表第j个类别字典，n表示类别字典的个数；w_i为对应类别中出现的第i个单词；t_j,i为第j个类别字典中w_i所对应的TF-IDF值；a表示第一个类别字典中单词的个数；b表示第二个类别字典中单词的个数；c表示第j个类别字典中单词的个数；d表示第n个类别字典中单词的个数。

进一步地，还包括对所述类别字典进行统一：

d[w_i]＝max(d₁[w_i]，d₂[w_i]，d₃[w_i]，…，d_n[w_i])

其中，d[w_i]为统一的类别字典。

进一步地，所述利用每个类别文档的TF-IDF值对类别文档中句子的单词进行归一化处理，得到句子的增强向量，包括：

其中，k(w₁)为单词w₁对应的关注度系数；v_H为句子的增强向量；x、y、z为单词的词嵌入向量；w_i为句子中出现的单词；tf-idf(w_i)为对应单词w_i的tf-idf值。

在本发明的第二方面，提供了一种用于文本分类的注意力增强预训练方法。该方法包括：

利用BERT网络多头注意力模型对输入文本数据进行语义提取，输出句子表征向量；以及

利用如上述本发明的第一方面所述的注意力增强方法得到句子关键词增强向量；

将所述句子表征向量和句子增强向量进行融合，得到句子向量；

将所述句子向量输入全连接层，通过Softmax函数进行分类，输出分类结果。

进一步地，所述BERT网络多头注意力模型为：

其中，Q为查询向量；K为关键向量；V为权值向量；d_k为缩放因子，保证梯度的平稳。

在本发明的第三方面，提供了一种用于文本分类的注意力增强预训练装置。该装置包括：

BERT网络模块，用于利用BERT网络多头注意力模型对输入文本数据进行语义提取，输出句子表征向量；

注意力增强模块，用于利用如上述本发明的第一方面所述的注意力增强方法得到句子关键词增强向量；

融合模块，用于将所述句子表征向量和句子增强向量进行融合，得到句子向量；

分类模块，用于将所述句子向量输入全连接层，通过Softmax函数进行分类，输出分类结果。

在本发明的第四方面，提供了一种电子设备。该电子设备至少一个处理器；以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明第二方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本发明的实施例的注意力增强方法的流程图；

图2示出了根据本发明的实施例的CBOW模型的原理示意图；

图3示出了根据本发明的实施例的用于文本分类的注意力增强预训练方法的流程图；

图4示出了根据本发明的实施例的用于文本分类的注意力增强预训练装置的方框图；

图5示出了能够实施本发明的实施例的示例性电子设备的方框图；

其中，500为电子设备、501为CPU、502为ROM、503为RAM、504为总线、505为I/O接口、506为输入单元、507为输出单元、508为存储单元、509为通信单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

为了使网络能够理解输入的文本数据，就必须将文本数据向量化。传统的词向量表示方法如one-hot模型，例如通过词与词之间相对独立的表示方法，建立一个等同于字典长度的向量，用单词对应位置为1，其它位置为0的向量来表示这个单词，若整个语料库存在2万个不同的单词，则词向量的维度就是2万维。因此，这种方法一个显而易见的缺点就是维度爆炸，运算过程中需要耗费大量算力，然而另一个缺点则是忽略了词与词之间相关性。

针对上述问题，实施例1提供了一种注意力增强方法，如图1示出了本发明实施例的注意力增强方法的流程图。

该方法包括：

S101、构建Word2vec模型，利用文本数据对所述Word2vec模型进行训练，输出词嵌入向量作为训练数据。

作为本发明的一种实施例，所述Word2vec模型，包括Skip-gram模型和CBOW模型，其中：

所述Skip-gram模型，用于通过将单词的one-hot编码作为输入，预测上下文单词。

在本实施例中，Word2vec是一个将词向量维度进行压缩，并融入单词之间关系的模型，包括Skip-gram模型和CBOW模型，Skip-gram模型是通过将单词的one-hot编码作为输入，用于预测其上下文单词，CBOW模型是通过输入上下文单词，来对单词进行预测。

如图2所示，为CBOW模型的原理示意图。

以CBOW模型为例，向量x、y、z为被预测单词w上下文单词的one-hot编码，向量e为被预测单词w的one-hot编码，W_V*N和W`_N*V为映射矩阵，向量v_c即为所求的单词w的词嵌入向量，它的维度可以通过设置映射矩阵来修改。

将文本数据输入所述Word2vec模型，输出维度为768维的词嵌入向量，并以字典的形式存储。

S102、将所述训练数据按类别进行类别内拼接，使每个类别对应一个类别文档，若干个类别文档组成语料库。

在本实施例中，所述训练数据有多个类别，例如其中一个类别是消费者权益类；所述类别内拼接，即将每个类别中的训练数据首尾相接进行拼接，每个类别作为一个类别文档。例如，在消费者权益类中，总共出现了1200条数据，将这些数据文本进行拼接，形成该类别的类别文档。例如“我买到了假货。我买到了过期食品。我买到了损坏商品。”拼接完1200条数据后，得到了消费者权益的类别文档。

在本实施例中，若训练数据的类别一共有73类，则最终得到73个类别文档，将这73个类别文档的综合作为语料库。

S103、计算所述语料库中所有单词相对于所述语料库中每个类别文档的TF-IDF值，得到类别字典。

在本实施例中，在建立类别文档和语料库之后，通过TF-IDF方法对每一个类别文档分别求解所有单词相对本文档的TF-IDF值，即得到73个类别字典。

TF-IDF(term frequency–inverse document frequency)是一种词频统计方法，用以评估一个词语对于当前文档的重要程度。主要思路是如果一个单词在一个文档中出现的次数几乎和它在整个语料库中出现的次数持平，那么这一个单词最有可能作为代表这个文档的关键词，因此，单词的重要性与其在文档中出现的次数成正比，同时与它在语料库中出现的频率成反比。

TF-IDF包含两层意思：单词频率TF(Term Frequency)和逆文档频率IDF(InverseDocument Frequency)。

词频(TF)表示一个单词在文档中出现的频率，为了保证词频不会由于某一个文档中单词量较多，而产生的数值相对较大的情况，所以需要进行归一化处理，具体方法如下所示：

其中，n_ij是该单词在该文档中出现的次数，∑_kn_k，j是该单词在语料库中出现的次数总和。

逆向文件频率(IDF)：某一特定单词的IDF，可以由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到，取对数是为了将不同单词的IDF绝对数值缩小。如果包含单词的文档越少，IDF越大，则说明单词具有很好的类别区分能力。

其中，|D|是语料库中的文档总数，|{j:w_i∈d_j}|表示包含词语w_i的文档数目(即n_i，j≠0的文档数目)。如果该词语不在语料库中，就会导致分母为零，从而导致出错，因此一般情况下使用1+|{j:w_i∈d_j}|，故，完整的TF-IDF指标便可以通过下式求出：

作为本发明的一种实施例，所述类别字典包括：

然而，在上述实施例中，对于73类别所对应的类别字典，它们所包含的词语并不完全一样，文档较长的字典可能包含的词语较多，文档较短的词语可能包含的词语较少，所以，对于语料库中的每一个词语，它都有对应的1-73个TF-IDF值，这显然不是所期望的。

为了将73个类别字典进行统一，本文共考虑了两种方法，一种是平均值保留法，另一种是最大值保留法。

平均值保留法：通过将73个类别字典中每一个词的TF-IDF值求和平均来作为这个单词的最终TF-IDF值。这种方法存在着很大的局限性，例如：单词w_i对于类别1是极其重要的，因为它在类别1中频繁出现，但是在其他类别中却几乎没有，所以类别字典1中w_i的TF-IDF值一定会是很大的，并且其它类别字典中，w_i的TF-IDF值可能为空，也可能是一个接近0的值。这种情况下，如果采用平均值保留法，关键词的信息便会被稀释，而对于一个在每一个类别中出现频率都较高的词语，通过平均值保留法求得的TF-IDF值要比前者大的多，这显然达不到对关键词进行增强的目的。

最大值保留法：通过对类别字典中每一个词语的TF-IDF值进行比较，保留其中的最大值。这种方法的优势在于，最大值保留法不仅不会对关键词信息进行稀释，而且还会减少负样本出现的概率(负样本即TF-IDF值较小类别中的单词，被TF-IDF值较大类别中同一单词表示)，通过前文TF-IDF公式可知，只有在其它类别文档中几乎不出现的词，而当前类别文档中频繁出现的词才会获得较大的TF-IDF值，所以对于TF-IDF值越高的词语，它在其他文档中出现的次数也就越少，负样本出现的概率也就越小。

故，在本实施例中，通过最大值保留发对所述类别字典进行统一，包括：

d[w_i]＝max(d₁[w_i]，d₂[w_i]，d₃[w_i]，…，d_n[w_i])

其中，d[w_i]为统一的类别字典。

通过最大值保留法，将73个类别字典进行统一，便求得整个语料库单词的关键词信息字典。

S104、利用每个类别文档的TF-IDF值对类别文档中句子的单词进行归一化处理，得到句子的增强向量。

在本实施例中，利用每个类别文档的TF-IDF值对类别文档中句子的单词进行归一化处理，得到句子的增强向量，包括：

其中，k(w₁)为单词w₁对应的关注度系数；v_H为句子的增强向量；x、y、z为单词的词嵌入向量；w_i为句子中出现的单词；tf-idf(w_i)为对应单词w_i的tf-idf值tf-idf(w_i)为对应单词w_i的tf-idf值。

通过上述对输入的文本的表示方法，考虑到了单词之间的重要程度，避免将所有的单词平等对待，从而实现了关键词信息增强的目的。同时考虑到了不同句子中单词之间的TF-IDF值相差较大，会导致不同句子向量增强效果不统一的问题。

实施例2提供了一种用于文本分类的注意力增强预训练方法，如图3所示为根据本发明的实施例的用于文本分类的注意力增强预训练方法的流程图。

用于文本分类的注意力增强预训练方法，包括：

S301、利用BERT网络模型对输入文本数据进行语义提取，输出句子表征向量。

在本实施例中，所述BERT网络多头注意力模型为：

其中，Q为查询向量；K为关键向量；V为权值向量，d_k为缩放因子，保证梯度的平稳。

BERT网络模型是以Transform为基本结构，通过给定一个任务相关的查询Query向量Q，通过计算与Key的注意力分布并附加在Value上，从而来计算注意力分数。由于文本分类任务，只取句子的CLS端，所以注意力分数为768维度。

在模型运行过程中，对于输入的文本数据，首先送到BERT网络模型，BERT网络模型的输出last hidden state形状是(batch_size,sequence_length,hidden_size)，由于分类任务只取句子序列的CLS端，所以最终输出768*1维度的句子表征向量v_B。

S302、利用上述实施例1中所述的注意力增强方法得到句子关键词增强向量。

在本实施例中，如图1所示，通过注意力增强方法得到句子关键词增强向量，包括：

S303、将所述句子表征向量和句子增强向量进行融合，得到句子向量。

在本实施例中，文本数据通过查询TF-IDF字典建立单词关注度系数k，紧接着通过关注度系数k指导词嵌入向量v_C生成768*1维度的句子增强向量v_H。由于增强向量v_H是在关注度系数k的指导下生成的，所以它可以表征句子中不同单词的关键程度。最后，将句子增强向量v_H融入句子表征向量v_B，便得到了768*1维度的句子向量v_Z，

S304、将所述句子向量输入全连接层，通过Softmax函数进行分类，输出分类结果。

在本实施例中，句子向量v_Z直接送入全连接层FC，通过Softmax函数进行分类。

根据本发明的实施例，通过将BERT网络只视作文本语义提取模型，重新建立注意力网络，将语义提取和注意力机制拆分成两个子任务，在网络下游通过向量融合的方式将两个模型的输出结合，得到句子向量，送入全连接层进行分类，从而显著提高网络分类准确率，并提高网络注意力机制的可解释性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

如图4所示，用于文本分类的注意力增强预训练装置，包括：

BERT网络模块410，用于利用BERT网络多头注意力模型对输入文本数据进行语义提取，输出句子表征向量；

注意力增强模块420，用于利用注意力增强方法得到句子关键词增强向量；

融合模块430，用于将所述句子表征向量和句子增强向量进行融合，得到句子向量；

分类模块440，用于将所述句子向量输入全连接层，通过Softmax函数进行分类，输出分类结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本发明的实施例，本发明还提供了一种电子设备。

图5示出了可以用来实施本发明的实施例的电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如方法S301～S304。例如，在一些实施例中，方法S301～S304可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的方法S301～S304的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法S301～S304。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。