CN115858791B

CN115858791B - 短文本分类方法、装置、电子设备和存储介质

Info

Publication number: CN115858791B
Application number: CN202310129895.8A
Authority: CN
Inventors: 王婷; 梁佳莹; 向东; 杨川; 马洪江
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-09-15
Anticipated expiration: 2043-02-17
Also published as: CN115858791A

Abstract

本发明涉及自然语言处理技术领域，公开了短文本分类方法、装置、电子设备和存储介质，对金融领域待处理短文本进行编码，将得到的编码信息分别输入到DSACNN模型和BiGRU模型中，通过DSACNN模型提取待处理文本的词依赖特征信息和文本依赖特征信息，通过BiGRU模型提取待处理文本的深层次特征信息，将两个模型输出的特征信息进行合并，输入分类器中对待处理文本进行分类；DSACNN模型通过减少卷积层，且增加自注意力机制算法，采用BiGRU模型作为辅助算法，减少了模型训练时间，提高了金融领域短文本分类效果，解决了上下文的长期依赖不够充分以及注意力集中点分散问题。

Description

短文本分类方法、装置、电子设备和存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及短文本分类方法、装置、电子设备和存储介质。

背景技术

金融领域对于信息的收集量、信息的即时性和数据的可读性有极高的要求，需要能够快速整理分类庞大数据的工具作辅助。文本分类是自然语言处理的重要分支之一，它的目的是将不同类别且杂乱无章的文本内容按类别分开并标注。金融领域文本分类，在消费者意见反馈、金融风险监控和金融股票推荐等典型场景中，有着至关重要的利用价值。关于文本分类目前主要使用的是深度学习方法。

目前，针对金融领域文本分类采用的是基于BERT模型架构的金融预训练语言模型F-BERT，使用了Transformer，相对RNN更加高效、能够捕捉更长距离的依赖；该模型可以将知识有效地提取并记忆到模型中；其中，DPCNN（Deep Pyramid Convolutional NeuralNetworks）是一种低复杂度的词级别深层CNN模型，该模型通过简单地堆叠卷积模块和负采样层，将整个F-BERT模型的计算量限制在小于两倍卷积块的范围。

然而，本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术方案至少存在如下技术问题：

由于上述模型单一，没有进行优化，只是简单的堆叠，使得模型内容虽然丰富了起来，但是结构更加复杂，在解决上下文的长期依赖问题上不够充分，在文本长度变化以及注意力集中点分散的情况下，对文本的分类效果不佳。

发明内容

因此，本发明提供了一种基于RoBERTa-WWM的金融领域短文本分类方法，目的在于解决上下文的长期依赖不够充分以及注意力集中点分散问题，从而提高金融领域短文本分类效果。

主要通过以下技术方案实现上述发明目的：

第一方面，短文本分类方法，用于金融领域，包括：

将待处理文本输入预先训练的编码模型，输出待处理文本对应的编码信息；分别将所述编码信息输入第一模型和第二模型；利用所述第一模型抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；利用所述第二模型提取所述待处理文本的深层次特征信息；将所述待处理文本的词依赖特征信息、文本依赖特征信息和深层次特征信息合并，得到所述待处理文本的合并特征信息；将所述合并特征信息输入分类器中对所述待处理文本进行分类。

优选地，将待处理文本输入预先训练的RoBERTa-WWM模型中，将所述待处理文本转化为句子矩阵。

优选地，将所述编码信息输入第一模型，所述第一模型基于DSACNN构建，所述第一模型包括词嵌入层、DPCNN卷积层、自注意力机制层和最大池化层；利用所述词嵌入层对所述句子矩阵进行词向量嵌入；利用所述DPCNN卷积层对嵌入的词向量进行等长卷积；将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，利用所述自注意力机制层将所述词向量分别乘以不同的变换矩阵，得到查询矩阵、关键字矩阵和值矩阵；根据所述查询矩阵和所述关键字矩阵得到注意力分数矩阵，所述注意力分数矩阵表示所述查询矩阵和所述关键字矩阵之间的相似度；根据所述注意力分数矩阵得到注意力权重矩阵，所述注意力权重矩阵表示所述词向量在所述待处理文本中的重要程度；根据所述注意力权重矩阵与所述值矩阵做相加运算，得到所述自注意力机制层的第一输出结果，所述第一输出结果包含所述待处理文本中的词依赖特征信息；将所述自注意力机制层的第一输出结果输入所述最大池化层进行最大池化，将所述待处理文本的长度缩短，得到池化结果；将所述注意力分数矩阵与所述自注意力机制层的第一输出结果相加，将相加的结果输入所述DPCNN卷积层进行等长卷积，将卷积后的结果输入所述自注意力机制层，得到所述自注意力机制层的第二输出结果，所述第二输出结果包含所述待处理文本的文本依赖特征信息；将所述池化结果和所述第二输出结果合并，得到所述DSACNN模型的输出结果，所述DSACNN模型的输出结果包含所述待处理文本中的词依赖特征信息和文本依赖特征信息；从而提取所述待处理文本的词依赖特征信息和文本依赖特征信息。

优选地，将所述编码信息输入第二模型，所述第二模型基于BiGRU构建；所述第二模型包括两个GRU；通过前向隐藏状态与反向隐藏状态加权求和，得到所述BiGRU在当前时刻的隐藏状态；其中，每个GRU是通过重置门和更新门来控制句子矩阵信息的传递，从而提取所述待处理文本的深层次特征信息；重置门根据上一时刻的隐藏状态，来决定通过的句子矩阵信息中有多少需要进行遗忘操作；更新门则是根据当前时刻和上一时刻的隐藏单元，来决定上一时刻以及当前时刻总共有多少有用信息需要接着向下传递。

第二方面，短文本分类装置，用于金融领域，包括：

编码模型，用于将输入的待处理文本进行编码输出编码信息；

第一模型，用于根据编码信息抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；

第二模型，用于根据编码信息提取所述待处理文本的深层次特征信息；

合并模块，用于将所述待处理文本的词依赖特征信息、文本依赖特征信息和深层次特征信息合并，得到所述待处理文本的合并特征信息；

分类模块，用于将所述合并特征信息输入分类器中对所述待处理文本进行分类。

第三方面，一种电子设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述短文本分类方法的部分或全部步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述短文本分类方法的部分或全部步骤。

相较于现有技术的有益效果：

本发明基于RoBERTa-WWM对金融领域待处理短文本进行编码，将其转化为句子矩阵，然后将得到的编码信息分别输入到DSACNN模型和BiGRU模型中，通过DSACNN模型提取待处理文本的词依赖特征信息和文本依赖特征信息，通过BiGRU模型提取待处理文本的深层次特征信息，然后将词依赖特征信息、文本依赖特征信息和深层次特征信息进行合并，合并后输入分类器中对待处理文本进行分类；DSACNN模型通过减少卷积层，且增加自注意力机制算法，再采用BiGRU模型作为辅助算法，针对金融领域短文本进行分类，DSACNN模型将多层卷积减少后，减少了模型训练时间，引入自注意力机制算法，可提取待处理文本的词依赖特征信息，提高了金融领域短文本分类效果，解决了上下文的长期依赖不够充分以及注意力集中点分散问题。

附图说明

图1为本发明实施例中一种短文本分类方法的流程示意图；

图2为本发明实施例中自注意力机制提取词依赖特征信息的流程示意图；

图3为本发明实施例中的模型结构示意图；

图4为本发明实施例中一种短文本分类装置的结构示意图；

图5为本发明实施例中一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在本发明一个可行的实施例中，提供了一种短文本分类方法，如图1所示，包括以下步骤：

步骤1、将待处理文本输入预先训练的编码模型，输出待处理文本对应的编码信息。

需要说明的是，在步骤1之前，将给定的文本数据集进行预处理，清洗掉无用的符号，减少噪声的影响。然后将经过预处理的待处理文本输入预先训练的编码模型进行编码获得编码信息。

一个更优选地实施例中，将待处理文本输入预先训练的RoBERTa-WWM模型；所述RoBERTa-WWM模型将所述待处理文本转化为句子矩阵。本发明使用的是在BERT模型基础上进行改进的RoBERTa（A Robustly Optimized BERT，RoBERTa）模型，本发明使用的RoBERTa-WWM（WholeWord Msak，WWM）版本。将待处理文本输入预先训练的RoBERTa-WWM模型中，将文本句子转化为编码好的句子矩阵，例如：输入“本公司今年的收益具体分为三个方面”，会被转化为各维度依次为训练批次大小、句子大小16和768的三维句子矩阵。

步骤2、分别将所述编码信息输入第一模型和第二模型；利用所述第一模型抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；利用所述第二模型提取所述待处理文本的深层次特征信息。

需要说明的是，该步骤中，对于将所述编码信息输入第一模型和第二模型的先后顺序不作限定，可以是先将所述编码信息输入第一模型，也可以是先将所述编码信息输入第二模型，或者也可以是同时将所述编码信息分别输入第一模型和第二模型。

一个更优选地实施例中，所述第一模型基于DSACNN构建，所述第一模型包括词嵌入层、DPCNN卷积层、自注意力机制层和最大池化层。DSACNN（Deep self-attentionConvolutional Neural Networks，深度自注意力机制神经网络模型）是在DPCNN（DeepPyramid Convolutional Neural Networks，深度卷积神经网络模型）的基础上改进的模型，具体的，减少了DPCNN的卷积层数，原本的四层卷积层更加适合较长一些的文本数据，该数据集的长度平均为73，减少两层后的模型对分类效果的提升更高，在此基础把相应位置上减少的卷积层数替换为自注意力机制，更加适配短文本数据集，自注意力机制则提取出词与词之间的关系，如图2所示，具体实施方式可为：

对三维矩阵进行词向量嵌入后通过一层等长卷积，即相同填充的卷积，输出和输入的卷积长度相等，步长设为1，卷积后的feature map（特征图）固定为250，提取到更为丰富、内容更多的被修饰的词级，包含更高级的语义信息，再把卷积后的结果输入到自注意力机制中提取词与词之间的关系。

自注意力机制的算法是将词向量分别乘以不同的变换矩阵W，得到查询矩阵（Query，Q）、关键字矩阵（Key，K）和值矩阵（Value，V），Q与K做内积结果为注意力分数S矩阵，表示Q和K的相似度，而继续对注意力分数通过Softmax函数得到注意力权重矩阵，代表着各个词在该文本中的重要程度，将注意力权重矩阵与V矩阵之和A作为自注意力机制的输出；A分别进入两个算法，第一个为重复模块，与之前的等长卷积再自注意力相比，多出一步大小为3、步长为2的池化层进行最大池化，该步骤会将文本长度减少一半，形成一个类似金字塔的结构；第二个是将自注意力分数与A相加后的结果，再次进入自注意力机制。最后把第一步与第二步的结果相拼接，就得到了DSACNN模型的最终输出D。

综上所述，对DPCNN的原本结构的改变以及优化，添加自注意力机制算法，提取更多有用的文本特征信息。下面对上述过程中实现的具体公式做出说明，如下：

(1)

(2)

(3)

（4）

（5）

（6）

（7）

（8）

（9）

其中，是待处理文本，是RoBERTa-WWM模型的输出矩阵，为卷积核的权重参数，是经过一层等长卷积后的输出，是词向量，、和分别是Q、K、V的变换矩阵，是线性变换后的维度，是自注意力机制中的注意力分数，是自注意力机制的输出矩阵，是大小为3、步长为2的池化层进行最大池化的结果，则是将注意力分数和自注意力机制输出拼接后的输出矩阵。该模型的主要功能是提取文本中长距离依赖信息。

一个更优选地实施例中，所述第二模型基于BiGRU（Bi-directional GatedRecurrent Unit，BiGRU）构建；所述第二模型包括两个GRU。通过BiGRU模型提取到文本之间长距离之间的依赖与深层次特征信息，通过双向传播解决上下文影响的问题。该模型分为前向传播和反向传播两个阶段，由这两个GRU的状态共同决定的GRU组成的神经网络模型，可以更好地联系上下文，提取到文本具有长期依赖的特征信息。具体的，通过前向隐藏状态与反向隐藏状态加权求和，得到所述BiGRU在当前时刻的隐藏状态；其中，每个GRU是通过重置门和更新门来控制句子矩阵信息的传递，从而提取所述待处理文本的深层次特征信息；重置门根据上一时刻的隐藏状态，来决定通过的句子矩阵信息中有多少需要进行遗忘操作；更新门则是根据当前时刻和上一时刻的隐藏单元，来决定上一时刻以及当前时刻总共有多少有用信息需要接着向下传递。

通过具体以下公式对BiGRU模型的计算过程进行说明：

公式作用与文字描述一致，BiGRU当前的隐藏层状态由当前的输入、上一时刻向前的隐藏状态的输出和反向的隐藏层状态的输出三部分共同决定。具体公式如下所示：

（10）

（11）

（12）

其中，是指当前的输入，是指上一时刻向前的隐藏状态的输出，是指反向的隐藏层状态的输出，GRU()函数代表对输入的词向量矩阵进行非线性变换操作，通过此函数，将词向量编码为对应的GRU隐藏状态，、分别代表当前时刻双向GRU中前向隐藏状态和反向隐藏状态所对应的权重参数，则代表当前时刻隐藏状态所对应的偏置参数。该模块主要功能是通过双向GRU来提取文本中深层次特征信息。

步骤3、将上述两个模型输出的所述待处理文本的词依赖特征信息、文本依赖特征信息和深层次特征信息合并，得到所述待处理文本的合并特征信息。

步骤4、将所述合并特征信息输入分类器中对所述待处理文本进行分类。

得到带有文本特征信息的矩阵后，该分类器模型需要对这些信息进行学习，提取到类别与文本特征信息之间的关联。损失函数（loss）即代表着分类器模型预测值与真实值的相反程度，该分类器模型采用Rdrop（Regularized Dropout）即每个数据样本重复经过带有Dropout（模型平均）的同一个模型，再使用KL（Kullback-Leibler）散度（用来衡量两个概率分布相似性的一个度量指标）约束两次的输出，使其尽可能保持一致，但是由于Dropout的随机性，可以近似认为两次的模型略微不同。具体计算公式如下：

(13)

(14)

(15)

(16)

其中，是指该文本数据进入分类器模型的计算，是指训练数据，、分别指代两次进入模型的输出，和则是两部分的损失函数loss结果，最终两部分的加权和就是loss值。

下面结合图3所示，对本发明涉及的模型的推演过程进行说明：

（1）假设给定的一个文本数据为“该公司今年的资产金额”，输入到RoBERTa-WWM编码模型中，训练的批次为32时，输出的是一个维度为32、10和768的三维词向量矩阵。RoBERTa-WWM结合了中文全词掩码技术以及RoBERTa模型的优势，是目前文本分类中较为流行的一种编码器，能够将长度为x的句子转换为三维的词向量矩阵，捕获到上下文信息，方便后续模型的计算。

（2）将获取到的词向量矩阵传入DSACNN模型，首先进行词向量嵌入，即对该文本进行一组卷积操作后生成的嵌入矩阵，顶层填充后矩阵大小为32、250（固定的feature maps 大小）、10和1。进入第一层等长卷积后矩阵大小不变，但是收集到了更多的上下文特征信息，再到自注意力机制层，卷积后得到的矩阵通过与参数矩阵相乘得到Q、K、V矩阵，通过Q、K 矩阵算出注意力分数矩阵与注意力权重矩阵，V乘以注意力权重矩阵的结果，就是文本中词与词之间的关系信息。通过1/2的最大池化层反复对文本对折处理后，再次重复上两层的操作，直到文本长度小于等于2，卷积后该词向量矩阵大小不变化，但是存在捕捉到的文本长距离依赖关系，最后一层卷积和自注意力机制的输出矩阵为32、250的二维矩阵。将第一层自注意力机制的输出和注意力分数矩阵拼接得到更加全面的词与词之间的关系，再次进入自注意力机制使其专注于重要关系信息，矩阵大小依然为32、10、768，转换为二维矩阵后与图2中左侧输出拼接，此时的词向量矩阵中包含上下文长距离依赖信息、词与词之间的关系，矩阵大小32、5（数据集文本类别数）。

（3）将编码器的输出矩阵传入BiGRU模型，经过双向GRU模型，提取到文本中深层次特征信息，具体计算如上述公式GRU（）函数所示，加权求和后的输出结果是一个大小为32、5（数据集类别数）的二维矩阵。

（4）将步骤二与步骤三的矩阵拼接转换为32、5的二维矩阵进入Rdrop环节计算出loss值，得出预测值与真实值之间的差距。将训练集数据按批次训练结束后，得到训练好的分类器，传入处理好的金融领域验证集文本数据，预测出可能的类别，通过评价函数进行计算评价分数（准确率、F1-score、召回率和精确率），从评价函数的结果可以看到该分类器对金融领域的文本数据具有优异的分类效果。

相较于现有技术的有益效果：

在本发明一个可行的实施例中，还公开了一种短文本分类装置400，如图4所示，包括：

编码模型401，用于将输入的待处理文本进行编码输出编码信息；

第一模型402，用于根据编码信息抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；

第二模型403，用于根据编码信息提取所述待处理文本的深层次特征信息；

合并模块404，用于将所述待处理文本的词依赖特征信息、文本依赖特征信息和深层次特征信息合并，得到所述待处理文本的合并特征信息；

分类模块405，用于将所述合并特征信息输入分类器中对所述待处理文本进行分类。

在上述实施例基础上的一个优选地实施例中，所述编码模型401具体用于：将输入的待处理文本输入预先训练的RoBERTa-WWM模型，将所述待处理文本转化为句子矩阵。

在上述实施例基础上的一个优选地实施例中，所述第一模型402基于DSACNN构建，所述第一模型包括词嵌入层、DPCNN卷积层和自注意力机制层；所述第一模型具体用于：利用所述词嵌入层对所述句子矩阵进行词向量嵌入；利用所述DPCNN卷积层对嵌入的词向量进行等长卷积；将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，以提取所述待处理文本的词依赖特征信息和文本依赖特征信息。

在上述实施例基础上的一个优选地实施例中，所述第一模型402还包括最大池化层，所述第一模型具体还用于：将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，利用所述自注意力机制层将所述词向量分别乘以不同的变换矩阵，得到查询矩阵、关键字矩阵和值矩阵；根据所述查询矩阵和所述关键字矩阵得到注意力分数矩阵，所述注意力分数矩阵表示所述查询矩阵和所述关键字矩阵之间的相似度；根据所述注意力分数矩阵得到注意力权重矩阵，所述注意力权重矩阵表示所述词向量在所述待处理文本中的重要程度；根据所述注意力权重矩阵与所述值矩阵做相加运算，得到所述自注意力机制层的第一输出结果，所述第一输出结果包含所述待处理文本中的词依赖特征信息；将所述自注意力机制层的第一输出结果输入所述最大池化层进行最大池化，将所述待处理文本的长度缩短，得到池化结果；将所述注意力分数矩阵与所述自注意力机制层的第一输出结果相加，将相加的结果输入所述DPCNN卷积层进行等长卷积，将卷积后的结果输入所述自注意力机制层，得到所述自注意力机制层的第二输出结果，所述第二输出结果包含所述待处理文本的文本依赖特征信息；将所述池化结果和所述第二输出结果合并，得到所述DSACNN模型的输出结果，所述DSACNN模型的输出结果包含所述待处理文本中的词依赖特征信息和文本依赖特征信息。

在上述实施例基础上的一个优选地实施例中，所述第二模型403基于BiGRU构建；所述第二模型包括两个GRU；所述第二模型403具体用于：通过前向隐藏状态与反向隐藏状态加权求和，得到所述BiGRU在当前时刻的隐藏状态；其中，每个GRU是通过重置门和更新门来控制句子矩阵信息的传递，从而提取所述待处理文本的深层次特征信息；重置门根据上一时刻的隐藏状态，来决定通过的句子矩阵信息中有多少需要进行遗忘操作；更新门则是根据当前时刻和上一时刻的隐藏单元，来决定上一时刻以及当前时刻总共有多少有用信息需要接着向下传递。

本发明实施例短文本分类装置是对应上述实施例中短文本分类方法，由于上述实施例中已经对其相关步骤进行了详细的说明，故在此装置中不再赘述。

在本发明一个可行的实施例中，还公开了一种电子设备，如图5所示，所述设备5包括存储器51、处理器52以及存储在所述存储器51中并可在所述处理器52上运行的计算机程序53，所述处理器52执行所述计算机程序53时实现上述短文本分类方法的部分或全部步骤。

在本发明一个可行的实施例中，还公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述短文本分类方法的部分或全部步骤。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.短文本分类方法，其特征在于，包括：

将待处理文本输入预先训练的编码模型，输出待处理文本对应的编码信息，所述编码模型基于RoBERTa-WWM构建；将待处理文本输入预先训练的RoBERTa-WWM模型；所述RoBERTa-WWM模型将所述待处理文本转化为句子矩阵；

分别将所述编码信息输入第一模型和第二模型；利用所述第一模型抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；利用所述第二模型提取所述待处理文本的深层次特征信息；所述第一模型基于DSACNN构建，所述第一模型包括词嵌入层、DPCNN卷积层和自注意力机制层；利用所述词嵌入层对所述句子矩阵进行词向量嵌入；利用所述DPCNN卷积层对嵌入的词向量进行等长卷积；将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，以提取所述待处理文本的词依赖特征信息和文本依赖特征信息；所述第一模型还包括最大池化层；将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，利用所述自注意力机制层将所述词向量分别乘以不同的变换矩阵，得到查询矩阵、关键字矩阵和值矩阵；根据所述查询矩阵和所述关键字矩阵得到注意力分数矩阵，所述注意力分数矩阵表示所述查询矩阵和所述关键字矩阵之间的相似度；根据所述注意力分数矩阵得到注意力权重矩阵，所述注意力权重矩阵表示所述词向量在所述待处理文本中的重要程度；根据所述注意力权重矩阵与所述值矩阵做相加运算，得到所述自注意力机制层的第一输出结果，所述第一输出结果包含所述待处理文本中的词依赖特征信息；将所述自注意力机制层的第一输出结果输入所述最大池化层进行最大池化，将所述待处理文本的长度缩短，得到池化结果；将所述注意力分数矩阵与所述自注意力机制层的第一输出结果相加，将相加的结果输入所述DPCNN卷积层进行等长卷积，将卷积后的结果输入所述自注意力机制层，得到所述自注意力机制层的第二输出结果，所述第二输出结果包含所述待处理文本的文本依赖特征信息；将所述池化结果和所述第二输出结果合并，得到所述DSACNN模型的输出结果，所述DSACNN模型的输出结果包含所述待处理文本中的词依赖特征信息和文本依赖特征信息；

将所述待处理文本的词依赖特征信息、文本依赖特征信息和深层次特征信息合并，得到所述待处理文本的合并特征信息；将所述合并特征信息输入分类器中对所述待处理文本进行分类。

2.如权利要求1所述的短文本分类方法，其特征在于，所述第二模型基于BiGRU构建；所述第二模型包括两个GRU；利用所述第二模型提取所述待处理文本的深层次特征信息，包括：

通过前向隐藏状态与反向隐藏状态加权求和，得到所述BiGRU在当前时刻的隐藏状态；其中，每个GRU是通过重置门和更新门来控制句子矩阵信息的传递，从而提取所述待处理文本的深层次特征信息；重置门根据上一时刻的隐藏状态，来决定通过的句子矩阵信息中有多少需要进行遗忘操作；更新门则是根据当前时刻和上一时刻的隐藏单元，来决定上一时刻以及当前时刻总共有多少有用信息需要接着向下传递。

3.短文本分类装置，其特征在于，包括：

编码模型，用于将输入的待处理文本进行编码输出编码信息，具体用于将输入的待处理文本输入预先训练的RoBERTa-WWM模型，将所述待处理文本转化为句子矩阵；

第一模型，用于根据编码信息抽取所述待处理文本的词依赖特征信息和文本依赖特征信息，所述词依赖表示词与词直接的关系，所述文本依赖表示句子与句子之间的上下文关系；所述第一模型基于DSACNN构建，所述第一模型包括词嵌入层、DPCNN卷积层和自注意力机制层；所述第一模型具体用于：利用所述词嵌入层对所述句子矩阵进行词向量嵌入；利用所述DPCNN卷积层对嵌入的词向量进行等长卷积；将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，以提取所述待处理文本的词依赖特征信息和文本依赖特征信息；所述第一模型还包括最大池化层，所述第一模型具体还用于：将所述DPCNN卷积层的卷积结果输入所述自注意力机制层，利用所述自注意力机制层将所述词向量分别乘以不同的变换矩阵，得到查询矩阵、关键字矩阵和值矩阵；根据所述查询矩阵和所述关键字矩阵得到注意力分数矩阵，所述注意力分数矩阵表示所述查询矩阵和所述关键字矩阵之间的相似度；根据所述注意力分数矩阵得到注意力权重矩阵，所述注意力权重矩阵表示所述词向量在所述待处理文本中的重要程度；根据所述注意力权重矩阵与所述值矩阵做相加运算，得到所述自注意力机制层的第一输出结果，所述第一输出结果包含所述待处理文本中的词依赖特征信息；将所述自注意力机制层的第一输出结果输入所述最大池化层进行最大池化，将所述待处理文本的长度缩短，得到池化结果；将所述注意力分数矩阵与所述自注意力机制层的第一输出结果相加，将相加的结果输入所述DPCNN卷积层进行等长卷积，将卷积后的结果输入所述自注意力机制层，得到所述自注意力机制层的第二输出结果，所述第二输出结果包含所述待处理文本的文本依赖特征信息；将所述池化结果和所述第二输出结果合并，得到所述DSACNN模型的输出结果，所述DSACNN模型的输出结果包含所述待处理文本中的词依赖特征信息和文本依赖特征信息；

4.一种电子设备，所述设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1~2任一项所述的短文本分类方法的步骤。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1~2任一项所述的短文本分类方法的步骤。