CN113011163A

CN113011163A - 基于深度学习模型的复合文本多分类方法及系统

Info

Publication number: CN113011163A
Application number: CN202110222535.3A
Authority: CN
Inventors: 卜佑军; 孙嘉; 陈博; 张桥; 王方玉; 张鹏; 周锟; 伊鹏; 马海龙; 胡宇翔; 李锦玲; 张稣荣; 路祥雨; 张进
Original assignee: Information Engineering University of PLA Strategic Support Force; Network Communication and Security Zijinshan Laboratory
Current assignee: Information Engineering University of PLA Strategic Support Force; Network Communication and Security Zijinshan Laboratory
Priority date: 2021-02-27
Filing date: 2021-02-27
Publication date: 2021-06-22

Abstract

本发明属于自然语言处理技术领域，特别涉及一种基于深度学习模型的复合文本多分类方法及系统，包含：将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；将词向量作为深度学习模型输入，通过模型CNN卷积层提取文本特征，选取卷积后向量，并保留全局部分序列关联信息，通过模型self‑attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。本发明可解决复合文本精确多分类问题，满足自然语言文本多分类预测识别的实际应用。

Description

基于深度学习模型的复合文本多分类方法及系统

技术领域

本发明属于自然语言处理技术领域，特别涉及一种基于深度学习模型的复合文本多分类方法及系统，通过复合深度学习模型CNN、LSTM、self-attention对文本进行多分类预测。

背景技术

文本分类是自然语言处理中关键且基础的任务之一，其常见的方法有传统的机器学习分类模型如朴素贝叶斯、支持向量机、逻辑回归等，以及演变至目前一系列基于深度学习的分类模型，主要包括CNN、LSTM、attention等。

Text-CNN实现简单，支持并行，其主要的特点是局部感知和权值共享。局部感知使模型每次只需要感知较小的局部地区，降低参数量的同时提高拟合能力。权值共享使一些基本特征可以重复利用，提高神经网络训练效果。Attention机制原理是从从大量信息中筛选并聚焦在更为有效的信息上，聚焦的过程体现在权重系数的计算上。LSTM循环神经网络是一种以序列数据为输入来进行建模的深度学习模型，相比于其它神经网络模型，LSTM能更有效的处理序列信息，是NLP中常用的模型。在文本分类的实际应用中，CNN模型简单、训练速度快，效果可观，但可解释性不强，在调优模型时很难根据训练结果针对性调整具体特征，不易对每个特征重要度进行评估；Attention机制中能无视词之间的举例直接计算依赖关系，能够学习句子内部结构，实现简单且可并行计算，但进行权重计算时需要计算每个特征向量之间相关性，当特征向量较多时计算量较高；LSTM能够有效处理序列信息，但不够直观缺乏可解释性。

发明内容

为此，本发明提供一种基于深度学习模型的复合文本多分类方法及系统，采用CNN、LSTM、attention三种深度学习模型来组成用于解决文本精确多分类的复合学习模型，以满足自然语言文本多分类预测识别的实际应用。

按照本发明所提供的设计方案，提供一种基于深度学习模型的复合文本多分类方法，包含：

将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；

将词向量作为已训练的深度学习模型的输入，通过模型中CNN卷积层提取文本特征，选取卷积后的向量，并保留全局部分序列关联信息，通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型中LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，针对复合文本，以词典为基本切分方法，根据文本语言特征、语序特征及结构特征，使用分词系统进行不同级别分词。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，针对复合文本进行特征分析，以基于字典匹配的分词方法为基础，并结合词频统计和语义理解分词将复合文本划分至词语粒度级。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，预处理中，针对词语粒度级的文本表示，通过加载停止词词典去除停止词，利用TF-IDF词频统计去除所有类别内高频词，并利用Word2Vec词嵌入方法表示为多维词向量，其中，高频词为词频大于设定值的词语。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，CNN卷积层中，使用不同卷积窗口对输入的词向量进行卷积操作，以不同视野宽度提取文本特征。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，利用模型Top-K池化层从卷积操作提取的文本特征向量中选取前K个代表性特征向量，从不定长的卷积层输出截取订场序列，并保留部分序列关联信息。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，self-attention层中，针对输入的特征向量序列，通过计算选定特征向量与其余特征向量相关度来确定该选定特征向量相对整体文本表示的贡献度，并对其附加权重，通过拼接操作将词向量拼接为表示文本的特征向量。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，深度学习模型中，利用单层LSTM循环层对输入的特征向量矩阵进行单层循环学习并输出文本特征向量。

作为本发明基于深度学习模型的复合文本多分类方法，进一步地，将经过平均化处理的文本特征向量输入至softmax分类器来获取类别分布概率，并选取概率最大的类别作为最终分类预测结果。

进一步地，基于上述的方法，本发明还提供一种基于深度学习模型的复合文本多分类系统，包含：数据预处理模块和分类预测模块，其中，

数据预处理模块，用于将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；

分类预测模块，用于将词向量作为已训练的深度学习模型的输入，通过模型中CNN卷积层提取文本特征，选取卷积后的向量，并保留全局部分序列关联信息，通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型中LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。

本发明的有益效果：

本发明复合CNN、Self-attention、LSTM三种模型，可以发挥彼此优势，互相弥补不足：可以通过self-attention机制解决CNN、LSTM可解释性差的问题，有效评估每个特征向量对分类结果的贡献；通过CNN卷积的机制可以使Self-attention关注到局部序列特征之间的依赖关系，不需要计算每个特征向量之间的相关性；通过LSTM处理序列信息的优势，解决CNN卷积、池化操作丢失文本序列顺序、位置关系的问题。根据文本特征适用分词系统，构建输入层，使用Word2Vec将分词结果数值化，通过CNN卷积层的多种类型卷积窗口提取特征向量序列，通过self-attention层对特征向量进行权重计算，通过LSTM循环层对特征向量进行非线性变换与映射，进而通过softmax分类器映射到概率空间判断文本类别，提升文本多分类效率和精确度，具有较好应用前景。

附图说明：

图1为实施例中文本预处理流程示意；

图2为实施例中卷积操作流程示意；

图3为实施例中附加权重流程示意；

图4为实施例中分类输出流程示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对如何进行文本精确多分类的情形，本发明实施例，提供一种基于深度学习模型的复合文本多分类方法，包含：将复合文本转换至词语粒度级的文本表示，对转换后的词语粒度级文本表示进行预处理，并通过词嵌入方法表示为词向量；将词向量作为已训练的深度学习模型的输入，通过模型中CNN卷积层提取文本特征，选取卷积后的向量，并保留全局部分序列关联信息，通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接，利用模型中LSTM循环层提取文本特征向量；通过模型池化层对文本特征向量进行平均化操作，并利用softmax分类器获取输入的文本类别概率，依据概率大小来获取文本分类结果。

CNN中主要有两种类型的网络层，分别是卷积层和池化/采样层(Pooling)。卷积层的作用是提取图像的各种特征，模型中一般使用多个不同尺寸的卷积核且一般卷积核只进行一维的滑动，即卷积核的宽度与词向量的维度等宽，卷积核的高度是利用的局部词序的长度。卷积窗口值是一个超参数，需要在任务中调试，一般选取2-8之间的值。Text-CNN模型的池化层(Pooling)，也称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。主要有最大池化(Max Pooling)和平均池化(AveragePooling)。Attention机制将原输入信息可以看做一系列的<Key,Value>数据对构成，然后在给出一个Query查询操作时，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，所以可以划分为两个过程：第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和，而第一个过程又可以细分为两个阶段，第一个阶段根据Query和Key计算两者的相似性或者相关性，求相似性方法有点乘，权重，余弦相似性等，第二个阶段对第一阶段的原始分值进行归一化处理。Self-Attention是Attention的特殊形式，自注意模型中query、key和value是相等的，需要在序列内部构建Attention，寻找序列内部的联系。例如输入一个句子，句子里的每个词都要和该句子中的所有词进行Attention计算，目的是学习句子内部的词依赖关系，捕获句子的内部结构。LSTM循环层中设置多个神经单元，一个神经循环单元中存储先前输入的状态，并与当前输入相结合，从而保持当前输入与先前输入的关系，即序列中的相互依赖关系。其描述当前状态的循环递归公式可以定义如下：

h_t＝f(h_t-1,x_t)

其中，h_t是t时刻的状态，h_t-1是前一时刻的状态，x_t是当前的输入，前一刻的状态是前一刻的输入经过神经元转换过后的状态。本案通过复合CNN、Self-attention、LSTM三种模型，可以发挥彼此优势，互相弥补不足：可以通过self-attention机制解决CNN、LSTM可解释性差的问题，有效评估每个特征向量对分类结果的贡献；通过CNN卷积的机制可以使Self-attention关注到局部序列特征之间的依赖关系，不需要计算每个特征向量之间的相关性；通过LSTM处理序列信息的优势，解决CNN卷积、池化操作丢失文本序列顺序、位置关系的问题；提升深度学习模型在文本分类识别中的应用。

作为本发明实施例中基于深度学习模型的复合文本多分类方法，进一步地，针对复合文本，以词典为基本切分方法，根据文本语言特征、语序特征及结构特征，使用分词系统进行不同级别分词。

参见图1所示，针对具体输入文本，以词典为基本切分方法，根据文本语言特征、语序特征、结构特征等信息，使用JieBa、HanLP等分词系统进行不同级别分词。HanLP分词系统适用于需要抽取摘要、提取关键词的长文本，以及需要拼音、繁简转换的文本和需要命名实体识别进行区分的文本；JieBa分词适用于精确切分文本词汇的文本，或者进行最小粒度级切分词语以理解表示的文本。通过加载停止词词典，针对切分后的词语去除停止词。可根据TF-IDF词频统计方法，去除在所有类别内词频较高的高频词。

使用将筛选后的词以one-hot编码形式输入Word2Vec词嵌入模型，输出表示为n维稠密，连续的实数向量[a₁,a₂,a₃,...,a_n]，并使相似的词映射到相似的空间位置。

作为本发明实施例中基于深度学习模型的复合文本多分类方法，进一步地，CNN卷积层中，使用不同卷积窗口对输入的词向量进行卷积操作，以不同视野宽度提取文本特征。

参见图2所示，使用多种不同类型的卷积核，卷积词向量，得到局部相关的特征向量序列。使用宽度为词向量，高度分别2、3的数量各为1的卷积窗口进行步长为2的卷积操作，得到特征向量序列分别为：

[[a₁,a₂],[a₃,a₄],...,[a_n-1,a_n]]→[b₁,b₂,...,b_n/2]

[[a₁,a₂,a₃],[a₃,a₄,a₅],...,[a_n-2,a_n-1,a_n]]→[d₁,d₂,...,d_n/3]

其中，各个经过映射和变换的特征向量之间维持着一定的序列顺序和位置关系。

作为本发明实施例中基于深度学习模型的复合文本多分类方法，进一步地，利用模型Top-K池化层从卷积操作提取的文本特征向量中选取前K个代表性特征向量，从不定长的卷积层输出截取订场序列，并保留部分序列关联信息。进一步地，self-attention层中，针对输入的特征向量序列，通过计算选定特征向量与其余特征向量相关度来确定该选定特征向量相对整体文本表示的贡献度，并对其附加权重，通过拼接操作将词向量拼接为表示文本的特征向量。

参见图3所示，TOP-K池化层选取k个卷积后的特征向量，并保留全局部分序列关联信息。配置TOP-2池化层，每种类型选取2两个最大文本相关性特征向量：

[b_x,b_y]；[d_i,d_k]

其中，b_x和b_y之间维持着局部的序列顺序和位置关系，d_i,d_k之间同样维持着局部的序列顺序和位置关系。

self-attention层，为特征向量计算并附加部分序列信息中的权重。在self-attention中，输入数据对<Key,Value>以及查询Query来自同一输入矩阵：

X*W^K＝K；X*W^V＝V；X*W^Q＝Q

其中，X为self-attention层的输入序列，W^K、W^V、W^Q是模型训练过程中学习的合适参数，softmax是将矩阵点乘后的结果归一化为概率分布，

是为防止其结果过大设置的尺度标度，d_k是Key和Query向量的维度，C是self-attention层输出附加权重后的特征向量矩阵。

作为本发明实施例中基于深度学习模型的复合文本多分类方法，进一步地，深度学习模型中，利用单层LSTM循环层对输入的特征向量矩阵进行单层循环学习并输出文本特征向量。进一步地，将经过平均化处理的文本特征向量输入至softmax分类器来获取类别分布概率，并选取概率最大的类别作为最终分类预测结果。

参见图4所示，单层LSTM循环层，输入C1、C2特征向量矩阵，经过单层循环学习，得到输出特征向量：

Mean pooling层，对循环学习后的文本特征向量文进行平均化操作：

将经特征工程变换处理的的特征向量输入soft-max分类器，得到一个类别分布概率，以概率最大的类别作为最终分类。

进一步地，基于上述的方法，本发明实施例还提供一种基于深度学习模型的复合文本多分类系统，包含：数据预处理模块和分类预测模块，其中，

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习模型的复合文本多分类方法，其特征在于，包含：

2.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，针对复合文本，以词典为基本切分方法，根据文本语言特征、语序特征及结构特征，使用分词系统进行不同级别分词。

3.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，针对复合文本进行特征分析，以基于字典匹配的分词方法为基础，并结合词频统计和语义理解分词将复合文本划分至词语粒度级。

4.根据权利要求1或2或3所述的基于深度学习模型的复合文本多分类方法，其特征在于，预处理中，针对词语粒度级的文本表示，通过加载停止词词典去除停止词，利用TF-IDF词频统计去除所有类别内高频词，并利用Word2Vec词嵌入方法表示为多维词向量，其中，高频词为词频大于设定值的词语。

5.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，CNN卷积层中，使用不同卷积窗口对输入的词向量进行卷积操作，以不同视野宽度提取文本特征。

6.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，利用模型Top-K池化层从卷积操作提取的文本特征向量中选取前K个代表性特征向量，从不定长的卷积层输出截取订场序列，并保留部分序列关联信息。

7.根据权利要求6所述的基于深度学习模型的复合文本多分类方法，其特征在于，self-attention层中，针对输入的特征向量序列，通过计算选定特征向量与其余特征向量相关度来确定该选定特征向量相对整体文本表示的贡献度，并对其附加权重，通过拼接操作将词向量拼接为表示文本的特征向量。

8.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，深度学习模型中，利用单层LSTM循环层对输入的特征向量矩阵进行单层循环学习并输出文本特征向量。

9.根据权利要求1所述的基于深度学习模型的复合文本多分类方法，其特征在于，将经过平均化处理的文本特征向量输入至softmax分类器来获取类别分布概率，并选取概率最大的类别作为最终分类预测结果。

10.一种基于深度学习模型的复合文本多分类系统，其特征在于，包含：数据预处理模块和分类预测模块，其中，