CN111400492A

CN111400492A - 基于sfm-dcnn的层次特征文本分类方法和系统

Info

Publication number: CN111400492A
Application number: CN202010097431.XA
Authority: CN
Inventors: 余本功; 王胡燕; 朱梦迪; 汲浩敏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-07-10
Anticipated expiration: 2040-02-17
Also published as: CN111400492B

Abstract

本发明提供一种基于SFM‑DCNN的层次特征文本分类方法和系统，涉及文本分类领域。本发明在特征选择阶段，使用语义特征句向量来表示待分类文本，语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息，并将获取的信息进行强化，能够捕获高级的全局语义信息，从而能够有效的提高文本分类的准确率；在特征获取阶段，采用多通道层次特征，能够在获得关键特征的同时进行多层次特征获取，对特征起到强化作用，有效减少了特征的丢失，从而进一步提高文本分类的准确率。

Description

基于SFM-DCNN的层次特征文本分类方法和系统

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于SFM-DCNN的层次特征文本分类方法和系统。

背景技术

随着互联网在生活中的普及和信息技术的发展，人们的需求量日益增长，为了满足用户的的需求，越来越多的企业提供了线上服务。用户在享受线上服务便利的同时，会不断地产生用户信息。针对不同的产品，不同的企业，用户产生的用户足迹信息不尽相同。随着企业在线服务不断增多，用户信息不断增加，这给企业及用户带来了严峻的挑战。对企业而言，面对日趋剧烈的竞争，如何有效地抓住用户需求，成为了企业急需解决的问题。用户在接受在线服务时，产生的在线消费、在线评论、在线搜索等信息中，携带了大量的信息。这些信息中往往蕴含着大量的用户潜在需求，以及企业服务中的存在的问题。如何对海量用户信息进行有效组织和挖掘，掌握用户需求，逐渐成为了企业的研究热点，文本分类技术的需求也日益突出。

现有的文本分类方法主要是通过word2vec来获取词向量，word2vec词向量可以定量地度量词语之间的语义关系，挖掘词语之间的联系。

然而，本申请的发明人发现，现有的文本分类方法无法有效理解文本中的语义特征，导致文本分类准确率低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于SFM-DCNN的层次特征文本分类方法和系统，解决了文本分类准确率低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种基于SFM-DCNN的层次特征文本分类方法，所述方法由计算机执行，包括以下步骤：

文本预处理获取待分类文本；

基于BERT模型获取所述待分类文本的语义特征句向量；

基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征；

通过深度卷积神经网络对所述多通道层次特征进行最大池化，得到最大特征；

基于softmax分类器对所述最大特征进行归一化处理，获取待分类文本的分类结果。

优选的，所述基于BERT模型获取待分类文本的语义特征句向量，包括：

对所述待分类文本进行编码；

对编码后的待分类文本进行深层语义编码，获取语义特征句向量。

优选的，所述基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征，包括：

基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取，得到深层语义特征；

基于多通道深度卷积神经网络的卷积循环块对所述深层语义特征进行强化，得到多通道层次特征。

优选的，所述获取最大特征，包括：

将多通道层次特征进行拼接，得到待分类文本的最终语义特征；

对所述最终语义特征进行最大池化，得到最大特征。

优选的，所述基于softmax分类器对所述最大特征进行归一化处理，包括：

经过softmax分类器进行归一化来预测文本类别标签

其计算公式如下：

其中：

表示预测的文本类别标签；

W⁰表示待分类文本的权重参数；

Q表示最大特征；

b⁰表示偏置项参数；

y表示由softmax得到每个类的估计概率。

优选的，所述对所述待分类文本进行编码，包括：

使用BERT模型中的WordPiece对待分类文本进行拆解，细分到语素级别，得到字符向量；

将字符嵌入后的待分类文本中的当前词所在位置映射成一个低维稠密的位置向量；

对当前词所在句子的序列编码，将一个句子拆分成多个句段，每个句子都对应一个分句特征向量；

将字符向量、位置向量和分句特征向量进行拼接，得到编码后待分类文本的向量表示。

优选的，在执行基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化，得到多通道层次特征步骤之前，所述方法还包括：

对深度卷积神经网络进行预激活，预激活的公式如下：

其中：

C_k表示深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出；

表示预激活后的深度卷积神经网络中每个双层卷积循环块的第一个卷积层输出；

BN表示标准化；

f表示relu激活函数。

本发明还提供一种基于SFM-DCNN的层次特征文本分类系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

获取待分类文本；

基于BERT模型获取所述待分类文本的语义特征句向量；

对所述待分类文本进行编码；

基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化，得到多通道层次特征。

(三)有益效果

本发明提供了一种基于SFM-DCNN的层次特征文本分类方法和系统。与现有技术相比，具备以下有益效果：

本发明通过获取待分类文本；基于BERT模型获取待分类文本的语义特征句向量；基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征；通过深度卷积神经网络对所述多通道层次特征进行最大池化，得到最大特征；基于softmax分类器对所述最大特征进行归一化处理，获取待分类文本的分类结果。本发明在特征选择阶段，使用语义特征句向量来表示待分类文本，语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息，并将获取的信息进行强化，能够捕获高级的全局语义信息，从而能够有效的提高文本分类的准确率；在特征获取阶段，采用多通道层次特征，能够在获得关键特征的同时进行多层次特征获取，对特征起到强化作用，有效减少了特征的丢失，从而进一步提高文本分类的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于SFM-DCNN的层次特征文本分类方法的框图；

图2为验证本发明实施例有效性的过程中的各个模型的收敛速度的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于SFM-DCNN(Sentence-level Feature-basedMulti-channel Deep ConvolutionNeuralNetworks句子级特征的多通道深度卷积神经网络)的层次特征文本分类方法，解决了现有技术中文本分类准确率低的技术问题，实现准确的对待分类文本进行分类。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例在特征选择阶段，使用语义特征句向量来表示待分类文本，语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息，并将获取的信息进行强化，能够捕获高级的全局语义信息，从而能够有效的提高文本分类的准确率。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于SFM-DCNN的层次特征文本分类方法，如图1所示，上述方法由计算机执行，包括步骤S1～S5：

S1、获取待分类文本；

S2、基于BERT模型获取待分类文本的语义特征句向量；

S3、基于深度卷积神经网络获取语义特征句向量的多通道层次特征；

S4、通过深度卷积神经网络对多通道层次特征进行最大池化，得到最大特征；

S5、基于softmax分类器对所述最大特征进行归一化处理，获取待分类文本的分类结果。

本发明实施例在特征选择阶段，使用语义特征句向量来表示待分类文本，语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息，并将获取的信息进行强化，能够捕获高级的全局语义信息，从而能够有效的提高文本分类的准确率；在特征获取阶段，采用多通道层次特征，能够在获得关键特征的同时进行多层次特征获取，对特征起到强化作用，有效减少了特征的丢失，从而进一步提高文本分类的准确率。

下面对各个步骤进行详细描述：

在步骤S1中，获取待分类文本。具体为：

通过网络爬虫技术、人工录入等方式获取待分类文本，待分类文本包括专利文本和投诉文本。

在步骤S2中，基于BERT模型获取待分类文本的语义特征句向量。

具体为：

需要说明的是，在具体实施过程中，在通过BERT模型获取待分类文本的语义特征句向量前，需要对待分类文本进行预处理，去除待分类文本中的噪声。

S201、对所述待分类文本进行编码。具体实施过程如下：

对待分类文本进行编码f_i(_sentT)，编码过程包括：字符嵌入I₁、位置嵌入I₂、分句嵌入I₃，具体见公式(1)。

字符嵌入是指使用BERT模型中的WordPiece对待分类文本进行前缀后缀等语言学设计拆解开，细分到语素级别，得到字符向量。

位置编码是指将字符嵌入后的待分类文本中的当前词所在位置映射成一个低维稠密的位置向量。

分句嵌入是指对当前词所在句子的序列编码，将一个句子拆分成多个句段，每个句段都对应一个分句特征向量，能够学习到属于不同Segment的信息和多个句段间语义关系的任务。将三种向量表示进行拼接后获得输入表示t，如公式(2)，其中，i∈{1,2,3}。

I_i＝f_i(_sentT) (1)

(t₁,t₂,t₃...t_m)＝concat(I₁,I₂,I₃) (2)

S202、对编码后的待分类文本进行深层语义编码，获取语义特征句向量。具体实施过程如下：

通过BERT模型中的12个子编码层对编码后的待分类文本进行深层语义编码，得到语义特征句向量V_senT∈R^1×768，见公式(3)，其中T∈(1，L)，L是为待分类文本中的句子总数。Vsent T充分地利用词语上下文之间的信息，更好地对词进行分布式表示，有效捕获了词语之间的依赖关系，对于句间的转折、顺承、递进、否定、因果等更加复杂的语义关系能够进行很好的表达。

V_sentT＝f_ecoder(12)(t₁,t₂,t₃...t_m) (3)

在步骤S3中，基于深度卷积神经网络获取语义特征句向量的多通道层次特征。具体为：

S301、基于深度卷积神经网络的卷积循环块对所述语义特征句向量进行特征提取，得到深层语义特征。具体实施过程如下：

深度卷积神经网络的卷积循环块主要是由多个双层卷积和池化构成，使用K个循环块从不同层面来捕获深层语义特征。在具体实施过程中，令Mⁿ为卷积运算的N-gram滤波器，n∈{1,3,5}，当k＝1时，Mⁿ作用于句子特征图V_sent(即语义特征句向量Vsent T)中；当k大于1时，Mⁿ用于句子特征图p_k(n)中，每个窗口产生一个新特征Ci。采用Relu作为激活函数，f＝max(0,x)。为了防止本发明实施例中的深度卷积神经网络过拟合，在卷积权重层添加了正则项l₁，在偏置向量上也添加正则项l₂。在单层卷积操作中，每个句子特征图的卷积操作见公式(4)(5)。

C_k＝[c₁,c₂,c₃,c₄,...,c_α] (5)

其中：b表示偏置项；i∈[0,l+n-1]；·表示元素点乘；f表示非线性激活函数；d为特征图的维度；k＝1,2...7；l₁与l₂值相等，l₁＝l₂＝1e-5；每次卷积操作中共α个大小为n的滤波器，α＝64。

在本发明实施例中，采用的是双层卷积操作，双层卷积操作提高了词向量表示的丰富性，双层卷积操作要在单层卷积操作的基础上，进行两次卷积操作获得f(V_sentT)_k来作为一个循环块，k＝1,2...7。为了避免循环块之间多次进行维度匹配，采用了等长卷积，卷积操作中，会对特征图两端进行补零，保持卷积前后特征图的大小不变。

S301、基于深度卷积神经网络的卷积循环块对深层语义特征进行强化，得到多通道层次特征。具体实施过程如下：

在本发明实施例中，由于使用了深度卷积神经网络来进行深层语义特征的获取，为了简化深度卷积神经网络深度的训练，加快深度卷积神经网络的训练速度，对深度卷积神经网络采取了预激活的优化策略。每个双层卷积循环块的第一个卷积层输出C_k，需要进行预激活计算。将激活ReLU和BN规范化层移到权值层之前，形成一种“预激活”的方式，这种线性加权简化了网络深度的训练。与“后激活”相比，预激活得到的残差单元泛化性能更好。预激活的计算见(6)。其中，BN表示标准化，f代表relu激活函数。

在深度卷积神经网络初始化时，赋予各层的初始化权重值很小，这会使得深度卷积神经网络在最开始网络层中，输入值过小，深度卷积神经网络启动困难。同时，深度卷积神经网络中使用多个卷积循环块，随着网络的加深，训练时极易发生梯度爆炸。针对以上的问题，为了使得深度网络训练成为可能，在卷积层与池化层之间添加残差连接，对每个循环块中双层卷积的输入和输出f(V_sentT)_k实现恒等映射。其中，首层卷积层的输入为V_sentT，其余双层卷积的输入为p_k(n)，

为该循环块中多个滤波器提取的特征总称，

计算如(7)所示。

通过卷积循环块对深层语义特征进行强化，得到多通道层次特征

在本发明实施例中，将

进行最大池化操作，在降低维度的同时获取主要特征P，有效减少了模型的计算量，为了防止深度卷积神经网络过拟合，提升深度卷积神经网络的畸变容忍能力，在池化过程中，采用步长为2的策略。池化操作，如公式(8)。

将最大池化与双层卷积相结合，作为一个卷积特征循环块，有效捕获文本的长距离依赖关系。在本发明实施例中，深度卷积神经网络共包含7个特征块，包括14个卷积层等。减少模型的复杂度，避免了每个循环块之间的维度匹配，每个特征循环块都固定了特征图(特征图就是在卷积操作或者池化操作之后所得到的特征)的维度为d维。

在步骤S4中，通过深度卷积神经网络对所述多通道层次特征进行最大池化，得到最大特征。具体为：

S401、将多通道层次特征进行拼接，得到待分类文本的最终语义特征。具体实施过程如下：

语义特征句向量经过最后一个循环块的卷积操作后获得多通道层次特征

获得在将不同通道获得的Z值进行特征拼接，得到3d维特征q作为待分类文本的最终语义特征，如公式(9)。

S402、对所述最终语义特征进行最大池化，得到最大特征。

进行特征融合后，需要将获得的3d维的q值，进行步长为2的最大池化操作，进一步获取最大特征，如公式(10)。

Q＝max(q) (10)

在步骤S5中，基于softmax分类器对所述最大特征进行归一化处理，获取待分类文本的分类结果。具体为：

将最大特征Q经过softmax分类器进行归一化来预测文本标签

如公式(11)所示，其中，y∈R^m为由softmax得到每个类的估计概概率。

其中：

表示预测文本类别标签；w⁰表示待分类文本的权重参数；Q表示最大特征；b⁰表示偏置项参数；y表示由softmax得到每个类的估计概率。

在本发明实施例中，通过损失函数来计算真实值和预测值之间的误差，如果真实值与测试值之间的误差越小，那么损失值也就越小，说明效果越好。卷积神经网络目标代价函数为交叉熵损失函数，如公式(12)。

其中，s∈R^m是文档的真实标签，m表示目标分类的个数，λ是l₂正则化超参数，取值为1e-5。

为了验证本发明实施例的有效性，将不同的文本分类方法分别通过Glove词向量和Bert句向量训练，各个方法的Accuracy值见表1。从表1实验结果可知，词级别的特征嵌入的效果不如句子级别的特征嵌入。对于TextCNN而言，在四种数据集中，句子级别的特征嵌入与普通的词嵌入相比，准确率提高了将近5％。而对其他模型而言，句子级别的嵌入也有了不同程度的提升。其中，本发明实施的方法(SFM-DCNN)在四种数据集中，实验的准确率均达到最佳。经过实验结果分析，可知Glove词向量与Bert句向量相比，Glove词向量嵌入虽然可以获取一部分语义特征，但获取的语义特征还不够全面，对于词语间的依赖关系及位置等特征不能够有效识别。因此，采用Bert句向量嵌入的方式可以有效解决词嵌入在文本分类中的不足。

表1

在三个数据集上，本发明实施例的方法与TextCNN、RCNN、BiGRU模型相比，在四个评价指标上，本发明实施例的方法分类效果最好，准确率达到最高，其他指标也达到了最优的效果。从表2中可知，在三种数据集中，与其他方法相比，的P值最高，模型的误判率低，F1值也达到最高，本发明实施例的方法(SFM-DCNN)的综合效果也比较理想。

表2

为了验证本发明实施例的方法收敛速度，将TextCNN与本发明实施例的方法(SFM-DCNN)来进行对比实验，实验结果如图2所示。通过实践发现，随着迭代次数的增加，模型的损失值都在不断的减小，使用了Bert进行词向量训练的方法，在每次迭代的过程中比Glove收敛速度快很多，能够在较少的迭代次数中实现较快收敛，达到较高的分类准确率。这有效地说明了Bert句向量模型学习能力十分高效，能够在较短的时间内学到大量的信息。而这能够有效地改善文本分类任务中，学习效率低，分类性能差的问题。

本发明实施例还提供一种基于SFM-DCNN的层次特征文本分类方法系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

S1、获取待分类文本；

S2、基于BERT模型获取待分类文本的语义特征句向量；

可理解的是，本发明实施例提供的上述基于SFM-DCNN的层次特征文本分类方法系统与上述基于SFM-DCNN的层次特征文本分类方法方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于句子特征的文本分类方法方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例在特征选择阶段，使用语义特征句向量来表示待分类文本，语义特征句向量能够高效捕获上下文语义联系、空间信息和位置信息等多种语义信息，并将获取的信息进行强化，能够捕获高级的全局语义信息，从而能够有效的提高文本分类的准确率。

2、本发明实施例在特征获取阶段，采用多通道层次特征，能够在获得关键特征的同时进行多层次特征获取，对特征起到强化作用，有效减少了特征的丢失，从而进一步提高文本分类的准确率。

3、本发明实施例在深度卷积神经网络中，为了防止深度卷积神经网络梯度爆炸，在权重层间使用预激活残差连接策略，来有效支持深度卷积神经网络的训练，加快深度卷积神经网络的训练速度。

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述方法由计算机执行，包括以下步骤：

文本预处理获取待分类文本；

基于BERT模型获取所述待分类文本的语义特征句向量；

2.如权利要求1所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述基于BERT模型获取待分类文本的语义特征句向量，包括：

对所述待分类文本进行编码；

3.如权利要求1所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征，包括：

4.如权利要求1所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述获取最大特征，包括：

对所述最终语义特征进行最大池化，得到最大特征。

5.如权利要求1～4任一项所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述基于softmax分类器对所述最大特征进行归一化处理，包括：

经过softmax分类器进行归一化来预测文本类别标签

其计算公式如下：

其中：

表示预测的文本类别标签；

W⁰表示待分类文本的权重参数；

Q表示最大特征；

b⁰表示偏置项参数；

y表示由softmax得到每个类的估计概率。

6.如权利要求2所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，所述对所述待分类文本进行编码，包括：

7.如权利要求3所述的基于SFM-DCNN的层次特征文本分类方法，其特征在于，在执行基于深度卷积神经网络的卷积循环块对所述深层语义特征进行强化，得到多通道层次特征步骤之前，所述方法还包括：

对深度卷积神经网络进行预激活，预激活的公式如下：

其中：

BN表示标准化；

f表示relu激活函数。

8.一种基于SFM-DCNN的层次特征文本分类系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

获取待分类文本；

基于BERT模型获取所述待分类文本的语义特征句向量；

9.如权利要求8所述的基于SFM-DCNN的层次特征文本分类系统，其特征在于，所述基于BERT模型获取待分类文本的语义特征句向量，包括：

对所述待分类文本进行输入编码；

对编码后的数据进行深层语义编码，获取语义特征句向量。

10.如权利要求8所述的基于SFM-DCNN的层次特征文本分类系统，其特征在于，所述基于深度卷积神经网络获取所述语义特征句向量的多通道层次特征，包括：