CN116595166A

CN116595166A - 一种结合特征改进及扩展的双通道短文本分类方法及系统

Info

Publication number: CN116595166A
Application number: CN202310257925.3A
Authority: CN
Inventors: 熊仕勇; 易俊杰; 周渝拢; 陈阔; 叶晓静; 杜伟奇; 王江涛
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-08-15

Abstract

本发明请求保护一种结合特征改进及扩展的双通道短文本分类方法及系统，包括：首先对获取到的短文本数据进行文本预处理操作，预处理操作中主要包括对数据进行数据清洗、文本分词、去停用词和文本向量化；随后对获取后的短文本特征进行特征改进和扩展操作，特征改进主要是结合词性对原本的词特征进行增强，特征扩展操作主要是结合改进的IF‑IDF关键特征挖掘算法对文本特征进行扩展；最后使用深度学习中的CNN和BiGRU构建的双通道网络模型对短文本进行分类训练。本文发明的短文本分类方法针对短文本特征稀疏、语义模糊的问题，对特征本身进行了改进和扩展增强了文本语义表达，并进一步使用双通道的网络模型加强对文本特征的提取，增强短文本的分类效果。

Description

一种结合特征改进及扩展的双通道短文本分类方法及系统

技术领域

本发明属于自然语言处理领域，具体属于一种短文本分类的方法。

背景技术

文本分类技术在许多领域应用十分广泛，比如：垃圾过滤、新闻分类、自动问答和词性标注等。这些领域如果仅仅靠人为进行数据分类或者通过人为设计规则进行匹配过滤，那无疑工作量是巨大的，因此对于拥有大量数据和流量的门户网站来说，文本自动分类功能显得十分必要。然而，文本数据本身也是丰富多样的，国内产生的大量文本数据主要以中文为主，出现的数据中存在大量的中文短文本数据，短文本不如长文本的文本数据丰富词汇量少，在文本处理过程中容易出现语义模糊，信息缺失等问题，在此背景下这方面的研究应运而生。

在文本分类发展过程中，主要依托两种方法，第一种是根据知识工程的方法，第二种是根据机器学习的方法。文本的初始分类主要根据知识工程的方法，专家学者根据自己的经验来指定文本分类的匹配规则，根据规则来对文本的类型进行判定，这种方法费时费力并且适用范围非常狭小，不符合人们生产生活的需求。在上世纪60年代以来，机器学习的方法慢慢变成了主流，与知识工程的方法相比，它不需要的人工来指定特有的匹配规则，而是根据概率学的知识设计一套算法，根据给定的语料库训练出算法参数来让机器达到文本自动分类的效果，这样的方法不仅省去大量的人力物力，而且能够达到的匹配精确度更高，泛化性也更强。在机器学习的发展过程中，主要是从浅层学习到深度学习的模型，在2010年之前主要是浅层学习模型占据主导，浅层模型基本上只含有一层隐藏层节点，结构简单易于训练。常用的浅层的学习模型有朴素贝叶斯(NB)、支持向量机(SVM)和K近邻(KNN)等，这些模型不管在理论上还是应用上都取得较大的成功。

随着数据量的增长、算法的创新和运算性能的提升，深度学习逐渐走入了人们的视野，自从2006年Hinton和他的学生提出了两篇对于深度学习算法改进的论文，尤其是使用了预训练方法缓解局部的最优解问题，进而拉开了深度学习在学术届和工业界发展的浪潮。深度学习模型结构相较于浅层模型隐层大大增加，明确了特征学习的重要性，并且可以逐层进行特征空间的转换，这可以使得分类或者预测任务变得更加容易，尤其是在大量数据的情况下。深度学习网络大致能够分为三类，即多层感知器模型、深度神经网络模型和循环神经网络模型，代表模型有深度信念网络(DBN)、卷积神经网络(CNN)和循环神经网络(RNN)。除此之外，也有一些相关的改进模型，像长短期记忆网络(LSTM)以及门控循环单元网络(GRU)等。根据这些深度学习模型，深度学习的方法开始应用于文本分类问题，在这之中Kim等人首次使用CNN来处理文本分类问题，主要思想是借助不同窗口大小的卷积核得到文本的局部特征，然后借助池化操作突出主要信息，随后将输出数据输入全连接层做分类训练。Liu等人针对文本多分类任务，提出了基于RNN的多任务训练和多任务共享分类模型，以此探索不同任务之间的共享信息，以提高分类效果。但是，在短文本的分类问题中使用单一的神经网络结构难以对短文本的特征进行更好的提取，因为短文本不如长文本的文本数据丰富词汇量少，在文本处理过程中容易出现语义模糊，信息缺失等问题。

在上述内容可知，当前在解决文本分类的问题上主要使用的是深度学习方面的技术，但是在短文本数据的分类问题上，常规的深度学习网络难以取得理想的效果。针对短文本分类的问题，本发明在深度学习现有的技术上使用了一种基于CNN和BiGRU的双通道短文本分类模型，两种模型都会对短文本的输入特征进行提取，在此之后又会在两种特征提取网络后面加上一层注意力层，基于注意力机制对两种网络提取的特征进行进一步的优化，以此来加强模型对于文本特征的表达，以此来提高短文本分类效果。

CN109670041A，一种基于双通道文本卷积神经网络的带噪非法短文本识别方法。包括带噪短文本的预处理、双通道文本卷积神经网络模型的构建，以及模型的训练和实时识别。带噪短文本的预处理用于噪声字符的标准化，消除噪声的影响，提高卷积神经网络模型的学习能力。双通道文本卷积神经网络模型是一个可以同时输入预处理后字符序列和拼音序列的文本卷积神经网络模型。由于增加了拼音序列的输入和建模能力，因此该模型可消除同音字符替换对分类性能影响。本发明能够处理同音字符替换、形状相似的英文字符替换、各种语义相同的数字符号替换等带来的影响，实验结果显示本发明方法对带噪声的非法短文本的识别具有较高的识别准确率和较低的误检率。

公开号为CN109670041A的发明利用带噪短文本的预处理用于噪声字符的标准化，消除噪声的影响，提高双通道卷积神经网络模型的学习能力。尽管都是基于双通道网络的分类方法，但是本发明和公开号为CN109670041A的发明不同于以下几点：

(1)特征的处理：公开号为CN109670041A的发明在特征的处理上使用了噪声数据的处理方式对文本数据进行处理，但是泛化性不强。同时，使用了拼音向量表示对文本特征进行增强，但是拼音序列所能表达的语义较弱，因为同音字过多，所得拼音向量信息薄弱。而本发明针对短文本特征稀疏和语义薄弱的特点对文本数据进行了特征改进和特征扩展操作，增强了文本语义的表达，可以提高文本的分类精度，并且泛化性较高。

(2)双通道训练网络：公开号为CN109670041A的发明使用的是双通道的CNN网络，网络类型比较单一，无法对文本特征进行有效的提取。

而本发明中使用的是基于CNN和BiGRU网络的双通道模型，充分结合了CNN和BiGRU网络的优势对文本特征进行提取，特征提取效果更好。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种结合特征改进及扩展的双通道短文本分类方法。本发明的技术方案如下：

一种结合特征改进及扩展的双通道短文本分类方法，其包括以下步骤：

步骤1、对获取到的短文本数据进行预处理，预处理操作包括对文本数据的清洗、文本分词及词性标注和去停用词操作，获取最终的文本特征；

步骤2、对获取到的文本特征数据进行特征改进操作，即将文本中的每个文本词特征和词对应的词性特征进行结合；

步骤3、对改进过后的文本特征进行向量化操作，目的是将文本字符转化为计算机可以识别的数值向量；

步骤4、对短文本特征进行特征扩展操作，即采用集合特征挖掘算法来进行特征扩展；

步骤5、使用深度学习的方法构建短文本分类使用的双通道模型，两种通道模型分别为CNN和BiGRU模型，通过双通道并行的方式各自对输入的数据进行特征提取，最后通过全连接层输出预测类别。

进一步的，所述步骤1文本预处理的步骤为：

步骤一：使用正则表达式在内的字符串过滤和匹配技术，将文本数据中的无效列、无效表情符号、无效数字、无效英文字母、空格和标点在内的无效字符进行去除；

步骤二：使用中科大分词系统NLPIR对文本进行分词和词性标注操作；

步骤三：对文本分词过后获取到的词汇进行去停用词的操作。

进一步的，所述步骤2对获取到的文本特征数据进行特征改进操作，即将文本中的每个文本词特征和词对应的词性特征进行结合，具体包括：

将文本分词获取的词特征和词特征对应的词性特征进行拼接组合，形成一个词和词性特征的融合特征对，词性特征的加入用于解决文本词特征中的一词多义问题，细化文本的粒度，提高文本特征对于文本语义表达。

进一步的，所述步骤3对改进过后的文本特征进行向量化操作，具体为：

使用词嵌入模型Word2vec中的Skip-gram模式进行文本改进特征的向量化训练，将预处理和特征改进过后的文本数据集输入Skip-gram模型进行训练，以此获取每个对应文本改进特征的数值向量。

进一步的，所述步骤4、对短文本特征进行特征扩展操作，即采用集合特征挖掘算法来进行特征扩展，具体步骤为：

步骤一：使用改进IF-IDF算法抓取出文本数据改进特征集合中的类别关键特征。改进算法对主要对IF词频和IDF逆文档频率的计算方式做了调整，让其能对文本类别关键特征进行提取。

步骤二：设置文本的最大序列长度MaxLen和特征扩展窗口n；

步骤三：对每个文本序列长度进行判断，如果文本序列长度小于MaxLen，便对文本特征进行遍历操作，如果包含类别关键特征，就将类别关键特征对应的前n个余弦相似特征扩展到该关键特征之后。

进一步的，所述改进的IF-IDF算法表达式为：

w＝IF×IDF＝(n_i,j/d_j)×(log(1+p_i/p'_i))，其中IF表示词频，IDF表示逆文档序，n_i,j表示在所在类别文档集合中的数量，对应的分母d_j是类别文档集合的总词数，p_i代表当前词在当前类别文档集合中的频率大小，p'_i代表除当前类别集合之外，其它文档集合中当前词的频率大小。

进一步的，所述步骤5的双通道网络结构主要包含四层结构：

第一层是特征输入层，输入的数据为文本改进特征向量化数值替换之后所形成的向量化矩阵，矩阵特征向量的数量与最大序列长度MaxLen相同；

第二层是双通道学习层，这一层使用深度学习的CNN和BiGRU模型，CNN模型主要是通过卷积操作的方式提取文本特征矩阵的信息，BiGRU模型通过记录时序信息来进行对特征的提取；

第三层是特征融合层，特征融合层会将CNN和BiGRU模型提取出的特征进行拼接融合操作；

第四层是全连接层，将第三层特征融合层中的拼接数据输入，做最后的分类训练，输出所预测的文本类别。

一种基于任一项所述方法的分类系统，其包括：

预处理模块：用于对获取到的短文本数据进行预处理，预处理操作包括对文本数据的清洗、文本分词及词性标注和去停用词操作，获取最终的文本特征；

特征改进模块：用于对获取到的文本特征数据进行特征改进操作，即将文本中的每个文本词特征和词对应的词性特征进行结合；

特征向量化模块：用于对改进过后的文本特征进行向量化操作，目的是将文本字符转化为计算机可以识别的数值向量；

特征扩展模块：用于对短文本特征进行特征扩展操作，即采用集合特征挖掘算法来进行特征扩展；

预测模块：用于使用深度学习的方法构建短文本分类使用的双通道模型，两种通道模型分别为CNN和BiGRU模型，通过双通道并行的方式各自对输入的数据进行特征提取，最后通过全连接层输出预测类别。

本发明的优点及有益效果如下：

本发明在特征改进方面，对文本中每个词汇加入了词性特征，用于细化粒度，增强语义表达。在特征扩展方面使用了关键特征提取算法，让这些关键特征和其余弦相似度较大的相似词汇来作为特征的扩展素材。实验证明，这两种方法不管是单独使用还是结合使用时，都让文本分类效果有所提升。在文本分类模型上，本章采取了一种双通道的特征提取方法，弥补了单通道特征提取的不足，对特征的局部信息和上下文信息都能做到很好的表达。最终的实验验证表明，这种模型能在很大程度上将分类效果最大化，在短文本分类的问题是能表现出更好的效果。

发明效益：现在国内互联网产生的数据中存在大量的中文短文本数据，许多的互联网公司和学者都希望在现有技术的基础上找到一种能够有效的方法来改进短文本文本分类精度低下的问题，以此来提高对人民大众的服务水平。

正是基于这样的互联网环境，本课题的研究与实际互联网项目接轨，对于重庆市铜梁区综合事件管理系统有着重要意义。系统中需要对区县中上报的短文本数据进行自动的分类和打标，在老的系统当中需要依靠人工对事件的类别进行分类操作和打标操作，本课题的工作致力于将工作人员从繁琐的工作中解放，并同时提高事件标注的正确率。

附图说明

图1是本发明提供优选实施例改进过后的特征示例。

图2本发明类别关键特征示例。

图3短文本特征扩展流程图。

图4双通道分类架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

短文本数据在经过数据清洗、文本分词、词性标注和去停用词过后便会得到文本的词特征以及每个词所对应的词性特征，在特征改进的操作中便是将文本的词特征和对应的词性特征进行拼接，形成语义表达能力更强的文本改进特征，特征的表现形式如图1中所示，为两个特征拼接的特征对。

在获取文本的改进特征之后，使用改进过后的IF-IDF算法对每个类别当中的类别关键特征进行抓取操作，过后便会获取到每个类别对应的关键特征集合，类别关键特征集合如图2中所示。

获取到类别关键特征之后，需要进行的便是对文本特征的扩展操作，特征扩展的流程如图3所示，具体步骤如下：

步骤一：经过文本数据预处理，获取融合词性的改进特征集，同时使用改进的IF-IDF算法获取文本集合中每个类别的关键特征集。

步骤二：设置文本的最大序列长度MaxLen和特征扩展窗口n，将其作为特征扩展操作的判断阈值。

步骤三：判断每一个文本中的特征数量是否小于最大序列长度MaxLen。

步骤四：如果文本长度小于MaxLen，便会判断文本当中的特征是否包含文本所在类别的关键特征，如果包含便会在此特征后面扩展n个关键特征的余弦相似特征，进行特征扩展，否则不做操作。

步骤五：特征扩展过后，便将扩展特征对应的特征向量插入到文本的特征向量矩阵当中，如果特征数量依然小于最大序列长度MaxLen，便会进行补齐操作。

在获取到每个文本对应的特征向量矩阵之后，便会构建分类模型对文本惊醒分类训练，在本专利当中所使用分类模型是一种使用深度学习方法的双通道模型，模型的结构如图4所示，主要包含四层结构：

第一层是输入层，输入层中的数据是每个文本对应的特征向量矩阵，特征采取的是融入词性表达的文本改进特征。每个文本对应的是一个列数为特征向量维度，行数为最大序列长度MaxLen的文本特征向量矩阵。

第二层是双通道学习层，双通道学习层主要包含CNN网络层和BiGRU网络层，这两种网络会并行进行输入数据的特征提取训练，它们输出的数据会在特征融合层进行拼接融合，然后作为全连接层的输入数据。

其中，CNN网络层是一种适用于文本分类的CNN网络结构，卷积操作使用的是一维卷积方式，主要涵盖输入层、卷积层和池化层，最终池化层输出的数据将作为融合层数据拼接中的一部分，CNN在进行卷积操作的时候为了增强特征抓取效果采用的是窗口大小为3、4和5的卷积核，这样可以筛选出更有效的特征。每个卷积核在卷积计算过后都会得到对应的一个输出序列，再将每个卷积核得到的输出序列进行最大池化操作，随后再进行拼接，便会得到整个CNN网络最后的输出序列。

对于另一种双向的BiGRU网络层，它使用网络单元是一种RNN的改进结构GRU，可以在很大程度上缓解梯度消失和爆炸的问题，GRU在进行训练的时候使用的都是文本正向的序列数据，为了增强网络训练效果可以利用上文本的反向序列数据。这里为了将两个方向的序列数据信息都用上，便采取双向循环神经网络结构，这种网络结构最大的特点就是它除了可以从过去的时间序列获取数据信息，也可以从未来的时间序列获取数据，可以将两个方向上的文本序列数据都用上，为了一步精简特征，也会进行最大池化操作。

CNN在短文本数据的特征提取中对局部信息的提取效果比较好，局部权值共享，平移不变性可以更好提取特征以及处理高维数据，但是对文本中上下文信息的存在不敏感。BiGRU与CNN刚好相反，BiGRU能够灵敏地捕获文本特征中的上下文信息，但是对文本局部信息提取能力较差。两种网络结合可以更好的对短文本的特征进行提取。

第四层是特征融合层，特征融合层的操作是对CNN和BiGRU网络层池化过后的两个输出序列进行拼接操作，融合两种网络的提取出的最后特征。

第五层是全连接层，全连接网络层位于模型结构的最后一层，输入的是融合层输出的拼接数据。在全连接层的输出层之前添加了Dropout层，采用Dropout机制随机将一定比例的节点从网络中丢弃，减少网络的复杂度，防止过拟合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述步骤1文本预处理的步骤为：

3.根据权利要求1所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述步骤2对获取到的文本特征数据进行特征改进操作，即将文本中的每个文本词特征和词对应的词性特征进行结合，具体包括：

4.根据权利要求1所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述步骤3对改进过后的文本特征进行向量化操作，具体为：

5.根据权利要求1所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述步骤4、对短文本特征进行特征扩展操作，即采用集合特征挖掘算法来进行特征扩展，具体步骤为：

步骤一：使用改进IF-IDF算法抓取出文本数据改进特征集合中的类别关键特征；改进算法主要对IF词频和IDF逆文档频率的计算方式做了调整，让其能对文本类别关键特征进行提取；

步骤二：设置文本的最大序列长度MaxLen和特征扩展窗口n；

6.根据权利要求5所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述改进的IF-IDF算法表达式为:

7.根据权利要求6所述的一种结合特征改进及扩展的双通道短文本分类方法，其特征在于，所述步骤5的双通道网络结构主要包含四层结构：

8.一种基于权利要求1-7任一项所述方法的分类系统，其特征在于，包括：