CN116881451A

CN116881451A - 基于机器学习的文本分类方法

Info

Publication number: CN116881451A
Application number: CN202310775548.2A
Authority: CN
Inventors: 董亦洋; 阮建山; 张军; 许敏
Original assignee: HUADI COMPUTER GROUP CO Ltd
Current assignee: HUADI COMPUTER GROUP CO Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-13

Abstract

本发明公开了一种基于机器学习的文本分类方法，包括：对文本进行常规特征提取，得到常规特征R_nor；对文本进行深度特征提取，得到深度特征R_dee；对所述常规特征和所述深度特征根据下式进行特征融合；R_fea＝R_nor+R_dee，其中，R_fea为融合后的特征；将特征融合后的文本作为分类训练样本；利用所述分类训练样本训练分类器；利用训练好的分类器进行文本分类。本发明能够提高文本分类精度。

Description

基于机器学习的文本分类方法

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种基于机器学习的文本分类方法。

背景技术

在政务智能化应用领域，传统政务平台效率低下、数据资源闲置浪费等缺点逐渐显露出来。应现代化社会发展的需要，推行电子政务已经成为海内外政府的共同战略选择。作为电子政务信息传递的重要呈现形式，文本是承载政务信息的主要载体，在政府服务平台的组成部分(如数据库、文件系统、信息管理系统、政策法规发布系统等)中扮演着重要的角色。面对这些复杂差异化的历史文本记录，如何有效挖掘文本特征构建精准的政务服务平台成为各机构面临的重要研究课题。对繁杂的电子政务文本数据施行高效分类无疑成为推动政府科学决策、精准决策的最佳手段。

现有技术中，对电子政务文本分类的方法众多，但分类的精度有待进一步提升。同时，一些采用深度神经网络的算法对电子政务文本分类时，利用误差反向传播算法优化神经网络的参数时，容易产生梯度消失和梯度爆炸现象，同时也容易在参数寻优时，陷入局部最优解的现象。

因此，研究基于机器学习的电子政务文本分类方法对电子政务的推行与升级具有重要意义。

发明内容

本发明的目的是提出一种基于机器学习的文本分类方法，能够提高文本分类精度。

基于上述目的，本发明提供了一种基于机器学习的文本分类方法，包括：

对文本进行常规特征提取，得到常规特征R_nor；

对文本进行深度特征提取，得到深度特征R_dee

对所述常规特征和所述深度特征根据下式进行特征融合；

R_fea＝R_nor+R_dee

其中，R_fea为融合后的特征；

将特征融合后的文本作为分类训练样本；

利用所述分类训练样本训练分类器；

利用训练好的分类器进行文本分类。

可选方案中，对文本进行常规特征提取前还包括：对文本进行预处理，所述预处理包括：采用分词方法，对文本数据进行清洗去除对分类结果无影响的字词或符号。

可选方案中，所述常规特征提取的操作包括：统计词频、统计词频-逆词频、衡量互信息进行。

可选方案中，所述深度特征提取包括：基于搜索算子算法优化的神经网络模型对神经元的参数进行搜索，其中神经元的参数包括神经元的权重参数和神经元的阈值参数。

可选方案中，基于搜索算子算法优化的神经网络模型对神经元的参数进行搜索的过程如下式：

X_j＝X_i+Visual·Rand()

其中，X＝[x₁，x₂，x₃，…，x_n]为搜索算子的状态，n为搜索算子种群中搜索算子的数量；x_i为第i个搜索算子的状态；||X_j-X_i||为搜索算子i、j之间的距离；Visual为搜索算子的搜索半径；Step为搜索的步长；Rand()为0～1之间的随机数；

某一时刻，第i个搜索算子x_i在视野Visual内搜索到任意位置x_j，若x_j位置状态优于x_i位置，则向x_j位置方向前进一步，到达X_next位置。

可选方案中，在对所述神经网络模型优化之前还包括：

每个所述搜索算子从搜寻行为、聚群行为、追尾行为和随机行为中选择最优的执行，使搜索算子种群能够到达离最优解更近的位置。

可选方案中，将TF-IDF方法与互信息方法结合计算出的特征权重融入朴素贝叶斯算法中，以获得所述分类器。

可选方案中，贝叶斯算法的先验概率公式为：

其中c_k为一个预先定义的文本类别，n是训练样本总数，l是等式中类别总数，其中u(c_i，c_k)的计算方法如下：

如果类别c_i与类别c_k一致，则u(c_i，c_k)为1，否则为0。

可选方案中，融入特征权重后的贝叶斯算法的条件概率公式为：

其中，P(x_i|c_k，W_i)为条件概率，n为训练集文本总数，l为文本集中特征词个数，x_i是指训练样本的第i个特征值，x_ji是第j个训练样本的第i个特征值，c_k表示第k个训练数据的类别，W_i是改进后的特征权重计算方法所计算出的在特征项x_i对于类别c_j的特征权重，计算方法如下：

W_i＝TF*IDF*MI(x_i)

其中TF为特征项的词频，IDF为特征项的逆向文本频率，MI(x_i)是特征项的互信息量。

可选方案中，融入特征权重后的贝叶斯算法的后验概率公式为：

其中，n表示文本中的特征项数目，W_j表示等级因子特征权重，其计算方法如下：

其中，K为设定的阈值，Q代表特征x_i的特征权重。

本发明的有益效果在于：

对文本进行深度特征提取操作时，对神经网络的优化算法进行改进，基于搜索算子算法优化的神经网络模型对神经元的参数w_ne和b_ne进行优化。通过该方法能够提高特征提取的效果，同时避免了特征提取模型容易产生的梯度消失和梯度爆炸现象，此外，通过该改进措施，还能够避免神经网络算法模型在参数寻优时，陷入局部最优的情况。

利用文本训练数据训练分类器时，提出了一种改进的朴素贝叶斯分类器，通过将TF-IDF方法与互信息方法结合计算出的特征权重融入朴素贝叶斯分类方法的三个主要部分。

通过该改进方式，引入权重后会削弱朴素贝叶斯方法的特征独立性假设，将会对最终分类效果产生正面的提升，对文本分类精度的提升具有帮助作用。

本发明具有其它的特性和优点，这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的，或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述，这些附图和具体实施方式共同用于解释本发明的特定原理。

附图说明

通过结合附图对本发明示例性实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。

图1示出了根据本发明一实施例的基于机器学习的文本分类方法的流程图。

具体实施方式

下面将更详细地描述本发明。虽然本发明提供了优选的实施例，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

实施例1

本发明一实施例提供了一种基于机器学习的文本分类方法，包括：

对文本进行常规特征提取，得到常规特征R_nor；

对文本进行深度特征提取，得到深度特征R_dee

对所述常规特征和所述深度特征根据下式进行特征融合；

R_fea＝R_nor+R_dee

其中，R_fea为融合后的特征；

将特征融合后的文本作为分类训练样本；

利用所述分类训练样本训练分类器；

利用训练好的分类器进行文本分类。

具体地，参考图1，下面详细描述本方法。

步骤一：对电子政务文本进行预处理操作

对电子政务文本进行预处理是将电子政务文本转换为模型可理解形式的准备过程，对于海量文本数据，去除对分类结果无影响的字词或符号，会使文本内容更加简明清晰，避免在训练阶段浪费计算资源，使分类效果更为有效。对于不同国家的语言，文本预处理的手段具有或大或小的差异。在英文文本中，单词之间以空格分隔，易于提取；而在中文文本中，词汇短语之间无固有分隔标志，难以区分，因此采取分词技术如最大匹配法等，对原始文本数据进行清洗。

步骤二：对电子政务文本进行特征提取操作

本步骤对步骤一得到的数据进行特征提取操作，本实施例提出两种特征提取的方式，通过两种特征提取的方式进行特征提取后，将两种特征进行融合。

(1)对电子政务文本进行常规特征提取操作

对电子政务文本进行常规特征提取是对高维的文本数据进行降维，是模型训练阶段需要解决的首要问题，即如何选择高区分度的特征。本实施例提出对电子政务文本进行特征提取，采取的操作包括统计词频、统计词频-逆词频、衡量互信息。

其中，统计词频是选择文本主题中出现频率更高的特征词，根据文本中各词出现频率设定合理阅值，仅筛选出词频符合阅值标准的特征，有利于减少特征空间维度，便于计算和建模。统计词频-逆词频是为了提取出区分文本类别能力的特征，若一个词在特定语料库中在较小的范围内出现并具有较高的词频，则说明该词具有更强的区分文本类别的能力。衡量互信息是在文本分类问题中，互信息可用于度量特征对于类别的可鉴别性。若一个词在某类别中出现频率高，而在其余类别中出现频率低，则说明该词对特定类别的可鉴别性高，该词与对应类别间具有较高的互信息。

通过本步骤得到常规特征R_nor。

(2)对电子政务文本进行深度特征提取操作

此步骤进行电子政务文本的深度特征提取时，区别于传统的神经网络模型，本实施例在本步骤中对神经网络的优化算法进行改进，提出一种基于搜索算子算法优化的神经网络模型对神经元的参数w_ne和b_ne进行优化，其中w_ne指神经元的权重参数，b_ne指神经元的阈值参数。本步骤采用的神经网络层数为2层。

基于搜索算子算法优化的神经网络模型中的搜索算子算法对参数w_ne和b_ne的优化搜索方法如下：

首先，定义搜索算子，设置搜索条件。设置搜索算子种群中有n个搜索算子，搜索算子个体状态可以表示为X＝[x₁，x₂，x₃，…，x_n]，其中x_i为第i个搜索算子的状态，也就是参数寻优问题中的自由变量；目标函数用Y＝f(X)表示；搜索算子i、j之间的距离为d_ij＝||X_i-X_j||；搜索算子的搜索半径为Visual；搜索的步长为Step；拥挤度因子为δ。某一时刻第i个搜索算子x_i在视野Visual内搜索到任意位置x_j，若x_j位置状态优于x_i位置，则向x_j位置方向前进一步，即到达x_next位置；否则，继续搜索视野范围内的其他位置，此过程可表示为：

X_j＝X_i+Visual·Rand()

式中，Rand()为0～1之间的随机数。

在行动之前，每个搜索算子都会从搜寻行为、聚群行为、追尾行为和随机行为中选择最优的执行，使搜索算子种群能够到达离最优解更近的位置。

1)搜寻行为

假设第i个搜索算子的某一时刻状态为X_i，在其搜索范围内随机选择一个状态X_j，满足下式：

X_j＝X_i+Visual·Rand()

Y_i和Y_j分别表示X_i和X_j状态下的优先解密集度。如果Y_i＜Y_j，则这个搜索算子向该方向移动一步，即：

如果不满足前进条件，则重新在搜索范围内选择一个状态，判断是否满足移动的条件。反复选择设定的重复次数之后，如果仍然没有移动，则随机移动一步。

2)聚集行为

假设第i个搜索算子的某一时刻状态为X_i，在当前状态下搜索到其他搜索算子的数量为n，中心位置为X_c，判断依据为：

其中，δ为拥挤度因子，Y_c和Y_i分别表示中心位置和当前位置的优先解密集度。

如果上式成立，表示中心的优先解密集度较高且不拥挤，则向中心方向移动一步；如果不成立，则执行搜寻行为。

3)追尾行为

假设第i个搜索算子的某一时刻状态为X_i，在当前状态下搜索附近其他搜索算子，找到同伴中优先解密集度最大的Y_j，其位置为X_j，判断依据为

如果上式成立，表明其他搜索算子X_j处具有浓度较密集的优先解并且不太拥挤，则向该搜索算子X_j方向移动一步；如果不成立，则执行搜寻行为。

4)随机行为

该行为是搜寻行为的一个缺省行为，即在视野范围内随机选择一个位置向其移动，下一个状态的位置为

X_next＝X_i+Step·Rand()

通过上述方式，获取神经网络参数的最优解集。

通过本步骤神经网络模型得到深度特征R_dee。

(3)特征融合

对上述两种特征提取得到的特征进行特征融合，融合方式为向量拼接的方式，公式如下：

R_fea＝R_nor+R_dee

其中，R_fea为融合后的特征。

步骤三：获取电子政务训练样本

通过人工标记的方式，获取预定数量的电子政务分类训练样本。

步骤四：利用电子政务文本训练数据训练分类器

本步骤提出一种改进的朴素贝叶斯分类算法作为电子政务文本分类的分类器，本步骤输入到改进的朴素贝叶斯分类算法中的数据为步骤三融合后的训练样本数据R_fea。

朴素贝叶斯分类算法假设特征之间相互独立，以输入的训练文本库为基础，不断学习其中特征对应类别的概率分布情况，训练完成后，根据输入文本特征，选择最高后验概率作为其对应类别。

特征独立性假设是朴素贝叶斯算法的核心基础，朴素贝叶斯的朴素之处就在于假定特征间没有关联性，是相互独立的存在，但在实际生产应用中，这种情况是不存在的，之所以做出这样的假设是为了提高计算效率，降低计算难度。朴素贝叶斯同时也存在局限性，对于特征权重没有得到考虑，把所有特征当成了一样权重的特征，这明显会对分类的准确性造成影响。

本实施例就要从特征权重方面改进朴素贝叶斯算法，将上文改进后的特征权重计算方法融入到朴素贝叶斯分类模型中，以得到更加精确的分类效果。

本实施例将从贝叶斯公式的三个部分分别进行描述，分别是先验概率、后验概率和条件概率。

①先验概率

首先，设一组输入输出，输入为电子政务文本x具有n个特征项，其向量表示为X(x₁，x₂，…，x_n)，而输出为一组类别C＝(c₁，c₂，…，c_i)。

首先，先验概率通过如下式子进行计算：

即如果类别c_i与类别c_k一致，则u(c_i，c_k)为1，否则为0。

②条件概率

在条件概率部分，改进前的朴素贝叶斯分类器的条件概率计算公式如下所示：

其中，c_k表示第k个训练数据的类别，n_i是第i个特征的值，训练集文本中总数为n，x_zi代表第z训练数据的第i个特征值。

因此，在朴素贝叶斯分类器的条件概率计算中，每一个特征值的权重都被视为1，这对于最终分类必然会造成不好的影响。因为每一个特征项对于分类的影响大小是不一样的，所以在本实施例里将TF-IDF与互信息结合的特征权重结合到贝叶斯的条件概率计算当中，可以降低朴素贝叶斯的特征独立假设对于分类结果带来的负面影响。

这里，TF-IDF方法介绍如下：

TF-IDF方法是一种基于统计当前词在文本中频率来对于该词对于文本集的重要程度进行判断。该方法分为两个基本部分，其中TF代表词频，即当前词在文本中出现的频率，而IDF部分则表示逆向文本频率，即当前词在整个文本集中出现的频率。利用这种方法对文本中关键词查找的同时，可以去除常用词对于关键词提取的影响，大大提高了文本与关键词之间的关联性。

通常，TF表示一个词在一个文本中出现的次数，其计算方式一般为当前词在文本中出现的次数与文本中总词数的商。这种计算方式可以有效解决文本长度差异较大情况下的误差，因为一般来说同一个词语在较短文本中出现的次数一般会少于在较长文本中出现的次数。

其中，n_i，j代表该词在文本中出现的次数，∑_kn_k，j代表文档中的总词量。

IDF被称为逆向文档频率，一个词的IDF值越大，表示文本库中包含这个词的文本越少，换种说法，即代表这个词具有较强的区分度和代表性。

IDF＝log(文本集中文本总数/包含一个词的文本数+1)。

TF-IDF模型的最终结果由上述两个部分的乘积得出。因此，在该权重计算方法下，当前词在单个文本中出现的频率越高且在文本集中的频率越低的情况下权重越大。所以该模型可以找出重点词，去除常用词的干扰。公式如下：

TF-IDF＝TF*IDF

互信息介绍如下：

互信息是用来评估一个事件的出现对另一个事件出现的所贡献的信息量，是衡量随机变量之间相互依赖程度的度量。其公式如下：

互信息的特征提取方法的理论是建立在一个假设之上，即认为当前词如果在单一类别中出现频率较高的同时，在除此之外其他类别中出现的频率较低的情况下，代表当前词与该单一类别间互信息较大。当我们以互信息来衡量特征词与某类别之间的关联度时，特征词与之互信息最大的类别，即为该特征词应当属于的类别。互信息的值反映了特征词与各类别之间的相关程度，并且互信息的方法并不考虑词的频率，所以对于出现频率低但对于文本表示意义重大的特征词也有比较好的提取效果。

设电子政务文本数据集中，属于y类别的文本中，包含特征x的文本数为A，不包含特征x的文本数为B；不属于y类别的文本中，不包含特征x的文本数为C，整个文本集的文本总数量为D，那么，x与y之间的信息量如下式所示：

在处理多分类问题时，需要分别计算特征项x和各个类别间的互信息量，取最大值作为特征值x对于数据集的整体互信息量，公式如下：

MI(x)＝argmax(MI(x，y_i))

其中特征项x的互信息越大，则表示特征项的区分度越大，对于分类的效果越明显。

因此，改进后的条件概率公式如下：

其中，n为训练集文本总数，l为文本集中特征词个数，x_i是指训练样本的第i个特征值，x_ji是第j个训练样本的第i个特征值。W_i是改进后的特征权重计算方法所计算出的在特征项x_i对于类别c_i的特征权重，计算方法如下：

W_i＝TF*IDF*MI(x_i)

③后验概率

标准朴素贝叶斯的后验概率公式如下：

将特征权重融入的贝叶斯算法使用以下公式来分类x：

P(c_k)和P(x_i|c_k，W_j)的求解方法在上文中已经给出，n表示文本中的特征项数目，W_j表示等级因子特征权重，其计算方法如下：

其中K是一个设置好的阈值，而Q则代表特征x_i的特征权重。

以上即为将TF-IDF方法与互信息方法结合计算出的特征权重融入朴素贝叶斯分类方法的三个主要部分的具体改进方法，因此，引入权重后会削弱朴素贝叶斯方法的特征独立性假设，将会对最终分类效果产生正面的提升。

步骤五：利用训练好的分类器进行电子政务文本分类

利用步骤四训练好的模型，将新的电子政务文本实例进行分类，通过计算该实例属于每类的后验概率，将此实例分给后验概率最大的类别。

本实施例，对文本进行深度特征提取操作时，对神经网络的优化算法进行改进，基于搜索算子算法优化的神经网络模型对神经元的参数w_ne和b_ne进行优化。通过该方法能够提高特征提取的效果，同时避免了特征提取模型容易产生的梯度消失和梯度爆炸现象，此外，通过该改进措施，还能够避免神经网络算法模型在参数寻优时，陷入局部最优的情况。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims

1.一种基于机器学习的文本分类方法，其特征在于，包括：

对文本进行常规特征提取，得到常规特征R_nor；

对文本进行深度特征提取，得到深度特征R_dee

对所述常规特征和所述深度特征根据下式进行特征融合；

R_fea＝R_nor+R_dee

其中，R_fea为融合后的特征；

将特征融合后的文本作为分类训练样本；

利用所述分类训练样本训练分类器；

利用训练好的分类器进行文本分类。

2.根据权利要求1所述的基于机器学习的文本分类方法，其特征在于，对文本进行常规特征提取前还包括：对文本进行预处理，所述预处理包括：采用分词方法，对文本数据进行清洗去除对分类结果无影响的字词或符号。

3.根据权利要求1所述的基于机器学习的文本分类方法，其特征在于，所述常规特征提取的操作包括：统计词频、统计词频-逆词频、衡量互信息进行。

4.根据权利要求1所述的基于机器学习的文本分类方法，其特征在于，所述深度特征提取包括：基于搜索算子算法优化的神经网络模型对神经元的参数进行搜索，其中神经元的参数包括神经元的权重参数和神经元的阈值参数。

5.根据权利要求4所述的基于机器学习的文本分类方法，其特征在于，基于搜索算子算法优化的神经网络模型对神经元的参数进行搜索的过程如下式：

X_j＝X_i+Visual.Rand()

其中，X＝[x₁,x₂,x₃,…,x_n]为搜索算子的状态，n为搜索算子种群中搜索算子的数量；x_i为第i个搜索算子的状态；||X_j-X_i||为搜索算子i、j之间的距离；Visual为搜索算子的搜索半径；Step为搜索的步长；Rand()为0～1之间的随机数；

6.根据权利要求5所述的基于机器学习的文本分类方法，其特征在于，在对所述神经网络模型优化之前还包括：

7.根据权利要求1所述的基于机器学习的文本分类方法，其特征在于，将TF-IDF方法与互信息方法结合计算出的特征权重融入朴素贝叶斯算法中，以获得所述分类器。

8.根据权利要求7所述的基于机器学习的文本分类方法，其特征在于，贝叶斯算法的先验概率公式为：

其中c_k为一个预先定义的文本类别，n是训练样本总数，l是等式中类别总数，其中u(c_i,c_k)的计算方法如下：

如果类别c_i与类别c_k一致，则u(c_i,c_k)为1，否则为0。

9.根据权利要求8所述的基于机器学习的文本分类方法，其特征在于，融入特征权重后的贝叶斯算法的条件概率公式为：

其中，P(x_i∣c_k,W_i)为条件概率，n为训练集文本总数，l为文本集中特征词个数，x_i是指训练样本的第i个特征值，x_ji是第j个训练样本的第i个特征值，c_k表示第k个训练数据的类别，W_i是改进后的特征权重计算方法所计算出的在特征项x_i对于类别c_i的特征权重，计算方法如下：

W_i＝TF*IDF*MI(x_i)

10.根据权利要求9所述的基于机器学习的文本分类方法，其特征在于，融入特征权重后的贝叶斯算法的后验概率公式为：

其中，K为设定的阈值，Q代表特征x_i的特征权重。