CN113486176A

CN113486176A - 一种基于二次特征放大的新闻分类方法

Info

Publication number: CN113486176A
Application number: CN202110781669.9A
Authority: CN
Inventors: 张文辉; 方兴; 王子辰; 林镇源; 罗鸿豪
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-08
Anticipated expiration: 2041-07-08
Also published as: CN113486176B

Abstract

本发明公开一种基于二次特征放大的新闻分类方法，结合改进TF‑IDF算法和Word2vec算法，在对新闻预测时，对待预测文本的特征进行二次特征放大，可有效增大文本特征，从而进一步增加预测准确率。

Description

一种基于二次特征放大的新闻分类方法

技术领域

本发明涉及技术领域，具体涉及一种基于二次特征放大的新闻分类方法。

背景技术

随着互联网技术的迅猛发展，网络已经成为人们获取新闻的重要平台，网络中的新闻文本数量呈现出爆炸式的增长趋势。针对新闻种类较多、新闻的内容层次参差不齐问题，对新闻进行科学的分类既能够方便不同的阅读群体根据需求快速选取自身感兴趣的新闻，也能够有效满足对海量的新闻素材提供科学的检索需求。

TF-IDF(词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术，其通过统计字词在文本中出现的次数和整个语料中出现的文档频率来评判某个字词的在整个语料和文本中的重要程度。但是当文档数量过多的时候，不同单词的数量非常大，而单个文档使用的单词数量远远少于总体词袋单词个数，此时所表示的特征向量是非常稀疏的。仅以“词频”度量词的重要性，后续构成文档的特征值序列，词之间各自独立，无法反映序列信息，且易受数据集偏斜的影响，如某一类别的文档偏多，会导致IDF(逆文本频率)低估，进而影响新闻分类的准确性。

发明内容

本发明针对利用TF-IDF进行新闻分类时所存在的准确性不高的问题，提出一种基于二次特征放大的新闻分类方法。

为解决上述问题，本发明是通过以下技术方案实现的：

一种基于二次特征放大的新闻分类方法，包括步骤如下：

步骤1、将带有类别标签的新闻文本通过Word2vec算法进行分词处理后去除停用词，得到训练集；

步骤2、先分别统计训练集中各个类别中词频排名前m位的词，并通过Word2vec算法计算这些词的词向量b_ij；再利用每个类别的词向量构造该类别的中心向量，得到每个类别的中心向量c_i；

步骤3、将训练集中各个类别的词向量b_ij和对应的类别标签送入gensim.models.word2vec模型进行训练，得到训练好的类别识别模型；

步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词，并得到待测新闻文本，并通过Word2vec计算待测新闻文本中每个词的词向量dk；

步骤5、计算待测新闻文本的每个词的词向量d_k与步骤2所得的训练集的每个词的词向量b_ij的余弦相似度cos(d_k，b_ij)；

步骤6、基于余弦相似度cos(d_k，b_ij)对待测新闻文本中每个词的词向量d_k进行特征放大，得到每个词的放大词向量d′_k；

步骤7、基于每个词的放大词向量d′_k，计算待测新闻文本的每个类别的初始特征表征向量T_i；

步骤8、计算待测新闻文本的每个类别的初始特征表征向量T_i与步骤2所得的训练集的每个类别的中心向量c_i的余弦相似度cos(T_i，c_i)；

步骤9、基于余弦相似度cos(T_i，c_i)对待测新闻文本的每个类别的初始特征表征向量T_i行特征放大，得到每个类别的放大初始特征表征向量T′_i；

步骤10、基于每个类别的放大初始特征表征向量T′_j，计算待测新闻文本的每个类别的最终特征表征向量T″_j；

步骤11、将待测新闻文本的每个类别的最终特征表征向量T″_j中模最大的那个类别的最终特征表征向量作为待测新闻文本的最终特征表征向量；

步骤12、将待测新闻文本的最终特征表征向量送入到步骤3训练好的类别识别模型中，得到待测新闻文本的类别；

上述i＝1，2，…，n，n代表类别数量；j＝1，2，…，m，m代表设定的词频排名位数；k＝1，2，…，l，l代表待测新闻文本的词数量。

上述步骤5中，待测新闻文本的第k个词的词向量d_k与训练集的第i个类别的第j个词的词向量b_ij的余弦相似度cos(d_k，b_ij)为：

式中，d_k为待测新闻文本的第k个词的词向量；b_ij为训练集的第i个类别的第j个词的词向量；i＝1，2，…，n，n代表类别数量；j＝1，2，…，m，m代表设定的词频排名位数；k＝1，2，…，l，l代表待测新闻文本的词数量；符号.表示点乘，符号| |表示取模。

上述步骤6中，待测新闻文本的第k个词的放大词向量d′_k为：

d′_k＝d_k×TF_k×IDF_k×SCV1

式中，SCV1为第一放大函数，

当余弦相似度cos(d_k，b_ij)＜θ1时，第一放大调参值a1_i取1，当余弦相似度cos(d_k，b_ij)≥θ1时，第一放大调参值a1_i取大于1的设定值；d_k为待测新闻文本的第k个词的词向量；b_ij为训练集的第i个类别的第j个词的词向量；TF_k为待测新闻文本的第k个词的词频；IDF_k为待测新闻文本的第k个词逆文本频率；i＝1，2，…，n，n代表类别数量；j＝1，2，…，m，m代表设定的词频排名位数；k＝1，2，…，l，l代表待测新闻文本的词数量。

上述步骤7中，待测新闻文本的第i个类别的初始特征表征向量T_i为：

式中，SCV1为第一放大函数，

当余弦相似度cos(d_k，b_ij)＜θ1时，第一放大调参值a1_i取1，当余弦相似度cos(d_k，b_ij)≥θ1时，第一放大调参值a1_i取大于1的设定值；d_k为待测新闻文本的第k个词的词向量；b_ij为训练集的第i个类别的第j个词的词向量；d′_k为待测新闻文本的第k个词的放大词向量；TF_k为待测新闻文本的第k个词的词频；IDF_k为待测新闻文本的第k个词逆文本频率；i＝1，2，…，n，n代表类别数量；j＝1，2，…，m，m代表设定的词频排名位数；k＝1，2，…，l，l代表待测新闻文本的词数量。

上述步骤8中，待测新闻文本的第i个类别的初始特征表征向量T_i与训练集的第i个类别的中心向量c_i的余弦相似度cos(T_i，c_i)为：

式中，T_i为待测新闻文本的第i个类别的初始特征表征向量；c_i为训练集的第i个类别的中心向量；i＝1，2，…，n，n代表类别数量；符号·表示点乘，符号| |表示取模。

上述步骤9中，待测新闻文本的第i个类别的放大初始特征表征向量T′_i为：

T′_i＝T_i×SCV2

式中，SCV2为第二放大函数，

当余弦相似度cos(T_i，c_i)＜θ1时，第二放大调参值a2_i取1，当余弦相似度cos(T_i，c_i)≥θ1时，第二放大调参值a2_i取大于1的设定值；T_i为待测新闻文本的第i个类别的初始特征表征向量；c_i为训练集的第i个类别的中心向量；i＝1，2，…，n，n代表类别数量。

上述步骤10中，待测新闻文本的第i个类别的最终特征表征向量T″_i为：

式中，T_i为待测新闻文本的第i个类别的初始特征表征向量；T′_i为待测新闻文本的第i个类别的放大初始特征表征向量；i＝1，2，…，n，n代表类别数量；符号| |表示取模。

与现有技术相比，本发明提出一种基于TF-IDF和Word2vec的二次特征放大新闻分类方法，结合改进TF-IDF算法和Word2vec算法，在对新闻预测时，对待预测文本的特征进行二次特征放大，可有效增大文本特征，从而进一步增加预测准确率。

附图说明

图1为一种基于二次特征放大的新闻分类方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

一种基于二次特征放大的新闻分类方法，如图1所示，包括步骤如下：

步骤1、将带有类别标签的新闻文本通过Word2vec算法进行分词处理后去除停用词，得到训练集。

Word2vec又叫词向量，也叫词嵌入，其可以解决TF-IDF方法的稀疏性问题，它的核心思想是：每一个词映射到一个多维空间中，成为空间中的一个向量，一般这个多维空间的维数不会太高，在几百个的量级。这几百维的特征向量是稠密的，向量中的每一个成员值都是非0的。

步骤2、先分别统计训练集中各个类别中词频排名前m位的词，并通过Word2vec算法计算这些词的词向量b_ij；再利用每个类别的词向量构造该类别的中心向量，得到每个类别的中心向量c_i。其中i＝1，2，…，n，n代表类别数量。j＝1，2，…，m，m代表设定的词频排名位数。

步骤3、将训练集中各个类别的词向量b_ij和对应的类别标签送入gensim.models.word2vec模型进行训练，得到训练好的类别识别模型M_Word2vec待后续使用。

gensim是一款开源的第三方Python工具包，gensim.models.word2vec是gensim的一个子模块，可以用来实现可扩展的统计语义、分析语义结构的纯文本和检索语义上类似的文本三大功能。

步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词，并得到待测新闻文本，并通过Word2vec计算待测新闻文本中每个词的词向量d_k。其中k＝1，2，…，l，l代表待测新闻文本的词数量。

步骤5、计算待测新闻文本的每个词的词向量d_k与步骤2所得的训练集的每个词的词向量b_ij的余弦相似度cos(d_k，b_ij)。

余弦相似度cos(d_k，b_ij)为：

式中，符号| |表示向量的模，符号.表示向量点乘。

步骤6、基于余弦相似度cos(d_k，b_ij)对待测新闻文本中每个词的词向量d_k进行特征放大，得到每个词的放大词向量d′_k。

每个词的放大词向量d′_k为：

d′_k＝d_k×TF_k×IDF_k×SCV1 (2)

其中：

第k个词的词频TF_k为：

第k个词逆文本频率IDF_k为：

第一放大函数SCV1为：

式中，a1_i为第一放大调参值，当cos(d_k，b_ij)＜θ1时，a1_i＝1，当cos(d_k，b_ij)≥θ1时，α1取大于1的任意值，可依据需求随意调整放大倍数。

步骤7、基于每个词的放大词向量d′_k，计算待测新闻文本的每个类别的初始特征表征向量T_i。

每个类别的初始特征表征向量T_i为：

步骤8、计算待测新闻文本的每个类别的初始特征表征向量T_i与步骤2所得的训练集的每个类别的中心向量c_i的余弦相似度cos(T_i，c_i)。

余弦相似度cos(T_i，c_i)为：

步骤9、基于余弦相似度cos(T_i，c_i)对待测新闻文本的每个类别的初始特征表征向量T_i进行特征放大，得到每个类别的放大初始特征表征向量T′_i。

每个类别的放大初始特征表征向量T′_i为：

T′_i＝T_i×SCV2 (8)

第二放大函数SCV2为：

式中，a2_i为第二放大调参值，当cos(T_i，c_i)＜θ1时，a2_i＝1，当cos(T_i，c_i)≥θ1时，a2_i取大于1的任意值，可依据需求随意调整放大倍数。

步骤10、基于每个类别的放大初始特征表征向量T′_i，计算待测新闻文本的每个类别的最终特征表征向量T″_i。

每个类别的最终特征表征向量T″_j为：

步骤11、将待测新闻文本的每个类别的最终特征表征向量T″_j中模最大的那个类别的最终特征表征向量max_i{|T″_i|}作为待测新闻文本的最终特征表征向量。

步骤12、将待测新闻文本的最终特征表征向量送入到步骤3训练好的类别识别模型中，得到待测新闻文本的类别。

本发明基于TF-IDF和Word2vec的二次特征放大新闻分类方法，结合改进TF-IDF算法和Word2vec算法，在对新闻预测时，对待预测文本的特征进行二次特征放大，可有效增大文本特征，从而进一步增加预测准确率。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.一种基于二次特征放大的新闻分类方法，其特征是，包括步骤如下：

步骤4、通过Word2vec算法对待预测类别的新闻文本进行分词处理后去除停用词，并得到待测新闻文本，并通过Word2vec计算待测新闻文本中每个词的词向量d_k；

步骤10、基于每个类别的放大初始特征表征向量T_i′，计算待测新闻文本的每个类别的最终特征表征向量T_i″；

步骤11、将待测新闻文本的每个类别的最终特征表征向量T_i″中模最大的那个类别的最终特征表征向量作为待测新闻文本的最终特征表征向量；

2.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤5中，待测新闻文本的第k个词的词向量dk与训练集的第i个类别的第j个词的词向量b_ij的余弦相似度cos(d_k，b_ij)为：

式中，d_k为待测新闻文本的第k个词的词向量；b_ij为训练集的第i个类别的第j个词的词向量；i＝1，2，…，n，n代表类别数量；j＝1，2，…，m，m代表设定的词频排名位数；k＝1，2，…，l，l代表待测新闻文本的词数量；符号·表示点乘，符号||表示取模。

3.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤6中，待测新闻文本的第k个词的放大词向量d′_k为：

d′_k＝d_k×TF_k×IDF_k×SCV1

式中，SCV1为第一放大函数，

4.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤7中，待测新闻文本的第i个类别的初始特征表征向量T_i为：

式中，SCV1为第一放大函数，

5.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤8中，待测新闻文本的第i个类别的初始特征表征向量T_i与训练集的第i个类别的中心向量c_i的余弦相似度cos(T_i，c_i)为：

式中，T_i为待测新闻文本的第i个类别的初始特征表征向量；c_i为训练集的第i个类别的中心向量；i＝1，2，…，n，n代表类别数量；符号·表示点乘，符号||表示取模。

6.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤9中，待测新闻文本的第i个类别的放大初始特征表征向量T_i′为：

T′_i＝T_i×SCV2

式中，SCV2为第二放大函数，

7.根据权利要求1所述的一种基于二次特征放大的新闻分类方法，其特征是，步骤10中，待测新闻文本的第i个类别的最终特征表征向量T_i″为：

式中，T_i为待测新闻文本的第i个类别的初始特征表征向量；T_i′为待测新闻文本的第i个类别的放大初始特征表征向量；i＝1，2，…，n，n代表类别数量；符号||表示取模。