CN117932072A

CN117932072A - 一种基于特征向量稀疏性的文本分类方法

Info

Publication number: CN117932072A
Application number: CN202410315789.3A
Authority: CN
Inventors: 高明; 李梦诗; 季天瑤; 吴青华; 凌志
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-04-26
Anticipated expiration: 2044-03-20
Also published as: CN117932072B

Abstract

本发明适用于数据分类技术领域，尤其涉及一种基于特征向量稀疏性的文本分类方法。与现有技术相比，本发明相比深度学习算法，对计算资源需求小，分类器模型简单，原理清晰，计算过程可解释；为提取已具备类别标签的文本数据集的类别典型特征而设计，相比现有的特征提取算法，在该场景下实现了更为准确的文本类别特征提取；相比现有的浅层学习文本算法，显著提升了文本分类准确度；将耗时较多基于大数据样本的文本类别特征提取一次性完成，大数据文本类别特征的计算只需一次的目的；通过计算待分类文本的向量稀疏度完成文本分类，算法逻辑简单，稀疏度计算仅仅通过加法即可完成，计算简单；显著减少了文本分类的计算时间。

Description

一种基于特征向量稀疏性的文本分类方法

技术领域

本发明适用于数据分类技术领域，尤其涉及一种基于特征向量稀疏性的文本分类方法。

背景技术

文本分类早期是利用知识工程建立专家系统，其优点是原理清晰直观，但人工成本高，解决问题范围较为狭窄，准确率有限。1990年后随着统计方法及机器学习的兴起，以及互联网在线文本数量增长，解决大规模文本分类问题的经典做法是基于特征工程的浅层分类模型。自2010年代以来，文本分类逐渐从浅层学习模式向深度学习模式转变，其与基于浅层学习的方法的区别是通过学习一组直接将特征映射到输出的非线性转换，将特征工程集成到模型拟合过程中，提升了浅层学习模型对复杂函数的表示能力。目前文本分类所使用的深度学习模型包括循环神经网络、卷积神经网络、注意力机制等，在实践中取得了较好的效果的同时，也普遍存在着算力要求高、模型设计较复杂及可解释性较差的问题。

现有的浅层分类算法可以大体分为以下几类：基于统计思想的算法，这类算法已成为浅层分类的主流方法，该类算法中最典型是基于统计的分类模型就是近邻（k-NearestNeighbor，kNN）算法，分类系统在训练集中查找出与它距离最接近的篇相邻（相似或相同）标注文档，统计篇训练集文本的类别属性，将待分类文档类归为中最多的样本类别，由于KNN算法原理清晰，效果好，众多学术研究将其作为比较研究算法，也是本文主要的比较研究对象；基于规则的算法，如CART算法等；基于概率的算法，主要思想是将与待分类文本条件概率最大的类别作为该文档的输出类别，其中朴素贝叶斯分类器（naive Bayes）是应用最为广泛且最简单常用的一种概率分类模型；基于几何学的算法，主要思想是使用向量空间模型表示文本，通过几何学原理构建一个超平面，将不属于同一个类别的文本区分开，最典型的分类器是“支持向量机”（SVM）。

然而，以上算法，都采用了实时计算待分类样本的统计特征、概率特征或者几何特征，然后根据计算结果进行分类，可认为是一种“事中”或“事后”计算方法。而基于大数据样本的“事前”统计计算的优势并未得到有效体现，这也是造成KNN等算法在内浅层学习算法时间及空间复杂度较高，计算资源消耗较大，耗时较长，准确率仍有待提升的主要原因。

发明内容

本发明提出了一种基于特征向量稀疏性的文本分类方法，旨在解决现有的文本分类方法计算资源消耗大、耗时较长以及准确率低的问题。

所述文本分类方法包括以下步骤：

S1、获取已知类别标签的文本数据集；

S2、对所述文本数据集进行预处理，得到词典数据集；其中，所述词典数据集包括多个词项；

S3、对所述词典数据集进行典型特征提取，得到类典型特征向量；

S4、将待分类文本中的所有词项与所述类典型特征向量进行匹配，得到对应的特征向量；

S5、对所述特征向量的向量稀疏度进行计算，计算得到所述待分类文本的文本类别。

优选地，步骤S2中，预处理包括分词处理和清洗处理。

优选地，步骤S3中，包括以下子步骤：

S31、计算出所述词典数据集中每一词项的平均词频值，所述平均词频值用于表征在词项层面中，所述词项对于所述文本数据集的文本类别特征表征能力；

S32、计算出所述词典数据集中每一词项的文档频率值，所述文档频率值用于表征在文档层面中，所述词项对于所述文本数据集的文本类别特征表征能力；

S33、根据所述平均词频值和所述文档频率值进行计算，得到每一所述词项对应的权重值，所述权重值用于表征所述词项对于所述文本数据集的文本类别特征表征能力值；

S34、将每一所述词项对应的权重值进行组合排列，得到类典型特征向量。

优选地，定义所述词典为，所述词典中第/>个词项为/>，则所述平均词频值的计算公式如下：

；

其中，表示所述平均词频值，下标/>表示第/>个词典，/>表示所述词典/>中的第/>个词项，/>为所述词典/>对应语料库集合中包括所述词项/>的文本数量，/>表示第/>个所述词项/>在所述词典对应语料库集合中文本/>的词频比重。

优选地，所述文档频率值的计算公式如下：

；

其中，分子表示所述词典/>对应语料库集合中包括第/>个所述词项/>的文本总数，分母/>表示所述词典/>对应语料库集合的文档总数。

优选地，定义所述权重值为，则所述权重值的计算公式如下；

。

与现有技术相比，本发明相比深度学习算法，对计算资源需求小，分类器模型简单，原理清晰，计算过程可解释；为提取已具备类别标签的文本数据集的类别典型特征而设计，相比现有的特征提取算法，在该场景下实现了更为准确的文本类别特征提取；相比现有的浅层学习文本算法，显著提升了文本分类准确度；将耗时较多基于大数据样本的文本类别特征提取一次性完成，大数据文本类别特征的计算只需一次的目的；通过计算待分类文本的向量稀疏度完成文本分类，算法逻辑简单，稀疏度计算仅仅通过加法即可完成，计算简单；相比现有的浅层学习文本算法，显著减少了文本分类的计算时间。

附图说明

下面结合附图详细说明本发明。通过结合以下附图所作的详细描述，本发明的上述或其他方面的内容将变得更清楚和更容易理解。附图中：

图1是本发明实施例提供的基于特征向量稀疏性的文本分类方法的流程图；

图2是本发明实施例提供的基于特征向量稀疏性的文本分类方法的待分类文本向量化过程示意图；

图3是本发明实施例提供的基于特征向量稀疏性的文本分类方法的Precision值与取值分布图示意图；

图4是本发明实施例提供的基于特征向量稀疏性的文本分类方法的部分典型特征向量权重值分布示意图；

图5是本发明实施例提供的基于特征向量稀疏性的文本分类方法的特征词在两类中的权重分布示意图；

图6是本发明实施例提供的基于特征向量稀疏性的文本分类方法的Precision指标对比图；

图7是本发明实施例提供的基于特征向量稀疏性的文本分类方法的Recall指标对比图；

图8是本发明实施例提供的基于特征向量稀疏性的文本分类方法的F1指标对比图；

图9是本发明实施例提供的基于特征向量稀疏性的文本分类方法的耗时指标对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参考图1至图9，本发明提供一种基于特征向量稀疏性的文本分类方法，所述文本分类方法包括以下步骤：

S1、获取已知类别标签的文本数据集；

在本发明实施例中，共有类已有类别标签的文本数据集，经过清理处理和分词处理，得到词典/>（/>）。

在本发明实施例中，步骤S3中，包括以下子步骤：

在本发明实施例中，定义所述词典中第个词项为/>，由于词典/>对应语料库集合的每个样本都可以视为已被标注类别，TF算法得到的TF值用于计算词项/>在单个文本中的词频权重值，而/>需要解决的问题场景是：在词项频率层面，计算词项/>对于包括多个文本的词典/>的词频特征。TF算法并不适用于本文的问题场景，其原因是：如使用TF算法来计算词项/>在词典/>对应语料库集合中出现的频率，则会出现频率不稳定的问题：即词项/>在词典/>对应语料库集合中的每个文本出现的频率并不趋向于一个稳定值，可能在某个文本中出现频率高，但在其他文本中出现频率低，导致最后的频率特征难以确定。

所述平均词频值的计算公式如下：

；

在本发明实施例中，现有的IDF算法的思想是：如词项在许多文本中频繁出现，则说明其并不具有很好的文本类别区分能力，用于识别或分类文本的能力较弱；相反，如词项/>只在少数文本中出现，那么其具有较强的区分能力，可以用来识别或分类文本。可以看出，该算法适用在不具有标签的文本中提取某个词项的特征表征能力的场景，而/>需要解决的问题场景是：需计算在文本层面，/>对于包括已经有类别标签信息的词典/>的词频特征。故而IDF算法并不适用于本发明的问题场景。

因此本发明提出改为计算值，其主要思想是：由于词典/>已有了类别标签，故与IDF算法恰好相反，包含词项/>的文本在词典/>对应语料库集合中出现的频率越高，词项/>的类别特征表征能力越高。/>表征词项/>在文本频率层面对于词典/>对应的文本类别表征能力权重，用DF（Document frequency）算法代替逆文本频率算法IDF（InverseDocument Frequency），所述文档频率值的计算公式如下：

；

其中，分子表示所述词典/>对应语料库中包括第/>个所述词项/>的文本总数，分母/>表示所述词典/>对应语料库的文档总数。

在本发明实施例中，定义所述权重值为，则所述权重值的计算公式如下；

。

本发明提出的上述用于计算词项的类特征表征权重值的方法，称为ATF-DF（Average Term frequency - Document Frequency）算法。

词典共有/>个词项，对全部词项计算得到/>（/>）后得到类典型特征向量/>，称之为对应/>的类典型特征向量，其具体构成如下：

中包括/>个元素，每个元素又由一个二维数组构成，二维数组中，第1个子元素是词项，第2个子元素是词项对应的类特征表征权重值。/>的第/>个元素可以表示为/>。

计算得到经过降序排列及进行数据压缩后的类典型特征向量；

进行降序排列；

对的每个元素按照/>数值大小进行降序排列，得到特征向量/>。

进行数据压缩；

得到后，还需要对其进行数据压缩，其原因是：在中等或者更大规模的文本数据集中，/>的数值可能以万为单位，/>值较大将带来两个问题：一是将导致后续分类计算中较大的计算量；二是根据ATF-DF-VS算法的思想，在/>中排序在后面的元素，对于/>的区分能力越来越弱，而让这些元素参与计算，会降低文本分类的计算效果。

假定的最优元素个数是/>，将维度为/>的/>记作/>，称之为类典型特征向量。

值的取值方法是：取使得文本分类Precision值最高对应的/>。Precison的计算公式如下所示：

；

其中，TP为真正例（True Positive），FP为假正例（False Positive）。

的计算过程为：在训练数据集上，在/>的范围内随机选取/>值，确定一个/>。再对/>按照一定步长，从最后一个词项开始，将/>逐次抛弃掉步长数量的词项，逐次减少的元素个数，计算其在不同元素个数下的文本分类Precision值。/>的取值即为Precision值最优时所对应的元素个数。

的具体算例见本文的实验部分，计算过程采用的文本分类算法是本发明所提出的方法步骤。

本发明为了保证后续算法中，待分类文本根据个/>生成的特征向量的维度保持一致（目的是便于在同一维度下计算和比较不同特征向量的稀疏性），将随机选择的/>计算得到的/>应用到将全部/>个/>中，将全部/>的元素均统一保留前/>个，从而实现了对全部/>（/>）的数据压缩，将压缩后得到的特征向量记作/>,/>，从而得到了M个类典型特征向量。本文的实验部分的计算结果表明：上述数据压缩的处理思路可行。

至此，经过降序排列和数据压缩，得到对应全部(/>）的/>个/>，/>是每一类文本最终用于后续分类计算的类典型特征向量，可以表示为：

；

其中，（/>是一个行向量，可以表示为：

；

展开行向量元素后，的完整表达形式为：

；

在得到个类典型特征向量后，计算过程结束，以上计算在进入步骤S4计算前一次性完成。

在本发明实施例中，在数据测试集中，将某个待分类文本记作。先将/>进行分词等预处理后，假定得到/>个词项，将其第/>个词项记作/> ，由/>个词项构成了待分类文本/>的唯一词项数组/>。

将对应/>计算得到的特征向量记作/>，下标/>表示待分类文本的编号，下标/>和/>的下标相同，表示类典型特征向量的编号。同样，/>。/>的计算过程如下：

对某个，遍历/>从1到/>，将/>中的/>和/>中/>个词项/>进行逐一匹配。如果与能够和某个/>完全相同（即/>能够在/>的全部词项中被找到），则将/>中的第/>个元素值取值为1，否则取值为0，从而得到/>。由上述计算过程得知，计算得到的/>的维度同样是/>。遍历/>从1到/>，重复上述计算，得到/>的/>个特征向量/>。

其伪代码如下所示：

作为一个说明示例，图2所示，用某一个生成/>对应的特征向量/>的具体过程：将/>中的第/>个元素记作/>。图2中假定/>大于/>，由于/>的第1个元素/>“财经”和/>中第2个元素/>完全一致(即/>能够在/>的元素中被找到），则/>第1个元素/>取值为1，其他同类情况同样处理；由于/>的第3个元素/>“人民币”和在/>中所有的词项均无法找到，因此/>值取为0，其他同类情况同样处理。从/>的第1个元素依次按照上述规则处理直到第/>个元素，最后得到维度同样是/>的/>。

在本发明实施例中，统计中的向量稀疏性，由于其元素只包括0和1，所以只需对/>中的所有元素值进行加和，该数值即代表了/>的非零元素的个数，也代表了/>的稀疏性。对某一个/>，假定其第/>个元素值是/>，/>的所有元素求和计算公式如下：

；

遍历从1到/>，假定当/>的数值最大时，/>的取值为/>，则判定/>所属的文本类别为第/>类。

示例性的，在本发明实施例中，实验语料库选择清华大学中文新闻语料库，在中文领域中，该语料库具有文本类别齐全，规模大，质量高等优点，是学术研究中较为常见的语料库。该语料库共包括14个新闻类别，其数据类别如下表所示。各类别中随机选取80%的文本作为训练数据集，20%文本作为测试数据集。程序运行在内存为8GB, CPU为Intel Corei5-8250U的计算机上。

表1 ：实验语料库数据类别

将训练数据集的全部文本进行分词（中文分词工具采用jieba）和清洗后，得到对应14个新闻类别的典型词典(/>）。

使用ATF-DF算法，对于中全部词项计算得到/>，并得到/>(/>）。

对降序排列及数据压缩得到类典型特征向量/>。

将根据/>值由大到小进行降序排列，得到/>。

计算的最优元素个数/>。

任意选择一个（本发明随机选择/>），首先过滤/>中/>小于0.001的词项，然后将剩余的2100个元素，按照步长为100,从最后一个词项开始，将/>逐次抛弃掉100个词项，从而逐次减少元素个数，当元素个数剩余100时将步长修改为40，计算其在不同元素个数下的文本分类Precision值如表2所示。

表2 ：值选择

从表2得出，当元素个数为20时，其Precision值为82.6%，当元素个数为60时，其Precision值为92.1%，当元素个数为100时，其Precision达到最高，为97.6%，其后随着的继续增加所对应的Precision值开始下降，因此本发明取降维维度/>为100作为最优降维维度。

由于表2中无法罗列出超过100后的全部数据，本发明提供图3，补充展示/>从100到2100之间的Precision值的变化。

从图3可知，大于100后，Precision值伴随/>的增加呈现单调递减的特征。

通过上述计算得到：当元素个数为100时，在文本分类中得到的Precision值最高，故而取/>的数值为100。

将全部元素个数均保留前100个，从而得到了14个用于后续分类计算的类典型特征向量/>。

作为示例，表3展示了其中6个，分别为体育、娱乐、家居、彩票、房产、财经类文本对应的类典型特征向量；图4可视化了其分布情况，其中横坐标/>代表该类典型特征向量中词项元素的下标，纵坐标/>代表在该类典型特征向量中，第/>个词项对应的类特征表征权重值。

表3：类典型特征向量示例

通过分析表3和图5中的数据，可以得出结论：

(1)类典型特征向量中的所包含词项与文本类别强相关，如体育类，其词项“competition”、“team”、“player”都与体育有较强的相关性。

(2)在不同的类典型特征向量中，词项的分布情况不同，/>的分布特点符合不同文本类别的语料特点。

例如：对于（娱乐类），其97%的/>均匀分布在0 ~ 0.005之间;相比之下，/>（金融类）的/>不均匀的分布在0 ~ 0.07之间。为了进一步分析，图5给出了/>和/>中词项类特征表征权重值分布情况。其中，横轴/>和/>分别表示/>和/>中全部词项的类特征表征权重值区间段，纵轴表示用百分数表示的该区间段/>的分布占比。

从图5可以看到，对于而言，由于娱乐类新闻语料主题广泛，其文本涵盖各种广泛的词项，/>呈现出均匀分布特征；而对于/>而言，其词项更多的是聚焦于常见的金融类专业术语，故而在计算/>时，金融专业术语的/>特别高，而其他词项的/>就会较低。导致分布不均匀的原因是由于文本类别自身的特点差异，引起了词项在语料库中的分布情况不同。

输入测试集中的测试文本并预处理后，分别使用（/>）对该测试文本进行向量化，得到该测试文本的14个特征向量/> 。随后计算/>的向量稀疏性，得到待分类文本所属的文本类别。在相同的数据集及计算环境下，分别使用本发明提出的方法ATF-DF-VS（Average Term frequency-Document frequency-Vectorsparsity）和TF-IDF-KNN（Term Frequency-Inverse Document Frequency-K-NearestNeighbors）分类算法进行分类计算。

本发明同时统计了precision（分类精确率）、recall(分类召回率）和三个F1指标比较不同算法的文本分类效果。其计算公式如下：

精确率（Precision）：指分类器为正样本的样本中，真正为正样本的样本所占的比例。计算公式为：

；

召回率（Recall）：指所有正样本中有多少被正确地识别出来了。计算公式为：

；

其中，TP为真正例（True Positive），FN为假负例（False Negative）。

F1值：综合考虑精确率和召回率，它是精确率和召回率的调和平均数。计算公式为：

；

在统计计算耗时这一环节，本发明提出的方法耗时仅仅统计了文本分类阶段的耗时，是因为这就是本发明的方法设计的优势之一：特征向量提取阶段的计算，全部可以在分类计算前“事前统计”并一次完成计算，后续在样本实时分类计算的过程只需要执行文本分类阶段的任务，在分类阶段中本发明提出的方法只需根据典型特征向量生成待分类样本的特征向量，并简单统计低维数的向量稀疏性，计算复杂度低。

本发明提出的方法和TF-IDF-KNN的文本分类效果对比如表4所示：

表4：两种算法在14个类别分类效果的评估指标对比表

为了比较本发明提出的方法ATF-DF-VS和TF-IDF-KNN算法的分类效果，以清华大学中文新闻语料为例，分别计算两种算法的Precision、Recall、F1和耗时作为分类性能评估指标。

从表中观察可得本文提出的方法ATF-DF-VS识别文本的平均Precision值、Recall值和 F1值相较于TF-IDF-KNN算法分别有31.46%、34.95%、31%的提升。

从Precision值和Recall值看，本发明提出的ATF-DF-VS方法相较于TF-IDF-KNN算法，在14个类别中均取得更好的效果，其中部分类别提升效果非常明显，例如教育类文本识别的Precision值从0.31提升至0.82，提升了164.5%，家居类的Recall值从0.29提升至0.76，提升了162.07%。两种算法对不同语类文本识别的Precision值、Recall值分别见图6和图7。图6的Precision指标显示了本文所提ATF-DF-VS算法识别效果最好的是彩票、房产、教育和时尚类别。但在图7的Recall指标中彩票、房产和教育类别的分类效果提升较小，反而是家居类的提升最高。

从综合评价指标F1值来看，本发明提出的 ATF-DF-VS方法整体优于TF-IDF-KNN算法，其中尤其突出的是在识别家居类文本中，本发明所提方法F1值为0.72，较现有算法的0.37提升高达94.59%，在对识别效果不够突出的科技类文本的识别中，其识别效果也具有2.9%优势。采用本发明所提方法，14个类别文本平均识别效果F1值提升了31%。图8直观的展示了ATF-DF-VS方法相较于TF-IDF-KNN算法在各个类别的提升效果，可见本发明所提算法在家居、彩票、房产、教育、时尚、社会和财经类别文本的识别中优势明显。

本发明提出的方法ATF-DF-VS的耗时在0.031-0.038之间，而TF-IDF-KNN算法的耗时在0.66-5.14之间，相比较ATF-DF-VS算法的耗时明显降低，这是由于TF-IDF-KNN算法的分类阶段需要计算高维数向量之间的距离，而本发明所提算法的分类阶段可以根据已有典型特征向量快速生成待分类样本的特征向量，简单统计低维数向量的稀疏性完成分类，计算复杂度更低。两种算法计算耗时对比可见图9。

总体来看，在相同的测试集及软硬件环境下，本发明提出的ATF-DF-VS方法的总体平均Precision值、Recall值和F1值相较于TF-IDF-KNN算法分别提升了31.46%、34.95%、31%，计算耗时减少100倍左右。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上面结合附图对本发明的实施例进行了描述，所揭露的仅为本发明较佳实施例而已，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式用等同变化，均属于本发明的保护之内。

Claims

1.一种基于特征向量稀疏性的文本分类方法，其特征在于，所述文本分类方法包括以下步骤：

S1、获取已知类别标签的文本数据集；

2.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤S2中，预处理包括分词处理和清洗处理。

3.如权利要求1所述的基于特征向量稀疏性的文本分类方法，其特征在于，步骤S3中，包括以下子步骤：

4.如权利要求3所述的基于特征向量稀疏性的文本分类方法，其特征在于，定义所述词典为，所述词典中第/>个词项为/>，则所述平均词频值的计算公式如下：

；

5.如权利要求4所述的基于特征向量稀疏性的文本分类方法，其特征在于，所述文档频率值的计算公式如下：

；

6.如权利要求5所述的基于特征向量稀疏性的文本分类方法，其特征在于，定义所述权重值为，则所述权重值的计算公式如下；

。