CN116432644B

CN116432644B - 一种基于特征融合和双重分类的新闻文本分类方法

Info

Publication number: CN116432644B
Application number: CN202310687090.5A
Authority: CN
Inventors: 李妍; 周剑; 蒋余文; 桂林卿; 肖甫
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-08-15
Anticipated expiration: 2043-06-12
Also published as: CN116432644A

Abstract

本发明属于自然语言处理和机器学习领域，公开了一种基于特征融合和双重分类的新闻文本分类方法，包括如下步骤：首先，对各大新闻网站上的各类新闻文本数据进行采集构成数据集，其次，对采集到的数据集进行数据预处理并进行分词后，以json的格式进行存储，再次，利用BERT模型和TF‑IDF模型构造出特征融合模型，再与fasttext模型联合，构造基于特征融合和双重分类的新闻文本分类模型，该模型进行训练，依据该模型提出基于特征融合和双重分类的新闻文本分类方法，最后，使用基于特征融合和双重分类的新闻文本分类方法对新闻数据进行分类。本发明可以提高新闻文本分类过程中的效率和精度，在较短的时间内取得更好的分类效果。

Description

一种基于特征融合和双重分类的新闻文本分类方法

技术领域

本发明属于自然语言处理和机器学习领域，具体的说是涉及一种基于特征融合和双重分类的新闻文本分类方法。

背景技术

文本分类问题是自然语言处理领域中一个非常经典的问题。20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。人工分类费时费力且效率低下。90年代以来，众多的统计方法和机器学习方法应用于文本分类，在国内学者也持续对中文文本分类进行研究，并在信息检索、文档自动分类等多个领域得到了初步的应用。

然而，不同新闻文本具有不同特征，现已提出的诸多分类模型大多精准率不够高，且不具有一定的时效性，无法适应新闻领域的发展速度。

发明内容

为了解决上述技术问题，本发明提出了一种基于特征融合和双重分类的新闻文本分类方法，该可以提高新闻文本分类过程中的效率和精度，可以在较短的时间内取得更好的分类效果。

本发明是一种基于特征融合和双重分类的新闻文本分类方法，包括如下步骤：

步骤1：采集各类新闻文本数据，数据以[content, channelName, title]的形式存放在原始数据集中。其中，content为新闻内容，channelName为新闻类别，title为新闻标题。

步骤2：对采集到的数据集中的新闻数据进行预处理，然后使用jieba分词对新闻数据进行分词操作，分词完毕后的数据以json的格式进行存储。

步骤3：将BERT模型与TF-IDF模型联合构造出一种特征融合模型，并与fasttext模型联合，构造基于特征融合和双重分类的新闻文本分类模型，训练基于特征融合和双重分类的新闻文本分类模型，依据该模型提出基于特征融合和双重分类的新闻文本分类方法。

步骤4：使用步骤3中的基于特征融合和双重分类的新闻文本分类方法对新闻数据进行较准确的分类，并且针对类似的新闻数据在下次分类时能够有更高的效率。

进一步地，所述步骤1采集各类新闻文本数据以[content, channelName, title]形式存放，设置10个新闻类别，分别为：财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐、其他。

进一步地，所述步骤2中，对采集到的数据做出以下预处理：其一，对于数据中content缺失或者是乱码、title为空的新闻数据直接剔除；其二，对于数据中含有html内容的新闻数据，使用停词表来忽略这部分新闻数据中的html内容如<div>、<p>等；其三，对于长度过短的数据，在采集完新闻数据集后直接剔除这部分新闻数据。对于停词表的构建，采用哈尔滨工业大学、四川大学、百度、cn的停词表，合并上述停词表并且进行去重之后，形成一个本发明所使用的停词表。然后，对新闻数据集采用python中的jieba库进行分词，分词完毕后，以json的格式进行存储，每一条数据都是一个json:{“title”:, “content”:,“channelName”:,“segments”:} ，其中segments是列表的格式。

进一步地，所述步骤3中，构造基于特征融合和双重分类的新闻文本分类模型具体步骤如下：

步骤3-1：构建特征融合模型。特征融合模型由BERT模型和TF-IDF模型组成。

步骤3-1-1：BERT模型的输入是字向量、文本向量和位置向量的加权和。其中，字向量是文本中词语的一维向量表示，记为。/>用来分隔开两个不同的词。/>分别表示该句子中第/>个词对应的向量、第/>个词对应的向量、第/>个词对应的向量。/>位于该一维向量的首位，表示/>组成的句子开始的位置。文本向量用于刻画新闻数据的全局语义信息，其取值在模型使用采集到的新闻数据集进行训练的过程中自动学习，并与词语的语义信息相融合，第/>个段落的文本向量记为/>。/>表示第/>个段落中的第/>个词。由于出现在文本不同位置的词语所携带的语义信息存在差异，因此对不同位置的词语分别附加一个不同的位置向量以作区分，记为/>。/>表示该句子中第/>个词位于第/>个位置。BERT模型的输出是新闻数据中各个词语融合了全文语义信息后的向量表示，即为提取到的BERT特征，记为/>。

步骤3-1-2：TF-IDF模型中，TF（Term Frequency）意思是词频，IDF（InverseDocument Frequency）意思是逆向文件频率。

TF-IDF模型的输入是新闻数据的文本表示。将新闻数据的文本表示输入TF-IDF模型后进行如下步骤：

计算第个词在第/>个新闻数据中词频TF。计算公式如下：

；

其中，是第/>个词在第/>个新闻数据中的出现次数，而分母/>则是在第/>个新闻数据中所有词的出现次数之和。

计算第个词的IDF。计算公式如下：

；

其中，表示新闻数据集中的新闻数据总数；/>表示包含第/>个词/>的新闻数据的数目，使用/>是为了防止出现该词不在新闻数据集中导致被除数为零的情况。

计算该新闻数据的TF-IDF特征，该特征记为。TF-IDF模型的输出即为。/>表示/>的第/>个分量，该分量表示该新闻数据中第/>个词的TF-IDF特征，计算公式如下：

；

步骤3-1-3：利用BERT特征与TF-IDF特征进行特征融合，融合后的结果记为，将该结果作为新闻数据的最终特征，输入一个全连接网络进行分类，得到BERT模型与TF-IDF模型的特征融合模型的结果(label_MERGE,confidence_MERGE)，label_MERGE和confidence_MERGE表示文本经过BERT模型与TF-IDF模型的特征融合模型得到的标签和置信度。全连接网络有一个输入层，一个隐藏层，一个输出层，在隐藏层中有10个神经元，使用sigmoid函数作为激活函数。

步骤3-2：进行双重分类时，需要使用fasttext模型对新闻文本数据进行分类。fasttext模型包含输入层、隐藏层、输出层。输入层的操作是输入N-gram特征的Embedding向量。其中，N-gram特征是将新闻数据内容按长度N切分得到的词语片段，最终形成词语片段序列；Embedding则将这些词语片段序列以向量形式存放。隐藏层的操作是将输入层输入的Embedding向量求平均。输出层的操作是将隐藏层求平均得到的向量乘以反变换矩阵，得到长度等于分类数的向量，再使用层次Softmax得到概率最高的一类为最终分类结果，得到fasttext模型的结果(label_fasttext,confidence_fasttext)。其中，label_fasttext和confidence_fasttext表示文本经过fasttext模型得到的标签和置信度。

步骤3-3：最终分类结果的标签为label，判断经过BERT模型与TF-IDF模型的特征融合模型和fasttext模型后得到的标签是否一致，如果一致，则把label_fasttext赋给label。如果label_MERGE和label_fasttext不一样，则选择两个标签中较大的置信度对应的标签赋给label。

步骤3-4：对基于特征融合和双重分类的新闻文本分类模型利用采集到的新闻数据集，使用随机梯度下降法进行训练，依据该模型提出基于特征融合和双重分类的新闻文本分类方法。

进一步地，所述步骤4中，使用步骤3中一种基于特征融合和双重分类的新闻文本分类方法对未分类的新闻数据进行较准确的分类，并且针对类似的新闻数据在下次分类时能够有更高的效率。具体步骤如下：

步骤4-1：首先，将当前的未分类新闻数据的TF-IDF特征与数据集中新闻数据的TF-IDF特征进行比对，计算相似度。当两者相似度大于等于90%时，则认为当前新闻数据已存在于新闻数据集中，直接输出数据集中对应新闻的分类。其中，未分类新闻数据的TF-IDF特征向量与数据集中新闻数据的TF-IDF 特征向量之间的相似度计算由余弦相似度公式都得到：

其中，表示第/>个未分类新闻数据的TF-IDF特征向量，/>表示第/>个数据集中新闻数据的TF-IDF 特征向量，/>和/>分别代表向量/>的第/>个分量和向量/>的第/>个分量，/>和/>都一共有/>个分量。

步骤4-2：当前的未分类新闻数据的TF-IDF特征与数据集中新闻数据的TF-IDF 特征的相似度小于90%，认为该输入是一条新的新闻数据，将这条新的新闻数据送入模型中重新开始分类。将新闻数据分别喂入BERT模型与TF-IDF模型的特征融合模型和fasttext模型两个分类模型中，分别得到BERT模型与TF-IDF模型的特征融合模型的结果(label_MERGE,confidence_MERGE)和fasttext模型的结果(label_fasttext,confidence_fasttext)。其中，(label_MERGE,confidence_MERGE)表示文本经过BERT模型与TF-IDF模型的特征融合模型得到的标签和置信度，(label_fasttext,confidence_fasttext)表示文本经过fasttext模型得到的标签和置信度；判断经过这两个模型后得到的标签是否一致，如果一致，则把label_fasttext赋给label。如果label_MERGE和label_fasttext不一样，则选择两个标签中较大的置信度对应的标签赋给label。得到最终分类结果的标签label。

本发明的有益效果是：本发明提出了一种基于特征融合和双重分类的新闻文本分类方法，总体来说可以在一定程度上提高新闻数据分类过程中的效率和精度，可以在较短的时间内取得更好的分类结果；本发明对新闻数据做出了更准确的特征提取并能有效提高新闻数据的分类速度，尤其是适用于新闻数据量较多的情况，所以本发明更适用于对复杂新闻数据的分类。

具体为：

（1）本发明的新闻文本数据都是自己采集并存放的，因此在后续进行模型训练过程中更具有可靠性；

（2）本发明对采集到的新闻数据进行了预处理，使用jieba分词后再以json的格式进行存储，因此可以增强数据集的逻辑性；

（3）本发明将BERT模型与TF-IDF模型联合构造出一种特征融合模型，由于BERT模型关注于上下文以及词语所处文本的位置，TF-IDF模型关注全文语义，因此该特征融合模型能更好地体现新闻数据各方面的特征；

（4）本发明提出了双重分类，针对未分类的新闻数据，将其分别喂入BERT模型与TF-IDF模型的特征融合模型和fasttext模型两个分类模型中进行分类，提高分类结果的准确性；

（5）本发明在进行新闻数据的分类前，先将其与数据库中已有的新闻数据做相似度对比，提高了分类过程中的效率。

附图说明

图1是本发明的流程示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明提出了一种基于特征融合和双重分类的新闻文本分类方法，具体包括如下步骤：

步骤1：采集各类新闻文本数据以[content, channelName, title]形式存放在原始数据集中，content为新闻内容，channelName为新闻类别，title为新闻标题，设置10个新闻类别，分别为：财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐、其他。

步骤2：对采集到的数据做出以下预处理：其一，对于数据中content缺失或者是乱码、title为空的新闻数据直接剔除；其二，对于数据中含有html内容的新闻数据，使用停词表来忽略这部分新闻数据中的html内容如<div>、<p>等；其三，对于长度过短的数据，在采集完新闻数据集后直接剔除这部分新闻数据。对于停词表的构建，采用哈尔滨工业大学、四川大学、百度、cn的停词表，合并上述停词表并且进行去重之后，形成一个本发明所使用的停词表。然后，对新闻数据集采用python中的jieba库进行分词，分词完毕后，以json的格式进行存储，每一条数据都是一个json:{“title”:, “content”:,“channelName”:,“segments”:} ，其中segments是列表的格式。

步骤3：构造基于特征融合和双重分类的新闻文本分类模型具体步骤如下：

步骤3-1-1：BERT模型的输入是字向量、文本向量和位置向量的加权和。其中，字向量是文本中词语的一维向量表示，记为，/>用来分隔开两个不同的词。/>分别表示该句子中第/>个词对应的向量、第/>个词对应的向量、第/>个词对应的向量。/>位于该一维向量的首位，表示/>组成的句子开始的位置。文本向量用于刻画新闻数据的全局语义信息，其取值在模型使用采集到的新闻数据集进行训练的过程中自动学习，并与词语的语义信息相融合，第/>个段落的文本向量记为/>。/>表示第/>个段落中的第/>个词。由于出现在文本不同位置的词语所携带的语义信息存在差异，因此对不同位置的词语分别附加一个不同的位置向量以作区分，记为/>。/>表示该句子中第/>个词位于第/>个位置。BERT模型的输出是新闻数据中各个词语融合了全文语义信息后的向量表示，即为提取到的BERT特征，记为/>。

计算第个词在第/>个新闻数据中词频。计算公式如下：

；

计算第个词的。计算公式如下：

；

步骤4：使用步骤3中一种基于特征融合和双重分类的新闻文本分类方法对未分类的新闻数据进行较准确的分类，并且针对类似的新闻数据在下次分类时能够有更高的效率。具体步骤如下：

；

本发明提出了一种基于特征融合和双重分类的新闻文本分类方法，总体来说可以在一定程度上提高新闻数据分类过程中的效率和精度，可以在较短的时间内取得更好的分类结果；本发明对新闻数据做出了更准确的特征提取并能有效提高新闻数据的分类速度，尤其是适用于新闻数据量较多的情况，所以本发明更适用于对复杂新闻数据的分类。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于特征融合和双重分类的新闻文本分类方法，其特征在于：所述新闻文本分类方法包括如下步骤：

步骤1：采集各类新闻文本数据，数据以[content，channelName，title]的形式存放在原始数据集中，其中，content为新闻内容，channelName为新闻类别，title为新闻标题；

步骤2：对采集到的数据集中的新闻数据进行预处理，然后使用jieba分词对新闻数据进行分词操作，分词完毕后的数据以json的格式进行存储；

步骤3：将BERT模型与TF-IDF模型联合构造出一种特征融合模型，并与fasttext模型联合，构造基于特征融合和双重分类的新闻文本分类模型，训练所述基于特征融合和双重分类的新闻文本分类模型，依据所述基于特征融合和双重分类的新闻文本分类模型提出基于特征融合和双重分类的新闻文本分类方法；

步骤4：使用步骤3中的基于特征融合和双重分类的新闻文本分类方法对新闻数据进行分类，其中：

所述步骤3中，构造基于特征融合和双重分类的新闻文本分类模型具体包括如下步骤：

步骤3-1：构建特征融合模型：所述特征融合模型由BERT模型和TF-IDF模型组成，利用BERT特征与TF-IDF特征进行特征融合，得到BERT模型与TF-IDF模型的特征融合模型的结果label_MERGE,confidence_MERGE，label_MERGE和confidence_MERGE表示文本经过BERT模型与TF-IDF模型的特征融合模型得到的标签和置信度；

步骤3-2：进行双重分类，进行双重分类时使用fasttext模型对新闻文本数据进行分类，得到fasttext模型的结果label_fasttext,confidence_fasttext，其中，label_fasttext和confidence_fasttext表示文本经过fasttext模型得到的标签和置信度；

步骤3-3：最终分类结果的标签为label，判断经过BERT模型与TF-IDF模型的特征融合模型和fasttext模型后得到的标签是否一致，如果一致，则把label_fasttext赋给label，如果label_MERGE和label_fasttext不一样，则选择两个标签中较大的置信度对应的标签赋给label；

步骤3-4：对基于特征融合和双重分类的新闻文本分类模型利用采集到的新闻数据集，使用随机梯度下降法进行训练，依据所述基于特征融合和双重分类的新闻文本分类模型提出基于特征融合和双重分类的新闻文本分类方法，

所述步骤3-1构建特征融合模型具体包括如下步骤：

步骤3-1-1：BERT模型的输入是字向量、文本向量和位置向量的加权和，BERT模型的输出是新闻数据中各个词语融合了全文语义信息后的向量表示，即为提取到的BERT特征，记为W^BERT；

步骤3-1-2：TF-IDF模型中，TF是词频，IDF是逆向文件频率：TF-IDF模型的输入是新闻数据的文本表示，将新闻数据的文本表示输入TF-IDF模型后进行如下步骤：

计算第i个词在第j个新闻数据中词频TF，计算公式如下：

其中，n_ij是第i个词在第j个新闻数据中的出现次数，∑_kn_kj则是在第j个新闻数据中所有词的出现次数之和，

计算第i个词的IDF，公式如下：

其中，|D|表示新闻数据集中的新闻数据总数，|{j:t_i∈d_j}|表示包含第i个词t_i的新闻数据的数目；

计算该新闻数据的TF-IDF特征，该特征记为W^TF-IDF，TF-IDF模型的输出即为W^TF-IDF，tf_idf_i表示W^TF-IDF的第i个分量，该分量表示该新闻数据中第i个词的TF-IDF特征，计算公式如下：

步骤3-1-3：利用BERT特征与TF-IDF特征进行特征融合，融合后的结果记为W^merge＝[W^BERT,W^TF-IDF]，将该结果作为新闻数据的最终特征，输入一个全连接网络进行分类，得到BERT模型与TF-IDF模型的特征融合模型的结果label_MERGE，confidence_MERGE，label_MERGE和confidence_MERGE表示文本经过BERT模型与TF-IDF模型的特征融合模型得到的标签和置信度。

2.根据权利要求1所述的一种基于特征融合和双重分类的新闻文本分类方法，其特征在于：所述步骤3-2中，所述fasttext模型包含输入层、隐藏层、输出层，其中：

输入层的操作是输入N-gram特征的Embedding向量，N-gram特征是将新闻数据内容按长度N切分得到的词语片段，最终形成词语片段序列，Embedding则将这些词语片段序列以向量形式存放；

隐藏层的操作是将输入层输入的Embedding向量求平均；

输出层的操作是将隐藏层平均求得的向量乘以反变换矩阵，得到长度等于分类数的向量，再使用层次Softmax得到概率最高的一类为最终分类结果。

3.根据权利要求1所述的一种基于特征融合和双重分类的新闻文本分类方法，其特征在于：在步骤4中，使用步骤3中基于特征融合和双重分类的新闻文本分类方法对未分类的新闻数据进行分类，具体包括如下步骤：

步骤4-1：首先，将当前的未分类新闻数据的TF-IDF特征与数据集中新闻数据的TF-IDF特征进行比对，计算相似度，当两者相似度大于等于90％时，则认为当前新闻数据已存在于新闻数据集中，直接输出数据集中对应新闻的分类，其中，未分类新闻数据的TF-IDF特征向量与数据集中新闻数据的TF-IDF特征向量之间的相似度计算由余弦相似度公式都得到：

其中，W^IF-IDF _A表示第A个未分类新闻数据的TF-IDF特征向量，W^TF-IDF _B表示第B个数据集中新闻数据的TF-IDF特征向量，tf_idf_Ai和tf_idf_Bi分别代表向量W^TF-IDF _A的第i个分量和向量W^TF-IDF _B的第i个分量，W^IF-IDF _A和W^IF-IDF _B都一共有n个分量；

步骤4-2：当前的未分类新闻数据的TF-IDF特征与数据集中新闻数据的TF-IDF特征的相似度小于90％，输入一条新的新闻数据将这条新的新闻数据送入基于特征融合和双重分类的新闻文本分类模型中重新开始分类，将新闻数据分别喂入BERT模型与TF-IDF模型的特征融合模型和fasttext模型两个分类模型中，分别得到BERT模型与TF-IDF模型的特征融合模型的结果label_MERGE,confidence_MERG和fasttext模型的结果label_fasttext,confidence_fasttext，其中，label_MERGE,confidence_MERGE表示文本经过BERT模型与TF-IDF模型的特征融合模型得到的标签和置信度，label_fasttext,confidence_fasttext表示文本经过fasttext模型得到的标签和置信度；判断经过这两个模型后得到的标签是否一致，如果一致，则把label_fasttext赋给label，如果label_MERGE和label_fasttext不一样，则选择两个标签中较大的置信度对应的标签赋给label，得到最终分类结果的标签label。

4.根据权利要求1所述的一种基于特征融合和双重分类的新闻文本分类方法，其特征在于：所述步骤2中对采集到的数据集中的新闻数据进行预处理具体为：对于数据中content缺失或者是乱码、title为空的新闻数据直接剔除；

对于数据中含有html内容的新闻数据，使用停词表来忽略这部分新闻数据中的html内容；

对于长度过短的数据，在采集完新闻数据集后直接剔除这部分新闻数据。

5.根据权利要求1-4任一项所述的一种基于特征融合和双重分类的新闻文本分类方法，其特征在于：所述步骤1采集各类新闻文本数据以[content,channel Name,title]形式存放，设置10个新闻类别，分别为：财经、房产、教育、科技、军事、汽车、体育、游戏、娱乐、其他。