CN112256843A

CN112256843A - 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Info

Publication number: CN112256843A
Application number: CN202011521853.1A
Authority: CN
Inventors: 周会祥; 盛武平
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-01-22
Anticipated expiration: 2040-12-22
Also published as: CN112256843B

Abstract

本发明公开了一种基于TF‑IDF方法优化的新闻关键词提取方法及系统，包括新闻采集模块、新闻分类模块、用户管理模块。采用TF‑IDF‑MP算法对每篇新闻进行分类，并将分类结果存入对应类别中，TF‑IDF‑MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息，对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重，而对那些低于特征词词频均值的特征词降低权重，通过最终权重分评分，确定新闻关键词以实现对新闻进行分类。

Description

一种基于TF-IDF方法优化的新闻关键词提取方法及系统

技术领域

本发明涉及新闻关键词提取技术领域，尤其涉及一种基于TF-IDF方法优化的新闻关键词提取方法及系统。

背景技术

随着互联网的飞速发展，各种文本信息迅速扩张，面对如此海量的信息，人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩，用户可以通过阅读关键词快速明确文章主旨，从海量的文章中获取有用信息。关键词提取是信息处理领域的基础与核心技术，它在信息检索、话题跟踪、自动摘要、文本聚类、文本分类等领域都有着广泛的应用。

TF-IDF（Term Frequency–Inverse Document Frequency，词频-逆文档频率）是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。它的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF采用文本逆频率IDF对TF值加权取权值大的作为关键词，但IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TF-IDF算法的精度并不是很高，尤其是当文本集已经分类的情况下。TF-IDF算法主要有以下几个缺点：

缺陷/有哪些问题：

1、在文本分类过程中，根据TF-IDF算法，往往一些生僻词的IDF(逆文档频率)会比较高，因此这些生僻词常会被误认为是文档关键词；

2、TF-IDF算法容易受不平衡数据集影响，如某一类别的文档偏多，会导致IDF低估；

3、TF-IDF算法没有考虑不同类别之间与同类别之间特征词的分布偏差；

4、TF-IDF算法在计算特征词权重时没有考虑特征词的位置信息。

发明内容

本申请提供了一种基于TF-IDF方法优化的新闻关键词提取方法及系统。

一种基于TF-IDF方法优化的新闻关键词提取系统，包括新闻采集模块、新闻分类模块、用户管理模块；新闻采集模块，用于数据获取和数据的存储，主要是在网络上爬取数据，然后存入数据库中；新闻分类模块，用于新闻数据读取、新闻类目确认以及分类结果存储，通过编写代码从数据库中读取新闻，获取新闻的类别，采用TF-IDF-MP算法对每篇新闻进行分类，并将分类结果存入对应类别中；TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息，通过位置信息的权重赋值法，对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重，而对那些低于特征词词频均值的特征词降低权重，根据最终权重评分，确定新闻关键词以实现对新闻进行分类；用户管理模块，用于用户注册、用户登录以及用户信息修改。

优选的，根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较，若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数，则说明该特征词对这个文档的重要程度要比其他文档更高，应该赋予更大权重，反之赋予较小权重；然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理。

优选的，均值化词频M修改后的Sigmoid函数公式如下：

其中N _i,d为在文档d中特征词i出现的次数，

为特征词i在语料库文档中平均出现的次数。

优选的，特征词在特征词文档中的位置信息的权重赋值法是将特征词在文档中的位置信息作为位置权重因子，并结合词频-逆文档频率计算特征词最后的权重。

优选的，采用分词工具并进行词性标注，将文章第一段和最后一段出现的名词的位置权重因子设为P，其余特征词位置权重因子为1，定义位置权重因子Pi如下：

优选的，权重因子P最优取值为1.2，将文档第一段和最后一段出现的名词的位置权重因子设为1.2，其余特征词位置权重因子为1。

优选的，文档中特征词的位置信息与主题的关联程度以及样本不均衡数据集上的差异，加入均值化词频和特征词位置信息等参数，最终计算特征词权重的TF-IDF-MP公式如下：

其中

其中TF _i表示词i归一化处理后的值；

其中IDF _i表示词i归一化处理后的值，j表示数字，t_i表示词i的出现的次数，d_j表示第j 个文档，

是语料库中的文件总数，

表示包含词的文档数目（即

的文件数目），如果该关键词不在语料库中，就会导致分母为零，因此分母为

；

最终得到公式为：

一种基于TF-IDF方法优化的新闻关键词提取方法，包括以下步骤：

S1：数据集选择：编写完整爬虫代码，用于爬取互联网上的新闻；

S2：文本分词：采用分词工具对爬取的每篇新闻内容分词后再标注词性；

S3：去停用词：对数据集中的文档去除停用词；

S4：词频均值化：根据特征词在单个文档中出现的次数与该特征词在语料库文档中出现的平均次数进行比较，然后采用修改后的Sigmoid函数对特征词权重进行增加或者减少处理；

S5：段落加权：在初始范围内分类的准确率随段落中名词位置权重因子的增加而提高，但当位置权重因子达到一定数值时，该名词对文章实际的作用效果被夸大，降低分类准确率，因此位置权重因子存在一个准确率峰值；

S6：计算权值：结合TF-IDF-MP算法计算权值。

一种基于TF-IDF方法优化的新闻分类方法，选取每篇文档中权值最大的5个特征词，将其权重值添加到朴素贝叶斯算法中，计算出每篇文档属于各分类的概率，选择分类概率中的最大值作为最终类别。

有益效果：

本发明设置修改后的Sigmoid函数，通过对特征词在语料库中词频的分布情况根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较，若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数，则说明该特征词对这个文档的重要程度要比其他文档更高，应该赋予更大权重，反之赋予较小权重，然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理，以调整特征词词频差异，有效的减少了常用词给带来的误差。

设置特征词位置权重因子，从分类角度来看，文章的主题都会在第一段和最后一段表现出来，文章的开始和结束部分一般都会出现关键词，比较重要应该赋予这两部分的特征词更高的权值；本发明采用jieba分词并进行词性标注，将文章第一段和最后一段出现的名词的位置权重因子设为P，其余特征词位置权重因子为1，有效的提高了关键词提取的正确率。

附图说明

图1是本发明新闻关键词提取系统结构；

图2是本发明新闻关键词提取方法流程图；

图3是传统Sigmoid函数图像；

图4是本发明Sigmoid函数图像。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

传统的TF-IDF算法根据特征词词频和特征词的逆文档频率的乘积来进行权重计算，简单的认为词频高的特征词应该赋予较高权值，但一些日常用词，如“的”、“虽然”、“一些”等，在文档中出现的次数比较多，但对分类会产生负效果，赋值较大是不合理的。

本发明提供了一种基于TF-IDF方法优化的新闻关键词提取系统，包括新闻采集模块、新闻分类模块、用户管理模块；新闻采集模块，用于数据获取和数据的存储，主要是在网络上爬取数据，然后存入数据库中；新闻分类模块，用于新闻数据读取、新闻类目确认以及分类结果存储，通过编写代码从数据库中读取新闻，获取新闻的类别，采用TF-IDF-MP算法对每篇新闻进行分类，并将分类结果存入对应类别中；TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息，通过位置信息的权重赋值法，对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重，而对那些低于特征词词频均值的特征词降低权重，通过最终权重分评分，确定新闻关键词以实现对新闻进行分类；用户管理模块，用于用户注册、用户登录以及用户信息修改。

根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较，若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数，则说明该特征词对这个文档的重要程度要比其他文档更高，应该赋予更大权重，反之赋予较小权重；然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理。

Sigmoid函数的图像是一条单调递增平滑曲线，易于求导，值域在0和1之间，可以用来做二分类，在特征相差不是很大时结果比较好。传统Sigmoid函数的公式如下：

当横坐标为0时，纵坐标为0.5。在传统Sigmoid函数中，若直接将Sigmoid函数中的x替换为上述两者的差值，可发现当两者的差值相等时，即横坐标为0，特征词词频缩小为原先的二分之一，特征词的权重也缩小为原先的二分之一，这是不合理的，根据前面的描述，此时该特征词对这个文档的重要程度应与其他文档一致。

因此，在本发明中对Sigmoid函数进行了改进，修改后的公式如下：

当上述两者的差值相等时，此时纵坐标的值为1，表示特征词的权重与根据TF-IDF计算出的权重一致；当两者差值大于0或小于0时，此时纵坐标的值相应的大于1或小于1，符合本发明的要求。若将Sigmoid函数的分子改为3或者更大，可发现特征词的权重被放大很多倍，误差较大。为此本算法中将Sigmoid函数的分子改为2，可以有效地缩小特征词词频之间差异，使得关键词提取算法更加准确。为此，均值化词频(Mean Term Frequency，M)公式如下：

其中N _i,d为在文档d中特征词i出现的次数，

为特征词i在语料库文档中平均出现的次数。

若特征词出现单个文档中的次数低于该特征词出现在语料库文档中的平均次数，那么M值小于1，则最终权重降低，反之则权重增加。通过对词频均值化处理，可以降低常用词在词频上造成的影响。

特征词在特征词文档中的位置信息的权重赋值法是将特征词在文档中的位置信息作为位置权重因子，并结合词频-逆文档频率计算特征词最后的权重。

基本上文章的主题都会在第一段和最后一段表现出来，从分类角度来看，文章的开始和结束部分一般都会出现关键词，比较重要应该赋予这两部分的特征词更高的权值；

采用jieba分词并进行词性标注，将文章第一段和最后一段出现的名词的位置权重因子设为P，其余特征词位置权重因子为1，定义位置权重因子Pi如下：

权重因子P最优取值为1.2，将文档第一段和最后一段出现的名词的位置权重因子设为1.2，其余特征词位置权重因子为1。

文档中特征词的位置信息与主题的关联程度以及样本不均衡数据集上的差异，加入均值化词频和特征词位置信息等参数，最终计算特征词权重的TF-IDF-MP公式如下：

其中

其中TF _i表示词i归一化处理后的值；

是语料库中的文件总数，

表示包含词的文档数目（即

；

最终得到公式为：

S1：数据集选择：本发明利用Python编写了完整爬虫代码，用于爬取百度搜索新闻；

S2：文本分词：采用jieba分词工具对爬取的每篇新闻内容分词后再标注词性；

S3：去停用词：使用哈工大停用词表对数据集中的文档去除停用词；

S6：计算权值：结合TF-IDF-MP算法计算权值。

为验证新算法的有效性，本发明选取health，house，news，business等10个类别不同的文档各100篇作为测试集，使用TF-IDF、计算机技术与发展期刊29卷第七期《融合多因素的 TFIDF 关键词提取算法研究》提出的TF-IDF改进算法一、情报杂志33卷第4期《基于改进TF-IDF算法的情报关键词提取方法》中提出的TF-IDF改进算法二和本发明算法进行对比。采用精确率、召回率和F1值来评价函数性能，其定义如下：

（1）精确率Precision，表示分类结果全部预测为正的文档中正确的数量在总数的占比。计算公式如下：

（2）召回率Recall表示分类结果全部预测为正的文档中正确的数量占实际为正总数的比例。计算公式如下：

（3）F1值F-Score综合评价指标(F-Score)是精确率和召回率的调和均值，相当于精确率和召回率的综合评价指标，计算公式如下：

上述三个公式中，TP代表将实际为正类样本分类成正类样本的个数，TN代表将实际成负类样本分类成负类样本的个数，FP代表将实际为负类样本分类成正类样本的个数，FN代表将实际为正类样本分类成负类样本的个数。

通过精确率、召回率和F1值这三个评价指标对TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二与本发明改进算法进行比较分析，结果如表1所示。

表1 TF-IDF-MP算法和现有算法对比结果

通过表1可以发现，本发明提出的TF-IDF-MP算法要比TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二性能更优，三项评价指标都有了明显的提高，从而也验证了本发明算法的合理性。

通过精确率、召回率和F1值这三个评价指标对TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二与本发明改进算法并采用朴素贝叶斯算法分类后进行比较分析：

表2 TF-IDF-MP算法和现有算法对比结果

通过表2可以发现，采用朴素贝叶斯算法对提取的文档关键词进行分类后，精确率、召回率和F1评价指标值整体有一定提升。这是因为，本发明的文档数量虽然比较多，但只是对每篇文档中5个权值较大的特征词进行分类，数据规模比较小，分类效率稳定，更符合朴素贝叶斯的应用场景。

在《融合多因素的 TFIDF 关键词提取算法研究》中，综合考虑了特征词的位置、词性、词语关联性、词长和词跨度等因素，但并没有考虑因词频差异带来的问题，没有去掉文档中的停用词，不同位置的权重设置也不太合理，一篇文章中首段和尾段的位置权重应该设为一致，而且最后的权重计算应该是各个影响因素相乘，而不是相加，权重相乘更能减少特征词权重的差异，提高准确率。在《基于改进TF-IDF算法的情报关键词提取方法》中，综合考虑了位置权值及词跨度权值，但不同位置设置的权重值相差过大，也没有考虑特征词词频因素，容易增大误差。

TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息，对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重，而对那些低于特征词词频均值的特征词降低权重，使得TF-IDF-MP算法在提高关键词提取效果方面起到了积极作用。结果验证了本发明提出的TF-IDF-MP算法的合理性和可靠性，较相关算法，精确率、召回率和 F1值均得到较好的提升。

Claims

1.一种基于TF-IDF方法优化的新闻关键词提取系统，其特征在于：

包括新闻采集模块、新闻分类模块、用户管理模块；

新闻采集模块，用于数据获取和数据的存储，主要是在网络上爬取数据，然后存入数据库中；

新闻分类模块，用于新闻数据读取、新闻类目确认以及分类结果存储，通过编写代码从数据库中读取新闻，获取新闻的类别，采用TF-IDF-MP算法对每篇新闻进行分类，并将分类结果存入对应类别中；

TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息，通过位置信息的权重赋值法，对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重，而对那些低于特征词词频均值的特征词降低权重，通过最终权重分评分，确定新闻关键词以实现对新闻进行分类；

用户管理模块，用于用户注册、用户登录以及用户信息修改。

2.根据权利要求1所述的一种基于TF-IDF方法优化的新闻关键词提取系统，其特征在于：

3.根据权利要求2所述的一种基于TF-IDF方法优化的新闻关键词提取系统，其特征在于：

均值化词频M修改后的Sigmoid函数公式如下：