CN112256843A - 一种基于tf-idf方法优化的新闻关键词提取方法及系统 - Google Patents

一种基于tf-idf方法优化的新闻关键词提取方法及系统 Download PDF

Info

Publication number
CN112256843A
CN112256843A CN202011521853.1A CN202011521853A CN112256843A CN 112256843 A CN112256843 A CN 112256843A CN 202011521853 A CN202011521853 A CN 202011521853A CN 112256843 A CN112256843 A CN 112256843A
Authority
CN
China
Prior art keywords
word
news
document
weight
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011521853.1A
Other languages
English (en)
Other versions
CN112256843B (zh
Inventor
周会祥
盛武平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202011521853.1A priority Critical patent/CN112256843B/zh
Publication of CN112256843A publication Critical patent/CN112256843A/zh
Application granted granted Critical
Publication of CN112256843B publication Critical patent/CN112256843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于TF‑IDF方法优化的新闻关键词提取方法及系统,包括新闻采集模块、新闻分类模块、用户管理模块。采用TF‑IDF‑MP算法对每篇新闻进行分类,并将分类结果存入对应类别中,TF‑IDF‑MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息,对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重,而对那些低于特征词词频均值的特征词降低权重,通过最终权重分评分,确定新闻关键词以实现对新闻进行分类。

Description

一种基于TF-IDF方法优化的新闻关键词提取方法及系统
技术领域
本发明涉及新闻关键词提取技术领域,尤其涉及一种基于TF-IDF方法优化的新闻关键词提取方法及系统。
背景技术
随着互联网的飞速发展,各种文本信息迅速扩张,面对如此海量的信息,人们需要花费大量时间和精力对其进行挑选和甄别。关键词是一篇文章核心内容的体现和主题信息的浓缩,用户可以通过阅读关键词快速明确文章主旨,从海量的文章中获取有用信息。关键词提取是信息处理领域的基础与核心技术,它在信息检索、话题跟踪、自动摘要、文本聚类、文本分类等领域都有着广泛的应用。
TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率)是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估某个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。它的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF采用文本逆频率IDF对TF值加权取权值大的作为关键词,但IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF算法的精度并不是很高,尤其是当文本集已经分类的情况下。TF-IDF算法主要有以下几个缺点:
缺陷/有哪些问题:
1、在文本分类过程中,根据TF-IDF算法,往往一些生僻词的IDF(逆文档频率)会比较高,因此这些生僻词常会被误认为是文档关键词;
2、TF-IDF算法容易受不平衡数据集影响,如某一类别的文档偏多,会导致IDF低估;
3、TF-IDF算法没有考虑不同类别之间与同类别之间特征词的分布偏差;
4、TF-IDF算法在计算特征词权重时没有考虑特征词的位置信息。
发明内容
本申请提供了一种基于TF-IDF方法优化的新闻关键词提取方法及系统。
一种基于TF-IDF方法优化的新闻关键词提取系统,包括新闻采集模块、新闻分类模块、用户管理模块;新闻采集模块,用于数据获取和数据的存储,主要是在网络上爬取数据,然后存入数据库中;新闻分类模块,用于新闻数据读取、新闻类目确认以及分类结果存储,通过编写代码从数据库中读取新闻,获取新闻的类别,采用TF-IDF-MP算法对每篇新闻进行分类,并将分类结果存入对应类别中;TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息,通过位置信息的权重赋值法,对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重,而对那些低于特征词词频均值的特征词降低权重,根据最终权重评分,确定新闻关键词以实现对新闻进行分类;用户管理模块,用于用户注册、用户登录以及用户信息修改。
优选的,根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数,则说明该特征词对这个文档的重要程度要比其他文档更高,应该赋予更大权重,反之赋予较小权重;然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理。
优选的,均值化词频M修改后的Sigmoid函数公式如下:
Figure 201412DEST_PATH_IMAGE001
其中N i,d 为在文档d中特征词i出现的次数,
Figure 180870DEST_PATH_IMAGE002
为特征词i在语料库文档中平均出现的 次数。
优选的,特征词在特征词文档中的位置信息的权重赋值法是将特征词在文档中的位置信息作为位置权重因子,并结合词频-逆文档频率计算特征词最后的权重。
优选的,采用分词工具并进行词性标注,将文章第一段和最后一段出现的名词的位置权重因子设为P,其余特征词位置权重因子为1,定义位置权重因子Pi如下:
Figure 960607DEST_PATH_IMAGE003
优选的,权重因子P最优取值为1.2,将文档第一段和最后一段出现的名词的位置权重因子设为1.2,其余特征词位置权重因子为1。
优选的,文档中特征词的位置信息与主题的关联程度以及样本不均衡数据集上的差异,加入均值化词频和特征词位置信息等参数,最终计算特征词权重的TF-IDF-MP公式如下:
Figure 418133DEST_PATH_IMAGE004
其中
Figure 232505DEST_PATH_IMAGE005
其中TF i 表示词i归一化处理后的值;
Figure 615820DEST_PATH_IMAGE006
其中IDF i 表示词i归一化处理后的值,j表示数字,ti表示词i的出现的次数,dj表示第j 个文档,
Figure 882853DEST_PATH_IMAGE007
是语料库中的文件总数,
Figure 81753DEST_PATH_IMAGE008
表示包含词的文档数目(即
Figure 812949DEST_PATH_IMAGE009
的文 件数目),如果该关键词不在语料库中,就会导致分母为零,因此分母为
Figure 806313DEST_PATH_IMAGE010
最终得到公式为:
Figure 560642DEST_PATH_IMAGE011
一种基于TF-IDF方法优化的新闻关键词提取方法,包括以下步骤:
S1:数据集选择:编写完整爬虫代码,用于爬取互联网上的新闻;
S2:文本分词:采用分词工具对爬取的每篇新闻内容分词后再标注词性;
S3:去停用词:对数据集中的文档去除停用词;
S4:词频均值化:根据特征词在单个文档中出现的次数与该特征词在语料库文档中出现的平均次数进行比较,然后采用修改后的Sigmoid函数对特征词权重进行增加或者减少处理;
S5:段落加权:在初始范围内分类的准确率随段落中名词位置权重因子的增加而提高,但当位置权重因子达到一定数值时,该名词对文章实际的作用效果被夸大,降低分类准确率,因此位置权重因子存在一个准确率峰值;
S6:计算权值:结合TF-IDF-MP算法计算权值。
一种基于TF-IDF方法优化的新闻分类方法,选取每篇文档中权值最大的5个特征词,将其权重值添加到朴素贝叶斯算法中,计算出每篇文档属于各分类的概率,选择分类概率中的最大值作为最终类别。
有益效果:
本发明设置修改后的Sigmoid函数,通过对特征词在语料库中词频的分布情况根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数,则说明该特征词对这个文档的重要程度要比其他文档更高,应该赋予更大权重,反之赋予较小权重,然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理,以调整特征词词频差异,有效的减少了常用词给带来的误差。
设置特征词位置权重因子,从分类角度来看,文章的主题都会在第一段和最后一段表现出来,文章的开始和结束部分一般都会出现关键词,比较重要应该赋予这两部分的特征词更高的权值;本发明采用jieba分词并进行词性标注,将文章第一段和最后一段出现的名词的位置权重因子设为P,其余特征词位置权重因子为1,有效的提高了关键词提取的正确率。
附图说明
图1是本发明新闻关键词提取系统结构;
图2是本发明新闻关键词提取方法流程图;
图3是传统Sigmoid函数图像;
图4是本发明Sigmoid函数图像。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
传统的TF-IDF算法根据特征词词频和特征词的逆文档频率的乘积来进行权重计算,简单的认为词频高的特征词应该赋予较高权值,但一些日常用词,如“的”、“虽然”、“一些”等,在文档中出现的次数比较多,但对分类会产生负效果,赋值较大是不合理的。
本发明提供了一种基于TF-IDF方法优化的新闻关键词提取系统,包括新闻采集模块、新闻分类模块、用户管理模块;新闻采集模块,用于数据获取和数据的存储,主要是在网络上爬取数据,然后存入数据库中;新闻分类模块,用于新闻数据读取、新闻类目确认以及分类结果存储,通过编写代码从数据库中读取新闻,获取新闻的类别,采用TF-IDF-MP算法对每篇新闻进行分类,并将分类结果存入对应类别中;TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息,通过位置信息的权重赋值法,对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重,而对那些低于特征词词频均值的特征词降低权重,通过最终权重分评分,确定新闻关键词以实现对新闻进行分类;用户管理模块,用于用户注册、用户登录以及用户信息修改。
根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数,则说明该特征词对这个文档的重要程度要比其他文档更高,应该赋予更大权重,反之赋予较小权重;然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理。
Sigmoid函数的图像是一条单调递增平滑曲线,易于求导,值域在0和1之间,可以用来做二分类,在特征相差不是很大时结果比较好。传统Sigmoid函数的公式如下:
Figure 359971DEST_PATH_IMAGE012
当横坐标为0时,纵坐标为0.5。在传统Sigmoid函数中,若直接将Sigmoid函数中的x替换为上述两者的差值,可发现当两者的差值相等时,即横坐标为0,特征词词频缩小为原先的二分之一,特征词的权重也缩小为原先的二分之一,这是不合理的,根据前面的描述,此时该特征词对这个文档的重要程度应与其他文档一致。
因此,在本发明中对Sigmoid函数进行了改进,修改后的公式如下:
Figure 883356DEST_PATH_IMAGE013
当上述两者的差值相等时,此时纵坐标的值为1,表示特征词的权重与根据TF-IDF计算出的权重一致;当两者差值大于0或小于0时,此时纵坐标的值相应的大于1或小于1,符合本发明的要求。若将Sigmoid函数的分子改为3或者更大,可发现特征词的权重被放大很多倍,误差较大。为此本算法中将Sigmoid函数的分子改为2,可以有效地缩小特征词词频之间差异,使得关键词提取算法更加准确。为此,均值化词频(Mean Term Frequency,M)公式如下:
Figure 375517DEST_PATH_IMAGE014
其中N i,d 为在文档d中特征词i出现的次数,
Figure 617143DEST_PATH_IMAGE015
为特征词i在语料库文档中平均出现的 次数。
若特征词出现单个文档中的次数低于该特征词出现在语料库文档中的平均次数,那么M值小于1,则最终权重降低,反之则权重增加。通过对词频均值化处理,可以降低常用词在词频上造成的影响。
特征词在特征词文档中的位置信息的权重赋值法是将特征词在文档中的位置信息作为位置权重因子,并结合词频-逆文档频率计算特征词最后的权重。
基本上文章的主题都会在第一段和最后一段表现出来,从分类角度来看,文章的开始和结束部分一般都会出现关键词,比较重要应该赋予这两部分的特征词更高的权值;
采用jieba分词并进行词性标注,将文章第一段和最后一段出现的名词的位置权重因子设为P,其余特征词位置权重因子为1,定义位置权重因子Pi如下:
Figure 892266DEST_PATH_IMAGE016
权重因子P最优取值为1.2,将文档第一段和最后一段出现的名词的位置权重因子设为1.2,其余特征词位置权重因子为1。
文档中特征词的位置信息与主题的关联程度以及样本不均衡数据集上的差异,加入均值化词频和特征词位置信息等参数,最终计算特征词权重的TF-IDF-MP公式如下:
Figure 535737DEST_PATH_IMAGE004
其中
Figure 434685DEST_PATH_IMAGE017
其中TF i 表示词i归一化处理后的值;
Figure 163607DEST_PATH_IMAGE018
其中IDF i 表示词i归一化处理后的值,j表示数字,ti表示词i的出现的次数,dj表示第j 个文档,
Figure 242421DEST_PATH_IMAGE019
是语料库中的文件总数,
Figure 802716DEST_PATH_IMAGE020
表示包含词的文档数目(即
Figure 574363DEST_PATH_IMAGE021
的文 件数目),如果该关键词不在语料库中,就会导致分母为零,因此分母为
Figure 525001DEST_PATH_IMAGE022
最终得到公式为:
Figure 469823DEST_PATH_IMAGE023
一种基于TF-IDF方法优化的新闻关键词提取方法,包括以下步骤:
S1:数据集选择:本发明利用Python编写了完整爬虫代码,用于爬取百度搜索新闻;
S2:文本分词:采用jieba分词工具对爬取的每篇新闻内容分词后再标注词性;
S3:去停用词:使用哈工大停用词表对数据集中的文档去除停用词;
S4:词频均值化:根据特征词在单个文档中出现的次数与该特征词在语料库文档中出现的平均次数进行比较,然后采用修改后的Sigmoid函数对特征词权重进行增加或者减少处理;
S5:段落加权:在初始范围内分类的准确率随段落中名词位置权重因子的增加而提高,但当位置权重因子达到一定数值时,该名词对文章实际的作用效果被夸大,降低分类准确率,因此位置权重因子存在一个准确率峰值;
S6:计算权值:结合TF-IDF-MP算法计算权值。
为验证新算法的有效性,本发明选取health,house,news,business等10个类别不同的文档各100篇作为测试集,使用TF-IDF、计算机技术与发展期刊29卷第七期《融合多因素的 TFIDF 关键词提取算法研究》提出的TF-IDF改进算法一、情报杂志33卷第4期《基于改进TF-IDF算法的情报关键词提取方法》中提出的TF-IDF改进算法二和本发明算法进行对比。采用精确率、召回率和F1值来评价函数性能,其定义如下:
(1)精确率Precision,表示分类结果全部预测为正的文档中正确的数量在总数的占比。计算公式如下:
Figure 822307DEST_PATH_IMAGE024
(2)召回率Recall表示分类结果全部预测为正的文档中正确的数量占实际为正总数的比例。计算公式如下:
Figure 764856DEST_PATH_IMAGE025
(3)F1值F-Score综合评价指标(F-Score)是精确率和召回率的调和均值,相当于精确率和召回率的综合评价指标,计算公式如下:
Figure 265107DEST_PATH_IMAGE026
上述三个公式中,TP代表将实际为正类样本分类成正类样本的个数,TN代表将实际成负类样本分类成负类样本的个数,FP代表将实际为负类样本分类成正类样本的个数,FN代表将实际为正类样本分类成负类样本的个数。
通过精确率、召回率和F1值这三个评价指标对TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二与本发明改进算法进行比较分析,结果如表1所示。
表1 TF-IDF-MP算法和现有算法对比结果
Figure 685724DEST_PATH_IMAGE027
通过表1可以发现,本发明提出的TF-IDF-MP算法要比TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二性能更优,三项评价指标都有了明显的提高,从而也验证了本发明算法的合理性。
通过精确率、召回率和F1值这三个评价指标对TF-IDF算法、TF-IDF改进算法一、TF-IDF改进算法二与本发明改进算法并采用朴素贝叶斯算法分类后进行比较分析:
表2 TF-IDF-MP算法和现有算法对比结果
Figure 158294DEST_PATH_IMAGE028
通过表2可以发现,采用朴素贝叶斯算法对提取的文档关键词进行分类后,精确率、召回率和F1评价指标值整体有一定提升。这是因为,本发明的文档数量虽然比较多,但只是对每篇文档中5个权值较大的特征词进行分类,数据规模比较小,分类效率稳定,更符合朴素贝叶斯的应用场景。
在《融合多因素的 TFIDF 关键词提取算法研究》中,综合考虑了特征词的位置、词性、词语关联性、词长和词跨度等因素,但并没有考虑因词频差异带来的问题,没有去掉文档中的停用词,不同位置的权重设置也不太合理,一篇文章中首段和尾段的位置权重应该设为一致,而且最后的权重计算应该是各个影响因素相乘,而不是相加,权重相乘更能减少特征词权重的差异,提高准确率。在《基于改进TF-IDF算法的情报关键词提取方法》中,综合考虑了位置权值及词跨度权值,但不同位置设置的权重值相差过大,也没有考虑特征词词频因素,容易增大误差。
TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息,对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重,而对那些低于特征词词频均值的特征词降低权重,使得TF-IDF-MP算法在提高关键词提取效果方面起到了积极作用。结果验证了本发明提出的TF-IDF-MP算法的合理性和可靠性,较相关算法,精确率、召回率和 F1值均得到较好的提升。

Claims (8)

1.一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
包括新闻采集模块、新闻分类模块、用户管理模块;
新闻采集模块,用于数据获取和数据的存储,主要是在网络上爬取数据,然后存入数据库中;
新闻分类模块,用于新闻数据读取、新闻类目确认以及分类结果存储,通过编写代码从数据库中读取新闻,获取新闻的类别,采用TF-IDF-MP算法对每篇新闻进行分类,并将分类结果存入对应类别中;
TF-IDF-MP算法结合特征词在语料库中词频的分布情况和在特征词文档中的位置信息,通过位置信息的权重赋值法,对那些在文档中出现高于特征词词频均值的特征词和更能体现文档主题的文档第一段以及最后一段的名词赋予较高的权重,而对那些低于特征词词频均值的特征词降低权重,通过最终权重分评分,确定新闻关键词以实现对新闻进行分类;
用户管理模块,用于用户注册、用户登录以及用户信息修改。
2.根据权利要求1所述的一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
根据特征词在单个文档中出现的次数与该特征词在语料库所有文档中出现的平均次数进行比较,若某个特征词在单个文档中出现的次数大于出现在语料库文档的平均次数,则说明该特征词对这个文档的重要程度要比其他文档更高,应该赋予更大权重,反之赋予较小权重;然后采用均值化词频修改后的Sigmoid函数对两者的差值进行处理。
3.根据权利要求2所述的一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
均值化词频M修改后的Sigmoid函数公式如下:
Figure 946548DEST_PATH_IMAGE001
其中N i,d 为在文档d中特征词i出现的次数,
Figure 456068DEST_PATH_IMAGE002
为特征词i在语料库文档中平均出现的 次数。
4.根据权利要求3所述的一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
位置信息的权重赋值法是将特征词在文档中的位置信息作为位置权重因子,并结合词频-逆文档频率计算特征词最后的权重。
5.根据权利要求4所述的一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
采用分词工具并进行词性标注,将文章第一段和最后一段出现的名词的位置权重因子设为P,其余特征词位置权重因子为1,定义位置权重因子Pi如下:
Figure 680376DEST_PATH_IMAGE003
权重因子P最优取值为1.2,将文档第一段和最后一段出现的名词的位置权重因子设为1.2,其余特征词位置权重因子为1。
6.根据权利要求5所述的一种基于TF-IDF方法优化的新闻关键词提取系统,其特征在于:
文档中特征词的位置信息与主题的关联程度以及样本不均衡数据集上的差异,加入均值化词频和特征词位置信息等参数,最终计算特征词权重的TF-IDF-MP公式如下:
Figure 741873DEST_PATH_IMAGE004
其中
Figure 88541DEST_PATH_IMAGE005
其中TF i 表示词i归一化处理后的值;
Figure 501067DEST_PATH_IMAGE006
其中IDF i 表示词i归一化处理后的值,j表示数字,ti表示词i的出现的次数,dj表示第j 个文档,
Figure 529066DEST_PATH_IMAGE007
是语料库中的文件总数,
Figure 772966DEST_PATH_IMAGE008
表示包含词的文档数目(即
Figure 962639DEST_PATH_IMAGE009
的文件数目),如果该关键词不在语料库中,就会导致分母为零,因此分母为
Figure 862462DEST_PATH_IMAGE010
最终得到公式为:
Figure 490889DEST_PATH_IMAGE011
7.一种基于TF-IDF方法优化的新闻关键词提取方法,其特征在于:
包括以下步骤:
S1:数据集选择:编写完整爬虫代码,用于爬取互联网上的新闻;
S2:文本分词:采用分词工具对爬取的每篇新闻内容分词后再标注词性;
S3:去停用词:对数据集中的文档去除停用词;
S4:词频均值化:根据特征词在单个文档中出现的次数与该特征词在语料库文档中出现的平均次数进行比较,然后采用修改后的Sigmoid函数对特征词权重进行增加或者减少处理;
S5:段落加权:在初始范围内分类的准确率随段落中名词位置权重因子的增加而提高,但当位置权重因子达到一定数值时,该名词对文章实际的作用效果被夸大,降低分类准确率,因此位置权重因子存在一个准确率峰值;
S6:计算权值:结合TF-IDF-MP算法计算权值。
8.一种基于TF-IDF方法优化的新闻分类方法,其特征在于:
采用权利要求7所述的方法,选取每篇文档中权值最大的5个特征词,将其权重值添加到朴素贝叶斯算法中,计算出每篇文档属于各分类的概率,选择分类概率中的最大值作为最终类别。
CN202011521853.1A 2020-12-22 2020-12-22 一种基于tf-idf方法优化的新闻关键词提取方法及系统 Active CN112256843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011521853.1A CN112256843B (zh) 2020-12-22 2020-12-22 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011521853.1A CN112256843B (zh) 2020-12-22 2020-12-22 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Publications (2)

Publication Number Publication Date
CN112256843A true CN112256843A (zh) 2021-01-22
CN112256843B CN112256843B (zh) 2021-04-20

Family

ID=74225418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011521853.1A Active CN112256843B (zh) 2020-12-22 2020-12-22 一种基于tf-idf方法优化的新闻关键词提取方法及系统

Country Status (1)

Country Link
CN (1) CN112256843B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905771A (zh) * 2021-02-10 2021-06-04 北京邮电大学 基于词性和位置的特征关键词提取方法
CN113641801A (zh) * 2021-10-19 2021-11-12 成都中航信虹科技股份有限公司 一种语音调度系统的控制方法、系统及电子设备
CN113704398A (zh) * 2021-08-05 2021-11-26 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法
CN116188120A (zh) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 一种有声书的推荐方法、装置、系统及存储介质
CN116186067A (zh) * 2023-04-27 2023-05-30 浪潮云洲(山东)工业互联网有限公司 一种工业数据表存储查询方法及设备
CN114996446B (zh) * 2022-05-18 2023-08-25 苏州大学 一种文本分类方法、装置及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033922A (zh) * 2010-12-14 2011-04-27 哈尔滨工业大学 一种基于词汇链的关键短语抽取方法
CN102510375A (zh) * 2011-10-12 2012-06-20 盛乐信息技术(上海)有限公司 语音记事的标题展示方法及系统
CN104699696A (zh) * 2013-12-05 2015-06-10 深圳市腾讯计算机系统有限公司 文件推荐方法和装置
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
US9852478B2 (en) * 2014-08-20 2017-12-26 International Business Machines Corporation Identifying influencers in computer networks
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法
US10176260B2 (en) * 2014-02-12 2019-01-08 Regents Of The University Of Minnesota Measuring semantic incongruity within text data
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033922A (zh) * 2010-12-14 2011-04-27 哈尔滨工业大学 一种基于词汇链的关键短语抽取方法
CN102510375A (zh) * 2011-10-12 2012-06-20 盛乐信息技术(上海)有限公司 语音记事的标题展示方法及系统
CN104699696A (zh) * 2013-12-05 2015-06-10 深圳市腾讯计算机系统有限公司 文件推荐方法和装置
US10176260B2 (en) * 2014-02-12 2019-01-08 Regents Of The University Of Minnesota Measuring semantic incongruity within text data
US9852478B2 (en) * 2014-08-20 2017-12-26 International Business Machines Corporation Identifying influencers in computer networks
CN106598940A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 基于全局优化关键词质量的文本相似度求解算法
CN108733816A (zh) * 2018-05-21 2018-11-02 重庆人文科技学院 一种微博突发事件检测方法
CN109766408A (zh) * 2018-12-04 2019-05-17 上海大学 综合词位置因素和词频因素的文本关键词权重计算方法
CN110399483A (zh) * 2019-06-12 2019-11-01 五八有限公司 一种主题分类方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛永洁 等: "融合多因素的 TFIDF 关键词提取算法研究", 《计算机技术与发展》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905771A (zh) * 2021-02-10 2021-06-04 北京邮电大学 基于词性和位置的特征关键词提取方法
CN113704398A (zh) * 2021-08-05 2021-11-26 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113704398B (zh) * 2021-08-05 2024-07-23 上海万物新生环保科技集团有限公司 一种关键词提取的方法及设备
CN113722428A (zh) * 2021-08-10 2021-11-30 哈尔滨工业大学 一种基于关键词挖掘新闻的时代特征提取方法
CN113641801A (zh) * 2021-10-19 2021-11-12 成都中航信虹科技股份有限公司 一种语音调度系统的控制方法、系统及电子设备
CN114996446B (zh) * 2022-05-18 2023-08-25 苏州大学 一种文本分类方法、装置及存储介质
CN116186067A (zh) * 2023-04-27 2023-05-30 浪潮云洲(山东)工业互联网有限公司 一种工业数据表存储查询方法及设备
CN116188120A (zh) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 一种有声书的推荐方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN112256843B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112256843B (zh) 一种基于tf-idf方法优化的新闻关键词提取方法及系统
Christian et al. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)
Elghazaly et al. Political sentiment analysis using twitter data
Chaovalit et al. Movie review mining: A comparison between supervised and unsupervised classification approaches
CN109960756B (zh) 新闻事件信息归纳方法
CN112035658B (zh) 基于深度学习的企业舆情监测方法
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
Pan et al. An improved TextRank keywords extraction algorithm
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN103678422A (zh) 网页分类方法和装置、网页分类器的训练方法和装置
Ramprasath et al. A survey on question answering system
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
Ao et al. News keywords extraction algorithm based on TextRank and classified TF-IDF
Gao et al. Sentiment classification for stock news
Mouratidis et al. Domain-specific term extraction: a case study on Greek Maritime legal texts
CN110347977A (zh) 一种基于lda模型的新闻自动标签方法
Balaneshin-kordan et al. Sequential query expansion using concept graph
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
Osanyin et al. A review on web page classification
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
El-Halees et al. Ontology based Arabic opinion mining
Hynek et al. Practical Approach to Automatic Text Summarization.
Khalaf et al. News retrieval based on short queries expansion and best matching
Balog et al. Resolving person names in web people search
Li et al. Keyphrase extraction and grouping based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant