CN111062212B - 一种基于优化tfidf的特征提取方法及系统 - Google Patents

一种基于优化tfidf的特征提取方法及系统 Download PDF

Info

Publication number
CN111062212B
CN111062212B CN202010189034.5A CN202010189034A CN111062212B CN 111062212 B CN111062212 B CN 111062212B CN 202010189034 A CN202010189034 A CN 202010189034A CN 111062212 B CN111062212 B CN 111062212B
Authority
CN
China
Prior art keywords
text
distribution factor
variance
words
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010189034.5A
Other languages
English (en)
Other versions
CN111062212A (zh
Inventor
张鑫明
白冬立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hot Cloud Technology Co ltd
Original Assignee
Beijing Hot Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hot Cloud Technology Co ltd filed Critical Beijing Hot Cloud Technology Co ltd
Priority to CN202010189034.5A priority Critical patent/CN111062212B/zh
Publication of CN111062212A publication Critical patent/CN111062212A/zh
Application granted granted Critical
Publication of CN111062212B publication Critical patent/CN111062212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于优化TFIDF的特征提取方法及系统,其中方法包括对文本进行分词处理并计算TF和IDF值,还包括以下步骤:记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 117199DEST_PATH_IMAGE001
;记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 362236DEST_PATH_IMAGE002
;分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 610814DEST_PATH_IMAGE003
;对所述TF和IDF值的权重值、所述类别分布因子
Figure 333920DEST_PATH_IMAGE001
、所述类间分布因子
Figure 476188DEST_PATH_IMAGE002
和所述方差分布因子
Figure 501913DEST_PATH_IMAGE003
进行归一化计算,得到优化后的权重值。本发明提出的基于优化TFIDF的特征提取方法及系统,基于词频分布信息和TFIDF类别分布信息提出三个分布因子,三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量,同时每个因子的值和权重成正相关,以乘积的形式计算最终值。

Description

一种基于优化TFIDF的特征提取方法及系统
技术领域
本发明涉及文本词特征提取的技术领域,特别是一种基于优化TFIDF的特征提取方法及系统。
背景技术
随着互联网的普及和迅猛发展,网络上产生了海量的文本信息。为满足用户在海量数据背景下对信息的多样化需求,需要对文本数据进行有效分类。文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类通常把文本信息转换为特征向量。由于文本集中的任何单词项都可能成为特征词,因此会造成最终的特征向量维度过高进而影响分类结果。常用的特征空间降维方法是特征提取。
TFIDF(Term Frequency and Inverted Document Frequency)算法是较为常用的文本特征提取方法。目前针对TFIDF算法已经出现许多改进方法。2017年9月的北京理工大学学报第37卷第9期公开了赵胜辉、李吉月、徐碧和孙博研的《基于TFIDF的社区问答系统问句相似度改进算法》的文章,该文针对社区问答系统,按照用户的查询意图对问句进行分类后,根据特征词在类别中的分布对权值进行调整。2013年的计算机工程与应用第49期公开了郭红钰的《基于信息熵理论的特征权重算法研究》考虑到特征词在文档中出现的频率及该特征词在训练集中的集中度和在各个类别中的分散度提出了基于信息熵理论的特征权重算法。2018年的Advances in Intelligent Systems and Computing, vol 905.公开了Yanpeng Wang、Dehai Zhang和Ye Yuan的《Research and Improvement of TF-IDFAlgorithm Based on Information Theory》提出一种以信息论中的信息熵和相对熵为计算因子的TFIDF改进算法。2016年的Pattern Recognition Letters 上公开了 Chien-Hsing Chen的《Improved TFIDF in big news retrieval: An empirical study》提出一种新的基于距离的特征词加权方法,此算法在新闻分类和聚类方面表现更加突出。以上算法都考虑了分类文本集中的特征词关于类别间的优化计算,但是在单个文本具有大量词汇的不平衡数据集中,以上算法不能有效计算出精准权重。
发明内容
为了解决上述的技术问题,本发明提出的基于优化TFIDF的特征提取方法及系统,基于词频分布信息和TFIDF类别分布信息提出三个分布因子,三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量,同时每个因子的值和权重成正相关,以乘积的形式计算最终值。
本发明的第一目的是提供一种基于优化TFIDF的特征提取方法,包括对文本进行分词处理并计算TF和IDF值的权重值,还包括以下步骤:
步骤1:记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 575741DEST_PATH_IMAGE001
步骤2:记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 289619DEST_PATH_IMAGE002
步骤3:分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 990728DEST_PATH_IMAGE003
步骤4:对所述TF和IDF值的权重值、所述类别分布因子
Figure 917095DEST_PATH_IMAGE001
、所述类间分布因子
Figure 262626DEST_PATH_IMAGE002
和所述方差分布因子
Figure 147406DEST_PATH_IMAGE003
进行归一化计算,得到优化后的权重值。
优选的是,所述对文本进行分词处理并计算TF和IDF值步骤包括以下子步骤:
步骤01:选择数据集并使用结巴分词对文本进行分词处理;
步骤02:读取停用词文件,去除停用词;
步骤03:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值,所述TF和IDF值的权重值的计算公式为
Figure 476756DEST_PATH_IMAGE004
其中,
Figure 941235DEST_PATH_IMAGE005
为特征词
Figure 938010DEST_PATH_IMAGE006
在文本
Figure 993691DEST_PATH_IMAGE007
中的权重值,
Figure 13599DEST_PATH_IMAGE008
Figure 812928DEST_PATH_IMAGE009
为特征词
Figure 867472DEST_PATH_IMAGE006
在文本
Figure 625212DEST_PATH_IMAGE007
中出现的频率,
Figure 663575DEST_PATH_IMAGE010
为特征词
Figure 469857DEST_PATH_IMAGE006
的文本数量关于总文本数量逆文档频率,
Figure 175645DEST_PATH_IMAGE011
表示文本
Figure 228921DEST_PATH_IMAGE007
中特征词
Figure 20159DEST_PATH_IMAGE012
出现的次数,
Figure 426870DEST_PATH_IMAGE013
表示文本
Figure 987164DEST_PATH_IMAGE014
中第k个特征词
Figure 821128DEST_PATH_IMAGE015
出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词
Figure 37345DEST_PATH_IMAGE006
的文本数,k为一个文本中特征词的编号,j为文本编号。
在上述任一方案中优选的是,对所述TF和IDF值的权重值进行归一化处理,公式为
Figure 247747DEST_PATH_IMAGE016
在上述任一方案中优选的是,所述类别分布因子
Figure 131389DEST_PATH_IMAGE001
的计算公式为
Figure 339517DEST_PATH_IMAGE017
,其中,
Figure 105347DEST_PATH_IMAGE018
为类
Figure 791544DEST_PATH_IMAGE019
中所有文档的数量。
在上述任一方案中优选的是,所述类间分布因子
Figure 326430DEST_PATH_IMAGE002
的计算公式为
Figure 502197DEST_PATH_IMAGE020
,其中,
Figure 755323DEST_PATH_IMAGE021
为类
Figure 838686DEST_PATH_IMAGE019
中包含特征词
Figure 228079DEST_PATH_IMAGE015
的文本个数,
Figure 43588DEST_PATH_IMAGE022
为所有包含特征词
Figure 721694DEST_PATH_IMAGE015
的文本个数。
在上述任一方案中优选的是,所述方差分布因子
Figure 77589DEST_PATH_IMAGE003
的计算公式为
Figure 321489DEST_PATH_IMAGE023
,其中,
Figure 42320DEST_PATH_IMAGE024
表示特征词在第
Figure 4460DEST_PATH_IMAGE025
个文本中的方差值,m表示文本总个数。
在上述任一方案中优选的是,所述总体方差
Figure 921904DEST_PATH_IMAGE026
的计算公式为
Figure 285889DEST_PATH_IMAGE027
,其中,
Figure 505518DEST_PATH_IMAGE028
表示特征词
Figure 158216DEST_PATH_IMAGE015
在文档中出现的位置,
Figure 855914DEST_PATH_IMAGE029
表示总体均值,n3表示特征词
Figure 12089DEST_PATH_IMAGE015
在文档中出现的总个数。
在上述任一方案中优选的是,所述步骤4包括根据所述类别分布因子
Figure 137040DEST_PATH_IMAGE001
、所述类间分布因子
Figure 339351DEST_PATH_IMAGE002
和所述方差分布因子
Figure 637477DEST_PATH_IMAGE003
,计算得到改进权重TFIDF-CV,公式为
Figure 913737DEST_PATH_IMAGE030
其中,n为文本语料库中包含特征词
Figure 209590DEST_PATH_IMAGE006
的文本数,m表示文本总个数。
在上述任一方案中优选的是,所述归一化处理的公式为
Figure 368038DEST_PATH_IMAGE031
本发明的第二目的是提供一种基于优化TFIDF的特征提取系统,包括用于对文本进行分词处理并计算TF和IDF值的权重值的文本处理模块,还包括以下模块:
类别分布因子计算模块:用于记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 141959DEST_PATH_IMAGE001
类间分布因子计算模块:用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 272726DEST_PATH_IMAGE002
方差分布因子计算模块:用于分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 739480DEST_PATH_IMAGE003
归一化计算模块:用于对所述TF和IDF值的权重值、所述类别分布因子
Figure 588487DEST_PATH_IMAGE001
、所述类间分布因子
Figure 962837DEST_PATH_IMAGE002
和所述方差分布因子
Figure 276006DEST_PATH_IMAGE003
进行归一化计算,得到优化后的权重值;
所述系统采用如第一目的所述的方法进行特征提取。
优选的是,所述文本处理模块包括以下子模块:
分词处理子模块:用于选择数据集并使用结巴分词对文本进行分词处理;
停用词处理子模块:用于读取停用词文件,去除停用词;
计算子模块:用于读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。
在上述任一方案中优选的是,所述TF和IDF值的的权重值计算公式为
Figure 648082DEST_PATH_IMAGE004
其中,
Figure 781123DEST_PATH_IMAGE005
为特征词
Figure 896847DEST_PATH_IMAGE006
在文本
Figure 267785DEST_PATH_IMAGE007
中的权重值,
Figure 810762DEST_PATH_IMAGE008
Figure 368782DEST_PATH_IMAGE009
为特征词
Figure 553776DEST_PATH_IMAGE006
在文本
Figure 513642DEST_PATH_IMAGE007
中出现的频率,
Figure 493099DEST_PATH_IMAGE010
为特征词
Figure 803994DEST_PATH_IMAGE006
的文本数量关于总文本数量逆文档频率,
Figure 730362DEST_PATH_IMAGE011
表示文本
Figure 607051DEST_PATH_IMAGE007
中特征词
Figure 960672DEST_PATH_IMAGE012
出现的次数,
Figure 758864DEST_PATH_IMAGE032
表示文本
Figure 816819DEST_PATH_IMAGE014
中第k个特征词
Figure 485697DEST_PATH_IMAGE015
出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词
Figure 275799DEST_PATH_IMAGE006
的文本数,k为一个文本中特征词的编号,j为文本编号。
在上述任一方案中优选的是,对所述TF和IDF值的权重值进行归一化处理,公式为
Figure 623604DEST_PATH_IMAGE016
在上述任一方案中优选的是,所述类别分布因子
Figure 891774DEST_PATH_IMAGE001
的计算公式为
Figure 743055DEST_PATH_IMAGE017
,其中,
Figure 438479DEST_PATH_IMAGE018
为类
Figure 945684DEST_PATH_IMAGE019
中所有文档的数量。
在上述任一方案中优选的是,所述类间分布因子
Figure 814282DEST_PATH_IMAGE002
的计算公式为
Figure 988912DEST_PATH_IMAGE020
,其中,
Figure 386395DEST_PATH_IMAGE021
为类
Figure 646475DEST_PATH_IMAGE019
中包含特征词
Figure 990869DEST_PATH_IMAGE015
的文本个数,
Figure 816742DEST_PATH_IMAGE022
为所有包含特征词
Figure 588389DEST_PATH_IMAGE015
的文本个数。
在上述任一方案中优选的是,所述方差分布因子
Figure 335765DEST_PATH_IMAGE003
的计算公式为
Figure 546167DEST_PATH_IMAGE023
,其中,
Figure 429809DEST_PATH_IMAGE024
表示特征词在第
Figure 637937DEST_PATH_IMAGE025
个文本中的方差值,m表示文本总个数。
在上述任一方案中优选的是,所述总体方差
Figure 403767DEST_PATH_IMAGE026
的计算公式为
Figure 355543DEST_PATH_IMAGE027
,其中,
Figure 93692DEST_PATH_IMAGE028
表示特征词
Figure 3879DEST_PATH_IMAGE015
在文档中出现的位置,
Figure 460268DEST_PATH_IMAGE029
表示总体均值,n3表示特征词
Figure 12472DEST_PATH_IMAGE015
在文档中出现的总个数。
在上述任一方案中优选的是,所述归一化计算模块还用于根据所述类别分布因子
Figure 605128DEST_PATH_IMAGE001
、所述类间分布因子
Figure 217374DEST_PATH_IMAGE002
和所述方差分布因子
Figure 895480DEST_PATH_IMAGE003
,计算得到改进权重TFIDF-CV,公式为
Figure 189059DEST_PATH_IMAGE030
其中,n为文本语料库中包含特征词
Figure 229696DEST_PATH_IMAGE006
的文本数,m表示文本总个数。
在上述任一方案中优选的是,所述归一化处理的公式为
Figure 950527DEST_PATH_IMAGE031
本发明提出了一种基于优化TFIDF的特征提取方法及系统,通过对大量文本文件进行计算、测试和比较,打破了传统TFIDF的局限性,在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用,能够很好地提升了原算法计算权重的精准度。
附图说明
图1为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的流程图。
图1A为按照本发明的基于优化TFIDF的特征提取方法的如图1所示实施例的分词处理及权重值计算方法流程图。
图2为按照本发明的基于优化TFIDF的特征提取系统的一优选实施例的模块图。
图3为按照本发明的基于优化TFIDF的特征提取方法的一优选实施例的算法准确率对比示意图。
图4为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法F度量值对比示意图。
图5为按照本发明的基于优化TFIDF的特征提取方法的如图3所示实施例的算法召回率对比示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,对文本进行分词处理并计算TF和IDF值的权重值。如图1A所示,执行步骤101,选择数据集并使用结巴分词对文本进行分词处理。执行步骤102,读取停用词文件,去除停用词。执行步骤103,读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为
Figure 381508DEST_PATH_IMAGE004
其中,
Figure 9936DEST_PATH_IMAGE005
为特征词
Figure 577183DEST_PATH_IMAGE006
在文本
Figure 531233DEST_PATH_IMAGE007
中的权重值,
Figure 449510DEST_PATH_IMAGE008
Figure 616050DEST_PATH_IMAGE009
为特征词
Figure 303383DEST_PATH_IMAGE006
在文本
Figure 366017DEST_PATH_IMAGE007
中出现的频率,
Figure 302749DEST_PATH_IMAGE010
为特征词
Figure 741820DEST_PATH_IMAGE006
的文本数量关于总文本数量逆文档频率,
Figure 283660DEST_PATH_IMAGE011
表示文本
Figure 313933DEST_PATH_IMAGE007
中特征词
Figure 941223DEST_PATH_IMAGE012
出现的次数,
Figure 918407DEST_PATH_IMAGE032
表示文本
Figure 111491DEST_PATH_IMAGE014
中第k个特征词
Figure 578244DEST_PATH_IMAGE015
出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词
Figure 692831DEST_PATH_IMAGE006
的文本数,k为一个文本中特征词的编号,j为文本编号。对所述TF和IDF值的权重值进行归一化处理,公式为
Figure 208126DEST_PATH_IMAGE016
执行步骤110,记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 91654DEST_PATH_IMAGE001
,类别分布因子
Figure 932571DEST_PATH_IMAGE001
的计算公式为
Figure 65612DEST_PATH_IMAGE017
,其中,
Figure 446914DEST_PATH_IMAGE018
为类
Figure 817853DEST_PATH_IMAGE019
中所有文档的数量。
执行步骤120,记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 564092DEST_PATH_IMAGE002
,类间分布因子
Figure 184429DEST_PATH_IMAGE002
的计算公式为
Figure 103844DEST_PATH_IMAGE020
,其中,
Figure 594868DEST_PATH_IMAGE021
为类
Figure 574325DEST_PATH_IMAGE019
中包含特征词
Figure 885221DEST_PATH_IMAGE015
的文本个数,
Figure 608326DEST_PATH_IMAGE022
为所有包含特征词
Figure 688278DEST_PATH_IMAGE015
的文本个数。
执行步骤130,分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 41899DEST_PATH_IMAGE003
,方差分布因子
Figure 636828DEST_PATH_IMAGE003
的计算公式为
Figure 101307DEST_PATH_IMAGE023
,其中,
Figure 832503DEST_PATH_IMAGE024
表示特征词在第
Figure 622604DEST_PATH_IMAGE025
个文本中的方差值,m表示文本总个数。总体方差
Figure 376934DEST_PATH_IMAGE026
的计算公式为
Figure 910683DEST_PATH_IMAGE027
,其中,
Figure 965227DEST_PATH_IMAGE028
表示特征词
Figure 660651DEST_PATH_IMAGE015
在文档中出现的位置,
Figure 230172DEST_PATH_IMAGE029
表示总体均值,n3表示特征词
Figure 36454DEST_PATH_IMAGE015
在文档中出现的总个数。
执行步骤140,对所述TF和IDF值的权重值、所述类别分布因子
Figure 945504DEST_PATH_IMAGE001
、所述类间分布因子
Figure 77408DEST_PATH_IMAGE002
和所述方差分布因子
Figure 868647DEST_PATH_IMAGE003
进行归一化计算,得到优化后的权重值。根据所述类别分布因子
Figure 478620DEST_PATH_IMAGE001
、所述类间分布因子
Figure 507756DEST_PATH_IMAGE002
和所述方差分布因子
Figure 544982DEST_PATH_IMAGE003
,计算得到改进权重TFIDF-CV,公式为
Figure 292358DEST_PATH_IMAGE030
其中,n为文本语料库中包含特征词
Figure 502759DEST_PATH_IMAGE006
的文本数,m表示文本总个数。归一化处理的公式为
Figure 386402DEST_PATH_IMAGE031
实施例二
如图2所示,一种基于优化TFIDF的特征提取系统,包括文本处理模块200、类别分布因子计算模块210、类间分布因子计算模块220、方差分布因子计算模块230和归一化计算模块240。
文本处理模块200用于对文本进行分词处理并计算TF和IDF值的权重值。文本处理模块200包括分词处理子模块、停用词处理子模块和计算子模块。分词处理子模块用于选择数据集并使用结巴分词对文本进行分词处理。停用词处理子模块用于读取停用词文件,去除停用词。计算子模块用于读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值。TF和IDF值的权重值的计算公式为
Figure 328950DEST_PATH_IMAGE004
其中,
Figure 298043DEST_PATH_IMAGE005
为特征词
Figure 312135DEST_PATH_IMAGE006
在文本
Figure 50284DEST_PATH_IMAGE007
中的权重值,
Figure 694892DEST_PATH_IMAGE008
Figure 885702DEST_PATH_IMAGE009
为特征词
Figure 641169DEST_PATH_IMAGE006
在文本
Figure 296141DEST_PATH_IMAGE007
中出现的频率,
Figure 846071DEST_PATH_IMAGE010
为特征词
Figure 524177DEST_PATH_IMAGE006
的文本数量关于总文本数量逆文档频率,
Figure 880072DEST_PATH_IMAGE011
表示文本
Figure 592813DEST_PATH_IMAGE007
中特征词
Figure 579224DEST_PATH_IMAGE012
出现的次数,
Figure 744626DEST_PATH_IMAGE032
表示文本
Figure 841895DEST_PATH_IMAGE014
中第k个特征词
Figure 205880DEST_PATH_IMAGE015
出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词
Figure 363192DEST_PATH_IMAGE006
的文本数,k为一个文本中特征词的编号,j为文本编号。对所述TF和IDF值的权重值进行归一化处理,公式为
Figure 750311DEST_PATH_IMAGE016
类别分布因子计算模块210用于记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 651271DEST_PATH_IMAGE001
,类别分布因子
Figure 135342DEST_PATH_IMAGE001
的计算公式为
Figure 463555DEST_PATH_IMAGE017
,其中,
Figure 337970DEST_PATH_IMAGE018
为类
Figure 777041DEST_PATH_IMAGE019
中所有文档的数量。
类间分布因子计算模块220用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 115619DEST_PATH_IMAGE002
,类间分布因子
Figure 349154DEST_PATH_IMAGE002
的计算公式为
Figure 976445DEST_PATH_IMAGE020
,其中,
Figure 219207DEST_PATH_IMAGE021
为类
Figure 677870DEST_PATH_IMAGE019
中包含特征词
Figure 347886DEST_PATH_IMAGE015
的文本个数,
Figure 931314DEST_PATH_IMAGE022
为所有包含特征词
Figure 977767DEST_PATH_IMAGE015
的文本个数。
方差分布因子计算模块230用于分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 494199DEST_PATH_IMAGE003
,方差分布因子
Figure 131854DEST_PATH_IMAGE003
的计算公式为
Figure 468158DEST_PATH_IMAGE023
,其中,
Figure 787143DEST_PATH_IMAGE024
表示特征词在第
Figure 158082DEST_PATH_IMAGE025
个文本中的方差值,m表示文本总个数。总体方差的计算公式为
Figure 55817DEST_PATH_IMAGE027
,其中,
Figure 912914DEST_PATH_IMAGE028
表示特征词
Figure 403938DEST_PATH_IMAGE015
在文档中出现的位置,
Figure 586658DEST_PATH_IMAGE029
表示总体均值,n3表示特征词
Figure 694291DEST_PATH_IMAGE015
在文档中出现的总个数。
归一化计算模块240用于对所述TF和IDF值的权重值、所述类别分布因子
Figure 620659DEST_PATH_IMAGE001
、所述类间分布因子
Figure 700611DEST_PATH_IMAGE002
和所述方差分布因子
Figure 54232DEST_PATH_IMAGE003
进行归一化计算,得到优化后的权重值。根据所述类别分布因子
Figure 649161DEST_PATH_IMAGE001
、所述类间分布因子
Figure 113640DEST_PATH_IMAGE002
和所述方差分布因子
Figure 313677DEST_PATH_IMAGE003
,计算得到改进权重TFIDF- CF,公式为
Figure 838200DEST_PATH_IMAGE030
其中,n为文本语料库中包含特征词
Figure 451584DEST_PATH_IMAGE006
的文本数,m表示文本总个数。归一化处理的公式为
Figure 985333DEST_PATH_IMAGE031
实施例三
针对单个文本具有大量词汇的不平衡数据集的文本特征提取问题,本文提出一种TFIDF-CV(Class Variance–Term Frequency and Inverted Document Frequency)算法。算法考虑到单个文本内的特征词的分布状态,特征词权值依据特征词分布情况不同而改变。例如平均分布在一篇文章的特征词比集中在一个段落的特征词权重高。另外算法还定义了类分布因子,用以调整数据集中文档数量少的类中的特征词权重计算。
1传统TFIDF算法
TFIDF是一种特征加权算法,它结合词频(Term Frequency,TF)和逆文档频率(Inverted Document Frequency ,IDF)来计算文本中特征词的权重。基本思想是文本中特征词的权重与其在当前文本中出现的频率成正比,并且与文本集中包含特征词的文本个数成反比。其计算公式如下:
Figure 571035DEST_PATH_IMAGE004
(1)
其中,
Figure 880DEST_PATH_IMAGE005
为特征词
Figure 773664DEST_PATH_IMAGE006
在文本
Figure 642262DEST_PATH_IMAGE007
中的权重值,
Figure 551313DEST_PATH_IMAGE008
Figure 683217DEST_PATH_IMAGE009
为特征词
Figure 412138DEST_PATH_IMAGE006
在文本
Figure 84428DEST_PATH_IMAGE007
中出现的频率,
Figure 582406DEST_PATH_IMAGE010
为特征词
Figure 681949DEST_PATH_IMAGE006
的文本数量关于总文本数量逆文档频率,
Figure 163745DEST_PATH_IMAGE011
表示文本
Figure 311830DEST_PATH_IMAGE007
中特征词
Figure 195472DEST_PATH_IMAGE012
出现的次数,
Figure 669179DEST_PATH_IMAGE013
表示文本
Figure 661710DEST_PATH_IMAGE014
中第k个特征词
Figure 675802DEST_PATH_IMAGE015
出现的次数,N为文本语料库中文本的总数,n为文本语料库中包含特征词
Figure 148372DEST_PATH_IMAGE006
的文本数,k为一个文本中特征词的编号,j为文本编号。为了使最终结果被限定在0~1之间,要对算法做出归一化处理。公式如下:
Figure 792980DEST_PATH_IMAGE016
(2)
TFIDF算法的优点是算法易于理解、在大任务分类中具有较高的准确率,因此得到了广泛的应用。不过在数据集中文档数量少的类中,当特征词主要存在于这个类时,理应获得高权重来反映文本特征,但是由于文档频率小于给定阈值而被删除。在分类文本集中,无论是不同类别之间、单个类别之内还是某个文本文件中该算法都未考虑特征词在文本的位置分布情况。例如:在不同类别之间,若某个特征词在某个类频繁出现,而在其他类中出现较少,这个特征词的特征权重明显是高的,而在算法中无法体现。同样在单个文本文件之中,特征词集中在某一部分与分散在整篇文章的价值明显是不一样的,但计算结果是一样的。
2基于词频分布的TFIDF改进
在具有类别分布的不平衡数据集中,传统的特征选择算法通常倾向于选择大类别中的特征词。同时类别间词频和单个文本中词频的分布差异都将导致最终特征的不同权重。因此本文基于词频分布信息和TFIDF类别分布信息提出三个分布因子。三个分布因子相互独立,共同支撑单个文本具有大量词汇的不平衡数据集的权重衡量。同时每个因子的值和权重成正相关,所以以乘积的形式计算最终值。
三个分布因子都采用对数的计算方式来缓冲分布因子计算结果过大问题。
2.1分布因子设计
2.1.1类别分布因子
类别分布因子反映了文档类别的分布信息。该因子所针对的是特征词所在的不同类中每个类的文本数量占所有类的文本数量的大小这一情况,目的是缓解逆文档频率计算权重倾向大类别忽略小类别的局限性。它可以通过计算数据集中文档N的总数与类
Figure 249369DEST_PATH_IMAGE019
中所有文档的数量
Figure 801573DEST_PATH_IMAGE018
之间的商的对数来获得。当类
Figure 394228DEST_PATH_IMAGE019
中所有文档的数量占文档N总数的小部分时,表明该类
Figure 944158DEST_PATH_IMAGE019
文档数量少,属于小类。为避免传统算法倾向大类别忽略小类别的局限性,通过求文档总数与类
Figure 684581DEST_PATH_IMAGE019
文档数量的商值来平衡大类和小类。类别分布因子
Figure 978159DEST_PATH_IMAGE001
计算公式为:
Figure 487638DEST_PATH_IMAGE017
(3)
2.1.2类间分布因子
类间分布因子反映了文档类间的分布信息。该因子对特征词在所有类中的分布情况进行考虑,弥补了逆文档频率没能处理多个类别的局限。它可以通过计算数据集类
Figure 474048DEST_PATH_IMAGE019
中包含特征词的文本个数
Figure 373871DEST_PATH_IMAGE021
与数据集中所有包含特征词
Figure 471140DEST_PATH_IMAGE015
的个数的商的对数来获得。通过求类间特征词的占比来反映特征词分布状况对类的重要程度。当类
Figure 100705DEST_PATH_IMAGE019
中特征词的文本个数
Figure 992437DEST_PATH_IMAGE021
占所有包含特征词
Figure 645136DEST_PATH_IMAGE015
的文本个数
Figure 546096DEST_PATH_IMAGE022
的主要部分时,表明此特征词主要分布在一个类中,进而表明该特征词能够很好地区分不同类别,应获得更高的权重。类间分布因子
Figure 233429DEST_PATH_IMAGE002
计算公式为:
Figure 358380DEST_PATH_IMAGE020
(4)
2.1.3方差分布因子
该因子针对一个文本中的特征词分布情况,是对词频的进一步完善,并由方差来体现。方差能够衡量一组数据的离散程度。文档中一个特征词的分布情况可以由方差来表现。方差越大说明特征词在一个文档中分布越分散,分布越分散区分文档能力越强。方差越小说明特征词在一个文档中分布越集中,分布越集中表明该特征词主要集中在一个部分或一个段落,区分文档类别的能力弱。方差计算公式为:
Figure 232795DEST_PATH_IMAGE027
(5)
其中,
Figure 468604DEST_PATH_IMAGE033
表示总体方差,
Figure 744865DEST_PATH_IMAGE028
表示特征词
Figure 243979DEST_PATH_IMAGE015
在文档中出现的位置(数字形式表示),
Figure 871270DEST_PATH_IMAGE029
表示总体均值(
Figure 114032DEST_PATH_IMAGE029
的计算方法为求每个特征词出现位置的总值的平均值),n3表示特征词
Figure 307116DEST_PATH_IMAGE015
在文档中出现的总个数。为避免方差值过大影响权重计算,同时考虑到一个特征词在多个文本中有多个方差值,特做如下处理:
Figure 977132DEST_PATH_IMAGE023
(6)
其中
Figure 91718DEST_PATH_IMAGE003
表示方差分布因子,j表示同类的第j个文本,
Figure 872592DEST_PATH_IMAGE034
表示特征词在第
Figure 123445DEST_PATH_IMAGE025
个文本中的方差值,
Figure 761100DEST_PATH_IMAGE026
表示总体方差。
对数的底数设为二(三个分布因子的最终计算结果以乘积的形式计算最终权重值。由于最终权重值按照大小排序比较,所以每次计算的底数需保持一致,对底数值无特别要求,只要保持三个分布因子底数相同。)真数为底数二加上各分布因子计算结果,避免对数结果出现零及小于零的问题。
2.2改进的TFIDF算法
基于以上公式(3)(4)(6),得到改进的权重公式TFIDF-CV为:
Figure 362983DEST_PATH_IMAGE035
(7)
其中,n为文本语料库中包含特征词
Figure 681968DEST_PATH_IMAGE006
的文本数,m表示文本总个数。把公式(7)替换公式(1)代入到公式(2)后得到归一化公式为:
Figure 849645DEST_PATH_IMAGE031
(8)
上述的三个分布因子能够很好地反映特征词的重要性。在一个不平衡分类数据集中,若特征词所在类文档个数越小,其
Figure 861463DEST_PATH_IMAGE001
值越大。若特征词主要存在于一个类中,其
Figure 950642DEST_PATH_IMAGE002
值更大。若特征词均匀分散在一个文档中,得到的
Figure 73318DEST_PATH_IMAGE036
值更大。
Figure 33184DEST_PATH_IMAGE001
Figure 481483DEST_PATH_IMAGE037
Figure 589116DEST_PATH_IMAGE038
的值越大其权重的最终结果越大。基于以上分析,可以看出改进的权重计算公式打破了传统TFIDF的局限性,在加强特征词的类别间词频和单个文本中词频的分布方面发挥了重要作用。
2.3改进算法的计算过程
该改进算法使用python语言实现。算法的具体实现流程图如下:
Step0:选择数据集并使用结巴分词对文本进行分词处理。
Step1:读取停用词文件,去除停用词。
Step2:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,根据公式(1)分别求TF和IDF值。
Step3:记录所有类文档总数和一个类的文档总数,根据公式(3)计算
Figure 515484DEST_PATH_IMAGE001
值。
Step4:记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,根据公式(4)计算
Figure 595436DEST_PATH_IMAGE037
值。
Step5:分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和。根据公式(6)求
Figure 949057DEST_PATH_IMAGE003
值。
Step6:根据公式(7)进行归一化计算,得到优化后的权重值。
3 特征选择及分类策略
3.1特征选择
在文本分类过程中,会对数据集中的文本进行分词处理和去除停用词处理。在得到的特征词集合中特征词的数量大,所以处理时特征空间维数大,也会影响到文本分类过程。特征选择过程就是降维过程。常用的特征选择方法有信息增益(IG:InformationGain)、互信息(MI:Mutual Information)、
Figure 543986DEST_PATH_IMAGE039
统计量 (CHI:Chi-square)等。
在后续的实验验证过程中,特征选择采用
Figure 274045DEST_PATH_IMAGE039
统计量。该方法主要衡量特征词t与类别C的相关度,认为两者的关系近似服从自由度为1的
Figure 208502DEST_PATH_IMAGE039
分布,
Figure 733025DEST_PATH_IMAGE039
统计值越大,特征词t与类别C相关性越大。计算公式如下:
Figure 815250DEST_PATH_IMAGE040
(9)
其中,N表示语料中的文档总数,A表示属于类C且包含词条t的文档数,B表示不属于类C但包含词条t的文档数,D表示属于类C但不包含词条t的文档数,E表示不属于类C且不包含词条t的文档数。
3.2分类策略—K最邻近方法
K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中的方法之一。该方法的思路是:在特征空间中如果一个样本的k个最相似(即特征空间中最邻近)样本大多数属于某一个类别,则该样本也属于这个类别。它输入基于实例的学习,即KNN没有显式的学习过程。其中数据集事先已有了分类和特征值,待收到新样本后直接进行处理。KNN是通过测量不同特征值之间的距离进行分类。关于距离的度量方法,常用的有:欧几里得距离、弦值,相关度,曼哈顿距离或其他。这里使用欧几里得距离,公式如下:
Figure 83421DEST_PATH_IMAGE041
(10)
该公式表示n维空间中两个点之间的真实距离,在二维和三维空间中的欧氏距离就是两点之间的实际距离。
本文从类别和词频两个角度对TFIDF算法进行了改进,提出了三个分布因子,进而提出了TFIDF-CV算法。该算法的设计前提是数据集属于单个文本具有大量词汇的不平衡数据集。通过对大量文本文件进行计算、测试和比较两个算法,能够得出改进算法很好地提升了原算法计算权重的精准度。
实施例四
在本实施例中,对本发明提出的基于优化TFIDF的特征提取方法进行实验,实验结果及分析如下:
1、实验数据集
为了验证本文方法的有效性,通过爬虫爬取网易新闻数据。通过对数据标签归类拿到数量最多的五个类(金融、体育、、文化医药和汽车),按照训练集和测试集2:1的比例把数据集随机划分为训练集和测试集两部分,进而建立语料库。语料库选用样本集样本多,平均每个文档字数1000左右,同时也存在数据不平衡现象,符合针对单个文本具有大量词汇的不平衡数据集。每个类别文档具体个数如表1所示:
Figure 872385DEST_PATH_IMAGE042
表1各类别训练集和测试集文本个数
2、评价指标
分类器模型的评价指标主要有召回率R、精确率PF度量值。分别表示为:
Figure 833388DEST_PATH_IMAGE043
(11)
Figure 402909DEST_PATH_IMAGE044
(12)
Figure 943612DEST_PATH_IMAGE045
(13)
其中, TP表示实际属于该类别且预测正确的个数,FP表示实际不属于该类别并预测正确的个数,FN表示实际属于该类但预测错误的个数。召回率R、精确率P指标有时候会出现的矛盾的情况,这样就需要F度量值加权调和平均另外两个参数,当
Figure 118241DEST_PATH_IMAGE046
时,就是最常见的F 1。可知FN综合了PR的结果,当FN较高时则能说明试验方法比较有效。本实验中将
Figure 781304DEST_PATH_IMAGE047
调整为0.414。
3、实验结果分析
本实验使用Python语言在PyCharm平台编写测试,测试对比算法除了原始算法和所写的改进算法外还有文献《基于信息增益的特征词权重调整算法研究》所提出的TFIDF-IG算法。在训练集执行完后得到不同类别最终权重结果。根据权重值大小排序,选取前17个特征词作为测试对照词。同时在测试集使用CHI平方统计特征选择方法在每个文档中分别选择30个特征。最后在K最邻近分类器下执行分类测试。测试结果展示了准确率P和F度量值,如下表所示:
Figure 41384DEST_PATH_IMAGE048
表2 三种算法对比测试结果
TFIDF与TFIDF-CV算法的准确率、F度量值和召回率的对比结果如图3、图4、图5所示,准确率由算法中的类别分布因子
Figure 385778DEST_PATH_IMAGE001
和类间分布因子
Figure 211651DEST_PATH_IMAGE002
共同支持,用以区别不同类别。准确率高则其他类别误判的情况就小。召回率由方差分布因子
Figure 514457DEST_PATH_IMAGE003
支撑,用以找到类中真正具有类别特点的特征词。召回率高说明特征词选择更精确。
由表2和图3、图4、图5可以看出,改进的TFIDF-CV算法的准确率在医药方面与原始算法相差不多,在其他类别有明显提高。同时改进算法提取特征词的F度量值在各方面都明显优于传统算法,对于TFIDF-IG来说,改进算法总的来讲略有提高。通过实验表明改进算法所包含的三个分布因子在各自作用域起到了不同程度的优化作用。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (7)

1.一种基于优化TFIDF的特征提取方法,包括对文本进行分词处理并计算TF和IDF值的权重值,其特征在于,还包括以下步骤:
步骤1:记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure DEST_PATH_IMAGE001
,所述类别分布因子
Figure 982226DEST_PATH_IMAGE001
的计算公式为
Figure 279346DEST_PATH_IMAGE002
,其中,
Figure DEST_PATH_IMAGE003
为类
Figure 499237DEST_PATH_IMAGE004
中所有文档的数量,N为文本语料库中文本的总数;
步骤2:记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure DEST_PATH_IMAGE005
,所述类间分布因子
Figure 498286DEST_PATH_IMAGE005
的计算公式为
Figure 202937DEST_PATH_IMAGE006
,其中,
Figure DEST_PATH_IMAGE007
为类
Figure 885722DEST_PATH_IMAGE004
中包含特征词
Figure 801814DEST_PATH_IMAGE008
的文本个数,
Figure DEST_PATH_IMAGE009
为所有包含特征词
Figure 570050DEST_PATH_IMAGE008
的文本个数;
步骤3:分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 734184DEST_PATH_IMAGE010
,所述方差分布因子
Figure 5896DEST_PATH_IMAGE010
的计算公式为
Figure DEST_PATH_IMAGE011
,其中,
Figure DEST_PATH_IMAGE013
表示特征词在第
Figure 98748DEST_PATH_IMAGE014
个文本中的方差值,m表示文本总个数;
步骤4:对所述TF和IDF值的权重值、所述类别分布因子
Figure 885439DEST_PATH_IMAGE001
、所述类间分布因子
Figure 322105DEST_PATH_IMAGE005
和所述方差分布因子
Figure 713903DEST_PATH_IMAGE010
进行归一化计算,得到优化后的权重值。
2.如权利要求1所述的基于优化TFIDF的特征提取方法,其特征在于,所述对文本进行分词处理并计算TF和IDF值的权重步骤包括以下子步骤:
步骤01:选择数据集并使用结巴分词对文本进行分词处理;
步骤02:读取停用词文件,去除停用词;
步骤03:读取每个文本的每个特征词个数及总数,计算包含特征词的文档个数和文档总数,计算TF和IDF值的权重值,所述TF和IDF值的权重值的计算公式为
Figure DEST_PATH_IMAGE015
其中,为特征词在文本中的权重值,,为特征词在文本中 出现的频率,为特征词的文本数量关于总文本数量逆文档频率,表示文本
Figure 547943DEST_PATH_IMAGE018
中特征词
Figure 730663DEST_PATH_IMAGE023
出现的次数,表示文本
Figure 154077DEST_PATH_IMAGE018
中第k个特征词出现的次数,N为文本语料库 中文本的总数,n为文本语料库中包含特征词的文本数,k为一个文本中特征词的编号,j 为文本编号。
3.如权利要求2所述的基于优化TFIDF的特征提取方法,其特征在于,对所述TF和IDF值的权重值进行归一化处理,公式为
Figure 45175DEST_PATH_IMAGE025
4.如权利要求3所述的基于优化TFIDF的特征提取方法,其特征在于,总体方差
Figure DEST_PATH_IMAGE026
的计算公式为
Figure 797362DEST_PATH_IMAGE027
,其中,
Figure DEST_PATH_IMAGE028
表示特征词
Figure 324158DEST_PATH_IMAGE008
在文档中出现的位置,
Figure 258616DEST_PATH_IMAGE029
表示总体均值,n3表示特征词
Figure 720821DEST_PATH_IMAGE008
在文档中出现的总个数。
5.如权利要求4所述的基于优化TFIDF的特征提取方法,其特征在于,所述步骤4包括根据所述类别分布因子
Figure 632408DEST_PATH_IMAGE001
、所述类间分布因子
Figure 634999DEST_PATH_IMAGE005
和所述方差分布因子
Figure 361647DEST_PATH_IMAGE010
,计算得到改进权重TFIDF-CV,公式为
Figure DEST_PATH_IMAGE030
其中,n为文本语料库中包含特征词
Figure 712862DEST_PATH_IMAGE017
的文本数,m表示文本总个数。
6.如权利要求5所述的基于优化TFIDF的特征提取方法,其特征在于,所述优化后的权重值的公式为
Figure 95433DEST_PATH_IMAGE031
7.一种基于优化TFIDF的特征提取系统,包括用于对文本进行分词处理并计算TF和IDF值的权重值的文本处理模块,其特征在于,还包括以下模块:
类别分布因子计算模块:用于记录所有类文档总数和一个类的文档总数,计算类别分布因子
Figure 590131DEST_PATH_IMAGE001
,所述类别分布因子
Figure 764760DEST_PATH_IMAGE001
的计算公式为
Figure 240872DEST_PATH_IMAGE002
,其中,
Figure 156744DEST_PATH_IMAGE003
为类
Figure 438821DEST_PATH_IMAGE004
中所有文档的数量;
类间分布因子计算模块:用于记录一个类中包含特征词的文档数和所有类中包含相同特征词的文档数,计算类间分布因子
Figure 467957DEST_PATH_IMAGE005
,所述类间分布因子
Figure 859843DEST_PATH_IMAGE005
的计算公式为
Figure 607219DEST_PATH_IMAGE006
,其中,
Figure 896249DEST_PATH_IMAGE007
为类
Figure 435684DEST_PATH_IMAGE004
中包含特征词
Figure 581494DEST_PATH_IMAGE008
的文本个数,
Figure 550587DEST_PATH_IMAGE009
为所有包含特征词
Figure 862882DEST_PATH_IMAGE008
的文本个数;
方差分布因子计算模块:用于分别计算每个文档中特征词出现位置的方差值,求取相同特征词的方差值之和,计算方差分布因子
Figure 866610DEST_PATH_IMAGE010
,所述方差分布因子
Figure 652164DEST_PATH_IMAGE010
的计算公式为
Figure 233187DEST_PATH_IMAGE011
,其中,
Figure 660757DEST_PATH_IMAGE033
表示特征词在第
Figure 518992DEST_PATH_IMAGE014
个文本中的方差值,m表示文本总个数;
归一化计算模块:用于对所述TF和IDF值的权重值、所述类别分布因子
Figure 695020DEST_PATH_IMAGE001
、所述类间分布因子
Figure 638706DEST_PATH_IMAGE005
和所述方差分布因子
Figure 604388DEST_PATH_IMAGE010
进行归一化计算,得到优化后的权重值;
所述系统采用如权利要求1所述的方法进行特征提取。
CN202010189034.5A 2020-03-18 2020-03-18 一种基于优化tfidf的特征提取方法及系统 Active CN111062212B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010189034.5A CN111062212B (zh) 2020-03-18 2020-03-18 一种基于优化tfidf的特征提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010189034.5A CN111062212B (zh) 2020-03-18 2020-03-18 一种基于优化tfidf的特征提取方法及系统

Publications (2)

Publication Number Publication Date
CN111062212A CN111062212A (zh) 2020-04-24
CN111062212B true CN111062212B (zh) 2020-06-30

Family

ID=70307938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010189034.5A Active CN111062212B (zh) 2020-03-18 2020-03-18 一种基于优化tfidf的特征提取方法及系统

Country Status (1)

Country Link
CN (1) CN111062212B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200259A (zh) * 2020-10-19 2021-01-08 哈尔滨理工大学 一种基于分类与筛选的信息增益文本特征选择方法及分类装置
CN113515623B (zh) * 2021-04-28 2022-12-06 西安理工大学 基于词频差值因子的特征选择方法
CN115878818B (zh) * 2023-02-21 2023-05-30 创意信息技术股份有限公司 一种地理知识图谱构建方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014225074A (ja) * 2013-05-15 2014-12-04 三星電子株式会社Samsung Electronics Co.,Ltd. 番組情報表示装置
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014225074A (ja) * 2013-05-15 2014-12-04 三星電子株式会社Samsung Electronics Co.,Ltd. 番組情報表示装置
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法

Also Published As

Publication number Publication date
CN111062212A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062212B (zh) 一种基于优化tfidf的特征提取方法及系统
US20220138423A1 (en) Deep learning based text classification
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
US7444279B2 (en) Question answering system and question answering processing method
Zheng et al. Fast image retrieval: Query pruning and early termination
CN108304371B (zh) 热点内容挖掘的方法、装置、计算机设备及存储介质
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN110427483B (zh) 文本摘要评测方法、装置、系统及评测服务器
CN107145560B (zh) 一种文本分类方法及装置
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN112347244A (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN109948125A (zh) 改进的Simhash算法在文本去重中的方法及系统
US20230147941A1 (en) Method, apparatus and device used to search for content
Han Personalized news recommendation and simulation based on improved collaborative filtering algorithm
CN111125366B (zh) 文本分类方法及装置
CN112732914A (zh) 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
Yuan et al. Utilizing related samples to enhance interactive concept-based video search
CN107908649B (zh) 一种文本分类的控制方法
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN116245139B (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
KR102405867B1 (ko) 인공지능 모델을 이용한 특허문서의 중요도 판단 방법, 장치 및 시스템
CN113392184A (zh) 一种相似文本的确定方法、装置、终端设备及存储介质
CN106970924B (zh) 一种话题排序方法及装置
Chen et al. Fast multi-class sample reduction for speeding up support vector machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant