CN106886576B - 一种基于预分类的短文本关键词提取方法及系统 - Google Patents

一种基于预分类的短文本关键词提取方法及系统 Download PDF

Info

Publication number
CN106886576B
CN106886576B CN201710053710.4A CN201710053710A CN106886576B CN 106886576 B CN106886576 B CN 106886576B CN 201710053710 A CN201710053710 A CN 201710053710A CN 106886576 B CN106886576 B CN 106886576B
Authority
CN
China
Prior art keywords
short text
keyword
data set
word
sub data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710053710.4A
Other languages
English (en)
Other versions
CN106886576A (zh
Inventor
蔡禹
纪晓阳
孔祥明
张帆
张一帆
林成创
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Original Assignee
Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Industry Kaiyuan Science And Technology Co Ltd filed Critical Guangdong Industry Kaiyuan Science And Technology Co Ltd
Priority to CN201710053710.4A priority Critical patent/CN106886576B/zh
Publication of CN106886576A publication Critical patent/CN106886576A/zh
Application granted granted Critical
Publication of CN106886576B publication Critical patent/CN106886576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于预分类的短文本关键词提取方法及系统,该系统包括划分单元、生成单元、累计计算单元及提取处理单元。该方法包括:将短文本全量数据集划分为多个短文本子数据集;采用短文本预分类方式以及通用条数最优值,生成得到每一个短文本子数据集所对应的关键词特征词典;对每一个短文本子数据集进行关键词权重系数的累计计算;对短文本全量数据集进行关键词提取处理。通过使用本发明的方法和系统,能将整个计算过程拓展到分布式系统中,大大提高处理效率,而且利用短文本预分类方式还能提升短文本的TF‑IDF特征的表达效果,从而提高提取效果。本发明作为一种基于预分类的短文本关键词提取方法及系统可广泛应用于关键词提取领域中。

Description

一种基于预分类的短文本关键词提取方法及系统
技术领域
本发明涉及文本关键词挖掘分析技术,尤其涉及一种基于预分类的短文本关键词提取方法及系统。
背景技术
技术词解释:
TF-IDF值:即词频-逆文档频率值,结合一个词在文本中出现的次数以及包含该词的文本数而计算出来的一个权重;TF-IDF值与一个词在文档中的出现次数成正比,与包含该词的文本数成反比。
随着社交媒体的兴起,移动短信、Tweet和微博等短文本层出不穷,并且由于短文本发布的参与者多以及发布频率快,短文本的规模更是飞速增长。对于短文本,其在搜索引擎、自动问答和话题跟踪等领域发挥着重要的作用,而且随着电子政务建设的推行和不断深化,政府部门也面临着对大量短文本的处理问题。因此由此可见,在短文本数据的处理中,如何实现对大量短文本数据进行简便、有效的关键词提取具有重要的意义。
目前常用的一种海量文本关键词提取方式是,首先对每个文本文件进行分词处理,统计并计算每个单词的词频-逆文档频率值,然后将每个单词的词频-逆文档频率值从大到小排列,并提取排名靠前的结果,最后将该提取结果保存在Hadoop平台上的SequenceFile这一原始文件中,以供查询。然而传统关键词提取方式却存有不少的问题,例如:1、在短文本中,文本特征较少,而且在应用TF-IDF算法提取文本特征时,短文本数据集中具有相同关键词的文本会相互干扰,使得这些关键词计算出来的TF-IDF值大大降低,弱化了这些词语对同类的短文本特征表达效果,进而影响了关键词提取的效果;2、无法拓展到分布式系统并提升计算效率,大部分现有的技术解决方案都无法有效地拓展到分布式系统,若需要处理海量数据同时又有较高的效率要求,则现有的技术解决方案均无法取得一个较好的解决效果。
发明内容
为了解决上述技术问题,本发明的目的是提供一种可拓展适用于分布式系统、提高处理效率、效果好的基于预分类的短文本关键词提取方法。
本发明的另一目的是提供一种可拓展适用于分布式系统、提高处理效率、效果好的基于预分类的短文本关键词提取系统。
本发明所采用的技术方案是:一种基于预分类的短文本关键词提取方法,该方法包括的步骤有:
将短文本全量数据集划分为多个短文本子数据集;
采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。
进一步,所述短文本子数据集所对应的关键词特征词典,其生成步骤包括有:
从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集,其中,s的数值为通用条数最优值;
对短文本微数据集中所包含的短文本进行分类,然后将属于同一类别的短文本拼接成相对应的长文本;
采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中词语的TF-IDF值;
根据预设的第一阈值,对每一条长文本的词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来;
将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,判断关键词特征词典中是否已存储有该词语,若否,则将该词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断该待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用该待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。
进一步,所述通用条数最优值,其确定获取步骤包括有:
计算每一个短文本子数据集所对应的条数最优值,然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值。
进一步,所述短文本子数据集所对应的条数最优值,其计算步骤包括有:
从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集,其中,n值小于等于s0,s0表示为短文本子数据集所包含的短文本的总条数;
根据选取出的短文本微数据集,生成该短文本子数据集所对应的关键词特征词典;
判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的差异是否满足预设的判定标准,若是,则将前一次的n值作为该短文本子数据集所对应的条数最优值;反之,则对当前n值进行减小处理后得到新的n值,利用新的n值返回重新执行上述从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集这一步骤。
进一步,所述对当前n值进行减小处理后得到新的n值这一步骤,其具体为:将当前n值与10的相除结果作为新的n值。
进一步,所述对短文本子数据集进行关键词权重系数的累计计算,其所采用的计算公式为:
Wi=ai*wi,i=1、2、……、m
其中,m表示为关键词特征词典中所包含的词语的总个数,Wi表示第i个关键词的权重系数累计计算结果,ai表示在关键词特征词典中所存储的第i个词语在短文本子数据集所包含的所有短文本中所出现的次数,wi表示为在关键词特征词典中所存储的第i个词语所对应的TF-IDF值。
进一步,所述根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理这一步骤,其具体为:
对每一个短文本子数据集的关键词权重系数累计计算结果进行降序,从而获得每一个短文本子数据集的关键词排序结果,然后对所有短文本子数据集的关键词排序结果进行汇总计算,接着对汇总计算结果进行排序和阈值过滤操作,从而得到短文本全量数据集的关键词提取结果。
进一步,所述对短文本微数据集中所包含的短文本进行分类这一步骤,其具体为:
利用SVM分类器,对短文本微数据集中所包含的短文本进行分类。
进一步,所述将短文本全量数据集划分为多个短文本子数据集这一步骤之前设有数据预处理步骤,所述数据预处理步骤为:对短文本全量数据集进行数据预处理。
本发明所采用的另一技术方案是:一种基于预分类的短文本关键词提取系统,该系统包括:
划分单元,用于将短文本全量数据集划分为多个短文本子数据集;
生成单元,用于采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
累计计算单元,用于利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
提取处理单元,用于根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。
本发明的有益效果是:本发明的关键词提取方法是将短文本全量数据集划分为多个短文本子数据集后,分别单独对每一个短文本子数据集进行相应的关键词提取处理,接着再利用所有短文本子数据集的关键词提取结果来实现短文本全量数据集的关键词提取,这样则能将整个计算过程拓展到分布式系统中,大大提高处理效率。而且利用短文本预分类方式,先对短文本进行分类,然后将同一类的短文本拼接成长文本后再应用TF-IDF算法进行关键词提取,这样能够有效提升短文本的TF-IDF特征的表达效果,从而有效地提高短文本关键词的提取效果。
另外,本发明的方法中采用了TF-IDF算法来生成每一个短文本子数据集所对应的关键词特征词典,然后再利用关键词特征词典用于整个短文本子数据集的关键词提取,这样能更进一步地提高了计算处理效率。
本发明的另一有益效果是:通过使用本发明的关键词提取系统,能够将整个计算过程拓展到分布式系统中,大大提高处理效率,而且利用短文本预分类方式,先对短文本进行分类,然后将同一类的短文本拼接成长文本后再应用TF-IDF算法进行关键词提取,这样能够有效提升短文本的TF-IDF特征的表达效果,从而有效地提高短文本关键词的提取效果。
附图说明
图1是本发明一种基于预分类的短文本关键词提取方法的步骤流程示意图;
图2是本发明一种基于预分类的短文本关键词提取方法中关键词特征词典的生成步骤流程示意图;
图3是本发明一种基于预分类的短文本关键词提取方法中条数最优值的计算步骤流程示意图;
图4是本发明一种基于预分类的短文本关键词提取系统的结构框图。
具体实施方式
为了解决传统关键词提取技术中所存在的无法将计算过程拓展到分布式系统进行处理、关键词提取效果差等问题,本发明提供了一种基于预分类的短文本关键词提取方法,其包括的步骤有:
将短文本全量数据集划分为多个短文本子数据集;
采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。
作为本实施例的优选实施方式,所述将短文本全量数据集划分为多个短文本子数据集这一步骤之前设有数据预处理步骤,所述数据预处理步骤为:对短文本全量数据集进行数据预处理。
以下结合详细实施例来对本发明的关键词提取方法做详细阐述。
实施例1、一种基于预分类的短文本关键词提取方法
如图1所示,一种基于预分类的短文本关键词提取方法,其具体包括的步骤有:
S1、对获得的短文本全量数据集进行数据预处理;
所述步骤S1,其具体为:采用结巴分词的方法,对短文本全量数据集进行分词和去除停用词的预处理工作,从而得到用于后续关键词提取的短文本全量数据集B;
S2、训练所需使用的SVM分类器;
所述步骤S2,其具体为:从短文本全量数据集B中随机抽取一小部分的数据用于对SVM分类器进行训练,其中,对于SVM分类器,其训练输入数据集包括短文本的特征信息,训练输出数据集包括短文本所属的类型,然后根据所述的训练输入数据集和训练输出数据集,对SVM分类器进行训练处理,训练结束后所得到的SVM分类为所需使用的SVM分类器;
S3、将短文本全量数据集B划分为多个短文本子数据集batch;
所述步骤S3,其具体为:根据时间、数据量等预设的维度,将B划分为多个batch;例如,将1年所获得的所有短文本,即B,按照月份分为12个batch,或者按照天数分为365个batch,这样后续便能将每一个batch作为一个独立单元进行关键词提取处理;
S4、采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集batch分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
其中,如图2所示,对于一个短文本子数据集batch所对应的关键词特征词典,其生成步骤包括有:
S41、从batch中随机选取出s条短文本来构成一短文本微数据集mini-batch,即从batch中随机选取出一个包含有s条短文本的mini-batch,其中,s的数值为通用条数最优值;
S42、利用步骤S2得到的SVN分类器,对mini-batch中所包含的所有短文本进行分类,然后将属于同一类别的短文本拼接成一条长文本,即mini-batch中每一类的短文本对应一条长文本;
S43、采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中各个词语的TF-IDF值;
所述步骤S43,其具体为:采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中各个词语的TF-IDF值,从而构建成一TF-IDF特征矩阵;在该TF-IDF特征矩阵中,一行对应一条长文本,即每一行分别对应不同类的长文本,而TF-IDF特征矩阵中所保存的每一个值,其代表该行所对应的一条长文本中一词语的TF-IDF值;
S44、新建一个空的关键词特征词典,并设定一个关于TF-IDF值的阈值k作为第一阈值;
S45、根据预设的第一阈值,对每一条长文本中各个词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来,然后对提取出来的词语及其对应的TF-IDF值进行存储处理;
所述对提取出来的词语及其对应的TF-IDF值进行存储处理这一步骤,其具体为:
将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,此时,该提取出的词语及其对应的TF-IDF值实质为待存储的词语及其对应的TF-IDF值;判断关键词特征词典中是否已存储有该词语,若否,则将该待存储的词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断该待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用该待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值;
然后对下一个提取出来的词语及其对应的TF-IDF值进行上述的存储处理步骤,直到对所有提取出来的词语及其对应的TF-IDF值完成存储处理为止,此时,即完成了一短文本子数据集batch所对应的关键词特征词典的生成;
由上述可见,通过采用上述步骤S41~S45分别对多个batch进行关键词特征词典的生成处理,便能生成得到每一个短文本子数据集batch所对应的关键词特征词典,而存储在关键词特征词典中的词语实质为关键词;
S5、利用每一个关键词特征词典,分别相对应对每一个短文本子数据集batch进行关键词权重系数的累计计算;
其中,对一个batch进行关键词权重系数的累计计算,其所采用的计算公式为:
Wi=ai*wi,i=1、2、……、m
上述m表示为关键词特征词典中所包含的词语的总个数,Wi表示第i个关键词的权重系数累计计算结果,ai表示在关键词特征词典中所存储的第i个词语在短文本子数据集batch所包含的所有短文本中所出现的次数,wi表示为在关键词特征词典中所存储的第i个词语所对应的TF-IDF值;由此可见,一个batch对应m个关键词的权重系数累计计算结果;
S6、根据每一个短文本子数据集batch的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理;
所述步骤S6,其具体为:首先,对每一个短文本子数据集batch的关键词权重系数累计计算结果进行降序,从而获得每一个短文本子数据集的关键词排序结果,也就是说,一个batch的关键词排序结果,其为,一个batch所对应的m个关键词的权重系数累计计算结果进行降序后所得到的降序结果;
然后对所有短文本子数据集batch的关键词排序结果进行汇总计算,从而统计出总体维度的关键词提取初步结果,接着对汇总计算结果,即关键词提取初步结果,进行排序和阈值过滤等优化操作,从而得到短文本全量数据集的关键词提取结果。而各个batch的关键词提取结果也可视实际业务需求从而作为中间过程的关键词提取结果,例如,对1年的数据进行处理(按月份分为12个batch),通过本发明的方法,既可以提取数据的年度关键词,也可提取数据的月度关键词。
对于上述步骤S41中所述的通用条数最优值,其确定获取步骤包括有:
计算每一个短文本子数据集batch所对应的条数最优值,然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值;
其中,如图3所示,一短文本子数据集batch所对应的条数最优值,其计算步骤包括有:
S411、设n值为s0(s0表示为batch所包含的短文本的总条数);
S412、从batch中随机选取出n条短文本来构成一短文本微数据集mini-batch,即从batch中随机选取出一个包含有n条短文本的mini-batch;
S413、根据步骤S412所选取出的mini-batch,从而生成该batch所对应的关键词特征词典,其中,此处所述的关键词特征词典,其生成步骤与上述步骤S42~S45相同,即对于所述步骤S413,其具体包括:
S4131、利用步骤S2得到的SVN分类器,对mini-batch中所包含的所有短文本进行分类,然后将属于同一类别的短文本拼接成一条长文本;
S4132、采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中各个词语的TF-IDF值,构建TF-IDF特征矩阵;
S4133、新建一个空的关键词特征词典,并设定一个关于TF-IDF值的阈值k作为第一阈值;
S4134、根据预设的第一阈值,对每一条长文本中各个词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来,然后对提取出来的词语及其对应的TF-IDF值进行存储处理,从而完成了一短文本子数据集batch所对应的关键词特征词典的生成;
S414、判断当前生成的关键词特征词典H与前一次生成的关键词特征词典H’之间的差异是否满足预设的判定标准,例如,判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的结果是否有明显变化,或者判断当前生成的关键词特征词典中所包含的词语个数是否小于前一次生成的关键词特征词典中所包含的词语个数,若是,则将前一次的n值作为该batch所对应的条数最优值;反之,则对当前n值进行减小处理后得到新的n值,利用新的n值返回重新执行上述步骤S412;
由上述可见,通过上述步骤S411~S414,便能计算出每一个batch所对应的条数最优值。另外,对于步骤S411,其也可为,设n值为s1(s1小于s0),s1的值可根据实际情况来设定;
上述方法实施例中所描述的内容均适用于以下系统实施例中。
实施例2、一种基于预分类的短文本关键词提取系统、
如图4所示,一种基于预分类的短文本关键词提取系统,该系统包括:
划分单元,用于将短文本全量数据集划分为多个短文本子数据集;
生成单元,用于采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
累计计算单元,用于利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
提取处理单元,用于根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理。
作为本实施例的优选实施方式,所述划分单元之前还设有用于对短文本全量数据集进行数据预处理的预处理单元。
由上述可得,本发明的关键词提取方法及系统,其所包括的优点有:
1、通过预分类将短文本合并成长文本再进行关键词提取,即首先对需处理的短文本进行分类,然后同类的短文本合成长文本,再利用TF-IDF算法进行关键词提取,从而能得到一个较好的短文本关键词提取效果;
2、根据时间、数据量等维度,将全量数据集分成多个batch,对每个batch进行单独处理,最后再将各个batch的结果进行进一步的汇总计算,从而使得整个计算过程可以拓展到分布式系统中,提高处理效率;
3、从每个batch中随机抽取一个mini-batch来计算TF-IDF特征词典,然后将这个TF-IDF特征词典用于整个batch的关键词提取,从而大大提升了计算效率。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种基于预分类的短文本关键词提取方法,其特征在于:该方法包括的步骤有:
将短文本全量数据集划分为多个短文本子数据集;
采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理;
所述短文本子数据集所对应的关键词特征词典,其生成步骤包括有:
从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集,其中,s的数值为通用条数最优值;
对短文本微数据集中所包含的短文本进行分类,然后将属于同一类别的短文本拼接成相对应的长文本;
采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中词语的TF-IDF值;
根据预设的第一阈值,对每一条长文本的词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来;
将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,判断关键词特征词典中是否已存储有该词语,若否,则将该词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。
2.根据权利要求1所述一种基于预分类的短文本关键词提取方法,其特征在于:所述通用条数最优值,其确定获取步骤包括有:
计算每一个短文本子数据集所对应的条数最优值,然后从计算得出的所有条数最优值中选取数值最大的条数最优值作为通用条数最优值。
3.根据权利要求2所述一种基于预分类的短文本关键词提取方法,其特征在于:所述短文本子数据集所对应的条数最优值,其计算步骤包括有:
从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集,其中,n值小于等于s0,s0表示为短文本子数据集所包含的短文本的总条数;
根据选取出的短文本微数据集,生成该短文本子数据集所对应的关键词特征词典;
判断当前生成的关键词特征词典与前一次生成的关键词特征词典之间的差异是否满足预设的判定标准,若是,则将前一次的n值作为该短文本子数据集所对应的条数最优值;反之,则对当前n值进行减小处理后得到新的n值,利用新的n值返回重新执行上述从短文本子数据集中选取出一个包含有n条短文本的短文本微数据集这一步骤。
4.根据权利要求3所述一种基于预分类的短文本关键词提取方法,其特征在于:所述对当前n值进行减小处理后得到新的n值这一步骤,其具体为:将当前n值与10的相除结果作为新的n值。
5.根据权利要求1-4任一项所述一种基于预分类的短文本关键词提取方法,其特征在于:所述对短文本子数据集进行关键词权重系数的累计计算,其所采用的计算公式为:
Wi=ai*wi,i=1、2、……、m
其中,m表示为关键词特征词典中所包含的词语的总个数,Wi表示第i个关键词的权重系数累计计算结果,ai表示在关键词特征词典中所存储的第i个词语在短文本子数据集所包含的所有短文本中所出现的次数,wi表示为在关键词特征词典中所存储的第i个词语所对应的TF-IDF值。
6.根据权利要求1-4任一项所述一种基于预分类的短文本关键词提取方法,其特征在于:所述根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理这一步骤,其具体为:
对每一个短文本子数据集的关键词权重系数累计计算结果进行降序,从而获得每一个短文本子数据集的关键词排序结果,然后对所有短文本子数据集的关键词排序结果进行汇总计算,接着对汇总计算结果进行排序和阈值过滤操作,从而得到短文本全量数据集的关键词提取结果。
7.根据权利要求1-4任一项所述一种基于预分类的短文本关键词提取方法,其特征在于:所述对短文本微数据集中所包含的短文本进行分类这一步骤,其具体为:
利用SVM分类器,对短文本微数据集中所包含的短文本进行分类。
8.根据权利要求1-4任一项所述一种基于预分类的短文本关键词提取方法,其特征在于:所述将短文本全量数据集划分为多个短文本子数据集这一步骤之前设有数据预处理步骤,所述数据预处理步骤为:对短文本全量数据集进行数据预处理。
9.一种基于预分类的短文本关键词提取系统,其特征在于:该系统包括:
划分单元,用于将短文本全量数据集划分为多个短文本子数据集;
生成单元,用于采用短文本预分类方式以及通用条数最优值,对多个短文本子数据集分别进行关键词特征词典的生成处理,从而生成得到每一个短文本子数据集所对应的关键词特征词典;
累计计算单元,用于利用每一个关键词特征词典分别相对应对每一个短文本子数据集进行关键词权重系数的累计计算;
提取处理单元,用于根据每一个短文本子数据集的关键词权重系数累计计算结果,对短文本全量数据集进行关键词提取处理;
所述短文本子数据集所对应的关键词特征词典,其生成步骤包括有:
从短文本子数据集中选取出一个包含有s条短文本的短文本微数据集,其中,s的数值为通用条数最优值;
对短文本微数据集中所包含的短文本进行分类,然后将属于同一类别的短文本拼接成相对应的长文本;
采用TF-IDF算法对每一条长文本中的词语进行TF-IDF值计算,计算出每一条长文本中词语的TF-IDF值;
根据预设的第一阈值,对每一条长文本的词语的TF-IDF值进行阈值判断,然后将每一条长文本中TF-IDF值大于第一阈值的词语提取出来;
将提取出来的词语及其对应的TF-IDF值存储至关键词特征词典中时,判断关键词特征词典中是否已存储有该词语,若否,则将该词语及其对应的TF-IDF值存储至关键词特征词典中;反之,则判断待存储的词语所对应的TF-IDF值是否大于已存储在关键词特征词典中的该词语所对应的TF-IDF值,若是,则采用待存储的词语所对应的TF-IDF值替换已存储在关键词特征词典中的该词语所对应的TF-IDF值,反之,则不改变已存储在关键词特征词典中的该词语所对应的TF-IDF值。
CN201710053710.4A 2017-01-22 2017-01-22 一种基于预分类的短文本关键词提取方法及系统 Active CN106886576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710053710.4A CN106886576B (zh) 2017-01-22 2017-01-22 一种基于预分类的短文本关键词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710053710.4A CN106886576B (zh) 2017-01-22 2017-01-22 一种基于预分类的短文本关键词提取方法及系统

Publications (2)

Publication Number Publication Date
CN106886576A CN106886576A (zh) 2017-06-23
CN106886576B true CN106886576B (zh) 2018-04-03

Family

ID=59175817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710053710.4A Active CN106886576B (zh) 2017-01-22 2017-01-22 一种基于预分类的短文本关键词提取方法及系统

Country Status (1)

Country Link
CN (1) CN106886576B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241274B (zh) * 2017-07-04 2022-01-25 腾讯科技(深圳)有限公司 文本聚类方法及装置
CN108111677B (zh) * 2017-12-14 2021-01-15 Oppo广东移动通信有限公司 电子装置的触控显示屏显示方法及相关产品
CN108009795A (zh) * 2017-12-15 2018-05-08 安徽长泰信息安全服务有限公司 一种电子政务管理信息化平台及方法
CN108763477A (zh) * 2018-05-29 2018-11-06 厦门快商通信息技术有限公司 一种短文本分类方法及系统
CN109857842B (zh) * 2018-12-21 2021-06-15 北京奇艺世纪科技有限公司 一种报障文本识别的方法及装置
CN109815501A (zh) * 2019-01-29 2019-05-28 四川无声信息技术有限公司 一种获取群聊文本分类词库的方法及装置
CN112541057A (zh) * 2019-09-04 2021-03-23 上海晶赞融宣科技有限公司 分布式新词发现方法、装置、计算机设备和存储介质
CN114912440A (zh) * 2022-05-10 2022-08-16 平安科技(深圳)有限公司 文本摘要生成方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142950A (zh) * 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及系统
CN105224955A (zh) * 2015-10-16 2016-01-06 武汉邮电科学研究院 基于微博大数据获取网络服务状态的方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201308541D0 (en) * 2013-05-13 2013-06-19 Qatar Foundation Social media news portal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142950A (zh) * 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及系统
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN105224955A (zh) * 2015-10-16 2016-01-06 武汉邮电科学研究院 基于微博大数据获取网络服务状态的方法
CN105912716A (zh) * 2016-04-29 2016-08-31 国家计算机网络与信息安全管理中心 一种短文本分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种基于聚类的微博关键词提取方法的研究与实现;孙兴东 等;《技术研究》;20141231;第27-31页 *
基于改进的TF-IDF权重的短文本分类算法;杨彬 等;《重庆理工大学学报(自然科学)》;20161231;第30卷(第12期);第108-113页 *
基于维基百科的短文本处理方法;罗燕;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160815;第I138-1457页 *

Also Published As

Publication number Publication date
CN106886576A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN106886576B (zh) 一种基于预分类的短文本关键词提取方法及系统
Saad et al. Twitter sentiment analysis based on ordinal regression
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
Song et al. Research on text classification based on convolutional neural network
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
CN108427670A (zh) 一种基于语境词向量和深度学习的情感分析方法
CN111460092B (zh) 一种基于多文档的复杂问题自动化求解方法
CN111143549A (zh) 一种基于主题的舆情情感演化的方法
CN105824922A (zh) 一种融合深层特征和浅层特征的情感分类方法
Chowdhury et al. Analyzing sentiment of movie reviews in bangla by applying machine learning techniques
CN102929861B (zh) 一种文本情感指数计算方法和系统
CN103631859A (zh) 一种面向科技项目的评审专家智能推荐方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN113033610B (zh) 一种多模态融合敏感信息分类检测方法
Yeole et al. Opinion mining for emotions determination
Sivanantham Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
Chirawichitchai Sentiment classification by a hybrid method of greedy search and multinomial naïve bayes algorithm
Varshney et al. Sentiment analysis using ensemble classification technique
Atoum Detecting cyberbullying from tweets through machine learning techniques with sentiment analysis
CN103514168A (zh) 数据处理方法和设备
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant