CN108153899B - 一种智能化文本分类方法 - Google Patents

一种智能化文本分类方法 Download PDF

Info

Publication number
CN108153899B
CN108153899B CN201810029393.7A CN201810029393A CN108153899B CN 108153899 B CN108153899 B CN 108153899B CN 201810029393 A CN201810029393 A CN 201810029393A CN 108153899 B CN108153899 B CN 108153899B
Authority
CN
China
Prior art keywords
text
word
category
feature
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810029393.7A
Other languages
English (en)
Other versions
CN108153899A (zh
Inventor
张燕平
乔嘉琪
陈洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201810029393.7A priority Critical patent/CN108153899B/zh
Publication of CN108153899A publication Critical patent/CN108153899A/zh
Application granted granted Critical
Publication of CN108153899B publication Critical patent/CN108153899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种智能化文本分类方法,包括:根据预设的训练语料建立语料库,每个训练语料对应一个文本类别;根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量;结合最大化差异算法和TF‑IDF算法对预测文本进行特征词选择,得到文本特征词;结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量;根据文本特征向量对预测文本进行分类,得到预测文本的类别。

Description

一种智能化文本分类方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种智能化文本分类方法。
背景技术
随着互联网技术的快速发展,通过计算机和网络来获取资料和信息已经成为人们获取信息的主要方式之一。面对海量、高增速的互联网信息,如何使用户尽快找到想要的信息、如何对这些海量电子信息进行有效的组织和分类是当下迫切需要解决的问题之一。文本分类(Text Categorization)是针对该问题提出的解决方案,TC技术依据文本的内容,把文本判定为预先定义好的类别,是信息处理的关键技术。
影响特征选择的主要因素为特征词的频率和与类别之间的关系。通常特征选择方法都是基于词频或词本身的含义进行特征选择,这些方法尽管考虑到词在文本中的重要性,但没有考虑特征词的类别代表性和在类别之间的分布情况从而影响到分类的效果。
发明内容
基于背景技术存在的技术问题,本发明提出了一种智能化文本分类方法;
本发明提出的一种智能化文本分类方法,包括:
S1、根据预设的训练语料建立语料库,每个训练语料对应一个文本类别;
S2、根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量;
S3、结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择,得到文本特征词;
S4、结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量;
S5、根据文本特征向量对预测文本进行分类,得到预测文本的类别。
优选地,步骤S2中,在根据训练语料库中的训练语料进行训练之前,还包括:
对语料库中训练语料进行分词;
对语料库中训练语料进行去停用词。
优选地,步骤S2中,所述词类别贡献度特征表示向量,具体包括:
Figure BDA0001545996700000021
其中,m为语料库中的文本类别数,
Figure BDA0001545996700000022
为词tj的类别贡献度特征向量,
Figure BDA0001545996700000023
为词tj在文本类别m下的权重,其中
Figure BDA0001545996700000024
为文本类别m中包含tj的文本数,nm为该文本类别下的文本总数。
优选地,步骤S3,具体包括:
S31、计算待预测文本中各词的TF-IDF值;
S32、计算待预测文本中各词的最大化差异值;
S33、将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为文本特征词。
优选地,步骤S33,具体包括:
Figure BDA0001545996700000025
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为M个类别中的任意2个类别,Zasj为类别b中词j出现s次的文本和该类别中包含词j的文本总数的比例,tfj为文本频率,idfj为逆文本频率。
优选地,步骤S4,具体包括:
将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化,生成文本类别贡献度表示向量。
优选地,步骤S5,具体包括:根据文本特征向量的最大维特征对预测文本进行文本类别判断,得到预测文本的类别。
本发明根据预设的训练语料建立语料库,每个训练语料对应一个文本类别,根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量,结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择,得到文本特征词,结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量,根据文本特征向量对预测文本进行分类,得到预测文本的类别。如此,在特征选择过程中根据最大化差异选择文档中最重要且最具类别特征的词作为特征项,在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算特征词的类别贡献度向量,最后将文本中的特征词的特征向量进行计算,得出文本特征向量进行分类,本发明在分类性能上有显著的提高。
附图说明
图1为本发明提出的一种智能化文本分类方法的流程示意图。
具体实施方式
参照图1,本发明提出的一种智能化文本分类方法,包括:
步骤S1,根据预设的训练语料建立语料库,每个训练语料对应一个文本类别。
在具体方案中,在进行分类器训练之前,需要建立训练语料库,其中训练语料库中包含训练语料,训练语料即为已知文本类别的文本。
步骤S2,根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量,在根据训练语料库中的训练语料进行训练之前,还包括:对语料库中训练语料进行分词;对语料库中训练语料进行去停用词,其中,所述词类别贡献度特征表示向量,包括:
Figure BDA0001545996700000041
其中,m为语料库中的文本类别数,
Figure BDA0001545996700000042
为词tj的类别贡献度特征向量,
Figure BDA0001545996700000043
为词tj在文本类别m下的权重,其中
Figure BDA0001545996700000044
为文本类别m中包含tj的文本数,nm为该文本类别下的文本总数。
在具体方案中,首先对对语料库中训练语料进行分词和去停用词处理。然后计算词在不同类别下的文档频率,再计算词在文本类别的权重,生成词类别贡献度特征向量,该向量以类别作为特征向量的各维特征,计算词在不同类别下的文档频率(DF)作为各维特征的权重值,将203步骤计算出词tj在各个类别m下的文档频率
Figure BDA0001545996700000046
作为对应特征向量各维的权重值,再归一化操作。权重是一个相对的概念,针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重是要从若干评价指标中分出轻重来,一组评价指标体系相对应的权重组成了权重体系。
步骤S3,结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择,得到文本特征词,步骤S3,具体包括:
S31、计算待预测文本中各词的TF-IDF值;
S32、计算待预测文本中各词的最大化差异值;
S33、将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为文本特征词,具体包括:
Figure BDA0001545996700000045
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为M个类别中的任意2个类别,Zasj为类别b中词j出现s次的文本和该类别中包含词j的文本总数的比例,tfj为文本频率,idfj为逆文本频率。
在具体方案中,计算待预测文本中各词项的TF-IDF值,TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。IDF的主要思想是:语料库中包含词条的文档越少,IDF越大,则说明词条具有很好的区分能力。某一特定文件内的高词语频率,以及该词语在整个文件集合中的文档频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
步骤S33中,将最大化差异值和TF-IDF值相乘,将得出的结果降序排序,选择TOP-N个词作为该文本的特征词。该步骤结合最大化差异和TF-IDF各自的优点,选择待预测文本中最能代表文本信息且最具类别区分度的词作为文本特征词。
步骤S4,结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量,具体包括:
将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化,生成文本类别贡献度表示向量。
在具体方案中,将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化,即可得到本类别贡献度特征向量。
步骤S5,根据文本特征向量对预测文本进行分类,得到预测文本的类别,具体包括:
根据文本特征向量的最大维特征对预测文本进行文本类别判断,得到预测文本的类别。
在具体方案中,根据文本特征向量的最大维特征所对应的类别特征即可判断文本类别。
例如:
特征词 娱乐 政治 体育 财经 军事
双十一 0.3 0.2 0.1 0.4 0.1
阿里巴巴 0.2 0.2 0.2 0.3 0.1
支付宝 0.1 0.3 0.1 0.4 0.1
股票 0 0.05 0 0.95 0
文本特征 0.14 0.18 0.11 0.5 0.07
设待预测文本特征词为:“双十一”,“支付宝”,“天猫”,“马云”,根据205步骤得出特征词类别贡献度特征向量为:“双十一”(0.3,0.2,0.1,0.4,0.1)、“阿里巴巴”(0.2,0.2,0.2,0.3,0.1)、“支付宝”(0.1,0.3,0.1,0.4,0.1)、“股票”(0,0.05,0,0.95,0),执行208步骤,计算出文本类别贡献度特征向量(0.14,0.18,0.11,0.5,0.07)。
通过步骤S4和步骤S5,得出的文本类别贡献度特征向量的最大值对应的类别特征,即判断该文本为财经新闻。
本实施方式根据预设的训练语料建立语料库,每个训练语料对应一个文本类别,根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量,结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择,得到文本特征词,结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量,根据文本特征向量对预测文本进行分类,得到预测文本的类别。如此,在特征选择过程中根据最大化差异选择文档中最重要且最具类别特征的词作为特征项,在文本特征表示过程中根据词在不同类别中的贡献度分布的不同计算特征词的类别贡献度向量,最后将文本中的特征词的特征向量进行计算,得出文本特征向量进行分类,本发明在分类性能上有显著的提高。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种智能化文本分类方法,其特征在于,包括:
S1、根据预设的训练语料建立语料库,每个训练语料对应一个文本类别;
S2、根据训练语料库中的训练语料进行训练,生成词类别贡献度特征表示向量;
S3、结合最大化差异算法和TF-IDF算法对预测文本进行特征词选择,得到文本特征词;
S4、结合文本特征词和词类别贡献度特征表示向量,生成文本类别贡献度表示向量;
S5、根据文本特征向量对预测文本进行分类,得到预测文本的类别;
步骤S3,具体包括:
S31、计算待预测文本中各词的TF-IDF值;
S32、计算待预测文本中各词的最大化差异值;
S33、将最大化差异值和TF-IDF值相乘计算各词的权值,将各词的权值降序排序,选择降序排序后前N个词作为文本特征词;
步骤S33,具体包括:
Figure FDA0003227341070000011
wj其中,wj词的权值,MDj为词tj的最大化差异值,其中a、b为M个类别中的任意2个类别,Zasj为类别b中词j出现s次的文本和该类别中包含词j的文本总数的比例,tfj为文本频率,idfj为逆文本频率。
2.根据权利要求1所述的智能化文本分类方法,其特征在于,步骤S2中,在根据训练语料库中的训练语料进行训练之前,还包括:
对语料库中训练语料进行分词;
对语料库中训练语料进行去停用词。
3.根据权利要求1所述的智能化文本分类方法,其特征在于,步骤S2中,所述词类别贡献度特征表示向量,具体包括:
Figure FDA0003227341070000021
其中,m为语料库中的文本类别数,
Figure FDA0003227341070000022
为词tj的类别贡献度特征向量,
Figure FDA0003227341070000023
为词tj在文本类别m下的权重,其中
Figure FDA0003227341070000024
为文本类别m中包含tj的文本数,nm为该文本类别下的文本总数。
4.根据权利要求1所述的智能化文本分类方法,其特征在于,步骤S4,具体包括:
将预测文本的文本特征词对应的词类别贡献度特征向量进行累加归一化,生成文本类别贡献度表示向量。
5.根据权利要求1所述的智能化文本分类方法,其特征在于,步骤S5,具体包括:
根据文本特征向量的最大维特征对预测文本进行文本类别判断,得到预测文本的类别。
CN201810029393.7A 2018-01-12 2018-01-12 一种智能化文本分类方法 Active CN108153899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810029393.7A CN108153899B (zh) 2018-01-12 2018-01-12 一种智能化文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810029393.7A CN108153899B (zh) 2018-01-12 2018-01-12 一种智能化文本分类方法

Publications (2)

Publication Number Publication Date
CN108153899A CN108153899A (zh) 2018-06-12
CN108153899B true CN108153899B (zh) 2021-11-02

Family

ID=62461420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810029393.7A Active CN108153899B (zh) 2018-01-12 2018-01-12 一种智能化文本分类方法

Country Status (1)

Country Link
CN (1) CN108153899B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189920A (zh) * 2018-08-02 2019-01-11 上海欣方智能系统有限公司 扫黑案件分类方法及系统
CN110046634B (zh) * 2018-12-04 2021-04-27 创新先进技术有限公司 聚类结果的解释方法和装置
CN110222175B (zh) * 2019-05-20 2020-08-25 北京语言大学 一种基于词条作家热度构建分类分级词表的方法及系统
CN113128544A (zh) * 2020-01-15 2021-07-16 富士通株式会社 训练人工智能模型的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271499B2 (en) * 2009-06-10 2012-09-18 At&T Intellectual Property I, L.P. Incremental maintenance of inverted indexes for approximate string matching
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US10257151B2 (en) * 2014-10-27 2019-04-09 Phanto, Llc Systems and methods for enabling dialog amongst different participant groups with variable and association-based privacy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598586A (zh) * 2015-01-18 2015-05-06 北京工业大学 大规模文本分类的方法
CN105677856A (zh) * 2016-01-07 2016-06-15 中国农业大学 一种基于半监督的主题模型文本分类方法

Also Published As

Publication number Publication date
CN108153899A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN108153899B (zh) 一种智能化文本分类方法
Largeron et al. Entropy based feature selection for text categorization
Dadgar et al. A novel text mining approach based on TF-IDF and Support Vector Machine for news classification
Babar et al. Improving performance of text summarization
CN100533441C (zh) 基于概率主题词的两级组合文本分类方法
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN109271517B (zh) Ig tf-idf文本特征向量生成及文本分类方法
CN108009135B (zh) 生成文档摘要的方法和装置
CN108228541B (zh) 生成文档摘要的方法和装置
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN108920488B (zh) 多系统相结合的自然语言处理方法及装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
CN108363694B (zh) 关键词提取方法及装置
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN105045913A (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN107562928A (zh) 一种ccmi文本特征选择方法
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
Yao et al. Sentiment feature identification from Chinese online reviews
Zhou et al. Feature selection based on term frequency reordering of document level
Mountassir et al. Some methods to address the problem of unbalanced sentiment classification in an arabic context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant