CN107169086A - 一种文本分类方法 - Google Patents

一种文本分类方法 Download PDF

Info

Publication number
CN107169086A
CN107169086A CN201710333445.5A CN201710333445A CN107169086A CN 107169086 A CN107169086 A CN 107169086A CN 201710333445 A CN201710333445 A CN 201710333445A CN 107169086 A CN107169086 A CN 107169086A
Authority
CN
China
Prior art keywords
text
vector
training
file classification
classification method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710333445.5A
Other languages
English (en)
Other versions
CN107169086B (zh
Inventor
脱建勇
王海亮
闫硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201710333445.5A priority Critical patent/CN107169086B/zh
Publication of CN107169086A publication Critical patent/CN107169086A/zh
Application granted granted Critical
Publication of CN107169086B publication Critical patent/CN107169086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明涉及一种文本分类方法,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所训练文本的文本向量和待测文本的文本向量获得的方法为,步骤1:对标注文本进行预处理,特征选择,进行词向量训练;步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。

Description

一种文本分类方法
技术领域
本发明涉及一种文本分类方法。
背景技术
随着网络媒体的日益发达和网民数量的不断增加,大量的文本数据在不断的产生。如何处理庞大的文本数据并正确分类是一个亟待解决的问题。文本分类通过在已有数据训练分类器,然后将此分类器用于测试文档确定每一个文档的类别。正确的文本分类可以使用户更快的寻找到需要的信息,更方便的浏览文档。文本自动分类指通过带有类别标志的训练文本,训练文本分类器,然后将该分类器用于测试未知类别文本进行识别。
现有的技术中,文本分类方法主要包含以下几种:
一、基于规则的方法。通过统计大量文本特点和该领域相关知识,制定规则。通过规则分类。该方法需要大量的时间和相关专业人员。
二、基于向量空间表达方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过向量空间构造文本表达;第三步:分类器的构建。该方法忽略了词语的语义信息,维度较大,易引起维度灾难问题。
三、基于分布式词向量方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过LDA(主题模型)或Word2Vec等方法构建文本表达;第三步:分类器的构建。常用的基于Word2Vec分类方法为加和求平均和针对每个维度取最大,这两种表达方法只包含全局信息或局部信息的一种,而忽略了另一种信息,分类准确度较低。
发明内容
本发明目的在于提供一种文本分类方法,文本向量既包括全局信息又包括局部信息,分类更加准确。
实现本发明目的技术方案:
一种文本分类方法,其特征在于,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所说训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重。
步骤3中,权重通过网格搜索获得。
步骤1中,文本的特征选择基于信息增益方法获得。
文本分类器选用SVM文本分类器,核函数选取线性核函数。
步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
本发明具有的有益效果:
本发明是对基于Word2Vec分类方法的改进,根据全局向量和局部向量计算文本向量,即分类时既考虑了文档全局信息,又考虑了局部信息。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。经实验,本发明在搜狗和复旦开源中文本分类数据集上进行测试,测试效果相对现有分类方法有所提升。
本发明构建文本的全局向量,采用向量加和平均方法获得;构建文本的局部向量,采用向量每个维度取最大的方法获得;计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,进一步保证了分类的准确可靠性。本发明文本的特征选择基于信息增益方法获得;文本分类器选用SVM文本分类器,核函数选取线性核函数,进一步保证了文本的分类效果。
具体实施方式
本发明首先基于文本向量训练文本分类器,计算训练文本的文本向量,将计算所得的所有训练文本向量和类别输入到文本分类器中,进行参数训练。针对待测文本构建文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类。本实施例中,文本分类器采用SVM(支持向量机),核函数选取线性核函数。
上述训练文本向量和待测文本向量获得的方法相同,包括如下步骤:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练。
预处理时,使用分词工具对文本进行分词,获得文本词集。分词采用python开源中文分词工具jieba。
特征选择方法采用信息增益方法,公式如下所示:
选取最大K个特征,K通过实验所得。通过Word2Vec工具训练词向量,训练数据为所有文本。采用模型为CBOW模型,词向量维度为200,窗口为5。
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量。
针对文本序列代表评论中的词语,表示分类文本。将w转化为对应的词向量 ,所说的词向量由步骤1训练获得。
构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重,权重通过网格搜索获得。
本实施例中,分别对搜狗和复旦数据集进行训练数据和待测试数据划分。
将分类结果与实际类别进行对比,计算准确率、召回率,公式如下:
准确率p指文本分类正确的文本占所有文本数的比率:
召回率r为分类正确的文本数占该类别实际文本数的比率:
值指标对准确率和召回率进行权衡。
上述公式中,a表示正确划分到该类别的数量;b表示错误划分到该类别的数量;c为属于该类别,但未划分正确的文本数量。
表1为本发明方法在搜狗和复旦(部分数据)进行文本分类对比实验结果。
表1.不同方法的实验结果
最后,搜狗数据集采用1:1比率分为训练集和测试集,共包含九类,分别为:财经、互联网、健康、教育、军事、旅游、体育、文化、招聘。复旦选取类别文档数大于1000的几类文本进行分类实验,分别为政治、计算机、环境、经济、农业、运动六类。对比实验采用同样的预处理过程、相同的词向量和同样的文本分类器。对比实验方法选取一下几种主流的求解方法:Bow_tfidf基于向量空间表达方法;Fasttext为Facebook开源的快速文本分类工具,模型结构与Word2Vec相似;Word2Vec_Ave为词向量加和求平均方法;Word2Vec_Max为维度取最大方法;Word2Vec_tfidf为加权求平均方法;最后为本发明提出方法。评判标准为分类准确率、召回率、值。结果表明,本发明分类方法优于其它分类方法。

Claims (8)

1.一种文本分类方法,其特征在于,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所说训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
2.根据权利要求1所述的文本分类方法,其特征在于,步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
3.根据权利要求2所述的文本分类方法,其特征在于:步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
4.根据权利要求3所述的文本分类方法,其特征在于:步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重。
5.根据权利要求4所述的文本分类方法,其特征在于:步骤3中,权重通过网格搜索获得。
6.根据权利要求5所述的文本分类方法,其特征在于:步骤1中,文本的特征选择基于信息增益方法获得。
7.根据权利要求1至6任何一项所述的文本分类方法,其特征在于:文本分类器选用SVM文本分类器,核函数选取线性核函数。
8.根据权利要求7所述的文本分类方法,其特征在于:步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
CN201710333445.5A 2017-05-12 2017-05-12 一种文本分类方法 Active CN107169086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710333445.5A CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710333445.5A CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Publications (2)

Publication Number Publication Date
CN107169086A true CN107169086A (zh) 2017-09-15
CN107169086B CN107169086B (zh) 2020-10-27

Family

ID=59816601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710333445.5A Active CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Country Status (1)

Country Link
CN (1) CN107169086B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
WO2019182593A1 (en) * 2018-03-22 2019-09-26 Equifax, Inc. Text classification using automatically generated seed data
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质
CN112749278A (zh) * 2020-12-30 2021-05-04 华南理工大学 一种建筑工程变更指令的分类方法
US11023682B2 (en) 2018-09-30 2021-06-01 International Business Machines Corporation Vector representation based on context
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507829B1 (en) * 1999-06-18 2003-01-14 Ppd Development, Lp Textual data classification method and apparatus
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
US20120310627A1 (en) * 2011-06-01 2012-12-06 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
US9058382B2 (en) * 2005-11-14 2015-06-16 Microsoft Technology Licensing, Llc Augmenting a training set for document categorization
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106156004A (zh) * 2016-07-04 2016-11-23 中国传媒大学 基于词向量的针对电影评论信息的情感分析系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507829B1 (en) * 1999-06-18 2003-01-14 Ppd Development, Lp Textual data classification method and apparatus
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
US9058382B2 (en) * 2005-11-14 2015-06-16 Microsoft Technology Licensing, Llc Augmenting a training set for document categorization
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
US20120310627A1 (en) * 2011-06-01 2012-12-06 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105389379A (zh) * 2015-11-20 2016-03-09 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106156004A (zh) * 2016-07-04 2016-11-23 中国传媒大学 基于词向量的针对电影评论信息的情感分析系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董小国等: "基于句子重要度的特征项权重计算方法", 《计算机与数字工程》 *
阳馨等: "基于多种特征池化的中文文本分类算法", 《四川大学学报(自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium
WO2019182593A1 (en) * 2018-03-22 2019-09-26 Equifax, Inc. Text classification using automatically generated seed data
US10671812B2 (en) 2018-03-22 2020-06-02 Equifax Inc. Text classification using automatically generated seed data
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
US11023682B2 (en) 2018-09-30 2021-06-01 International Business Machines Corporation Vector representation based on context
US11455473B2 (en) 2018-09-30 2022-09-27 International Business Machines Corporation Vector representation based on context
CN109271521A (zh) * 2018-11-16 2019-01-25 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN109685647A (zh) * 2018-12-27 2019-04-26 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN109685647B (zh) * 2018-12-27 2021-08-10 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN110287328A (zh) * 2019-07-03 2019-09-27 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质
CN112749278A (zh) * 2020-12-30 2021-05-04 华南理工大学 一种建筑工程变更指令的分类方法

Also Published As

Publication number Publication date
CN107169086B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN107169086A (zh) 一种文本分类方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106445919A (zh) 一种情感分类方法及装置
CN103810264B (zh) 基于特征选择的网页文本分类方法
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN106095996A (zh) 用于文本分类的方法
CN107038480A (zh) 一种基于卷积神经网络的文本情感分类方法
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CA2886581C (en) Method and system for analysing sentiments
CN105550269A (zh) 一种有监督学习的产品评论分析方法及系统
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN108334610A (zh) 一种新闻文本分类方法、装置及服务器
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106407482B (zh) 一种基于多特征融合的网络学术报告分类方法
CN107885849A (zh) 一种基于文本分类的情绪指数分析系统
CN108090048A (zh) 一种基于多元数据分析的高校评价系统
CN103617435A (zh) 一种主动学习图像分类方法和系统
CN106651696A (zh) 一种近似题推送方法及系统
Wei et al. Text classification using support vector machine with mixture of kernel
CN106203296B (zh) 一种属性辅助的视频动作识别方法
CN108090099B (zh) 一种文本处理方法及装置
CN108090098B (zh) 一种文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant