CN107169086B - 一种文本分类方法 - Google Patents

一种文本分类方法 Download PDF

Info

Publication number
CN107169086B
CN107169086B CN201710333445.5A CN201710333445A CN107169086B CN 107169086 B CN107169086 B CN 107169086B CN 201710333445 A CN201710333445 A CN 201710333445A CN 107169086 B CN107169086 B CN 107169086B
Authority
CN
China
Prior art keywords
text
vector
word
training
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710333445.5A
Other languages
English (en)
Other versions
CN107169086A (zh
Inventor
脱建勇
王海亮
闫硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN201710333445.5A priority Critical patent/CN107169086B/zh
Publication of CN107169086A publication Critical patent/CN107169086A/zh
Application granted granted Critical
Publication of CN107169086B publication Critical patent/CN107169086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文本分类方法,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所训练文本的文本向量和待测文本的文本向量获得的方法为,步骤1:对标注文本进行预处理,特征选择,进行词向量训练;步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。

Description

一种文本分类方法
技术领域
本发明涉及一种文本分类方法。
背景技术
随着网络媒体的日益发达和网民数量的不断增加,大量的文本数据在不断的产生。如何处理庞大的文本数据并正确分类是一个亟待解决的问题。文本分类通过在已有数据训练分类器,然后将此分类器用于测试文档确定每一个文档的类别。正确的文本分类可以使用户更快的寻找到需要的信息,更方便的浏览文档。文本自动分类指通过带有类别标志的训练文本,训练文本分类器,然后将该分类器用于测试未知类别文本进行识别。
现有的技术中,文本分类方法主要包含以下几种:
一、基于规则的方法。通过统计大量文本特点和该领域相关知识,制定规则。通过规则分类。该方法需要大量的时间和相关专业人员。
二、基于向量空间表达方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过向量空间构造文本表达;第三步:分类器的构建。该方法忽略了词语的语义信息,维度较大,易引起维度灾难问题。
三、基于分布式词向量方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过LDA(主题模型)或Word2Vec等方法构建文本表达;第三步:分类器的构建。常用的基于Word2Vec分类方法为加和求平均和针对每个维度取最大,这两种表达方法只包含全局信息或局部信息的一种,而忽略了另一种信息,分类准确度较低。
发明内容
本发明目的在于提供一种文本分类方法,文本向量既包括全局信息又包括局部信息,分类更加准确。
实现本发明目的技术方案:
一种文本分类方法,其特征在于,
基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所述训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
Figure GDA0002639569790000021
式中,vj表示词语对应的词向量,N表示该文本的单词数。
步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
v(i)=max vw(i)
式中,v表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
Figure GDA0002639569790000022
该公式中,VL表示所求文本的局部向量,VG表示所求文本的全局向量;w1,w2表示权重。
步骤3中,权重通过网格搜索获得。
步骤1中,文本的特征选择基于信息增益方法获得。
文本分类器选用SVM文本分类器,核函数选取线性核函数。
步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
本发明具有的有益效果:
本发明是对基于Word2Vec分类方法的改进,根据全局向量和局部向量计算文本向量,即分类时既考虑了文档全局信息,又考虑了局部信息。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。经实验,本发明在搜狗和复旦开源中文本分类数据集上进行测试,测试效果相对现有分类方法有所提升。
本发明构建文本的全局向量,采用向量加和平均方法获得;构建文本的局部向量,采用向量每个维度取最大的方法获得;计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,进一步保证了分类的准确可靠性。本发明文本的特征选择基于信息增益方法获得;文本分类器选用SVM文本分类器,核函数选取线性核函数,进一步保证了文本的分类效果。
具体实施方式
本发明首先基于文本向量训练文本分类器,计算训练文本的文本向量,将计算所得的所有训练文本向量和类别输入到文本分类器中,进行参数训练。针对待测文本构建文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类。本实施例中,文本分类器采用SVM(支持向量机),核函数选取线性核函数。
上述训练文本向量和待测文本向量获得的方法相同,包括如下步骤:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练。
预处理时,使用分词工具对文本进行分词,获得文本词集。分词采用python开源中文分词工具jieba。
特征选择方法采用信息增益方法,公式如下所示:
Figure GDA0002639569790000031
选取最大K个特征,K通过实验所得。通过Word2Vec工具训练词向量,训练数据为所有文本。采用模型为CBOW模型,词向量维度为200,窗口为5。
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量。
针对文本序列s=(w1,w2....,wN),w代表评论中的词语,s表示分类文本。将w转化为对应的词向量v1,v2....,vN,所说的词向量由步骤1训练获得。
构建文本的全局向量,采用向量加和平均方法获得,公式如下:
Figure GDA0002639569790000032
式中,vj表示词语对应的词向量,N表示该文本的单词数。
构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
v(i)=max vw(i)
式中,v表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
Figure GDA0002639569790000041
该公式中,VL表示所求文本的局部向量,VG表示所求文本的全局向量;w1,w2表示权重,权重通过网格搜索获得。
本实施例中,分别对搜狗和复旦数据集进行训练数据和待测试数据划分。
将分类结果与实际类别进行对比,计算准确率、召回率,F1公式如下:
准确率p指文本分类正确的文本占所有文本数的比率:
Figure GDA0002639569790000042
召回率r为分类正确的文本数占该类别实际文本数的比率:
Figure GDA0002639569790000043
F1值指标对准确率和召回率进行权衡。
Figure GDA0002639569790000044
上述公式中,a表示正确划分到该类别的数量。b表示错误划分到该类别的数量。c为属于该类别,但未划分正确的文本数量。
表1为本发明方法在搜狗和复旦(部分数据)进行文本分类对比实验结果。
表1.不同方法的实验结果
Figure GDA0002639569790000045
最后,搜狗数据集采用1:1比率分为训练集和测试集,共包含九类,分别为:财经、互联网、健康、教育、军事、旅游、体育、文化、招聘。复旦选取类别文档数大于1000的几类文本进行分类实验,分别为政治、计算机、环境、经济、农业、运动六类。对比实验采用同样的预处理过程、相同的词向量和同样的文本分类器。对比实验方法选取一下几种主流的求解方法:Bow_tfidf基于向量空间表达方法;Fasttext为Facebook开源的快速文本分类工具,模型结构与Word2Vec相似;Word2Vec_Ave为词向量加和求平均方法;Word2Vec_Max为维度取最大方法;Word2Vec_tfidf为加权求平均方法;最后为本发明提出方法。评判标准为分类准确率、召回率、F1值。结果表明,本发明分类方法优于其它分类方法。

Claims (4)

1.一种文本分类方法,其特征在于,
基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所述训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量;
步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
Figure FDA0002639569780000011
式中,vj表示词语对应的词向量,N表示该文本的单词数;
步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
v(i)=max vw(i)
式中,v表示词语对应的词向量,w表示所有单词,i表示第i个维度;
步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
Figure FDA0002639569780000012
该公式中,VL表示所求文本的局部向量,VG表示所求文本的全局向量;w1,w2表示权重;
步骤3中,权重通过网格搜索获得。
2.根据权利要求1所述的文本分类方法,其特征在于:
步骤1中,文本的特征选择基于信息增益方法获得。
3.根据权利要求1或2所述的文本分类方法,其特征在于:文本分类器选用SVM文本分类器,核函数选取线性核函数。
4.根据权利要求3所述的文本分类方法,其特征在于:步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
CN201710333445.5A 2017-05-12 2017-05-12 一种文本分类方法 Active CN107169086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710333445.5A CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710333445.5A CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Publications (2)

Publication Number Publication Date
CN107169086A CN107169086A (zh) 2017-09-15
CN107169086B true CN107169086B (zh) 2020-10-27

Family

ID=59816601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710333445.5A Active CN107169086B (zh) 2017-05-12 2017-05-12 一种文本分类方法

Country Status (1)

Country Link
CN (1) CN107169086B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
US10671812B2 (en) 2018-03-22 2020-06-02 Equifax Inc. Text classification using automatically generated seed data
CN109388712A (zh) * 2018-09-21 2019-02-26 平安科技(深圳)有限公司 一种基于机器学习的行业分类方法及终端设备
US11023682B2 (en) 2018-09-30 2021-06-01 International Business Machines Corporation Vector representation based on context
CN109271521B (zh) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 一种文本分类方法及装置
CN109685647B (zh) * 2018-12-27 2021-08-10 阳光财产保险股份有限公司 信贷欺诈检测方法及其模型的训练方法、装置和服务器
CN110287328B (zh) * 2019-07-03 2021-03-16 广东工业大学 一种文本分类方法、装置、设备及计算机可读存储介质
CN111177389A (zh) * 2019-12-30 2020-05-19 佰聆数据股份有限公司 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质
CN112749278B (zh) * 2020-12-30 2022-10-18 华南理工大学 一种建筑工程变更指令的分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507829B1 (en) * 1999-06-18 2003-01-14 Ppd Development, Lp Textual data classification method and apparatus
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457801B2 (en) * 2005-11-14 2008-11-25 Microsoft Corporation Augmenting a training set for document categorization
US8892488B2 (en) * 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104899298B (zh) * 2015-06-09 2018-01-16 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105389379B (zh) * 2015-11-20 2018-12-04 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN106156004B (zh) * 2016-07-04 2019-03-26 中国传媒大学 基于词向量的针对电影评论信息的情感分析系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507829B1 (en) * 1999-06-18 2003-01-14 Ppd Development, Lp Textual data classification method and apparatus
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN101231634A (zh) * 2007-12-29 2008-07-30 中国科学院计算技术研究所 一种多文档自动文摘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于句子重要度的特征项权重计算方法;董小国等;《计算机与数字工程》;20060831;第34卷(第8期);第35-38页 *

Also Published As

Publication number Publication date
CN107169086A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN107169086B (zh) 一种文本分类方法
US11586637B2 (en) Search result processing method and apparatus, and storage medium
TWI735543B (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
CN109582704B (zh) 招聘信息和求职简历匹配的方法
CN107463658B (zh) 文本分类方法及装置
WO2022126810A1 (zh) 文本聚类方法
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN106651696B (zh) 一种近似题推送方法及系统
CN108334610A (zh) 一种新闻文本分类方法、装置及服务器
CN106156372B (zh) 一种互联网网站的分类方法及装置
WO2020253583A1 (zh) 一种作文离题检测方法
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN108090099B (zh) 一种文本处理方法及装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108376133A (zh) 基于情感词扩充的短文本情感分类方法
CN112214991B (zh) 一种基于多特征融合加权的微博文本立场检测方法
CN112966708B (zh) 一种基于语义相似度的中文众包测试报告聚类方法
CN110347701A (zh) 一种面向实体检索查询的目标类型标识方法
CN109885675A (zh) 基于改进lda的文本子话题发现方法
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
WO2023050652A1 (zh) 基于文本识别的区域内esg指数确定方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant