CN107169086A - 一种文本分类方法 - Google Patents
一种文本分类方法 Download PDFInfo
- Publication number
- CN107169086A CN107169086A CN201710333445.5A CN201710333445A CN107169086A CN 107169086 A CN107169086 A CN 107169086A CN 201710333445 A CN201710333445 A CN 201710333445A CN 107169086 A CN107169086 A CN 107169086A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- training
- file classification
- classification method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Abstract
本发明涉及一种文本分类方法,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所训练文本的文本向量和待测文本的文本向量获得的方法为,步骤1:对标注文本进行预处理,特征选择,进行词向量训练;步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。
Description
技术领域
本发明涉及一种文本分类方法。
背景技术
随着网络媒体的日益发达和网民数量的不断增加,大量的文本数据在不断的产生。如何处理庞大的文本数据并正确分类是一个亟待解决的问题。文本分类通过在已有数据训练分类器,然后将此分类器用于测试文档确定每一个文档的类别。正确的文本分类可以使用户更快的寻找到需要的信息,更方便的浏览文档。文本自动分类指通过带有类别标志的训练文本,训练文本分类器,然后将该分类器用于测试未知类别文本进行识别。
现有的技术中,文本分类方法主要包含以下几种:
一、基于规则的方法。通过统计大量文本特点和该领域相关知识,制定规则。通过规则分类。该方法需要大量的时间和相关专业人员。
二、基于向量空间表达方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过向量空间构造文本表达;第三步:分类器的构建。该方法忽略了词语的语义信息,维度较大,易引起维度灾难问题。
三、基于分布式词向量方法。该种方法主要分为三个步骤,第一步:特征的选择和提取;第二部:通过LDA(主题模型)或Word2Vec等方法构建文本表达;第三步:分类器的构建。常用的基于Word2Vec分类方法为加和求平均和针对每个维度取最大,这两种表达方法只包含全局信息或局部信息的一种,而忽略了另一种信息,分类准确度较低。
发明内容
本发明目的在于提供一种文本分类方法,文本向量既包括全局信息又包括局部信息,分类更加准确。
实现本发明目的技术方案:
一种文本分类方法,其特征在于,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所说训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重。
步骤3中,权重通过网格搜索获得。
步骤1中,文本的特征选择基于信息增益方法获得。
文本分类器选用SVM文本分类器,核函数选取线性核函数。
步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
本发明具有的有益效果:
本发明是对基于Word2Vec分类方法的改进,根据全局向量和局部向量计算文本向量,即分类时既考虑了文档全局信息,又考虑了局部信息。本发明有效克服了现有文本分类方法的缺点,相对于规则方法省略了人工规则构建的过程,相对于向量空间表达方法减少了维度灾难的风险和考虑了文本的浅层语义信息,相对于基于Word2Vec词向量,充分考虑了文本表达的全局信息和局部信息,分类更加准确。经实验,本发明在搜狗和复旦开源中文本分类数据集上进行测试,测试效果相对现有分类方法有所提升。
本发明构建文本的全局向量,采用向量加和平均方法获得;构建文本的局部向量,采用向量每个维度取最大的方法获得;计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,进一步保证了分类的准确可靠性。本发明文本的特征选择基于信息增益方法获得;文本分类器选用SVM文本分类器,核函数选取线性核函数,进一步保证了文本的分类效果。
具体实施方式
本发明首先基于文本向量训练文本分类器,计算训练文本的文本向量,将计算所得的所有训练文本向量和类别输入到文本分类器中,进行参数训练。针对待测文本构建文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类。本实施例中,文本分类器采用SVM(支持向量机),核函数选取线性核函数。
上述训练文本向量和待测文本向量获得的方法相同,包括如下步骤:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练。
预处理时,使用分词工具对文本进行分词,获得文本词集。分词采用python开源中文分词工具jieba。
特征选择方法采用信息增益方法,公式如下所示:
选取最大K个特征,K通过实验所得。通过Word2Vec工具训练词向量,训练数据为所有文本。采用模型为CBOW模型,词向量维度为200,窗口为5。
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量。
针对文本序列,代表评论中的词语,表示分类文本。将w转化为对应的词向量 ,所说的词向量由步骤1训练获得。
构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重,权重通过网格搜索获得。
本实施例中,分别对搜狗和复旦数据集进行训练数据和待测试数据划分。
将分类结果与实际类别进行对比,计算准确率、召回率,公式如下:
准确率p指文本分类正确的文本占所有文本数的比率:
召回率r为分类正确的文本数占该类别实际文本数的比率:
值指标对准确率和召回率进行权衡。
上述公式中,a表示正确划分到该类别的数量;b表示错误划分到该类别的数量;c为属于该类别,但未划分正确的文本数量。
表1为本发明方法在搜狗和复旦(部分数据)进行文本分类对比实验结果。
表1.不同方法的实验结果
最后,搜狗数据集采用1:1比率分为训练集和测试集,共包含九类,分别为:财经、互联网、健康、教育、军事、旅游、体育、文化、招聘。复旦选取类别文档数大于1000的几类文本进行分类实验,分别为政治、计算机、环境、经济、农业、运动六类。对比实验采用同样的预处理过程、相同的词向量和同样的文本分类器。对比实验方法选取一下几种主流的求解方法:Bow_tfidf基于向量空间表达方法;Fasttext为Facebook开源的快速文本分类工具,模型结构与Word2Vec相似;Word2Vec_Ave为词向量加和求平均方法;Word2Vec_Max为维度取最大方法;Word2Vec_tfidf为加权求平均方法;最后为本发明提出方法。评判标准为分类准确率、召回率、值。结果表明,本发明分类方法优于其它分类方法。
Claims (8)
1.一种文本分类方法,其特征在于,基于训练文本的文本向量训练文本分类器;构建待测文本的文本向量,将待测文本的文本向量输入至已训练的文本分类器中,进行文本分类;所说训练文本的文本向量和待测文本的文本向量均通过如下方法获得:
步骤1:对标注文本进行预处理,特征选择,进行词向量训练;
步骤2:根据步骤1所得词向量,计算文本的全局向量和局部向量;
步骤3:根据步骤2所得全局向量和局部向量,计算文本向量。
2.根据权利要求1所述的文本分类方法,其特征在于,步骤2中,构建文本的全局向量,采用向量加和平均方法获得,公式如下:
式中,表示词语对应的词向量,N表示该文本的单词数。
3.根据权利要求2所述的文本分类方法,其特征在于:步骤2中,构建文本的局部向量,采用向量每个维度取最大的方法,公式如下:
式中,表示词语对应的词向量,w表示所有单词,i表示第i个维度。
4.根据权利要求3所述的文本分类方法,其特征在于:步骤3中,计算文本向量时,将文本的全局向量和局部向量通过加权并联在一起获得文本向量,公式如下:
该公式中,表示所求文本的局部向量,表示所求文本的全局向量;表示权重。
5.根据权利要求4所述的文本分类方法,其特征在于:步骤3中,权重通过网格搜索获得。
6.根据权利要求5所述的文本分类方法,其特征在于:步骤1中,文本的特征选择基于信息增益方法获得。
7.根据权利要求1至6任何一项所述的文本分类方法,其特征在于:文本分类器选用SVM文本分类器,核函数选取线性核函数。
8.根据权利要求7所述的文本分类方法,其特征在于:步骤1中,预处理时,使用分词工具对文本进行分词,获得文本词集;通过Word2Vec工具训练词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710333445.5A CN107169086B (zh) | 2017-05-12 | 2017-05-12 | 一种文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710333445.5A CN107169086B (zh) | 2017-05-12 | 2017-05-12 | 一种文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107169086A true CN107169086A (zh) | 2017-09-15 |
CN107169086B CN107169086B (zh) | 2020-10-27 |
Family
ID=59816601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710333445.5A Active CN107169086B (zh) | 2017-05-12 | 2017-05-12 | 一种文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169086B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271521A (zh) * | 2018-11-16 | 2019-01-25 | 北京九狐时代智能科技有限公司 | 一种文本分类方法及装置 |
CN109388712A (zh) * | 2018-09-21 | 2019-02-26 | 平安科技(深圳)有限公司 | 一种基于机器学习的行业分类方法及终端设备 |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
WO2019182593A1 (en) * | 2018-03-22 | 2019-09-26 | Equifax, Inc. | Text classification using automatically generated seed data |
CN110287328A (zh) * | 2019-07-03 | 2019-09-27 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
CN111177389A (zh) * | 2019-12-30 | 2020-05-19 | 佰聆数据股份有限公司 | 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质 |
CN112749278A (zh) * | 2020-12-30 | 2021-05-04 | 华南理工大学 | 一种建筑工程变更指令的分类方法 |
US11023682B2 (en) | 2018-09-30 | 2021-06-01 | International Business Machines Corporation | Vector representation based on context |
US11562145B2 (en) * | 2018-02-01 | 2023-01-24 | Tencent Technology (Shenzhen) Company Limited | Text classification method, computer device, and storage medium |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6507829B1 (en) * | 1999-06-18 | 2003-01-14 | Ppd Development, Lp | Textual data classification method and apparatus |
US6993535B2 (en) * | 2001-06-18 | 2006-01-31 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
CN101377769A (zh) * | 2007-08-29 | 2009-03-04 | 中国科学院自动化研究所 | 一种文本信息的多粒度表示方法 |
US20120310627A1 (en) * | 2011-06-01 | 2012-12-06 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
US9058382B2 (en) * | 2005-11-14 | 2015-06-16 | Microsoft Technology Licensing, Llc | Augmenting a training set for document categorization |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN105389379A (zh) * | 2015-11-20 | 2016-03-09 | 重庆邮电大学 | 一种基于文本分布式特征表示的垃圾稿件分类方法 |
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
-
2017
- 2017-05-12 CN CN201710333445.5A patent/CN107169086B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6507829B1 (en) * | 1999-06-18 | 2003-01-14 | Ppd Development, Lp | Textual data classification method and apparatus |
US6993535B2 (en) * | 2001-06-18 | 2006-01-31 | International Business Machines Corporation | Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities |
US9058382B2 (en) * | 2005-11-14 | 2015-06-16 | Microsoft Technology Licensing, Llc | Augmenting a training set for document categorization |
CN101377769A (zh) * | 2007-08-29 | 2009-03-04 | 中国科学院自动化研究所 | 一种文本信息的多粒度表示方法 |
CN101231634A (zh) * | 2007-12-29 | 2008-07-30 | 中国科学院计算技术研究所 | 一种多文档自动文摘方法 |
US20120310627A1 (en) * | 2011-06-01 | 2012-12-06 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
CN103116637A (zh) * | 2013-02-08 | 2013-05-22 | 无锡南理工科技发展有限公司 | 一种面向中文Web评论的文本情感分类方法 |
CN104899298A (zh) * | 2015-06-09 | 2015-09-09 | 华东师范大学 | 一种基于大规模语料特征学习的微博情感分析方法 |
CN105389379A (zh) * | 2015-11-20 | 2016-03-09 | 重庆邮电大学 | 一种基于文本分布式特征表示的垃圾稿件分类方法 |
CN106156004A (zh) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | 基于词向量的针对电影评论信息的情感分析系统及方法 |
Non-Patent Citations (2)
Title |
---|
董小国等: "基于句子重要度的特征项权重计算方法", 《计算机与数字工程》 * |
阳馨等: "基于多种特征池化的中文文本分类算法", 《四川大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562145B2 (en) * | 2018-02-01 | 2023-01-24 | Tencent Technology (Shenzhen) Company Limited | Text classification method, computer device, and storage medium |
WO2019182593A1 (en) * | 2018-03-22 | 2019-09-26 | Equifax, Inc. | Text classification using automatically generated seed data |
US10671812B2 (en) | 2018-03-22 | 2020-06-02 | Equifax Inc. | Text classification using automatically generated seed data |
CN109388712A (zh) * | 2018-09-21 | 2019-02-26 | 平安科技(深圳)有限公司 | 一种基于机器学习的行业分类方法及终端设备 |
US11023682B2 (en) | 2018-09-30 | 2021-06-01 | International Business Machines Corporation | Vector representation based on context |
US11455473B2 (en) | 2018-09-30 | 2022-09-27 | International Business Machines Corporation | Vector representation based on context |
CN109271521A (zh) * | 2018-11-16 | 2019-01-25 | 北京九狐时代智能科技有限公司 | 一种文本分类方法及装置 |
CN109685647A (zh) * | 2018-12-27 | 2019-04-26 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
CN109685647B (zh) * | 2018-12-27 | 2021-08-10 | 阳光财产保险股份有限公司 | 信贷欺诈检测方法及其模型的训练方法、装置和服务器 |
CN110287328A (zh) * | 2019-07-03 | 2019-09-27 | 广东工业大学 | 一种文本分类方法、装置、设备及计算机可读存储介质 |
CN111177389A (zh) * | 2019-12-30 | 2020-05-19 | 佰聆数据股份有限公司 | 基于nlp技术的电费通知与催收客户诉求的分类方法、系统及存储介质 |
CN112749278A (zh) * | 2020-12-30 | 2021-05-04 | 华南理工大学 | 一种建筑工程变更指令的分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107169086B (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169086A (zh) | 一种文本分类方法 | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN103810264B (zh) | 基于特征选择的网页文本分类方法 | |
CN103207913B (zh) | 商品细粒度语义关系的获取方法和系统 | |
CN106095996A (zh) | 用于文本分类的方法 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CA2886581C (en) | Method and system for analysing sentiments | |
CN105550269A (zh) | 一种有监督学习的产品评论分析方法及系统 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN102541838B (zh) | 用于优化情感分类器的方法和设备 | |
CN108334610A (zh) | 一种新闻文本分类方法、装置及服务器 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN106407482B (zh) | 一种基于多特征融合的网络学术报告分类方法 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析系统 | |
CN108090048A (zh) | 一种基于多元数据分析的高校评价系统 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
CN106651696A (zh) | 一种近似题推送方法及系统 | |
Wei et al. | Text classification using support vector machine with mixture of kernel | |
CN106203296B (zh) | 一种属性辅助的视频动作识别方法 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN108090098B (zh) | 一种文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |