CN107590177B - 一种结合监督学习的中文文本分类方法 - Google Patents
一种结合监督学习的中文文本分类方法 Download PDFInfo
- Publication number
- CN107590177B CN107590177B CN201710642072.XA CN201710642072A CN107590177B CN 107590177 B CN107590177 B CN 107590177B CN 201710642072 A CN201710642072 A CN 201710642072A CN 107590177 B CN107590177 B CN 107590177B
- Authority
- CN
- China
- Prior art keywords
- corpus
- word
- text
- algorithm
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种结合监督学习的中文文本分类方法,属于自然语言处理技术领域,WMD算法用于文本分类领域时,因分类标准的不同导致特定条件下文本分类的结果准确度较低。为使WMD算法适应不同分类条件,本发明结合监督学习的方法,引入变换矩阵A和初始值为1的权重向量w来改进算法。为了训练参数A,w,利用NCA算法对带标签的训练集进行训练,得到变换矩阵A的初始值,而后利用随机数β对A,w进行迭代更新直到该算法的损失函数收敛。利用最终的A,w改进WMD算法表达式并以此计算文本的最小距离,该距离的大小代表在特定分类条件下待测试文本的相似度的高低。本发明改进了不同分类条件下文本相似度的准确性,具有一定实用价值。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种结合监督学习的中文文本分类方法。
背景技术
随着人工智能的发展,自然语言处理方向也随之成为热点。许多新兴技术也被发明用到自然语言处理领域中。其中,作为自然语言处理的一个重要分支,文本相似度研究因为涉及到自动问答、文本分类、搜索引擎优化等领域,受到了研究者的极大的关注。为研究不同文本间潜在的某种联系,前人在语义研究方面也做出了诸多努力,1988年salton系统地研究了基于词频权重的不同组合,统计了语料库数据并进行归一化。Robertson于1994年提出Okapi BM25函数来统计文档中词语的分数用于应用程序排行领域。Aslam(2003)根据文档语料库中单词出现的概率来推导两个文档之间的相似度分数,Croft(2003)使用语言模型来描述从文档生成词语的可能性,类似于LDA模型(Blei)。
2013年,mikolov介绍了一种新型词嵌入—word2vec,用浅层神经网络语言模型学习每个单词的向量表示,并最大限度利用语料库种相邻单词的对数概率,求得单词间的余弦距离。因使用softmax激活函数和skip-gram模型,word2vec词嵌入模型可以预测到词语之间的潜在关系(男人–女人=国王–皇后);本发明中结合监督学习的WMD算法正是以word2vec词嵌入为基础提出。
现如今,从单词相似度扩展到文本相似度方向上的研究也取得了一定进展。利用EMD最短运输距离算法,求得样本d变换到d’的最短距离来衡量样本相似度的方法也有较低的KNN错误率,其中最短距离的原子项正是利用了word2vec方法。诚然,文本相似度也可以作为文本分类的一种度量手段。但当人为限定了特定的分类条件时,n维空间上距离相近的两个样本可能会不属于同一个类别,反而距离较远的样本拥有相同的类别。例如,两个表达积极情绪的样本应该和消极情绪的样本分开,而当其中一个积极样本和消极样本讨论的事物相同,而和另一个积极样本讨论的则完全属于另一件事时,针对不同的分类标准,会形成不同的聚类结果。因此,仅利用word2vec从文本相似度方向来进行文本分类是具有缺陷的。
传统的文本分类方法都是人为贴上分类标签,而后在测试集中提取关键词来进行分类预测,然而单个单词并不能代替文本的全部信息;然而利用整个文本相似度进行文本分类,例如WMD算法,将文本的相似度计算问题转移为求解句子间转换需要的最小代价,也由于分类的标准的模糊导致了一些误差,在不同的分类条件下,语义相似度高的文本可能属于不同类别。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供了一种结合监督学习的中文文本分类方法,结合word2vec和WMD算法,提高特定条件下中文文本分类的准确率。
本发明为解决上述技术问题采用以下技术方案
一种结合监督学习的中文文本分类方法,具体包含如下步骤:
步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;
步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;
步骤3,生成每条文本语料的词袋模型向量nBOW;则m条语料生成m个nBOW,记为di,其中,i<m,给每个di标注标签yi;
步骤4,计算训练集参数ci,具体如下:ci=Xdi;
步骤5,根据训练集参数ci生成训练集:trainning set={(c1,y1),(c2,y2),(c3,y3)...(cn,yn)},其中,n≤i;
步骤6,利用NCA算法对训练集进行训练,进而得到初始变换矩阵A0,具体如下:A0=NCA(tranning set);设w0=1,其中,w0为初始权重向量;
步骤7,根据A0和w0判断NCA损失函数是否收敛:若损失函数不收敛,则利用随机数β计算梯度gA,w,进而更新变换矩阵A和权重向量w,直至损失函数收敛,获取最终的变换矩阵A和权重向量w;
步骤8,根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进,生成最终的WMD算法表达式,计算文本距离,进而通过文本距离的大小完成文本分类。
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤1中,利用基于python的爬虫框架scrapy爬取网络上的文本语料。
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤1中,采用python库Jieba对m条文本语料进行分词。
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤7中,损失函数具体如下:
其中m为语料的总数,da,db分别代表第a条语料和第b条语料的nBOW,ya和yb分别代表语料a和语料b的标签;
其中,A为变换矩阵,xi代表语料a中第i个单词的词嵌入,Ti,j是转移矩阵,其中每一项代表从语料a中词语i转移到语料b中词语j的概率。
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤7中,梯度gA,w具体计算如下:
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤7中,更新变换矩阵A和权重向量w的具体步骤如下:
A′←A-ηaga,w
w′←w-ηwga,w
其中,ηa和ηw分别是参数A,w的学习率。
作为本发明一种结合监督学习的中文文本分类方法的进一步优选方案,在步骤8中,最终的WMD算法表达式具体如下:
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)本发明利用监督学习的方法,通过训练得到变换矩阵A和权重向量w改进了WMD算法,既解决了单个词语代替整个句子语义导致误差的问题,又解决了特定条件下利用文本相似度分类不准确的问题,让利用句子相似度实现文本分类成为了可能。
(2)损失函数的时间复杂度为O(q3logq),意味着每迭代一次A,w,都要花费O(q3logq)的时间,其中,q代表待计算的两条语料中词语个数的最大值,引入了调节因子后,为求损失函数的最小值,WMD算法公式变为
求得使表达式最大的两个变量α,β即可,此时的算法复杂度降低到O(q2),显著改善了性能。
附图说明
图1是利用监督学习获取参数流程图;
图2是利用一种结合监督学习的中文文本分类方法进行中文文本分类流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
为使本发明的一种结合监督学习的中文文本分类方法要解决的技术问题、技术方案和技术效果对于本领域的普通技术人员而言更加清楚、容易实施,下面将以具体实验为例,结合附图和具体实施方式对本发明作进一步详细说明。
图1为利用监督学习获取参数流程图,一种结合监督学习的中文文本分类方法,包括中文分词、获取训练集、获取初始参数、监督学习迭代参数几个过程。
具体如下:
一种结合监督学习的中文文本分类方法,具体包含如下步骤:
步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;利用基于python的爬虫框架scrapy爬取网络上的文本语料;采用python库Jieba对m条文本语料进行分词;
以网络上海量文章的标题为例:利用基于python的爬虫框架获取网络上海量文章的标题作为中文语料库,以科技、健康、体育等多个类别对文本进行语料标注;
步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;
步骤3,生成每条文本语料的词袋模型向量nBOW;则m条语料生成m个nBOW,记为di,其中,i<m。对于一段语料,语料中每个词出现次数就是每个维度上的数值,显然在训练语料库较大时,该短文本的BOW向量均为稀疏向量,类似d={1,0,0,0,0,…1,..1}。将所有获得的n维词袋向量模型分为测试集和待训练集。
步骤4,对于待训练集中的每个nBOW,人为贴上标签yi,并和词嵌入矩阵X相乘,得到最终的训练集。经过此步骤生成训练集trainning set={(c1,y1),(c2,y2),(c3,y3)...(cn,yn)},其中yi表示人为标注的类别;计算训练集参数ci,具体如下:ci=Xdi;
步骤5,利用NCA算法对训练集进行训练,具体如下:将训练集输入到NCA算法解决器;设w0=1,得到初始变换矩阵A0。其中,w0为初始权重向量;
步骤6,根据获取的初始值A0和w0判断NCA损失函数是否收敛:若损失函数不收敛,则利用随机数β计算梯度gA,w,进而更新变换矩阵A和权重向量w,直至损失函数收敛,获取最终的变换矩阵A和权重向量w;
梯度gA,w具体计算如下:
损失函数具体如下:
其中m为语料的总数,da,db分别代表第a条语料和第b条语料的nBOW,ya和yb分别代表语料a和语料b的标签;
其中,A为变换矩阵,xi代表语料a中第i个单词的词嵌入,Ti,j是转移矩阵,其中每一项代表从语料a中词语i转移到语料b中词语j的概率。
更新变换矩阵A和权重向量w的具体步骤如下:
A′←A-ηaga,w
w′←w-ηwga,w
其中,ηa和ηw分别是参数A,w的学习率。
步骤7,根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进,生成最终的WMD算法表达式。
最终的WMD算法表达式具体如下:
图2为利用改进的算法进行文本分类流程图,一种基于监督式WMD算法的中文文本分类方法,包括设置类别距离阈值、利用测试集获取特定分类条件下文本距离、判定测试集所属类别几个过程。
A.设定分类阈值。利用WMD算法计算两段语料距离,所得结果低于该阈值则分为同一类,反之分为不同类别。
B,遍历测试集,对于测试集中的每条语料,分别计算与训练集中每条语料的距离,比较并获取文本距离的最小值。
具体实施方式如下:将测试集中的某条语料和测试集中每条语料的nOW、词嵌入矩阵X作为输入,输入到EMD算法解决器。得到的距离结果存入结果集,遍历结果集,获取最小值。
C.若步骤B中获取的最小值小于设定阈值,则获取该类别并归为同类,否则归为未知类别。
具体实施方式如下:若步骤B中获取的最小值小于设定阈值,获取与该测试语料距离最短的训练语料的标签类别,将此条测语料归为该类别。否则直接归为未知类别。
显然,本领域技术人员应当理解,对上述本发明所公开的一种结合监督学习的中文文本分类方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (7)
1.一种结合监督学习的中文文本分类方法,其特征在于:具体包含如下步骤:
步骤1,获取网络上的文本语料,对m条文本语料进行分词并去除结构性词语;其中,m为正整数;
步骤2,利用word2vec算法获取m条文本语料中所有单词的词嵌入Xi,并构建一个d*n的词嵌入矩阵X,其中,d是每个词嵌入的维度,n是词嵌入的数目;
步骤3,生成每条文本语料的词袋模型向量nBOW;则m条语料生成m个nBOW,记为di,其中,i<m,给每个di标注标签yi;
步骤4,计算训练集参数ci,具体如下:ci=Xdi;
步骤5,根据训练集参数ci生成训练集:trainning set={(c1,y1),(c2,y2),(c3,y3)...(cn,yn)},其中n≤i;
步骤6,利用NCA算法对训练集进行训练,进而得到初始变换矩阵A0,具体如下:A0=NCA(tranning set);设w0=1,其中,w0为初始权重向量;
步骤7,根据A0和w0判断NCA损失函数是否收敛:若损失函数不收敛,则利用随机数β计算梯度gA,w,进而更新变换矩阵A和权重向量w,直至损失函数收敛,获取最终的变换矩阵A和权重向量w;
步骤8,根据最终的变换矩阵A和权重向量w对WMD算法通式进行改进,生成最终的WMD算法表达式,计算文本距离,进而通过文本距离的大小完成文本分类。
2.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤1中,利用基于python的爬虫框架scrapy爬取网络上的文本语料。
3.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤1中,采用python库Jieba对m条文本语料进行分词。
6.根据权利要求1所述的一种结合监督学习的中文文本分类方法,其特征在于:在步骤7中,更新变换矩阵A和权重向量w的具体步骤如下:
A′←A-ηaga,w
w′←w-ηwga,w
其中,ηa和ηw分别是参数A,w的学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642072.XA CN107590177B (zh) | 2017-07-31 | 2017-07-31 | 一种结合监督学习的中文文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642072.XA CN107590177B (zh) | 2017-07-31 | 2017-07-31 | 一种结合监督学习的中文文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590177A CN107590177A (zh) | 2018-01-16 |
CN107590177B true CN107590177B (zh) | 2021-02-02 |
Family
ID=61042625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710642072.XA Active CN107590177B (zh) | 2017-07-31 | 2017-07-31 | 一种结合监督学习的中文文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590177B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595706B (zh) * | 2018-05-10 | 2022-05-24 | 中国科学院信息工程研究所 | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 |
CN108804591A (zh) * | 2018-05-28 | 2018-11-13 | 杭州依图医疗技术有限公司 | 一种病历文本的文本分类方法及装置 |
CN110852111A (zh) * | 2018-08-03 | 2020-02-28 | 天津大学 | 能同时过滤无关评论和对相关评论进行情感分类的方法 |
CN109063155B (zh) * | 2018-08-10 | 2020-08-04 | 广州锋网信息科技有限公司 | 语言模型参数确定方法、装置和计算机设备 |
CN109543036A (zh) * | 2018-11-20 | 2019-03-29 | 四川长虹电器股份有限公司 | 基于语义相似度的文本聚类方法 |
CN109558489A (zh) * | 2018-12-03 | 2019-04-02 | 南京中孚信息技术有限公司 | 文本分类方法及装置 |
CN111447574B (zh) * | 2018-12-27 | 2022-06-03 | 中国移动通信集团辽宁有限公司 | 短信分类方法、装置、系统和存储介质 |
CN109933670B (zh) * | 2019-03-19 | 2021-06-04 | 中南大学 | 一种基于组合矩阵计算语义距离的文本分类方法 |
CN110263120A (zh) * | 2019-04-26 | 2019-09-20 | 北京零秒科技有限公司 | 语料标注方法及装置 |
CN112000867A (zh) * | 2020-08-17 | 2020-11-27 | 桂林电子科技大学 | 一种基于社交媒体平台的文本分类方法 |
CN111984789B (zh) * | 2020-08-26 | 2024-01-30 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN112599120A (zh) * | 2020-12-11 | 2021-04-02 | 上海中通吉网络技术有限公司 | 基于自定义加权的wmd算法的语意确定方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102141977A (zh) * | 2010-02-01 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及装置 |
CN103136377A (zh) * | 2013-03-26 | 2013-06-05 | 重庆邮电大学 | 一种基于演化超网络的中文文本分类方法 |
CN106326346A (zh) * | 2016-08-06 | 2017-01-11 | 上海高欣计算机系统有限公司 | 文本分类方法及终端设备 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
-
2017
- 2017-07-31 CN CN201710642072.XA patent/CN107590177B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102141977A (zh) * | 2010-02-01 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种文本分类的方法及装置 |
CN103136377A (zh) * | 2013-03-26 | 2013-06-05 | 重庆邮电大学 | 一种基于演化超网络的中文文本分类方法 |
CN106326346A (zh) * | 2016-08-06 | 2017-01-11 | 上海高欣计算机系统有限公司 | 文本分类方法及终端设备 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107590177A (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN108536870B (zh) | 一种融合情感特征和语义特征的文本情感分类方法 | |
CN110609897A (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
Bodapati et al. | Sentiment Analysis from Movie Reviews Using LSTMs. | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
Nasim et al. | Sentiment analysis on Urdu tweets using Markov chains | |
Azim et al. | Text to emotion extraction using supervised machine learning techniques | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
Parwita et al. | Classification of mobile application reviews using word embedding and convolutional neural network | |
Dhar et al. | Bengali news headline categorization using optimized machine learning pipeline | |
Jimmy et al. | Bilstm-crf manipuri ner with character-level word representation | |
CN113312907A (zh) | 基于混合神经网络的远程监督关系抽取方法及装置 | |
Kavitha et al. | A review on machine learning techniques for text classification | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
Sun | Research on product attribute extraction and classification method for online review | |
CN115934936A (zh) | 一种基于自然语言处理的智能交通文本分析方法 | |
Wang et al. | Research on pseudo-label technology for multi-label news classification | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
Selvi et al. | Topic categorization of Tamil news articles | |
Purba et al. | Document level emotion detection from bangla text using machine learning techniques | |
Al Mahmud et al. | A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text | |
Omidvar et al. | A novel approach to determining the quality of news headlines | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Neerbek et al. | Selective training: A strategy for fast backpropagation on sentence embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |