CN103020167A - 一种计算机中文文本分类方法 - Google Patents

一种计算机中文文本分类方法 Download PDF

Info

Publication number
CN103020167A
CN103020167A CN2012104891364A CN201210489136A CN103020167A CN 103020167 A CN103020167 A CN 103020167A CN 2012104891364 A CN2012104891364 A CN 2012104891364A CN 201210489136 A CN201210489136 A CN 201210489136A CN 103020167 A CN103020167 A CN 103020167A
Authority
CN
China
Prior art keywords
chinese text
chinese
text
gram
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104891364A
Other languages
English (en)
Other versions
CN103020167B (zh
Inventor
戴新宇
付强
陈家骏
黄书剑
张建兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201210489136.4A priority Critical patent/CN103020167B/zh
Publication of CN103020167A publication Critical patent/CN103020167A/zh
Application granted granted Critical
Publication of CN103020167B publication Critical patent/CN103020167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。

Description

一种计算机中文文本分类方法
技术领域
本发明涉及一种计算机文本处理领域,特别是一种计算机中文文本分类方法。
背景技术
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,大量的文档以电子的形式出现。为了更好的管理越来越多的文档,人们对计算机进行自动文本分类的需求越来越大。文本分类就是根据文本的内容,利用计算机把一个文本分成事先给定的某个类别。对于一个文本分类任务,首先把每一个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类标的文本进行分类。近年来,随着机器学习技术的发展,文本分类方法取得了一系列重要的进展。而在中文文本分类中,中文分词是一个重要的预处理步骤,因为中文文本的字与字之间不像英文单词那样有空格隔开。想要从文本中提取出特征,就必须首先对中文文本进行分词。分词质量的优劣,直接影响到分类结果的好坏。首先,分词中产生的错误会影响分类器的性能,尤其是在网络越来越发达的今天,新鲜的词语层出不穷,这对分词的精度是一个很大的挑战。其次,即使分词结果全部正确,分词也会带来一些关键信息的丢失。表1表示了两个文本的分词表示,其中一个文本来自经济类,另一个来自计算机类。
表1文本预处理的分词示例
  类别   正文
  经济   …面向/新/世纪/的…研究/对象…
  计算机   …采用/面向/对象/的/方法…
在表1中,两个文本都含有“面向”和“对象”这两个特征,他们都被分词工具切开了。所以对我们区分两个文本没有帮助。但是“面向对象”是计算机特有的一个术语,如果使用“面向对象”这个特征,就可以很好地区分这两个文本。但是传统的分词方法无法分出“面向对象”这样的词,因此实际上也就无法区分这样的两个中文文本。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种中文文本分类方法。
为了解决上述技术问题,本发明公开了一种中文文本分类方法,包括以下步骤:
步骤一,通过N-gram方法处理中文文本:使用N-gram(N元语法模型)的方法把中文文本的表示为一个由一组特征组成的特征向量;N-gram表示连续的N个字符组成的字串,N为大于1的自然数。
步骤二,使用tf·idf(term frequency–inverse document frequency,词频-逆向文件频率)法为特征向量中每一个特征赋予一个权重;
步骤三,利用L1-正则化逻辑回归训练出分类器模型,为中文文本分类。L1表示分类器模型的权重向量的1范数。
本发明步骤一包括以下步骤:
对于中文文本d=c1,c2,…cj…,ck,其中cj为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量,表示为:
(c1,c2,…,ck
c1c2,c2c3,…,ck-1ck,…,
c1c2…cn,c2c3…cn+1,…,ck-n+1ck-n+2…ck),
其中,特征向量中的每一维表示一个特征s,参数n取值范围为1~k。
本发明步骤一中,同时使用uni-gram和bi-gram(N=2)或uni-gram,bi-gram和tri-gram(N=3)。
本发明步骤二包括以下步骤:
根据词频逆向文件频率的计算公式计算特征向量中特征的权重:
w ij = n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
其中ni,j是第i个特征si在第j个文本dj中出现的次数,|D|表示中文文本的总个数,wij是第i个特征在第j个文本中的权重;
根据每一个中文文本的所有特征的权重,把一个文本dj表示成如下形式:
xj=(w1,j,w2,j,…,wm,j),
m表示训练数据集中所有中文文本的特征总数。
本发明步骤三包括以下步骤:
给定训练样例{(d1,y1),(d2,y2),…,(dK,yK)},其中di表示一篇中文文本,i为1~K中任意数,yi∈{1,2,…,h}表示中文文本对应的类别。根据步骤一和步骤二,把每一篇中文文本都表示成向量的形式,即把中文文本di表示成向量表示xi。对于多分类问题,即h>2的情况,使用一对多方法:
把训练数据中,类标号为1的中文文本di(即对应的yi=1)作为正类,其他中文文本作为负类,组成第1个训练数据集。
把训练数据中,类标号为2的中文文本di(即对应的yi=2)作为正类,其他文本作为负类,组成第2个训练数据集。
反复循环,直到把训练数据中,类标号为h的中文文本di(即对应的yi=h)作为正类,其他文本作为负类,组成第h个训练数据集。
由此得到一共h个训练数据集。
然后根据L1-正则化逻辑回归分类器的目标函数:
min β | | β | | 1 + c Σ i = 1 K log ( 1 + e - y i β T x i ) ,
其中K是训练样例的总数,C是调节惩罚项和损失函数之间关系的常数,C的取值范围是大于0的实数,C取值越大L1-正则化逻辑回归分类器模型和训练数据更加拟合;β是学习的参数,取值范围是实数。在h个训练数据集上训练得到h个两分类的分类器模型
Figure BDA00002468275000032
i∈{1,2,…,h},其中y>0,则为正类;y<0,则为负类。对于一个待测中文文本d,将它转化为向量表示x后。用h个分类器模型
Figure BDA00002468275000033
i∈{1,2,…,h}分别计算得到h个y值。选择最大的y值对应的类,就是待测中文文本所属的类别。
有益效果:本发明避免了分词所带来的对中文文本分类性能的影响。通过使用N-gram语言模型对中文文本进行预处理,可以避免繁琐的分词过程。也保留了分词丢失的关键信息。同时,L1-正则化逻辑回归可以很好的解决N-gram带来的大规模稀疏性问题,进而提高中文文本分类的性能。
本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。分词错误会影响文本分类的精度,即使分词是全部正确的,也会丢失一些对分类十分有用的信息。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的流程图。
具体实施方式
本发明提出了一种基于字的N-gram和L1-正则化逻辑回归的中文文本分类方法。既可以避免分词错误对文本分类造成的影响,又可以保留分词丢失的许多关键信息。现有的技术中,中文文本分类通常使用分词对文本进行预处理。
本发明的计算机中文文本分类方法,包括以下步骤。
步骤一,使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量。
步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重。
步骤三,利用L1-正则化逻辑回归分类器模型为中文文本分类。
步骤一包括以下步骤。
对于中文文本d=c1,c2,…cj…,ck,其中cj为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量,表示为:
(c1,c2,…,ck
c1c2,c2c3,…,ck-1ck,…,
c1c2…cn,c2c3…cn+1,…,ck-n+1ck-n+2…ck),
其中,特征向量中的每一维表示一个特征s,参数n取值范围为1~k。
步骤二包括以下步骤。
根据词频逆向文件频率的计算公式计算特征向量中特征的权重:
w ij = n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
其中ni,j是第i个特征si在第j个中文文本dj中出现的次数,|D|表示中文文本的总个数,wij是第i个特征在第j个文本中的权重。
根据每一个中文文本的所有特征的权重,把一个中文文本dj表示成如下向量形式:
xj=(w1,j,w2,j,…,wm,j),
m表示训练数据集中所有中文文本的特征总数。
步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数:
min β | | β | | 1 + c Σ i = 1 K log ( 1 + e - y i β T x i ) ,
其中β是学习的参数,K是训练数据集中作为训练样例的中文文本的总数,C是调节惩罚项和损失函数之间关系的常数,yi是中文文本的类标,xi是中文文本的向量形式;
根据中文文本训练样例得到一组分类器模型y=βTx;x为中文文本的向量形式。
步骤三后包括以下步骤:
对于一个输入中文文本d,根据步骤一和步骤二转化为向量形式x后,根据分类器模型y=βTx判断中文文本的类别;
如果y>0,则为正类;
如果y<0,则为负类。
实施例1
使用基于字的N-gram就是把一句话拆分成连续的N个字串。这样做的好处是可以保留大量的信息。
假设一个三分类问题,要分类的文本是:
A、经济类:“古典经济”,记为d1
B、计算机类:“计算机”,记为d2
C、文学类:“古文学”,记为d3
如果使用uni-gram和bi-gram(k取2)来对这三个文本进行预处理,这三个文本表示成表2形式:
表2使用N-gram对文本进行预处理的结果
  类别   uni-gram和bi-gram表示
  经济   d1=(古,典,经,济,古典,典经,经济)
  计算机   d2=(计,算,机,计算,算机)
  文学   d3=(古,文,学,古文,文学)
使用基于字的N-gram对文本进行预处理之后。使用tf·idf作为特征的权重。特征的tf·idf定义如下:
n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
这里ni,j是第i个特征si在第j个文本dj中出现的次数。|D|表示文本的总个数,本实施例为3。最后,把一个中文文本dj表示成如下形式:
xj=(w1,j,w2,j,…,wm,j),
其中wi,j表示第i个特征在第j个文本中的权重值。m表示所有中文文本的特征总数。对应上面的两个文本,提取出来的所有的特征是:古,典,经,济,古典,典经,经济,计,算,机,计算,算机,文,学,古文,文学。m为16,其中重复特征“古”只计算为1。
最后表示成表3的形式:
表3
  类别   权重向量表示
  经济   x1=(0.057,0.157,0.157,0.157,0.157,0.157,0.157,0,0,0,0,0,0,0,0,0)
  计算机   x2=(0,0,0,0,0,0,0,0.157,0.157,0.157,0.157,0.157,0,0,0,0)
  文学   x2=(0.057,0,0,0,0,0,0,0,0,0,0,0,0.157,0.157,0.157,0.157)
表3中每一个权重是根据词频逆向文件频率的方法计算而来的。比如对于x1向量的第一维,对应特征‘古’,权重是0.057。它是根据下面的式子计算而来的
1 7 × log 3 2 = 0.057
这里ni,j是1,因为它在文本d1里面出现了1次,同理可得∑tnt,j是7,|D|因为训练数据集总共有3个中文文本,所以是3,|{j:si∈dj}|是2,因为共有2个文本含有该特征‘古’。其他的权重依此类推来计算,最后可得到表2中的结果。
把每一个文本都转化为高维欧几里德空间中的一个向量后。因为是三分类问题,需要把他们转化为三个二分类问题,也就是转化为下面三个二分类训练数据集:
第一个训练数据集:x1是正类,x2,x3是负类;
第二个训练数据集:x2是正类,x1,x3是负类;
第三个训练数据集:x3是正类,x1,x2是负类。
根据L1-正则化逻辑回归分类器的目标函数:
min β | | β | | 1 + c Σ i = 1 K log ( 1 + e - y i β T x i ) ,
其中K是训练样例的总数,本实施例中K为3,C是调节惩罚项和损失函数之间关系的常数。在这三个训练数据集上分别训练得到三个分类器模型
Figure BDA00002468275000072
i∈{1,2,3}。对于一个新的测试文本d,把它转化文权重向量x后,可以根据这三个分类器模型分别计算出三个值:y1,y2,y3。然后找出这三个值中最大的那一个,比如是y2,那么这个新的测试文本d就属于第二类。。
实施例2
本发明所用的算法全部由python语言编写实现。实验采用的机型为:Intel XeonX7550处理器,主频为2.00G HZ,内存为32G。本发明使用的liblinear和libsvm工具包是目前通用的一个开源分类器训练包。
更具体地说,如图3所示,本发明运行如下:
1.使用N-gram表示文本:把文本表示成uni-gram和bi-gram的形式,或者uni-gram,bi-gram和tri-gram的形式
2.把每一个文本表示成高维欧式空间中的一个向量:其中每一维是,使用tf·idf给文本的N-gram特征计算的权重。
3.使用L1-正则化逻辑回归作为分类器:在训练数据集上训练出分类器模型。
为了验证本发明的有效性,本发明选择四种方法作为对比:传统分词方法和SVM分类器,传统分词方法和正则化逻辑回归分类器,N-gram和L2-正则化逻辑回归分类器,N-gram和SVM分类器。
实验数据准备如下:选取复旦中文文本分类语料库,有9330个文本,共有9个类,作为本发明的训练数据集。传统的基于分词的中文文本分类方法中:文本分词方法采用三种分词工具进行处理,它们分别是:中科院的分词工具ICTCLAS,基于宾州树库标注规范的斯坦福分词工具(记为ctb),基于北京大学标注规范的斯坦福分词工具(记为pku)。特征选择方法采用四种方法,他们分别是:基尼系数(记为Gini),信息增益(记为IG),互信息(记为MI)和X2-统计(记为X2)。本发明使用了两组实验,分别是:使用uni-gram和bi-gram(记为1+2)作为文本表示。使用uni-gram,bi-gram和tri-gram(记为1+2+3)作为文本表示。
图中的数据表示分类精度,其数值越大越好。三个表4a,4b,4c分别表示对比方法使用了不同的分词工具。可以看出本发明N-gram的方法在这几组实验上的分类性能都是最好的。和对比的几种方法比较,分别有不同程度的提升。为了方便对比,使用本发明N-gram表示文本的方法列出了三次。L1-LR表示L1-正则化逻辑回归,L2-LR表示L2-正则化逻辑回归。
表4a实验结果:
Figure BDA00002468275000081
表4b实验结果:
Figure BDA00002468275000082
表4c实验结果:
Figure BDA00002468275000083

Claims (5)

1.一种计算机中文文本分类方法,其特征在于,包括以下步骤:
步骤一,使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;
步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;
步骤三,利用L1-正则化逻辑回归分类器模型为中文文本分类。
2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤:
对于中文文本d=c1,c2,…cj…,ck,其中cj为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量,表示为:
(c1,c2,…,ck
c1c2,c2c3,…,ck-1ck,…,
c1c2…cn,c2c3…cn+1,…,ck-n+1ck-n+2…ck),
其中,特征向量中的每一维表示一个特征s,参数n取值范围为1~k。
3.根据权利要求2所述的方法,其特征在于,步骤二包括以下步骤:
根据词频逆向文件频率的计算公式计算特征向量中特征的权重:
w ij = n i , j Σ t n t , j × log | D | | { j : s i ∈ d j } | ,
其中ni,j是第i个特征si在第j个中文文本dj中出现的次数,|D|表示中文文本的总个数,wij是第i个特征在第j个中文文本中的权重;
根据每一个中文文本的所有特征的权重,把一个中文文本dj表示成如下向量形式:
xj=(w1,j,w2,j,…,wm,j),
m表示训练数据集中所有中文文本的特征总数。
4.根据权利要求3中所述方法,其特征在于,步骤三包括以下步骤:
根据L1-正则化逻辑回归分类器的目标函数:
min β | | β | | 1 + c Σ i = 1 K log ( 1 + e - y i β T x i ) ,
其中β是学习的参数,K是训练数据集中作为训练样例的中文文本的总数,C是调节惩罚项和损失函数之间关系的常数,yi是中文文本的类标,xi是中文文本的向量形式;
根据中文文本训练样例得到一组分类器模型y=βTx;x为中文文本的向量形式。
5.根据权利要求4中所述的方法,其特征在于,步骤三后包括以下步骤:
对于一个输入中文文本d,根据步骤一和步骤二转化为向量形式x后,根据分类器模型y=βTx判断中文文本d的类别;
如果y>0,则为正类;
如果y<0,则为负类。
CN201210489136.4A 2012-11-26 2012-11-26 一种计算机中文文本分类方法 Active CN103020167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210489136.4A CN103020167B (zh) 2012-11-26 2012-11-26 一种计算机中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210489136.4A CN103020167B (zh) 2012-11-26 2012-11-26 一种计算机中文文本分类方法

Publications (2)

Publication Number Publication Date
CN103020167A true CN103020167A (zh) 2013-04-03
CN103020167B CN103020167B (zh) 2016-09-28

Family

ID=47968771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210489136.4A Active CN103020167B (zh) 2012-11-26 2012-11-26 一种计算机中文文本分类方法

Country Status (1)

Country Link
CN (1) CN103020167B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106294355A (zh) * 2015-05-14 2017-01-04 阿里巴巴集团控股有限公司 一种业务对象属性的确定方法及设备
CN106528540A (zh) * 2016-12-16 2017-03-22 广州索答信息科技有限公司 一种种子问句的分词方法和分词系统
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN109241013A (zh) * 2018-09-18 2019-01-18 北京工业大学 一种共享图书系统中图书内容审核的方法
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN111402267A (zh) * 2020-03-13 2020-07-10 中山大学孙逸仙纪念医院 前列腺癌病理图像中上皮细胞核的分割方法、装置和终端

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066447B (zh) * 2017-04-19 2021-03-26 广东惠禾科技发展有限公司 一种无意义句子识别的方法和设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
CN101807211A (zh) * 2010-04-30 2010-08-18 南开大学 一种面向海量小规模xml文档融合路径约束的xml检索方法
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
CN101807211A (zh) * 2010-04-30 2010-08-18 南开大学 一种面向海量小规模xml文档融合路径约束的xml检索方法
CN101930561A (zh) * 2010-05-21 2010-12-29 电子科技大学 一种基于N-Gram分词模型的反向神经网络垃圾邮件过滤装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵谦等: "L1/2正则化Logistic回归", 《模式识别与人工智能》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN106294355A (zh) * 2015-05-14 2017-01-04 阿里巴巴集团控股有限公司 一种业务对象属性的确定方法及设备
CN106528540A (zh) * 2016-12-16 2017-03-22 广州索答信息科技有限公司 一种种子问句的分词方法和分词系统
CN108572961A (zh) * 2017-03-08 2018-09-25 北京嘀嘀无限科技发展有限公司 一种文本的向量化方法以及装置
CN109753646A (zh) * 2017-11-01 2019-05-14 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN109753646B (zh) * 2017-11-01 2022-10-21 深圳市腾讯计算机系统有限公司 一种文章属性识别方法以及电子设备
CN109241013A (zh) * 2018-09-18 2019-01-18 北京工业大学 一种共享图书系统中图书内容审核的方法
CN111402267A (zh) * 2020-03-13 2020-07-10 中山大学孙逸仙纪念医院 前列腺癌病理图像中上皮细胞核的分割方法、装置和终端
CN111402267B (zh) * 2020-03-13 2023-06-16 中山大学孙逸仙纪念医院 前列腺癌病理图像中上皮细胞核的分割方法、装置和终端

Also Published As

Publication number Publication date
CN103020167B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN107229610B (zh) 一种情感数据的分析方法及装置
CN103020167B (zh) 一种计算机中文文本分类方法
CN108763326B (zh) 一种基于特征多样化的卷积神经网络的情感分析模型构建方法
CN105244029B (zh) 语音识别后处理方法及系统
CN100583101C (zh) 基于领域知识的文本分类特征选择及权重计算方法
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN111177374A (zh) 一种基于主动学习的问答语料情感分类方法及系统
CN104331506A (zh) 一种面向双语微博文本的多类情感分析方法与系统
CN103034626A (zh) 情感分析系统及方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN103049501A (zh) 基于互信息和条件随机场模型的中文领域术语识别方法
CN107145560B (zh) 一种文本分类方法及装置
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN105205124A (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN108090099B (zh) 一种文本处理方法及装置
CN103473380A (zh) 一种计算机文本情感分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN103744838B (zh) 一种用于度量主流情感信息的中文情感文摘系统及方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN106203508A (zh) 一种基于Hadoop平台的图像分类方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
CN105354184A (zh) 一种使用优化的向量空间模型实现文档自动分类的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant