CN1719436A - 一种新的面向文本分类的特征向量权重的方法及装置 - Google Patents
一种新的面向文本分类的特征向量权重的方法及装置 Download PDFInfo
- Publication number
- CN1719436A CN1719436A CNA200410062789XA CN200410062789A CN1719436A CN 1719436 A CN1719436 A CN 1719436A CN A200410062789X A CNA200410062789X A CN A200410062789XA CN 200410062789 A CN200410062789 A CN 200410062789A CN 1719436 A CN1719436 A CN 1719436A
- Authority
- CN
- China
- Prior art keywords
- classification
- iwf
- weight
- vocabulary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 title claims abstract description 31
- 239000000463 material Substances 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000010010 raising Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的方法。文本分类方法中,TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频,同时又无法表示出向量元素在类别之间分布的不均衡性。这里,我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点,充分证明了它的有效性。
Description
技术领域
本发明涉及计算机科学与技术领域,特别是一种新的面向文本分类的特征向量权重的方法及装置。
背景技术
随着科学技术尤其是信息技术的不断发展,人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问,对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展,网上可用文本信息的数量急剧膨胀,甚至可以说是成指数级增长,如果再像以前那样手工对这些文本进行分类不但费时费力,而且准确率也无法保证,因此自动文本分类技术应运而生。此外,自动文本分类技术在许多方面都有应用,例如:文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。
从60年代计算机刚刚兴起,人们就认识到了文本分类技术重要性,并进行了初步的探索和研究,一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力,准确率也不高,尤其对于不常出现的关键词很难建立规则,同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起,机器学习的方法逐渐被应用到文本分类技术中,并迅速成为主流趋势,出现了各种各样的基于统计的文本分类方法:k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。根据卡耐基梅隆大学Yiming Yang报道的结果,基于向量空间模型的支持向量机方法效果最好,其他几种方法的基础多数也要先建立类和文本的特征向量。特征向量的建立最常用的方法就是TF*IDF(TF:Term Frequency,IDF:Inverse Document Frequency)方法,以及由它派生的TF*IWF(TermFrequency,IWF:Inverse Word Frequency)方法。但是从已经报道的实验结果来看,使用这种方法的分类器的准确率都不高,最好的F1测度也就是85%。基于此,本文作者对TF*IWF方法进行了深入的分析,引入两个变量(DBV和TF的n次根)对其进行了改进,实验证明改进后分类准确率提高了11.8个百分点,充分证明了这种改进的有效性。
发明内容
本发明的目的在于提供一种新的面向文本分类的特征向量权重的方法和一种新的分类器的设计思路。
本发明是以计算机作为工具,根据改进的特征权重算法,采取一定的选词策略和阀值器,建立了包含从文本预处理到自动分类,再到分类结果的后优化等一整套功能的自动分类装置。
本发明为基于统计的文本分类方法提供了一条计算向量权重的途径。该方法是在TF*IWF方法中引入了DBV变量,并用TF的n次方根代替了TF,从而得到了改进后的方法,即TF*IWF*DBV(Term Frequency,Inverse Word Frequency,DBV:Dis-banlance Variable)方法。实验证明该方法可以大大提高文本分类的正确率、召回率和F1测度。
面向文本分类的特征向量权重分类器的装置,由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成,其中,语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。
发明技术方案
面向文本分类的特征向量权重的方法:
用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤:
a)按领域收集训练语料和测试语料;
b)去除网页文本的一些“垃圾”、分词、词性标注;
c)从训练语料中提取出每个领域的词表(词、词性、领域内词频),同时提取出总词表(词、词性、总词频);
d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表(包括词、词性、词频、IWF、DBV等);
e)使用信息词表和和特征权重算法(TF*IWF*DBV)对测试文本进行分类,计算F1测度,同时优化得到最优阀值;
f)根据分类结果确定最优的关键词数目。
步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。
步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。
步骤e中提到的特征向量权重方法中TF的n次方根的引入。
步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。
下面详细说明本发明技术方案中所涉及的各个细节问题。
1、语料选择:
本实验采用的语料包括两部分,一部分是中科院自动化所和Nokia公司为欧盟合作项目(LC-Star)建立的3087万字的汉语语料库,分六个领域(体育、娱乐和游戏、财经、新闻、个人交流、消费信息),这一部分语料作为训练语料;第二部分语料是1119个从网上随意收集的文本(共807158个汉字),分属于这六个领域,各领域文本数分别为:消费信息领域(189)、娱乐和游戏领域(320)、财经领域(52)、新闻领域(100)、个人交流领域(101)、体育领域(357),这一部分语料作为开放的测试语料。
2、特征选取:
常见的文本分类的特征有字、词、短语、段落、句子、概念以及它们的N-Gram信息。这里我们采用最常用也是被实验证明为最有效的词作为文本分类的特征。下面需要确定两个问题:第一,选取什么样的词;第二,选取多少词。具体步骤如下:
1)提取各类别的总词表,并去掉频率在0.0001%以下的词。这是因为对某个类别来讲,出现频率太低的词对该类别几乎没有什么重要性。
2)从各个词表中选取分别按照词频选取不同数目(100、200、500、1000、1500、2000、2500、3000、3500、4000)的关键词,根据分类准确率随关键词数目变化的曲线图,找到最优的关键词数目。
3、方法的改进
基于TF*IDF启发式权重方法是Salton于1973提出的,其定义是:特征fi在文本d中的权重w(fi,d):
W(fi,d)=TF(fi,d)*IDF(fi)=N(fid)*log(N/N(fi))
其中,N(fi)是出现fi的训练文本数,N是总训练文本数,N(fid)是文本d中出现fi的次数。
在此基础上,Roberto Basili 1999提出了TF*IWF方法,他采用词作为文本分类的特征,与前者的不同体现在两个方面:(1)后者采用关键词出现的次数代替了前者中关键词出现的文本数,训练语料中所有词出现次数之和代替了前者的总训练文本数;(2)后者采用对数平方代替了前者的对数。
W(fi,d)=TF(fi,d)*IWF(fi)=N(fid)*(log(M/M(fi)))2
我们提出的对TF*IWF方法的改进方法主要体现在如下两个方面:一利用TF的n次方根代替TF,从而削弱词权重对词频的倚重,并通过实验比较了n取1、2、3、4的效果;二是引入了DBV表述词在不同类别中分布差异性这一属性。
关键词在某类的权重受三个因素影响:一是该词在当前类中的出现频率,二是该词在总语料中的出现频率,三是该词在不同类别之间出现频率的差异性。在TF*IWF方法中采用TF来表示第一个因素,原来是指词次数,这里我们用词频,但是我们知道在同一类别中如果词W1的出现频率是词W2的两倍并不能说W1对该类的重要性是W2的两倍,直觉上应当小于两倍。因此为了消弱频率对于词权重过度的影响,我们采用它的n(n≥1)次方根形式,并对n=1、n=2[P.P.T.M.van Mun]、n=3、n=4等几种方根情况进行了实验,通过比较分类效果我们找到了TF比较适当的表示形式。
在TF*IWF方法中采用IWF来表示第二个因素,其原理是总训练语料中出现次数越少的关键词权重应当越高。但TF*IWF忽略了第三个因素,关键词在总语料中出现次数多少并不能完全说明该词在分类中的“重要性”,频率相同的关键词在分类中的“重要性”也是不同的:在各类别之间分布越均匀,其重要性就越小,反之其重要性就越大。我们又知道方差是体现数据分布不均衡性的一个数学指标,但从方差公式中可以看出,方差大小又受到词频大小的影响,为了消除这种影响(因为词频因素在TF中已经表示了,这里需要得到的只是词频之间的差异性表示),我们用方差除以该词在各类中词频之和,于是得到式
表示关键词在不同类之间的分布差异性。于是我们得到下面的词权重计算公式:
其中,pij=Tij/Lj,Lj是类Cj含有的所有词的次数之和,Tij是词i在类Cj中出现的次数;pid=Tid/Ld,Ld文本d含有的所有词的次数之和,Tid是词i在文本d中出现的次数;
其中m是类别数;理论上n可以取1,2,3,4。
文本特征向量
和类特征向量
其中,W(w1,Cj)、W(w1,d)分别是词i在类别Cj、文档d中的权重。k是总关键词表中关键词数目,kd是文本d中包含的关键词的数目。
Cj和d的相似度函数(这里采用的是线性分类器,严格来讲不是二者的相似度函数,这里为了表示方便只是借用这个名称):
4、评价函数与阀值的确定
目前,国际上比较流行的判断文本分类器效果的评价函数主要有两种:micro-F1测度及macro-F1测度[Yang,1997]。相比而言前者的使用更广泛一些,其定义如下:
Nc代表被分类的文本数
Nr代表被拒绝分类的文本数
Ncr代表被分类文本中分类正确的文本数
Ns代表应该被分类的文本数
总正确率:
总召回率:
评价函数F1测度:
Y=2rp/(r+p)
一般来说,文本分类器不大可能保证100%对文件正确分类。尤其是当某个文本与不同类别计算出来的相似度差别不大的时候,错误分类的概率会比较高,所以有必要设定一个阀值保证在出现这种情况时拒绝分类,以减小分类的错误率。
Saturnine(2003)曾提到利用两个最大相似分数之间关系作为阀值即比例阀值,这里根据文本分类的特点采用两个最大相似分数之间差的绝对值与最大相似分数的比值X来判断是否接受分类。X的值是在0-0.1之间以0.001为步进单位,以上面提到的评价函数F1测度为标准优化得到的。对于不同的方法、不同数目的关键词,根据优化方法都可以得到一个可以使评价函数F1测度最优的X值,此X值即为该条件下的阀值。于是可以得到下面的公式:
阀值Th的定义:
5、实验结果
下表中是本实验的结果:
从实验结果可以看到,在各个不同的关键词数目下TF*IWF*DBV算法的分类效果都要好于TF*IWF算法,当N=3500时,分类的F1值提高11.8%,充分证明了该方法的有效性。
附图说明
图1是本发明面向文本分类的特征向量权重方法的流程图。
图2是本发明自动文本分类器的装置图。
具体实施方式
图1中,面向文本分类的特征向量权重的方法,其具体步骤如下:
步骤S1,训练语料和测试语料的收集,一、按照六个领域(消费信息领域、娱乐和游戏领域、财经领域、新闻领域、个人交流领域、体育领域)从网上下载训练语料,去除网页文本的一些“垃圾”、分词、词性标注,最后得到共3087万字的训练语料。二、测试语料按照相同的原则从网上下载,整理,共得到1119个测试文本。语料收集以后进行了分词处理。
步骤S2,
1)各类别的总词表,并去掉频率在0.0001%以下的词。这是因为对某个类别来讲,出现频率太低的词对该类别几乎没有什么重要性。
2)个词表中选取分别按照词频选取不同数目(从各领域中分别选取100、200、500、1000、1500、2000、2500、3000、3500、4000个关键词)的关键词,组成10个关键词表。
步骤S3,构造分类器,分别采用TF*IWF和TF*IWF*DBV权重算法,和分类算法对测试语料进行分类。
步骤S4,采用优化的阀值算法,得到不同关键词数目的分类词表在不同权重算法下的分类结果。
步骤S5,对比分类的结果,找到达到最佳分类效果时的关键词的数目。
图2是本发明自动文本分类器的装置图。是实现本发明面向文本分类的特征向量权重方法的装置结构。由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成,其中,语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。
Claims (7)
1、用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分类的步骤:
a)按领域收集训练语料和测试语料;
b)去除网页文本的一些“垃圾”、分词、词性标注;
c)从训练语料中提取出每个领域的词表,同时提取出总词表;
d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表;
e)使用信息词表和特征权重算法(TF*IWF*DBV)对测试文本进行分类,计算F1测度,同时优化得到最优阀值;
f)根据分类结果确定最优的关键词数目。
2、根据权利要求1的方法,其特征在于,步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV特征向量权重方法。
3、根据权利要求1的方法,其特征在于,步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差异性的数学变量DBV。
4、根据权利要求1的方法,其特征在于,步骤e中提到的特征向量权重方法中TF的n次方根的引入。
5、根据权利要求1的方法,其特征在于,步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。
6、面向文本分类的特征向量权重分类器的装置,由语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成,其中,语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串联连接。
7、根据权利要求1的方法,其具体步骤如下:
步骤S1,训练语料和测试语料的收集,一、按照六个领域从网上下载训练语料,去除网页文本的一些“垃圾”、分词、词性标注,二、测试语料按照相同的原则从网上下载,整理;
步骤S2,
1)提取各类别的总词表,
2)从各个词表中选取分别按照词频选取不同数目的关键词,组成10个关键词表;
步骤S3,构造分类器,分别采用TF*IWF和TF*IWF*DBV权重算法,和分类算法对测试语料进行分类;
步骤S4,采用优化的阀值算法,得到不同关键词数目的分类词表在不同权重算法下的分类结果;
步骤S5,对比分类的结果,找到达到最佳分类效果时的关键词的数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200410062789XA CN100353361C (zh) | 2004-07-09 | 2004-07-09 | 一种新的面向文本分类的特征向量权重的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB200410062789XA CN100353361C (zh) | 2004-07-09 | 2004-07-09 | 一种新的面向文本分类的特征向量权重的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1719436A true CN1719436A (zh) | 2006-01-11 |
CN100353361C CN100353361C (zh) | 2007-12-05 |
Family
ID=35931271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200410062789XA Expired - Fee Related CN100353361C (zh) | 2004-07-09 | 2004-07-09 | 一种新的面向文本分类的特征向量权重的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100353361C (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008113295A1 (fr) * | 2007-03-22 | 2008-09-25 | Beijing Sogou Technology Development Co., Ltd. | Procédé de création d'une base de données de mots, procédé d'entrée et système de procédé d'entrée |
CN100433018C (zh) * | 2007-03-13 | 2008-11-12 | 白云 | 电子文档与某一领域相关程度的判别方法及其应用 |
CN100533441C (zh) * | 2006-04-19 | 2009-08-26 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN101067808B (zh) * | 2007-05-24 | 2010-12-15 | 上海大学 | 文本关键词的提取方法 |
CN101976270A (zh) * | 2010-11-29 | 2011-02-16 | 南京师范大学 | 基于不确定推理的文本层次分类方法与装置 |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102298583A (zh) * | 2010-06-22 | 2011-12-28 | 腾讯科技(深圳)有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN101551800B (zh) * | 2008-03-31 | 2012-02-15 | 富士通株式会社 | 标注信息生成装置、查询装置及共享系统 |
CN102411592A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN101470732B (zh) * | 2007-12-26 | 2012-04-18 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN102541913A (zh) * | 2010-12-15 | 2012-07-04 | 中国人民解放军国防科学技术大学 | 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN101404036B (zh) * | 2008-11-07 | 2012-09-05 | 西安交通大学 | PowerPoint电子演示文稿的关键词抽取方法 |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102945246A (zh) * | 2012-09-28 | 2013-02-27 | 北界创想(北京)软件有限公司 | 网络信息数据的处理方法及装置 |
CN102955791A (zh) * | 2011-08-23 | 2013-03-06 | 句容今太科技园有限公司 | 网络信息搜索与分类服务系统 |
CN103514168A (zh) * | 2012-06-15 | 2014-01-15 | 富士通株式会社 | 数据处理方法和设备 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN104933158A (zh) * | 2015-06-26 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN108491390A (zh) * | 2018-03-28 | 2018-09-04 | 江苏满运软件科技有限公司 | 一种干线物流货物名称自动识别分类方法 |
CN108959579A (zh) * | 2012-06-25 | 2018-12-07 | 景祝强 | 一种获取用户和文档个性化特征的系统 |
CN109446327A (zh) * | 2018-11-01 | 2019-03-08 | 合肥工业大学 | 一种移动通信客户投诉的诊断方法及系统 |
CN110019654A (zh) * | 2017-07-20 | 2019-07-16 | 南方电网传媒有限公司 | 一种不平衡网络文本分类优化系统 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN115391198A (zh) * | 2022-08-24 | 2022-11-25 | 中国银行股份有限公司 | 一种测试失效原因分类方法和系统、电子设备、存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1158460A (zh) * | 1996-12-31 | 1997-09-03 | 复旦大学 | 一种跨语种语料自动分类与检索方法 |
JP2003208436A (ja) * | 2002-01-10 | 2003-07-25 | Ricoh Co Ltd | テキストデータ群分類装置、方法、及び記録媒体 |
CN1438592A (zh) * | 2003-03-21 | 2003-08-27 | 清华大学 | 一种文本自动分类方法 |
CN1245696C (zh) * | 2003-06-13 | 2006-03-15 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
-
2004
- 2004-07-09 CN CNB200410062789XA patent/CN100353361C/zh not_active Expired - Fee Related
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100533441C (zh) * | 2006-04-19 | 2009-08-26 | 中国科学院自动化研究所 | 基于概率主题词的两级组合文本分类方法 |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN100433018C (zh) * | 2007-03-13 | 2008-11-12 | 白云 | 电子文档与某一领域相关程度的判别方法及其应用 |
CN101271459B (zh) * | 2007-03-22 | 2010-05-26 | 北京搜狗科技发展有限公司 | 一种生成词库的方法、一种输入的方法和一种输入法系统 |
WO2008113295A1 (fr) * | 2007-03-22 | 2008-09-25 | Beijing Sogou Technology Development Co., Ltd. | Procédé de création d'une base de données de mots, procédé d'entrée et système de procédé d'entrée |
CN101067808B (zh) * | 2007-05-24 | 2010-12-15 | 上海大学 | 文本关键词的提取方法 |
CN101470732B (zh) * | 2007-12-26 | 2012-04-18 | 北京搜狗科技发展有限公司 | 一种辅助词库的生成方法和装置 |
CN101551800B (zh) * | 2008-03-31 | 2012-02-15 | 富士通株式会社 | 标注信息生成装置、查询装置及共享系统 |
CN101404036B (zh) * | 2008-11-07 | 2012-09-05 | 西安交通大学 | PowerPoint电子演示文稿的关键词抽取方法 |
CN101593200B (zh) * | 2009-06-19 | 2012-10-03 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN102298583A (zh) * | 2010-06-22 | 2011-12-28 | 腾讯科技(深圳)有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN102298583B (zh) * | 2010-06-22 | 2016-04-27 | 深圳市世纪光速信息技术有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN102411592A (zh) * | 2010-09-21 | 2012-04-11 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN102411592B (zh) * | 2010-09-21 | 2013-08-07 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和装置 |
CN101976270A (zh) * | 2010-11-29 | 2011-02-16 | 南京师范大学 | 基于不确定推理的文本层次分类方法与装置 |
CN102541913A (zh) * | 2010-12-15 | 2012-07-04 | 中国人民解放军国防科学技术大学 | 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法 |
CN102541913B (zh) * | 2010-12-15 | 2017-10-03 | 中国人民解放军国防科学技术大学 | 面向Web的VSM分类器训练、OSSP页面识别及OSS资源提取方法 |
CN102955791A (zh) * | 2011-08-23 | 2013-03-06 | 句容今太科技园有限公司 | 网络信息搜索与分类服务系统 |
CN102289522B (zh) * | 2011-09-19 | 2014-08-13 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102289522A (zh) * | 2011-09-19 | 2011-12-21 | 北京金和软件股份有限公司 | 一种对于文本智能分类的方法 |
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN103514168B (zh) * | 2012-06-15 | 2017-05-03 | 富士通株式会社 | 数据处理方法和设备 |
CN103514168A (zh) * | 2012-06-15 | 2014-01-15 | 富士通株式会社 | 数据处理方法和设备 |
CN108959579A (zh) * | 2012-06-25 | 2018-12-07 | 景祝强 | 一种获取用户和文档个性化特征的系统 |
CN108959579B (zh) * | 2012-06-25 | 2021-11-09 | 潍坊久宝智能科技有限公司 | 一种获取用户和文档个性化特征的系统 |
CN102945246B (zh) * | 2012-09-28 | 2015-12-02 | 北界创想(北京)软件有限公司 | 网络信息数据的处理方法及装置 |
CN102945246A (zh) * | 2012-09-28 | 2013-02-27 | 北界创想(北京)软件有限公司 | 网络信息数据的处理方法及装置 |
CN104424308A (zh) * | 2013-09-04 | 2015-03-18 | 中兴通讯股份有限公司 | 网页分类标准获取方法、装置及网页分类方法、装置 |
CN105335446A (zh) * | 2014-08-13 | 2016-02-17 | 中国科学院声学研究所 | 一种基于词矢量的短文本分类模型生成方法与分类方法 |
CN104750844A (zh) * | 2015-04-09 | 2015-07-01 | 中南大学 | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 |
CN104933158A (zh) * | 2015-06-26 | 2015-09-23 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN104933158B (zh) * | 2015-06-26 | 2018-06-19 | 百度在线网络技术(北京)有限公司 | 数学问题求解模型的训练方法和装置、推理方法和装置 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
CN110019654A (zh) * | 2017-07-20 | 2019-07-16 | 南方电网传媒有限公司 | 一种不平衡网络文本分类优化系统 |
CN108491390A (zh) * | 2018-03-28 | 2018-09-04 | 江苏满运软件科技有限公司 | 一种干线物流货物名称自动识别分类方法 |
CN109446327A (zh) * | 2018-11-01 | 2019-03-08 | 合肥工业大学 | 一种移动通信客户投诉的诊断方法及系统 |
CN112380350A (zh) * | 2021-01-14 | 2021-02-19 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本分类方法和装置 |
CN112380350B (zh) * | 2021-01-14 | 2021-05-07 | 北京育学园健康管理中心有限公司 | 一种文本分类方法和装置 |
CN115391198A (zh) * | 2022-08-24 | 2022-11-25 | 中国银行股份有限公司 | 一种测试失效原因分类方法和系统、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100353361C (zh) | 2007-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1719436A (zh) | 一种新的面向文本分类的特征向量权重的方法及装置 | |
CN111177365B (zh) | 一种基于图模型的无监督自动文摘提取方法 | |
CN101710333B (zh) | 基于遗传算法的网络文本分割方法 | |
CN1135485C (zh) | 利用计算机系统的日文文本字的识别 | |
CN101059805A (zh) | 基于网络流和分层知识库的动态文本聚类方法 | |
CN101625680B (zh) | 面向专利领域的文档检索方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN101059796A (zh) | 基于概率主题词的两级组合文本分类方法 | |
WO2003012661A1 (en) | Computer based summarization of natural language documents | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN101853250A (zh) | 对文档进行分类的方法及装置 | |
CN107526841A (zh) | 一种基于Web的藏文文本自动摘要生成方法 | |
Fagan et al. | An introduction to textual econometrics | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN114896398A (zh) | 一种基于特征选择的文本分类系统及方法 | |
CN1916904A (zh) | 一种基于文档扩展的单文档摘要方法 | |
CN112632272B (zh) | 基于句法分析的微博情感分类方法和系统 | |
Amini | Interactive learning for text summarization | |
CN117474126A (zh) | 一种稿件初审评测的LLaMa2大数据模型设计方法 | |
JP2007087400A (ja) | 規則帰納システムのためのxmlベースのアーキテクチャ | |
CN113408286B (zh) | 一种面向机械化工领域的中文实体识别方法和系统 | |
Mihalcea et al. | Multi-document Summarization with iterative graph-based algorithms | |
Thilagavathi et al. | Document clustering in forensic investigation by hybrid approach | |
CN114861027A (zh) | 一种基于大数据及自然语言处理的多维度舆情推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20071205 Termination date: 20170709 |