CN103294817A - 一种基于类别分布概率的文本特征抽取方法 - Google Patents

一种基于类别分布概率的文本特征抽取方法 Download PDF

Info

Publication number
CN103294817A
CN103294817A CN201310231448XA CN201310231448A CN103294817A CN 103294817 A CN103294817 A CN 103294817A CN 201310231448X A CN201310231448X A CN 201310231448XA CN 201310231448 A CN201310231448 A CN 201310231448A CN 103294817 A CN103294817 A CN 103294817A
Authority
CN
China
Prior art keywords
word
text
classification
distribution probability
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310231448XA
Other languages
English (en)
Inventor
杨燕
李强
潘云
杜泽宇
杨河彬
倪敏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201310231448XA priority Critical patent/CN103294817A/zh
Publication of CN103294817A publication Critical patent/CN103294817A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类别分布概率的文本特征抽取方法,该方法采用对待分类文本中的词汇进行类别分布差异性评估的方式抽取文本特征词,利用词的类别词频概率计算每个词汇在不同类别上的概率分布的均方差值,抽取一定数目的均方差值高的词汇作为最终的特征集。在实际运用中将获得的特征集作为文本分类任务的特征词构建向量空间模型,并用指定的分类器进行训练获得最终的分类模型对待分类文本进行分类。本发明采用了概率统计方式来精确衡量词的类别分布,并利用均方差的方式对词的分类价值进行评估,可以准确地对文本的特征进行选取;对于文本分类任务而言,可以明显的提高均衡和非均衡语料上的文本分类效果。

Description

一种基于类别分布概率的文本特征抽取方法
技术领域
本发明涉及计算机文本处理技术,特别是一种基于类别分布概率的文本特征抽取方法。
背景技术
随着互联网的高速发展,网络上的电子文档数量急剧膨胀,有效地帮助用户查找、过滤和管理这些海量的文本数据已经成为自然语言处理研究的重要内容。文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘有用的信息就必须首先将文本转化为可处理的结构化形式。目前人们通常采用向量空间模型来描述文本向量,但是如果直接用分词软件得到的特征项来表示文本向量中的各个维,那么这个向量的维度将是非常的大。这种未经处理的文本向量不仅给后续工作带来巨大的计算开销,使整个处理过程的效率非常低下,而且会损害分类、聚类算法的精确性,从而使所得到的结果很难令人满意。因此,在保证原文含义的基础上,寻找文本中最具类别代表性的文本特征是利用计算机技术解决文本分类问题的关键。 
用于表示文本的基本单位通常称为文本的特征或特征项。特征项必须具备一定的特性:1) 特征项具有将目标文本与其他文本相区分的能力; 2) 特征项的数量要少; 3) 特征项提取容易。目前大多数中文文本分类系统都采用词作为特征项,称作特征词。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要完成文本分类几乎是不可能的。特征抽取的主要目的是在不损伤文本核心信息的情况下尽量减少要处理的单词数,以此来降低向量空间维数,提高文本处理的速度和效率。文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征抽取评估函数计算各个特征的评分值,然后按评分值对这些特征进行排序,选取若干数量评分值最高的作为特征词,这就是特征抽取。
目前利用计算机技术解决文本分类问题一般采用向量空间模型,该模型存在词空间维度高、计算量大、分类精度不高的问题。
发明内容
本发明的目的是提供一种基于类别分布概率的文本特征抽取方法,该方法极大的降低词空间的维度,提升计算机的文本分类性能。
本发明的目的是这样实现的:
一种基于类别分布概率的文本特征抽取方法,该方法可以用于文本分类和聚类等信息检索任务,其实现需要预定义分类的语料集,对语料中的文本进行分词处理,去掉停用词,获得原始的词集。然后在该词集上进行特征抽取,根据定义的特征抽取函数计算每个词的类别分布概率均方差。对整个词集中的所有词汇按照类别概率均方差的大小进行降序排列,抽取预定义数目的方差值大的词汇作为最终的特征集合,具体操作步骤: 
第一步:选定一定的中文文本集合,对文本集合进行预处理,将语料文本按照预定义的类别进行分类。
第二步:利用分词软件对文本进行分词处理,去掉标点符号和停用词等的噪音,获得文本集合的原始的词集。
第三步:对原始词集中的每个词分别统计总词频和类别词频信息。
第四步:计算各个词在各个类别中的类别分布概率,获得词汇的类别分布概率向量。
                                                   
     
Figure 70936DEST_PATH_IMAGE002
 ,j=
Figure 378421DEST_PATH_IMAGE003
     
Figure 269016DEST_PATH_IMAGE004
: 词t 在类别
Figure 66071DEST_PATH_IMAGE005
, j= 中的词频;
     
Figure 35350DEST_PATH_IMAGE006
 词t 在类别
Figure 46031DEST_PATH_IMAGE005
中的词频分布概率;
     : 词t的类别分布向量;
     |
Figure 47802DEST_PATH_IMAGE008
|: 类 
Figure 759406DEST_PATH_IMAGE009
中的文档数目;
     m: 类别数目。
第五步:对每个词的类别分布概率向量求平均值。         
Figure 313010DEST_PATH_IMAGE010
     
Figure 451867DEST_PATH_IMAGE011
:词 t的类别分布概率的均值。
第六步:计算每个词的类别分布概率均方差。         
     :词 t的类别分布概率均方差。
第七步:对原始词集中的每个词按照类别分布概率均方差的大小进行降序排列,抽取预定义数目的均方差值高的词作为特征词集合。
第八步:以获得的特征词集构建文本集合的向量空间矩阵。
第九步:利用已有的分类器算法对该向量空间矩阵进行训练,获得文本分类模型。
第十步:利用训练得到的文本分类模型对待分类的文本进行分类,验证本方法的有效性。
本发明的优势在于第四步到第七步,首先计算词的各个类别的概率分布并计算概率分布的均值,然后计算该词的类别概率分布均方差衡量词的类别分布差异性大小,最终抽取类别分布差异大的词作为特征集。
在各个类别中均匀分布的词汇由于在各个类别中均匀出现,因此缺乏必要的类别信息;而在各个类别中分布差异大的词汇带有强烈的类别信息。本发明用于评估不同词汇的类别分布差异,抽取类别概率均方差高的词汇最为文本向量空间模型的表示空间可以有效的提高非均衡语料上文本分类的效果。
与背景技术相比,本发明有以下优点: 
⑴、易行性:本方法在计算词的类别分布概率的时候才用了简单的词频统计方法,这个工作可以在对文本集合进行分词的时候就可以获得,不需要单独的步骤对文本的词汇分布信息进行独立计算,特征抽取的运行时间得到了降低。同时与CHI统计和互信息等方法相比,不需要进行大量的统计计算,提高了文本特征抽取的处理效率。
⑵、精确性:和传统的词频方法相比,本发明对词的类别信息的统计不是采用简单的绝对词频的方式,而是利用类别分布概率的方法,把绝对频率的统计方式转换为概率统计的方式,可以精确的描述不同的词汇在不同类别的分布指标,从而为利用均方差的方式衡量类别分布的差异性带来了可靠性。
⑶、新颖性:本发明是从词本身的类别分布差异性的高低的来衡量词本身含有的类别价值。在不同的类别中的分布差异大的词才具有强烈的类别信息,而在各个类别中均匀分布的词对区别文本的类别没有什么重要的参考。基于以上的分析提出了本发明,并且在衡量词汇的类别分布差异的时候采用的简单的概率方式,可以迅速准确的选定具有类别区分性的词汇。
⑷、对非均衡语料的特征抽取具有明显效果。当抽取的文本集合在不同的类别中文本分类数量差异巨大的时候,以往采用的绝对频率的统计方法会偏向于大类(文本数量大的类别)的特征,这样一来,对小类中的文本而言,选出的特征词数目过少,影响了整体的文本分类效果。本发明提出的利用概率的方式计算词汇的类别分布信息弥补了绝对频率统计方法的不足,不但提高了均衡语料上的分类效果,对非均衡语料分类效果的改善尤其明显。
附图说明
图1为本发明的结构示意图; 
图2为实施本发明的流程图。
具体实施方式
现结合附图详细说明本发明的技术方案。
实施例
参阅图2,本发明需要在一个文本分类的任务上实施类别分布概率的文本特征抽取方法的有效性。通过选定一定的中文文本集合,人工将语料文本按照预定义的类别分类。对分类后的文本集合进行预处理,然后将预处理后的文本集进行特征抽取,获得期望数目的文本特征词集。利用选定的特征词集定义向量空间,将预处理后的文本转换为向量空间模型的表示形式。采用标准的tfidf权重计算方式。接着就用指定的分类器对文本向量进行训练,获得训练后的分类模型。
当需要对待分类的文本进行分类的时候,只需要把待分类文本转换为特征词集合上的向量空间模型的表示形式,利用训练得到的分类模型调用分类器完成对待测文本的分类。
具体操作步骤:
第一阶段:文本预处理
a:手动选定不同类别的一定数量的文本,放入相应的类别文件夹中作为训练集。
b:对文本进行分词,可以采用中科院分词软件ICTCLAS软件对文本集合进行分词,去掉标点符号和对文本表示无用的停用词等信息。
c:获得训练集的所有词语。
d:对每个词语的词频进行统计。
第二阶段:特征抽取
a:利用词频统计的信息计算所有词的类别词频。
b:计算各个词的类别分布概率。
c:计算各个词的类别概率均值。
d:计算各个词的类别概率均方差。
e:对所有的词按照计算获得类别概率均方差结果的大小进行排序,选定预定数量的词作为最终的特征词集合。
第三阶段:构建文本向量矩阵,训练分类模型
a:利用获得的特征词集合作为向量空间,对文本集合进行向量表示。最终构建文本集上的向量空间矩阵。
b:调用指定的分类器对文本向量矩阵进行分类。实例中可采用朴素贝叶斯分类器。
c:保存分类器训练后的分类模型。
第四阶段:对待测文本同样进行相应的预处理,转换为特征集空间上的文本向量。
第五阶段:调用朴素贝叶斯分类器,利用训练获得分类模型对待测文本向量进行分类,将待测文本归到相应的类别中。
第六阶段:获得所有待分类文本最终的分类结果。
第七阶段:结束。

Claims (1)

1.一种基于类别分布概率的文本特征抽取方法,其特征在于该方法包括以下步骤:
第一步:选定一定的中文文本集合,对文本集合进行预处理,将语料文本按照预定义的类别进行分类;
第二步:利用分词软件对文本进行分词处理,去掉标点符号和停用词,获得文本集合的原始的词集;
第三步:对原始词集中的每个词分别统计总词频和类别词频信息;
第四步:计算各个词在各个类别中的类别分布概率,获得词汇的类别分布概率向量:
                                                    
Figure 87235DEST_PATH_IMAGE001
 
     
Figure 610620DEST_PATH_IMAGE002
 ,j=
Figure 201310231448X100001DEST_PATH_IMAGE003
     
Figure 978148DEST_PATH_IMAGE004
: 词t 在类别, j=
Figure 432580DEST_PATH_IMAGE003
 中的词频;
     
Figure 76051DEST_PATH_IMAGE006
 词t 在类别
Figure 411217DEST_PATH_IMAGE005
中的词频分布概率;
     
Figure 77822DEST_PATH_IMAGE007
: 词t的类别分布向量;
     ||: 类 
Figure 201310231448X100001DEST_PATH_IMAGE009
中的文档数目;
     m:类别数目;
第五步:对每个词的类别分布概率向量求平均值:          
Figure 90832DEST_PATH_IMAGE010
     
Figure 862479DEST_PATH_IMAGE011
:词 t的类别分布概率的均值;
第六步:计算每个词的类别分布概率均方差;
          
Figure 813118DEST_PATH_IMAGE012
     
Figure 695623DEST_PATH_IMAGE013
:词 t的类别分布概率均方差;
第七步:对原始词集中的每个词按照类别分布概率均方差的大小进行降序排列,抽取预定义数目的均方差值高的词作为特征词集合;
第八步:以获得的特征词集构建文本集合的向量空间矩阵;
第九步:利用已有的分类器算法对该向量空间矩阵进行训练,获得文本分类模型;
第十步:利用训练得到的文本分类模型对待分类的文本进行分类,验证其有效性。
CN201310231448XA 2013-06-13 2013-06-13 一种基于类别分布概率的文本特征抽取方法 Pending CN103294817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310231448XA CN103294817A (zh) 2013-06-13 2013-06-13 一种基于类别分布概率的文本特征抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310231448XA CN103294817A (zh) 2013-06-13 2013-06-13 一种基于类别分布概率的文本特征抽取方法

Publications (1)

Publication Number Publication Date
CN103294817A true CN103294817A (zh) 2013-09-11

Family

ID=49095679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310231448XA Pending CN103294817A (zh) 2013-06-13 2013-06-13 一种基于类别分布概率的文本特征抽取方法

Country Status (1)

Country Link
CN (1) CN103294817A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104123272A (zh) * 2014-05-21 2014-10-29 山东省科学院情报研究所 一种基于方差的文档分类方法
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN104574192A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 在多个社交网络中识别同一用户的方法及装置
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
CN108228869A (zh) * 2018-01-15 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类模型的建立方法及装置
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109408636A (zh) * 2018-09-29 2019-03-01 新华三大数据技术有限公司 文本分类方法及装置
CN110717033A (zh) * 2018-06-26 2020-01-21 百度在线网络技术(北京)有限公司 文本分类噪声监测方法、装置、设备及计算机可读介质
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN111401112A (zh) * 2019-01-03 2020-07-10 北京京东尚科信息技术有限公司 人脸识别方法和装置
CN111859915A (zh) * 2020-07-28 2020-10-30 北京林业大学 一种基于词频显著度水平的英文文本类别识别方法及系统
CN114065759A (zh) * 2021-11-19 2022-02-18 深圳视界信息技术有限公司 一种模型失效检测方法、装置、电子设备及介质
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8111911B2 (en) * 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8111911B2 (en) * 2009-04-27 2012-02-07 King Abdulaziz City For Science And Technology System and methods for arabic text recognition based on effective arabic text feature extraction
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐红国等: ""基于改进的类别分布特征选择方法"", 《中北大学学报》, vol. 32, no. 2, 28 February 2011 (2011-02-28), pages 139 - 142 *
陈炯等: ""一种基于词聚类的中文文本主题抽取方法"", 《计算机应用》, vol. 25, no. 4, 30 April 2005 (2005-04-30), pages 754 - 756 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11003700B2 (en) 2013-09-16 2021-05-11 Tencent Technology (Shenzhen) Company Limited Methods and systems for query segmentation in a search
CN104462105B (zh) * 2013-09-16 2019-01-22 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN104462105A (zh) * 2013-09-16 2015-03-25 腾讯科技(深圳)有限公司 中文分词方法、装置和服务器
CN104574192A (zh) * 2013-10-25 2015-04-29 华为技术有限公司 在多个社交网络中识别同一用户的方法及装置
CN103942191A (zh) * 2014-04-25 2014-07-23 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN103942191B (zh) * 2014-04-25 2018-04-27 中国科学院自动化研究所 一种基于内容的恐怖文本识别方法
CN104035969A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104035969B (zh) * 2014-05-20 2017-11-03 微梦创科网络科技(中国)有限公司 社交网络中的特征词库构建方法和系统
CN104123272A (zh) * 2014-05-21 2014-10-29 山东省科学院情报研究所 一种基于方差的文档分类方法
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104008187B (zh) * 2014-06-11 2017-02-01 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN104112447A (zh) * 2014-07-28 2014-10-22 科大讯飞股份有限公司 提高统计语言模型准确度的方法及系统
CN104112447B (zh) * 2014-07-28 2017-08-25 安徽普济信息科技有限公司 提高统计语言模型准确度的方法及系统
CN106021362A (zh) * 2016-05-10 2016-10-12 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
CN106021362B (zh) * 2016-05-10 2018-04-13 百度在线网络技术(北京)有限公司 查询式的图片特征表示的生成、图片搜索方法和装置
US10459971B2 (en) 2016-05-10 2019-10-29 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
WO2018032937A1 (zh) * 2016-08-19 2018-02-22 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108038208B (zh) * 2017-12-18 2022-01-11 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
CN108038208A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 上下文信息识别模型的训练方法、装置和存储介质
CN108228869A (zh) * 2018-01-15 2018-06-29 北京奇艺世纪科技有限公司 一种文本分类模型的建立方法及装置
CN110717033A (zh) * 2018-06-26 2020-01-21 百度在线网络技术(北京)有限公司 文本分类噪声监测方法、装置、设备及计算机可读介质
CN109284486B (zh) * 2018-08-14 2023-08-22 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109284486A (zh) * 2018-08-14 2019-01-29 重庆邂智科技有限公司 文本相似性度量方法、装置、终端及存储介质
CN109408636A (zh) * 2018-09-29 2019-03-01 新华三大数据技术有限公司 文本分类方法及装置
CN111199170B (zh) * 2018-11-16 2022-04-01 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN111401112A (zh) * 2019-01-03 2020-07-10 北京京东尚科信息技术有限公司 人脸识别方法和装置
CN111401112B (zh) * 2019-01-03 2024-06-18 北京京东尚科信息技术有限公司 人脸识别方法和装置
CN111859915A (zh) * 2020-07-28 2020-10-30 北京林业大学 一种基于词频显著度水平的英文文本类别识别方法及系统
CN111859915B (zh) * 2020-07-28 2023-10-24 北京林业大学 一种基于词频显著度水平的英文文本类别识别方法及系统
CN114065759A (zh) * 2021-11-19 2022-02-18 深圳视界信息技术有限公司 一种模型失效检测方法、装置、电子设备及介质
CN114065759B (zh) * 2021-11-19 2023-10-13 深圳数阔信息技术有限公司 一种模型失效检测方法、装置、电子设备及介质
CN114610877A (zh) * 2022-02-23 2022-06-10 苏州大学 基于判别方差准则的影评情感分析预处理方法及系统
CN115883912A (zh) * 2023-03-08 2023-03-31 山东水浒文化传媒有限公司 一种用于互联网交流演示的互动方法及系统

Similar Documents

Publication Publication Date Title
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN105912716B (zh) 一种短文本分类方法及装置
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
CN106202032B (zh) 一种面向微博短文本的情感分析方法及其系统
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN107861951A (zh) 智能客服中的会话主题识别方法
CN107436875A (zh) 文本分类方法及装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN107871144A (zh) 发票商品名分类方法、系统、设备及计算机可读存储介质
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN103514181B (zh) 一种搜索方法和装置
CN105005589A (zh) 一种文本分类的方法和装置
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN103778206A (zh) 一种网络服务资源的提供方法
CN102629272A (zh) 一种基于聚类的考试系统试题库优化方法
CN110287311A (zh) 文本分类方法及装置、存储介质、计算机设备
CN104281694A (zh) 一种文本情感倾向分析系统
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN104881446A (zh) 搜索方法及装置
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN110019820A (zh) 一种病历中主诉与现病史症状时间一致性检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130911