CN108108371B - 一种文本分类方法及装置 - Google Patents

一种文本分类方法及装置 Download PDF

Info

Publication number
CN108108371B
CN108108371B CN201611053131.1A CN201611053131A CN108108371B CN 108108371 B CN108108371 B CN 108108371B CN 201611053131 A CN201611053131 A CN 201611053131A CN 108108371 B CN108108371 B CN 108108371B
Authority
CN
China
Prior art keywords
text
training
classifier
features
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611053131.1A
Other languages
English (en)
Other versions
CN108108371A (zh
Inventor
葛婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611053131.1A priority Critical patent/CN108108371B/zh
Publication of CN108108371A publication Critical patent/CN108108371A/zh
Application granted granted Critical
Publication of CN108108371B publication Critical patent/CN108108371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种文本分类方法和装置,该方法包括:获取待分类文本;将所述待分类文本分为训练文本和测试文本;根据文本特征和文本分类的预设需求,从训练文本中提取特征;利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。该强文本分类器中的多个单核SVM分类器可以适合不同特征的分类,该多个单核SVM分类器的分类效果相互补充,从而使得利用本发明提供的强文本分类器进行文本分类能够达到高效、便捷、准确的分类效果。

Description

一种文本分类方法及装置
技术领域
本发明涉及文本文类技术领域,尤其涉及一种文本分类方法及装置。
背景技术
互联网迅速发展的同时,文本信息的数据资源也呈现了指数级的增长速度。面对迅速增长的文本信息,自动化的分析成了迫切的需求之一。而文本文档是非结构化的,要对其进行分析,文本分类就成为了文本分析中的一个不可或缺的环节,受到了越来越多的重视。
如何采用高效便捷的方法进行分类,以提高分类准确率,并且在算法复杂性、学习能力、以及准确率之间,寻找最佳的方式,以保证准确率的同时,还要保证较好的泛化能力。这是文本分类中面临的一个重大问题,对于文本分类、文本分析都有着重要的意义。
发明内容
鉴于上述问题,提出了本发明提供了一种高效便捷的文本分类方法及装置。
一种文本分类方法,包括:
获取待分类文本;
将所述待分类文本分为训练文本和测试文本;
根据文本特征和预设需求,从训练文本中提取特征;
利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;
将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
可选地,所述根据文本特征和文本分类的预设需求,从训练文本中提取特征,具体包括:
根据预设需求将训练文本分为多个文本特征组;
提取每个文本特征组中的特定特征。
可选地,所述特定特征具体包括:文本特征组的特征最大值、文本特征组的特征平均值和/或基于特征值权重的方法提取的特征。
可选地,所述利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将其集成为一个强文本分类器,具体包括:
设置最大迭代次数N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
利用设置有权重的特征训练多种单核SVM分类器;
根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器;
如果是,生成分类准确度最高的单核SVM分类器占最终生成的强文本分类器的权重;将分类准确度最高的单核SVM分类器及其对应的权重加入到准强文本分类器;更新当前迭代次数n,n=n+1;判断当前迭代次数是否达到最大迭代次数N,如果是,将所述准强文本分类器合成为最终的强文本分类器;如果否,增大分类错误的特征的权重,返回执行所述利用设置有权重的特征训练多种单核SVM分类器。
可选地,所述根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器,还包括:
如果否,增大分类错误的特征的权重,返回利用设置有权重的特征训练多种单核SVM分类器。
可选地,所述生成分类准确度最高的单核SVM分类器权重,具体包括:
根据分类准确率自动生成分类准确度最高的单核SVM分类器权重。
一种文本分类装置,包括:
获取单元,用于获取待分类文本;
划分单元,用于将所述待分类文本分为训练文本和测试文本;
提取单元,用于根据文本特征和预设需求,从训练文本中提取特征;
训练单元,用于利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;
分类单元,用于将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
可选地,所述提取单元具体包括:
分组子单元,用于根据预设需求将训练文本分为多个文本特征组;
提取子单元,用于提取每个文本特征组中特定特征。
可选地,所述训练单元包括:
设置子单元,用于设置最大迭代次数N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
训练子单元,用于利用设置有权重的特征训练多种单核SVM分类器;
第一判断子单元,用于根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器,
生成子单元,用于当所述第一判断子单元的判断结果为是时,生成分类准确度最高的单核SVM分类器在最终生成的强文本分类器的权重;
添加子单元,用于将分类准确度最高的单核SVM分类器及其对应的权重加入到准强文本分类器;
更新子单元,用于更新当前迭代次数n,n=n+1;
第二判断子单元,用于判断当前迭代次数是否达到最大迭代次数N,如果是,将所述准强文本分类器合成为最终的强文本分类器;
增大权重子单元,用于当所述第一判断子单元或第二判断子单元的判断结果为否时,增大分类错误的特征的权重,并触发所述训练子单元执行利用设置有权重的特征训练多种单核SVM分类器的操作。
可选地,所述生成子单元包括根据分类准确率自动生成分类准确度最高的单核SVM分类器权重。
在本技术领域,由于待分类文本可能具有多种不同维度的特征,而一种核函数分类器可能并不适合多种维度特征的分类,借由上述技术方案,首先利用训练文本训练多个单核SVM分类器,并基于boosting方法将多个单核SVM分类器集成为一个强文本分类器,然后利用集成有多个单核SVM分类器的强文本分类器对测试文本进行分类,由于该强文本分类器中包括多个单核SVM分类器,该多个单核SVM分类器可以具有不同的核函数,因此该强文本分类器中的多个单核SVM分类器可以适合不同特征的分类,该多个单核SVM分类器的分类效果相互补充,从而使得利用本发明提供的强文本分类器进行文本分类能够达到高效、便捷、准确的分类效果。这样就避免了采用一种核函数分类器对多种文本特征进行分类的弊端,如某些文本特征分类不准确。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的文本分类方法流程示意图;
图2示出了本发明实施例提供的强文本分类器的训练方法流程示意图;
图3示出了本发明实施例提供的文本分类装置结构示意图;
图4示出了本发明实施例提供的训练单元结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在介绍本发明的具体实施方式之前,首先介绍描述本发明具体实施方式之前用到的术语。
文本分类:文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
文本特征表示:用文本的特征信息集合来表示原来的文本。
SVM:支持向量机,是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。
停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
下面介绍本发明的具体实施方式。
图1是本发明实施例提供的文本分类方法流程示意图。如图1所示,该方法包括以下步骤:
S101、获取待分类文本。
S102、对待分类文本进行分词,并进行词频统计以及去除分词后的停用词。
S103、将所述待分类文本分为训练文本和测试文本:
一般情况下,将待分类文本的70%中的文本作为训练文本,将剩余的30%的文本作为测试文本。
S104、根据文本特征和预设需求,从训练文本中提取特征:
需要说明,待分类文本中一般包括多种特征,每种特征都涉及大量数据,若不对文本进行特征提取和降维,会导致最终待分类的文本数据量庞大,造成分类困难,因此,本发明实施例需要对原始的待分类文本进行特征提取和降维。
其中,预设需求可以为根据用户关注的内容而提出的需求。例如,若用户关注的内容为天气情况,则该预设需求就可以为了解天气情况的需求。
作为本发明的一具体实施例,本步骤可以具体包括以下步骤:
S1041、根据预设需求将训练文本分为多个文本特征组:
作为示例,假设预设需求是需要了解天气、人名和时间的信息,则根据该预设需求可以将训练文本中有关天气的特征分为一个文本特征组,将训练文本中有关人名的特征分为一个文本特征组,将训练文本中有关时间的特征分为一个文本特征组。
S1042、提取每个文本特征组中的特定特征:
在多个维度的特征提取时,原始特征数据量庞大,所以需要从原始特征中筛选出特定特征。
作为示例,所述特定特征可以包括文本特征组的特征最大值、文本特征组的特征平均值和/或基于特征值权重的方法提取的特征。需要说明,特定特征还可以为其它特征。
需要说明,步骤S1041可以看作是对训练文本的第一次特征提取,经过该第一次特征提取后,待训练文本的数据量减少,并且文本特征的维度降低。步骤S1042可以看作是对训练文本的第二次特征提取,经过这两次特征提取后,最原始的待训练文本的特征的维度降低,有利于后续的文本分类器的训练。
在该步骤S1042中,本发明可以采用多种方法,从每个特征组中进行二次特征提取,提取其特定特征。
在本发明实施例中,可以将提取到的特征最大值作为文本特征组的第一维特征,将提取到的特征平均值作为文本特征组的第二维特征,将基于特征值权重的方法提取的特征作为文本特征组的第三维特征。
通过该步骤从每个文本特征组中提取到的特定特征作为最终训练分类器和分类使用的特征。如此,通过上述示例,可以将待分类文本的特征的维度降低,克服了最终分类的文本数据庞大的问题。
S105、利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器:
在本发明实施例中,单核SVM分类器可以包括线性核函数SVM分类器、多项式核函数SVM分类器、径向基函数核函数SVM分类器以及Sigmoid核函数SVM分类器。
作为本发明的一个具体实施例,步骤S105的具体实现方式可以如图2所示,其具体包括以下步骤:
S1051、设置最大迭代次数N、从训练文本中提取到的每个特征的初始权重,以及当前迭代次数n:
设定训练文本中包括m个特征,其中,m为正整数。从训练文本中提取到的每个特征的初始权重均相同,均为1/m。
当前迭代次数n的初始值为0,即n=0。
S1052、利用设置有权重的特征训练多种单核SVM分类器:
S1053、根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器,如果是,执行步骤S1054,如果否,执行步骤S1058:
作为示例,预设阈值可以为50%。
S1054、生成分类准确度最高的单核SVM分类器在最终生成的强文本分类器的权重;
需要说明,作为示例,可以根据分类准确率的大小自动生成分类准确度最高的单核SVM分类器在最终生成的强文本分类器的权重。
单核SVM分类器在最终生成的强文本分类器的权重大小与该单核SVM分类器的分类准确率有关,其分类准确率越大,该单核SVM分类器在最终生成的强文本分类器中的权重越大。
S1055、将分类准确度最高的单核SVM分类器及其对应的权重加入到准强文本分类器;
S1056、更新当前迭代次数n,n=n+1;
S1057、判断当前迭代次数n是否达到最大迭代次数,如果是,执行步骤S1058,如果否,执行步骤S1059:
S1058、将所述准强文本分类器合成为最终的强文本分类器;
S1059、增大分类错误的特征的权重,返回执行步骤S1052;
以上为本发明实施例提供的文本分类器的训练方法的具体实施方式。
由于待分类文本可能具有多种不同维度的特征,而一个单核的SVM分类器是弱分类器,对文本的分类准确度比较低,而boosting的方法可以将分类错误的特征(样本)权重增大,并通过新的权重选择下一个弱的单核SVM分类器,这样上一次错分的特征(样本)就会成为下一次分类的重点,也就是获得的新的分类器对这些错分的样本具有更好的分类效果,依次向准强文本分类器中不断添加新的SVM弱分类器,直到达到最大迭代次数,停止添加。此时形成的分类器中集成了多个含有不同核函数的SVM分类器,每个添加入的单核SVM弱分类器都有各自的权重,最终成为具有强分类能力的强文本分类器。
在本技术领域,由于待分类文本可能具有多种不同维度的特征,而一种核函数分类器可能并不适合多种维度特征的分类,本发明通过Boosting方法训练多个带有不同核函数的SVM分类器将其集成为一个强文本分类器,由于不同SVM分类器可以具有不同的核函数,这样就避免了采用随机或者凭经验的方法对核函数进行选择。这些具有不同核函数的SVM分类器能够适合多个维度特征的文本分类,其有利于提高文本分类准确率和效率,从而达到较好的分类效果。
S106、将从测试文本中提取出的特征根据所述强文本分类器进行文本分类:
需要说明,在本发明实施例中,从测试文本中提取特征的方法与从训练文本中提取特征的方法相同。更具体地说,为了避免最终用于分类的文本数据庞大,从测试文本中提取特征的方法可以采用二次特征提取的方法,如此,可以降低测试文本中的文本特征维度和数据量,有利于分类的便捷。
以上为本发明实施例提供的文本分类方法的具体实施方式,在该具体实施方式中,对待分类文本进行了分组,并对每个文本特征组内的特征进行了二次提取,从而降低了最终分类的特征的维度,缩小了最终用于分类的文本数据量,避免了最终用于分类的文本数据量庞大的问题,
另外,在本发明提供的文本分类方法中,其采用的强文本分类器为集成了多个单核SVM分类器的分类器。如此,由于在最终的文本分类器中引入了核函数的SVM分类器,可以将低维空间不可分的特征映射到高维空间,使其在高维空间中变得可分,从而实现了复杂的对维特征的分类,解决了现有的文本分类器无法应对低维空间不可分的分类的问题。而且,本发明利用单核SVM具有训练方便的特点,通过boosting方法将多个单核SVM分类器集成具有强分类效果的多核SVM分类器,提升了文本分类效果,例如,提高了分类准确率。
基于上述实施例提供的文本分类方法,本发明实施例还提供了文本分类装置的具体实施方式,具体参见以下实施例。
图3是本发明实施例提供的文本分类装置结构示意图。如图3所示,该文本分类装置包括以下单元:
获取单元31,用于获取待分类文本;
划分单元32,用于将所述待分类文本分为训练文本和测试文本;
提取单元33,用于根据文本特征和预设需求,从训练文本中提取特征;
训练单元34,用于利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;
分类单元35,用于将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
作为本发明的一具体实施例,所述提取单元33可以具体包括:
分组子单元,用于根据预设需求将训练文本分为多个文本特征组;
提取子单元,用于提取每个文本特征组中的特定特征。
作为本发明的另一具体实施例,如图4所示,所述训练单元34可以包括:
设置子单元341,用于设置最大迭代次数N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
训练子单元342,用于利用设置有权重的特征训练多种单核SVM分类器;
第一判断子单元343,用于根据训练后的分类结果,判断所述多种单核SVM分类器中是否存在分类准确度大于预设阈值的分类器,
生成子单元344,用于当所述第一判断子单元的判断结果为是时,生成分类准确度最高的单核SVM分类器在最终生成的强文本分类器的权重;
添加子单元345,用于将分类准确度最高的单核SVM分类器及其对应的权重加入到准强文本分类器;
更新子单元346,用于更新当前迭代次数n,n=n+1;
第二判断子单元347,用于判断当前迭代次数是否达到最大迭代次数N,如果是,将所述准强文本分类器合成为最终的强文本分类器;
增大权重子单元348,用于当所述第一判断子单元或第二判断子单元的判断结果为否时,增大分类错误的特征的权重,并触发所述训练子单元执行利用设置有权重的特征训练多种单核SVM分类器的操作。
作为本发明的又一实施例,所述生成子单元344包括根据分类准确率自动生成分类准确度最高的单核SVM分类器权重。
所述文本分类装置包括处理器和存储器,上述获取单元、划分单元、提取单元、训练单元和分类单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数使文本分类更加高效便捷准确。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
在本技术领域,由于待分类文本可能具有多种不同维度的特征,而一种核函数分类器可能并不适合多种维度特征的分类,借由上述技术方案,首先利用训练文本训练多个单核SVM分类器,并基于boosting方法将多个单核SVM分类器集成为一个强文本分类器,然后利用集成有多个单核SVM分类器的强文本分类器对测试文本进行分类,由于该强文本分类器中包括多个单核SVM分类器,该多个单核SVM分类器可以具有不同的核函数,因此该强文本分类器中的多个单核SVM分类器可以适合不同特征的分类,该多个单核SVM分类器的分类效果相互补充,从而使得利用本发明提供的强文本分类器进行文本分类能够达到高效、便捷、准确的分类效果。这样就避免了采用一种核函数分类器对多种文本特征进行分类的弊端,如某些文本特征分类不准确。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:(方法独权的步骤)。
获取待分类文本;
将所述待分类文本分为训练文本和测试文本;
根据文本特征和预设需求,从训练文本中提取特征;
利用从训练文本中提取到的特征训练多个单核SVM分类器,基于boosting方法将所述多个单核SVM分类器集成为一个强文本分类器;
将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本;所述待分类文本包括多种文本特征,各文本特征涉及的文本数据的数据量均超过预设数据阈值;
将所述待分类文本分为训练文本和测试文本;
根据文本特征和预设需求,从训练文本中提取特征,以使所述从训练文本中提取到的特征的维度少于所述训练文本的文本特征的维度;所述根据文本特征和文本分类的预设需求,从训练文本中提取特征,具体包括:根据预设需求将训练文本分为多个文本特征组;提取每个文本特征组中的特定特征,所述特定特征具体包括:文本特征组的特征最大值、文本特征组的特征平均值和/或基于特征值权重的方法提取的特征;
在从一个文本特征组提取到多维特定特征之后,利用从所述一个文本特征组提取到的多维特定特征训练多个单核 SVM 分类器,基于 boosting 方法将所述多个单核 SVM 分类器集成为一个强文本分类器;
将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
2.根据权利要求 1 所述的文本分类方法,其特征在于,所述利用从训练文本中提取到的特征训练多个单核 SVM 分类器,基于 boosting 方法将其集成为一个强文本分类器,具体包括:
设置最大迭代次数 N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数n;
利用设置有权重的特征训练多种单核 SVM 分类器;
根据训练后的分类结果,判断所述多种单核 SVM 分类器中是否存在分类准确度大于预设阈值的分类器;
如果是,生成分类准确度最高的单核 SVM 分类器占最终生成的强文本分类器的权重;将分类准确度最高的单核 SVM 分类器及其对应的权重加入到准强文本分类器;更新当前迭代次数 n,n=n+1;判断当前迭代次数是否达到最大迭代次数 N,如果是,将所述准强文本分类器合成为最终的强文本分类器;如果否,增大分类错误的特征的权重,返回执行所述利用设置有权重的特征训练多种单核 SVM 分类器。
3.根据权利要求 2 所述的文本分类方法,所述根据训练后的分类结果,判断所述多种单核 SVM 分类器中是否存在分类准确度大于预设阈值的分类器,还包括:
如果否,增大分类错误的特征的权重,返回利用设置有权重的特征训练多种单核 SVM分类器。
4.根据权利要求 2 所述的文本分类方法,其特征在于,所述生成分类准确度最高的单核 SVM 分类器权重,具体包括:
根据分类准确率自动生成分类准确度最高的单核 SVM 分类器权重。
5.一种文本分类装置,其特征在于,包括:
获取单元,用于获取待分类文本;所述待分类文本包括多种文本特征,各文本特征涉及的文本数据的数据量均超过预设数据阈值;
划分单元,用于将所述待分类文本分为训练文本和测试文本;
提取单元,用于根据文本特征和预设需求,从训练文本中提取特征,
以使所述从训练文本中提取到的特征的维度少于所述训练文本的文本特征的维度;
所述提取单元,具体包括:
分组子单元,用于根据预设需求将训练文本分为多个文本特征组;
提取子单元,用于提取每个文本特征组中特定特征;
训练单元,用于在从一个文本特征组提取到多维特定特征之后,利用从所述一个文本特征组提取到的多维特征训练多个单核 SVM 分类器,基于boosting 方法将所述多个单核SVM 分类器集成为一个强文本分类器;
分类单元,用于将从测试文本中提取出的特征根据所述强文本分类器进行文本分类。
6.根据权利要求 5 所述的文本分类装置,其特征在于,所述训练单元
包括:
设置子单元,用于设置最大迭代次数 N、从训练文本中提取到的每个特征的初始权重以及当前迭代次数 n;
训练子单元,用于利用设置有权重的特征训练多种单核 SVM 分类器;
第一判断子单元,用于根据训练后的分类结果,判断所述多种单核 SVM分类器中是否存在分类准确度大于预设阈值的分类器;
生成子单元,用于当所述第一判断子单元的判断结果为是时,生成分类准确度最高的单核 SVM 分类器在最终生成的强文本分类器的权重;
添加子单元,用于将分类准确度最高的单核 SVM 分类器及其对应的权重加入到准强文本分类器;
更新子单元,用于更新当前迭代次数 n,n=n+1;
第二判断子单元,用于判断当前迭代次数是否达到最大迭代次数 N,如果是,将所述准强文本分类器合成为最终的强文本分类器;
增大权重子单元,用于当所述第一判断子单元或第二判断子单元的判断结果为否时,增大分类错误的特征的权重,并触发所述训练子单元执行利用设置有权重的特征训练多种单核 SVM 分类器的操作。
7.根据权利要求 6 所述的文本分类装置,其特征在于,所述生成子单元包括根据分类准确率自动生成分类准确度最高的单核 SVM 分类器权重。
CN201611053131.1A 2016-11-24 2016-11-24 一种文本分类方法及装置 Active CN108108371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611053131.1A CN108108371B (zh) 2016-11-24 2016-11-24 一种文本分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611053131.1A CN108108371B (zh) 2016-11-24 2016-11-24 一种文本分类方法及装置

Publications (2)

Publication Number Publication Date
CN108108371A CN108108371A (zh) 2018-06-01
CN108108371B true CN108108371B (zh) 2021-06-29

Family

ID=62203972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611053131.1A Active CN108108371B (zh) 2016-11-24 2016-11-24 一种文本分类方法及装置

Country Status (1)

Country Link
CN (1) CN108108371B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674297B (zh) * 2019-09-24 2022-04-29 支付宝(杭州)信息技术有限公司 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN114778374A (zh) * 2022-05-05 2022-07-22 江苏中烟工业有限责任公司 烟叶分类方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050144149A1 (en) * 2001-12-08 2005-06-30 Microsoft Corporation Method for boosting the performance of machine-learning classifiers
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103729466A (zh) * 2014-01-16 2014-04-16 重庆邮电大学 基于WEB及GBBoosting算法的人名国别识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004764A (zh) * 2010-11-04 2011-04-06 中国科学院计算机网络信息中心 互联网不良信息检测方法以及系统
CN102929906B (zh) * 2012-08-10 2015-07-22 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050144149A1 (en) * 2001-12-08 2005-06-30 Microsoft Corporation Method for boosting the performance of machine-learning classifiers
CN102789498A (zh) * 2012-07-16 2012-11-21 钱钢 基于集成学习的中文评论文本的情感分类方法与系统
CN103729466A (zh) * 2014-01-16 2014-04-16 重庆邮电大学 基于WEB及GBBoosting算法的人名国别识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 AdaBoost-GASVM 算法和 LDA主题模型的短文本分类研究;皮丽琴;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151215(第12期);正文第29-31、37-44页 *

Also Published As

Publication number Publication date
CN108108371A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
US9218531B2 (en) Image identification apparatus, image identification method, and non-transitory computer readable medium
JP2019511040A (ja) テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム
US20170344822A1 (en) Semantic representation of the content of an image
Fitriyani et al. The K-means with mini batch algorithm for topics detection on online news
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
CN105718937A (zh) 多类别对象分类方法及系统
CN109918658A (zh) 一种从文本中获取目标词汇的方法及系统
CN106777193B (zh) 一种自动撰写特定稿件的方法
CN110019784B (zh) 一种文本分类方法及装置
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
CN108108371B (zh) 一种文本分类方法及装置
JP2014115920A (ja) 多クラス識別器、方法、及びプログラム
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
JP5892275B2 (ja) 多クラス識別器生成装置、データ識別装置、多クラス識別器生成方法、データ識別方法、及びプログラム
JP2014085996A (ja) 多クラス識別器、データ識別装置、多クラス識別、データ識別方法、及びプログラム
CN106776600A (zh) 文本聚类的方法及装置
CN111310176B (zh) 一种基于特征选择的入侵检测方法和装置
CN111078877B (zh) 数据处理、文本分类模型的训练、文本分类方法和装置
CN109947933B (zh) 用于对日志进行分类的方法及装置
CN104008334A (zh) 一种文件的聚类方法和设备
CN112926697A (zh) 一种基于语义分割的磨粒图像分类方法及装置
Inayathulla et al. Supervised Deep Learning Approach for Generating Dynamic Summary of the Video
CN106599002B (zh) 话题演化分析的方法及装置
CN110019771B (zh) 文本处理的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant