CN102999516B - 一种文本分类的方法及装置 - Google Patents
一种文本分类的方法及装置 Download PDFInfo
- Publication number
- CN102999516B CN102999516B CN201110273033.XA CN201110273033A CN102999516B CN 102999516 B CN102999516 B CN 102999516B CN 201110273033 A CN201110273033 A CN 201110273033A CN 102999516 B CN102999516 B CN 102999516B
- Authority
- CN
- China
- Prior art keywords
- text
- text set
- classification result
- classifier
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims description 95
- 230000001960 triggered effect Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 230000001143 conditioned effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Abstract
本发明提供了一种文本分类的方法及装置,其中文本分类的方法包括:A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取第一文本集的初始分类结果作为当前分类结果;B.利用当前聚类结果和当前分类结果得到第一文本子集;C.利用第一文本子集得到的第一分类器对第一文本集进行分类,得到当前分类结果;以及,以第一文本子集为聚类中心对第一文本集进行聚类,得到当前聚类结果;判断预设条件是否满足,如果是,则输出第一文本集的当前分类结果,否则,返回步骤B。通过上述方式,提高了文本分类的精度。
Description
【技术领域】
本发明涉及文本数据挖掘技术,特别涉及一种文本分类的方法及装置。
【背景技术】
文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练,可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。
在现有的文本分类方法中,通常采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行。这种方式下,首先,获取大量标注的训练语料存在困难,如果采用大规模手工标注,则效率低下,其次,由于训练语料有可能存在类别偏见(例如有的标记为新闻的语料,可能更适合标记为娱乐),会导致分类器也带有类别偏见,因此最终会导致分类精度的降低。另外,现有技术也有用聚类的方法将文本分为若干类别的,但是由于在聚类时对聚出的各个类别无法控制,所以如果只采用聚类的方法将文本分为若干类别,可能存在无法得到真正需要的类的情况。
【发明内容】
本发明所要解决的技术问题是提供一种文本分类的方法及装置,以提高文本分类的精度。
本发明为解决技术问题而采用的技术方案是提供一种文本分类的方法,包括:A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;B.将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;C.利用所述第一文本子集获得第一分类器,使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果;以及,以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果;判断预设条件是否满足,如果是,则输出所述第一文本集的当前分类结果,否则,返回所述步骤B。
根据本发明之一优选实施例,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
根据本发明之一优选实施例,从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
根据本发明之一优选实施例,利用所述第一文本子集获得第一分类器的步骤包括:使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,利用所述第一文本子集获得第一分类器的步骤包括:C1.使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;C2.将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;C3.使用所述第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,所述预置分类结果在所述步骤C2首次执行时,是获取所述第二文本集时,所述第二文本集的初始分类结果;所述预置分类结果在所述步骤C2循环执行时,是所述第二文本集上一次的分类结果。
根据本发明之一优选实施例,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
根据本发明之一优选实施例,获取所述第一文本集的初始分类结果的步骤包括:使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
根据本发明之一优选实施例,获取所述第一文本集的初始分类结果的步骤包括:使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
根据本发明之一优选实施例,所述方法在满足所述预设条件时,进一步输出所述第二文本集的当前分类结果。
根据本发明之一优选实施例,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果及所述第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
根据本发明之一优选实施例,将输出的所述第一文本集的当前分类结果与所述第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器,所述最终的分类器用以对未知类别的文本进行分类。
本发明还提供了一种文本分类的装置,包括:初始化单元,用于获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;第一交集单元,用于将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;分类器生成单元,用于利用所述第一文本子集获得第一分类器;第一分类单元,用于使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果并将所述第一文本集的当前分类结果发送给判断单元;聚类单元,用于以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果并将所述第一文本集的当前聚类结果发送给判断单元;判断单元,用于判断预设条件是否满足,如果是,则触发输出单元运行,否则将所述第一文本集的当前分类结果和所述第一文本集的当前聚类结果发送至所述第一交集单元并触发所述第一交集单元运行;输出单元,用于输出所述第一文本集的当前分类结果。
根据本发明之一优选实施例,所述预设条件包括:所述装置的运行时间达到预设值,或者,所述装置运行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
根据本发明之一优选实施例,所述第一交集单元从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
根据本发明之一优选实施例,所述分类器生成单元使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,所述分类器生成单元包括:第二训练单元,用于使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器;第二分类单元,用于使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;第二交集单元,用于将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;第一训练单元,用于使用所述第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
根据本发明之一优选实施例,所述预置分类结果在所述第二交集单元被首次触发时,是获取所述第二文本集时,所述第二文本集的初始分类结果;所述预置分类结果在所述第二交集单元被循环触发时,是所述第二文本集上一次的分类结果。
根据本发明之一优选实施例,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
根据本发明之一优选实施例,所述初始化单元在获取所述第一文本集的初始分类结果时,使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
根据本发明之一优选实施例,所述初始化单元在获取所述第一文本集的初始分类结果时,使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
根据本发明之一优选实施例,所述装置在满足所述预设条件时,所述输出单元进一步输出所述第二文本集的当前分类结果。
根据本发明之一优选实施例,所述预设条件包括:所述装置的运行时间达到预设值,或者,所述装置运行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果及所述第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
根据本发明之一优选实施例,所述装置进一步包括最终分类器生成单元,用于将输出的所述第一文本集的当前分类结果与所述第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器,所述最终的分类器用以对未知类别的文本进行分类。
通过采用上述方式,对文本的分类结果和聚类结果求交集,可以从文本的分类结果和聚类结果中获取各个类别的可信文本,实现对文本的分类结果和聚类结果的不断调整,从而最终减少类别偏见,提高文本分类的精度。
【附图说明】
图1为本发明中文本分类的方法的实施例一的流程示意图;
图2为本发明中分类结果与聚类结果求交集的示意图;
图3为本发明中文本分类的方法的实施例二的流程示意图;
图4为本发明中文本分类的方法的实施例三的流程示意图;
图5为本发明中文本分类的装置的实施例一的结构示意框图;
图6为本发明中文本分类的装置的实施例二的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中文本分类的方法的实施例一的流程示意图。如图1所示,该实施例包括:
步骤S101:获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取第一文本集的初始分类结果作为当前分类结果。
步骤S102:将第一文本集的当前分类结果中的各类别分别与第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集。
步骤S103:使用第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器,使用第一分类器对第一文本集进行分类,得到第一文本集的当前分类结果,以及,以第一文本子集为聚类中心对第一文本集进行聚类,得到第一文本集的当前聚类结果。
步骤S104:判断预设条件是否满足,如果是,则执行步骤S105,否则,返回步骤S102。
步骤S105:输出第一文本集的当前分类结果。
下面对上述实施例进行具体说明。
步骤S101中,获取第一文本集的初始聚类结果时,可采用任何现有的聚类方法对第一文本集进行聚类,本发明对此不做限制。获取第一文本集的初始分类结果时,也可采用任意的分类方法,例如利用现有的分类器进行分类等。
步骤S102中,第一文本集的当前分类结果包含了各个类别,第一文本集的当前聚类结果与之类似,也包含了各个类别。请参考图2,图2为本发明中分类结果与聚类结果求交集的示意图。由于聚类行为所具有的特性,聚出的各个集合并不知道其代表的具体含义,因此可以对聚类结果的各个集合的特征进行观察,并由此确定各个集合对应的类别,此时聚类结果的各类别与分类结果的各类别可能完全相同,如聚类结果有类别1、2、3,分类结果也有类别1、2、3,另外聚类结果的各类别与分类结果的各类别也可能不完全相同,如聚类结果有类别1、2、4,分类结果有类别1、2、5。如图2所示,假设聚类结果与分类结果都具有类别1至类别3,则将聚类结果的类别3与分类结果的类别1求交集,可以得到文本{12、13},聚类结果的类别3与分类结果的类别2求交集,可以得到文本{11、14}、聚类结果的类别3与分类结果的类别3求交集,可以得到文本{2、3、23、24}。
从各交集中抽取该交集对应类别的文本的策略包括:将聚类结果和分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定聚类结果和分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
各文本归属于所属类别的置信度,可由分类或聚类时的分类参数或聚类参数获得。聚类结果和分类结果的相同类别的交集中的文本,说明无论是在聚类还是在分类中,都被分在了这个类别,所以其被分在这个类别的可靠性很高,因此就将相同类别的交集中的所有文本作为该相同类别的文本。而不同类别的交集中的文本究竟适合抽取到哪个类别,则需要根据文本归属于所属类别的置信度来进行判断。以上面聚类结果的类别3分别与分类结果的类别1至类别3的交集为例说明上述抽取各类别文本的过程。请参考表1:
表1
聚类结果 | 分类结果 | 交集 |
类别3 | 类别1 | {12、13} |
类别3 | 类别2 | {11、14} |
类别3 | 类别3 | {2、3、23、24} |
对聚类结果类别3与分类结果类别3的交集{2、3、23、24},其中的文本2、3、23、24都作为类别3的文本,而对聚类结果类别3与分类结果类别1的交集{12、13}和聚类结果类别3与分类结果类别2的交集{11、14}来说,就需要判断各个文本归属于所属类别的置信度。例如:文本11归属于类别2的概率为90%,说明其归属于类别2的置信度很高,也就可以认为该文本作为类别2的文本是可靠的;文本14归属于类别3的概率为20%,归属于类别2的概率为10%,则说明其归属于类别2或类别3的置信度都很低,就不把它作为任何一个类别的文本。
第一文本子集,是对聚类结果和分类结果求交集后得到的各个类别的可信文本,因此,在步骤S 103中,使用第一文本子集进行分类器训练,得到的第一分类器也会具有更高的精度,这样,利用第一分类器对第一文本集进行分类得到的当前分类结果,准确度也会提高,而由于第一文本子集对各个类别的代表性高,以第一文本子集为聚类中心对第一文本集进行聚类得到的当前聚类结果的准确度同样也会提高。
步骤S104中,预设条件包括:本发明的方法的执行时间达到预设值,或者,本发明的方法执行中的循环次数达到预设值,或者,第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值,或者,所述第一文本集的当前分类结果满足其他的限制条件。
步骤S104中的预设条件,用以控制本方法的循环过程,如果预设条件满足,则在步骤S105中将第一文本集的当前分类结果输出,否则跳转至步骤S102,重复上面对分类结果与聚类结果求交集的过程,以得到精度更高的各类别的文本。
通过本发明的循环迭代过程,可以不断提高第一文本集的分类结果的精度,使得归属于各类别的文本的可靠性大大提高。
请参考图3,图3为本发明中文本分类的方法的实施例二的流程示意图。如图3所示,本实施例包括:
步骤S201:获取第一文本集的初始聚类结果作为当前聚类结果,以及,使用第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对第一文本集进行分类得到第一文本集的初始分类结果作为当前分类结果。
步骤S202:将第一文本集的当前分类结果中的各类别分别与第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集。
步骤S203:使用第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用第二分类器对第二文本集进行分类,得到第二文本集的当前分类结果。
步骤S204:将第二文本集的当前分类结果中的各类别分别与第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集。
步骤S205:使用第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
步骤S206:使用第一分类器对第一文本集进行分类,得到第一文本集的当前分类结果,以及,以第一文本子集为聚类中心对第一文本集进行聚类,得到第一文本集的当前聚类结果。
步骤S207:判断预设条件是否满足,如果是,则执行步骤S208,否则返回步骤S202。
步骤S208:输出第一文本集的当前分类结果与第二文本集的当前分类结果,将第一文本集的当前分类结果与第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器。
在本实施例中,采用了两个文本集来实现不断改进文本分类结果精度的目的。其中第二文本集可从网络上收集已有的分类语料得到。例如通过网络爬虫,可以从门户网站上得到已有粗略分类的各种类别的语料。例如:新浪、搜狐这样的网站已对各种类型的资讯进行了分类,有新闻类型的、体育类型的、财经类型的等等。从这些网站收集得到的语料具有初始分类结果,可作为本实施例中的第二文本集。
本实施例的步骤S201中,第二文本集的初始分类结果可用于进行分类器训练,以得到训练后的分类器用于对第一文本集进行分类,得到第一文本集的初始分类结果。
本实施例的步骤S202与实施例一中的步骤S102类似,在此不再赘述。
本实施例中的步骤S203至步骤S205是为了得到第一分类器,与实施例一不同的是,由于本实施例有两个文本集,因此,首先在步骤S203中,使用第一文本子集训练得到的第二分类器对第二文本集进行分类得到第二文本集的当前分类结果。
步骤S204与步骤S202的过程类似,主要是为了得到第二文本集中归属于各类别的置信度高的文本作为第二文本子集。在一个实施例中,第二文本集的预置分类结果在步骤S204首次执行时,指的是第二文本集的初始分类结果,第二文本集的预置分类结果在步骤S204循环执行时,指的是第二文本集上一次的分类结果。在另一个实施例中,第二文本集的预置分类结果无论步骤S204第几次执行,都可以是第二文本集的初始分类结果。
得到第二文本子集后,在步骤S205中就可以用第二文本子集进行分类器训练,从而得到第一分类器。
步骤S206与实施例一的步骤S103中的相应动作类似,不再重复说明。步骤S207中,预设条件包括:本发明的方法的执行时间达到预设值,或者,本发明的方法在执行中的循环次数达到预设值,或者,第一文本集的当前分类结果及第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值,或者,所述第一文本集或/和所述第二文本集的当前分类结果满足其他限制条件。这里,预设条件与实施例一相比,还多了一个对第二文本集的分类结果中文本归属于所属类别的置信度的控制,这样,可以将满足足够分类精度要求的第一文本集的分类结果和第二文本集的分类结果一起输出。
本实施例中,还可以在步骤S208中,进一步将第一文本集和第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终分类器,最终的分类器可以后续用于对未知类别的文本进行分类。
请参考图4,图4为本发明中文本分类的方法的实施例三的流程示意图。本实施例包括:
步骤S301:获取第一文本集的初始聚类结果作为当前聚类结果,以及,使用第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对第二文本集进行分类,得到第二文本集的当前分类结果,将第二文本集的当前分类结果中的各类别分别与第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对第一文本集进行分类,得到第一文本集的初始分类结果。
步骤S302:将第一文本集的当前分类结果中的各类别分别与第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集。
步骤S303:使用第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用第二分类器对第二文本集进行分类,得到第二文本集的当前分类结果。
步骤S304:将第二文本集的当前分类结果中的各类别分别与第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集。
步骤S305:使用第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
步骤S306:使用第一分类器对第一文本集进行分类,得到第一文本集的当前分类结果,以及,以第一文本子集为聚类中心对第一文本集进行聚类,得到第一文本集的当前聚类结果。
步骤S307:判断预设条件是否满足,如果是,则执行步骤S308,否则返回步骤S302。
步骤S308:输出第一文本集的当前分类结果与第二文本集的当前分类结果,将第一文本集的当前分类结果与第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器。
本实施例中步骤S302至步骤S308与实施例二中的步骤S202至步骤S208类似,本实施例与实施例二的主要区别是步骤S301中获取第一文本集的初始分类结果的方式上。
在本实施例中,不直接使用第二文本集的初始分类结果训练得到的分类器对第一文本集进行分类,而是先用第一文本集的初始聚类结果训练得到的分类器对第二文本集进行分类,然后通过对第二文本集的当前分类结果和初始分类结果取交集的过程,得到精度提高的各类别文本,并利用这些文本再次训练得到的分类器对第一文本集进行分类,这时的分类结果才是第一文本集的初始分类结果。
请参考图5,图5为本发明中文本分类的装置的实施例一的结构示意框图。如图5所示,本实施例包括:初始化单元401、第一交集单元402、分类器生成单元403、第一分类单元404、聚类单元405、判断单元406及输出单元407。
其中初始化单元401,用于获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取第一文本集的初始分类结果作为当前分类结果。
初始化单元401,在获取第一文本集的初始聚类结果时,可采用任何现有的聚类方法对第一文本集进行聚类,本发明对此不做限制。获取第一文本集的初始分类结果时,也可采用任意的分类方法,例如利用现有的分类器进行分类等。
第一交集单元402,用于将第一文本集的当前分类结果中的各类别分别与第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集。
第一文本集的当前分类结果包含了各个类别,第一文本集的当前聚类结果与之类似,也包含了各个类别。请参考图2,图2为本发明中分类结果与聚类结果求交集的示意图。由于聚类行为所具有的特性,聚出的各个集合并不知道其代表的具体含义,因此可以对聚类结果的各个集合的特征进行观察,并由此确定各个集合对应的类别,此时聚类结果的各类别与分类结果的各类别可能完全相同,如聚类结果有类别1、2、3,分类结果也有类别1、2、3,另外聚类结果的各类别与分类结果的各类别也可能不完全相同,如聚类结果有类别1、2、4,分类结果有类别1、2、5。如图2所示,聚类结果与分类结果都具有类别1至类别3,则将聚类结果的类别3与分类结果的类别1求交集,可以得到文本{12、13},聚类结果的类别3与分类结果的类别2求交集,可以得到文本{11、14}、聚类结果的类别3与分类结果的类别3求交集,可以得到文本{2、3、23、24}。
第一交集单元402从各交集中抽取该交集对应类别的文本的策略包括:将聚类结果和分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定聚类结果和分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
各文本归属于所属类别的置信度,可由分类或聚类时的分类参数或聚类参数获得。聚类结果和分类结果的相同类别的交集中的文本,说明无论是在聚类还是在分类中,都被分在了这个类别,所以其被分在这个类别的可靠性很高,因此就将相同类别的交集中的所有文本作为该相同类别的文本。而不同类别的交集中的文本究竟适合抽取到哪个类别,则需要根据文本归属于所属类别的置信度来进行判断。以上面聚类结果的类别3分别与分类结果的类别1至类别3的交集为例说明上述抽取各类别文本的过程。请参考表2:
表2
聚类结果 | 分类结果 | 交集 |
类别3 | 类别1 | {12、13} |
类别3 | 类别2 | {11、14} |
类别3 | 类别3 | {2、3、23、24} |
对聚类结果类别3与分类结果类别3的交集{2、3、23、24},其中的文本2、3、23、24都作为类别3的文本,而对聚类结果类别3与分类结果类别1的交集{12、13}和聚类结果类别3与分类结果类别2的交集{11、14}来说,就需要判断各个文本归属于所属类别的置信度。例如:文本11归属于类别2的概率为90%,说明其归属于类别2的置信度很高,也就可以认为该文本作为类别2的文本是可靠的;文本14归属于类别3的概率为20%,归属于类别2的概率为10%,则说明其归属于类别2或类别3的置信度都很低,就不把它作为任何一个类别的文本。分类器生成单元403,用于使用第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
第一分类单元404,用于使用第一分类器对第一文本集进行分类,得到第一文本集的当前分类结果,并将第一文本集的当前分类结果发送至判断单元406。
聚类单元405,用于以第一文本子集为聚类中心对第一文本集进行聚类,得到第一文本集的当前聚类结果,并将第一文本集的当前聚类结果发送至判断单元406。
第一文本子集,是对聚类结果和分类结果求交集后得到的各个类别的可信文本,因此,分类器生成单元403使用第一文本子集进行分类器训练,得到的第一分类器也会具有更高的精度,这样,第一分类单元404利用第一分类器对第一文本集进行分类得到的当前分类结果,准确度也会提高,而由于第一文本子集对各个类别的代表性高,聚类单元405以第一文本子集为聚类中心对第一文本集进行聚类得到的当前聚类结果的准确度同样也会提高。
判断单元406,用于判断预设条件是否满足,如果是,则触发输出单元407运行,否则将第一文本集的当前聚类结果与第一文本集的当前分类结果发送至第一交集单元402并触发第一交集单元402运行。
输出单元407,用于输出第一文本集的当前分类结果。
本实施例中,预设条件包括:本装置的运行时间达到预设值,或者,本装置运行中的循环次数达到预设值,或者,第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值,或者,第一文本集的当前分类结果满足其他限定条件。
判断单元406中的预设条件,用以控制本装置的循环过程,如果预设条件满足,则输出单元407将第一文本集的当前分类结果输出,否则判断单元406触发第一交集单元402运行,重复对分类结果和聚类结果求交集的过程,以得到精度更高的各类别的文本。
请参考图6,图6为本发明中文本分类的装置的实施例二的结构示意框图。如图6所示,本实施例包括:初始化单元501、第一交集单元502、第二训练单元503、第二分类单元504、第二交集单元505、第一训练单元506、第一分类单元507、聚类单元508、判断单元509、输出单元510及最终分类器生成单元511。
其中,初始化单元501,用于获取第一文本集的初始聚类结果作为当前聚类结果,以及,使用第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对第一文本集进行分类得到第一文本集的初始分类结果作为当前分类结果。
本实施例中,采用了两个文本集来实现不断改进文本分类结果精度的目的。其中第二文本集可从网络上收集已有的分类语料得到。例如通过网络爬虫,可以从门户网站上得到已有粗略分类的各种类别的语料。例如:新浪、搜狐这样的网站已对各种类型的资讯进行了分类,有新闻类型的、体育类型的、财经类型的等等。从这些网站收集得到的语料具有初始分类结果,可作为本实施例中的第二文本集。
第一交集单元502,用于将第一文本集的当前分类结果中的各类别分别与第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集。
本实施例中的第一交集单元502与实施例一中的第一交集单元402类似,在此不再赘述。
第二训练单元503,用于使用第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器。
第二分类单元504,用于使用第二分类器对第二文本集进行分类,得到第二文本集的当前分类结果。
第二交集单元505,用于将第二文本集的当前分类结果中的各类别分别与第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集。
第一训练单元506,用于使用第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
第二训练单元503、第二分类单元504、第二交集单元505和第一训练单元506,通过对第二文本集的处理,得到第一分类器。在一个实施例中,第二文本集的预置分类结果在第二交集单元505被首次触发时,为获取第二文本集时,第二文本集的初始分类结果,在第二交集单元505被循环触发时,为第二文本集上一次的分类结果。在另一个实施例中,第二文本集的预置分类结果无论第二交集单元505何时被触发,都是获取第二文本集时,第二文本集的初始分类结果。
第一分类单元507,用于使用第一分类器对第一文本集进行分类,得到第一文本集的当前分类结果,并将第一文本集的当前分类结果发送至判断单元509。
聚类单元508,用于以第一文本子集为聚类中心对第一文本集进行聚类,得到第一文本集的当前聚类结果,并将第一文本集的当前聚类结果发送至判断单元509。
第一分类单元507、聚类单元508与实施例一中的第一分类单元404、聚类单元405类似,在此不再重复说明。
判断单元509,用于判断预设条件是否满足,如果是,则触发输出单元510运行,否则,将第一文本集的当前聚类结果与第一文本集的当前分类结果发送至第一交集单元502并触发第一交集单元502运行。
在本实施例中,预设条件包括:本装置的运行时间达到预设值,或者,本装置运行中的循环次数达到预设值,或者,第一文本集的当前分类结果及第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值,或者,所述第一文本集或/和所述第二文本集的当前分类结果满足其他限定条件。
这里,预设条件与实施例一相比,还多了一个对第二文本集的分类结果中文本归属于所属类别的置信度的控制,这样,输出单元510可以将满足足够分类精度要求的第一文本集的当前分类结果和第二文本集的当前分类结果一起输出。
最终分类器生成单元511,用于将输出的第一文本集的当前分类结果与第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器,最终的分类器可用于对未知类别的文本进行分类。
在另一个实施例中,本装置的初始化单元501,用于获取第一文本集的初始聚类结果作为当前聚类结果,以及,使用第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对第二文本集进行分类,得到第二文本集的当前分类结果,将第二文本集的当前分类结果中的各类别分别与第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对第一文本集进行分类,得到第一文本集的初始分类结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种文本分类的方法,其特征在于,所述方法包括:
A.获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;
B.将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;
C.利用所述第一文本子集获得第一分类器,使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果;以及,以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果;判断预设条件是否满足,如果是,则输出所述第一文本集的当前分类结果,否则,返回所述步骤B;其中,
利用所述第一文本子集获得第一分类器的步骤包括:
C1.使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器,使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;
C2.将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;
C3.使用所述第二文本子集对进行分类器训练,将训练后得到的分类器作为第一分类器。
2.根据权利要求1所述的方法,其特征在于,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
3.根据权利要求1所述的方法,其特征在于,从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
4.根据权利要求1所述的方法,其特征在于,利用所述第一文本子集获得第一分类器的步骤包括:使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
5.根据权利要求1所述的方法,其特征在于,
所述预置分类结果在所述步骤C2首次执行时,是获取所述第二文本集时,所述第二文本集的初始分类结果;
所述预置分类结果在所述步骤C2循环执行时,是所述第二文本集上一次的分类结果。
6.根据权利要求1所述的方法,其特征在于,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
7.根据权利要求5或6所述的方法,其特征在于,获取所述第一文本集的初始分类结果的步骤包括:使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
8.根据权利要求5或6所述的方法,其特征在于,获取所述第一文本集的初始分类结果的步骤包括:使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
9.根据权利要求1至6中任一权项所述的方法,其特征在于,所述方法在满足所述预设条件时,进一步输出所述第二文本集的当前分类结果。
10.根据权利要求9所述的方法,其特征在于,所述预设条件包括:所述方法的执行时间达到预设值,或者,所述方法执行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果及所述第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
11.根据权利要求9所述的方法,其特征在于,将输出的所述第一文本集的当前分类结果与所述第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器,所述最终的分类器用以对未知类别的文本进行分类。
12.一种文本分类的装置,其特征在于,所述装置包括:
初始化单元,用于获取第一文本集的初始聚类结果作为当前聚类结果,以及,获取所述第一文本集的初始分类结果作为当前分类结果;
第一交集单元,用于将所述第一文本集的当前分类结果中的各类别分别与所述第一文本集的当前聚类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第一文本子集;
分类器生成单元,用于利用所述第一文本子集获得第一分类器;
第一分类单元,用于使用所述第一分类器对所述第一文本集进行分类,得到所述第一文本集的当前分类结果并将所述第一文本集的当前分类结果发送给判断单元;
聚类单元,用于以所述第一文本子集为聚类中心对所述第一文本集进行聚类,得到所述第一文本集的当前聚类结果并将所述第一文本集的当前聚类结果发送给判断单元;
判断单元,用于判断预设条件是否满足,如果是,则触发输出单元运行,否则将所述第一文本集的当前分类结果和所述第一文本集的当前聚类结果发送至所述第一交集单元并触发所述第一交集单元运行;
输出单元,用于输出所述第一文本集的当前分类结果;其中,
所述分类器生成单元包括:
第二训练单元,用于使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第二分类器;
第二分类单元,用于使用所述第二分类器对获取的第二文本集进行分类,得到所述第二文本集的当前分类结果;
第二交集单元,用于将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的预置分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本,以得到第二文本子集;
第一训练单元,用于使用所述第二文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
13.根据权利要求12所述的装置,其特征在于,所述预设条件包括:所述装置的运行时间达到预设值,或者,所述装置运行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
14.根据权利要求12所述的装置,其特征在于,所述第一交集单元从各交集中抽取该交集对应类别的文本的策略包括:将所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的相同类别的交集中的所有文本确定为该相同类别的文本;确定所述第一文本集的当前聚类结果与所述第一文本集的当前分类结果的不同类别的交集中各文本归属于所属类别的置信度,将归属于所属类别的置信度大于设定阈值的文本作为该置信度对应类别的文本。
15.根据权利要求12所述的装置,其特征在于,所述分类器生成单元使用所述第一文本子集进行分类器训练,将训练后得到的分类器作为第一分类器。
16.根据权利要求12所述的装置,其特征在于,
所述预置分类结果在所述第二交集单元被首次触发时,是获取所述第二文本集时,所述第二文本集的初始分类结果;
所述预置分类结果在所述第二交集单元被循环触发时,是所述第二文本集上一次的分类结果。
17.根据权利要求12所述的装置,其特征在于,所述预置分类结果是获取所述第二文本集时,所述第二文本集的初始分类结果。
18.根据权利要求16或17所述的装置,其特征在于,所述初始化单元在获取所述第一文本集的初始分类结果时,使用所述第二文本集的初始分类结果进行分类器训练,使用训练后得到的分类器对所述第一文本集进行分类得到所述第一文本集的初始分类结果。
19.根据权利要求16或17所述的装置,其特征在于,所述初始化单元在获取所述第一文本集的初始分类结果时,使用所述第一文本集的初始聚类结果进行分类器训练,使用训练后得到的分类器对所述第二文本集进行分类,得到所述第二文本集的当前分类结果,将所述第二文本集的当前分类结果中的各类别分别与所述第二文本集的初始分类结果中的各类别两两求交集,从各交集中抽取该交集对应类别的文本用以再次进行分类器训练,使用再次训练后得到的分类器对所述第一文本集进行分类,得到所述第一文本集的初始分类结果。
20.根据权利要求12至17中任一权项所述的装置,其特征在于,所述装置在满足所述预设条件时,所述输出单元进一步输出所述第二文本集的当前分类结果。
21.根据权利要求20所述的装置,其特征在于,所述预设条件包括:所述装置的运行时间达到预设值,或者,所述装置运行中的循环次数达到预设值,或者,所述第一文本集的当前分类结果及所述第二文本集的当前分类结果中各类别的文本归属于该文本所属类别的置信度均大于预设值。
22.根据权利要求20所述的装置,其特征在于,所述装置进一步包括最终分类器生成单元,用于将输出的所述第一文本集的当前分类结果与所述第二文本集的当前分类结果合并,并利用合并后的各类别的文本进行分类器训练,得到训练后的分类器为最终的分类器,所述最终的分类器用以对未知类别的文本进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110273033.XA CN102999516B (zh) | 2011-09-15 | 一种文本分类的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110273033.XA CN102999516B (zh) | 2011-09-15 | 一种文本分类的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102999516A CN102999516A (zh) | 2013-03-27 |
CN102999516B true CN102999516B (zh) | 2016-12-14 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299238A (zh) * | 2008-07-01 | 2008-11-05 | 山东大学 | 一种基于协同训练的快速指纹图像分割方法 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101299238A (zh) * | 2008-07-01 | 2008-11-05 | 山东大学 | 一种基于协同训练的快速指纹图像分割方法 |
CN102023986A (zh) * | 2009-09-22 | 2011-04-20 | 日电(中国)有限公司 | 参考外部知识构建文本分类器的方法和设备 |
Non-Patent Citations (3)
Title |
---|
Co-training for Predicting Emotions with Spoken Dialogue Data;Beatriz Maeireizo 等;《In The Companion Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics (ACL )》;20041231;1-4页 * |
一个对不带类别标记文本进行分类的方法;蒋志方 等;《计算机工程》;20070630;第33卷(第12期);96-98页 * |
半监督的文本分类——两阶段协同学习;郝秀兰 等;《小型微型计算机系统》;20091031;第30卷(第10期);第1922页第3.1节至1923页第3.3节 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN107423278B (zh) | 评价要素的识别方法、装置及系统 | |
CN107992596A (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN104008166A (zh) | 一种基于形态和语义相似度的对话短文本聚类方法 | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN106650820B (zh) | 一种手写电气元器件符号与标准电气元器件符号的匹配识别方法 | |
CN101404033A (zh) | 本体层级结构的自动生成方法及系统 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
JP2018509664A (ja) | モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体 | |
CN108959329A (zh) | 一种文本分类方法、装置、介质及设备 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
CN105912648A (zh) | 一种基于侧面信息的代码片段编程语言识别方法 | |
CN105488599A (zh) | 预测文章热度的方法和装置 | |
CN104572633A (zh) | 一种确定多义词词义的方法 | |
CN111738290B (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
Miao et al. | Informative core identification in complex networks | |
CN111538839A (zh) | 一种基于杰卡德距离的实时文本聚类方法 | |
CN102999516B (zh) | 一种文本分类的方法及装置 | |
CN103778210A (zh) | 一种待分析文件的文件具体类型的判断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |