CN104391981B

CN104391981B - 一种文本分类方法和装置

Info

Publication number: CN104391981B
Application number: CN201410746286.8A
Authority: CN
Inventors: 高玉龙; 温跃宇; 傅志华; 李伟光; 王�琦; 陈龙; 宋明; 刘荣; 崔腾飞; 田爽; 刘丹; 周佩佩
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2019-03-08
Anticipated expiration: 2034-12-08
Also published as: CN104391981A

Abstract

本发明公开了一种文本分类方法和装置。所述方法包括：建立第一特征文本库S和第二特征文本库H；计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及基于所述概率P，将所述待分类的文本分类。

Description

一种文本分类方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本分类方法和装置。

背景技术

随着手机、电脑等电子设备的普及，对于应用的需求显著增加，而应用的种类和数量也迅速增加。为了争取更多的用户或增加用户的充值数额，某些应用会产生很多异常文本或者垃圾文本，作为恶意广告，比如“充值 100元宝送50元宝”，“A应用比B应用好，来用”。基于这个原因，需要将这种文本信息捕捉到并将相应的用户拉黑或者屏蔽其发言。而且由于应用的数据量过大，人工审核过于麻烦，所以需要服务器能够自动分辨出哪些应用的异常文本或者垃圾文本数据需要屏蔽或者哪些用户需要被屏蔽。

一种技术方案是采用字符匹配的方式与人工的方法，比如定义一个黑名单列表(包括“充值”或者其他关键字)，然后将应用所发的文本数据与该列表进行匹配，如果匹配到则屏蔽该文本，如果没有匹配到，则认为该文本数据为正常文本。该方法简单，但无法实现服务器自动更新黑名单列表，必须需要人工不断补充相关黑名单列表。比如之前的黑名单列表中不包括(“充一百送一百”)，则如果有用户发了该文本，则相应的程序监测不到，会认为其是一个正常文本。因此需要人工的将该文本加到黑名单列表中，因此也会导致黑名单列表越来越大，最后可能会导致服务器计算的速度下降。而且服务器对于异常文本或者垃圾文本的识别效果都不理想，而且很容易被规避。

发明内容

鉴于上述问题，提出了本发明，以便提供一种克服上述问题或者至少部分地解决上述问题的文本分类方法和装置。

依据本发明的第一方面，提供了一种文本分类方法，包括：建立第一特征文本库S和第二特征文本库H；计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率 P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及基于所述概率P，将所述待分类的文本分类。

可选地，其中计算所述第一特征文本库S和所述第二特征文本库H 中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)包括：分别对所述第一特征文本库和所述第二特征文本库中的文本进行分词处理，以获得分词后的词语W；分别计算各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。

可选地，其中当文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P包括：当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。

可选地，其中基于所述概率P，将所述文本分类包括：将所述概率P 与预先确定的阈值P₀比较；当所述概率P大于所述阈值P₀时，将所述文本分类为属于所述第一特征文本库S。

可选地，所述方法还包括：当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。

根据本发明的第二方面，提供了一种文本分类装置，包括：文本库建立模块，适于建立第一特征文本库S和第二特征文本库H；第一概率计算模块，适于计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；第二概率计算模块，适于当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及分类模块，基于所述概率P，将所述待分类的文本分类。

可选地，其中所述第一概率计算模块适于：分别对所述第一特征文本库和所述第二特征文本库中的文本进行分词处理，以获得分词后的词语W；分别计算各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。

可选地，其中所述第二概率计算模块适于：基于所述概率P(S|W)和所述概率P(H|W)，计算所述第一特征文本库S和所述第二特征文本库H 中各词语W的权重P(weight)；基于所述概率P(S|W)和所述权重P(weight)，计算所述文本属于所述第一特征文本库S的概率P。

可选地，其中所述第二概率计算模块适于：当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i) 和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。

可选地，其中所述分类模块适于：将所述概率P与预先确定的阈值 P₀比较；当所述概率P大于所述阈值P₀时，将所述文本分类为属于所述第一特征文本库S。

可选地，所述分类模块还适于：当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。

本发明提供的针对应用进行用户数据调整的方法和装置，通过特征文本库中推断能力强的词语对待分类文本进行分类，显著提高了分类的准确性；通过加入权重，可以更加突出对于待分类文本有显著影响的词语，提高文本分类的准确度；通过计算多个词语的联合概率，避免了个别词语对于分类结果产生大幅度误差，使分类结果更加准确；通过将分类的文本加入到第一特征文本库或第二特征文本库，可以自动更新第一特征文本库或第二特征文本库，不需要人工补充来对抗最新的垃圾文本，从而提高了分类方法的效率和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特列举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明的实施例的文本分类方法100的流程图；以及

图2示出了根据本发明的实施例的文本分类装置200的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明的实施例中，应用可以是使用各种程序设计语言编制的程序，其一般具有可视的用户界面，可以和用户进行交互，并可供多用户使用，以满足用户不同领域、不同问题的需求。应用可在手机、电脑等电子设备上使用，包括但不限于游戏、多媒体播放应用、导航应用等等。在下文中，将以游戏作为应用的例子，对本发明的原理进行示例性地描述。然而，这只是为了以具体的示例描述本发明，以帮助读者理解本发明的原理，本发明的范围不限于此，而是可以适用于任何应用。

图1示出了根据本发明的实施例的文本分类方法100的流程图。方法 100包括：步骤S101，建立第一特征文本库S和第二特征文本库H；步骤 S103，计算所述第一特征文本库S和所述第二特征文本库H中各词语W 在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库 H中出现的概率P(H|W)；步骤S105，当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及步骤S107，基于所述概率P，将所述待分类的文本分类。

如图1所示，方法100始于步骤S101。在步骤S101中，建立第一特征文本库S和第二特征文本库H。

可选地，第一特征文本库S可以是包含垃圾文本或者异常文本的文本库；第二特征文本库H可以是包含正常文本的文本库。

可选地，可从服务器中获取历史数据，以建立第一特征文本库S和第二特征文本库H。根据本发明的实施例，服务器可以是一个或多个服务器计算机，可设置为提供某种服务器功能，例如数据库管理和搜索引擎。服务器可以包括至少一个处理器，其与存储器以及多个其它模块协同操作。所述处理器可以包括多个核心，以用于多线程或并行处理。所述存储器可以包括一个或多个存储设备，存储器或者其中的存储设备包括非易失性计算机可读记录/存储介质。

如图1所示，步骤S101之后，进行步骤S103：计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库 S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率 P(H|W)。

根据本发明的示例性实施例，步骤S103包括：分别对所述第一特征文本库和所述第二特征文本库中的文本进行分词处理，以获得分词后的词语W；分别计算各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。比如，分别对所述第一特征文本库和第二特征文本库中的文本进行分词处理后，获得的分词后的词语W包括"充值"这个词；第一特征文本库包含4000 条垃圾文本，其中有200条垃圾文本包含这个词，那么词语“充值”在第一特征文本库S中出现的概率P(S|W)＝5％；第二特征文本库H包含4000条正常文本，其中只有2条正常文本包含这个词，那么词语“充值”在第二特征文本库H中出现的概率P(H|W)＝0.05％。可选地，如果某个词语只出现在第一特征文本库S中，而未出现在第二特征文本库H 中，则将该词语在第二特征文本库H出现的概率P(H|W)设定为1％，以避免概率为0导致无法进行后续计算；随着第一特征文本库S和第二特征文本库H中文本数量的增加，计算概率的计算结果会自动调整，例如，当该词语又在第二特征文本库H中出现时，出现的概率P(H|W) 调整为实际的概率。

如图1所述，步骤S103之后，方法100进行步骤S105：当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P。例如，对于一条新文本，需确定该文本是属于垃圾文本还是正常文本；在未经本发明的方法100进行分类之前，假定它是垃圾文本的"先验概率"P(S)为50％，是正常文本的 "先验概率"P(H)也为50％。如果对第一特征文本库S和第二特征文本库H 进行分词处理后，获得的词语W中包含“sex”这个词，当该待分类文本中包含了“sex”这个词语时，可基于所述概率P(S|W)和所述概率P(H|W)，计算所述该待分类文本属于所述第一特征文本库S的概率P：

如果，那么词语“sex”在第一特征文本库S中出现的概率 P(S|W)＝5％，在第二特征文本库H中出现的概率P(H|W)＝0.05％， P(H)＝50％，且P(S)＝50％，则该待分类文本属于第一特征文本库S，即垃圾文本的概率为：

由此可知，这条待分类文本是垃圾文本的概率等于99％。这说明，根据本发明的实施例的方法100能够确定特征文本库中推断能力强的词语并将其应用于对待分类文本进行分类，将50％的"先验概率"显著提高为后来的99％，显著提高了分类的准确性。

根据本发明的示例性实施例，可选地，步骤S105包括：当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。

当待分类文本中包含多个词语时，可使用该多个词语各自的概率来计算该待分类文本属于第一特征文本库S的概率。例如，当待分类文本包含W₁和W₂两个不同的词语时，那么这条文本是垃圾文本的概率，就是这两个词语联合概率。在已知待分类文本包含W1和W2的情况下，判断该文本是否属于第一特征文本库S有两种结果：属于第一特征文本库S(事件E₁)或不属于第一特征文本库S(事件E₂)。其中，在事件E₁中，即待分类文本属于第一特征文本库S时，其中该文本包含词语W₁和W₂，词语W₁和W₂均属于所述第一特征文本库S中的概率分别为P₁和P₂，以及其先验概率P(S)为50％；在事件E₂中，即待分类文本不属于第一特征文本库S时，则词语W₁和W₂属于所述第一特征文本库S的概率分别为(1-P₁)和(1-P₂)，以及其先验概率为(1-P(S))，如下表所示：

事件	W<sub>1</sub>	W<sub>2</sub>	先验概率
				E<sub>1</sub>	P<sub>1</sub>	P<sub>2</sub>	P(S)
E<sub>2</sub>	1-P<sub>1</sub>	1-P<sub>2</sub>	1-P(S)

则事件E₁发生的概率为：

P(E₁)＝P₁P₂P(S)

则事件E₂发生的概率为：

P(E₂)＝(1-P₁)(1-P₂)(1-P(S))

当待分类文本同时包含词语W₁和W₂时，所述文本属于所述第一特征文本库S的概率为：

其中，P(S)＝0.5，则

可选地，当待分类文本包含更多个词语W时，例如包含15个词语W₁…W_i…W₁₅时，所述文本属于所述第一特征文本库S的概率为：

可选地，可根据待分类文本中每个词语各自的属于所述第一特征文本库S的概率P_i来确定选择基于哪些词语来计算该文本属于所述第一特征文本库S的概率P，例如可以选择待分类文本中Pi最高的15个词语，来计算该文本属于所述第一特征文本库S的概率P。通过计算多个词语的联合概率，避免了个别词语对于分类结果产生大幅度误差，使分类结果更加准确。

如图1所示，步骤S105之后，进行步骤S107：基于所述概率P，将所述待分类的文本分类。

根据本发明的实施例，其中步骤S107包括：将所述概率P与预先确定的阈值P₀比较；当所述概率P大于所述阈值P₀时，将所述文本分类为属于所述第一特征文本库S。可选地，阈值P₀可预先确定为0.99，如果待分类文本属于所述第一特征文本库S的概率P大于等于0.99，则将该文本分类为属于第一特征文本库S；如果概率P小于0.99，则将该文本分类为属于第二特征文本库H。可选地，可根据需要设定不同的阈值，例如对于包括10个以下词语的待分类文本，将阈值设定为a1；对于包含多于10 个且小于20个词语的待分类文本，将阈值设定为a2；对于包含20个以上的词语的待分类文本，将阈值设定为a3。通过这种方式，分类的准确性显著提高。

根据本发明的实施例，方法100还包括：当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。通过将分类的文本加入到第一特征文本库或第二特征文本库，可以自动更新第一特征文本库或第二特征文本库，不需要人工补充来对抗最新的垃圾文本，从而提高了分类方法的效率和准确性。

根据本发明的另一个示例性实施例，可通过建立特征文本库的哈希表来计算所述第一特征文本库S和所述第二特征文本库H中各词语W 在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库 H中出现的概率P(H|W)，以及所述文本属于所述第一特征文本库S的概率P。

可选地，步骤S105包括：当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。可选地，P(S|W_i)＝(词语W_i在哈希表T(S)中的值)，P(H|W_i) ＝(词语W_i在哈希表T(H)中的值)；则当待分类文本包含词语W_i时，所述文本属于所述第一特征文本库S的概率为：

P_i＝P(S|W_i)/[P(S|W_i)+P(H|W_i)]*P(weight)

当基于包含在待分类文本中的N个词语W₁…W_i…W_N的概率 P₁…P_i…P_N，所述文本属于所述第一特征文本库S的概率P为：

可选地，步骤S107包括：基于所述概率P，将所述待分类的文本分类。

可选地，方法100还包括：当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。

总之，实施例的方法100能够通过特征文本库中推断能力强的词语对待分类文本进行分类，显著提高了分类的准确性；通过加入权重，可以更加突出对于待分类文本有显著影响的词语，提高文本分类的准确度；通过计算多个词语的联合概率，避免了个别词语对于分类结果产生大幅度误差，使分类结果更加准确；通过将分类的文本加入到第一特征文本库或第二特征文本库，可以自动更新第一特征文本库或第二特征文本库，不需要人工补充来对抗最新的垃圾文本，从而提高了分类方法的效率和准确性。

根据本发明的第二方面，提供了一种文本分类装置200。

图2示出了根据本发明的实施例的文本分类装置200的示意图。装置 200包括：文本库建立模块201，适于建立第一特征文本库S和第二特征文本库H；第一概率计算模块203，适于计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；第二概率计算模块205，适于当待分类的文本中包含所述词语W时，基于所述概率 P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及分类模块207，适于基于所述概率P，将所述待分类的文本分类。

如图2所示，装置200包括文本库建立模块201，适于建立第一特征文本库S和第二特征文本库H。

可选地，文本库建立模块201可从服务器中获取历史数据，以建立第一特征文本库S和第二特征文本库H。根据本发明的实施例，服务器可以是一个或多个服务器计算机，可设置为提供某种服务器功能，例如数据库管理和搜索引擎。服务器可以包括至少一个处理器，其与存储器以及多个其它模块协同操作。所述处理器可以包括多个核心，以用于多线程或并行处理。所述存储器可以包括一个或多个存储设备，存储器或者其中的存储设备包括非易失性计算机可读记录/存储介质。

如图2所示，装置200包括第一概率计算模块203，适于计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。

根据本发明的示例性实施例，第一概率计算模块203，适于分别对所述第一特征文本库和所述第二特征文本库中的文本进行分词处理，以获得分词后的词语W；分别计算各词语W在所述第一特征文本库S 中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。比如，分别对所述第一特征文本库和第二特征文本库中的文本进行分词处理后，获得的分词后的词语W包括"充值"这个词；第一特征文本库包含4000条垃圾文本，其中有200条垃圾文本包含这个词，那么词语“充值”在第一特征文本库S中出现的概率P(S|W)＝5％；第二特征文本库H包含4000条正常文本，其中只有2条正常文本包含这个词，那么词语“充值”在第二特征文本库H中出现的概率P(H|W)＝0.05％。可选地，如果某个词语只出现在第一特征文本库S中，而未出现在第二特征文本库H中，则将该词语在第二特征文本库H出现的概率P(H|W) 设定为1％，以避免概率为0导致无法进行后续计算；随着第一特征文本库S和第二特征文本库H中文本数量的增加，计算概率的计算结果会自动调整，例如，当该词语又在第二特征文本库H中出现时，出现的概率P(H|W)调整为实际的概率。

如图2所示，装置200包括第二概率计算模块205，适于当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P。例如，对于一条新文本，需确定该文本是属于垃圾文本还是正常文本；在未经本发明的装置200进行分类之前，假定它是垃圾文本的"先验概率"P(S)为50％，是正常文本的"先验概率"P(H)也为50％。如果对第一特征文本库S和第二特征文本库H 进行分词处理后，获得的词语W中包含“sex”这个词，当该待分类文本中包含了“sex”这个词语时，第二概率计算模块205可基于所述概率P(S|W) 和所述概率P(H|W)，计算所述该待分类文本属于所述第一特征文本库S 的概率P：

由此可知，这条待分类文本是垃圾文本的概率等于99％。这说明，根据本发明的实施例的装置200能够确定特征文本库中推断能力强的词语并将其应用于对待分类文本进行分类，将50％的"先验概率"显著提高为后来的99％，显著提高了分类的准确性。

根据本发明的示例性实施例，可选地，第二概率计算模块205还可包括基于所述概率P(S|W)和所述概率P(H|W)，计算所述第一特征文本库 S和所述第二特征文本库H中各词语W的权重P(weight)；基于所述概率 P(S|W)和所述权重P(weight)，计算所述文本属于所述第一特征文本库S 的概率P。为了使计算概率的结果更准确，可以考虑词语W的权重，例如，词语“sex”，在第一特征文本库S中出现的概率P(S|W)＝5％，在第二特征文本库H中出现的概率P(H|W)＝0.05％，则第二概率计算模块 205可根据概率P(S|W)和概率P(H|W)计算词语“sex”的权重P(weight)，当待分类文本中包含“sex”这一词语时，所述文本属于所述第一特征文本库S的概率为：P＝P(S|W)*P(weight)。通过加入权重，可以更加突出对于待分类文本有显著影响的词语，提高文本分类的准确度。

根据本发明的示例性实施例，可选地，第二概率计算模块205适于当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语 W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。

当待分类文本中包含多个词语时，第二概率计算模块205可使用该多个词语各自的概率来计算该待分类文本属于第一特征文本库S的概率。例如，当待分类文本包含W₁和W₂两个不同的词语时，那么这条文本是垃圾文本的概率，就是这两个词语联合概率。在已知待分类文本包含W1和W2的情况下，判断该文本是否属于第一特征文本库S 有两种结果：属于第一特征文本库S(事件E₁)或不属于第一特征文本库S(事件E₂)。其中，在事件E₁中，即待分类文本属于第一特征文本库S时，其中该文本包含词语W₁和W₂，词语W₁和W₂均属于所述第一特征文本库S中的概率分别为P₁和P₂，以及其先验概率P(S)为50％；在事件E₂中，即待分类文本不属于第一特征文本库S时，则词语W₁和W₂属于所述第一特征文本库S的概率分别为(1-P₁)和(1-P₂)，以及其先验概率为(1-P(S))，如下表所示：

则事件E₁发生的概率为：

P(E₁)＝P₁P₂P(S)

则事件E₂发生的概率为：

P(E₂)＝(1-P₁)(1-P₂)(1-P(S))

其中，P(S)＝0.5，则

如图2所示，装置200包括分类模块207，适于基于所述概率P，将所述待分类的文本分类。

根据本发明的实施例，其中分类模块207适于将所述概率P与预先确定的阈值P₀比较；当所述概率P大于所述阈值P₀时，将所述文本分类为属于所述第一特征文本库S。可选地，阈值P₀可预先确定为0.99，如果待分类文本属于所述第一特征文本库S的概率P大于等于0.99，则将该文本分类为属于第一特征文本库S；如果概率P小于0.99，则将该文本分类为属于第二特征文本库H。可选地，可根据需要设定不同的阈值，例如对于包括10个以下词语的待分类文本，将阈值设定为a1；对于包含多于10 个且小于20个词语的待分类文本，将阈值设定为a2；对于包含20个以上的词语的待分类文本，将阈值设定为a3。通过这种方式，分类的准确性显著提高。

根据本发明的实施例，分类模块207还适于当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。通过将分类的文本加入到第一特征文本库或第二特征文本库，可以自动更新第一特征文本库或第二特征文本库，不需要人工补充来对抗最新的垃圾文本，从而提高了分类装置200的效率和准确性。

可选地，第二概率计算模块205适于当所述文本中包含N个词语 W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。可选地，P(S|W_i)＝(词语W_i在哈希表T(S) 中的值)，P(H|W_i)＝(词语W_i在哈希表T(H)中的值)；则当待分类文本包含词语W_i时，所述文本属于所述第一特征文本库S的概率为：

P_i＝P(S|W_i)/[P(S|W_i)+P(H|W_i)]*P(weight)

可选地，分类模块207适于基于所述概率P，将所述待分类的文本分类。

可选地，分类模块207还适于当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。

总之，实施例的装置200能够通过特征文本库中推断能力强的词语对待分类文本进行分类，显著提高了分类的准确性；通过加入权重，可以更加突出对于待分类文本有显著影响的词语，提高文本分类的准确度；通过计算多个词语的联合概率，避免了个别词语对于分类结果产生大幅度误差，使分类结果更加准确；通过将分类的文本加入到第一特征文本库或第二特征文本库，可以自动更新第一特征文本库或第二特征文本库，不需要人工补充来对抗最新的垃圾文本，从而提高了分类装置的效率和准确性。

在此提供的方法和装置不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的若干模块组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者模块中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书 (包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个装置实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明还公开了：

A1.一种文本分类方法，包括：

建立第一特征文本库S和第二特征文本库H；

计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H 中出现的概率P(H|W)；

当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及

基于所述概率P，将所述待分类的文本分类。

A2.如A1所述的方法，其中计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W) 和在所述第二特征文本库H中出现的概率P(H|W)包括：

分别对所述第一特征文本库和所述第二特征文本库中的文本进行分词处理，以获得分词后的词语W；

分别计算各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)。

A3.如A1所述的方法，其中计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W) 和在所述第二特征文本库H中出现的概率P(H|W)包括：

建立所述第一特征文本库S的哈希表T(S)和所述第二特征文本库H 的哈希表T(H)，所述哈希表T(S)包括所述词语W与所述词语在所述第一特征文本库S中出现的频率F(S|W)的映射关系，所述哈希表T(H)包括所述词语W与所述词语在所述第二特征文本库H中出现的频率F(H|W)的映射关系；

A4.如A1或A3所述的方法，其中当文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P包括：

基于所述概率P(S|W)和所述概率P(H|W)，计算所述第一特征文本库 S和所述第二特征文本库H中各词语W的权重P(weight)；

基于所述概率P(S|W)和所述权重P(weight)，计算所述文本属于所述第一特征文本库S的概率P。

A5.如A1或A3所述的方法，其中当文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P包括：

当所述文本中包含N个词语W₁…W_i…W_N，其中1≤i≤N，基于每个词语W_i的所述概率P(S|W_i)和所述概率P(H|W_i)，分别计算所述文本属于所述第一特征文本库S的概率P_i；

基于所述N个词语W₁…W_i…W_N的概率P₁…P_i…P_N，计算所述文本属于所述第一特征文本库S的概率P。

A6.如A1或A3所述的方法，其中基于所述概率P，将所述文本分类包括：

将所述概率P与预先确定的阈值P₀比较；

当所述概率P大于所述阈值P₀时，将所述文本分类为属于所述第一特征文本库S。

A7.如A1或A3所述的方法，还包括：

当所述文本被分类为所述第一特征文本库时，将所述文本加入到所述第一特征文本库；或

当所述文本被分类为所述第二特征文本库时，将所述文本加入到所述第二特征文本库。

A8.一种文本分类装置，包括：

文本库建立模块，适于建立第一特征文本库S和第二特征文本库H；

第一概率计算模块，适于计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；

第二概率计算模块，适于当待分类的文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P；以及

分类模块，基于所述概率P，将所述待分类的文本分类。

A9.如A8所述的装置，其中所述第一概率计算模块适于：

A10.如A8所述的装置，其中所述第一概率计算模块适于：

A11.如A8或A10所述的装置，其中所述第二概率计算模块适于：

A12.如A8或A10所述的装置，其中所述第二概率计算模块适于：

A13.如A8或A10所述的装置，其中所述分类模块适于：

将所述概率P与预先确定的阈值P₀比较；

A14.如A8或A10所述的装置，所述分类模块还适于：

Claims

1.一种文本分类方法，包括：

建立第一特征文本库S和第二特征文本库H；

计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)；

基于所述概率P，将所述待分类的文本分类；

所述基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P，计算公式包括：

其中，P(S)为所述文本属于所述第一特征文本库S的先验概率，P(H)为所述文本属于所述第二特征文本库H的先验概率。

2.如权利要求1所述的方法，其中计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)包括：

3.如权利要求1所述的方法，其中计算所述第一特征文本库S和所述第二特征文本库H中各词语W在所述第一特征文本库S中出现的概率P(S|W)和在所述第二特征文本库H中出现的概率P(H|W)包括：

建立所述第一特征文本库S的哈希表T(S)和所述第二特征文本库H的哈希表T(H)，所述哈希表T(S)包括所述词语W与所述词语在所述第一特征文本库S中出现的频率F(S|W)的映射关系，所述哈希表T(H)包括所述词语W与所述词语在所述第二特征文本库H中出现的频率F(H|W)的映射关系；

4.如权利要求1或3所述的方法，其中当文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P还包括：

基于所述概率P(S|W)和所述概率P(H|W)，计算所述第一特征文本库S和所述第二特征文本库H中各词语W的权重P(weight)；

5.如权利要求1或3所述的方法，其中当文本中包含所述词语W时，基于所述概率P(S|W)和所述概率P(H|W)，计算所述文本属于所述第一特征文本库S的概率P包括：

6.如权利要求1或3所述的方法，其中基于所述概率P，将所述文本分类包括：

将所述概率P与预先确定的阈值P₀比较；

7.如权利要求1或3所述的方法，还包括：

8.一种文本分类装置，包括：

分类模块，基于所述概率P，将所述待分类的文本分类；

所述第二概率计算模块，具体适于计算文本属于所述第一特征文本库S的概率为P的计算公式包括：

9.如权利要求8所述的装置，其中所述第一概率计算模块适于：

10.如权利要求8所述的装置，其中所述第一概率计算模块适于：

11.如权利要求8或10所述的装置，其中所述第二概率计算模块还适于：

基于所述概率P(S|W)和所述概率P(H|W)，计算所述第一特征文本库S和所述第二特征文本库H中各词语W的权重P(weight)。

12.如权利要求8或10所述的装置，其中所述第二概率计算模块适于：

13.如权利要求8或10所述的装置，其中所述分类模块适于：

将所述概率P与预先确定的阈值P₀比较；

14.如权利要求8或10所述的装置，所述分类模块还适于：