CN101197793B

CN101197793B - 一种垃圾信息检测方法和装置

Info

Publication number: CN101197793B
Application number: CN2007103063799A
Authority: CN
Inventors: 刘大林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-12-28
Filing date: 2007-12-28
Publication date: 2011-03-16
Anticipated expiration: 2027-12-28
Also published as: CN101197793A

Abstract

本发明实施例公开了一种垃圾信息检测方法，将待检测原始信息的语句切分成词；统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；根据所述统计出的每类词所占频率以及不同词所占频率计算总权值；比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。本发明实施例同时公开了一种垃圾信息检测装置。应用本发明实施例所述的方法和装置，能够准确高效地检测出垃圾信息，并及时进行清除。

Description

一种垃圾信息检测方法和装置

技术领域

本发明涉及网络信息管理技术，特别涉及一种垃圾信息检测方法和装置。

背景技术

当前，在互联网的电子公告栏系统(BBS，Bulletin Board System)以及博客(blog)等允许用户书写信息的产品中，往往会遇到用户为了获取产品积分、获取经济利益或因为其它原因，比如仅仅为了发泄，而发表的毫无意义的帖子或回复。这些帖子或回复往往是由字符画或是对一个字或一句话重复拷贝多次的信息组成。由于这些信息本身没有实际意义，所以对于浏览BBS或blog的用户来说，这些信息都是垃圾信息。其中，字符画是指由很多小的中英文或特殊美国信息交换标准码(ASCII，American Standard Code for InformationInterchange)字符组成的、外观看起来像一幅大的文字或图案的文本字符串，如图1所示，图1为现有技术中的三个字符画示意图。

当这些垃圾信息充斥在BBS或blog中时，不仅会大量占用服务器的存储空间，而且，也会影响BBS或blog的内容质量，因此需要将这些垃圾信息及时清除。但是，这些垃圾信息不但符合BBS或blog中对于用户发言时在字数上的限制规则，比如10个，而且又没有类似广告信息的明显特征，比如广告信息中经常出现的联系方式、网址或产品名称等。而且这些垃圾信息的发布往往有着广泛的用户参与基础，无法通过单独处理一个或几个用户来解决问题。

现有技术中，为解决上述问题，往往采用人工处理方式，即通过人工，比如BBS管理人员来清除这些垃圾信息，但这种处理方式效率低下，无法满足处理海量的垃圾信息的需求。另外，现有技术中也可以通过关键字搜索命中方式来判断并清除垃圾信息。这种处理方式中，预先提取一些经常在垃圾信息中出现的字符串作为关键词，然后在所有信息中搜索能够匹配该关键词的信息，如果能够匹配，则判定为垃圾信息。

这种处理方式虽然能够在一定程度上实现垃圾信息的清除，但在实际应用中也存在很多问题，比如：

1、关键词不仅会在垃圾信息中出现，在非垃圾信息中也可能出现，特别是当关键词比较短或比较常见时，在非垃圾信息中出现的概率会很大，这样就会造成严重的误判。

2、关键词搜索命中方式为机械匹配，如果对垃圾信息中的某个关键词稍微作一下改变，就无法再将该垃圾信息正确判断出来。

3、垃圾信息多种多样，如果要采用关键词搜索命中方式进行垃圾信息清除，则需要很大的关键词库，并需要将关键词库中的每个关键词和垃圾信息进行一次匹配，处理效率低下。

4、组成字符画的字符可以是任意字符，随便改变其中的字符，就不能再通过关键词搜索命中方式将垃圾信息正确判断出来。

发明内容

本发明实施例提供一种垃圾信息检测方法，能够准确高效地检测出垃圾信息。

本发明实施例同时提供一种垃圾信息检测装置，能够准确高效地检测出垃圾信息。

本发明实施例的技术方案是这样实现的：

一种垃圾信息检测方法，该方法包括：

将待检测原始信息的语句切分成词；

统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；

根据所述统计出的每类词所占频率以及不同词所占频率计算总权值；

比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息；

自动清除所述待检测原始信息；或者，将所述待检测原始信息显示给用户，由用户确定是否清除所述待检测原始信息。

一种垃圾信息检测装置，该装置包括：词分析单元、词统计单元以及规则应用单元；

所述词分析单元，用于将待检测原始信息的语句切分为词；

所述词统计单元，用于统计不同词所占频率，并对所述切分后的词进行分类，统计每类词所占频率；

所述规则应用单元，用于根据所述统计出的每类词所占频率以及不同词所占频率计算总权值，比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息；

该装置中进一步包括：清除单元或显示单元；

所述清除单元，用于将所述规则应用单元中确定为垃圾信息的待检测原始信息清除；

所述显示单元，用于将所述规则应用单元中确定为垃圾信息的待检测原始信息显示给用户，由所述用户确定是否清除所述待检测原始信息。

可见，采用本发明实施例的技术方案，将待检测原始信息的语句切分成词；统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率；根据统计出的每类词所占频率以及不同词所占频率计算总权值；比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。与现有技术相比，本发明实施例所述方案中，针对不同的待检测原始信息，分别进行有针对性的统计、计算及分析，不仅降低了误判率，提高了效率，而且即使用户对发布的垃圾信息内容进行一定地修改，由于对统计结果不会造成实质影响，所以应用本发明实施例所述方案仍然能够准确地检测出来。

附图说明

图1(a)为现有技术中的一个字符画示意图。

图1(b)为现有技术中的另一个字符画示意图。

图1(c)为现有技术中的再一个字符画示意图。

图2为本发明垃圾信息检测方法实施例的流程图。

图3为本发明垃圾信息检测装置实施例的流程图。

具体实施方式

为解决现有技术中存在的问题，本发明实施例中提出一种新的垃圾信息检测方法，即：将待检测原始信息的语句切分成词；统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率；根据统计出的每类词所占频率以及不同词所占频率计算总权值；比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明作进一步地详细说明。在介绍本发明的具体实施例之前，首先介绍几个后续将会涉及到的概念。

自然语言处理技术：自然语言是人类智慧的结晶，是人工智能中最为困难的问题之一，主要是指由计算机来处理自然语言的词汇、句法、语义和语用等各方面的问题。换句话说，自然语言处理技术就是要研究如何能够让计算机理解并生成人们日常所使用的语言，建立一种人与计算机之间的密切而友好的关系。

分词技术：在用计算机进行自然语言处理中，分词是一个基本的组件，是指将一段话按照某种词分隔规则分成一个个的词，并且分成的词在此规则下不可再细分。这里所提到的词，是指在某种词分隔规则下不可再分割的字符单元，即最小语言单元，包括中文、英文、数字以及特殊ASCII字符等；这里所提到的特殊ASCII字符是指除中英文及数字以外的一些特殊符号；汉语的成语或单字都有可能成为词，具体情况取决于所使用的词分隔规则。词分隔规则，顾名思义，是指一种把语句切分为最小语言单元的规则。

现有分词技术主要包括：机械分词和语义分词。其中，机械分词是指将单个字符或相邻两个字符等作为一个词的分词方式；而语义分词是指在分词时考虑语义，即，将在语义层面上为一个单位的字符串作为一个词，如“中华人民共和国”、“太阳”等字符串在中文语义中都是一个词，虽然它们具有不同的字符长度。

图2为本发明垃圾信息检测方法实施例的流程图。本发明实施例所述方法可应用于实时检测中，即在使用BBS或blog的用户发布信息的同时，即检测该信息是否为垃圾信息，如果是，则禁止该信息的发布；或者，也可以应用于系统周期性或按需要在某些时刻对BBS或blog等上发布的信息进行清除时。如图2所示，包括以下步骤：

步骤201：将待检测原始信息的语句切分成词。

本步骤中，可按照现有分词技术，即机械分词或语义分词方式，将待检测的原始信息切分成词。假设本实施例中采用机械分词方式，而且一个字符对应一个词；对于中文来说，一个字对应一个词。由于机械分词方式为现有技术，所以此处不再赘述。

步骤202：统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率。

本步骤中，首先对切分得到的词进行统计，统计不同词在待检测原始信息中出现的次数，根据次数计算出不同词所占的频率，即不同词出现次数占切分得到的所有词个数的百分比。

之后，将切分得到的所有词进行分类。可采用的分类方式不限。比如，可以分为中文和非中文两类，或者，还可以采用其它更细一些的分类方式。假设本实施例中将切分得到的所有词具体分为四类，分别为中文、英文、数字以及特殊ASCII字符。其中，特殊ASCII字符通常是指标点符号、以及图1(a)和(b)中所示的小黑块以及一些特殊符号等。

分类完成后，统计不同类词中所包含的词的个数，并据此进一步求出不同类词所占的频率，即求取不同类词中所包含的词数占切分得到的所有词数的百分比。

步骤203：根据统计出的每类词所占频率以及不同词所占频率计算总权值。

本步骤中，可根据统计出的每类词所占频率以及不同词所占频率计算得到总权值。具体实现方式可以是：将不同类词中指定的一类或一类以上词所占频率进行加权相加(即，将不同类词所占频率分别乘以预先设置的权值/系数，并将相乘结果相加)，得到分类权值；对统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，N值为预先设定；将N个词所占频率进行加权相加，得到词的权值；将分类权值和词的权值进行加权相加，得到总权值。

依据步骤202的介绍可知，本发明实施例中，将切分后的词分为中文、英文、数字以及特殊ASCII字符四类。而依据经验可知，中文和英文为用户发布正常信息时使用得比较多的词，在发布垃圾信息时，使用得较多的是数字以及特殊ASCII字符。所以，本步骤中在将不同类词中指定的一类或一类以上词所占频率进行加权相加时，可以只将数字以及特殊ASCII字符类词所占频率进行加权相加，而不考虑中文和英文两类词。其中，在进行加权相加时，数字以及特殊ASCII字符类词所占频率分别对应的权值可根据实际需要设置。但是，考虑到垃圾信息中通常会包含比较多的特殊ASCII字符类信息，所以可以将特殊ASCII字符类词所占频率对应的权值设置得较大。

计算出分类权值以后，进一步地，还需要计算词的权值，即对统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，将N个词所占频率进行加权相加。假设本实施例N的取值为3。在进行加权相加时，三个词所占频率分别对应的权值大小可根据实际需要设置，只要遵循将最大频率对应的权值设置为最大，次大频率对应的权值设置为次大，最小频率对应的权值设置为最小的规则即可。

之后，将上述过程中计算得到的分类权值以及词的权值进行加权相加，得到总权值。其中，在加权相加过程中，分类权值以及词的权值分别对应的权值大小可根据实际需要设置。比如，如果待检测的原始信息中有很多类似图1(b)所示形式，即存在很多不同类型的词，则可以将分类权值对应的权值设置得大一些，而词的权值对应的权值设置得小一些；反之，如果待检测的原始信息中有很多类似图1(c)所示形式，即某一个词所占频率较高，如图1(c)中所示的“顶”，则可以将词的权值对应的权值设置得大一些，而分类权值对应的权值设置得小一些。

计算得到总权值之后，即可执行后续的步骤204，即比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。但是，在实际应用中，按照上述方式进行判断时可能会存在误判，比如某一用户发布的正常信息中也可能会携带有较多的数字或特殊ASCII字符，或者某些词所占频率较大，这样，在采用本发明实施例所述方案进行是否为垃圾信息的判断时，有可能会将这类正常信息误判为垃圾信息。

为了进一步克服这一问题，本发明实施例中在执行步骤204之前，还需要对计算得到的总权值进行进一步地处理：预先设置一个阀值，为便于与后续出现的另一阀值造成混淆，本实施例中将其称为第二阀值；比较数字和特殊ASCII字符所占频率中的较大的那个频率值是否大于预先设置的第二阈值，如果是，则在所述总权值的基础加上一个预先设置的值；否则，维持原有总权值不变；同时，比较对不同词所占频率进行排序后，排在第一位的词所占频率是否大于预先设置的第二阈值，如果是，则在总权值的基础加上一个预先设置的值；否则，维持原有总权值不变。如果上述两次比较结果均为大于预先设置的第二阈值，那么，则需要在原总权值的基础上加上两个值，这两个值可以相等，也可以不相等。上述第二阈值的具体取值可根据实际需要设置，通常将其设置较大，比如，如果用百分比来表示，该值可设置在50％以上。由于通常情况下，即使用户发布的正常信息中携带有较多的数字或特殊ASCII字符，或携带的某个词所占的频率较大，但也不会大到超过50％。所以，一旦超过了50％，则可以认为是垃圾信息。通过这种方式减少了误判情况的发生。

步骤204：比较计算出的总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。

本步骤中，比较计算出的总权值是否大于预先设定的一个阀值，为便于和上述第二阀值进行区分，将本步骤中的阀值称为第一阀值。

本步骤中所提到的总权值是指步骤203中进行了进一步处理后的总权值。其中第一阀值的取值可根据实际需要设置。

需要说明的是，本实施例中所出现的各次加权相加中所用到的权值以及设置的各个阀值的具体取值，均可根据实际需要设置。比如，可以在不同的权值或阀值条件下进行多次不同的实验，比较将这些权值或阀值具体设置为何值时，采用本发明实施例所述方案进行垃圾信息检测时的检测正确率最高，将检测正确率最高的那次实验所对应的数据固定为后续按照本发明所述方案进行垃圾信息检测时的权值和阀值。

确定出待检测原始信息为垃圾信息后，后续过程中，系统可以自动清除所述待检测原始信息；或者，将所述待检测原始信息显示给用户，由用户确定是否清除该待检测原始信息。这里所提到的用户是指BBS或blog管理人员。

基于上述方法，图3为本发明垃圾信息检测装置实施例的组成结构示意图。如图3所示，该装置包括：词分析单元301、词统计单元302以及规则应用单元303；

词分析单元301，用于将待检测原始信息的语句切分成词；

词统计单元302，用于统计不同词所占频率，并对切分后的词进行分类，统计每类词所占频率；

规则应用单元303，用于根据统计出的每类词所占频率以及不同词所占频率计算总权值，比较所述总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。

其中，词统计单元302中进一步包括：第一统计子单元3021以及第二统计子单元3022；

第一统计子单元3021，用于统计不同词所占频率；

第二统计子单元3022，用于将不同词分为中文、英文、数字以及特殊ASCII字符四类，并统计每类词所占频率。

规则应用单元303中进一步包括：计算子单元3031以及确定子单元3032；

计算子单元3031，用于将不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；对统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，将这N个词所占频率进行加权相加，得到词的权值；将分类权值和词的权值进行加权相加，得到总权值；其中，N值为预先设定；一类或一类以上词可以是指：数字以及特殊ASCII字符类词；N的取值可以为3。

确定子单元3032，用于比较所述总权值是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。

此外，规则应用单元303中还可进一步包括：

比较子单元3033，用于比较一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在计算子单元3031计算出的总权值的基础加上一个预先设置的值；同时比较排序后，排在第一位的词所占频率是否大于预先设置的第二阈值，如果是，则在计算子单元3031计算出的总权值的基础加上一个预先设置的值，并将相加后的结果发送给确定子单元3032；

确定子单元3032比较相加后的结果是否大于预先设定的第一阀值，如果是，则确定待检测原始信息为垃圾信息。

除上述词分析单元301、词统计单元302以及规则应用单元303之外，本发明的垃圾信息检测装置中还可进一步包括：清除单元304和/或显示单元305；

清除单元304，用于将规则应用单元303中确定为垃圾信息的待检测原始信息清除；

显示单元305，用于将规则应用单元303中确定为垃圾信息的待检测原始信息显示给用户，由用户确定是否清除待检测原始信息。

图3所示装置实施例的具体工作流程请参照方法实施例中的说明，此处不再赘述。

可见，采用本发明实施例的技术方案，能够准确地检测出垃圾信息，尤其是字符画或是一个字、一句话重复拷贝多次的垃圾信息，降低了误判率；而且，能够适应自动或半自动处理，即自动清除垃圾信息或显示给用户，由用户确定是否清除的处理方式，解决了现有技术中人力处理效率低下的问题。再有，本发明实施例所述方案的具体实现方式非常灵活，并不限于上述实施例所述方式。比如，词分析单元可以采用不同的分词方式，如，对于中文可以采用二元切分或语义分词等。词统计单元中对切分后的词进行分类的方式也可以按需要设置为其它方式，如分为中文和非中文两类等。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垃圾信息检测方法，其特征在于，该方法包括：

将待检测原始信息的语句切分成词；

2.根据权利要求1所述的方法，其特征在于，所述将待检测原始信息的语句切分成词包括：

采用机械分词方式，将所述待检测原始信息的语句切分成词，一个字符或字对应一个词。

3.根据权利要求1所述的方法，其特征在于，所述根据统计出的每类词所占频率以及不同词所占频率计算总权值包括：

将不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；

将所述统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，所述N值为预先设定；将所述N个词所占频率进行加权相加，得到词的权值；

将所述分类权值和词的权值进行加权相加，得到总权值。

4.根据权利要求3所述的方法，其特征在于，所述对切分后的词进行分类包括：将所述切分后的词分为中文、英文、数字以及特殊美国信息交换标准码字符四类；

所述将不同类词中的一类或一类以上词所占频率进行加权相加包括：将所述数字以及特殊美国信息交换标准码字符类词所占频率进行加权相加。

5.根据权利要求4所述的方法，其特征在于，所述将所述数字以及特殊美国信息交换标准码字符类词所占频率进行加权相加包括：

将与所述特殊美国信息交换标准码字符类词所占频率对应的权值设置较大。

6.根据权利要求3所述的方法，其特征在于，所述从中选取出排在前N位的N个词所占频率包括：从中选取出排在前3位的3个词所占频率。

7.根据权利要求3～6中任一项所述的方法，其特征在于，所述得到总权值之后，进一步包括：

比较所述一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在所述总权值的基础加上一个预先设置的值；否则，维持原有总权值不变；

同时，比较所述排序后，排在第一位的词所占频率是否大于所述预先设置的第二阈值，如果是，则在所述总权值的基础加上一个预先设置的值；否则，维持原有总权值不变。

8.一种垃圾信息检测装置，其特征在于，该装置包括：词分析单元、词统计单元以及规则应用单元；

所述词分析单元，用于将待检测原始信息的语句切分为词；

该装置中进一步包括：清除单元或显示单元；

9.根据权利要求8所述的装置，其特征在于，所述词统计单元中进一步包括：第一统计子单元以及第二统计子单元；

所述第一统计子单元，用于统计不同词所占频率；

所述第二统计子单元，用于将所述不同词分为中文、英文、数字以及特殊美国信息交换标准码字符四类，并统计每类词所占频率。

10.根据权利要求9所述的装置，其特征在于，所述规则应用单元中进一步包括：计算子单元以及确定子单元；

所述计算子单元，用于将不同类词中的一类或一类以上词所占频率进行加权相加，得到分类权值；对所述统计出的不同词所占频率按照由大到小的顺序进行排序，从中选取出排在前N位的N个词所占频率，将所述N个词所占频率进行加权相加，得到词的权值；将所述分类权值和词的权值进行加权相加，得到总权值；其中，所述N值为预先设定；

所述确定子单元，用于比较所述总权值是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。

11.根据权利要求10所述的装置，其特征在于，所述一类或一类以上词为：数字以及特殊美国信息交换标准码字符类词；所述N的取值为3。

12.根据权利要求10或11所述的装置，其特征在于，所述规则应用单元中进一步包括：

比较子单元，用于比较所述一类或一类以上词所占频率中的最大频率是否大于预先设置的第二阈值，如果是，则在所述计算子单元计算出的总权值的基础加上一个预先设置的值；同时比较所述排序后，排在第一位的词所占频率是否大于所述预先设置的第二阈值，如果是，则在所述计算子单元计算出的总权值的基础加上一个预先设置的值，并将相加后的结果发送给所述确定子单元；

所述确定子单元比较所述相加后的结果是否大于预先设定的第一阀值，如果是，则确定所述待检测原始信息为垃圾信息。