CN101360074B

CN101360074B - 一种确定可疑垃圾邮件范围的方法和系统

Info

Publication number: CN101360074B
Application number: CN2008101671154A
Authority: CN
Inventors: 王晖; 陈志强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2008-09-27
Filing date: 2008-09-27
Publication date: 2011-09-21
Anticipated expiration: 2028-09-27
Also published as: WO2010037292A1; CN101360074A

Abstract

本发明实施例公开了一种确定可疑垃圾邮件范围的方法和系统。该方法包括：从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征；统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征；将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件。应用本发明可以预先确定可疑垃圾邮件的范围，从而提高判断邮件是否为垃圾邮件的效率。

Description

一种确定可疑垃圾邮件范围的方法和系统

技术领域

本发明涉及电子邮件技术领域，尤其涉及一种确定可疑垃圾邮件范围的方法和系统。

背景技术

电子邮件已经成为人们沟通交流的重要通讯工具，随之而来，如何防止垃圾邮件对广大电子邮件用户的干扰成为了电子邮件技术领域一个亟待解决的问题。

目前，为了最大限度地防止垃圾邮件对电子邮件用户的干扰，出现了一种采用全文搜索的方式过滤垃圾邮件的方法，下面参照图1对该方法进行介绍。

图1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图，如图1所示，该方法包括：

步骤101，搜索当前电子邮件的主题和全部正文，以固定的信息长度从邮件全文中截取样本，作为该邮件的指纹信息，代表原始邮件。

步骤102，判断存储的邮件中是否有与该当前电子邮件的内容相似的电子邮件，如果是，执行步骤103，否则，返回步骤101。

步骤103，判断与该当前电子邮件的内容相似的电子邮件数目是否已达到预定义的垃圾阈值，若是，执行步骤104，否则返回步骤101。

步骤104，将该当前邮件以及与该当前邮件内容相似的电子邮件标注为垃圾邮件，结束本流程。

可见，图1所示的方法以每一封电子邮件的主题和全部正文为搜索对象，判断存储的电子邮件中是否有与该当前电子邮件的内容相似的电子邮件，然后根据内容相似的电子邮件数目来过滤垃圾邮件。这种方法需要对每一封邮件都进行全文搜索处理，数据处理量庞大，判断邮件是否为垃圾邮件的效率较低。

发明内容

有鉴于此，本发明的目的在于提供一种确定可疑垃圾邮件范围的方法和系统，以预先确定可疑垃圾邮件的范围，从而提高判断邮件是否为垃圾邮件的效率。

为达到上述目的，本发明的技术方案具体是这样实现的：

一种确定可疑垃圾邮件范围的方法，该方法包括：

从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征；

统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征；

将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件；

其中，所述从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征包括：

在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，并在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征。

一种确定可疑垃圾邮件范围的系统，该系统包括待确定可疑垃圾邮件特征截取装置、统计装置和可疑垃圾邮件确定装置；

所述待确定可疑垃圾邮件特征截取装置，用于从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，将截取到的待确定可疑垃圾邮件特征发给统计装置；

其中，所述从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征包括：在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，并在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征；

所述统计装置，用于接收待确定可疑垃圾邮件特征，统计接收的每个待确定可疑垃圾邮件特征在接收的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给所述可疑垃圾邮件确定装置；

所述可疑垃圾邮件确定装置，用于将接收的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件。

可见，由于本发明中，通过从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件，可以在判断邮件是否是垃圾邮件之前，预先确定出可疑垃圾邮件的范围，后续只需判断可疑垃圾邮件是否为垃圾邮件即可，而不必对每一封邮件均进行判断，提高了判断邮件是否为垃圾邮件的效率。

附图说明

图1是现有技术中采用全文搜索方式过滤垃圾邮件的方法流程图；

图2是本发明实施例中确定可疑垃圾邮件范围的方法流程图；

图3是确定可疑垃圾邮件范围的系统的第一实施例结构图；

图4是确定可疑垃圾邮件范围的系统的第二实施例结构图；

图5是确定可疑垃圾邮件范围的系统的第三实施例结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

图2是本发明实施例中确定可疑垃圾邮件范围的方法流程图，如图2所示，该方法包括：

步骤201，从每个已接收的电子邮件中截取待确定可疑垃圾邮件特征。

本步骤中，在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征。所述的全部正文不包含主题。这里的待确定可疑垃圾邮件特征实际上就是从邮件中截取的字符串。

所述全部正文的固定位置是指正文的某一部分，例如可以是正文的起始处，也可以是正文的其他部分，例如，可以是正文的中部或者尾部。

例如，如果第一封电子邮件的主题有10个字符，全部正文有100个字符，所述固定位置是指所述全部正文的起始处，第二封电子邮件的主题有12个字符，全部正文有18个字符，而所述第一预定数目为60个，那么，从第一封邮件中截取的待确定可疑垃圾邮件特征就是第一封电子邮件的主题的10个字符和从第一封电子邮件的正文起始处开始的50个字符顺次组成的字符串，从第二封电子邮件中截取的待确定可疑垃圾邮件特征就是所述第二封电子邮件的全部字符顺次组成的字符串。

由于本步骤中，对于字符数大于第一预定数目的电子邮件，只对所述电子邮件的主题和部分正文进行处理，而非对所述电子邮件的全部正文进行处理，因此，需要处理的信息量较小，可以提高对每封电子邮件进行处理的速度。

另外，通常垃圾邮件中的大量垃圾信息都出现在邮件的主题和正文的起始处，例如出现在电子邮件的首段，因此，当所述固定位置是正文的起始处时，还可以在减小需要处理的信息量的同时，避免对垃圾信息的漏检。当然，如果邮件中的大量垃圾信息出现的位置靠后，例如出现在邮件的中部或者尾部，那么也可以在该中部或者尾部截取待确定可疑垃圾邮件特征，从而避免对垃圾信息的漏检。其中，邮件的垃圾信息通常出现在邮件的哪些位置上可以由设计用于判断邮件是否是可疑垃圾邮件的程序的本领域技术人员依据统计信息而定，然后在按照图2所示方法设计确定可疑垃圾邮件范围的程序或者装置时，将所述固定位置具体设置为邮件的起始处、中部或者尾部，则后续所述程序或装置在确定可疑垃圾邮件范围时，只需对电子邮件的主题和该固定位置处的正文进行处理即可，而无需搜索电子邮件的全文，对该全文进行处理。通过统计已经判断出的垃圾邮件中的垃圾信息出现在邮件各个位置的概率，可以得到所述统计信息。

步骤202，统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数。

本步骤中，统计所述重复次数的方法可以为：

方法一，统计每个待确定可疑垃圾邮件特征在与该待确定可疑垃圾邮件特征长度相同的所有待确定可疑垃圾邮件特征中的重复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数

方法二，统计每个待确定可疑垃圾邮件特征在长度大于或者等于该待确定可疑垃圾邮件特征长度的所有待确定可疑垃圾邮件特征中的重复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数。具体地，可以搜索长度大于或者等于被统计的待确定可疑垃圾邮件特征长度的待确定可疑垃圾邮件特征的各个字符中，是否按照被统计的待确定可疑垃圾邮件特征中各个字符的出现顺序，出现了被统计的待确定可疑垃圾邮件特征的各个字符，若是，则将重复次数加1。

例如，当前截取的待确定可疑垃圾邮件特征有“123456”、“12345”、“12345”“13589”和“1～2～3～4～5”，按照方法一，待确定可疑垃圾邮件特征“12345”的重复次数为2，按照方法二，待确定可疑垃圾邮件特征“12345”的重复次数为4。

当按照方法二统计所述重复次数时，可以去除垃圾邮件中干扰字的干扰，例如，去除字符“～”的干扰，避免由于干扰字造成的漏检可疑垃圾邮件。

步骤203，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征。其中，第二预定数目是预先设定的自然数。

本步骤中，可以按照重复次数对各个字符串进行排序，例如，可以按照重复次数对字符串进行降序排列或升序排列，然后将排在最前面第二预定数目位或最后面第二预定数目位的字符串确定为可疑垃圾邮件的特征。

例如，按照字符串的重复次数从高到低的顺序对字符串进行排序(即降序排列)，并列出出现相应字符串的邮件列表，以供后续确定可疑垃圾邮件使用，具体请见表一，表一中的EML表示邮件。

字符串	重复次数	词出现在的邮件列表
			A、B	20000	EML1，EML2，EML3，...
C	10000	EML3，EML5，EML6，...
			D	1000	…

表一

如果所述第二预定数目的取值为2，那么，字符串A、字符串B和字符串C就是可疑垃圾邮件的特征。第二预定数目的具体取值也是在设计相应的确定可疑垃圾邮件范围的程序时确定的。其中的“A”、“B”和“C”是字符串的代号，并非真正的字符串，例如，字符串A可以代表字符串“12345”，字符串B可以代表字符串“6789”。

步骤204，将具有所述特征的邮件作为可疑垃圾邮件，结束本流程。

当所述第二预定数目的取值为2时，按照表一，出现了字符串A或字符串B或字符串C的邮件被确定为可疑垃圾邮件。

确定出可疑垃圾邮件的范围后，可以将确定出的可疑垃圾邮件范围交给反垃圾系统，则后续可以只判断可疑垃圾邮件是否是垃圾邮件，而无需判断接收的每一封邮件是否是垃圾邮件。其中，可以通过人工或者人工智能(AI)来判断可疑垃圾邮件是否为垃圾邮件。实际应用中，可以在收到电子邮件后立即按照图2的方法判断该邮件是否是可疑垃圾邮件，也可以先存储收到的电子邮件，然后定时或定量判断当前存储的电子邮件是否是可疑垃圾邮件。

图2中的第一预定数目的具体取值是由本领域的技术人员预先选定的，下面对所述第一预定数目的具体数值的选择方法进行介绍。

本领域的技术人员首先预设一个阈值范围，并为所述第一预定数目选择一个具体的取值，所述阈值范围的含义是：如果字符串的重复次数在该阈值范围内，则该字符串是可疑垃圾邮件的特征，否则，该字符串不是可疑垃圾邮件的特征。本领域技术人员可以依据经验来确定该阈值范围，例如，如果通过一段时间的人工统计，发现垃圾电子邮件占所有电子邮件的比例在10％～50％之间，那么当对10000封邮件圈定可疑垃圾邮件范围时，所述阈值范围可以确定为(1000，5000)。

假设所述阈值范围是(1000，5000)，第一预定数目取值是5，按照图2所示的方法统计出的某一字符串的重复次数大于等于5000，则说明第一预定数目的取值设得过小，该重复次数大于等于5000的字符串不仅可能出现在垃圾邮件中，还可能大量地出现在非垃圾邮件中，此后，设计人员增大第一预定数目的取值，例如，取为7，再次按照图2所示的方法统计每一字符串的重复次数，如果本次统计出的该重复次数在(1000，5000)之间，则说明第一预定数目的取值是合理的，因此，可以将第一预定数目取为7。

图2中，确定出可疑垃圾邮件的特征后，可以将可疑垃圾邮件的特征存入特征库，日后将具有该特征库中的特征的电子邮件判断为可疑垃圾邮件，之后只需判断可疑垃圾邮件是否为垃圾邮件即可。其中，特征库可以采用表一的形式，即存储有可疑垃圾邮件的特征、每个特征在邮件中出现的重复次数以及出现该特征的邮件列表，也可以采用其他的形式，例如只存储有特征和所述重复次数。

所述的特征库占用的存储空间小，因此，在利用该特征库确定可疑垃圾邮件范围时，可以减小反垃圾邮件系统占用的存储空间，这是因为，如果按照现有技术对邮件的全文进行垃圾邮件处理，则需要存储所有需要处理的邮件的全文，存储空间占用较大。

下面给出确定可疑垃圾邮件范围的系统的实施例。

图3是确定可疑垃圾邮件范围的系统的第一实施例结构图，如图3所示，该系统包括待确定可疑垃圾邮件特征截取装置301、统计装置302和可疑垃圾邮件确定装置303。

待确定可疑垃圾邮件特征截取装置301，用于从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，将截取到的待确定可疑垃圾邮件特征发给统计装置302。

统计装置302，用于接收待确定可疑垃圾邮件特征，统计接收的每个待确定可疑垃圾邮件特征在接收的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征发给可疑垃圾邮件确定装置303。

可疑垃圾邮件确定装置303，用于将接收的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件。

待确定可疑垃圾邮件特征截取装置301，还可以用于在电子邮件的主题与全部正文的字符数总和大于第一预定数目时，从电子邮件的主题和全部正文的固定位置处截取所述第一预定数目的字符作为待确定可疑垃圾邮件特征，并在邮件的主题与全部正文的字符数总和少于所述第一预定数目时，截取所述邮件的主题和全部正文作为待确定可疑垃圾邮件特征，将截取到的待确定可疑垃圾邮件特征发给统计装置302。

图4是确定可疑垃圾邮件范围的系统的第二实施例结构图，图4所示的系统与图3所示的系统的区别仅在于：

可疑垃圾邮件确定装置303包括特征库3031和可疑垃圾邮件确定模块3032。

特征库3031，用于将接收的待确定可疑垃圾邮件特征作为可疑垃圾邮件特征进行存储。

可疑垃圾邮件确定模块3032，用于接收电子邮件，判断接收的电子邮件是否具有特征库3031中的特征，将具有所述特征的电子邮件确定为可疑垃圾邮件。

图5是确定可疑垃圾邮件范围的系统的第三实施例结构图，图5所示的系统与图3或图4所示的系统的区别仅在于：图5所示的系统进一步包括垃圾邮件确定装置504。

垃圾邮件确定装置504，用于判断可疑垃圾邮件确定装置303确定出的可疑垃圾邮件是否是垃圾邮件。具体地，垃圾邮件确定装置可以采用人工智能(AI)、贝叶斯类、神经网络类或支持向量机等方式来判断可疑垃圾邮件是否是垃圾邮件。

可见，由于本发明实施例中，通过从每个已接收的电子邮件中截取第一预定数目个字符作为待确定可疑垃圾邮件特征，统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数，将按照重复次数由多到少排在前第二预定数目位的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述特征的邮件作为可疑垃圾邮件，可以在判断邮件是否是可疑垃圾邮件之前，预先确定出可疑垃圾邮件的范围，后续只需判断可疑垃圾邮件是否为垃圾邮件即可，而不必对每一封邮件均进行判断，提高了判断邮件是否为垃圾邮件的效率。

而且，在确定可疑垃圾邮件的范围时，只对电子邮件的主题和固定位置处的正文进行处理，无须对电子邮件的全文都进行处理，减少了需要处理的信息量，提高了判断邮件是否为垃圾邮件的效率。

另外，由于特征库占用的存储空间较小，与现有技术中判断邮件是否是垃圾邮件时需要保存邮件的全文信息相比，能够节省存储空间。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定可疑垃圾邮件范围的方法，其特征在于，该方法包括：

将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件；

2.如权利要求1所述的方法，其特征在于，所述统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数包括：

统计每个待确定可疑垃圾邮件特征在与该待确定可疑垃圾邮件特征长度相同的所有待确定可疑垃圾邮件特征中的重复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数。

3.如权利要求1所述的方法，其特征在于，所述统计截取到的每个待确定可疑垃圾邮件特征在截取到的所有待确定可疑垃圾邮件特征中的重复次数包括：

统计每个待确定可疑垃圾邮件特征在长度大于或者等于该待确定可疑垃圾邮件特征长度的所有待确定可疑垃圾邮件特征中的重复次数，将该重复次数作为该待确定可疑垃圾邮件特征在所述截取到的所有待确定可疑垃圾邮件特征中的重复次数。

4.如权利要求3所述的方法，其特征在于，统计每个待确定可疑垃圾邮件特征在长度大于或者等于该待确定可疑垃圾邮件特征长度的所有待确定可疑垃圾邮件特征中的重复次数包括：

搜索长度大于或者等于被统计的待确定可疑垃圾邮件特征长度的待确定可疑垃圾邮件特征的各个字符中，是否按照被统计的待确定可疑垃圾邮件特征中各个字符的出现顺序，出现了被统计的待确定可疑垃圾邮件特征的各个字符，若是，则将重复次数加1。

5.如权利要求1所述的方法，其特征在于，

该方法进一步包括：将被确定为可疑垃圾邮件特征的待确定可疑垃圾邮件特征存储在可疑垃圾邮件特征库中；

所述将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件为：

将具有所述特征库中的特征的可疑垃圾邮件待确定对象确定为可疑垃圾邮件。

6.如权利要求1或5所述的方法，其特征在于，该方法进一步包括：

判断可疑垃圾邮件是否为垃圾邮件。

7.如权利要求1所述的方法，其特征在于，所述全部正文的固定位置为所述全部正文的起始处或中部或尾部。

8.一种确定可疑垃圾邮件范围的系统，其特征在于，该系统包括待确定可疑垃圾邮件特征截取装置、统计装置和可疑垃圾邮件确定装置；

所述可疑垃圾邮件确定装置，用于将接收的待确定可疑垃圾邮件特征确定为可疑垃圾邮件的特征，将具有所述可疑垃圾邮件的特征的邮件作为可疑垃圾邮件。

9.如权利要求8所述的系统，其特征在于，所述可疑垃圾邮件确定装置包括特征库和可疑垃圾邮件确定模块；

所述特征库，用于将接收的待确定可疑垃圾邮件特征作为可疑垃圾邮件特征进行存储；

所述可疑垃圾邮件确定模块，用于接收电子邮件，判断接收的电子邮件是否具有所述特征库中的特征，将具有所述可疑垃圾邮件的特征的电子邮件确定为可疑垃圾邮件。

10.如权利要求8或9所述的系统，其特征在于，该系统进一步包括垃圾邮件确定装置；

所述垃圾邮件确定装置，用于判断所述可疑垃圾邮件确定装置确定出的可疑垃圾邮件是否是垃圾邮件。