CN109547319A

CN109547319A - 一种消息处理方法及装置

Info

Publication number: CN109547319A
Application number: CN201710864054.6A
Authority: CN
Inventors: 费硕成; 王浩
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2019-03-29

Abstract

本发明涉及消息处理技术领域，特别涉及一种消息处理方法及装置。该方法为：从获取的待处理消息中提取消息内容；根据待处理消息的消息内容，计算待处理消息的消息指纹值；根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出每一待处理消息分别对应的相似消息的数量；根据每一待处理消息分别对应的相似消息的数量，分别判断每一待处理消息是否为合规消息。采用上述方法，通过计算一个统计周期内获取到的每一待处理消息的消息指纹值，并统计每一待处理消息的相似消息的数量，以及根据每一待处理消息的相似消息的数量，对待处理消息进行违规鉴别处理，提高了对违规消息的鉴别范围，拓宽了违规消息的鉴别维度。

Description

一种消息处理方法及装置

技术领域

本发明涉及消息处理技术领域，特别涉及一种消息处理方法及装置。

背景技术

随着互联网的发展，智能终端的普及，及短消息技术的发展，在人们的日常学习、工作和生活中，短消息的使用越来越广泛，也给人们的生活带来了极大的便利，同时，短消息的形式也越来越多样化，相应的，短消息的内容也越来越多样化，如，正常消息和消息内容中包含有用于欺诈、骚扰、广告或禁止传播的垃圾消息。

目前，基于内容的反垃圾消息的产品在技术领域上可分为：垃圾消息发现，垃圾消息识别和垃圾消息处理三大类别。其中，垃圾消息发现是其中最重要的一个环节，垃圾消息发现的广度和精确度直接影响反垃圾消息产品的工作效率。

现有技术中，在垃圾消息发现工作中广泛使用的技术手段是消息指纹判断技术，即当一条消息被判定为垃圾消息时，针对该垃圾消息，通过摘要算法生成一条16进制的32位MD5值，即消息指纹，该MD5值与该垃圾消息相对应。反垃圾消息系统将该MD5值存储在违规消息指纹库中，当检测到业务平台中存在与违规指纹库中任一违规消息指纹相同的消息指纹的消息在传播时，直接判定该消息为垃圾消息，并迅速进行拦截，以防止扩散。

然而，由于摘要指纹算法有非常强的抗修改性，即只要对原数据进行任何改动，即便只有1个字节的改动，通过摘要算法得到的修改后的数据对应的MD5值与原数据对应的MD5值之间存在很大的区别，那么，只要垃圾消息发生任何修改，通过比较MD5值的方式就不能识别出该垃圾消息，使得垃圾消息识别准确率不高。

有鉴于此，需要设计一种新的消息处理方法及装置，以弥补现有技术中存在的缺陷和不足之处。

发明内容

本发明实施例的目的是提供一种消息处理方法及装置，用以解决现有技术中存在的垃圾消息识别准确率不高的问题。

本发明实施例中提供的具体技术方案如下：

一种消息处理方法，包括：

从获取的待处理消息中提取消息内容；

根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；

根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；

根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

较佳的，在从获取的待处理消息中提取消息内容之前，进一步包括：

判断所述待处理消息中是否包含有电话号码和/或统一资源定位符URL，并在判定所述待处理消息包含有电话号码和/或URL时，提取所述电话号码和/或URL。

较佳的，计算所述待处理消息的消息指纹值，具体包括：

去除所述待处理消息的消息内容中的无意义字符，生成相应的精简消息内容，其中，所述无意义字符至少包括标点，虚词，数字，特殊符号；

将所述精简消息内容拆分成多个分词，根据预设的分词权重表分别为每个分词设置相应的权重值，并通过哈希算法分别计算每个分词的哈希值；

根据每个分词对应的权重值和哈希值，分别计算每个分词的分词加权值，并根据每个分词的分词加权值计算所述待处理消息的加权值；

对所述待处理消息的加权值进行降维计算得到所述待处理消息的消息指纹值。

较佳的，根据所述当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，具体包括：

针对一个消息发送账号，根据获取到的所述一个消息发送账号在所述当前统计周期内发送的待处理消息的消息指纹值，分别计算所述一个消息发送账号在所述当前统计周期内发送的任意两个待处理消息的消息指纹值之间的海明距离，并将海明距离小于设定阈值的两个待处理消息判定为相似消息，以及统计出所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息的相似消息的数量。

较佳的，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息之前，进一步包括：

判断所述一个消息发送账号在所述当前统计周期内发送的待处理消息的数量是否小于消息发送总量阈值，若是，则表明所述一个消息发送账号的消息发送量在合规范围内，为合规行为账号，同时判定所述一个消息发送账号在所述当前统计周期内发送的消息均为合规消息；否则，判定所述一个消息发送账号存在疑似扩散消息风险，为疑似违规行为账号，需进一步判断所述每一待处理消息是否为合规消息。

较佳的，根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息，具体包括：

针对所述一个消息发送账号在所述当前统计周期内发送的待处理消息中每一条待处理消息分别执行以下操作：判断一条待处理消息的相似消息的数量是否小于预设的第一相似消息数量阈值，若是，则判定所述一条待处理消息为合规消息；

否则，判定所述一条待处理消息为疑似违规消息，并进一步判断所述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的相同号码数量阈值，以及判断所述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的相同URL数量阈值，若是，则判定所述一条待处理消息为疑似违规消息，需进一步进行人工审核，否则，判定所述一条待处理消息为大面积扩散型违规消息。

根据所述当前统计周期内获取到的待处理消息的消息指纹值，分别计算所述当前统计周期内获取到的任意两个待处理消息的消息指纹值之间的海明距离，并将海明距离小于设定阈值的两个待处理消息判定为相似消息，以及统计出所述当前统计周期内获取到的待处理消息中每一条待处理消息的相似消息的数量。

判断所述当前统计周期内发送了待处理消息的消息发送账号的数量是否小于预设的发送账号数量阈值，若是，则表明所述当前统计周期内发送了待处理消息的消息发送账号的数量在合规范围内，同时判定所述当前统计周期内获取到的待处理消息均为合规消息；否则，需进一步判断所述当前统计周期内获取到的待处理消息是否为合规消息。

针对所述当前统计周期内获取到的待处理消息中每一条待处理消息分别执行以下操作：判断一条待处理消息的相似消息的数量是否小于预设的第二相似消息数量阈值，若是，则判定所述一条待处理消息为合规消息；

否则，判定所述一条待处理消息为疑似违规消息，并进一步判断所述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的相同号码数量阈值，以及判断所述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的相同URL数量阈值，若是，则判定所述一条待处理消息为疑似违规消息，需进一步进行人工审核；否则，判定所述一条待处理消息为大面积扩散型违规消息。

一种消息处理装置，包括：

提取单元，用于从获取的待处理消息中提取消息内容；

计算单元，用于根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；

确定单元，根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；

判断单元，根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

较佳的，在从获取的待处理消息中提取消息内容之前，所述提取单元进一步用于：

较佳的，在计算所述待处理消息的消息指纹值时，所述计算单元具体用于：

较佳的，在根据所述当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量时，所述确定单元具体用于：

较佳的，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息之前，所述确定单元进一步用于：

较佳的，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息时，所述判断单元具体用于：

一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行：从获取的待处理消息中提取消息内容；根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一项方法。

本发明有益效果如下：

综上所述，本发明实施例中，在对获取到的待处理消息进行违规鉴别处理的过程中，从获取的待处理消息中提取消息内容；根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

采用上述方法，通过计算每一待处理消息的消息指纹值，统计每一待处理消息的相似消息的数量，并根据每一待处理消息的相似消息的数量，对待处理消息进行违规鉴别处理，避免了违规消息发送方对违规消息进行一定修改后再发送，而导致安全管控平台不能有效识别修改后的违规消息的情况，提升了鉴别准确率，提高了对违规消息的鉴别范围，拓宽了违规消息的鉴别维度。

附图说明

图1为本发明实施例中，一种消息处理方法的详细流程图；

图2为本发明实施例中，对一个消息发送账号在一个统计周期内发送的待处理消息进行违规鉴别处理的方法的详细流程图；

图3为本发明实施例中，对安全管控平台在一个统计周期内获取到的待处理消息进行违规鉴别处理的方法的详细流程图；

图4为本发明实施例中，一种消息处理装置的结构示意图。

具体实施方式

为了解决现有技术中存在的垃圾消息识别准确率不高的问题，本发明实施例中提供了一种新的消息处理方法及装置，该方法为：从获取的待处理消息中提取消息内容；根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将通过具体实施例对本发明的方案进行详细描述，当然，本发明并不限于以下实施例。

参阅图1所示，本发明实施例中，一种消息处理方法的详细流程如下：

步骤100：从获取的待处理消息中提取消息内容。

具体的，本发明实施例中，安全管控平台从业务平台处实时采集待处理消息和采集到的待处理消息相对应的用户登录信息，其中，安全管控平台采集到的待处理消息至少包括消息内容和消息发送时间，而待处理消息相对应的用户登录信息可以包括消息发送账户信息，消息接收账户信息，及消息发送账户的登录业务平台的时间信息等，较佳的，可将上述采集到的待处理消息和采集到的待处理消息相对应的用户登录信息存储在安全管控平台中。

进一步的，在获取一条待处理消息之后，在提取上述一条待处理消息的消息内容之前，安全管控平台需要判断上述一条待处理消息中是否包含电话号码和/或统一资源定位符(Uniform Resource Locator，URL)，并在判定上述一条待处理消息中包含有电话号码和/或URL时，提取出上述电话号码和/或URL，并存储在安全管控平台中。

步骤110：根据上述待处理消息的消息内容，计算上述待处理消息的消息指纹值。

本发明实施例中，安全管控平台提取出上述一条待处理消息的消息内容后，根据提取出的，上述一条待处理消息的消息内容，计算上述一条待处理消息的消息指纹值。

具体的，在执行步骤110时，首先，安全管控平台去除上述一条待处理消息的消息内容中的无意义字符，生成相应的精简消息内容，其中，上述无意义字符至少包括标点，虚词，数字，特殊符号。

实际应用中，由于安全管控平台在根据一条待处理消息的消息内容计算上述一条待处理消息的消息指纹值时，需要去除上述一条待处理消息的消息内容中的无意义字符(如，标点，虚词，数字和特殊符号等)，以便生成相应的能够表征上述一条待处理消息所要表述的真实意思的精简消息内容，因此，安全管控平台在执行步骤110之前，需要判断上述一条待处理消息中是否包含电话号码(相当于数字)和/或URL(数字，标点，特殊符号等)，并在判定上述一条待处理消息中包含有电话号码和/或URL时，提取出上述电话号码和/或URL，并存储在安全管控平台中。

例如，假设安全管控平台提取出待处理消息1的消息内容，标记为T₁，去除T₁内的标点，虚词，数字，特殊符号等无意义字符后，得到待处理消息1相对应的精简消息内容，标记为T₁’。

其次，安全管控平台将上述精简消息内容拆分成多个分词，根据预设的分词权重表分别为每个分词设置相应的权重值，并通过哈希算法分别计算每个分词的哈希值。

例如，假设安全管控平台将待处理消息1相对应的精简消息内容T₁’拆分成多个分词，如，第一个分词记为t_1-1，第二个分词记为t_1-2，……，第n个分词记为t_1-n，并按照安全管控平台中预先设定好的分词权重表为t_1-1，t_1-2，……，t_1-n分别设置相应的权重值(如，第一个分词的权重值为：w_1-1＝5，第二个分词的权重值为：w_1-2＝X，……，第n个分词的权重值为：w_1-n＝Y)，若根据上述分词权重表未能为某一个或某几个分词设置权重值(即安全管控平台中没有预先针对上述某一个或某几个分词设置相应的权重值)，则将上述某一个或某几个分词的权重值设置为默认权重值，然后，安全管控平台针对每个分词，通过哈希算法计算相应的哈希值(如，第一个分词的哈希值为：h_1-1＝100101，第二个分词的哈希值为：h_1-2，……，第n个分词的哈希值为：h_1-n)。

再次，安全管控平台根据每个分词对应的权重值和哈希值，分别计算每个分词的分词加权值，并根据每个分词的分词加权值计算上述一条待处理消息的加权值。

例如，假设安全管控平台针对上述待处理消息1拆分后的第一个分词(如，t_1-1)，根据t_1-1的权重值(如，w_1-1＝5)和哈希值(如，h_1-1＝100101)，计算t_1-1的分词加权值q_1-1(如，q_1-1＝w_1-1*h_1-1＝{w_1-1，-w_1-1，-w_1-1，w_1-1，-w_1-1，w_1-1}＝{5，-5，-5，5，-5，5})，针对第二个分词(如，t_1-2)，根据t_1-2的权重值(如，w_1-2)和哈希值(如，h_1-2)，计算t_1-2的分词加权值q_1-2，……，针对第n个分词(如，t_1-n)，根据t_1-n的权重值(如，w_1-n)和哈希值(如，h_1-n)，计算t_1-n的分词加权值q_1-n，并根据q_1-1，q_1-2，……，q_1-n，进行位的纵向累加，得到待处理消息1的加权值q₁(如，q₁＝q_1-1+q_1-2+……+q_1-n)。

最后，安全管控平台对上述一条待处理消息的加权值进行降维计算得到上述一条待处理消息的消息指纹值。

例如，假设安全管控平台针对待处理消息1的加权值(如，q₁)进行降维计算，得到待处理消息1的消息指纹值(如，H₁)，针对待处理消息2的加权值(如，q₂)进行降维计算，得到待处理消息2的消息指纹值(如，H₂)，……，针对待处理消息n的加权值(如，q_n)进行降维计算，得到待处理消息n的消息指纹值(如，H_n)。

当然，对待处理消息的加权值进行降维计算的处理过程为现有的降维计算处理技术，具体的降维计算处理过程，本发明实施例中，在此不在一一赘述。

步骤120：根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出上述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息。

实际应用中，安全管控平台中设置有相应的统计周期(如，1小时，12小时，1天)，即针对一个统计周期内获取到的待处理消息进行综合分析，从而对上述一个统计周期内获取到的待处理消息进行违规鉴别处理。

本发明实施例中，安全管控平台在监测到当前统计周期结束时，对上述当前统计周期内获取到的若干待处理消息进行违规鉴别处理。

实际应用中，在当前统计周期结束时，安全管控平台根据上述当前统计周期内获取到的每一待处理消息的消息指纹值，确定上述每一待处理消息分别对应的相似消息的数量时，由于安全管控平台所采用的违规鉴别处理策略的不同，其所采用的确定上述每一待处理消息分别对应的相似消息的数量的方式也不同，具体的，包括但不限于以下两种方式中的任意一种或组合：

第一种方式为：针对一个消息发送账号，根据获取到的上述一个消息发送账号在上述当前统计周期内发送的待处理消息的消息指纹值，分别计算上述一个消息发送账号在上述当前统计周期内发送的待处理消息中任意两个待处理消息之间的海明距离，并将海明距离小于设定阈值的两个待处理消息判定为相似消息，以及统计出上述一个消息发送账号在上述当前统计周期内发送的待处理消息中每一条待处理消息的相似消息的数量。

本发明实施例中，上述第一种确定上述每一待处理消息分别对应的相似消息的数量的方式为针对任一消息发送账号在上述当前统计周期内发送的待处理消息的违规鉴别处理方式。

第二种方式为：根据上述当前统计周期内获取到的待处理消息的消息指纹值，分别计算上述当前统计周期内获取到的待处理消息中任意两个待处理消息之间的海明距离，并将海明距离小于设定阈值的两个待处理消息判定为相似消息，以及统计出上述当前统计周期内获取到的待处理消息中每一条待处理消息的相似消息的数量。

本发明实施例中，上述第二种确定上述每一待处理消息分别对应的相似消息的数量的方式为针对安全管控平台在上述当前统计周期内获取到的所有待处理消息的违规鉴别处理方式。

可选的，本发明实施例中，确定任意两条待处理消息(如，待处理消息1和待处理消息2)的海明距离的方式：假设待处理消息1的消息指纹值1为10101000，待处理消息2的消息指纹值2为00110000，设定阈值为4，那么，由于10101000和00110000的第1位，第4位和第5位不同，可知待处理消息1和待处理消息2的海明距离为3，而待处理消息1和待处理消息2的海明距离小于设定阈值(即3＜4)，因此，待处理消息1和待处理消息2为相似消息。

步骤130：根据上述每一待处理消息分别对应的相似消息的数量，分别判断上述每一待处理消息是否为合规消息。

具体的，针对步骤120中采用第一种确定上述每一待处理消息分别对应的相似消息的数量的方式，在执行其相对应的根据上述每一待处理消息分别对应的相似消息的数量，分别判断上述每一待处理消息是否为合规消息之前进一步包括：

判断上述一个消息发送账号在上述当前统计周期内发送的待处理消息的数量是否小于消息发送总量阈值，若是，则表明上述一个消息发送账号的消息发送量在合规范围内，为合规行为账号，同时判定上述一个消息发送账号在上述当前统计周期内发送的消息均为合规消息；否则，判定上述一个消息发送账号存在疑似扩散消息风险，为疑似违规行为账号，需进一步判断上述每一待处理消息是否为合规消息。

接着，本发明实施例中，在判定上述一个消息发送账号在上述当前统计周期内发送的待处理消息的数量大于或等于发送总量阈值时，安全管控平台根据上述每一待处理消息分别对应的相似消息的数量，分别判断上述每一待处理消息是否为合规消息，具体的，安全管控平台针对上述一个消息发送账号在上述当前统计周期内发送的待处理消息中每一条待处理消息分别执行以下操作：

判断一条待处理消息的相似消息的数量是否小于预设的第一相似消息数量阈值，若是，则判定上述一条待处理消息为合规消息，完成违规鉴别处理，否则，判定上述一条待处理消息为疑似违规消息，本发明实施例中，需要进一步的判断上述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的第一相同号码数量阈值，以及判断上述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的第一相同URL数量阈值，若是，则判定上述一条待处理消息为疑似违规消息，需进一步由人工审核，否则，判定上述一条待处理消息为大面积扩散型违规消息。

本发明实施例中，所谓违规消息，指的是存在大面积扩散风险的待处理消息，为违规行为账号(即发送存在大面积扩散风险消息的消息发送账号)发送的待处理消息。本发明实施例中，通过消息发送账号发送待处理消息的行为去判断其发送的待处理消息是否为合规消息，而并非根据一个待处理消息的具体内容来判断该一个待处理消息是否为合规消息。

当然，针对步骤120中采用第二种确定上述每一待处理消息分别对应的相似消息的数量的方式，在执行其相对应的根据上述每一待处理消息分别对应的相似消息的数量，分别判断上述每一待处理消息是否为合规消息之前进一步包括：

判断上述当前统计周期内发送了待处理消息的消息发送账号的数量是否小于预设的发送账号数量阈值，若是，则表明上述当前统计周期内发送了待处理消息的消息发送账号的数量在合规范围内，同时判定上述当前统计周期内获取到的待处理消息均为合规消息；否则，需进一步判断上述当前统计周期内获取到的待处理消息是否为合规消息。

接着，本发明实施例中，在判定上述当前统计周期内发送了待处理消息的消息发送账号的数量大于或等于预设的发送账号数量阈值时，安全管控平台根据上述每一待处理消息分别对应的相似消息的数量，分别判断上述每一待处理消息是否为合规消息，具体的，安全管控平台针对上述当前统计周期内获取到的待处理消息中每一条待处理消息分别执行以下操作：判断一条待处理消息的相似消息的数量是否小于预设的第二相似消息数量阈值，若是，则判定上述一条待处理消息为合规消息，完成违规鉴别处理；否则，判定上述一条待处理消息为疑似违规消息，本发明实施例中，需要进一步的判断上述一条待处理消息的相似消息中包含相同电话号码的待处理消息的数量是否小于预设的第二相同号码数量阈值，以及判断上述一条待处理消息的相似消息中包含相同URL的待处理消息的数量是否小于预设的第二相同URL数量阈值，若是，则判定上述一条待处理消息为疑似违规消息，需进一步由人工审核，否则，判定上述一条待处理消息为大面积扩散型违规消息。

本发明实施例中，预设的第一相似消息数量阈值，第二相似消息数量阈值，第一相同号码数量阈值，第二相同号码数量阈值，第一相同URL数量阈值和第二相同URL数量阈值是根据大量实验设定的，可根据不同的应用场景进行相应的设置。当然，本发明实施例中，第一相似消息数量阈值与第二相似消息数量阈值的设定值可以相同，也可以不同；第一相同号码数量阈值与第二相同号码数量阈值的设定值可以相同，也可以不同；第一相同URL数量阈值与第二相同URL数量阈值的设定值可以相同，也可以不同。

下面采用具体的应用场景对上述实施例作进一步详细说明。

参阅图2所示，本发明实施例中，对一个消息发送账号在一个统计周期内发送的待处理消息进行违规鉴别处理的方法的具体流程如下：

步骤200：从业务平台处获取消息。

步骤201：提取该消息内的号码和/或URL，并存储在本地。

步骤202：对该消息进行消息指纹值计算。

步骤203：在当前统计周期结束时，针对一个消息发送账号在当前统计周期内发送的每一条消息分别执行以下操作：根据各消息的消息指纹值计算一条消息的相似消息的数量。

步骤204：统计该一个消息发送账号在当前统计周期内的消息发送量。

步骤205：判断该一个消息发送账号在当前统计周期内的消息发送量是否小于设定阈值，若是，则执行步骤206，否则，执行步骤207。

步骤206：判定该一个消息发送账号在当前统计周期内发送的消息均为合规消息。

步骤207：判断一条消息的相似消息的数量是否小于设定阈值，若是，则执行步骤208，否则，执行步骤209。

步骤208：判定该一条消息为合规消息。

步骤209：判定该一条消息为疑似违规消息，并分别统计与该一条消息相似的消息中包含相同号码和/或相同URL的消息的数量。

步骤210：分别判断与该一条消息相似的消息中包含相同号码或相同URL的消息的数量是否均小于设定阈值，若是，则执行步骤211，否则，执行步骤212。

步骤211：判定该一条消息为疑似违规消息，由人工审核判断是否合规。

步骤212：判定该一条消息为违规消息。

下面采用具体的应用场景对上述实施例作进一步详细说明。

参阅图3所示，本发明实施例中，对安全管控平台在一个统计周期内获取到的待处理消息进行违规鉴别处理的方法的具体流程如下：

步骤300：从业务平台处获取消息。

步骤301：提取该消息内的号码和/或URL，并存储在本地。

步骤302：对该消息进行消息指纹值计算。

步骤303：在当前统计周期结束时，针对在当前统计周期内获取到的每一条消息分别执行以下操作：根据各消息的消息指纹值计算一条消息的相似消息的数量。

步骤304：统计在当前统计周期内发送消息的消息发送账号的数量。

步骤305：判断在当前统计周期内发送消息的消息发送账号的数量是否小于设定阈值，若是，则执行步骤306，否则，执行步骤307。

步骤306：判定在当前统计周期内获取到的消息均为合规消息。

步骤307：判断一条消息的相似消息的数量是否小于设定阈值，若是，则执行步骤308，否则，执行步骤309。

步骤308：判定该一条消息为合规消息。

步骤309：判定该一条消息为疑似违规消息，并分别统计与该一条消息相似的消息中包含相同号码或相同URL的消息的数量。

步骤310：分别判断与该一条消息相似的消息中包含相同号码和/或相同URL的消息的数量是否均小于设定阈值，若是，则执行步骤311，否则，执行步骤312。

步骤311：判定该一条消息为疑似违规消息，由人工审核判断是否合规。

步骤312：判定该一条消息为违规消息。

基于上述实施例，参阅图4所示，本发明实施例中，一种消息处理装置，至少包括提取单元40，计算单元41，确定单元42和判断单元43，其中，

提取单元40，用于从获取的待处理消息中提取消息内容；

计算单元41，用于根据所述待处理消息的消息内容，计算所述待处理消息的消息指纹值；

确定单元42，根据当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，其中，消息指纹值之间的海明距离小于设定阈值的两条待处理消息互为相似消息；

判断单元43，根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息。

较佳的，在从获取的待处理消息中提取消息内容之前，所述提取单元40进一步用于：

较佳的，在计算所述待处理消息的消息指纹值时，所述计算单元41具体用于：

较佳的，在根据所述当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量时，所述确定单元42具体用于：

较佳的，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息之前，所述确定单元42进一步用于：

较佳的，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息时，所述判断单元43具体用于：

采用上述方法，通过计算一个统计周期内获取到的每一待处理消息的消息指纹值，并统计每一待处理消息的相似消息的数量，以及根据每一待处理消息的相似消息的数量，对待处理消息进行违规鉴别处理，避免了违规消息发送方对违规消息进行一定修改后再发送，而导致安全管控平台不能有效识别修改后的违规消息的情况，提升了鉴别准确率，提高了对违规消息的鉴别范围，拓宽了违规消息的鉴别维度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种消息处理方法，其特征在于，包括：

从获取的待处理消息中提取消息内容；

2.如权利要求1所述的方法，其特征在于，在从获取的待处理消息中提取消息内容之前，进一步包括：

3.如权利要求1或2所述的方法，其特征在于，计算所述待处理消息的消息指纹值，具体包括：

4.如权利要求3所述的方法，其特征在于，根据所述当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，具体包括：

5.如权利要求4所述的方法，其特征在于，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息之前，进一步包括：

6.如权利要求5所述的方法，其特征在于，根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息，具体包括：

7.如权利要求3所述的方法，其特征在于，根据所述当前统计周期内获取到的每一待处理消息的消息指纹值，确定出所述每一待处理消息分别对应的相似消息的数量，具体包括：

8.如权利要求7所述的方法，其特征在于，在根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息之前，进一步包括：

9.如权利要求8所述的方法，其特征在于，根据所述每一待处理消息分别对应的相似消息的数量，分别判断所述每一待处理消息是否为合规消息，具体包括：

10.一种消息处理装置，其特征在于，包括：

提取单元，用于从获取的待处理消息中提取消息内容；

11.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

12.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至9任一项所述的方法。