CN103929723A

CN103929723A - 垃圾短信识别方法及装置

Info

Publication number: CN103929723A
Application number: CN201410183603.XA
Authority: CN
Inventors: 刘道宽; 范典; 孙鹏; 刘宇翔; 李海峰; 刘新宇; 邢鑫岩; 张波; 刘率
Original assignee: Xiaomi Inc
Current assignee: Beijing Xiaomi Technology Co Ltd; Xiaomi Inc
Priority date: 2014-04-30
Filing date: 2014-04-30
Publication date: 2014-07-16
Anticipated expiration: 2034-04-30
Also published as: CN103929723B

Abstract

本公开是关于一种垃圾短信识别方法及装置。所述方法包括：接收短信接收端上传的短信；获取所述被上传短信的发送端标识；根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信。本公开用于提高垃圾短信的识别率。

Description

垃圾短信识别方法及装置

技术领域

本公开涉及数据分析技术领域，尤其涉及一种垃圾短信识别方法及装置。

背景技术

相关技术中，可以根据短信文本信息，通过各种机器学习的算法识别垃圾短信。但是，机器学习算法对训练样本的质量有很高要求，通过机器学习的算法往往很难覆盖所有的垃圾短信，出现遗漏的概率很高。

发明内容

为克服相关技术中存在的问题，本公开实施例提供一种垃圾短信识别方法及装置。

根据本公开实施例的第一方面，提供一种垃圾短信识别方法，包括：

接收短信接收端上传的短信；

获取所述被上传短信的发送端标识；

根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信。

本公开的实施例提供的技术方案可以包括以下有益效果：在云端服务器利用大量的社交网络数据对短信进行分析，使得对垃圾短信或诈骗短信的识别率更高且更加准确，提高对垃圾短信或诈骗短信的拦截率。并且，避免在终端上存储大量用户分析垃圾短信的样本数据，节约了终端上的存储空间，而且，由于不需要终端进行垃圾短信分析，节省了终端处理资源。

可选的，所述根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信，包括：

获取发送所述短信的短信发送端发送短信的所有短信接收端；

确定所述所有短信接收端之间的平均关联度，所述关联度为两个短信接收端之间通过所述已信任发送端标识建立联系所通过的终端数量，所述平均关联度为所有短信接收端之间的关联度的平均值；

当所述平均关联度大于预设的第一阈值时，判断所述短信为垃圾短信。

在可选方案中，通过对短信接收端之间的关联度的分析，使得垃圾短信的判断更为准确，提高对垃圾短信或诈骗短信的拦截率。

分析将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比；

当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比超过预设的第二阈值时，判断所述短信不是垃圾短信。

在可选方案中，如果短信发送端已经存在在很多用户的好友通信录或其他用户信任的通信录中，那么这个短信发送端发送的短信是垃圾短信的概率很小，反之则越大。通过判断短信发送端是否在一定数量的用户通信录中，可以进一步提高识别垃圾短信的准确率。

可选的，根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信，还包括：

获取所述短信发送端在预设时间内发送的短信的数量；

当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比低于预设的第二阈值，且所述短信发送端在预设时间内发送的短信的数量超过预设的第三阈值时，判断所述短信是垃圾短信。

可选的，所述方法还包括：

获取所有短信接收终端上传的短信的内容；

统计所述短信发送端发送的相同内容的短信数量；

当所述短信发送端发送的相同内容的短信数量超过预设的第四阈值时，识别所述内容相同的短信为垃圾短信。

在可选方案中，通过分析短信发送端发送内容相同的短信的数量，进一步提高了识别垃圾短信的准确率。

根据本公开实施例的第二方面，提供一种垃圾短信识别装置，其特征在于，包括：

接收模块，用于接收短信接收端上传的短信；

获取模块，用于获取所述被上传短信的发送端标识；

识别模块，用于根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信。

所述识别模块包括：关联度确定单元和判断单元；

所述获取模块，用于获取发送所述短信的短信发送端发送短信的所有短信接收端；

所述关联度确定单元，用于确定所述所有短信接收端之间的平均关联度，所述关联度为两个短信接收端之间通过所述已信任发送端标识建立联系所通过的终端数量，所述平均关联度为所有短信接收端之间的关联度的平均值；

所述判断单元，用于当所述平均关联度大于预设的第一阈值时，判断所述短信为垃圾短信。

所述识别模块包括：分析单元和判断单元；

所述分析单元，用于分析将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比；

所述判断单元，用于当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比超过预设的第二阈值时，判断所述短信不是垃圾短信。

所述获取模块，用于获取所述短信发送端在预设时间内发送的短信的数量；

所述判断单元，还用于当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比低于预设的第二阈值，且所述短信发送端在预设时间内发送的短信的数量超过预设的第三阈值时，判断所述短信是垃圾短信。

所述装置还包括统计模块，

所述获取模块，用于获取所有短信接收终端上传的短信的内容；

所述统计模块，用于统计所述短信发送端发送的相同内容的短信数量；

所述识别模块，用于当所述短信发送端发送的相同内容的短信数量超过预设的第四阈值时，识别所述内容相同的短信为垃圾短信。

根据本公开实施例的第三方面，提供一种垃圾短信识别装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收短信接收端上传的短信；

获取所述被上传短信的发送端标识；

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种垃圾短信识别方法的流程图；

图2是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图；

图3是根据另一示例性实施例示出的用户之间关联度的示意图；

图4是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图；

图5是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图；

图6是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图；

图7是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图；

图8是根据一示例性实施例示出的一种垃圾短信识别装置的框图。

图9是根据一示例性实施例示出的一种识别模块的框图；

图10是根据另一示例性实施例示出的一种识别模块的框图；

图11是根据另一示例性实施例示出的一种垃圾短信识别装置的框图；

图12是根据一示例性实施例示出的一种用于垃圾短信识别的装置1900的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本公开利用位于网络侧的云端服务器来确定用户上传到云端服务器的短信是否为垃圾短信。

图1是根据一示例性实施例示出的一种垃圾短信识别方法的流程图，如图1所示，垃圾短信识别方法用于服务器中，包括以下步骤。

在步骤S11中，接收短信接收端上传的短信。

在步骤S12中，获取被上传短信的发送端标识。

在步骤S13中，根据通信录中预先存储的已信任发送端标识以及短信的发送端标识，识别短信。

在步骤S12中，短信的发送端标识可以是手机号码、移动设备国际身份码(International Mobile Equipment Identity，IMEI)或集成在SIM卡中的集成电路卡识别码(Integrate circuit card identity，ICCID)等等用于唯一标识该短发送端的代码。

在步骤S13中，每个用户可能会上传多个通信录到云端服务器，例如，好友通信录，黑名单通信录，以及包含一些常用服务端标识的黄页，如麦当劳的订餐电话等。因此，通信录中的终端标识并不都是用户已信任的终端标识，云端服务器在进行垃圾短信识别时，会利用通信录中预先存储的已信任终端标识进行判断。

本实施例中，当终端收到不是已信任的发送端发送的短信，终端上传统的垃圾短信分析模块不能确定该短信是否为垃圾短信的时候，终端可以立刻将这个短信上传到位于网络侧的云端服务器，云端服务器会识别短信发送端标识，并根据通过大量用户上传社交网络数据及该短信发送端标识对该短信进行分析，并将分析结果实时返回给终端。这样，在云端服务器利用大量的社交网络数据对短信进行分析，使得对垃圾短信或诈骗短信的识别率更高且更加准确，提高对垃圾短信或诈骗短信的拦截率。并且，避免在终端上存储大量用户分析垃圾短信的样本数据，节约了终端上的存储空间，而且，由于不需要终端进行垃圾短信分析，节省了终端处理资源。

在步骤S13中，根据通信录中预先存储的已信任发送端标识以及短信的发送端标识，识别短信，可以包括以下几种方式。

图2是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图，如图2所示，可选的，步骤S13可以包括以下步骤。

步骤S21中，获取发送短信的短信发送端发送短信的所有短信接收端。

步骤S22中，确定所有短信接收端之间的平均关联度，关联度为两个短信接收端之间通过已信任发送端标识建立联系所通过的终端数量，平均关联度为所有短信接收端之间的关联度的平均值。

步骤S23中，当平均关联度大于预设的第一阈值时，识别短信为垃圾短信。

在云端服务器，存储有大量使用云服务的用户上传的通信录，可以根据这些通信录中已信任发送端标识建立社交网络，得到用户之间的关联度。例如，图3是根据另一示例性实施例示出的用户之间关联度的示意图，如图3所示，用户A的好友通信录中包括用户D，用户B的好友通信录中包括用户C，用户C的通信录包括用户D。则用户A和用户B之间通过用户C和用户D建立联系，用户A和用户B之间的关联度为2。

通过分析短信发送端发送的短信的所有短信接收端之间的关联度，判断这些接收端之间关系是否密切，即如果这些短信接收端之间的平均关联度大于预设的第一阈值时，则认为这些短信接收端之间关系并不密切，短信发送端与这些短信接收端之间可能没有什么联系，短信发送端随机选择一些终端号码发送短信，该短信有极大的可能性是广告或诈骗等垃圾短信。

例如设置第一阈值为6，当短信接收端之间的平均关联度大于6时，判断该短信发送端发送短信为垃圾短信。

图4是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图，如图4所示，可选的，步骤S13可以包括以下步骤：

在步骤41中，分析将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比；

在步骤42中，当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比超过预设的第二阈值时，判断所述短信不是垃圾短信。

例如，可以设置第二阈值为1‰，如果云端服务器上所有终端的数量为10万，则如果该短信发送端已存在在100个用户的好友通信录中，则判断该短信发送端发送的所述短信不是垃圾短信。

图5是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图，如图5所示，可选的，步骤S13可以包括以下步骤：

在步骤51中，获取短信发送端在预设时间内发送的短信的数量；

在步骤52中，当将短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比低于预设的第二阈值，且短信发送端在预设时间内发送的短信的数量超过预设的第三阈值时，判断短信是垃圾短信。

例如，当短信发送端在如10分钟内发送短信超过3000条，且该短信发送端不存在在一定数量的用户通信录中，则该短信发送端发送的短信为垃圾短信的可能性极大。

可选的，还可以判断在一段时间后，该短信发送端标识是否被越来越多的用户加入到已信任的好友通信录中，例如，有50个用户将该短信发送端加入到自身的好友通信录中，则该短信发送端发送的短信为垃圾短信的概率较低。

可选的，还可以通过查询该短信发送端在云端服务器的访问日志，例如，如果该短信发送端访问云端服务器的频率较高，则该短信发送端有极大的可能性不是发送垃圾短信的“机器人”。

图6是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图，如图6所示，可选的，该方法还可以包括以下步骤。

步骤S61中，获取所有短信接收终端上传的短信的内容。

步骤S62中，统计短信发送端发送的相同内容的短信数量。

步骤S63中，当短信发送端发送的相同内容的短信数量超过预设的第四阈值时，识别内容相同的短信为垃圾短信。

在可选方案中，进一步判断短信发送端发送过的相同短信的数量，当发送的相同短信的数量过多时，例如超过1000，则判断该短信为垃圾短信。通过分析短信发送端发送内容相同的短信的数量，进一步提高了识别垃圾短信的准确率。

下面以一个具体实例对本公开的方法进行详细说明。

图7是根据另一示例性实施例示出的一种垃圾短信识别方法的流程图，如图7所示，该方法包括以下步骤。

在步骤S701中，接收短信接收端A上传的短信。

在步骤S702中，获取被上传短信的发送端标识，短信发送端为B。

在步骤S703中，分析将短信发送端B作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比。

在步骤S704中，判断上述计算得到的百分比是否超过1‰，如果是，执行步骤S705，否则，执行步骤S710。

在步骤S705中，判断短信发送端B在10分钟内发送短信的数量是否超过3000条，如果是，执行步骤S706，否则，执行步骤S710。

在步骤S706中，获取短信发送端B发送短信的所有短信接收端。

在步骤S707中，确定所有短信接收端之间的平均关联度。

在步骤S708中，判断上述平均关联度是否大于6，如果是，执行步骤S709，否则，执行步骤S710。

在步骤S709中，识别短信接收端A上传的短信为垃圾短信。

在步骤S710中，识别短信接收端A上传的短信不是垃圾短信。

本公开的上述实施例中，可以通过上述几种方式对短信发送端的身份进行识别以判断其发送的短信是否为垃圾短信，而不是仅根据短信的内容来识别垃圾短信，这样，对垃圾短信的识别更加准确，效率更高，提高了对垃圾短信或诈骗短信的拦截率。

上述识别垃圾短信的方式，可以根据实际情况单独使用，或将几种方式组合使用，还可以将上述方式结合现有的根据短信内容识别垃圾短信的方法使用。如果在云端服务器已有关于该短信发送端相关的历史数据积累，可以实时地将垃圾短信识别结果告知用户，如果没有历史数据积累，则可以过一段时间后，再将识别结果推送给用户。

图8是根据一示例性实施例示出的一种垃圾短信识别装置的框图。参照图8，该装置80包括接收模块81，获取模块82和识别模块83。

接收模块81被配置为接收短信接收端上传的短信。

获取模块82被配置为获取所述被上传短信的发送端标识。

识别模块83被配置为根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信。

图9是根据一示例性实施例示出的一种识别模块的框图。如图9所示，可选的，识别模块83包括：关联度确定单元831和判断单元832；

获取模块81被配置为获取发送所述短信的短信发送端发送短信的所有短信接收端。关联度确定单元831被配置为确定所述所有短信接收端之间的平均关联度，所述关联度为两个短信接收端之间通过所述已信任发送端标识建立联系所通过的终端数量，所述平均关联度为所有短信接收端之间的关联度的平均值。判断单元832，用于当所述平均关联度大于预设的第一阈值时，判断所述短信为垃圾短信。

图10是根据另一示例性实施例示出的一种识别模块的框图。如图10所示，可选的，识别模块83包括：分析单元833和判断单元832；

分析单元833被配置为分析将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比。判断单元832被配置为当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比超过预设的第二阈值时，判断所述短信不是垃圾短信。

可选的，获取模块81被配置为获取所述短信发送端在预设时间内发送的短信的数量。判断单元832还被配置为当将所述短信发送端标识作为已信任发送端标识的通信录所在的短信接收终端数量占预先存储的所有终端数量的百分比低于预设的第二阈值，且所述短信发送端在预设时间内发送的短信的数量超过预设的第三阈值时，判断所述短信是垃圾短信。

图11是根据另一示例性实施例示出的一种垃圾短信识别装置的框图。如图11所示，可选的，装置80还包括统计模块84，

获取模块81被配置为于获取所有短信接收终端上传的短信的内容。统计模块84被配置为统计所述短信发送端发送的相同内容的短信数量。识别模块83被配置为当所述短信发送端发送的相同内容的短信数量超过预设的第四阈值时，识别所述内容相同的短信为垃圾短信。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于垃圾短信识别的装置1900的框图。例如，装置1900可以被提供为一服务器。参照图11，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理部件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法……

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种垃圾短信识别方法，所述方法包括：

接收短信接收端上传的短信；

获取所述被上传短信的发送端标识；

获取所述短信发送端在预设时间内发送的短信的数量；

可选的，所述方法还包括：

获取所有短信接收终端上传的短信的内容；

统计所述短信发送端发送的相同内容的短信数量；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种垃圾短信识别方法，其特征在于，包括：

接收短信接收端上传的短信；

获取所述被上传短信的发送端标识；

2.根据权利要求1所述的方法，其特征在于，所述根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信，包括：

4.根据权利要求3所述的方法，其特征在于，根据通信录中预先存储的已信任发送端标识以及所述短信的发送端标识，识别所述短信，还包括：

获取所述短信发送端在预设时间内发送的短信的数量；

5.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取所有短信接收终端上传的短信的内容；

统计所述短信发送端发送的相同内容的短信数量；

6.一种垃圾短信识别装置，其特征在于，包括：

接收模块，用于接收短信接收端上传的短信；

获取模块，用于获取所述被上传短信的发送端标识；

7.根据权利要求6所述的装置，其特征在于，所述识别模块包括：关联度确定单元和判断单元；

8.根据权利要求6或7所述的装置，其特征在于，所述识别模块包括：分析单元和判断单元；

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求6或7所述的装置，其特征在于，所述装置还包括统计模块，

11.一种垃圾短信识别装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

接收短信接收端上传的短信；

获取所述被上传短信的发送端标识；