CN105554763A

CN105554763A - 一种检测伪基站中心号码的方法及服务器

Info

Publication number: CN105554763A
Application number: CN201510955120.1A
Authority: CN
Inventors: 张金晶; 李强; 常富洋
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2016-05-04
Anticipated expiration: 2035-12-17
Also published as: CN105554763B

Abstract

本发明公开了一种检测伪基站中心号码的方法及服务器，该方法包括：获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码，所述目标短信属于垃圾短信中的至少一类短信；获得所有所述目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码；获得在预设时间周期内通过所述疑似伪基站中心号码发送的所有下发短信；判断所述所有下发短信中垃圾短信的比例是否大于第二阈值；若所述所有下发短信中垃圾短信的比例大于第二阈值，确定所述疑似伪基站中心号码为伪基站中心号码。通过上述技术方案，解决了现有技术中无法判别短信的发送方是否是伪基站的技术问题，到达了有效识别伪基站短信的有益技术效果。

Description

一种检测伪基站中心号码的方法及服务器

技术领域

本发明涉及通信技术领域，尤其涉及一种检测伪基站中心号码的方法及服务器。

背景技术

随着科学技术的不断发展，通信技术也得到了飞速的发展，人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的移动终端，与亲人、朋友保持联系，并且，联系的方式也变得多种多样，可以打电话、发短信、发email等等。

短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为它使用的广泛和成本低廉而被不法分子所利用。不法分子通过伪基站伪装成运营商的基站，冒用他人手机号码强行向用户手机发送诈骗、广告推销等短信。伪基站设备运行时，用户手机信号被强制连接到该设备上，导致手机无法正常使用运营商提供的服务，手机用户一般会暂时脱网8～12秒后恢复正常，部分手机则必须开关机才能重新入网。此外，伪基站的运行还会导致手机用户频繁地更新位置，使得该区域的无线网络资源紧张并出现网络拥塞现象，影响用户的正常通信。

现有技术中对垃圾短信的识别于拦截已经较为成熟，但是需要在联网的情况下才能较好的实现，伪基站在发送垃圾短信时已将用户手机强制脱网，又因无法判别短信的发送方是否为伪基站，导致对于伪基站发送的短信，现有用户手机无法及时进行拦截。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种检测伪基站中心号码的方法及服务器。

本发明的一个方面，提供了一种检测伪基站中心号码的方法，包括：

获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码，所述目标短信属于垃圾短信中的至少一类短信；

获得所有所述目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码；

获得在预设时间周期内通过所述疑似伪基站中心号码发送的所有下发短信；

判断所述所有下发短信中垃圾短信的比例是否大于第二阈值；

若所述所有下发短信中垃圾短信的比例大于第二阈值，确定所述疑似伪基站中心号码为伪基站中心号码。

可选的，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：获得至少两个所述伪基站中心号码；判断所述至少两个所述伪基站中心号码中是否存在少一个固定数字位上对应至少一个固定数字的至少两个中心号码；若存在，将在所述至少一个固定数字位上对应所述至少一个固定数字建立为一条伪基站中心号码规则并保存。

可选的，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：将所述伪基站中心号码发送至移动终端，以使所述移动终端执行将所述伪基站中心号码发送的短信作为拦截对象进行拦截的操作。

可选的，所述垃圾短信包括：诈骗短信、骚扰短信及广告短信。

可选的，在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，所述方法还包括：获得与至少一条参考短信相似的所述至少两条目标短信，所述参考短信为已确定的伪基站发送的短信。

可选的，所述获得与至少一条参考短信相似的所述至少两条目标短信，包括：对每条所述参考短信进行分词，并根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量；根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量；获得每条待选短信的待选特征词向量；计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度；将所述相似度大于设定阈值的每个所述待选特征词向量对应的待选短信确定为与所述至少一条参考短信相似的所述目标短信。

可选的，所述根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量，包括：分别将每条所述参考短信的所述每个分词输入词向量工具获得所述每个分词的词向量；通过将每条所述参考短信的所有分词的词向量的乘积与所述语料词矩阵相乘获得所述特征词向量。

可选的，所述根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量，包括：当所述至少一条参考短信的参考短信数量为1时，将所述参考短信的所述特征词向量作为所述至少一条参考短信的所述参考特征词向量；或者，当所述至少一条参考短信的所述参考短信数量大于等于2时，获得所述至少一条参考短信中的每条参考短信的特征词向量的均值作为所述参考特征词向量。

可选的，所述计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度，包括：计算获得所述参考特征词向量与每条所述待选特征词向量之间的余弦值，将所述余弦值作为所述相似度；或者，计算获得所述目标词向量与所述待选特征词向量之间的相关系数，将所述相关系数作为所述相似度。

本发明的另一个方面，提供了一种检测伪基站中心号码的服务器，包括：

第一号码获取模块，用于获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码，所述目标短信属于垃圾短信中的至少一类短信；

第二号码获取模块，用于获得所有所述目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码；

短信查询模块，用于获得在预设时间周期内通过所述疑似伪基站中心号码发送的所有下发短信；

判断模块，用于判断所述所有下发短信中垃圾短信的比例是否大于第二阈值；

确定模块，用于若所述所有下发短信中垃圾短信的比例大于第二阈值，确定所述疑似伪基站中心号码为伪基站中心号码。

可选的，所述服务器还包括：第三号码获取模块，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，获得至少两个所述伪基站中心号码；规则建立模块，用于判断所述至少两个所述伪基站中心号码中是否存在少一个固定数字位上对应至少一个固定数字的至少两个中心号码；若存在，将在所述至少一个固定数字位上对应所述至少一个固定数字建立为一条伪基站中心号码规则并保存。

可选的，所述服务器还包括：发送模块，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，将所述伪基站中心号码发送至移动终端，以使所述移动终端执行将所述伪基站中心号码发送的短信作为拦截对象进行拦截的操作。

可选的，所述服务器还包括：相似短信获取模块，用于在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，获得与至少一条参考短信相似的所述至少两条目标短信，所述参考短信为已确定的伪基站发送的短信。

可选的，所述相似短信获取模块包括：第一向量获取子模块，用于对每条所述参考短信进行分词，并根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量；第二向量获取子模块，用于根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量；第三向量获取子模块，用于获得每条待选短信的待选特征词向量；计算子模块，用于计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度；确定子模块，用于将所述相似度大于设定阈值的每个所述待选特征词向量对应的待选短信确定为与所述至少一条参考短信相似的所述目标短信。

可选的，所述第一向量获取子模块用于：分别将每条所述参考短信的所述每个分词输入词向量工具获得所述每个分词的词向量；通过将每条所述参考短信的所有分词的词向量的乘积与所述语料词矩阵相乘获得所述特征词向量。

可选的，所述第二向量获取子模块用于：当所述至少一条参考短信的参考短信数量为1时，将所述参考短信的所述特征词向量作为所述至少一条参考短信的所述参考特征词向量；或者，当所述至少一条参考短信的所述参考短信数量大于等于2时，获得所述至少一条参考短信中的每条参考短信的特征词向量的均值作为所述参考特征词向量。

可选的，所述计算子模块用于：计算获得所述参考特征词向量与每条所述待选特征词向量之间的余弦值，将所述余弦值作为所述相似度；或者，计算获得所述目标词向量与所述待选特征词向量之间的相关系数，将所述相关系数作为所述相似度。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

通过获得多条目标短信的目标信息中心号码，并从中获得出现概率较高的疑似伪基站中心号码，再反查出现概率较高的疑似伪基站中心号码发送的所有短信是否绝大部分都是垃圾短信，若是，便可确定这个疑似伪基站中心号码是伪基站的中心号码，从而检测出伪基站中心号码，进而可以根据该中心号码判别出短信的发送方是否为伪基站，解决了现有技术中无法判别短信的发送方是否是伪基站的技术问题，到达了有效识别伪基站短信的有益技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种检测伪基站中心号码的方法流程图；

图2示出了根据本发明一个实施例的一种获得相似短信的方法流程图；

图3示出了根据本发明一个实施例的一种检测伪基站中心号码的装置示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种检测伪基站中心号码的方法及服务器，用以解决现有技术中无法判别短信的发送方是否是伪基站的技术问题。

请参考图1，本申请实施提供了一种检测伪基站中心号码的方法，该方法包括：

S11、获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码，所述目标短信属于垃圾短信中的至少一类短信；

S12、获得所有所述目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码；

S13、获得在预设时间周期内通过所述疑似伪基站中心号码发送的所有下发短信；

S14、判断所述所有下发短信中垃圾短信的比例是否大于第二阈值；

S15、若所述所有下发短信中垃圾短信的比例大于第二阈值，确定所述疑似伪基站中心号码为伪基站中心号码。

在具体实施过程中，由于伪基站发送的绝大多数短信均为对用户无用的，甚至有害的垃圾短信，尽管伪基站发送的垃圾短信的具体类别和针对的用户不定，但是伪基站发送短信时采用的信息中心号码(即一种短信息服务器，用于将用户发送的短信转发值接收方)在短时间内通常是不变的或者其信息中心号码的编写规则是不变的，因此本申请实施例以垃圾短信的信息中心号码作为切入点去获得伪基站中心号码，从而确定短信的发送方是否为伪基站。

S11获得每条目标短信对应的目标信息中心号码时，可以从每条目标短信的PDU(ProtocolDataUnit，协议数据单元)中获得。具体的，可以读取目标短信中PDU格式的编码信息，通过对PDU格式的编码信息进行解析，识别出目标短信的短信息中心号码即目标信息中心号码。其中，S11针对的目标短信属于垃圾短信中的至少一类短信。该垃圾短信包括诈骗短信、广告短信、骚扰短信等类型的短信，本申请实施例可以选取垃圾短信中的至少一类作为目标短信，例如：由于伪基站通常是不法分子为了谋取暴利而发送的诈骗短信，或者商家为了非法宣传发送的广告短信，为此可以选取诈骗短信和/或广告短信作为目标短信。

在具体实施过程中，可以获取短信数据库中已确定的至少一类垃圾短信作为目标短信。该已确定的至少一类垃圾短信可以是由用户标记后上传至服务器的，也可以是由某一应用程序如“XX手机安全卫士”、“XX来电通”等识别出的垃圾短信。另外，本申请实施例还提供一种获得目标短信的方法：获得与至少一条参考短信相似的至少两条目标短信，其中，该参考短信为已确定的伪基站发送的短信。通过获得相似短信的方式获得目标短信，能够获得伪基站根据现有的垃圾短信演变来的新短信，从而检测出演变后的伪基站中心号码，从而提高检测伪基站中心号码的准确率。

请参考图2，本申请实施例通过如下方法获得与至少一条参考短信相似的至少两条目标短信：

S21、对每条参考短信进行分词，并根据每条参考短信的每个分词和语料词矩阵获得每条参考短信的特征词向量；

S22、根据至少一条参考短信的至少一个特征词向量，获得至少一条参考短信的参考特征词向量；

S23、获得每条待选短信的待选特征词向量；

S24、计算获得参考特征词向量与每条待选特征词向量之间的相似度；

S25、将相似度大于设定阈值的每个待选特征词向量对应的待选短信确定为与至少一条参考短信相似的目标短信。

执行S21对每条参考短信进行分词时，可以将已确定的伪基站发送的所有短信作为参考短信进行分词，也可以先对已确定的伪基站发送的短信通过分类模型进行分类，将特定类别的短信作为参考短信。针对参考短信进行分词，将参考短信拆分成多个分词，例如：假设参考短信为“您的航班取消了”，可以采用阿里分词将参考短信分为“您”、“您的”、“航班”及“取消”，分词时除了采用阿里分词，还可以采用IKAnalyzer、盘古分词等分词工具进行分词，本申请实施例不限制分词使用的具体工具。每一个分词都有特定的语义，而特定的语义可以由不同的分词来表示，但是若仅仅根据近义词来查找相似短信，如利用“航班”、“取消”的近义词“飞机”、“取缔”等来获得相似短信，是无法检测“机票出票失败”等语义相似的新短信。

为此，本申请实施例在分词后，进一步获得每个分词的词向量，通过词向量来表示每个分词的语义。词向量为通过训练将语言中的每一个词映射成一个固定长度的向量，可以通过将每个分词输入词向量工具获得每个分词的词向量，例如可以通过word2vec工具把每个分词当作特征映射到K维空间获得分词的词向量。其中，词向量工具中包含有语料词矩阵，该语料词矩阵中为n*k的矩阵，n为数据库中的分词量，k为每个词的维度，假设某一词向量工具中包含800个分词、设定的词向量的维度为100，那么该语料词矩阵则为800*100的矩阵。将分词输入词向量工具，词向量工具会得到一个表示该分词位置的向量并将这个向量与语料词矩阵相乘便可获得并输出这个分词的词向量。

在获得参考短信的每个分词的词向量之后，进一步的，为了表示参考短信的语义，通过将参考短信的所有分词的词向量的乘积与语料词矩阵相乘获得参考短信的参考特征词向量。例如：假设该语料词矩阵为800*100的矩阵T，若参考短信的有10个分词，n1～n10分别表示这10个分词的词向量，将n1*n2*…n10的乘积与语料词矩阵T相乘获得参考短信的参考特征词向量，即参考特征词向量等于n1*n2*…n10*T。

在S21获得每条参考短信的参考特征词向量后，执行S22根据至少一条参考短信的至少一个特征词向量，获得至少一条参考短信的参考特征词向量。待选特征词向量的获得分以下两种情况：

(1)当至少一条参考短信的参考短信数量为1时，即至少一个特征词向量为一个特征词向量时，将该参考短信的特征词向量作为至少一条参考短信的参考特征词向量。

(2)当至少一条参考短信的参考短信数量大于等于2时，即至少一个特征词向量包含的向量个数大于等于2时，获得至少一条参考短信中的每条参考短信的特征词向量的均值作为参考特征词向量。具体的，待选特征词向量可以通过公式(m1+m2+…mn)*1/n，mn表示第n条参考短信的参考词向量，n表示至少一条参考短信中包含的参考短信的数量。例如：假设已确定的伪基站发送的航空诈骗短信中包含10条航空诈骗短信，每条航空诈骗短信的参考词向量分别为m1～m10，那么每条参考短信的参考词向量的均值可以通过公式(m1+m2+…m10)*0.1计算获得。利用多条参考短信的参考特征词向量来进行相似短信检测时，将参考短信的参考特征词向量与一个待选特征词向量进行相似度计算，不再依次与每一个参考短信的参考词向量进行相似度计算，能够大大减小相似短信检测的计算量，提高相似短信检测的效率。

S23获得每条待选短信的待选特征词向量。需要说明的是，S23与S21～S22执行时先后之分，可以在执行S21～S22之前、之后或同时执行S23。获得待选短信的待选特征词向量的方法与获得一条参考短信的特征词向量的方法相同，先对待选短信进行分词并获得每个分词的词向量，再根据每个分词的词向量和语料词矩阵获得待选特征词向量。

在获得待选短信的待选特征词向量和至少一条参考短信的参考特征词向量之后，执行S24计算获得参考特征词向量与每条待选特征词向量之间的相似度。待选短信为短信数据库中的所有短信、垃圾短信或者与已确定的伪基站发送的参考短信同类别的短信。例如：假设已确定的伪基站发送的参考短信为诈骗短信，那么待选短信则为短信数据库中除已确定的伪基站发送的短信外的其它诈骗短信；当然，若已确定的伪基站发送的参考短信既包括诈骗短信又包括广告短信，那么待选短信则可以为短信数据库中已确定的伪基站发送的短信外的其它诈骗短信和广告短信。

S24在获得参考特征词向量与每个待选特征词向量之间的相似度时，可以获得两个向量之间的余弦值来表征两个向量之间的相似度，即余弦相似度；也可以获得两个向量之间的相关系数连表征连个向量之间的相似度。

计算获得参考特征词向量与待选特征词向量之间的余弦值，将该余弦值作为参考特征词向量与待选特征词向量之间的相似度时，表达式为：

s i m (x, y) = c o s (x, y) = \frac{Σ_{i = 1}^{n} x_{i} \cdot y_{i}}{{(Σ_{i = 1}^{n} {x_{i}}^{2} \cdot Σ_{i = 1}^{n} {y_{i}}^{2})}^{1 / 2}}

其中，x、y分别表示参考特征词向量、待选特征词向量，sim(x，y)表示参考特征词向量与待选特征词向量之间的相似度，cos(x，y)参考特征词向量与待选特征词向量之间的余弦值，x_i表示参考特征词向量中的元素，y_i表示参考特征词向量中的元素，n为参考特征词向量、待选特征词向量的维度。一般在计算前需要对向量中的各元素进行无量纲化处理，使各个元素都为正，获得的余弦值的取值范围为[0,1]，取值越大表明两个向量之间夹角越小，两个向量越接近，值为1时，两个向量完全相同。

计算获得参考特征词向量与待选特征词向量之间的相关系数，将相关系数作为相似度时，表达式为：

其中，r(x，y)表示参考特征词向量与待选特征词向量之间的相关系数，相关系数是多元统计学中用来衡量两组变量之间线性密切程度的无量纲指标，取值范围为[0,1]，值越大相关性越强，当值为1时，两个向量完全相同。

需要说明的是，本申请实施例并不限制词向量之间相似度的具体算法，除了通过余弦值、相关系数计算相似度，还可以通过广义Dice系数、广义Jaccard系数计算相似度，不同的算法获得的相似度对应的设定阈值不同。

在S24获得参考特征词向量和每个待选特征词向量之间的相似度之后，进一步执行S25将相似度大于设定阈值的每个待选特征词向量对应的待选短信确定为与至少一条参考短信相似的目标短信。设定阈值可以由设计人员根据实验数据，针对不同的相似度算法进行设置，例如：采用余弦相似度时，设定阈值可以为0.78；采用相关系数相似度时，设定阈值可以为0.8。执行25时可以先判断参考特征词向量和一个待选特征词向量之间的相似度是否大于设定阈值，若判断出相似度不大于设定阈值时，表明参考特征词向量与待选特征词向量不是很接近，当前流程结束。若判断出相似度大于设定阈值时，表明参考特征词向量与待选特征词向量很接近，将该待选特征词向量对应的待选短信确定为与至少一条参考短信相似的目标短信。

例如：假设参考短信为“您的航班因故取消，请拨打……”，一条参考短信为“您的机票出票失败，请登录……”，虽然分词“航班”与“机票”、“取消”与“失败”、“拨打”与“登录”之间不互为近义词，但通过计算获得该参考短信的参考特征词向量与待选短信的待选特征词向量之间的余弦相似度为0.8大于设定阈值，可以确定出待选短信与该参考短信相似，并将其作为目标短信。

S11针对获得的至少两条目标短信，获得每条目标短信对应的目标信息中心号码。一条目标短信对应一个目标信息中心号码，但是多条目标短信可能对应同一个目标信息中心号码，所以同一个目标信息中心号码可能出现多次，而多次出现的目标信息中心号码可能是伪基站的中心号码，因此本申请实施例在S11之后，进一步执行S12获得所有目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码。第一阈值可以为10％、25％、50％等，本申请实施例并不限制第一阈值的具体取值，设计人员可以根据至少两条目标短信中实际的短信数量进行具体设置。例如：在一天内新获得的目标短信为1000条，那么第一阈值可以设置为25％，即1000条目标短信中若有251条目标短信的目标信息中心号码均相同为“0086……”，那么则可以获得这个出现概率为25.1％的目标信息中心号码“0086……”并将其作为疑似伪基站中心号码。

S12获得的疑似伪基站中心号码后，为了进一步确定该疑似伪基站中心号码是否为伪基站中心号码，继续执行S13获得在预设时间周期内通过疑似伪基站中心号码发送的所有下发短信。预设时间周期可以设置为1～7天，因为伪基站可以模拟任何信息中心号码转发短信，但伪基站所使用的信息中心号码变更频率通常不会太频繁，较佳的，可以将预设时间周期设置为1或3天，使得获得的下发短信不至于过多，加快伪基站中心号码的检测速度，同时为了尽可能多的检测出伪基站中心号码，可以提高检测伪基站中心号码的频率，例如可以每天检测1次。

S14判断通过疑似伪基站中心号码发送的所有下发短信中垃圾短信的比例是否大于第二阈值。为了避免伪基站中心号码的误判，可以将第二阈值设置为大于等于90％。若判断出通过疑似伪基站中心号码发送的所有下发短信中垃圾短信的比例不大于第二阈值，则表明第二信息中心号码在发送垃圾短信的同时也发送很多正常短信，暂时无法确定其是否为伪基站中心号码，不对该疑似伪基站中心号码执行任何操作。反之，若判断出通过疑似伪基站中心号码发送的所有下发短信中垃圾短信的比例大于第二阈值，则表明该疑似伪基站中心号码发送的短信绝大多数甚至全部为垃圾短信，那么接着执行S15。

S15若所有下发短信中垃圾短信的比例大于第二阈值，确定疑似伪基站中心号码为伪基站中心号码。例如：通过反查疑似伪基站中心号码“0086……”发送的所有下发短信，其中99％以上的下发短信均为广告短信，那么将疑似伪基站中心号码“0086……”确定为伪基站中心号码。进一步的，将确定的伪基站中心号码存储于预置的伪基站黑名单中，并将该伪基站黑名单预存在移动终端中，其中，伪基站黑名单可以通过远程服务器实时进行更新。当读取到短信的信息中心号码之后，将该短信的信息中心号码与伪基站黑名单中的伪基站中心号码进行匹配查询，若匹配命中，则确定发送该短信的基站为伪基站。

在判断出疑似伪基站中心号码发送的所有下发短信中垃圾短信的比例大于第二阈值时，还可以进一步通过在预置的信息中心号码地区编码与归属地之间的对应关系中进行查询匹配，来确定该疑似伪基站中心号码的归属地；并根据下发短信发送方号码，通过在预置的短信发送方号码地区编码与归属地之间的对应关系中进行查询匹配，来确定该下发短信发送方号码的归属地；随后，判断该疑似伪基站中心号码的归属地与该短信息发送方号码的归属地是否相同，若不相同，确定该疑似伪基站中心号码为伪基站中心号码。例如，根据疑似伪基站中心号码“+8613800210500”，确定该疑似伪基站中心号码的归属地为上海；并根据下发短信发送方号码“13591805555”，确定该下发短信发送方号码的归属地属于辽宁沈阳；则判断该疑似伪基站中心号码的归属地与该下发短信发送方号码的归属地不相同，那么确定该疑似伪基站中心号码为伪基站中心号码。

在具体实施过程中，由于移动终端在被强行接入伪基站提供的大功率网络中，并与正常网络脱离，因此无法对伪基站发送的短信进行识别和拦截。为此，本申请实施例在检测确定疑似伪基站中心号码是伪基站中心号码后，进一步将该伪基站中心号码发送至移动终端，以使移动终端执行将伪基站中心号码发送的短信作为拦截对象进行拦截的操作。例如：假设通过检测确定疑似伪基站中心号码“0186……”为伪基站中心号码，那么将“0186……”作为伪基站中心号码下发至各手机，手机在接收到短信A时，可以获得短信A的信息中心号码，并与已有的伪基站中心号码进行比对，若比对成功，短信A的信息中心号码为伪基站中心号码，那么可以直接将短信A当作拦截对象进行拦截。

因为伪基站中心号码可以不断的变化，若能够确定出伪基站中心号码的设置规则，那么根据这个规则能够更多、更全面的拦截伪基站发送的短信。所以，本申请实施例还进一步获得伪基站中心号码规则。首先，获得至少两个伪基站中心号码，其中，伪基站中心号码的数量越多越好。然后，判断至少两个伪基站中心号码中是否存在至少一个固定数字位上对应至少一个固定数字的至少两个中心号码；若存在至少两个中心号码在至少一个固定数字位上对应至少一个固定数字，那么将在至少一个固定数字位上对应至少一个固定数字建立为一条伪基站中心号码规则并保存；反之，若不存，则不执行建立伪基站中心号码规则的操作。

例如：假设已确定的10个伪基站中心号码中包含“013312340000”、“01338340000”、“013385960000”、“013374190000”、“013352310000”……，而这10个伪基站中心号码中有5个伪基站中心号码的前4为均为0133、后四位均为0000，即存在5个伪基站中心号码的前4位和后4位分别对应4个固定数字，那么建立一条伪基站中心号码规则如“0133****0000”，其中*表示任意数，即满足规则“0133****0000”的所有信息中心号码均为伪基站中心号码。同样的，在建立该伪基站中心号码规则后，可将该规则下发至移动终端，通过移动终端对满足该规则的信息中心号码发送的短信进行拦截。

进一步的，依据上述实施例建立的伪基站中心号码规则，本发明实施例还提供一基于伪基站的恶意短信息处理方法，包括：判断移动终端接收的短信息的信息中心号码是否命中伪基站中心号码规则；并在判断出命中伪基站中心号码规则时，获得接收的短信息中包含的伪基站特征，根据数据库中保存的恶意伪基站名单确定所述伪基站特征是否为恶意伪基站特征；当伪基站特征为恶意伪基站特征时，确定短信息为恶意短信息并对恶意短信息执行安全处理操作。因此，本发明实施例提供的基于伪基站的恶意短信息处理方法解决了现有技术中当短信息结合伪基站进行发送时，无法确定短信息是否为恶意短信息，进而进行相应处理的问题。依据本发明实施例提供的基于伪基站的恶意短信息处理方法，执行“判断移动终端接收的短信息的信息中心号码是否命中伪基站信息中心号码规则”步骤，判断出短信息自身是否携带伪基站特征，并获得短信息中携带的伪基站特征是否为恶意伪基站的目的。因此当短信息结合伪基站进行发送时，能够确定短信息是否为恶意短信息，并在确定短信息为恶意短信息时，对恶意短信息执行相应处理(例如直接拦截恶意短信息或者在用户对恶意短信息进行查看时提示用户该短信息为恶意短信息)。

在上述实施例中，通过查找获得与已确定的伪基站发送的短信或已确定的垃圾短信相似的目标短信获得疑似伪基站中心号码，再反查疑似伪基站中心号码发送的所有短信，并判断疑似伪基站中心号码发送的所有短信是否绝大部分都是垃圾短信，从而根据判断结果确定这个疑似伪基站中心号码是否为伪基站的中心号码，从而可以根据短信息中心号码判别出短信的发送方是否为伪基站，解决了现有技术中无法判别短信的发送方是否是伪基站的技术问题，到达了有效识别伪基站短信的有益技术效果。

基于同一发明构思，本申请实施例还提供一种检测伪基站中心号码的服务器，请参考图3，该服务器包括：

第一号码获取模块31，用于获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码，所述目标短信属于垃圾短信中的至少一类短信；

第二号码获取模块32，用于获得所有所述目标信息中心号码中出现概率大于第一阈值的信息中心号码作为疑似伪基站中心号码；

短信查询模块33，用于获得在预设时间周期内通过所述疑似伪基站中心号码发送的所有下发短信；

判断模块34，用于判断所述所有下发短信中垃圾短信的比例是否大于第二阈值；

确定模块35，用于若所述所有下发短信中垃圾短信的比例大于第二阈值，确定所述疑似伪基站中心号码为伪基站中心号码。

本申请实施例中提及的垃圾短信包括：诈骗短信、骚扰短信、广告短信等对用户无用的、甚至会给用户带来不良影响的短信。

在具体实施过程中，所述服务器还包括：第三号码获取模块36，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，获得至少两个所述伪基站中心号码；规则建立模块37，用于判断所述至少两个所述伪基站中心号码中是否存在少一个固定数字位上对应至少一个固定数字的至少两个中心号码；若存在，将在所述至少一个固定数字位上对应所述至少一个固定数字建立为一条伪基站中心号码规则并保存。

针对已确定的伪基站中心号，为了使用户手机能够及时拦截伪基站中心号发送的短信，本申请实施例提供的检测伪基站中心号码的服务器还包括：发送模块38，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，将所述伪基站中心号码发送至移动终端，以使所述移动终端执行将所述伪基站中心号码发送的短信作为拦截对象进行拦截的操作。

在具体实施过程中，为了获得目标短信，所述服务器还包括：相似短信获取模块39，用于在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，获得与至少一条参考短信相似的所述至少两条目标短信，所述参考短信为已确定的伪基站发送的短信。

其中，所述相似短信获取模块39包括：第一向量获取子模块，用于对每条所述参考短信进行分词，并根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量；第二向量获取子模块，用于根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量；第三向量获取子模块，用于获得每条待选短信的待选特征词向量；计算子模块，用于计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度；确定子模块，用于将所述相似度大于设定阈值的每个所述待选特征词向量对应的待选短信确定为与所述至少一条参考短信相似的所述目标短信。

具体的，所述第一向量获取子模块用于：分别将每条所述参考短信的所述每个分词输入词向量工具获得所述每个分词的词向量；通过将每条所述参考短信的所有分词的词向量的乘积与所述语料词矩阵相乘获得所述特征词向量。

具体的，所述第二向量获取子模块用于：当所述至少一条参考短信的参考短信数量为1时，将所述参考短信的所述特征词向量作为所述至少一条参考短信的所述参考特征词向量；或者，当所述至少一条参考短信的所述参考短信数量大于等于2时，获得所述至少一条参考短信中的每条参考短信的特征词向量的均值作为所述参考特征词向量。

具体的，所述计算子模块用于：计算获得所述参考特征词向量与每条所述待选特征词向量之间的余弦值，将所述余弦值作为所述相似度；或者，计算获得所述目标词向量与所述待选特征词向量之间的相关系数，将所述相关系数作为所述相似度。

根据本发明的一种检测伪基站中心号码的方法及服务器，通过获得多个目标短信的目标信息中心号码，并从中获得出现概率较高的疑似伪基站中心号码，再反查出现概率较高的疑似伪基站中心号码发送的所有短信是否绝大部分都是垃圾短信，若是，便可确定这个疑似伪基站中心号码是伪基站的中心号码，从而检测出伪基站中心号码，进而可以根据该中心号码判别出短信的发送方是否为伪基站，解决了现有技术中无法判别短信的发送方是否是伪基站的技术问题，到达了有效识别伪基站短信的有益技术效果。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1、一种检测伪基站中心号码的方法，其特征在于，包括：

A2、根据A1所述的方法，其特征在于，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：

获得至少两个所述伪基站中心号码；

判断所述至少两个所述伪基站中心号码中是否存在少一个固定数字位上对应至少一个固定数字的至少两个中心号码；

若存在，将在所述至少一个固定数字位上对应所述至少一个固定数字建立为一条伪基站中心号码规则并保存。

A3、根据A1所述的方法，其特征在于，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：

将所述伪基站中心号码发送至移动终端，以使所述移动终端执行将所述伪基站中心号码发送的短信作为拦截对象进行拦截的操作。

A4、根据A1所述的方法，其特征在于，所述垃圾短信包括：诈骗短信、骚扰短信及广告短信。

A5、根据A1～A4任一所述的方法，其特征在于，在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，所述方法还包括：

获得与至少一条参考短信相似的所述至少两条目标短信，所述参考短信为已确定的伪基站发送的短信。

A6、根据A5所述的方法，其特征在于，所述获得与至少一条参考短信相似的所述至少两条目标短信，包括：

对每条所述参考短信进行分词，并根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量；

根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量；

获得每条待选短信的待选特征词向量；

计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度；

将所述相似度大于设定阈值的每个所述待选特征词向量对应的待选短信确定为与所述至少一条参考短信相似的所述目标短信。

A7、根据A6所述的方法，其特征在于，所述根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量，包括：

分别将每条所述参考短信的所述每个分词输入词向量工具获得所述每个分词的词向量；

通过将每条所述参考短信的所有分词的词向量的乘积与所述语料词矩阵相乘获得所述特征词向量。

A8、根据A6所述的方法，其特征在于，所述根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量，包括：

当所述至少一条参考短信的参考短信数量为1时，将所述参考短信的所述特征词向量作为所述至少一条参考短信的所述参考特征词向量；或者

当所述至少一条参考短信的所述参考短信数量大于等于2时，获得所述至少一条参考短信中的每条参考短信的特征词向量的均值作为所述参考特征词向量。

A9、根据A6所述的方法，其特征在于，所述计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度，包括：

计算获得所述参考特征词向量与每条所述待选特征词向量之间的余弦值，将所述余弦值作为所述相似度；或者

计算获得所述目标词向量与所述待选特征词向量之间的相关系数，将所述相关系数作为所述相似度。

本发明还公开了，B10、一种检测伪基站中心号码的服务器，其特征在于，包括：

B11、根据B10所述的服务器，其特征在于，所述服务器还包括：

第三号码获取模块，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，获得至少两个所述伪基站中心号码；

规则建立模块，用于判断所述至少两个所述伪基站中心号码中是否存在少一个固定数字位上对应至少一个固定数字的至少两个中心号码；若存在，将在所述至少一个固定数字位上对应所述至少一个固定数字建立为一条伪基站中心号码规则并保存。

12、根据B10所述的服务器，其特征在于，所述服务器还包括：

发送模块，用于在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，将所述伪基站中心号码发送至移动终端，以使所述移动终端执行将所述伪基站中心号码发送的短信作为拦截对象进行拦截的操作。

B13、根据B10所述的服务器，其特征在于，所述垃圾短信包括：诈骗短信、骚扰短信及广告短信。

B14、根据B10～B13任一所述的服务器，其特征在于，所述服务器还包括：

相似短信获取模块，用于在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，获得与至少一条参考短信相似的所述至少两条目标短信，所述参考短信为已确定的伪基站发送的短信。

B15、根据B14所述的服务器，其特征在于，所述相似短信获取模块包括：

第一向量获取子模块，用于对每条所述参考短信进行分词，并根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量；

第二向量获取子模块，用于根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量；

第三向量获取子模块，用于获得每条待选短信的待选特征词向量；

计算子模块，用于计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度；

确定子模块，用于将所述相似度大于设定阈值的每个所述待选特征词向量对应的待选短信确定为与所述至少一条参考短信相似的所述目标短信。

B16、根据B15所述的服务器，其特征在于，所述第一向量获取子模块用于：

B17、根据B15所述的服务器，其特征在于，所述第二向量获取子模块用于：

B18、根据B15所述的服务器，其特征在于，所述计算子模块用于：

Claims

1.一种检测伪基站中心号码的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：

获得至少两个所述伪基站中心号码；

3.如权利要求1所述的方法，其特征在于，在所述确定所述疑似伪基站中心号码为伪基站中心号码之后，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述垃圾短信包括：诈骗短信、骚扰短信及广告短信。

5.如权利要求1～4任一所述的方法，其特征在于，在所述获得至少两条目标短信中每条所述目标短信对应的目标信息中心号码之前，所述方法还包括：

6.如权利要求5所述的方法，其特征在于，所述获得与至少一条参考短信相似的所述至少两条目标短信，包括：

获得每条待选短信的待选特征词向量；

7.如权利要求6所述的方法，其特征在于，所述根据每条所述参考短信的每个分词和语料词矩阵获得每条所述参考短信的特征词向量，包括：

8.如权利要求6所述的方法，其特征在于，所述根据所述至少一条参考短信的至少一个特征词向量，获得所述至少一条参考短信的参考特征词向量，包括：

9.如权利要求6所述的方法，其特征在于，所述计算获得所述参考特征词向量与每条所述待选特征词向量之间的相似度，包括：

10.一种检测伪基站中心号码的服务器，其特征在于，包括：