CN105488031B

CN105488031B - 一种检测相似短信的方法及装置

Info

Publication number: CN105488031B
Application number: CN201510907340.7A
Authority: CN
Inventors: 张金晶; 李强; 常富洋
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2018-10-19
Anticipated expiration: 2035-12-09
Also published as: CN105488031A

Abstract

本发明公开了一种检测相似短信的方法及装置，该方法包括：对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；判断所述相似度是否大于设定阈值；若所述相似度大于所述设定阈值，确定所述目标短信与所述至少一条或至少一类参考短信相似。在上述技术方案中，通过将目标短信和参考短信转换成词向量，并计算短信的词向量之间的相似度用以获得与参考短信相似的目标短信，从而检测出新的短信，进而解决了现有技术中对新短信的识别存在滞后的技术问题，提高了对新短信的识别效率。

Description

一种检测相似短信的方法及装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种检测相似短信的方法及装置。

背景技术

随着科学技术的不断发展，通信技术得到了飞速的发展，通信的方式多种多样，包括电话、短信、email等。

短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为它使用的广泛和成本低廉被不法分子所利用。人们常常会收到不法分子发送的银行卡被盗、航班取消、积分兑换等诈骗短信，稍有不慎就会被不法分子诈骗。为了减少人们被诈骗的几率，现有技术通常采用标记、筛查的办法帮助用户识别诈骗短信，具体过程如下：通过用户对已识别的诈骗短信进行标记并上报服务器，服务器根据已有的诈骗短信对待发送的短信进行比对，若发现相同的短信，则进行拦截或提示收信终端用户该短信可能为诈骗短信，使用户勿轻信上当受骗。

然后，诈骗短信的类型层出不穷，现有技术中的方法只能基于已标记的即已确定的诈骗短信来拦截诈骗短信或提示用户，无法及时发现新的诈骗短信，对诈骗短信的识别和拦截存在滞后性。另外，除了诈骗短信，其它新短信的识别也存在滞后性。可见，现有技术中存在对新短信的识别滞后的技术问题。

发明内容

本发明实施例提供一种检测相似短信的方法及装置，用于解决现有技术中对新短信的识别存在滞后的技术问题，提高对新短信的识别效率。

本申请实施提供一种检测相似短信的方法，所述方法包括：

对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；

获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；

判断所述相似度是否大于设定阈值；

若所述相似度大于所述设定阈值，确定所述目标短信与所述至少一条或至少一类参考短信相似。

可选的，所述根据每个分词和语料词矩阵获得所述目标短信的目标词向量，包括：分别将所述每个分词输入词向量工具获得所述每个分词的词向量；通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。

可选的，获得所述目标词向量和设定词向量之间的相似度，包括：计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度；或者，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。

可选的，所述设定词向量为至少一类参考短信的词向量时，所述方法还包括：获得所述至少一类参考短信中的每条参考短信的参考词向量；获得所述每条参考短信的参考词向量的均值作为所述设定词向量。

可选的，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；获得所述N条短信中与所述目标短信相同或相似的短信数量M；判断M/N是否大于第一预设比例；若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。

可选的，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；判断所述N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；若M与N的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。

可选的，所述参考短信包括：垃圾短信、诈骗短信或骚扰短信。

可选的，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记；获得用户对所述目标短信所做的标记信息；若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码；将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。

可选的，若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，所述方法还包括：建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。

本申请实施例还提供一种检测相似短信的装置，所述装置包括：

词向量获取模块，用于对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；

相似度计算模块，用于获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；

判断模块，用于判断所述相似度是否大于设定阈值；

第一确认模块，用于在所述相似度大于所述设定阈值时，确定所述目标短信与所述至少一条或至少一类参考短信相似。

可选的，所述词向量获取模块，包括：传输子模块，用于分别将所述每个分词输入词向量工具获得所述每个分词的词向量；运算子模块，用于将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。

可选的，所述相似度计算模块，包括：第一计算子模块，用于计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度；或者，第二计算子模块，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。

可选的，所述设定词向量为至少一类参考短信的词向量时，所述装置还包括：参考词向量获取模块，用于获得所述至少一类参考短信中的每条参考短信的参考词向量；设定词向量获取模块，用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。

可选的，当所述参考短信为恶意短信时，所述装置还包括：第一查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；第二确认模块，用于获得所述N条短信中与所述目标短信相同或相似的短信数量M；判断M/N是否大于第一预设比例；若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。

可选的，当所述参考短信为恶意短信时，所述装置还包括：第二查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；第三确认模块，用于判断所述N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；若M与N的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。

可选的，所述装置还包括：添加模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记；获得用户对所述目标短信所做的标记信息；若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码；将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。

可选的，所述添加模块还用于：若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

通过将目标短信和参考短信转换成词向量，并计算目标短信和参考短信的词向量之间的相似度，从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似，获得与参考短信相似的目标短信，检测出新的短信如诈骗短信、广告短信、骚扰短信等，进而解决了现有技术中对新短信的识别存在滞后的技术问题，提高了对新短信的识别效率。

附图说明

图1为本申请实施例一提供的一种检测相似短信的方法的流程图；

图2为本申请实施例一提供的确认恶意短信的流程图；

图3为本申请实施例提供二的一种检测相似短信的装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

在本申请实施例提供的技术方案中，通过词向量来检测相似短信，以尽早检测数据库中没有的垃圾短信，从而解决现有技术中对新短信的识别存在滞后的技术问题，提高对新短信的识别效率。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例一

请参考图1，本申请实施例提供一种检测相似短信的方法，该方法包括

S11：对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；

S12：获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；

S13：判断所述相似度是否大于设定阈值；

S14：若所述相似度大于所述设定阈值，确定所述目标短信与所述至少一条或至少一类参考短信相似。

执行S11对目标短信进行分词时，可以将收到的所有短信作为目标短信进行分词，也可以先对收到的短信通过分类模型进行分类，将特定类别的短信作为目标短信。具体的，本申请实施例通过获得已有诈骗短信的类型来确定目标短信，例如：不法分子通常会利用航班取消等缘由实施诈骗、利用积分兑换的缘由实施诈骗、利用银行卡被冻结等缘由实施诈骗，那么可将类别为航空类、积分兑换类、银行卡类的短信作为目标短信，针对特定类别的短信进行相似短信的挖掘能够大大提高获取新诈骗短信的效率。

针对获得的目标短信进行分词，将目标短信拆分成多个分词，例如：假设目标短信为“您的航班取消了”，可以采用阿里分词将目标短信分为“您”、“您的”、“航班”及“取消”，分词时除了采用阿里分词，还可以采用IKAnalyzer、盘古分词等分词工具进行分词，本申请实施例不限制分词使用的具体工具。每一个分词都有特定的语义，而特定的语义可以由不同的分词来表示，但是若仅仅根据近义词来查找相似短信，如利用“航班”、“取消”的近义词“飞机”、“取缔”等来获得相似短信，是无法检测“机票出票失败”等语义相似的新短信。

为此，本申请实施例在分词后，进一步获得每个分词的词向量，通过词向量来表示每个分词的语义。词向量为通过训练将语言中的每一个词映射成一个固定长度的向量，可以通过将每个分词输入词向量工具获得每个分词的词向量，例如可以通过word2vec工具把每个分词当做特征映射到K维空间获得分词的词向量。其中，词向量工具中包含有语料词矩阵，该语料词矩阵中为n*k的矩阵，n为数据库中的分词量，k为每个词的维度，假设某一词向量工具中包含800个分词、设定的词向量的维度为100，那么该语料词矩阵则为800*100的矩阵。将分词输入词向量工具，词向量工具会得到一个表示该分词位置的向量并将这个向量与语料词矩阵相乘便可获得并输出这个分词的词向量。

在获得目标短信的每个分词的词向量之后，进一步的，为了表示目标短信的语义，通过将目标短信的所有分词的词向量的乘积与语料词矩阵相乘获得目标短信的目标词向量。例如：假设该语料词矩阵为800*100的矩阵T，若目标短信的有10个分词，n1～n10分别表示这10个分词的词向量，将n1*n2*…n10的乘积与语料词矩阵T相乘获得目标短信的目标词向量，即目标词向量等于n1*n2*…n10*T。

在S11获得目标短信的目标词向量后，执行S12获得目标词向量和设定词向量之间的相似度。设定词向量为至少一条或至少一类参考短信的词向量，参考短信包括垃圾短信、恶意短信或具有指定用途的短信。垃圾短信为用户不想接收到的但对用户无害的短信如广告短信；恶意短信包含诈骗短信、骚扰短信等可能对用户造成人身、财产伤害的短信；指定用途的短信为快递、验证码、缴费提示等特殊用途的短信。下面以诈骗短信为例对本申请实施例的方法进行说明。设定词向量的获得分以下两种情况：

(1)当设定词向量为一条参考短信的词向量时，与S11获得目标短信的目标词向量的方法相同：先对该参考短信进行分词，然后将各个分词分别输入词向量工具中获得各个分词的词向量，再将各个分词的词向量的乘积与语料词矩阵相乘获得设定词向量。

(2)当设定词向量为一类参考短信的词向量时，先采用情况(1)的方法获得一类参考短信中的每条参考短信的参考词向量，再获得每条参考短信的参考词向量的均值作为这一类参考短信的设定词向量。具体的，设定词向量可以通过公式(m1+m2+…mn)*1/n，mn表示第n条参考短信的参考词向量，n表示一类参考短信中包含的参考短信的数量。例如：假设一类航空诈骗短信中包含10条航空诈骗短信，每条航空诈骗短信的参考词向量分别为m1～m10，那么每条参考短信的参考词向量的均值可以通过公式(m1+m2+…m10)*0.1计算获得。利用一类参考短信的设定词向量来进行相似短信检测时，将目标短信的目标词向量与一个设定词向量进行相似度计算，不再依次与每一个参考短信的参考词向量进行相似度计算，能够大大减小相似短信检测的计算量，提高相似短信检测的效率。

S12在获得目标词向量与设定词向量之间的相似度时，可以获得两个向量之间的余弦值来表征两个向量之间的相似度，即余弦相似度；也可以获得两个向量之间的相关系数连表征连个向量之间的相似度。

计算获得目标词向量与设定词向量之间的余弦值，将该余弦值作为目标词向量与设定词向量之间的相似度时，表达式为：

其中，x、y分别表示目标词向量、设定词向量，sim(x，y)表示目标词向量与设定词向量之间的相似度，cos(x，y)目标词向量与设定词向量之间的余弦值，x_i表示目标词向量中的元素，y_i表示目标词向量中的元素，n为目标词向量、设定词向量的维度。一般在计算前需要对向量中的各元素进行无量纲化处理，使各个元素都为正，获得的余弦值的取值范围为[0,1]，取值越大表明两个向量之间夹角越小，两个向量越接近，值为1时，两个向量完全相同。

计算获得目标词向量与设定词向量之间的相关系数，将相关系数作为相似度时，表达式为：

其中，r(x，y)表示目标词向量与设定词向量之间的相关系数，相关系数是多元统计学中用来衡量两组变量之间线性密切程度的无量纲指标，取值范围为[0,1]，值越大相关性越强，当值为1时，两个向量完全相同。

需要说明的是，本申请实施例并不限制词向量之间相似度的具体算法，除了通过余弦值、相关系数计算相似度，还可以通过广义Dice系数、广义Jaccard系数计算相似度，不同的算法获得的相似度对应的设定阈值不同。

S12获得目标词向量和设定词向量之间的相似度之后，进一步执行S13判断获得的该相似度是否大于设定阈值。设定阈值可以由设计人员根据实验数据，针对不同的相似度算法进行设置，例如：采用余弦相似度时，设定阈值可以为0.78；采用相关系数相似度时，设定阈值可以为0.8。当S13判断出相似度不大于设定阈值时，表明目标词向量与设定词向量不是很接近，当前流程结束。当S13判断出相似度大于设定阈值时，表明目标词向量与设定词向量很接近，继续执行S14。

S14若目标词向量和设定词向量之间的相似度大于设定阈值，确定目标短信与设定词向量对应的至少一条或至少一类参考短信相似。例如：假设目标短信为“您的航班因故取消，请拨打……”，一条参考短信为“您的机票出票失败，请登录……”，虽然分词“航班”与“机票”、“取消”与“失败”、“拨打”与“登录”之间不互为近义词，但通过计算获得该目标短信的目标词向量与参考短信的设定词向量之间的余弦相似度为0.8大于设定阈值，可以确定出目标短信与该参考短信相似。

针对S14确定出的相似目标短信，本申请实施例还将该目标短信作为参考短信添加到参考短信库中，以为后续的相似短信挖掘或垃圾短信判别提供样本。当然，也可以在确定出目标短信与参考短信相似之后，通过人工进行进一步判别该目标短信是否为诈骗短信、广告短信、骚扰短信等特定类别的新短信，在确定出目标短信为特定类别的新短信时，将其添加到参考短信库中。

进一步的，本申请实施例还在确定出目标短信与参考短信相似之后，生成并显示一用于提示用户对目标短信进行标记的提示信息，具体可以在用户阅读该目标短信后显示该提示信息。然后，获得用户对目标短信所做的标记信息，判断该标记信息是否表征该目标短信属于垃圾短信或恶意短信。若该标记信息表征该目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码。具体实现时，通信终端设备中的操作系统一般会为应用程序开放一些接口，供应用程序从系统中获取所需的信息。因此，在本发明实施例中，为了能够对通信终端的短信接收情况进行监测，可以在通信终端中运行一应用程序，然后就可以利用通信终端系统的这一特点，在操作系统中对应用程序进行注册。这样，当操作系统广播通知消息时，应用程序就能够收听到这种通知消息，并从中获取所需的信息。例如，当接收短信时，通信终端的操作系统就会广播该短信接收消息，并携带短信发送方的电话号码，这样，应用程序就能够监测到该事件，并从中获取到短信发送方的电话号码。

在获得被标记的目标短信发送方的电话号码后，标记该电话号码为发送过垃圾短信或恶意短信的电话号码，及将该电话号码添加到分析其归属地和/或地区编码号段的行列中，以进一步分析该电话号码的来源。进一步的，在该目标号码被标记为属于垃圾短信或恶意短信时，本申请实施例还建立目标号码的标记信息与其电话号码之间的对应关系并保存到预置数据库中，使得通信终端能够根据该预置数据库中存储的对应关系，在接收到该电话号码的短信时，将该短信确认为其标志信息对应的短信类型，或者拒收该短信。

请参考图2，在具体实施过程中，本申请实施例为了能够及时检测新的诈骗短信，当参考短信为恶意短信时，在确定出目标短信与该恶意短信相似之后，还在执行如下步骤：

S21、获得目标短信的中心号及查询获得该中心号发出的N条短信。该N条短信可以为该中心号发出的所有短信。短信的中心号又叫信息中心号码是一种短信息服务器，用于帮助用户转发短信或发送服务类短信。

S22、获得该中心号发送的N条短信中与目标短信相同或相似的短信数量M。其中，判断N条短信中与目标短信相似的短信可以采用上述S11～S14提供的方法。

S23、判断M/N是否大于第一预设比例。若判断出M/N不大于第一预设比例，表明该中心号发送的短信中诈骗短信所占比例不是特别大，既有诈骗短信又有其他短信，此时可以对该短信中心号进行进一步观察。若判断出M/N大于第一预设比例，表明该中心号发送的短信中诈骗短信所占比例非常大，继续执行S24。为了避免误判，第一预设比例可以设置为95％以上。

S24、若M/N大于第一预设比例，确定目标短信为新的恶意短信、中心号为伪基站的中心号。例如：在确定出目标短信与诈骗短信相似时，获得该目标短信的中心号为“0270……”，该中心号“0270……”发送的所有100万条短信中均与目标短信相似，即该中心号“0270……”发送的短信均与诈骗短信相似，那么确定该目标短信为新的诈骗短信、该中心号“0270……”为伪基站的中心号。

由于伪基站很为了避免其发送的非法短信被拦截，除了发送诈骗短信外还发送一些正常的短信，本申请实施例为了避免误判，还可以在M/N大于第一预设比例时，对目标短信进行标记，以供技术人员判别目标短信是否为新的诈骗短信。

本申请实施例针对被确认出与恶意短信相似的目标短信时，还可以执行如下步骤：获得目标短信的中心号，及查询获得中心号发出的N条短信；判断该中心号发出的N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，黑短信包含诈骗短信、广告短信、骚扰短信；若M与N的比值大于第二预设比例，标记目标短信以供技术人员判别所述目标短信是否为新的恶意短信。上述步骤通过判断中心号发出的短信的黑白属性，若该中心号发出的短信大部分为黑短信，那么其发出的目标短信为诈骗短信的可能性就非常大，为此确认该目标短信为疑似恶意短信，通过这种方式减少目标短信与其它短信之间相似性的计算，减少电子设备的计算负担。

上述技术方案中，通过将目标短信和参考短信转换成词向量，并计算目标短信和参考短信的词向量之间的相似度，从而用词向量之间的相似度来判断目标短信与参考短信之间是否相似，获得与参考短信相似的目标短信，检测出新的短信如诈骗短信、广告短信、骚扰短信等，进而解决了现有技术中对新短信的识别存在滞后的技术问题，提高了对新短信的识别效率。

实施例二

请参考图3，本申请实施例针对实施例一提供检测相似短信的方法，还相应的提供一种检测相似短信的装置，该装置包括：

词向量获取模块31，用于对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；

相似度计算模块32，用于获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；

判断模块33，用于判断所述相似度是否大于设定阈值；

第一确认模块34，用于在所述相似度大于所述设定阈值时，确定所述目标短信与所述至少一条或至少一类参考短信相似。

在具体实施过程中，词向量获取模块31包括：传输子模块和运算子模块，其中传输子模块用于分别将目标短信的每个分词输入词向量工具获得目标短信每个分词的词向量；运算子模块用于将目标短信的所有分词的词向量的乘积与语料词矩阵相乘获得目标词向量。语料词矩阵中为n*k的矩阵，n为数据库中的分词数量，k为每个词的维度。将分词输入词向量工具，词向量工具会得到一个表示该分词位置的向量并将这个向量与语料词矩阵相乘便可获得并输出这个分词的词向量。

该装置中的相似度计算模块32包括第一计算子模块或第二计算子模块，该两个计算子模块分别计算不同参数来表征两个向量的相似度。第一计算子模块用于计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度。第二计算子模块，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。

具体的，第一计算子模块可以通过如下表达式计算获得目标词向量与设定词向量之间的余弦相似度：

其中，x、y分别表示目标词向量、设定词向量，sim(x，y)表示目标词向量与设定词向量之间的相似度，cos(x，y)目标词向量与设定词向量之间的余弦值，x_i表示目标词向量中的元素，y_i表示目标词向量中的元素，n为目标词向量、设定词向量的维度。

第二计算子模块可以通过如下表达式计算获得目标词向量与设定词向量之间的相关系数，用相关系数来表征词向量之间的相似度：

其中，r(x，y)表示目标词向量与设定词向量之间的相关系数，

其中，设定词向量为至少一条或至少一类参考短信的词向量，参考短信包括垃圾短信、恶意短信或具有指定用途的短信。垃圾短信为用户不想接收到的但对用户无害的短信如广告短信；恶意短信包含诈骗短信、骚扰短信等可能对用户造成人身、财产伤害的短信；指定用途的短信为快递、验证码、缴费提示等特殊用途的短信。

当设定词向量为至少一类参考短信的词向量时，所述装置还包括：参考词向量获取模块35和设定词向量获取模块36。参考词向量获取模块35用于获得所述至少一类参考短信中的每条参考短信的参考词向量；设定词向量获取模块36用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。具体的，设定词向量可以通过公式(m1+m2+…mn)*1/n，mn表示第n条参考短信的参考词向量，n表示一类参考短信中包含的参考短信的数量。

当所述参考短信为恶意短信时，所述装置还包括：第一查询模块37和第二确认模块38。第一查询模块37用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；第二确认模块38用于获得所述N条短信中与所述目标短信相同或相似的短信数量M；判断M/N是否大于第一预设比例；若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。

当所述参考短信为恶意短信时，所述装置还包括：第二查询模块39和第三确认模块40。其中，第一查询模块37和第二查询模块39可以是用一个模块。第二查询模块39用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；第三确认模块40用于判断所述N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；若M与N的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。

在具体实施过程中，所述装置还包括：添加模块41，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得用户对所述目标短信所做的标记信息；若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码；将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。

相应的，添加模块41还用于在标记信息表征目标短信属于垃圾短信或恶意短信时，建立标记信息与发送该目标短信的电话号码之间的对应关系并保存到预置数据库中。

针对上述一种检测相似短信的装置，本实施例提供一种移动终端，该移动终端中包括上述一检测相似短信的装置。具体的，该装置包括：词向量获取模块31，用于对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；相似度计算模块32，用于获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；判断模块33，用于判断所述相似度是否大于设定阈值；第一确认模块34，用于在所述相似度大于所述设定阈值时，确定所述目标短信与所述至少一条或至少一类参考短信相似。

具体的，本申请实施例提供的移动终端可以为手机、pad、小灵通等能够收发短信的电子设备。通过在移动终端中设置上述检测相似短信的装置，能对接收到的短信进行相似度判别，检测出新的短信如诈骗短信、广告短信、骚扰短信等，以解决现有技术中对新短信的识别存在滞后的技术问题，提高对新短信的识别效率。

针对上述一种检测相似短信的装置，本实施例还提供一种服务器，该服务器中包括上述一检测相似短信的装置。具体的，该装置包括：词向量获取模块31，用于对目标短信进行分词，并根据每个分词和语料词矩阵获得所述目标短信的目标词向量；相似度计算模块32，用于获得所述目标词向量和设定词向量之间的相似度，其中，所述设定词向量为至少一条或至少一类参考短信的词向量；判断模块33，用于判断所述相似度是否大于设定阈值；第一确认模块34，用于在所述相似度大于所述设定阈值时，确定所述目标短信与所述至少一条或至少一类参考短信相似。

通过本申请实施例中的一个或多个技术方案，可以实现如下技术效果：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本发明公开了A1、一种检测相似短信的方法，其特征在于，包括：

判断所述相似度是否大于设定阈值；

A2、根据A1所述的方法，其特征在于，所述根据每个分词和语料词矩阵获得所述目标短信的目标词向量，包括：

分别将所述每个分词输入词向量工具获得所述每个分词的词向量；

通过将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。

A3、根据A1所述的方法，其特征在于，获得所述目标词向量和设定词向量之间的相似度，包括：

计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度；或者

计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。

A4、根据A1所述的方法，其特征在于，所述设定词向量为所述至少一类参考短信的词向量时，所述方法还包括：

获得所述至少一类参考短信中的每条参考短信的参考词向量；

获得所述每条参考短信的参考词向量的均值作为所述设定词向量。

A5、根据A1所述的方法，其特征在于，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；

获得所述N条短信中与所述目标短信相同或相似的短信数量M；

判断M/N是否大于第一预设比例；

若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。

A6、根据A1所述的方法，其特征在于，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

判断所述N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；

若M与N的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。

A7、根据A1～A6任一所述的方法，其特征在于，所述参考短信包括：垃圾短信、诈骗短信或骚扰短信。

A8、根据A1～A6任一所述的方法，其特征在于，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记；

获得用户对所述目标短信所做的标记信息；

若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过所述垃圾短信或所述恶意短信的电话号码；

将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。

A9、根据A8所述的方法，其特征在于，若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，所述方法还包括：

建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。

本发明还公开了B10、一种检测相似短信的装置，其特征在于，包括：

判断模块，用于判断所述相似度是否大于设定阈值；

B11、根据B10所述的装置，其特征在于，所述词向量获取模块，包括：

传输子模块，用于分别将所述每个分词输入词向量工具获得所述每个分词的词向量；

运算子模块，用于将所有所述分词的词向量的乘积与所述语料词矩阵相乘获得所述目标词向量。

B12、根据B10所述的装置，其特征在于，所述相似度计算模块，包括：

第一计算子模块，用于计算获得所述目标词向量与所述设定词向量之间的余弦值，将所述余弦值作为所述相似度；或者

第二计算子模块，计算获得所述目标词向量与所述设定词向量之间的相关系数，将所述相关系数作为所述相似度。

B13、根据B10所述的装置，其特征在于，所述设定词向量为所述至少一类参考短信的词向量时，所述装置还包括：

参考词向量获取模块，用于获得所述至少一类参考短信中的每条参考短信的参考词向量；

设定词向量获取模块，用于获得所述每条参考短信的参考词向量的均值作为所述设定词向量。

B14、根据B10所述的装置，其特征在于，当所述参考短信为恶意短信时，所述装置还包括：

第一查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；

第二确认模块，用于获得所述N条短信中与所述目标短信相同或相似的短信数量M；判断M/N是否大于第一预设比例；若M/N大于所述第一预设比例，确定所述目标短信为新的恶意短信、所述中心号为伪基站的中心号。

B15、根据B10所述的装置，其特征在于，当所述参考短信为恶意短信时，所述装置还包括：

第二查询模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，获得所述目标短信的中心号，及查询获得所述中心号发出的N条短信；

第三确认模块，用于判断所述N条短信中属性为黑短信的数量M与N的比值是否大于第二预设比例，其中，所述黑短信包含诈骗短信、广告短信、骚扰短信；若M与N的比值大于所述第二预设比例，确定所述目标短信为疑似恶意短信。

B16、根据B10～B15任一所述的装置，其特征在于，所述参考短信包括：垃圾短信、诈骗短信或骚扰短信。

B17、根据B10～B15任一所述的装置，其特征在于，所述装置还包括：

添加模块，用于在确定所述目标短信与所述至少一条或至少一类参考短信相似之后，生成并显示一提示信息，所述提示信息用于提示用户对所述目标短信进行标记；获得用户对所述目标短信所做的标记信息；若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，获得发送所述目标短信的电话号码，并标记所述电话号码为发送过垃圾短信或恶意短信的电话号码；将所述电话号码添加到分析其归属地和/或地区编码号段的行列中。

B18、根据B17所述的装置，其特征在于，所述添加模块还用于：

若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，建立所述标记信息与所述电话号码之间的对应关系并保存到预置数据库中。

本发明还公开了C19、一种移动终端，其特征在于，包括如权利要求B9～B18所述的装置。

本发明还公开了D20、一种服务器，其特征在于，包括如权利要求B9～B18所述的装置。

Claims

1.一种检测相似短信的方法，其特征在于，所述方法包括：

对目标短信进行分词，并根据所述目标短信的每个分词的词向量的乘积和语料词矩阵相乘获得所述目标短信的目标词向量；

判断所述相似度是否大于设定阈值；

2.如权利要求1所述的方法，其特征在于，所述根据所述目标短信的每个分词的词向量的乘积和语料词矩阵相乘获得所述目标短信的目标词向量，包括：

3.如权利要求1所述的方法，其特征在于，获得所述目标词向量和设定词向量之间的相似度，包括：

4.如权利要求1所述的方法，其特征在于，所述设定词向量为所述至少一类参考短信的词向量时，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

判断M/N是否大于第一预设比例；

6.如权利要求1所述的方法，其特征在于，当所述参考短信为恶意短信时，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

7.如权利要求1～6任一所述的方法，其特征在于，所述参考短信包括：垃圾短信、诈骗短信或骚扰短信。

8.如权利要求1～6任一所述的方法，其特征在于，在所述确定所述目标短信与所述至少一条或至少一类参考短信相似之后，所述方法还包括：

获得用户对所述目标短信所做的标记信息；

9.如权利要求8所述的方法，其特征在于，若所述标记信息表征所述目标短信属于垃圾短信或恶意短信，所述方法还包括：

10.一种检测相似短信的装置，其特征在于，所述装置包括：

词向量获取模块，用于对目标短信进行分词，并根据所述目标短信的每个分词的词向量的乘积和语料词矩阵相乘获得所述目标短信的目标词向量；

判断模块，用于判断所述相似度是否大于设定阈值；

11.如权利要求10所述的装置，其特征在于，所述词向量获取模块，包括：

12.如权利要求10所述的装置，其特征在于，所述相似度计算模块，包括：

13.如权利要求10所述的装置，其特征在于，所述设定词向量为所述至少一类参考短信的词向量时，所述装置还包括：

14.如权利要求10所述的装置，其特征在于，当所述参考短信为恶意短信时，所述装置还包括：

15.如权利要求10所述的装置，其特征在于，当所述参考短信为恶意短信时，所述装置还包括：

16.如权利要求10～15任一所述的装置，其特征在于，所述参考短信包括：垃圾短信、诈骗短信或骚扰短信。

17.如权利要求10～15任一所述的装置，其特征在于，所述装置还包括：

18.如权利要求 17所述的装置，其特征在于，所述添加模块还用于：

19.一种移动终端，其特征在于，包括如权利要求9～18任一所述的装置。

20.一种服务器，其特征在于，包括如权利要求9～18任一所述的装置。