CN105959926A

CN105959926A - 垃圾短信的过滤方法及过滤装置

Info

Publication number: CN105959926A
Application number: CN201610560013.3A
Authority: CN
Inventors: 李强; 常富洋; 张金晶
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2016-09-21

Abstract

本发明提供了一种垃圾短信的过滤方法以及过滤装置，该方法包括：服务器拦截发送至第一终端设备中的短信；基于预定的垃圾短信识别方法判断短信是否为垃圾短信；若否，则向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。本发明的技术方案解决了如何将过滤后的短信推送至与第一终端设备相关联的第二终端设备的问题。本发明提供给第二终端设备的用户一个干净的、良好的通讯环境，避免其遭受垃圾短信的干扰和查看垃圾短信浪费的时间成本，故而，本发明在节省了第二终端设备用户的时间成本的同时，更加安全有效地帮助第二终端设备的用户监控第一终端设备的使用情况。

Description

垃圾短信的过滤方法及过滤装置

技术领域

本发明涉及移动终端设备技术领域，具体而言，本发明涉及一种垃圾短信的过滤方法以及一种垃圾短信的过滤装置。

背景技术

近几年随着智能终端设备的不断发展，不仅智能手机成了人们的标配，而且生活中越来越多的工具都在走向智能化，因此全民智能化已经成为当前移动互联网时代的发展趋势。诸如电视、自行车、冰箱、灯泡、手表、手环等家居产品和可穿戴设备开始了智能化发展，在“全民智能化”的大潮中，儿童智能产品也开始了蓬勃发展。当前儿童安全问题越来越受到关注，如何确保孩子的安全是许多家长最关心的问题，为了解决此类儿童安全问题，儿童手表智能化也应运而生。对于智能化，简单来说就是给儿童手表安装应用程序，使得家长能够通过移动网络对孩子的行踪进行关注。

现有的儿童智能产品中，儿童智能手表不存在内置字库，因此儿童智能手表不具有显示文本信息的功能，但是由于儿童智能手表中存在SIM卡，可接收短信息，故而发送至儿童智能手表的短信息需被转发至家长的终端设备中。在另一方面，短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为其具有使用广泛和成本低廉的特点，常被广告商、不法分子等所利用。人们常常会收到诈骗短信、广告短信、骚扰短信等各类垃圾短信。因此，儿童智能手表也面临着接收垃圾短信的情况。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的一个实施例提出了一种垃圾短信的过滤方法，包括：

服务器拦截发送至第一终端设备中的短信；

基于预定的垃圾短信识别方法判断短信是否为垃圾短信；

若否，则向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

优选地，服务器拦截发送至第一终端设备中的短信，包括：

获取第一终端设备中的SIM卡标识；

确定与SIM卡标识相应的短信中心；

拦截短信中心发送至第一终端设备的短信。

优选地，通过以下方式确定与第一终端设备相关联的至少一个第二终端设备客户端：

确定第一终端设备的身份标识；

在预先建立的列表中查找与第一终端设备的身份标识相应的至少一个第二终端设备客户端的身份标识，预先建立的列表用于相关联地存储第一设备的身份标识与对应的至少一个第二终端设备客户端的身份标识。

优选地，基于预定的垃圾短信识别方法判断短信是否为垃圾短信，包括：

调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符；

根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值；

根据短信文本内容的评估值确定短信是否为垃圾短信。

优选地，根据多个分词对短信的文本内容进行评估，包括：

确定多个分词的权重；

根据权重和多个分词对短信的文本内容进行评估。

对短信进行分词操作，获得短信的至少一个分词；

获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量；

根据至少一个分词获得短信所属的主题向量；

根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

优选地，获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量，包括：

分别将至少一个分词中各分词输入词向量工具获得至少一个词向量；

将至少一个词向量中所有词向量及语料词矩阵相乘获得短信词向量。

优选地，根据至少一个分词获得短信所属的主题向量，包括：

将至少一个分词中的所有分词输入语义主题生成模型获得主题向量。

可选地，若判断短信为垃圾短信，该方法还包括：

删除垃圾短信；和/或

基于垃圾短信生成垃圾短信接收提示信息，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端，以提示第二终端设备的用户第一终端设备接收到垃圾短信。

优选地，第一终端设备包括儿童终端设备，第二终端设备包括监护人终端设备。

本发明的另一实施例提出了一种垃圾短信的过滤装置，包括：

拦截模块，用于服务器拦截发送至第一终端设备中的短信；

判断模块，用于基于预定的垃圾短信识别方法判断短信是否为垃圾短信；

推送模块，用于当短信不是垃圾短信时，向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

优选地，拦截模块包括：

标识获取单元，用于获取第一终端设备中的SIM卡标识；

中心确定单元，用于确定与SIM卡标识相应的短信中心；

短信拦截单元，用于拦截短信中心发送至第一终端设备的短信。

确定第一终端设备的身份标识；

优选地，判断模块包括：

字典库调用单元，用于调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符；

内容评估单元，用于根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值；

第一确定单元，用于根据短信文本内容的评估值确定短信是否为垃圾短信。

优选地，内容评估单元包括：

权重确定子单元，用于确定多个分词的权重；

内容评估子单元，用于根据权重和多个分词对短信的文本内容进行评估。

优选地，判断模块包括：

短信分词单元，用于对短信进行分词操作，获得短信的至少一个分词；

第一获得单元，用于获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量；

第二获得单元，用于根据至少一个分词获得短信所属的主题向量；

第二确定单元，用于根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

优选地，第一获得单元包括：

第一获得子单元，用于分别将至少一个分词中各分词输入词向量工具获得至少一个词向量；

第二获得子单元，用于将至少一个词向量中所有词向量及语料词矩阵相乘获得短信词向量。

优选地，第二获得单元用于将至少一个分词中的所有分词输入语义主题生成模型获得主题向量。

可选地，若判断短信为垃圾短信，该装置还包括：

删除模块，用于删除垃圾短信；和/或

生成及发送模块，用于基于垃圾短信生成垃圾短信接收提示信息，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端，以提示第二终端设备的用户第一终端设备接收到垃圾短信。

本发明的技术方案解决了如何将过滤后的短信推送至与第一终端设备相关联的第二终端设备的问题。首先，服务器拦截发送至第一终端设备中的短信，基于预定的垃圾短信识别方法判断短信是否为垃圾短信，通过此步骤可以将垃圾短信进行滤除，以避免将垃圾短信发送至与第一终端设备相关联的第二终端设备中；接着，若否，则向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信，通过此步骤可以帮助第二终端设备的用户在免除受到垃圾短信干扰的同时又不错过任何有用的短信。本发明提供给第二终端设备的用户一个干净的、良好的通讯环境，避免其遭受垃圾短信的干扰和查看垃圾短信浪费的时间成本，故而，本发明在节省了第二终端设备用户的时间成本的同时，更加安全有效地帮助第二终端设备的用户监控第一终端设备的使用情况。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例的垃圾短信的过滤方法的流程示意图；

图2为本发明另一实施例的垃圾短信的过滤装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(PersonalDigital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

图1为本发明一个实施例的垃圾短信的过滤方法的流程示意图。

本发明实施例可以执行于服务器端，并需要至少两个终端设备进行配合。

步骤S110：服务器拦截发送至第一终端设备中的短信。

在一个具体应用场景中，如果第一终端设备是儿童终端设备，由于儿童不具有阅读或者辨别事物的能力，在儿童终端设备中未提供接收并查看短信的功能，故而将短信发送至第一终端就不存在任何意义，因此服务器将发送至儿童终端设备的短信进行拦截操作。

优选地，服务器拦截发送至第一终端设备中的短信的步骤包括步骤S111、步骤S112和步骤S113：步骤S111：获取第一终端设备中的SIM卡标识；步骤S112：确定与SIM卡标识相应的短信中心；步骤S113：拦截短信中心发送至第一终端设备的短信。

首先，获取第一终端设备中的SIM卡标识。

其中，SIM卡标识具体为ICCID(Integrate circuit card identity，集成电路卡识别码)标识，其可以是SIM卡的卡号。ICCID标识包括20位数字，其中，前6位数字代表不同营运商的网络代码，例如898600代表中国移动、898601代表中国联通、898603代表中国电信，第7位数字是业务接入号，第8位数字是SIM卡的功能位，第9-10位数字是全国各省的编码，第11-12位数字是年份，第13位数字是SIM卡的供应商代码、第14-19位数字是用户的识别码、第20位数字是校验位。例如，ICCID标识是89860022122204706219，则根据ICCID标识前6位数字“898600”可以判断网络营运商是中国移动，通过查表根据ICCID标识第9-10位数字“12”可以判断其所属省份是浙江省。

需要说明的是，不同的终端设备可以通过插入不同的SIM卡来改变ICCID标识，当在第一终端设备中插入一张SIM卡时，第一终端设备中的ICCID标识即可唯一确定。

随后，确定与SIM卡标识相应的短信中心。

需要说明的是，短信中心是以预定规则命名的，不同网络营运商对应着不同预定命名规则，例如中国移动提供的短信中心是以“+8613800XXX500”形式命名的，其中，“XXX”为区域编码。通过获取到的SIM卡中的ICCID标识的相应位上的数字可以确定与其相应的网络营运商，接着，通过确定的网络营运商就可以确定与其相应的短信中心的预定命名规则，最后，通过该命名规则可以确定与SIM卡标识相应的短信中心。

最后，拦截短信中心发送至第一终端设备的短信。

需要说明的是，可以监听短信中心与第一终端设备进行通讯的接口，当监听到短信中心向第一终端设备发送短信时，拦截短信中心发出的短信。

步骤S120：基于预定的垃圾短信识别方法判断短信是否为垃圾短信。

需要说明的是，判断短信是否为垃圾短信可以通过多种方法来实现，在本发明实施例中只介绍其中两种优选实现方法：

优选地，在本发明第一优选实施例中基于预定的垃圾短信识别方法判断短信是否为垃圾短信的步骤包括步骤S121、步骤S122和步骤S123：步骤S121：调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符；步骤S122：根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值；步骤S123：根据短信文本内容的评估值确定短信是否为垃圾短信。

首先，调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符。

其中，字典库中的特征词可以是能够代表垃圾短信类别的特征词，如“中奖”、“奖励”、“买赠”、“戳这里，领奖”、诈骗电话号码等，也可以是代表其他类别的特征词，如房产中介类、广告推销类、公司电话类、教育培训类、商家促销类或保险类等，还可以进一步细分，本发明对此不作限定。

进一步地，字典库中的特征词的选择可以通过开方检验、信息增益等方法来实现。

确定短信中的包含相应特征词的多个分词，首先可以定义初始长度的窗口，随后利用初始长度的窗口从短信的文本内容中提取初始长度的文本内容，并与字典库中的特征词进行匹配，分别匹配成功的多个分词即可作为短信中的包含相应特征词的多个分词。

接着，根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值。

优选地，根据多个分词对短信的文本内容进行评估的步骤包括步骤S1221和步骤S1222：步骤S1221：确定多个分词的权重；步骤S1222：根据权重和多个分词对短信的文本内容进行评估。

需要说明的是，确定多个分词的权重可以通过多种方式来实现，如根据专家经验或者根据实际情况进行权重确定操作，例如，食品类短信中的分词可以包括食品、食品商行、食品有限、食品预警、餐券、餐厅、餐厅广场、参送、餐饮等词汇，根据实际情况确定上述分词分别对应相应的权重，如-1.0009、1.0702、-1.3659、0.8186、-0.8336、-0.8733、0.85122、-0.7160、1.1960。在本发明实施例中，可以获取在服务器预先建立的字典库的特征词与权重的对应关系，根据该对应关系，查找多个分词的权重，随后，可以根据权重和多个分词对短信的文本内容进行评估。

随后，短信文本内容的评估值可以通过多种方法获得，例如，对确定的权重和多个分词量化的分词值进行加权求和，将加权求和的值作为评估值。其中，多个分词量化的分词值可以是该分词的信息量，则可以通过将分词的信息量与权重进行加权求和获得短信文本内容的评估值。

最后，根据短信文本内容的评估值确定短信是否为垃圾短信。

具体地，可以获取预先建立的评估值区间与垃圾短信的映射关系，在该映射关系中查找短信的评估值所属的评估值区间，进而根据该短信的评估值所属的评估值区间确定该短信是否为垃圾短信。

优选地，在本发明第二优选实施例中基于预定的垃圾短信识别方法判断短信是否为垃圾短信的步骤包括步骤S124、步骤S125、步骤S126和步骤S127：步骤S124：对短信进行分词操作，获得短信的至少一个分词；步骤S125：获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量；步骤S126：根据至少一个分词获得短信所属的主题向量；步骤S127：根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

首先，对短信进行分词操作，获得短信的至少一个分词。

具体地，可以通过分词工具如阿里分词、IKAnalyzer、盘古分词等分词工具对短信进行分词操作。需要说明的是，每一个分词在某些特定的主题下有特定的语义，即使两个分词之间本身含义毫不相同，但在某一主题下两个不相关的分词可能表示同样的含义。因此，单单依据分词的结果对短信进行垃圾短信识别操作的准确率不高，还需要将至少一个分词与短信词向量、主题向量相结合地判断拦截的短信是否为垃圾短信。

优选地，获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量的步骤包括步骤S1251和步骤S1252：步骤S1251：分别将至少一个分词中各分词输入词向量工具获得至少一个词向量；步骤S1252：将至少一个词向量中所有词向量及语料词矩阵相乘获得短信词向量。

需要说明的是，在获得目标短信的至少一个分词的至少一个词向量之后，还需要进一步根据至少一个词向量及语料词矩阵生成目标短信的短信词向量，以表示目标短信的语义。具体地，可以通过将目标短信的所有词向量及语料词矩阵相乘获得目标短信的短信词向量。例如：假设该语料词矩阵为800*100的矩阵T，若目标短信的有10个分词，n1～n10分别表示这10个分词的词向量，将n1、n2…n10的乘积与语料词矩阵T相乘获得目标短信的短信词向量，即目标短信的短信词向量等于n1*n2*…n10*T。

优选地，根据至少一个分词获得短信所属的主题向量的步骤具体包括：将至少一个分词中的所有分词输入语义主题生成模型获得主题向量。

具体地，根据拦截的短信中的至少一个分词获得该短信所属的主题向量，可以通过LDA(Latent Dirichlet Allocation，语义主题生成模型)获得该短信所属的主题向量。具体地，将拦截的短信中的至少一个分词输入LDA模型，LDA模型会对应每个分词生成表示其所属主题topic概率的向量，然后将输入的每个分词所表示的其所属主题topic概率的向量相加，在将相加得到的向量与LDA模型的主题矩阵相乘获得目标短信的主题向量。例如：假设LDA模型的主题矩阵为10*100的矩阵T1，若拦截的短信存在10个分词，m1～m10分别表示这10个分词所属主题topic概率的向量，将m1、m2…m10相加然后再与主题矩阵T1相乘获得目标短信的主题向量，即目标短信的主题向量等于(m1+m2+…m10)*T1。

最后，根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

步骤S130：若否，则向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

需要说明的是，当判断拦截到的短信并非垃圾短信时，需要向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

优选地，通过以下方式确定与第一终端设备相关联的至少一个第二终端设备：确定第一终端设备的身份标识；在预先建立的列表中查找与第一终端设备的身份标识相应的至少一个第二终端设备客户端的身份标识，预先建立的列表用于相关联地存储第一设备的身份标识与对应的至少一个第二终端设备客户端的身份标识。

优选地，第一终端设备可以是儿童终端设备，第二终端设备可以是监护人终端设备。

具体地，如果发送至儿童终端设备的短信并非垃圾短信时，需要将该短信的内容的提示信息发送至儿童用户的监护人。具体地，首先确定第一终端设备的身份标识，该身份标识可以是SIM卡中的ICCID标识；接着，在预先建立的列表中查找与第一终端设备的身份标识相应的至少一个第二终端设备客户端的身份标识，一般地，第二终端设备的用户属于第一终端设备的用户的监护人如父亲、母亲、爷爷和奶奶等，在预先建立的列表中预先存储至少一个可以联系的监护人所持的第二终端设备中的客户端的身份标识，该身份标识可以是第二终端设备中的用于接收发送至第一终端设备的短信的专用客户端的用户名，当然，也可以是第二终端设备中的SIM卡中的ICCID标识。

可选地，若判断短信为垃圾短信，本发明实施例提供的方法还包括步骤S140：删除垃圾短信；和/或基于垃圾短信生成垃圾短信接收提示信息，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端，以提示第二终端设备的用户第一终端设备接收到垃圾短信。

需要说明的是，如果判断拦截到的短信是垃圾短信，可以将该短信删除，或者更进一步地，可以基于垃圾短信生成垃圾短信接收提示信息，该提示信息可以包括在服务器中对垃圾短信进行类别判断的结果，如诈骗类、房产中介类、广告推销类、教育培训类、商家促销类、保险类等类别，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端。

拦截模块210服务器拦截发送至第一终端设备中的短信。

优选地，拦截模块210包括标识获取单元、中心确定单元和短信拦截单元：标识获取单元获取第一终端设备中的SIM卡标识；中心确定单元确定与SIM卡标识相应的短信中心；短信拦截单元拦截短信中心发送至第一终端设备的短信。

首先，标识获取单元获取第一终端设备中的SIM卡标识。

随后，中心确定单元确定与SIM卡标识相应的短信中心。

最后，短信拦截单元拦截短信中心发送至第一终端设备的短信。

判断模块220基于预定的垃圾短信识别方法判断短信是否为垃圾短信。

需要说明的是，判断模块220判断短信是否为垃圾短信的功能可以通过多种方式来实现，在本发明实施例中只介绍其中两种优选实现方式：

优选地，在本发明第一优选实施例中判断模块220包括字典库调用单元、内容评估单元和第一确定单元：字典库调用单元调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符；内容评估单元根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值；第一确定单元根据短信文本内容的评估值确定短信是否为垃圾短信。

首先，字典库调用单元调用预先构建的字典库，将短信的文本内容与字典库中的特征词进行匹配，确定短信中的包含相应特征词的多个分词，字典库中的特征词的长度包含一个或多个字符。

接着，内容评估单元根据多个分词对短信的文本内容进行评估，以获取短信文本内容的评估值。

优选地，内容评估单元包括权重确定子单元和内容评估子单元：权重确定子单元确定多个分词的权重；内容评估子单元根据权重和多个分词对短信的文本内容进行评估。

需要说明的是，权重确定子单元确定多个分词的权重的功能可以通过多种方式来实现，如根据专家经验或者根据实际情况进行权重确定操作，例如，食品类短信中的分词可以包括食品、食品商行、食品有限、食品预警、餐券、餐厅、餐厅广场、参送、餐饮等词汇，根据实际情况确定上述分词分别对应相应的权重，如-1.0009、1.0702、-1.3659、0.8186、-0.8336、-0.8733、0.85122、-0.7160、1.1960。在本发明实施例中，可以获取在服务器预先建立的字典库的特征词与权重的对应关系，根据该对应关系，查找多个分词的权重，随后，可以根据权重和多个分词对短信的文本内容进行评估。

随后，内容评估子单元根据权重和多个分词对短信的文本内容进行评估的功能可以通过多种方式实现，例如，对确定的权重和多个分词量化的分词值进行加权求和，将加权求和的值作为评估值。其中，多个分词量化的分词值可以是该分词的信息量，则可以通过将分词的信息量与权重进行加权求和获得短信文本内容的评估值。

最后，第一确定单元根据短信文本内容的评估值确定短信是否为垃圾短信。

优选地，在本发明第二优选实施例中判断模块220包括短信分词单元、第一获得单元、第二获得单元和第二确定单元：短信分词单元对短信进行分词操作，获得短信的至少一个分词；第一获得单元获得至少一个分词的至少一个词向量，及根据至少一个词向量及语料词矩阵生成短信的短信词向量；第二获得单元根据至少一个分词获得短信所属的主题向量；第二确定单元根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

首先，短信分词单元对短信进行分词操作，获得短信的至少一个分词。

优选地，第一获得单元包括第一获得子单元和第二获得子单元：第一获得子单元分别将至少一个分词中各分词输入词向量工具获得至少一个词向量；第二获得子单元将至少一个词向量中所有词向量及语料词矩阵相乘获得短信词向量。

优选地，第二获得单元具体用于将至少一个分词中的所有分词输入语义主题生成模型获得主题向量。

最后，第二确定单元根据至少一个分词、短信词向量、主题向量判断短信是否为垃圾短信。

推送模块230当短信不是垃圾短信时，向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

需要说明的是，当判断模块220判断拦截到的短信并非垃圾短信时，推送模块230需要向与第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

优选地，可以通过以下方式确定与第一终端设备相关联的至少一个第二终端设备：确定第一终端设备的身份标识；在预先建立的列表中查找与第一终端设备的身份标识相应的至少一个第二终端设备客户端的身份标识，预先建立的列表用于相关联地存储第一设备的身份标识与对应的至少一个第二终端设备客户端的身份标识。

可选地，若判断短信为垃圾短信，本发明实施例提供的装置还包括删除模块和/或生成及发送模块：删除模块删除垃圾短信；和/或生成及发送模块基于垃圾短信生成垃圾短信接收提示信息，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端，以提示第二终端设备的用户第一终端设备接收到垃圾短信。

需要说明的是，如果判断拦截到的短信是垃圾短信，删除模块可以将该短信删除，或者更进一步地，生成及发送模块可以基于垃圾短信生成垃圾短信接收提示信息，该提示信息可以包括在服务器中对垃圾短信进行类别判断的结果，如诈骗类、房产中介类、广告推销类、教育培训类、商家促销类、保险类等类别，并将垃圾短信接收提示信息发送至与第一终端设备相关联的第二终端设备客户端。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种垃圾短信的过滤方法，其特征在于，包括：

服务器拦截发送至第一终端设备中的短信；

基于预定的垃圾短信识别方法判断所述短信是否为垃圾短信；

若否，则向与所述第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。

2.根据权利要求1所述的方法，其特征在于，服务器拦截发送至第一终端设备中的短信，包括：

获取第一终端设备中的SIM卡标识；

确定与所述SIM卡标识相应的短信中心；

拦截所述短信中心发送至所述第一终端设备的短信。

3.根据权利要求1所述的方法，其特征在于，通过以下方式确定与所述第一终端设备相关联的至少一个第二终端设备客户端：

确定第一终端设备的身份标识；

在预先建立的列表中查找与第一终端设备的身份标识相应的至少一个第二终端设备客户端的身份标识，所述预先建立的列表用于相关联地存储第一设备的身份标识与对应的至少一个第二终端设备客户端的身份标识。

4.根据权利要求1所述的方法，其特征在于，基于预定的垃圾短信识别方法判断所述短信是否为垃圾短信，包括：

调用预先构建的字典库，将所述短信的文本内容与所述字典库中的特征词进行匹配，确定所述短信中的包含相应特征词的多个分词，所述字典库中的特征词的长度包含一个或多个字符；

根据所述多个分词对所述短信的文本内容进行评估，以获取所述短信文本内容的评估值；

根据所述短信文本内容的评估值确定所述短信是否为垃圾短信。

5.根据权利要求4所述的方法，其特征在于，根据所述多个分词对所述短信的文本内容进行评估，包括：

确定所述多个分词的权重；

根据所述权重和所述多个分词对所述短信的文本内容进行评估。

6.根据权利要求1所述的方法，其特征在于，基于预定的垃圾短信识别方法判断所述短信是否为垃圾短信，包括：

对所述短信进行分词操作，获得所述短信的至少一个分词；

获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述短信的短信词向量；

根据所述至少一个分词获得所述短信所属的主题向量；

根据所述至少一个分词、所述短信词向量、所述主题向量判断所述短信是否为垃圾短信。

7.根据权利要求6所述的方法，其特征在于，获得所述至少一个分词的至少一个词向量，及根据所述至少一个词向量及语料词矩阵生成所述短信的短信词向量，包括：

分别将所述至少一个分词中各分词输入词向量工具获得所述至少一个词向量；

将所述至少一个词向量中所有词向量及所述语料词矩阵相乘获得所述短信词向量。

8.根据权利要求6所述的方法，其特征在于，根据所述至少一个分词获得所述短信所属的主题向量，包括：

将所述至少一个分词中的所有分词输入语义主题生成模型获得所述主题向量。

9.根据权利要求1所述的方法，其特征在于，若判断所述短信为垃圾短信，所述方法还包括：

删除所述垃圾短信；和/或

基于所述垃圾短信生成垃圾短信接收提示信息，并将所述垃圾短信接收提示信息发送至与所述第一终端设备相关联的第二终端设备客户端，以提示第二终端设备的用户第一终端设备接收到垃圾短信。

10.一种垃圾短信的过滤装置，其特征在于，包括：

拦截模块，用于服务器拦截发送至第一终端设备中的短信；

判断模块，用于基于预定的垃圾短信识别方法判断所述短信是否为垃圾短信；

推送模块，用于当所述短信不是垃圾短信时，向与所述第一终端设备相关联的第二终端设备客户端推送通过验证后的短信。