CN103796183A

CN103796183A - 一种垃圾短信识别方法及装置

Info

Publication number: CN103796183A
Application number: CN201210419152.6A
Authority: CN
Inventors: 王韵君
Original assignee: China Mobile Group Shanghai Co Ltd
Current assignee: China Mobile Group Shanghai Co Ltd
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2014-05-14
Anticipated expiration: 2032-10-26
Also published as: CN103796183B

Abstract

本发明公开了一种垃圾短信识别方法及装置，该方法包括：针对获得的每一待检测短信，确定发送该待检测短信的终端号码；根据确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单；根据判断结果，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。采用上述技术方案，能够较好地降低对垃圾短信的误拦率及漏拦率，提高垃圾短信识别的准确性。

Description

一种垃圾短信识别方法及装置

技术领域

本发明涉及网络管理技术领域，尤其是涉及一种垃圾短信识别方法及装置。

背景技术

随着无线通信网络的不断发展，用户在享受各种业务带来方便的同时，也受到不法分子发送的垃圾短信的困扰。

现有技术中，垃圾短信的识别一般是通过在网络侧构建短信监控平台，基于网络加强拦截等方式，按照“流量+关键字”的方式，将符合预设条件的短信和发送短信的终端号码发送至客服中心，网络优化人员人工对短信内容进行审核，如果确定出是垃圾短信，则对垃圾短信进行拦截，并对发送该垃圾短信的终端号码在BOSS系统上进行关停，从而实现对垃圾短信的识别。其中，网络加强拦截方式可以是在短信监控平台中预先存储着一定数量的疑似发送垃圾短信的终端号码(可以是网络优化管理部门规定的、通过客户投诉以及网络检测得到的)。例如，结合网络加强拦截等方式，若接收到的短信内容流量超过预设阈值时，进而确定该垃圾短信信息中是否包含预设的表征垃圾短信信息的关键字（如发票、卡号等），最后将符合预设条件的短信和发送短信的终端号码发送至客服中心，由网络优化人员人工确定。

现有技术中采用“流量+关键字”的方式识别垃圾短信的方法，主要缺陷在于：

首先，误拦率较高。例如，在节日、重要日期等，终端号码发送正常短信数量及占用的流量也会比较高，而如果采用现有技术中提出的技术方案，判断出流量比较高，则会认为该终端号码发送垃圾短信，进而对其进行拦截。

其次，漏拦率较高并且不利于垃圾短信的处理。发送垃圾短信的不法分子可以通过调整短信发送速度、修改关键字等手段，从而避开垃圾短信监控系统的检测。例如，将表征垃圾短信的关键字“发票”修改为“法票”，或者修改为“发*票”等等。

综上所述，现有技术中垃圾短信识别方法，对垃圾短信的误拦率及漏拦率较高，因此垃圾短信识别的准确性较差。

发明内容

本发明实施例提供了一种垃圾短信识别方法及装置，能够较好地降低对垃圾短信的误拦率及漏拦率，提高垃圾短信识别的准确性。

一种垃圾短信识别方法，包括：针对获得的每一待检测短信，确定发送该待检测短信的终端号码；根据确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单；根据判断结果，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。

一种垃圾短信识别装置，包括：确定单元，用于针对获得的每一待检测短信，确定发送该待检测短信的终端号码；判断单元，用于根据确定单元确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单；识别单元，用于根据判断单元的判断结果，确定所述待检测短信是否为垃圾短信。

采用上述技术方案，针对获得的每一待检测短信，确定发送该待检测短信的终端号码，并根据确定出的终端号码，判断该终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单，最后根据判断结果，，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。由于增加的垃圾短信识别模型，并且在垃圾短信识别模型中存储着疑似发送垃圾短信的终端号码的黑名单，从而能够有针对性的对发送待检测短信的终端号码进行监控，能够较好地降低对垃圾短信的误拦率及漏拦率，提高垃圾短信识别的准确性。

附图说明

图1为本发明实施例一中，提出的垃圾短信识别方法流程图；

图2为本发明实施例一中，提出的垃圾短信识别装置结构组成示意图；

图3为本发明实施例二中，提出的垃圾短息短信识别系统结构图；

图4为本发明实施例二中，提出的垃圾短信识别方法流程图；

图5为本发明实施例二中，提出的获得垃圾短信样本方法示意图；

图6为本发明实施例二中，提出的垃圾短信识别模型示意图；

图7为为本发明实施例二中，提出的垃圾短信识别模型验证示意图；

图8为本发明实施例二中，提出的基于建立的垃圾短信识别模型对待检测短信进行识别的流程图。

具体实施方式

针对现有技术中存在的对垃圾短信的误拦率及漏拦率较高，垃圾短信识别的准确性较差的问题，本发明实施例这里提出的技术方案中，通过建立垃圾短信识别模型，针对每一个发送待检测短信的终端号码，判断该终端号码是否归属于垃圾短信识别模型中存储的黑名单，进而根据判断结果，对该待检测短信是否为垃圾短信进行识别，从而能够有针对性的对发送待检测短信的终端号码进行监控，能够较好地降低对垃圾短信的误拦率及漏拦率，提高垃圾短信识别的准确性。并且，针对每一个待检测的短信都能够得到实时处理，因此实时性较好。

下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。

需要说明的是，本发明实施例这里提出的垃圾短信识别技术方案，可以单独作为垃圾短信识别方式在通信系统中实施，也可以将本发明实施例这里提出的垃圾短信识别技术方案，结合现有技术中已经存在的垃圾短信监控平台中使用。

实施例一

本发明实施例一这里提出的垃圾短信识别方法，如图1所示，其具体处理流程如下述：

步骤11，获得通信系统中传输的待检测短信。

步骤12，针对获得的每一个待检测短信，确定发送该待检测短信的终端号码。

其中，终端号码可以但不限于是安装在终端中的客户识别（SIM，SubscriberIdentity Module）卡号码，终端的设备识别号码或者终端的入网准许号码。较佳地，为提高用户的感知度，本发明实施例这里提出的技术方案中，终端号码是SIM卡号码。

步骤13，根据确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单。

其中，垃圾短信识别模型可以通过下述方式建立：

步骤一：获得通信系统中传输的至少一个发送短信信息的终端号码。

较佳地，为保证建立的垃圾短信模型能够实施进行更新，垃圾短信模型能够学习到通信系统中新增加的终端号码（例如，学习到新入网的终端号码），进一步提高垃圾短信识别的准确性，还可以以第一预设时长为获得周期，周期性获得通信系统中传输的至少一个发送短信信息的终端号码。

步骤二：根据预设发送垃圾短信的终端号码的属性信息，在获得的发送短信信息的终端号码中，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单。

其中，可以获得垃圾短信样本，并确定垃圾短信样本对应的终端号码，分析该些终端号码对应的客户特征。具体地，终端号码对应的客户特征，可以通过经营分析系统（也可以称之为经分系统）中获得。在获得终端号码对应的客户特征之后，基于数据挖掘算法，统计终端号码发送垃圾短信钱的主要行为特性。较佳地，可以基于多种数据挖掘算法通过时进行分析，并将分析结果进行对比，选择准确性较好的数据分析结构。

步骤三：根据确定出的黑名单和白名单，建立垃圾短信识别模型。

较佳地，在建立垃圾短信识别模式时，为保证建立的垃圾短信识别模型的准确性，还可以获得第二预设时长内，通信系统中传输的至少一个发送垃圾短信的终端号码，根据获得的发送垃圾短信的终端号码，对建立的垃圾短信识别模型的准确性进行验证。

建立垃圾短信识别模型，能够较好地提高对垃圾短信拦截的准确率和拦截效率，降低人工审核的压力和人力资源投入成本，减少垃圾短信对用户的骚扰行为，同时保障用户发送的正常的短信发送不受影响。

步骤14，根据判断结果，，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。

其中，若确定出发送待检测短信的终端号码归属于黑名单，且所述终端号码发送短信的数量大于预设监控阈值，则根据待检测短信包含的信息确定所述待检测短信是否为垃圾短信。

具体地，根据待检测短信包含的信息确定该待检测短信是否为垃圾短信时，可以但不限于采用两种方式，一种是将该待检测短信包含的信息交由客服人员，人工进行审核。另一种方式是根据“关键词”的方式进行垃圾短信的检测。即预先设置表征垃圾短信内容的关键词，如“发票”，将待检测短信包含的信息与预先设置的关键词进行匹配，根据匹配结果，确定待检测短信是否是垃圾短信。

相应地本发明实施例一这里还提出一种垃圾短信识别装置，如图2所示，包括：

确定单元201，用于针对获得的每一待检测短信，确定发送该待检测短信的终端号码。

判断单元202，用于根据确定单元确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单。

识别单元203，用于根据判断单元的判断结果，，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。

具体地，上述识别单元203，具体用于若确定出发送待检测短信的终端号码归属于黑名单，且所述终端号码发送短信的数量大于预设监控阈值，则根据待检测短信包含的信息确定所述待检测短信是否为垃圾短信。

其中上述装置还包括：

垃圾短信识别模型建立单元204，用于采用下述方式建立垃圾短信识别模型：获得通信系统中传输的至少一个发送短信信息的终端号码；所述确定单元，还用于根据预设发送垃圾短信的终端号码的属性信息，在获得的发送短信信息的终端号码中，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单；根据确定出的黑名单和白名单，建立垃圾短信识别模型。

具体地，上述垃圾短信识别模型建立单元204，具体用于以第一预设时长为获得周期，周期性获得通信系统中传输的至少一个发送短信信息的终端号码。

具体地，上述垃圾短信识别模型建立单元204，还用于在建立垃圾短信识别模型之后，获得第二预设时长内，通信系统中传输的至少一个发送垃圾短信的终端号码；根据获得的发送垃圾短信的终端号码，对建立的垃圾短信识别模型的准确性进行验证。

实施例二

本发明实施例二这里，在上述实施例一的基础之上，将本发明实施例这里提出的技术方案，与现有技术中的垃圾短信监控平台结合，来实现垃圾短信识别，如图3所示，本发明实施例二这里提出一种垃圾短信识别系统，主要包括垃圾短信识别模型、垃圾短信监控平台、客服中心以及BOSS服务系统。

其中，在具体实施中，需要建立垃圾短信识别模型，建立的垃圾短信识别模型输出归属于疑似发送垃圾短信的终端号码的黑名单和疑似发送其他短信的终端号码的白名单，将黑名单和白名单输出到垃圾短信监控平台中。后续垃圾短信监控平台会对黑名单中的终端号码和白名单中的终端号码进行差异化监控，以比较严格的条件对疑似发送垃圾短信的终端号码进行监控，从而能够有效制止不法分子发送垃圾短信的可能性。基于图3所示的垃圾短信识别系统，来详细阐述本发明实施例二这里提出的技术方案，如图4所示，其具体处理流程如下述：

步骤41，建立垃圾短信识别模型。

其中，以第一预设时长为周期，周期性的获得通信系统中传输的至少一个发送短信信息的终端号码，根据预设发送垃圾短信的终端号码的属性信息，在获得的发送短信信息的终端号码中，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单，根据确定出的黑名单和白名单，建立垃圾短信识别模型。在建立垃圾短信识别模型之后，获得在第二预设时长内，通信系统中传输的至少一个发送垃圾短信的终端号码，根据获得的发送垃圾短信的终端号码，对建立的垃圾短信识别模型的准确性进行验证。

如图5所示，具体实施过程如下：

步骤一：获得垃圾短信样本，并确定每个垃圾短信样本对应的终端号码，分析垃圾短信样本对应的终端号码对应的客户特征。

具体地，如图6所示，可以根据垃圾短信中包含的信息特性，在发送端和接收端两侧选取垃圾短信样本，然后分别对发送垃圾短信样本的终端号码和接收垃圾短信样本的终端号码进行分析，从而得到垃圾短信对应的终端号码的客户特征。其中，发送端选取的发送垃圾短信的终端号码的特征可以但不限于包括自然特征、消费行为、通话行为、短信发送行为、设备标识信息等等。具体地，在对发送端发送的垃圾短信，进行变量选择时，选择的变量可以但不限于是该终端号码对应的用户的基本信息、用户费用信息、用户短信行为信息、用户语音行为信息、用户语音、短信关联分析、短信发送的关键字、短信内容符合。数字比，短信回复特征分析以及基站集中度分析等等。在对接收端接收的垃圾短信样本对应的终端号码进行分析时，选择的特征可以但不限于是接收端号码分布、接收端用户回复特征或者接收端成功率等等。具体地，在接收端接收的垃圾短信，进行变量选择时，可以但不限于是接收端号码特征、接收端品牌特征、接收端消费特征、接收端区域特征以及接收端回复关键字特征等等。

例如，在经分系统中，可以提取2010年1-12月份垃圾短信样本对应的终端号码和其他短信样本对应的终端号码，从每个终端号码的品牌、转品牌、入网时长、套餐类型、每用户平均收入（ARPU，Average Revenue Per User）、短信费用、通话费用、短信条数、短信发送人数、短信收发比值、前1天对端号码数量、前3天短信发送量等多个维度分析垃圾短信样本对应的终端号码和非垃圾短信对应的终端号码之间的差别。从而提取出发送垃圾短信的终端号码对应的客户特征。具体如表1所示：

表1

步骤二：以第一预设时长为周期，周期性的获得通信系统中传输的至少一个发送短信信息的终端号码。

步骤三：基于数据挖掘算法，根据步骤一中确定出的垃圾短信样本对应的终端号码的客户特征，对步骤二中获得的至少一个发送短信信息的终端号码进行分析，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单。

其中，基于数据挖掘算法，统计通信系统中发送垃圾短信的终端号码在发送垃圾短信前的主要特征。例如，根据该终端号码是否有完整月的消费数据，将终端号码按照入网时长分为大于等于2个月和入网时长等于1个月的终端号码群，然后运用至少两种数据挖掘模型（如决策树和逻辑回归）分别建立垃圾短信识别模型，并将建立的垃圾短信识别模型效果进行对比，选择最优的数据挖掘模型作为垃圾短信识别规则。例如，经过建模对比，最终确定用决策树模型建立垃圾短信识别模型，可以得到12条规则，如表2所示的入网时长大于两个月的客户群规则，表3所示的入网时长小于两个月客户群规则：

表2

表3

步骤四，在确定出建立垃圾短信识别模型的规则以后，确定黑名单和白名单，建立垃圾短信识别模型，并对建立的垃圾短信识别模型进行验证。

例如，如图7所示，可以运用2010年12月份、2011年1月份的经分系统中存储的数据分别对垃圾短信识别模型进行验证，验证结果为建立的垃圾短信识别模型的准确率分别达到40%、36%；达到实际应用需求，则确定建立的垃圾短信模型正确。其中，本发明实施例这里提出的垃圾短信识别模型可以预测三天内的垃圾短信用户数，为网络侧监控平台系统资源、客服侧人工审核人员的灵活配备提供了有效参考依据。其次，通过对发送垃圾短信的终端号码的入网渠道进行分析，掌握发送垃圾短信的终端号码、垃圾短信发送数量、垃圾号码欠费金额等在渠道的分布情况，能够为加强渠道监控和管理工作提供参考。再次，通过对发送垃圾短信号码的资费方案分析，掌握垃圾短信发送号码个数、垃圾短信发送数量、垃圾号码欠费金额等在资费方案的分布情况，为加强低资费方案监控和管理工作提供参考。

在建立垃圾短信识别模型时，不仅只从用户的历史短信行为出发提取特征，同时利用经分系统中的现有数据，通过分析历史垃圾短信用户的其他特征，发现垃圾短信用户在属性信息、行为信息、消费信息上也有一定的规律可循。本方案在构建垃圾短信识别模型时，挖掘并对比用户的多项行为及特征，最终以在网时间为2个月作为分界点分两个客户群构建垃圾短信识别模型，并选定了用户品牌套餐、产品订购、通话行为、费用、对端特征等变量，分别设定不同的阀值。在结合了用户的在网时长、品牌套餐、语音增值行为、费用等其他属性和行为后，我们便可从疑似用户的其他特征出发，进行预判，不在局限于对有短信行为的疑似用户进行识别。如疑似用户为新入网用户，则在其首次短信发送行为前即可通过用户品牌、入网渠道、有无语音行为等进行识别并监控，从而能进一步提升预测命中率和查全率，也有利于更全面的挖掘垃圾短信疑似用户的特征。

步骤42，在建立垃圾短信识别模型之后，将垃圾短信识别模型加载在垃圾短信识别系统中，垃圾短信识别模型周期性更新自身存储的黑名单，然后确定出的黑名单输出至垃圾短信监控平台中。

具体实施中，通过本发明实施例这里提出的垃圾短信识别模型，通过垃圾短信识别模型预测识别出的垃圾短信疑似用户输出为黑名单，垃圾短信识别模型预测识别出的识别高价值客户输出为白名单，将两份名单输入至现网垃圾短信监控平台（SPAM）后，通过分群监控可提升垃圾短信的拦截量、降低垃圾短信的误拦率。

步骤43，针对每个待检测的短信，获得发送该待短信的终端号码，并判断获得的终端号码是否归属于垃圾短信识别模型的黑名单。

步骤44，如果待检测短信对应的终端号码归属于黑名单，则将对其进行差异化监控。

步骤45，根据监控结果，确定是否是垃圾短信。

具体实施中，通过建立的垃圾短信识别模型，定期向垃圾短信监控平台提供黑名单和白名单，垃圾短信监控平台可以对黑名单中的终端号码进行监控。例如，针对黑名单中的终端号码（如该用户的发展代理商放号用户中曾产生过垃圾短信用户），将其短信行为的监控阀值设定为10，则一旦该用户发送短信超过10条，则通知客服中心，而其他用户的监控阀值则可设定为30。当垃圾短信监控平台监控到黑名单中的终端号码有发送垃圾短信行为倾向，即超过监控阀值，则告知客服中心。客服中心相关人员通过观察垃圾短信监控平台提供的用户的短信发送内容，进一步判别是否确为垃圾短信。

步骤46，如果是垃圾短信，可以对该短信进行拦截，并可以通过BOSS服务系统对该终端号码进行拦截。

具体地，如图8所示，建立的垃圾短信识别模型可以和经分系统中的数据库连接，获得经分系统中存储的数据。然后根据获得的数据，可以不断对垃圾短信识别模型进行更新。在对垃圾短信进行识别时，能够有效地进行预测、控制及管理。在对待检测短信进行识别之前，在发送疑似发送垃圾短信的终端号码时，通过现有技术中的垃圾短信架空平台和人工确认，确定待检测短信是否是垃圾短信，并及时进行网络、BOSS服务系统拦截。在识别出垃圾短信之后，针对违规的SP、渠道等进行相应的处理，控制发送垃圾短信的不法分子的违规操作。

借助经分、BOSS、网络系统，每日传递垃圾短信识别模型数据实现平台之间的联动。在事前，通过对垃圾短信客户的资费集中度、渠道集中度进行分析，为资费管理、渠道管理工作提供参考；在事中，圈定垃圾短信客户后，通过经分发送到BOSS、网络平台上，降低圈定客户的垃圾短信监控阈值，并通过10086客户服务人员对短信进行及时核对，有效制止垃圾短信发送；在事后，对发送垃圾短信的客户进行渠道集中度、SP集中度分析，有力打击渠道、SP的套利行为。

本发明实施例二这里提出的技术方案，借助经营分析系统中客户的基本属性、业务办理情况、客户消费行为、客户通信行为、客户短信发送行为等多方面的信息，多角度的分析，挖掘垃圾短信用户与正常用户的区别，并借助数据挖掘工具在海量的客户信息中，统计垃圾短信用户在发送垃圾短信之前的特征，并将这些特征固化，建立垃圾短信识别模型，通过建立的垃圾短信识别模型可以每天在通信网络中的全网客户中查找符合发送垃圾短信特征的客户作为疑似垃圾短信用户（即符合黑名单中的终端号码），推送到垃圾短信监控平台上，在垃圾短信监控平台上，可以通过差异化的监控措施，以更加严格的条件对疑似客户进行监控，有效遏制了用户发送垃圾短信的可能性。并且，采用本发明实施例这里提出的技术方案，能够实现垃圾短信的拦截的精确性，提升了垃圾短信拦截的效果和效率。在高频短信用户中圈定疑似垃圾短信的用户，提升命中率在低频短信用户中圈定疑似垃圾短信的用户升查全率。

本领域的技术人员应明白，本发明的实施例可提供为方法、装置（设备）、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置（设备）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种垃圾短信识别方法，其特征在于，包括：

针对获得的每一待检测短信，确定发送该待检测短信的终端号码；

根据确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单；

根据判断结果，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。

2.如权利要求1所述的方法，其特征在于，所述垃圾短信识别模型采用下述方式建立：

获得通信系统中传输的至少一个发送短信信息的终端号码；

根据预设发送垃圾短信的终端号码的属性信息，在获得的发送短信信息的终端号码中，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单；

根据确定出的黑名单和白名单，建立垃圾短信识别模型。

3.如权利要求2所述的方法，其特征在于，获得通信系统中传输的至少一个发送短信信息的终端号码，包括：

以第一预设时长为获得周期，周期性获得通信系统中传输的至少一个发送短信信息的终端号码。

4.如权利要求2所述的方法，其特征在于，在建立垃圾短信识别模型之后，还包括：

获得第二预设时长内，通信系统中传输的至少一个发送垃圾短信的终端号码；

根据获得的发送垃圾短信的终端号码，对建立的垃圾短信识别模型的准确性进行验证。

5.如权利要求1所述的方法，其特征在于，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信，包括：

若确定出发送待检测短信的终端号码归属于黑名单，且所述终端号码发送短信的数量大于预设监控阈值，则根据待检测短信包含的信息确定所述待检测短信是否为垃圾短信。

6.一种垃圾短信识别装置，其特征在于，包括：

确定单元，用于针对获得的每一待检测短信，确定发送该待检测短信的终端号码；

判断单元，用于根据确定单元确定出的终端号码，判断所述终端号码是否归属于在垃圾短信识别模型中，存储的疑似发送垃圾短信的终端号码的黑名单；

识别单元，用于根据判断单元的判断结果，对所述终端号码设置监控阈值，根据设置的监控阈值，确定所述待检测短信是否为垃圾短信。

7.如权利要求6所述的装置，其特征在于，所述装置还包括垃圾短信识别模型建立单元，用于采用下述方式建立垃圾短信识别模型：

获得通信系统中传输的至少一个发送短信信息的终端号码；

所述确定单元，还用于根据预设发送垃圾短信的终端号码的属性信息，在获得的发送短信信息的终端号码中，确定归属于疑似发送垃圾短信的终端号码的黑名单和归属于疑似发送其他短信的终端号码的白名单；

根据确定出的黑名单和白名单，建立垃圾短信识别模型。

8.如权利要求7所述的装置，其特征在于，所述垃圾短信识别模型建立单元，具体用于以第一预设时长为获得周期，周期性获得通信系统中传输的至少一个发送短信信息的终端号码。

9.如权利要求7所述的装置，其特征在于，所述垃圾短信识别模型建立单元，还用于在建立垃圾短信识别模型之后，获得第二预设时长内，通信系统中传输的至少一个发送垃圾短信的终端号码；

10.如权利要求6所述的装置，其特征在于，所述识别单元，具体用于若确定出发送待检测短信的终端号码归属于黑名单，且所述终端号码发送短信的数量大于预设监控阈值，则根据待检测短信包含的信息确定所述待检测短信是否为垃圾短信。