CN106255082B - 一种垃圾短信的识别方法及系统 - Google Patents

一种垃圾短信的识别方法及系统 Download PDF

Info

Publication number
CN106255082B
CN106255082B CN201610891854.2A CN201610891854A CN106255082B CN 106255082 B CN106255082 B CN 106255082B CN 201610891854 A CN201610891854 A CN 201610891854A CN 106255082 B CN106255082 B CN 106255082B
Authority
CN
China
Prior art keywords
short message
refuse messages
identified
threshold
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610891854.2A
Other languages
English (en)
Other versions
CN106255082A (zh
Inventor
贺晓伟
叶青
王雪
盛璟
王雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201610891854.2A priority Critical patent/CN106255082B/zh
Publication of CN106255082A publication Critical patent/CN106255082A/zh
Application granted granted Critical
Publication of CN106255082B publication Critical patent/CN106255082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种垃圾短信的识别方法及系统,涉及通信技术领域,以提高识别垃圾短信的准确率。其中,所述识别方法包括:读取发送待识别短信的号码;采集CDR数据;判断:号码的短信发送量是否大于第一阈值、号码的接收对端数量是否大于第二阈值、号码是否在用户白名单中、号码的位置信息的变化率是否小于第三阈值、号码的设备型号是否在合法设备库内;一个判断的结果为是时,记作一个标准值;计算并判断总标准值是否大于第四阈值,根据判断结果确定号码是否为垃圾短信号码,并识别出垃圾短信。本发明提供的垃圾短信的识别方法用于识别垃圾短信。

Description

一种垃圾短信的识别方法及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种垃圾短信的识别方法及系统。
背景技术
通信技术的不断发展,给人们的生活带来许多便利,但与此同时,也给人们的生活造成一些影响,例如,虽然普通短信能起到传递信息的作用,但越来越多的垃圾短信严重干扰人们的工作和生活。
为了避免垃圾短信带来的干扰,就需要识别出垃圾短信,并进行进一步的拦截。通常识别垃圾短信的方法是根据短信的内容进行语义分析,以根据一些关键词来识别出垃圾短信。上述方法不足的是,由于短信内容的形式丰富,而且信息量较大,造成单纯地通过对短信内容进行语义分析来识别垃圾短信的错误率较高,而且这种方法需要对所有的短信均进行语义分析,使得接收这些短信的用户的隐私均被侵犯。
发明内容
本发明的目的在于提供一种垃圾短信的识别方法及系统,以提高识别垃圾短信的准确率。
为了实现上述目的,本发明提供如下技术方案:
一方面,本发明提供了一种垃圾短信的识别方法,所述识别方法包括:获取待识别短信,读取发送待识别短信的号码;采集CDR数据,所述CDR数据包括所述号码的短信发送量、所述号码的接收对端数量、所述号码的基本信息、所述号码的位置信息和所述号码的设备型号;判断所述号码的短信发送量是否大于第一阈值;判断所述号码的接收对端数量是否大于第二阈值;根据所述号码的基本信息,判断所述号码是否在用户白名单中;判断所述号码的位置信息的变化率是否小于第三阈值;判断所述号码的设备型号是否在合法设备库内;当以上任一项判断的结果为是时,记作一个标准值;当以上任一项判断的结果为否时,记作零;计算所有标准值的和,得到总标准值;判断所述总标准值是否大于第四阈值,根据判断结果确定所述号码是否为垃圾短信号码,在所述号码为垃圾短信号码时,待识别短信为垃圾短信;在所述号码为普通短信号码时,待识别短信为普通短信;其中,所述第一阈值为普通短信号码的最大的短信发送量;所述第二阈值为普通短信号码的最大的接收对端数量;所述第三阈值为普通短信号码的最小的位置信息的变化率;所述第四阈值为普通短信号码的最大的总标准值。
本发明提供的垃圾短信的识别方法中,根据发送待识别短信的号码的CDR数据,来对发送待识别短信的号码的短信发送量、接收对端数量、基本信息、位置信息和设备型号分别进行分析判断,从而从多个维度数据分析了发送待识别短信的号码的特征,而且在上述五项判断后,还进一步地进行了综合判断,最终判断出发送待识别短信的号码是否为垃圾短信号码,在发送待识别短信的号码为垃圾短信号码时,识别出待识别短信为垃圾短信,在发送待识别短信的号码为普通短信号码时,识别出待识别短信为普通短信。相比于现有技术中的单纯地通过语义分析来识别垃圾短信的方法,本方法在依据多个维度数据来判断发送待识别短信的号码后,再识别垃圾短信,可见,判断垃圾短信号码的准确率较高,在此前提下,识别垃圾短信的准确率也提高,而且本方法避免了对所有待检测短信均进行语义分析,对用户隐私的保护程度提高。
另一方面,本发明提供了一种垃圾短信的识别系统,所述识别系统包括:获取单元,所述获取单元用于获取待识别短信,读取发送待识别短信的号码;与所述获取单元连接的采集单元,所述采集单元用于采集CDR数据,所述CDR数据包括所述号码的短信发送量、所述号码的接收对端数量、所述号码的基本信息、所述号码的位置信息和所述号码的设备型号;与所述采集单元连接的判断单元,所述判断单元用于判断所述号码的短信发送量是否大于第一阈值;判断所述号码的接收对端数量是否大于第二阈值;根据所述号码的基本信息,判断所述号码是否在用户白名单中;判断所述号码的位置信息的变化率是否小于第三阈值;判断所述号码的设备型号是否在合法设备库内;与所述判断单元连接的计数单元,所述计数单元用于当所述判断单元中的任一项判断的结果为是时,记作一个标准值;当所述判断单元中的任一项判断的结果为否时,记作零;与所述计数单元连接的求和单元,所述求和单元用于计算所述计数单元中的所有标准值的和,得到总标准值;与所述求和单元连接的结果输出单元,所述结果输出单元用于判断所述总标准值是否大于第四阈值,根据判断结果确定所述号码是否为垃圾短信号码,并输出所述号码为垃圾短信号码,待识别短信为垃圾短信;或者输出所述号码为普通短信号码时,待识别短信为普通短信;其中,所述第一阈值为普通短信号码的最大的短信发送量;所述第二阈值为普通短信号码的最大的接收对端数量;所述第三阈值为普通短信号码的最小的位置信息的变化率;所述第四阈值为普通短信号码的最大的总标准值。
本发明所提供的垃圾短信的识别系统的有益效果与上述垃圾短信的识别方法的有益效果相同,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一中的垃圾短信的识别方法的第一流程图;
图2为本发明实施例一中的垃圾短信的识别方法的第二流程图;
图3为本发明实施例二中的垃圾短信的识别系统的结构示意图。
附图标记:
10-获取单元; 20-采集单元; 30-判断单元;
40-计数单元; 50-求和单元; 60-结果输出单元;
61-第一输出子单元; 62-第二输出子单元;
70-数据库。
具体实施方式
为使本发明所提出的技术方案的目的、特征和优点能够更加明显易懂,下面将结合附图,对本发明所提出的技术方案的实施例进行清楚、完整地描述。显然,所描述的实施例仅仅是所提出的技术方案的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
参见图1,本发明实施例提供了一种垃圾短信的识别方法,该识别方法包括:
步骤S1:获取待识别短信,读取发送待识别短信的号码。
步骤S2:采集呼叫细节记录(Call Details Record,简称CDR)数据,CDR数据包括号码的短信发送量、号码的接收对端数量、号码的基本信息、号码的位置信息和号码的设备型号。
步骤S3:判断号码的短信发送量是否大于第一阈值,其中,第一阈值为普通短信号码的最大的短信发送量;
判断号码的接收对端数量是否大于第二阈值,其中,第二阈值为普通短信号码的最大的接收对端数量;
根据号码的基本信息,判断号码是否在用户白名单中;
判断号码的位置信息的变化率是否小于第三阈值,其中,第三阈值为普通短信号码的最小的位置信息的变化率;
判断号码的设备型号是否在合法设备库内。
步骤S4:当步骤S3中的任一项判断的结果为是时,记作一个标准值;当以上任一项判断的结果为否时,记作零。
步骤S5:计算步骤S4中所有标准值的和,得到总标准值。
步骤S6:判断总标准值是否大于第四阈值(第四阈值为普通短信号码的最大的总标准值),根据判断结果确定发送待识别短信的号码是否为垃圾短信号码,在发送待识别短信的号码为垃圾短信号码时,待识别短信为垃圾短信;在发送待识别短信的号码为普通短信号码时,待识别短信为普通短信。
本实施例中提供的垃圾短信的识别方法中,通过采集CDR数据,并对发送待识别短信的号码的CDR数据进行分析来判断发送待识别短信的号码是否为垃圾短信号码,其中,采集的CDR数据包括号码的短信发送量、号码的接收对端数量、号码的基本信息、号码的位置信息和号码的设备型号,这五个特征均与垃圾短信号码具有的特征密切相关,在对上述五个特征分别进行分析后,再对分析结果进行综合判断,从而较准确地判断出发送待识别短信的号码是否为垃圾短信号码,进而在发送待识别短信的号码是为垃圾短信号码时,识别出待识别短信为垃圾短信。可见,相比于单纯地通过对所有待识别短信的内容进行语义分析来识别出垃圾短信的方法,本方法在判断发送待识别短信的号码是否为垃圾短信号码时,所选的判断依据更具有客观性,而且在对多个维度数据分别判断后,又进一步综合判断,因此,判断出垃圾短信号码的准确率高,在此基础上,根据发送待识别短信的号码识别出垃圾短信的准确率提高。
在步骤S1中,发送待识别短信的号码可为客户识别模块(SubscriberIdentification Module,简称SIM)卡号码。
在步骤S2中,CDR数据可由运营商后台提供,CDR数据除包括上述内容外,还可包括全部SIM卡用户的发送短信号码、接收短信号码、发送短信时间、发送号码基站小区信息、移动终端类型等,当然,本实施例对CDR数据包括的更多内容并不限定。
通常,普通短信号码的短信发送量不会超过套餐中的短信量,或者短信发送量在几百条以内,而垃圾短信号码的短信发送量巨大。基于此,在步骤S3中,可根据实际情况设定第一阈值,该第一阈值为普通短信号码的最大的短信发送量,当发送待识别短信的号码的短信发送量大于第一阈值时,则说明发送待识别短信的号码可能为垃圾短信号码。例如:若7天内普通短信号码的最大的短信发送量为1000条,则第一阈值可为1000,对应的,在步骤S2中,至少要采集发送待识别短信的号码的7天内的CDR数据。这里选用多天的CDR数据,使数据更具有普遍性,可以保证判断的准确性。
通常,普通短信号码发送短信时,接收号码是固定的通讯录成员,而普通短信号码对应的固定的通讯录成员一般在几百左右,也就是说普通短信号码的接收对端数量最多在几百左右,尤其是随着通讯工具的不断发展,普通短信号码的平均的接收对端数量逐渐缩减。基于此,在步骤S3中,可根据实际情况设定第二阈值,该第二阈值为普通短信号码的最大的接收对端数量,当发送待识别短信的号码的接收对端数量大于第二阈值时,则说明发送待识别短信的号码可能为垃圾短信号码。例如:若普通短信号码的最大的接收对端数量为500,则第二阈值可为500。
对于一些有特殊需求的用户,短信发送量和接收对端数量都比较大,通常运营商会将这些用户列在一个名单中,形成用户白名单。在步骤S3中,若发送待识别短信的号码不在用户白名单中,则说明发送待识别短信的号码可能为垃圾短信号码。
结合发送待识别短信的号码为SIM卡号码的方案,在建立用户白名单时,用户白名单可包括合法的SIM卡号码的用户。
通常,发送待识别短信的移动终端是手机终端,而正常手机终端的用户在一定的时间段内可能去多个地方,因此,对应的号码的位置信息在一定的时间段内是不断变化的,相应的,位置信息的变化率较大。在步骤S3中,可根据实际情况设定第三阈值,该第三阈值为普通短信号码的最小的位置信息的变化率,若发送待识别短信的号码的位置信息的变化率小于第三阈值,则说明发送待识别短信的号码可能为垃圾短信号码。
可选的,位置信息可包括小区标识(Cell-ID)的信息,可在一定的时间段内,统计CDR数据中记录的该移动终端号码的Cell-ID的数量,并将单位时间内的Cell-ID的数量作为移动终端号码的位置信息的变化率。而这里的单位时间可根据实际需要而定,例如:可以一天为一个单位时间。
不难想到,普通短信号码对应的移动终端为合法的移动终端,而合法的移动终端的设备型号均在合法设备库中的。在步骤S3中,可将发送待识别短信的号码的设备型号与合法设备库对比,若发送待识别短信的号码的设备型号不在合法设备库内,则说明发送待识别短信的号码可能为垃圾短信号码。
示例性的,在步骤S4中,可建立一个打分表,一个标准值可为1分。
进一步的,基于步骤S3中一共有五项判断,因此在步骤S5中,可计算得到的最大的总标准值为5分。
对于步骤S3的五项判断中,普通短信号码的判断结果也可能为是,但普通短信号码可能只有其中几项的判断结果为是,因此,为了降低判断的错误率,在步骤S6中,对计算得到的总标准值进行了判断,优选的,可根据实际情况设定第四阈值,该第四阈值为普通短信号码的最大的总标准值,从而可判断总标准值是否大于第四阈值,进而根据判断结果确定发送待识别短信的号码为垃圾短信号码,并确定对应的待识别短信是否为垃圾短信。
可选的,结合上述建立打分表的方案,可设定第四阈值为3分,当然了根据实际情况,也可适当调整第四阈值与总标准值的比例关系。
可见,本实施例中垃圾短信的识别方法与现有技术中通过语义分析识别垃圾短信的方法相比,不需要读取全部待识别短信的内容,对用户的隐私的保护程度提高。同时,因短信内容的形式较多,可能包括特殊符号、繁体字等等,从而本方法不会因无法识别出这些特殊符号、繁体字等,而导致识别出垃圾短信的错误率较高。
在本实施例中,步骤S6根据判断结果确定发送待识别短信的号码是否为垃圾短信号码的方法有多种,例如:可与现有技术中通过语义分析识别垃圾短信的方法相结合,对应的,步骤S6可包括:
参见图2,步骤S61:判断步骤S5中计算得到的总标准值是否大于第四阈值,如果是,则进入步骤S62;如果否,则发送待识别短信的号码为普通短信号码,待识别短信为普通短信;
步骤S62:读取待识别短信的内容,对待识别短信的内容进行语义分析,判断待识别短信的内容中是否包含垃圾短信的关键词,如果是,则发送待识别短信的号码为垃圾短信号码,待识别短信为垃圾短信;如果否,则发送待识别短信的号码为普通短信号码,待识别短信为普通短信。
可见,在总标准值大于第四阈值之后,再对待识别短信的内容进行语义分析,进一步提高了识别垃圾短信的准确率。而且相比于现有技术中的单纯地对大量的短信内容进行语义分析,大大降低了语义分析的工作量,从而也提高了语义分析时的准确度,同时,只是读取了部分待识别短信的内容,从而有效保护了大多数待识别短信的内容。其中,通过短信内容中的关键词来进行语义分析的方法在此不再详述。
参见图2,为了完善本实施例中的垃圾短信的识别方法,还可包括步骤S7,步骤S7为:在发送待识别短信的号码为垃圾短信号码时,存储该垃圾短信号码。
在这一方案中,垃圾短信号码被存储后,再识别其它短信时,可在读取发送待识别短信的号码后,先判断发送待识别短信的号码是否在这些已存储的垃圾短信号码中,如果是,则可直接识别出该短信为垃圾短信。
实施例二
参见图3,本发明实施例提供了一种垃圾短信的识别系统,该识别系统包括依次连接的获取单元10、采集单元20、判断单元30、计数单元40、求和单元50和结果输出单元60。
在介绍上述各单元的主要作用之前,首先需要说明的是,对于普通短信号码而言,普通短信号码的最大的短信发送量为第一阈值;普通短信号码的最大的接收对端数量为第二阈值;普通短信号码的最小的位置信息的变化率为第三阈值;普通短信号码的最大的总标准值为第四阈值。
基于这些普通短信号码的特征,在本实施例中的垃圾短信的识别系统中,获取单元10用于获取待识别短信,读取发送待识别短信的号码;采集单元20用于采集CDR数据,CDR数据包括号码的短信发送量、号码的接收对端数量、号码的基本信息、号码的位置信息和号码的设备型号;判断单元30用于判断号码的短信发送量是否大于第一阈值;判断号码的接收对端数量是否大于第二阈值;根据号码的基本信息,判断号码是否在用户白名单中;判断号码的位置信息的变化率是否小于第三阈值;判断号码的设备型号是否在合法设备库内;计数单元40用于当判断单元30中的任一项判断的结果为是时,记作一个标准值;当判断单元30中的任一项判断的结果为否时,记作零;求和单元50用于计算计数单元40中的所有标准值的和,得到总标准值;结果输出单元60用于判断总标准值是否大于第四阈值,根据判断结果确定发送待识别短信的号码是否为垃圾短信号码,并输出发送待识别短信的号码为垃圾短信号码,待识别短信为垃圾短信;或者输出发送待识别短信的号码为普通短信号码时,待识别短信为普通短信。
可见,本系统对发送待识别短信的号码实现了多个维度数据分析,从而分别得到一个分析结果,再综合这些分析结果,最终判断出该号码是否为垃圾短信号码,在判断出该号码为垃圾短信号码时,识别出待识别短信为垃圾短信,从而避免了对大量的短信内容进行语义分析,进而提高了识别垃圾短信的准确率。
较佳的,本实施例中的垃圾短信的识别系统可用于实现实施例一中的垃圾短信的识别方法,对应的,获取单元10可用于实现步骤S1,采集单元20可用于实现步骤S2,判断单元30可用于实现步骤S3,计数单元40可用于实现步骤S4,求和单元50可用于实现步骤S5,结果输出单元60可用于实现步骤S6。
可选的,本实施例读取的发送待识别短信的号码可为SIM卡号码;而在本实施例中提到的用户白名单可包括合法的SIM卡号码的用户。
需要说明的是,在本实施例中提到的位置信息可包括Cell-ID的信息,相应的,位置信息的变化率可为单位时间内Cell-ID的数量。
进一步的,结果输出单元60可包括:与求和单元50连接的第一输出子单元61,以及与第一输出子单元61和获取单元10均连接的第二输出子单元62。其中,第一输出子单元61用于判断求和单元50中的总标准值是否大于第四阈值,在总标准值小于或者等于第四阈值时,输出发送待识别短信的号码为普通短信号码,待识别短信为普通短信;第二输出子单元62用于在总标准值大于第四阈值时,读取待识别短信的内容,对待识别短信的内容进行语义分析,判断待识别短信的内容中是否包含垃圾短信的关键词,在待识别短信的内容中包含垃圾短信的关键词时,输出发送待识别短信的号码为垃圾短信号码,待识别短信为垃圾短信;在待识别短信的内容中不包含垃圾短信的关键词时,输出发送待识别短信的号码为普通短信号码,待识别短信为普通短信。
在这一方案中,结合了对待识别短信的内容进行识别的内容,进一步提高了识别垃圾短信的准确率,而且相对于单纯地对大量的短信内容进行语义分析,语义分析的工作量大大减小,提高了语义分析的准确度,同时对用户隐私的保护程度提高。
与实施例一中的识别方法对应的,第一输出子单元61可用于实现步骤S61,第二输出子单元62可用于实现步骤S62。
进一步的,本实施例中的垃圾短信的识别系统还可包括与结果输出单元60连接的数据库70,数据库70用于在发送待识别短信的号码为垃圾短信号码时,存储该垃圾短信号码。
与实施例一中的识别方法对应的,数据库70可用于实现步骤S7。可以想到,数据库70可用于识别垃圾短信。
值得一提的是,因本实施例中的垃圾短信的识别系统可用于实现实施例一中的垃圾短信的识别方法,因此,实施例一中的垃圾短信的识别方法的有益效果均可用于解释实施例二中的垃圾短信的识别系统。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种垃圾短信的识别方法,其特征在于,所述识别方法包括:
获取待识别短信,读取发送待识别短信的号码;
采集CDR数据,所述CDR数据包括所述号码的短信发送量、所述号码的接收对端数量、所述号码的基本信息、所述号码的位置信息和所述号码的设备型号;
判断所述号码的短信发送量是否大于第一阈值;判断所述号码的接收对端数量是否大于第二阈值;根据所述号码的基本信息,判断所述号码不在用户白名单中;判断所述号码的位置信息的变化率是否小于第三阈值;判断所述号码的设备型号不在合法设备库内;
当以上任一项判断的结果为是时,则将所述判断的结果为是的项记作一个标准值;当以上任一项判断的结果为否时,则将所述判断的结果为否的项记作零;
计算所有标准值的和,得到总标准值;
判断所述总标准值是否大于第四阈值,根据判断的结果确定所述号码是否为垃圾短信号码,在所述号码为垃圾短信号码时,待识别短信为垃圾短信;在所述号码为普通短信号码时,待识别短信为普通短信;
其中,所述第一阈值为普通短信号码的最大的短信发送量;
所述第二阈值为普通短信号码的最大的接收对端数量;
所述第三阈值为普通短信号码的最小的位置信息的变化率;
所述第四阈值为普通短信号码的最大的总标准值。
2.根据权利要求1所述的垃圾短信的识别方法,其特征在于,所述判断所述总标准值是否大于第四阈值,根据判断的结果确定所述号码是否为垃圾短信号码,在所述号码为垃圾短信号码时,待识别短信为垃圾短信;在所述号码为普通短信号码时,待识别短信为普通短信的步骤包括:
判断所述总标准值是否大于第四阈值,如果是,则进入下一步;如果否,则所述号码为普通短信号码,待识别短信为普通短信;
读取待识别短信的内容,对待识别短信的内容进行语义分析,判断待识别短信的内容中是否包含垃圾短信的关键词,如果是,则所述号码为垃圾短信号码,待识别短信为垃圾短信;如果否,则所述号码为普通短信号码,待识别短信为普通短信。
3.根据权利要求1或2所述的垃圾短信的识别方法,其特征在于,所述识别方法还包括:
在所述号码为垃圾短信号码时,存储所述号码。
4.根据权利要求1或2所述的垃圾短信的识别方法,其特征在于,所述号码为SIM卡号码。
5.根据权利要求4所述的垃圾短信的识别方法,其特征在于,所述用户白名单包括合法的SIM卡号码的用户。
6.根据权利要求1或2所述的垃圾短信的识别方法,其特征在于,所述位置信息包括Cell-ID的信息,所述位置信息的变化率为单位时间内所述Cell-ID的数量。
7.一种垃圾短信的识别系统,其特征在于,所述识别系统包括:
获取单元,所述获取单元用于获取待识别短信,读取发送待识别短信的号码;
与所述获取单元连接的采集单元,所述采集单元用于采集CDR数据,所述CDR数据包括所述号码的短信发送量、所述号码的接收对端数量、所述号码的基本信息、所述号码的位置信息和所述号码的设备型号;
与所述采集单元连接的判断单元,所述判断单元用于判断所述号码的短信发送量是否大于第一阈值;判断所述号码的接收对端数量是否大于第二阈值;根据所述号码的基本信息,判断所述号码不在用户白名单中;判断所述号码的位置信息的变化率是否小于第三阈值;判断所述号码的设备型号不在合法设备库内;
与所述判断单元连接的计数单元,所述计数单元用于当所述判断单元中的任一项判断的结果为是时,则将所述判断的结果为是的项记作一个标准值;当所述判断单元中的任一项判断的结果为否时,则将所述判断的结果为否的项记作零;
与所述计数单元连接的求和单元,所述求和单元用于计算所述计数单元中的所有标准值的和,得到总标准值;
与所述求和单元连接的结果输出单元,所述结果输出单元用于判断所述总标准值是否大于第四阈值,根据判断的结果确定所述号码是否为垃圾短信号码,并输出所述号码为垃圾短信号码,待识别短信为垃圾短信;或者输出所述号码为普通短信号码时,待识别短信为普通短信;
其中,所述第一阈值为普通短信号码的最大的短信发送量;
所述第二阈值为普通短信号码的最大的接收对端数量;
所述第三阈值为普通短信号码的最小的位置信息的变化率;
所述第四阈值为普通短信号码的最大的总标准值。
8.根据权利要求7所述的垃圾短信的识别系统,其特征在于,所述结果输出单元包括:
与所述求和单元连接的第一输出子单元,所述第一输出子单元用于判断所述总标准值是否大于第四阈值,在所述总标准值小于或者等于第四阈值时,输出所述号码为普通短信号码,待识别短信为普通短信;
与所述第一输出子单元连接的第二输出子单元,所述第二输出子单元还与所述获取单元连接,所述第二输出子单元用于在所述总标准值大于第四阈值时,读取待识别短信的内容,对待识别短信的内容进行语义分析,判断待识别短信的内容中是否包含垃圾短信的关键词,在待识别短信的内容中包含垃圾短信的关键词时,输出所述号码为垃圾短信号码,待识别短信为垃圾短信;在待识别短信的内容中不包含垃圾短信的关键词时,输出所述号码为普通短信号码,待识别短信为普通短信。
9.根据权利要求7或8所述的垃圾短信的识别系统,其特征在于,所述识别系统还包括与所述结果输出单元连接的数据库,所述数据库用于在所述号码为垃圾短信号码时,存储将所述号码。
10.根据权利要求7或8所述的垃圾短信的识别系统,其特征在于,所述号码为SIM卡号码。
11.根据权利要求10所述的垃圾短信的识别系统,其特征在于,所述用户白名单包括合法的SIM卡号码的用户。
12.根据权利要求7或8所述的垃圾短信的识别系统,其特征在于,所述位置信息包括Cell-ID的信息,所述位置信息的变化率为单位时间内所述Cell-ID的数量。
CN201610891854.2A 2016-10-12 2016-10-12 一种垃圾短信的识别方法及系统 Active CN106255082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610891854.2A CN106255082B (zh) 2016-10-12 2016-10-12 一种垃圾短信的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610891854.2A CN106255082B (zh) 2016-10-12 2016-10-12 一种垃圾短信的识别方法及系统

Publications (2)

Publication Number Publication Date
CN106255082A CN106255082A (zh) 2016-12-21
CN106255082B true CN106255082B (zh) 2019-07-12

Family

ID=57612457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610891854.2A Active CN106255082B (zh) 2016-10-12 2016-10-12 一种垃圾短信的识别方法及系统

Country Status (1)

Country Link
CN (1) CN106255082B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777245B (zh) * 2016-12-27 2020-09-25 上海大汉三通通信股份有限公司 一种短信类型判别方法、系统及短信管理平台
CN107872772B (zh) * 2017-12-19 2021-02-26 北京奇虎科技有限公司 诈骗短信的检测方法及装置
CN108391240B (zh) * 2018-05-23 2021-08-24 中国联合网络通信集团有限公司 垃圾彩信判断方法和装置
CN108769933B (zh) * 2018-05-31 2021-06-04 中国联合网络通信集团有限公司 彩信识别方法和彩信识别系统
CN111586695B (zh) * 2020-05-28 2023-11-14 腾讯科技(深圳)有限公司 短信识别方法及相关设备
CN113795002B (zh) * 2021-10-26 2022-07-08 中国联合网络通信集团有限公司 垃圾短信的拦截方法、装置和计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753725A (zh) * 2008-12-17 2010-06-23 深圳Tcl新技术有限公司 黑名单处理系统、方法及装置
CN102572747A (zh) * 2010-12-28 2012-07-11 中国移动通信集团吉林有限公司 一种垃圾短信监控方法及系统
CN103067896A (zh) * 2013-01-17 2013-04-24 中国联合网络通信集团有限公司 垃圾短信过滤方法及装置
CN103634797A (zh) * 2013-12-06 2014-03-12 中国联合网络通信集团有限公司 一种垃圾短信识别方法及装置
CN103796183A (zh) * 2012-10-26 2014-05-14 中国移动通信集团上海有限公司 一种垃圾短信识别方法及装置
CN103796207A (zh) * 2012-11-02 2014-05-14 中国移动通信集团上海有限公司 一种虚假用户号码识别方法及装置
CN103874058A (zh) * 2014-03-28 2014-06-18 中国联合网络通信集团有限公司 短信处理方法及短信中心
CN104703185A (zh) * 2013-12-05 2015-06-10 中国联合网络通信集团有限公司 信息识别方法及系统、移动通信网络

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753725A (zh) * 2008-12-17 2010-06-23 深圳Tcl新技术有限公司 黑名单处理系统、方法及装置
CN102572747A (zh) * 2010-12-28 2012-07-11 中国移动通信集团吉林有限公司 一种垃圾短信监控方法及系统
CN103796183A (zh) * 2012-10-26 2014-05-14 中国移动通信集团上海有限公司 一种垃圾短信识别方法及装置
CN103796207A (zh) * 2012-11-02 2014-05-14 中国移动通信集团上海有限公司 一种虚假用户号码识别方法及装置
CN103067896A (zh) * 2013-01-17 2013-04-24 中国联合网络通信集团有限公司 垃圾短信过滤方法及装置
CN104703185A (zh) * 2013-12-05 2015-06-10 中国联合网络通信集团有限公司 信息识别方法及系统、移动通信网络
CN103634797A (zh) * 2013-12-06 2014-03-12 中国联合网络通信集团有限公司 一种垃圾短信识别方法及装置
CN103874058A (zh) * 2014-03-28 2014-06-18 中国联合网络通信集团有限公司 短信处理方法及短信中心

Also Published As

Publication number Publication date
CN106255082A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN106255082B (zh) 一种垃圾短信的识别方法及系统
CN107612740A (zh) 一种分布式环境下的日志监控系统及方法
CN106570014B (zh) 用于确定用户的家庭属性信息的方法与设备
CN111104521A (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN103178998A (zh) 一种测控数据传输方法和装置
CN109656973A (zh) 一种目标对象关联分析方法及装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN109815286A (zh) 一种自适应火箭遥测系统及其实现方法
CN110753081B (zh) 公安大数据智慧采集分析方法及装置
CN101330551B (zh) 一种电信系统中的通信记录的核对方法及系统
CN108399387A (zh) 用于识别目标群体的数据处理方法及装置
CN116482713A (zh) 一种用于北斗导航接收机的导航数据校验方法
CN106131851A (zh) 一种流动式伪基站追踪定位方法及系统
CN105404670B (zh) 骚扰短信判别方法及装置
CN109634757A (zh) 一种地震行业大数据处理的数据采集方法
CN106598983A (zh) 信息显示方法及装置
CN113572792B (zh) 一种基于物联网的工程测量智慧管理平台
CN109639452A (zh) 社交关系模型训练方法、装置、服务器及存储介质
EP4020939A1 (en) Evaluating ip location on a client device
CN111954013B (zh) 直播互动方法、装置、终端设备、服务器及存储介质
CN103701669B (zh) 一种检测业务类型的方法及装置
CN114221778A (zh) 一种提高无线公网接入安全性的方法
CN105848230A (zh) 一种判断机动车路面竞速的方法和系统
CN109600751A (zh) 一种基于网络侧用户数据的伪基站检测方法
CN110825785A (zh) 一种数据挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant