CN112714447A - 基于手机号码和短信内容双模检测的平台短信净化方法 - Google Patents

基于手机号码和短信内容双模检测的平台短信净化方法 Download PDF

Info

Publication number
CN112714447A
CN112714447A CN202011524512.XA CN202011524512A CN112714447A CN 112714447 A CN112714447 A CN 112714447A CN 202011524512 A CN202011524512 A CN 202011524512A CN 112714447 A CN112714447 A CN 112714447A
Authority
CN
China
Prior art keywords
sending
short message
mobile phone
frequency
phone number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011524512.XA
Other languages
English (en)
Inventor
陈世虎
黄晓健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yiqilai Information Technology Co ltd
Original Assignee
Nanjing Yiqilai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yiqilai Information Technology Co ltd filed Critical Nanjing Yiqilai Information Technology Co ltd
Priority to CN202011524512.XA priority Critical patent/CN112714447A/zh
Publication of CN112714447A publication Critical patent/CN112714447A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于手机号码和短信内容双模检测的平台短信净化方法,属于平台短信分析的技术领域,包括以下步骤,通过模板短信接入方式,优先过滤经过审核的模板类短信,经过审核的模板类短信直接进入发送通道,优先发送,不符合模板类短信时,对发送信息进行敏感字/词校验,当敏感字/词的数量达到阈值时,拒绝发送,否则,对发送信息进行发送频率检测,当发送频率超出允许值时,拒绝发送,否则发送。本发明经过层层排查,避免垃圾短信群发,以及广告推送,提高用户短信使用感,减少被垃圾、广告短息的骚扰。

Description

基于手机号码和短信内容双模检测的平台短信净化方法
技术领域
本发明涉及一种基于手机号码和短信内容双模检测的平台短信净化方法,属于平台短信分析的技术领域。
背景技术
随着移动互联网的技术发展和迅速普及,“行业短信”作为一种全新崛起的行业,正随着移动互联网、O2O、P2P、APP、物流呈现暴发式增长。2019年,中国行业短信服务市场规模达到317亿元,发送量达14316亿条。其中约超过20%垃圾短信。每逢“618”、“818”、双十一等“人造购物节”前后,用户的手机必定会收到大量商家的信息、平台的推送等等。作为网络时代的废品,垃圾短信给用户以“不想用、躲不掉、惹人恼”的烦人特点,晋升为现代人日常生活的痛点之一。给社会带来较为恶劣的影响,主要表现在两方面:
1)同一内容短信海量群发,影响范围广;
2)对单一用户,极短时间内被发送大量短信,接收到大量垃圾短信,影响用户正常使用手机。
作为行业短信通道运营方,除了又通过合同条款框架约束接入企业的发送行为,同时也需要通过技术手段范围该类行为。
发明内容
为了解决上述技术问题,本发明提供一种基于手机号码和短信内容双模检测的平台短信净化方法,其具体技术方案如下:
一种基于手机号码和短信内容双模检测的平台短信净化方法,包括以下步骤:
步骤一:通过模板短信接入方式,优先过滤经过审核的模板类短信,经过审核的模板类短信直接进入发送通道,优先发送,不符合模板类短信时,进入步骤二;
步骤二:对发送信息进行敏感字/词校验,当敏感字/词的数量达到阈值时,拒绝发送,否则进入步骤三;
步骤三:对发送信息进行发送频率检测,当发送频率超出允许值时,拒绝发送,否则发送,允许值包括无条件允许发送量或者单位时间允许发送最大条数。
进一步的,所述步骤一中的模板短信指预先定义短信发送的文字模板、参数信息,并存入模板库,给申请者分配模板ID,发送者只需上传专用的模板ID,填写模板参数即可完成发送;
模板短信包括验证码类短信、银行帐单类短信、物流通知类短信。
进一步的,所述步骤三中的发送频率检测包括:同一手机号码短信被发送频次检测和同一内容短信发送频次检测;
所述同一手机号码短信被发送频次检测的过程为:
当同一手机号码累计发送量小于等于无条件允许发送量,即Tn≤Pn,则发送短信,并记录短信发送次数,否则,判断当前发送频率是否小于等于单位时间允许发送最大条数,若Sf≤Ami,则发送短信,并记录短信发送次数,否则,拒绝发送;
式中:Tn是Total Send Number的简写,表示同一手机号码被累计发送数量,Pn是Permit Send Number的简写,表示同一手机号码无条件允许被发送数量,sf表示平均发送频率,单位条/秒,
Figure BDA0002850106820000021
Bt是Begin Send Time的简写,表示计数起始时间,Ct是Current Time的简写,表示当前时间;
所述同一内容短信发送频次检测允许发送短信的过程为:
当同一内容短信累计发送量小于等于无条件允许发送量,即Tnc≤Pnc,则发送短信,并记录短信发送次数,否则,判断当前发送频率是否小于单位时间允许发送最大条数,若Sfc≤Amic,则发送短信,并记录短信发送次数,否则,拒绝发送;
式中:Tnc是Total Send Number的简写,表示累计同内容发送数量,Pnc是PermitSend Number 的简写,表示无条件允许同内容发送数量;
Figure BDA0002850106820000022
Sfc表示同内容平均发送频率,单位条 /秒;Bt是Begin Send Time的简写,表示计数起始时间;Ct是Current Time的简写,表示当前时间;Amic是Average Maximum Permit Send item的简写,表示单位时间允许同内容发送最大条数。
进一步的,所述同一手机号码短信被发送频率检测中的平均发送频率的累计发送数量Tn按照规律清除,清除的方法为:
步骤1:计算最后一次发送至当前的时长是否大于等于静默最长时间,即(Ct-Lst)≥Qmt,若是,则进入步骤2,若否,则保留累计发送数量数据;
式中,Ct是Current Time的简写,表示当前时间;Lst是Last Send Time的简写,表示最后一次发送时间;Qmt是Quiet Maximum Time的简写,表示静默最长时间,静默最长时间表示在没有更新的情况下记录保留的最长时间;
步骤2:计算累计发送频率是否小于等于等于允许安全值,即
Figure BDA0002850106820000023
若是,则清除累计发送数量数据,若否,则保留累计发送数量数据;
式中,Psf是Permit Safe Frequency的简写,表示允许频率安全值。
进一步的,所述同一手机号码短信被发送频次检测中手机号码格式转换方法为:
将手机号转换为高级语言中的64位Int整型,JAVA中的64位int整型表示范围是:-2147483648~2147483648,即使去掉手机号中固定的手首位1,也无法覆盖其他手机号码,因此舍弃第二位号码,运用系统强制字符串转换功能,转换为64位Int整型,进行存储,经过转换后,原11 个字符转换为4个字符,匹配时间开销缩短为O4,提高匹配效率63%,由于直接去除了存在差异的第 2个字符,匹配精度会有所降低,但鉴于匹配仍有高达9位数,匹配失误的概率为10亿分之一,因此忽略,转换后为整型数值,以此为索引,进行快速检索,提高匹配效率。
进一步的,同一内容短信发送频次检测的内容匹配方法为:
步骤a:将待发送短信转换成字符串,
步骤b:计算步骤a得到的字符串的长度,
步骤c:生成待发送短信的字符串特征码,
步骤d:将步骤c的字符串特征码与内容匹配库(匹配库即已经存储的短信库中所有短信经过相同的取位置后,形成的特征码库)中的字符串特征码进行长度检索,若不存在长度一致的特征码,则发送短信,新增匹配,即,将该特征码新增到匹配库中,否则进入步骤e,
步骤e:将内容匹配库中与步骤c的字符串特征码长度一致的特征码提取,形成特征码集,
步骤f:将步骤c的字符串特征码与步骤e中的特征码集进行特征码进行内容匹配,若存在相同的特征码,更新计算器,记录频率,若不存在,新增匹配,即,将该特征码新增到特征码库中,并进入步骤g,
步骤g:判断特征码是否超限,即,当前该内容累计发送量小于等于无条件允许发送量,或当前发送频率小于单位时间允许发送最大条数,若超限,则拒绝发送,若不超限,则短信发送。
进一步的,所述短信内容特征码提取的方法为:以2的幂次方作为提取位置,提取字符组成字符串,形成特征码,为了增加匹配精度,在字符串尾部增加一个字符,由于一般语句尾部为句号或括号,因此可选倒数第3个字符。
进一步的,同一内容短信发送频率检测中,累计发送量的清除方法为,
步骤(1):检查最后一次发送至当前的时长是否大于静默最长时间,即(Ct-Lst)≥Qmt,若是,则进入步骤(2),若否,则保留累计发送量;
步骤(2):判断累计发送频率是否小于同内容允许频率安全值,即
Figure BDA0002850106820000031
若是,则清除累计发送量,若否,则保留累计发送量,式中,Psfc是Permit Safe Frequency简写,表示同内容允许频率安全值。
进一步的,所述同一手机号码短信被发送频次检测和同一内容短信发送频次检测的数据存储格式设置过程为:检索数据访问频率极高,但留存价值较低,因此该匹配数据表存储于内存中,同时考虑检索效率及调用方式,采用成熟的内存数据库进行存储;
同一手机号码短信被发送频次检测的存储记录包含的字段有:经裁剪后的手机号、累计发送数量、起始时间、最后一次发送的时间,索引经裁剪后的手机号;
同一内容短信发送频次检测的存储记录包含的字段有:字符特征码、累计发送数量、起始时间、最后一次发送的时间,索引字符特征码。
本发明的有益效果是:
本发明可拦截同一号码恶意海量发送垃圾消息,以及拦截同一个内容大量重复发送,避免造成垃圾短信大量转发,保障用户免受或少受垃圾短信的骚扰,保障短信行业的健康运行。
附图说明
图1是本发明的整体流程图,
图2是本发明的同一手机号码短信被发送频次检测的流程图,
图3是本发明的同一内容短信发送频次检测的短信内容匹配方法,
图4是本发明的同一内容短信发送频次检测的流程图。
具体实施方式
现在结合具体实施方式对本发明作进一步详细的说明。
参见图1,本发明的实施步骤如下:
步骤一:通过模板短信接入方式,优先过滤经过审核的模板类短信,如验证码类短信、银行帐单类短信、物流通知类短信等。该类短信直接进入发送通道,优先发送,以保证发送的时效性。模板短信是指预先定义短信发送的文字模板、参数等信息,并存入模板库,给申请者分配模板ID,发送者只需上传专用的模板ID,填写模板参数即可完成发送。以下为模板短信发送命令参考:
sendModelMessage(string userID,string modelID,string userNumber,param1,param2, param3,…)
批量发送可将string userNumber,param1,param2,param3,…参数内容打包为Json作为整体参数进行发送。
步骤二:对发送信息进行敏感字校验,访动作由专用敏感字较验服务器独立完成,不在本申请范围之内。
步骤三:去除模板类短信,通过敏感字校验的短信,进行发送频率检测,以防止垃圾短信风暴,该内容是本专利申请的核心内容。
本发明的基于手机号码和短信内容双模检测的平台短信净化方法的双模检测主要体现在以下两个部分:
1)同一手机号码短信被发送频次检测与算法控制,
2)同一内容短信发送频次检测与算法控制。
同一手机号码短信被发送频次检测与算法控制具体为:
该检测控制算法需解决
1)单一号码被发送频率检测,
2)单一号码检测存储数据结构、检索方式及优化。
名词定义:
累计发送数量(Total Send Number),简写:Tn。
无条件允许发送数量(Permit Send Number),简写:Pn。
计数起始时间(Begin Send Time),简写:Bt。
当前时间(Current Time),简写:Ct。
有效时间(Valid Time),简写:Vt。
最近间隔时间(Last Span Time),简写:Lpt。
平均发送时间间隔(Average Span Time),简写:Avt。
最后一次发送时间(Last Send Time),简写:Lst。
单位时间允许发送最大条数(Average Maximum Permit Send item),简写:Ami。
发送频率(Send Frequency),简写:Sf。
静默最长时间(Quiet Maximum Time),简写:Qmt。
允许频率安全值(Permit Safe Frequency),简写:Psf。
同一手机号码被发送短信的允许通过条件(参见图2)
1)Tn≤Pn即:当前该号码累计发送量小于等于无条件允许发送量,
2)
Figure BDA0002850106820000051
计算平均发送频率,单位条/秒,
判断Sf≤Ami即:当前发送频率是否小于单位时间允许发送最大条数,
结果参见图2,满足Tn≤Pn或Sf≤Ami,即发送,两个都不满足则拒绝发送,图2中,YES表示允许继续发送,NO表示拒绝发送。
计算器清除机制
如果没有计算器清退机制,随着短信发送条数海量增长,手机号码匹配数据库也将同步增长,相应的检索时效,匹配时效也将大幅增长,影响系统效率。因此需要建立一种匹配数据库清除机制存储数据为防止计算器过度增长。
清除规则为
1)(Ct-Lst)≥Qmt检查最后一次发送至当前的时长,
2)
Figure BDA0002850106820000061
累计发送频率是否小于允许安全值,
当两者同为真时,则清除该号码对应的计数器,否则保留。系统以小时为单位定期检测。
数据存储结构及方式
手机号格式转换
手机号为11个字符,一次匹配需进行11次字符匹配,以1个字符匹配时间为O1,则11个字符匹配时间为O11。数量大,将增加系统的性能开销。
手机号的特征为:
1)首位为1
2)手机号由数字构成
因此,通过将手机号转换为高级语言中的64位Int整型。目前JAVA中的64位int整型可表示范围是:-2147483648~2147483648,即使去掉手机号中固定的手首位1,也无法覆盖其他手机号码,因此舍弃第二位号码。
例:
a)原手机号,字符格式
1 3 8 5 1 6 6 1 5 1 2
b)可通过字符串标准函数,去头两位字符变为以下字符串
8 5 1 6 6 1 5 1 2
c)运用系统强制字符串转换功能,转换为64位Int整型,进行存储
8 5 1 6 6 1 5 1 2
经过转换后,原11个字符转换为4个字符,匹配时间开销缩短为O4,提高匹配效率63%。
由于直接去除了存在差异的第2个字符,匹配精度会有所降低,但鉴于匹配仍有高达9位数,匹配失误的概率为10亿分之一,因此可忽略。
同时,转换后为整型数值,可以以此为索引,进行快速检索,提高匹配效率。
数据存储格式及方式
该检索数据访问频率极高,但留存价值较低,因此该匹配数据表存储于内存中。同时考虑检索效率及调用方式,采用成熟的内存数据库进行存储,如Redis、Memcache、ApacheIngite等。存储记录包含的字段如下表1:
表1
序号 字段名称 类型 描述 是否索引 备注
1 PhoneNumber Integer 经裁剪后的手机号
2 TotalNumber Integer 累计发送数量
3 BeginTime DateTime 起始时间(创建时间)
4 LastTime DateTime 最后一次发送的时间
同一内容短信发送频次检测与算法控制具体为:
现实系统瓶颈
在不进行任何算法优化情况下,进行行业短信发送完全匹配并计数,会出现以下两种情况:
1)每发送一条不同内容的短信,匹配表增加一条记录,因此字符串匹配表将急速增长。单条短信最大容量为144个字符,一个中文汉字为2个字符,以一条短信平均50个汉字计算,则一条短信匹配内容为100个字节。以平均10万条短信匹配量计算,则匹配库仅字符串需占用 100*10*10000=10000000字节,相当于10M字节开销,影响系统存储空间。
2)需进行完全匹配的内容急速增加,系统性能消耗也将呈指数级增长,严重影响短信发送的及时性,甚至引发系统崩溃。
流程匹配优化(参见图3)
1)优先长度匹配,计算待发送短信内容长度(速度极快),选择库中同长度的短信内容进行匹配,大幅缩小短信匹配的范围。
2)应用短信特征码进行匹配,经过优化化的短信特征码相当于原短信长度的20%左右,节约80%的行业短信匹配时间。
3)以字符串长度值这索引,建立行业短信内容匹配库。
4)行业短信内容匹配库建立自动删除机制,抑制行业短信匹配库无限制鼓胀。
短信内容特征码
短信内容特征码提取一般有两种方式:
一种是通过复杂的运算得出一串全新的字符串,比如HD5编码,该方法适用于超长字符内容,如视频、超大文件等,该种方法应用在内容匹配过程的特点是,运作复杂,匹配精度高,匹配速度较快,比较适用于超大文件下载较难、网盘同类文件存储等。
第二种,是指通过算法提取短信内容字符串中部分,减少匹配长度,提高效率。优点是特征码生成速度快,匹配速度快,但精度较差。
由于只是对匹配内容进行计数,对频率过高进行抑制,因此精度要求较低,采用第二种方法。
以2的幂次方作为提取位置,提取字符组成字符串,形成特征码,具体如下表2所示:
表2
Figure BDA0002850106820000081
分别提取位置(上表格中黑色阴影白字位置):
1=20 2=21 4=22 8=23 16=24 32=25 64=26
合计提取,1,2,4,8,16,32,64,7个位置。
为了增加匹配精度,在字符串尾部增加一个字符,由于一般语句尾部为句号或括号,因此可选倒数第3个字符为最佳。在上表中为第98个字符(上表格中加精黑边框中)。
则:内容特征码为1,2,4,8,16,32,64,98。
原匹配100个字符,所需时间为O100,采用特征码匹配,所需时间为O8
下表3为各个字符串长度(大于10)字符串特征码长度:
表3
Figure BDA0002850106820000082
Figure BDA0002850106820000091
上表可以得出,采用短信内容特征码将节约系统开销为60%~95%之间。
除了以2的幂次方作为提取位置,提取字符组成字符串,形成特征码,也可以用其他的位置选取方式来提取特征码,比如,X的平方,X选大于等于2的任一整数。或者其他的规律的位置选取方法。只要待发送短信的提取位置与短信库中的提取位置的算法一致便可。
同一内容短信发送的允许通过条件(参见图4)
累计同内容发送数量(Total Send Number),简写:Tnc。
无条件允许同内容发送数量(Permit Send Number),简写:Pnc。
计数起始时间(Begin Send Time),简写:Bt。
当前时间(Current Time),简写:Ct。
有效时间(Valid Time),简写:Vt。
最近间隔时间(Last Span Time),简写:Lpt。
平均发送时间间隔(Average Span Time),简写:Avt。
最后一次发送时间(Last Send Time),简写:Lst。
单位时间允许同内容发送最大条数(Average Maximum Permit Send item),简写:Amic。
相同内容发送频率(Send Frequency),简写:Sfc。
静默最长时间(Quiet Maximum Time),简写:Qmt。
同内容允许频率安全值(Permit Safe Frequency),简写:Psfc。
1)Tnc≤Pnc即:当前该内容累计发送量小于等于无条件允许发送量,
2)
Figure BDA0002850106820000092
计算同内容平均发送频率,单位条/秒,
判断sfc≤Amic即:当前发送频率是否小于单位时间允许发送最大条数,
结果:满足上述1)或2)便发送,都不满足,则拒绝发送,图4中的YES表示允许继续发送, NO表示拒绝发送。
计算器清除机制
如果没有计算器清退机制,随着短信发送条数海量增长,内容匹配数据库也将同步增长,相应的检索时效,匹配时效也将大幅增长,影响系统效率。
清除规则为
1)(Ct-Lst)≥Qmt检查最后一次发送至当前的时长,
2)
Figure BDA0002850106820000101
累计发送频率是否小于允许安全值,
两者为And关系。当两者同为真时,则清除该号码对应的计数器,否则保留。系统以小时为单位定期检测。
数据存储结构及方式
数据存储格式及方式
该检索数据访问频率极高,但留存价值较低,因此该匹配数据表存储于内存中。同时考虑检索效率及调用方式,采用成熟的内存数据库进行存储,如Redis、Memcache、ApacheIngite等。存储记录包含的字段如下表4所示:
表4
序号 字段名称 类型 描述 是否索引 备注
1 Length Integer 字符特征码
2 ContentFeaYES String 字符特征码
3 TotalNumber Integer 累计发送数量
4 BeginTime DateTime 起始时间(创建时间)
5 LastTime DateTime 最后一次发送的时间
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (9)

1.一种基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:包括以下步骤,
步骤一:通过模板短信接入方式,优先过滤经过审核的模板类短信,经过审核的模板类短信直接进入发送通道,优先发送,不符合模板类短信时,进入步骤二;
步骤二:对发送信息进行敏感字/词校验,当敏感字/词的数量达到阈值时,拒绝发送,否则进入步骤三;
步骤三:对发送信息进行发送频率检测,当发送频率超出允许值时,拒绝发送,否则发送,允许值包括无条件允许发送量或者单位时间允许发送最大条数。
2.根据权利要求1所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述步骤一中的模板短信指预先定义短信发送的文字模板、参数信息,并存入模板库,给申请者分配模板ID,发送者只需上传专用的模板ID,填写模板参数即可完成发送;
模板短信包括验证码类短信、银行帐单类短信、物流通知类短信。
3.根据权利要求1所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述步骤三中的发送频率检测包括:同一手机号码短信被发送频次检测和同一内容短信发送频次检测;
所述同一手机号码短信被发送频次检测的过程为:
当同一手机号码累计发送量小于等于无条件允许发送量,即Tn≤Pn,则发送短信,并记录短信发送次数,否则,判断当前发送频率是否小于等于单位时间允许发送最大条数,若Sf≤Ami,则发送短信,并记录短信发送次数,否则,拒绝发送;
式中:Tn是Total Send Number的简写,表示同一手机号码被累计发送数量,Pn是Permit Send Number的简写,表示同一手机号码无条件允许被发送数量,sf表示平均发送频率,单位条/秒,
Figure FDA0002850106810000011
Bt是Begin Send Time的简写,表示计数起始时间,Ct是Current Time的简写,表示当前时间;
所述同一内容短信发送频次检测允许发送短信的过程为:
当同一内容短信累计发送量小于等于无条件允许发送量,即Tnc≤Pnc,则发送短信,并记录短信发送次数,否则,判断当前发送频率是否小于单位时间允许发送最大条数,若Sfc≤Amic,则发送短信,并记录短信发送次数,否则,拒绝发送;
式中:Tnc是Total Send Number的简写,表示累计同内容发送数量,Pnc是Permit SendNumber的简写,表示无条件允许同内容发送数量;
Figure FDA0002850106810000012
Sfc表示同内容平均发送频率,单位条/秒;Bt是Begin Send Time的简写,表示计数起始时间;Ct是Current Time的简写,表示当前时间;Amic是Average Maximum Permit Send item的简写,表示单位时间允许同内容发送最大条数。
4.根据权利要求3所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述同一手机号码短信被发送频率检测中的平均发送频率的累计发送数量Tn按照规律清除,清除的方法为:
步骤1:计算最后一次发送至当前的时长是否大于等于静默最长时间,即(Ct-Lst)≥Qmt,若是,则进入步骤2,若否,则保留累计发送数量数据;
式中,Ct是Current Time的简写,表示当前时间;Lst是Last Send Time的简写,表示最后一次发送时间;Qmt是Quiet Maximum Time的简写,表示静默最长时间,静默最长时间表示在没有更新的情况下记录保留的最长时间;
步骤2:计算累计发送频率是否小于等于等于允许安全值,即
Figure FDA0002850106810000021
若是,则清除累计发送数量数据,若否,则保留累计发送数量数据;
式中,Psf是Permit Safe Frequency的简写,表示允许频率安全值。
5.根据权利要求3所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述同一手机号码短信被发送频次检测中手机号码格式转换方法为:
将手机号转换为高级语言中的64位Int整型,JAVA中的64位int整型表示范围是:-2147483648~2147483648,即使去掉手机号中固定的手首位1,也无法覆盖其他手机号码,因此舍弃第二位号码,运用系统强制字符串转换功能,转换为64位Int整型,进行存储,经过转换后,原11个字符转换为4个字符,匹配时间开销缩短为O4,提高匹配效率63%,由于直接去除了存在差异的第2个字符,匹配精度会有所降低,但鉴于匹配仍有高达9位数,匹配失误的概率为10亿分之一,因此忽略,转换后为整型数值,以此为索引,进行快速检索,提高匹配效率。
6.根据权利要求3所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:同一内容短信发送频次检测的内容匹配方法为:
步骤a:将待发送短信转换成字符串,
步骤b:计算步骤a得到的字符串的长度,
步骤c:生成待发送短信的字符串特征码,
步骤d:将步骤c的字符串特征码与内容匹配库中的字符串特征码进行长度检索,若不存在长度一致的特征码,则发送短信,新增匹配,否则进入步骤e,
步骤e:将内容匹配库中与步骤c的字符串特征码长度一致的特征码提取,形成特征码集,
步骤f:将步骤c的字符串特征码与步骤e中的特征码集进行特征码进行内容匹配,若存在相同的特征码,更新计算器,记录频率,若不存在,新增匹配,并进入步骤g,
步骤g:判断特征码是否超限,即,当前该内容累计发送量小于等于无条件允许发送量,或当前发送频率小于单位时间允许发送最大条数,若超限,则拒绝发送,若不超限,则短信发送。
7.根据权利要求6所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述短信内容特征码提取的方法为:以2的幂次方作为提取位置,提取字符组成字符串,形成特征码,为了增加匹配精度,在字符串尾部增加一个字符,由于一般语句尾部为句号或括号,因此可选倒数第3个字符。
8.根据权利要求1所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:同一内容短信发送频率检测中,累计发送量的清除方法为,
步骤(1):检查最后一次发送至当前的时长是否大于静默最长时间,即(Ct-Lst)≥Qmt,若是,则进入步骤(2),若否,则保留累计发送量;
步骤(2):判断累计发送频率是否小于同内容允许频率安全值,即
Figure FDA0002850106810000031
若是,则清除累计发送量,若否,则保留累计发送量,式中,Psfc是Permit Safe Frequency简写,表示同内容允许频率安全值。
9.根据权利要求3所述的基于手机号码和短信内容双模检测的平台短信净化方法,其特征在于:所述同一手机号码短信被发送频次检测和同一内容短信发送频次检测的数据存储格式设置过程为:检索数据访问频率极高,但留存价值较低,因此该匹配数据表存储于内存中,同时考虑检索效率及调用方式,采用成熟的内存数据库进行存储;
同一手机号码短信被发送频次检测的存储记录包含的字段有:经裁剪后的手机号、累计发送数量、起始时间、最后一次发送的时间,索引经裁剪后的手机号;
同一内容短信发送频次检测的存储记录包含的字段有:字符特征码、累计发送数量、起始时间、最后一次发送的时间,索引字符特征码。
CN202011524512.XA 2020-12-22 2020-12-22 基于手机号码和短信内容双模检测的平台短信净化方法 Pending CN112714447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011524512.XA CN112714447A (zh) 2020-12-22 2020-12-22 基于手机号码和短信内容双模检测的平台短信净化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011524512.XA CN112714447A (zh) 2020-12-22 2020-12-22 基于手机号码和短信内容双模检测的平台短信净化方法

Publications (1)

Publication Number Publication Date
CN112714447A true CN112714447A (zh) 2021-04-27

Family

ID=75545021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011524512.XA Pending CN112714447A (zh) 2020-12-22 2020-12-22 基于手机号码和短信内容双模检测的平台短信净化方法

Country Status (1)

Country Link
CN (1) CN112714447A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117896681A (zh) * 2024-03-13 2024-04-16 深圳市诚立业科技发展有限公司 一种短信通道智能化自适应选择方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN101790142A (zh) * 2010-03-11 2010-07-28 上海粱江通信系统股份有限公司 结合短信内容和发送频次识别垃圾短信源的系统与方法
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN106470405A (zh) * 2015-08-18 2017-03-01 中兴通讯股份有限公司 短信拦截方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN101790142A (zh) * 2010-03-11 2010-07-28 上海粱江通信系统股份有限公司 结合短信内容和发送频次识别垃圾短信源的系统与方法
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN106470405A (zh) * 2015-08-18 2017-03-01 中兴通讯股份有限公司 短信拦截方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117896681A (zh) * 2024-03-13 2024-04-16 深圳市诚立业科技发展有限公司 一种短信通道智能化自适应选择方法
CN117896681B (zh) * 2024-03-13 2024-05-14 深圳市诚立业科技发展有限公司 一种短信通道智能化自适应选择方法

Similar Documents

Publication Publication Date Title
CN1764916B (zh) 用于频率计数的方法和装置
US20080201297A1 (en) Method and System for Determining Relation Between Search Terms in the Internet Search System
CN102469435A (zh) 一种提高移动终端的终端型号识别准确率的方法及装置
CN103309852A (zh) 一种基于统计和规则的特定领域的合成词发现方法
CN112714447A (zh) 基于手机号码和短信内容双模检测的平台短信净化方法
CN114866966B (zh) 一种基于大数据的短信用户管理方法
CN111310169A (zh) 一种分布式弱口令爆破算法及系统
CN101075234A (zh) 一种wap浏览器输入方法及系统
CN101600023A (zh) 终端短信息搜索方法及其装置
CN111815066B (zh) 一种基于梯度提升决策树的用户点击预测方法
CN116600329A (zh) 一种消息错误识别码定界方法及装置
CN112261657A (zh) 基于单一用户号码被发送频率的拦截平台短信发送方法
CN107493328B (zh) 一种基于特征融合的合作缓存方法
CN1327355A (zh) 优化信息存储的方法和实现该方法的终端
CN101150822A (zh) 一种电信运营商用户号码采集的方法
EP3970025A1 (en) Managing network event data in a telecommunications network
CN111026748B (zh) 网络访问频次管控的数据压缩方法、装置及系统
CN111010676B (zh) 一种短信缓存方法、装置及系统
CN112261600B (zh) 短信内容快速匹配方法及基于内容的短信拦截方法
CN106951104A (zh) 一种基于词库的词条处理方法和装置
CN110149810B (zh) 限制在网络环境中操纵内容的传输系统和方法及数字助理装置
CN111382211A (zh) 一种对数据的概述方法及装置
CN112686029A (zh) 用于数据库审计系统的sql新语句识别方法及装置
CN112269947A (zh) 空间文本数据的缓存方法、装置、电子设备及存储介质
CN101902539A (zh) 一种电信话单业务的稽核方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210427