CN106777245A - 一种短信类型判别方法、系统及短信管理平台 - Google Patents

一种短信类型判别方法、系统及短信管理平台 Download PDF

Info

Publication number
CN106777245A
CN106777245A CN201611226669.8A CN201611226669A CN106777245A CN 106777245 A CN106777245 A CN 106777245A CN 201611226669 A CN201611226669 A CN 201611226669A CN 106777245 A CN106777245 A CN 106777245A
Authority
CN
China
Prior art keywords
short message
masterplate
white
detected
concentrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611226669.8A
Other languages
English (en)
Other versions
CN106777245B (zh
Inventor
高金容
夏天
郭庆玲
郭林
周灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Original Assignee
SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd filed Critical SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority to CN201611226669.8A priority Critical patent/CN106777245B/zh
Publication of CN106777245A publication Critical patent/CN106777245A/zh
Application granted granted Critical
Publication of CN106777245B publication Critical patent/CN106777245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Abstract

本申请公开了一种短信类型判别方法,包括:获取待检测短信;判断待检测短信是否与预先创建的白模版集中的任一白模版相匹配;其中,白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;若判定出待检测短信与白模版集中的任一白模版相匹配,则确定待检测短信的短信类型为正常短信;若判定出待检测短信与白模版集中的任一白模版均不匹配,则利用预先获取的垃圾短信集判断待检测短信的短信类型是否为垃圾短信。本申请降低了正常短信被误判的事件发生率。另外,本申请还公开了一种短信类型判别系统及短信管理平台。

Description

一种短信类型判别方法、系统及短信管理平台
技术领域
本发明涉及短信管理技术领域,特别涉及一种短信类型判别方法、系统及短信管理平台。
背景技术
当前,随着垃圾短信骚扰愈演愈烈,各大电信业务供应商和增值业务服务商都相继推出了反垃圾短信的技术。然而,由于技术的原因,垃圾短信漏查和正常短信错查的问题同样突出,特别是后者,正常短信不能够准确及时到达终端用户。其原因是:反垃圾短信技术不能实现100%准确和100%查全率,造成部分垃圾短信未能检测出来,也造成部分正常短信被误测为垃圾短信。而后者将对用户造成直接伤害。
综上所述可以看出,如何降低正常短信被误判的事件发生率是目前还有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种短信类型判别方法、系统及短信管理平台,能够降低正常短信被误判的事件发生率。其具体方案如下:
一种短信类型判别方法,包括:
获取待检测短信;
判断所述待检测短信是否与预先创建的白模版集中的任一白模版相匹配;其中,所述白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;
若判定出所述待检测短信与所述白模版集中的任一白模版相匹配,则确定所述待检测短信的短信类型为正常短信;
若判定出所述待检测短信与所述白模版集中的任一白模版均不匹配,则利用预先获取的垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信。
可选的,所述白模版集的创建过程,具体包括:
获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集;
分别从所述正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到所述白模版集;其中,所述白模版集中的每个白模版与所述正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
可选的,所述获取用户上传的容易被误判短信类型的历史正常短信的过程,包括:
获取管理员用户和/或普通用户上传的容易被误判短信类型的历史正常短信。
可选的,所述判断所述待检测短信是否与预先创建的白模版集中的任一白模版相匹配的过程,包括:
利用所述待检测短信,对预先创建的与所述白模版集对应的哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与所述待检测短信对应的固定语句集;
利用所述固定语句集,对所述白模版集展开筛选操作,以试图从所述白模版集中筛选出与所述固定语句集完全匹配的目标白模版;其中,目标白模版为所述白模版集中包含所述固定语句集的所有固定语句的一个白模版;
若从所述白模版集中筛选到目标白模版,则判定所述待检测短信与该目标白模版相匹配;
若从所述白模版集中未能筛选到目标白模版,则判定所述待检测短信与所述白模版集中的任一白模版均不匹配。
可选的,所述哈希表森林数据结构的创建过程,包括:
为所述白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与所述白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;
对所述链式存储结构集合中的所有链式存储结构进行结构排序,得到所述哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于所述哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在所述哈希表森林结构的其余层。
可选的,所述利用预先获取的垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信的过程,包括:
分别从所述垃圾短信集中的每一垃圾短信中提取能反映出该垃圾短信的短信特征的固定语句,得到相应的黑模版集;其中,所述黑模版集中的每个黑模版与所述垃圾短信集中的每一垃圾短信分别一一对应,并且每个黑模版中均包括至少一句固定语句;
判断所述待检测短信是否与所述黑模版集中的任一黑模版相匹配,如果是,则确定所述待检测短信的短信类型为垃圾短信,如果否,则确定所述待检测短信的短信类型为正常短信。
本发明还公开了一种短信类型判别系统,包括:
第一获取模块,用于获取待检测短信;
白模版集创建模块,用于预先创建白模版集;其中,所述白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;
第一判断模块,用于判断所述待检测短信是否与所述白模版集中的任一白模版相匹配;
第一确定模块,用于当所述第一判断模块判定出所述待检测短信与所述白模版集中的任一白模版相匹配,则确定所述待检测短信的短信类型为正常短信;
第二获取模块,用于预先获取垃圾短信集;
第二判断模块,用于当所述第一判断模块判定出所述待检测短信与所述白模版集中的任一白模版均不匹配,则利用所述垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信。
可选的,所述白模版集创建模块,包括:
历史正常短信获取单元,用于获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集;
固定语句提取单元,用于分别从所述正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到所述白模版集;其中,所述白模版集中的每个白模版与所述正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
可选的,所述第一判断模块,包括:
结构创建子模块,用于预先创建与所述白模版集对应的哈希表森林数据结构;
检索子模块,用于利用所述待检测短信,对所述哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与所述待检测短信对应的固定语句集;
筛选子模块,用于利用所述固定语句集,对所述白模版集展开筛选操作,以试图从所述白模版集中筛选出与所述固定语句集完全匹配的目标白模版;其中,目标白模版为所述白模版集中包含所述固定语句集的所有固定语句的一个白模版;
第一判定子模块,用于当所述筛选子模块从所述白模版集中筛选到目标白模版,则判定所述待检测短信与该目标白模版相匹配;
第二判定子模块,用于当所述筛选子模块从所述白模版集中未能筛选到目标白模版,则判定所述待检测短信与所述白模版集中的任一白模版均不匹配。
可选的,所述结构创建子模块,包括:
结构创建单元,用于为所述白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与所述白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;
结构排序单元,用于对所述链式存储结构集合中的所有链式存储结构进行结构排序,得到所述哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于所述哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在所述哈希表森林结构的其余层。
本发明进一步公开了一种短信管理平台,包括前述公开的短信类型判别系统。
本发明中,短信类型判别方法,包括:获取待检测短信;判断待检测短信是否与预先创建的白模版集中的任一白模版相匹配;其中,白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;若判定出待检测短信与白模版集中的任一白模版相匹配,则确定待检测短信的短信类型为正常短信;若判定出待检测短信与白模版集中的任一白模版均不匹配,则利用预先获取的垃圾短信集判断待检测短信的短信类型是否为垃圾短信。
可见,本发明预先利用容易被误判短信类型的历史正常短信,创建出相应的白模版集,在获取到待检测短信之后,将会判断待检测短信是否与上述白模版集中的任一白模版相匹配,如果是,则判定上述待检测短信的短信类型为正常类型,如果否,则会利用预先获取的垃圾短信集来判断上述待检测短信的短信类型是否为垃圾短信,从而降低了正常短信被误判的事件发生率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种短信类型判别方法流程图;
图2为本发明实施例公开的一种具体的短信类型判别方法流程图;
图3为本发明实施例公开的一种具体的哈希表森林数据结构图;
图4为本发明实施例公开的一种具体的固定语句匹配结果示意图;
图5为本发明实施例公开的一种短信类型判别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种短信类型判别方法,参见图1所示,该方法包括:
步骤S11:获取待检测短信。
步骤S12:判断待检测短信是否与预先创建的白模版集中的任一白模版相匹配;其中,白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版。
可以理解的是,白模版集中的一个白模版对应于唯一的一条历史正常短信。另外,本实施例中所谓的正常短信是指不会被用户当作垃圾短信的短信,包括与其他通信用户之间的正常来往短信、各种合法平台的验证短信等。
步骤S13:若判定出待检测短信与白模版集中的任一白模版相匹配,则确定待检测短信的短信类型为正常短信。
步骤S14:若判定出待检测短信与白模版集中的任一白模版均不匹配,则利用预先获取的垃圾短信集判断待检测短信的短信类型是否为垃圾短信。
可见,本发明实施例预先利用容易被误判短信类型的历史正常短信,创建出相应的白模版集,在获取到待检测短信之后,将会判断待检测短信是否与上述白模版集中的任一白模版相匹配,如果是,则判定上述待检测短信的短信类型为正常类型,如果否,则会利用预先获取的垃圾短信集来判断上述待检测短信的短信类型是否为垃圾短信,从而降低了正常短信被误判的事件发生率。
参见图2所示,本发明实施例公开了一种具体的短信类型判别方法,包括如下步骤:
步骤S21:获取待检测短信。
步骤S22:利用待检测短信,对预先创建的与白模版集对应的哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与待检测短信对应的固定语句集。
本实施例中,上述白模版集的创建过程,具体包括:
获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集,然后分别从正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到白模版集;其中,白模版集中的每个白模版与正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
例如,下面公开一个具体的白模版,“${4,10}您好!您的验证码为${1,30},如有操作疑问,请联系${1,30},电话${1,30}”。其中,${4,10}符号代表白模版中的可变部分,称之为变量,其长度允许的可变范围为4和10之间,其他部分为固定语句,可见,本实施例中,短信需要按照固定语句的先后顺序来进行构造,并且包含固定语句的文字。上述两个条件同时满足的短信,将被判定为正常短信。
另外,上述获取用户上传的容易被误判短信类型的历史正常短信的过程,具体可以包括:获取管理员用户和/或普通用户上传的容易被误判短信类型的历史正常短信。
其次,上述哈希表森林数据结构的创建过程,具体包括:
为白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;然后对链式存储结构集合中的所有链式存储结构进行结构排序,得到哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在哈希表森林结构的其余层。另外,本发明实施例还可以把上述哈希表森林数据结构的同一层上相同的字合并成一个节点。图3示出了本实施例中公开的一种具体的哈希表森林数据结构图,同一层上相同的字被合并成了一个节点,有利于提高检索速度。
步骤S23:利用固定语句集,对白模版集展开筛选操作,以试图从白模版集中筛选出与固定语句集完全匹配的目标白模版;其中,目标白模版为白模版集中包含固定语句集的所有固定语句的一个白模版。
步骤S24:若从白模版集中筛选到目标白模版,则判定待检测短信与该目标白模版相匹配。
步骤S25:若从白模版集中未能筛选到目标白模版,则判定待检测短信与白模版集中的任一白模版均不匹配。
步骤S26:若判定出待检测短信与白模版集中的任一白模版相匹配,则确定待检测短信的短信类型为正常短信。
步骤S27:若判定出待检测短信与白模版集中的任一白模版均不匹配,则分别从垃圾短信集中的每一垃圾短信中提取能反映出该垃圾短信的短信特征的固定语句,得到相应的黑模版集;其中,黑模版集中的每个黑模版与垃圾短信集中的每一垃圾短信分别一一对应,并且每个黑模版中均包括至少一句固定语句。
步骤S28:判断待检测短信是否与黑模版集中的任一黑模版相匹配,如果是,则确定待检测短信的短信类型为垃圾短信,如果否,则确定待检测短信的短信类型为正常短信。
在上一实施例的基础上,本发明实施例公开了一种具体的短信类型判别方法,主要对上一实施例中的某些步骤进行了具体细化说明。
上一实施例步骤S22中,利用待检测短信,对预先创建的与白模版集对应的哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与待检测短信对应的固定语句集的过程,具体可以包括如下步骤S221至S228:
S221:从待检测短信第一个字开始,逐字分析。
S222:判断该字是否在哈希表森林数据结构的第一层出现,如果否,则转S228。
S223:进入首层匹配到的字的下一层,判断待检测短信中从该字起第二字是否在第二层出现,如果否,则转S228。
S224:进入第二层匹配到的字的下一层,判断待检测短信中从该字起第三字是否在第三层出现,如果否,则转S228。
S225:以此类推(假设共判断了i次,底层也是第i层)。
S226:到达底层,判断短信中从该字起第i字是否在底层出现,如果否,则转S228。
S227:若底层也匹配到,则得出结论:待检测短信中出现了,从第1层到第i层,分别匹配到的字所组成的固定语句。
S228:判断是否已经处理到短信最后一个字,如果是则结束,如果否则开始处理下一个字,并转到S222。
进一步的,上一实施例步骤S23中,利用固定语句集对白模版集展开筛选操作的过程,具体包括固定语句匹配过程以及根据固定语句匹配结果来确定目标白模版的过程。
例如,假设待检测短信中包含三句固定语句,则本实施例中,上述固定语句匹配过程具体包括:每当匹配到一句固定语句时,就把该固定语句所对应的代码为置“0”,表示该固定语句被匹配到。另外,代码的数位体现出有序,当第一句固定语句被匹配时,代码为“011”;当第二句固定语句被匹配时,代码为“001”;当最后一句固定语句被匹配是,代码为“000”。图4示出了一种具体的固定语句匹配结果示意图。固定语句“您好!您的验证码为”、“如有操作疑问,请联系”以及“电话”分别与白模版“${4,10}您好!您的验证码为${1,30},如有操作疑问,请联系${1,30},电话${1,30}”相匹配,所以将上述三句固定语句所对应的代码均设置为0。
由于不同的白模版之间可能会存在重复的固定语句,因此上述固定语句匹配结果中所匹配的固定语句可能对应于多个白模版,本实施例中,对于每一条白模版,如第r个白模版,均执行如下步骤:
S231:假设某个固定语句对应的白模版中包括第r个白模版,且该固定语句为第r个白模版的第p个固定语句。
S232:判断第p个固定语句之前的固定语句是否都被匹配,方法是:判断规则第r个白模版对应的代码的左起至第p-1位是否全为0。如果否,则说明虽然匹配到的固定语句,但由于前面的固定语句尚不匹配,不符合“按顺序逐个匹配的原则”,只能放弃。此时,转S235。
S233:如果S232的判断为是,则判断第r个白模版的第p个固定语句是否为第r个白模版最后的固定语句,如果是,说明所有固定语句已经匹配。此时,待测短信与第r个白模版完全匹配,算法返回第r个白模版的ID,并终止。
S234:如果S232的判断为否,则设置第r个白模版对应的代码的第p位为“0”。记录该固定语句已经匹配。
S235:如果匹配到的固定语句对应的白模版还没有分析完,则开始分析该固定语句对应的其他白模版。
可见,本发明实施例通过有效的数据结构,并巧妙地使用代码来代表逻辑关系的“并且”和“有序”,使得在算法过程中避免了处理复杂逻辑关系,时间复杂度仅为常数。
相应的,本发明实施例还公开了一种短信类型判别系统,参见图5所示,该系统包括:
第一获取模块11,用于获取待检测短信;
白模版集创建模块12,用于预先创建白模版集;其中,白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;
第一判断模块13,用于判断待检测短信是否与白模版集中的任一白模版相匹配;
第一确定模块14,用于当第一判断模块13判定出待检测短信与白模版集中的任一白模版相匹配,则确定待检测短信的短信类型为正常短信;
第二获取模块15,用于预先获取垃圾短信集;
第二判断模块16,用于当第一判断模块13判定出待检测短信与白模版集中的任一白模版均不匹配,则利用垃圾短信集判断待检测短信的短信类型是否为垃圾短信。
可见,本发明实施例预先利用容易被误判短信类型的历史正常短信,创建出相应的白模版集,在获取到待检测短信之后,将会判断待检测短信是否与上述白模版集中的任一白模版相匹配,如果是,则判定上述待检测短信的短信类型为正常类型,如果否,则会利用预先获取的垃圾短信集来判断上述待检测短信的短信类型是否为垃圾短信,从而降低了正常短信被误判的事件发生率。
具体的,上述白模版集创建模块,可以包括历史正常短信获取单元和固定语句提取单元;其中,
历史正常短信获取单元,用于获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集;
固定语句提取单元,用于分别从正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到白模版集;其中,白模版集中的每个白模版与正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
另外,上述第一判断模块,包括结构创建子模块、检索子模块、筛选子模块、第一判定子模块和第二判定子模块;其中,
结构创建子模块,用于预先创建与白模版集对应的哈希表森林数据结构;
检索子模块,用于利用待检测短信,对哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与待检测短信对应的固定语句集;
筛选子模块,用于利用固定语句集,对白模版集展开筛选操作,以试图从白模版集中筛选出与固定语句集完全匹配的目标白模版;其中,目标白模版为白模版集中包含固定语句集的所有固定语句的一个白模版;
第一判定子模块,用于当筛选子模块从白模版集中筛选到目标白模版,则判定待检测短信与该目标白模版相匹配;
第二判定子模块,用于当筛选子模块从白模版集中未能筛选到目标白模版,则判定待检测短信与白模版集中的任一白模版均不匹配。
其中,上述结构创建子模块,包括结构创建单元和结构排序单元;其中,
结构创建单元,用于为白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;
结构排序单元,用于对链式存储结构集合中的所有链式存储结构进行结构排序,得到哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在哈希表森林结构的其余层。
另外,本发明还公开了一种短信管理平台,包括如前述实施例公开的短信类型判别系统。关于该系统的具体构造可以参考前述实施例中的相应内容,在此不再进行赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种短信类型判别方法、系统及短信管理平台进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种短信类型判别方法,其特征在于,包括:
获取待检测短信;
判断所述待检测短信是否与预先创建的白模版集中的任一白模版相匹配;其中,所述白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;
若判定出所述待检测短信与所述白模版集中的任一白模版相匹配,则确定所述待检测短信的短信类型为正常短信;
若判定出所述待检测短信与所述白模版集中的任一白模版均不匹配,则利用预先获取的垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信。
2.根据权利要求1所述的短信类型判别方法,其特征在于,所述白模版集的创建过程,具体包括:
获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集;
分别从所述正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到所述白模版集;其中,所述白模版集中的每个白模版与所述正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
3.根据权利要求2所述的短信类型判别方法,其特征在于,所述获取用户上传的容易被误判短信类型的历史正常短信的过程,包括:
获取管理员用户和/或普通用户上传的容易被误判短信类型的历史正常短信。
4.根据权利要求2所述的短信类型判别方法,其特征在于,所述判断所述待检测短信是否与预先创建的白模版集中的任一白模版相匹配的过程,包括:
利用所述待检测短信,对预先创建的与所述白模版集对应的哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与所述待检测短信对应的固定语句集;
利用所述固定语句集,对所述白模版集展开筛选操作,以试图从所述白模版集中筛选出与所述固定语句集完全匹配的目标白模版;其中,目标白模版为所述白模版集中包含所述固定语句集的所有固定语句的一个白模版;
若从所述白模版集中筛选到目标白模版,则判定所述待检测短信与该目标白模版相匹配;
若从所述白模版集中未能筛选到目标白模版,则判定所述待检测短信与所述白模版集中的任一白模版均不匹配。
5.根据权利要求4所述的短信类型判别方法,其特征在于,所述哈希表森林数据结构的创建过程,包括:
为所述白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与所述白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;
对所述链式存储结构集合中的所有链式存储结构进行结构排序,得到所述哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于所述哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在所述哈希表森林结构的其余层。
6.根据权利要求1至5任一项所述的短信类型判别方法,其特征在于,所述利用预先获取的垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信的过程,包括:
分别从所述垃圾短信集中的每一垃圾短信中提取能反映出该垃圾短信的短信特征的固定语句,得到相应的黑模版集;其中,所述黑模版集中的每个黑模版与所述垃圾短信集中的每一垃圾短信分别一一对应,并且每个黑模版中均包括至少一句固定语句;
判断所述待检测短信是否与所述黑模版集中的任一黑模版相匹配,如果是,则确定所述待检测短信的短信类型为垃圾短信,如果否,则确定所述待检测短信的短信类型为正常短信。
7.一种短信类型判别系统,其特征在于,包括:
第一获取模块,用于获取待检测短信;
白模版集创建模块,用于预先创建白模版集;其中,所述白模版集中的每一白模版均为对容易被误判短信类型的历史正常短信进行固定语句提取后得到的模版;
第一判断模块,用于判断所述待检测短信是否与所述白模版集中的任一白模版相匹配;
第一确定模块,用于当所述第一判断模块判定出所述待检测短信与所述白模版集中的任一白模版相匹配,则确定所述待检测短信的短信类型为正常短信;
第二获取模块,用于预先获取垃圾短信集;
第二判断模块,用于当所述第一判断模块判定出所述待检测短信与所述白模版集中的任一白模版均不匹配,则利用所述垃圾短信集判断所述待检测短信的短信类型是否为垃圾短信。
8.根据权利要求7所述的短信类型判别系统,其特征在于,所述白模版集创建模块,包括:
历史正常短信获取单元,用于获取用户上传的容易被误判短信类型的历史正常短信,得到相应的正常短信集;
固定语句提取单元,用于分别从所述正常短信集中的每一正常短信中提取能反映出该正常短信的短信特征的固定语句,得到所述白模版集;其中,所述白模版集中的每个白模版与所述正常短信集中的每一正常短信分别一一对应,并且每个白模版中均包括至少一句固定语句。
9.根据权利要求8所述的短信类型判别系统,其特征在于,所述第一判断模块,包括:
结构创建子模块,用于预先创建与所述白模版集对应的哈希表森林数据结构;
检索子模块,用于利用所述待检测短信,对所述哈希表森林数据结构按照由高层至低层的顺序进行逐字检索,得到与所述待检测短信对应的固定语句集;
筛选子模块,用于利用所述固定语句集,对所述白模版集展开筛选操作,以试图从所述白模版集中筛选出与所述固定语句集完全匹配的目标白模版;其中,目标白模版为所述白模版集中包含所述固定语句集的所有固定语句的一个白模版;
第一判定子模块,用于当所述筛选子模块从所述白模版集中筛选到目标白模版,则判定所述待检测短信与该目标白模版相匹配;
第二判定子模块,用于当所述筛选子模块从所述白模版集中未能筛选到目标白模版,则判定所述待检测短信与所述白模版集中的任一白模版均不匹配。
10.根据权利要求9所述的短信类型判别系统,其特征在于,所述结构创建子模块,包括:
结构创建单元,用于为所述白模版集的每个白模版中的每句固定语句均创建相应的链式存储结构,得到与所述白模版集中的所有固定语句对应的链式存储结构集合;其中,任一链式存储结构中的任一存储单元用来存储相应固定语句中的一个汉字;
结构排序单元,用于对所述链式存储结构集合中的所有链式存储结构进行结构排序,得到所述哈希表森林结构;其中,每一链式存储结构中的第一个汉字均位于所述哈希表森林结构的最高层,每一链式存储结构中的其余汉字均依序分布在所述哈希表森林结构的其余层。
11.一种短信管理平台,其特征在于,包括如权利要求7至10任一项所述的短信类型判别系统。
CN201611226669.8A 2016-12-27 2016-12-27 一种短信类型判别方法、系统及短信管理平台 Active CN106777245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611226669.8A CN106777245B (zh) 2016-12-27 2016-12-27 一种短信类型判别方法、系统及短信管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611226669.8A CN106777245B (zh) 2016-12-27 2016-12-27 一种短信类型判别方法、系统及短信管理平台

Publications (2)

Publication Number Publication Date
CN106777245A true CN106777245A (zh) 2017-05-31
CN106777245B CN106777245B (zh) 2020-09-25

Family

ID=58921557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611226669.8A Active CN106777245B (zh) 2016-12-27 2016-12-27 一种短信类型判别方法、系统及短信管理平台

Country Status (1)

Country Link
CN (1) CN106777245B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748739A (zh) * 2017-10-19 2018-03-02 上海大汉三通通信股份有限公司 一种短信文本模版的提取方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635886A (zh) * 2008-07-22 2010-01-27 北京光芒星空信息技术有限公司 一种基于用户选择的垃圾短信过滤方法
CN102231875A (zh) * 2011-06-24 2011-11-02 中兴通讯股份有限公司 垃圾短信的过滤系统及方法
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
CN103796184A (zh) * 2012-10-30 2014-05-14 中国电信股份有限公司 垃圾短信识别方法和系统
CN104602206A (zh) * 2014-12-31 2015-05-06 上海大汉三通通信股份有限公司 一种垃圾短信识别方法与系统
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
US9516480B2 (en) * 2014-11-24 2016-12-06 Nexmo Inc. Identity and phone number verification
CN106255082A (zh) * 2016-10-12 2016-12-21 中国联合网络通信集团有限公司 一种垃圾短信的识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635886A (zh) * 2008-07-22 2010-01-27 北京光芒星空信息技术有限公司 一种基于用户选择的垃圾短信过滤方法
CN102231875A (zh) * 2011-06-24 2011-11-02 中兴通讯股份有限公司 垃圾短信的过滤系统及方法
CN103796184A (zh) * 2012-10-30 2014-05-14 中国电信股份有限公司 垃圾短信识别方法和系统
CN103024746A (zh) * 2012-12-30 2013-04-03 清华大学 一种电信运营商垃圾短信处理系统及处理方法
US9516480B2 (en) * 2014-11-24 2016-12-06 Nexmo Inc. Identity and phone number verification
CN104602206A (zh) * 2014-12-31 2015-05-06 上海大汉三通通信股份有限公司 一种垃圾短信识别方法与系统
CN105516499A (zh) * 2015-12-14 2016-04-20 北京奇虎科技有限公司 一种对短信进行分类的方法、装置、通信终端及服务器
CN106255082A (zh) * 2016-10-12 2016-12-21 中国联合网络通信集团有限公司 一种垃圾短信的识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748739A (zh) * 2017-10-19 2018-03-02 上海大汉三通通信股份有限公司 一种短信文本模版的提取方法及相关装置

Also Published As

Publication number Publication date
CN106777245B (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN106778757B (zh) 基于文本显著性的场景文本检测方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN109766719B (zh) 一种敏感信息检测方法、装置及电子设备
CN106055541A (zh) 一种新闻内容敏感词过滤方法及系统
CN102193918B (zh) 视频检索方法和装置
CN106294038A (zh) 一种故障谱的生成、基于故障谱的检测方法和装置
CN109635569B (zh) 一种漏洞检测方法及装置
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN102279875A (zh) 钓鱼网站的识别方法和装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN108959559A (zh) 问答对生成方法和装置
CN108664599A (zh) 智能问答方法、装置、智能问答服务器及存储介质
CN112597286A (zh) 一种案件派遣处置方法、装置、电子设备和存储介质
CN106934011A (zh) 一种json数据的结构化解析方法及装置
CN106803096A (zh) 一种短信类型识别方法、系统及短信管理平台
CN106777245A (zh) 一种短信类型判别方法、系统及短信管理平台
CN110245281A (zh) 互联网资产信息收集方法及终端设备
CN102467537B (zh) 删除词汇的方法和装置
CN115168345B (zh) 数据库分级分类方法、系统、装置及存储介质
CN116992880A (zh) 建筑物名称的识别方法、装置、电子设备和存储介质
CN110737677B (zh) 一种数据搜索系统及方法
CN113098989A (zh) 字典生成方法、域名检测方法、装置、设备及介质
CN114389875B (zh) 一种人机行为检测方法、系统、设备及介质
CN109829048A (zh) 电子装置、访谈辅助方法和计算机可读存储介质
CN107463845A (zh) 一种sql注入攻击的检测方法、系统和计算机处理设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant