CN109922444A - 一种垃圾短信识别方法及装置 - Google Patents
一种垃圾短信识别方法及装置 Download PDFInfo
- Publication number
- CN109922444A CN109922444A CN201711329988.6A CN201711329988A CN109922444A CN 109922444 A CN109922444 A CN 109922444A CN 201711329988 A CN201711329988 A CN 201711329988A CN 109922444 A CN109922444 A CN 109922444A
- Authority
- CN
- China
- Prior art keywords
- keyword
- short message
- target sample
- data library
- note data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种垃圾短信识别方法及装置。所述方法包括:提取待识别短信中的多个关键词,并确定各关键词对应的属性,并根据待识别短信的各关键词、各关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;按照预设模型计算目标样本短信数据库中包括的各关键词对应的多个特征参数;根据目标样本短信数据库中包括的各关键词对应的多个特征参数分别生成各关键词对应的特征向量,根据各关键词对应的特征向量建立随机二叉树,并根据随机二叉树计算待识别短信的异常分数,根据异常分数对所述待识别短信进行垃圾短信识别。所述装置用于执行上述方法。本发明提供的方法及装置提高了垃圾短信的识别效率。
Description
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种垃圾短信识别方法及装置。
背景技术
移动通信技术的不断发展之下,短信已经成为人们生活中不可或缺的工具之一,但伴随而来的垃圾短信泛滥,不但占用了电信运营商宝贵的网络资源,而且给人们的生活、工作带来了无尽的烦恼,因此对于垃圾短信进行识别方法的研究越来越受到人们的关注。
现有技术条件下,垃圾短信识别方法主要包括以下三种:(1)短信通讯信任机制,也就是在用户双方进行短信通讯之前,双方必须明确对方身份并获得短信通信信任许可,才可以进行短信通讯;(2)关键词过滤技术,主要通过移动运营商SMSC确定关键词、建立关键词库以及垃圾短信关键词匹配规则,来识别短信是否为垃圾短信;(3)黑名单过滤技术,一般通过两种方式完成,一方面用户在手机上设置白名单与黑名单来进行短信过滤,另一方面,运营商通过SMSC系统来设置黑名单和白名单来进行短信过滤。但是,方法(1)对短信通讯带来了极大的不便,方法(2)以关键词匹配识别垃圾短信的方法误检率较高,而且事后增加关键词存在滞后性;方法(3)对黑白名单的处理数量有上限要求。综上所述,现有技术条件下的识别方法大大影响了垃圾短信的识别效率。
因此,提出一种方法提高垃圾短信识别的效率是目前业界亟待解决的重要课题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种垃圾短信识别方法及装置。
一方面,本发明实施例提供一种垃圾短信识别方法,包括:
提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
另一方面,本发明实施例提供一种垃圾短信识别装置,包括:
处理单元,用于提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
计算单元,用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
识别单元,用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
又一方面,本发明实施例提供一种电子设备,包括处理器、存储器和总线,其中:
所述处理器,所述存储器通过总线完成相互间的通信;
所述处理器可以调用存储器中的计算机程序,以执行上述方法的步骤。
再一方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的垃圾短信识别方法及装置,通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性,以及预设样本短信数据库,生成目标样本短信数据库,并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,生成各所述关键词对应的特征向量,并根据各所述关键词对应的特征向量,建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别,提高了垃圾短信识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的垃圾短信识别方法的流程示意图;
图2为本发明实施例提供的垃圾短信识别装置的结构示意图;
图3为本发明实施例提供的电子设备实体装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的垃圾短信识别方法的流程示意图,如图1所示,本实施例提供一种垃圾短信识别方法,包括:
S101、提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
具体地,垃圾短信识别装置可以通过现有的分词方法(如统计语言模型)对所述待识别短信进行分词处理,得到多个词语,然后对所述多个词语进行清洗处理(如删除*、※等特殊字符,进行数字变换等),然后基于现有的语义识别技术,从所述多个词语中筛选可以用于表达语义的词语作为所述关键词。然后,所述装置分别确定各所述关键词对应的属性,例如,对于词性为名词的关键词,确定其属性为名词属性;对于词性为动词的关键词,确定其属性为动词属性;对于表示URL的关键词,确定其属性为链接属性;对于表示邮箱的关键词,确定其属性为邮箱属性;对于包括第一预设位数的数字的关键词,确定其属性为电话号码属性;对于包括第一预设位数的数字的关键词,确定其属性为卡号属性;当然还可以包括其他关键词属性的确定方式,具体可以根据实际情况进行设置和调整,此处不做具体限定。接着,所述装置将所述待识别短信作为新增的样本短信,将所述待识别短信的各所述关键词、各所述关键词对应的属性添加至所述预设样本短信数据库,生成目标样本短信数据库;其中,所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性。
S102、按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
具体地,所述装置按照预设模型计算所述目标样本短信数据库中包括的所述各关键词对应的多个特征参数。其中,所述预设模型包括各所述特征参数对应的计算策略;所述特征参数可以包括信誉度特征参数、位置特征参数、属性特征参数、第一距离特征参数、第二距离特征参数、关联特征参数,还可以包括其他特征参数,具体可以根据实际情况进行设置和调整,此处不做具体限定。
S103、根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
具体地,所述装置根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树确定所述待识别短信包括的各所述关键词对应的二叉树分裂值,并计算所述待识别短信对应的叶子节点路径长度,根据所述二叉树分裂值和所述叶子节点路径长度,计算所述待识别短信的异常分数,并根据所述异常分数判断所述待识别短信是否为垃圾短信。
本发明实施例提供的垃圾短信识别方法,通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性,以及预设样本短信数据库,生成目标样本短信数据库,并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,生成各所述关键词对应的特征向量,并根据各所述关键词对应的特征向量,建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别,提高了垃圾短信识别效率。
在上述实施例的基础上,进一步地,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式计算所述目标样本短信数据库中包括的第i个关键词的词频;其中,TFi为所述第i个关键词的词频,Pi为所述第i个关键词在所述目标样本短信数据库中出现的次数,P*为所述目标样本短信数据库中包括的全部关键词出现的总次数;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的区分能力特征值;其中,TIi所述第i个关键词的区分能力特征值,TFi为所述第i个关键词的词频,ni为所述目标样本数据库中包括所述第i个关键词的短信的条数,N为所述目标样本数据库中包括的短信总条数,Wi为所述第i个关键词的属性对应的权重值;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的信誉度特征参数;其中,Ai为所述第i个关键词的信誉度特征值,TIi为所述第i个关键词的区分能力特征值,TI*为所述目标样本数库中包括的全部关键词的区分能力特征值之和,Mi为所述第i个关键词在所述目标样本数据库中出现的总次数,Ui为与所述第i个关键词属性相同的关键词在所述目标样本数据库中出现的总次数。
应当说明的是,所述各关键词的属性对应的权重值是预先设置的,可以根据经验值确定,也可以根据机器学习模型训练获得,具体可以根据实际情况进行设置和调整,此处不做具体限定;在本发明实施例及以下的各实施例中所述目标样本数据库中包括的短信为所述目标样本数据库中所有的短信,即包括所述待识别短信和所述预设样本短信数据库中的短信。
在上述实施例的基础上,进一步地,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的位置特征参数;其中,Bi为所述第i个关键词的位置特征参数,Qi,j为在所述目标样本短信数据库的第j条短信中处于所述第i个关键词之前的字符个数,Zi,j为所述第j条短信中包括的字符的总个数,N为所述目标样本数据库中包括的短信总条数。
在上述实施例的基础上,进一步地,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的属性特征参数;其中,Xi,j为所述目标样本短信数据库的第j条短信中与所述第i个关键词属性相同的关键词的个数,Gi,j为所述第j条短信中包括的关键词总个数,N为所述目标样本数据库中包括的短信的总条数。
在上述实施例的基础上,进一步地,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第一距离特征参数;其中,Di为所述第i个关键词的第一距离特征参数,Hi,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最小值;Ki,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最小值;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第二距离特征参数;其中,Ei为所述第i个关键词的第二距离特征参数,Li,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最大值;Ki,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最大值;
其中,Gi,j为所述第j条短信中包括的关键词总个数,Zi,j为所述第j条短信中包括的字符的总个数;N为所述目标样本数据库中包括的短信的总条数。
在上述实施例的基础上,进一步地,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的关联特征参数;其中,Fi为所述第i个关键词的关联特征参数;Vi,j为在所述目标样本短信数据库的第j条短信中,其它各关键词与所述第i个关键词之间相隔的字符个数的最小值;Zi,j为所述第j条短信包括的字符的总个数,Wi为所述第i个关键词的属性对应的权重值;Wt,j为在所述第j条短信中,与所述第i个关键词之间相隔的字符个数为最小值的关键词对应的权重值;N为所述目标样本数据库中包括的短信的总条数。
在上述实施例的基础上,进一步地,所述根据所述随机二叉树计算所述待识别短信的异常分数,包括:
根据所述随机二叉树,确定所述待识别短信中包括的各关键词对应的二叉树分裂值,并根据所述待识别短信包括的关键词计算所述待识别短信对应的叶子节点路径长度;
根据所述待识别短信包括的各关键词对应的二叉树分裂值,以及所述待识别短信对应的叶子节点路径长度,计算所述待识别短信的异常分数。
具体地,所述装置根据所述目标数据库中包括的各关键词对应的多个特征参数,生成各所述关键词对应的特征向量Yi={y1,y2,y3…yk}T,其中,Yi为所述目标数据库中包括的第i个关键词对应的特征向量,其中y1,y2,y3…yk为所述第i个关键词对应的k个特征参数,并根据所述各关键词对应的特征向量生成随机二叉树,所述随机二叉树的节点分别为Y1,Y2,Y3…Yi…Ym,其中,m为所述目标数据库中包括的关键词的总个数。所述待识别短信中包括的第l个关键词的特征向量为Sl,Sl∈{Y1,Y2,Y3…Yi…Ym},所述待识别短信包括的关键词的集合为{S1,S2,S3…Sl…Sg},g为所述待识别短信包括的关键词的个数,且g≤m,所述装置通过遍历所述随机二叉树,确定所述待识别短信中包括的各关键词的二叉树分裂值分别为{p1,p2,p3…pl…pg}。由于所述待识别短信的叶节点路径长度等于二叉树中失败查询的路径长度,对于{S1,S2,S3…Sl…Sg},根据公式:计算所述待识别短信的叶节点路径长度;其中,c(g)为所述待识别短信的叶节点路径长度,H(g-1)=ln(g-1)+γ,γ为欧拉常数,g为所述待识别短信包括的关键词的个数。然后,所述装置根据公式:计算所述待识别短信的异常分数;其中,s为所述待识别短信的异常分数,即为所述待识别短信包括的各所述关键词对应的二叉树分裂值的平均值,c(g)为所述待识别短信对应的叶节点路径长度。所述装置若判断获知E(pl)趋近于c(g)时s趋近于0.5,或者,E(pl)趋近于(g-1)时s趋近于0,则判定所述待识别短信为非垃圾短信;若判断获知E(pl)趋近于0时s趋近于1,则判定所述待识别短信为垃圾短信。应当说明的是,本实施例中建立根据各关键词的特征向量建立随机二叉树现有技术中建立随机二叉树的方法一致,确定所述各关键词对应的二叉树分裂值的具体方法与现有技术中计算二叉树分裂值的方法一致,此处均不再赘述。
本发明实施例提供的垃圾短信识别方法,通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性,以及预设样本短信数据库,生成目标样本短信数据库,并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,生成各所述关键词对应的特征向量,并根据各所述关键词对应的特征向量,建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别,提高了垃圾短信识别效率。
图2为本发明实施例提供的垃圾短信识别装置的结构示意图,如图2所示,本发明实施例提供一种垃圾短信识别装置,包括:处理单元201、计算单元202和识别单元203,其中:
处理单元201用于提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
计算单元202用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
识别单元203用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
本发明实施例提供的垃圾短信识别装置,通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性,以及预设样本短信数据库,生成目标样本短信数据库,并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,生成各所述关键词对应的特征向量,并根据各所述关键词对应的特征向量,建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别,提高了垃圾短信识别效率。
本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图3为本发明实施例提供的电子设备实体装置结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、存储器(memory)302和总线303,其中,处理器301,存储器302通过总线303完成相互间的通信。处理器301可以调用存储器302中的计算机程序,以执行各方法实施例所提供的方法,例如包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
此外,上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种垃圾短信识别方法,其特征在于,包括:
提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
2.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式计算所述目标样本短信数据库中包括的第i个关键词的词频;其中,TFi为所述第i个关键词的词频,Pi为所述第i个关键词在所述目标样本短信数据库中出现的次数,P*为所述目标样本短信数据库中包括的全部关键词出现的总次数;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的区分能力特征值;其中,TIi所述第i个关键词的区分能力特征值,TFi为所述第i个关键词的词频,ni为所述目标样本数据库中包括所述第i个关键词的短信的条数,N为所述目标样本数据库中包括的短信总条数,Wi为所述第i个关键词的属性对应的权重值;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的信誉度特征参数;其中,Ai为所述第i个关键词的信誉度特征值,TIi为所述第i个关键词的区分能力特征值,TI*为所述目标样本数库中包括的全部关键词的区分能力特征值之和,Mi为所述第i个关键词在所述目标样本数据库中出现的总次数,Ui为与所述第i个关键词属性相同的关键词在所述目标样本数据库中出现的总次数。
3.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的位置特征参数;其中,Bi为所述第i个关键词的位置特征参数,Qi,j为在所述目标样本短信数据库的第j条短信中处于所述第i个关键词之前的字符个数,Zi,j为所述第j条短信中包括的字符的总个数,N为所述目标样本数据库中包括的短信总条数。
4.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的属性特征参数;其中,Xi,j为所述目标样本短信数据库的第j条短信中与所述第i个关键词属性相同的关键词的个数,Gi,j为所述第j条短信中包括的关键词总个数,N为所述目标样本数据库中包括的短信的总条数。
5.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第一距离特征参数;其中,Di为所述第i个关键词的第一距离特征参数,Hi,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最小值;Ki,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最小值;
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的第二距离特征参数;其中,Ei为所述第i个关键词的第二距离特征参数,Li,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最大值;Ki,j为在所述目标样本短信数据库的第j条短信中,与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最大值;
其中,Gi,j为所述第j条短信中包括的关键词总个数,Zi,j为所述第j条短信中包括的字符的总个数;N为所述目标样本数据库中包括的短信的总条数。
6.根据权利要求1所述的方法,其特征在于,所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数,包括:
根据公式:计算所述目标样本短信数据库中包括的第i个关键词的关联特征参数;其中,Fi为所述第i个关键词的关联特征参数;Vi,j为在所述目标样本短信数据库的第j条短信中,其它各关键词与所述第i个关键词之间相隔的字符个数的最小值;Zi,j为所述第j条短信包括的字符的总个数,Wi为所述第i个关键词的属性对应的权重值;Wt,j为在所述第j条短信中,与所述第i个关键词之间相隔的字符个数为最小值的关键词对应的权重值;N为所述目标样本数据库中包括的短信的总条数。
7.根据权利要求1-6任意一项所述的方法,其特征在于,所述根据所述随机二叉树计算所述待识别短信的异常分数,包括:
根据所述随机二叉树,确定所述待识别短信中包括的各关键词对应的二叉树分裂值,并根据所述待识别短信包括的关键词计算所述待识别短信对应的叶子节点路径长度;
根据所述待识别短信包括的各关键词对应的二叉树分裂值,以及所述待识别短信对应的叶子节点路径长度,计算所述待识别短信的异常分数。
8.一种垃圾短信识别装置,其特征在于,包括:
处理单元,用于提取待识别短信中的多个关键词,并确定各所述关键词对应的属性,并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库,生成目标样本短信数据库;所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性;
计算单元,用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数;所述预设模型包括各所述特征参数对应的计算策略;
识别单元,用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量,根据所述各关键词对应的特征向量建立随机二叉树,并根据所述随机二叉树计算所述待识别短信的异常分数,根据所述异常分数对所述待识别短信进行垃圾短信识别。
9.一种电子设备,其特征在于,包括处理器、存储器和总线,其中:
所述处理器,所述存储器通过总线完成相互间的通信;
所述处理器可以调用存储器中的计算机程序,以执行如权利要求1-7任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711329988.6A CN109922444B (zh) | 2017-12-13 | 2017-12-13 | 一种垃圾短信识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711329988.6A CN109922444B (zh) | 2017-12-13 | 2017-12-13 | 一种垃圾短信识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109922444A true CN109922444A (zh) | 2019-06-21 |
CN109922444B CN109922444B (zh) | 2020-11-03 |
Family
ID=66958937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711329988.6A Active CN109922444B (zh) | 2017-12-13 | 2017-12-13 | 一种垃圾短信识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109922444B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112261600A (zh) * | 2020-12-22 | 2021-01-22 | 江苏音信通信息技术有限公司 | 短信内容快速匹配方法及基于内容的短信拦截方法 |
CN113840246A (zh) * | 2020-06-23 | 2021-12-24 | 深圳艾派网络科技股份有限公司 | 一种垃圾短信过滤方法、系统及算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN103501487A (zh) * | 2013-09-18 | 2014-01-08 | 小米科技有限责任公司 | 分类器更新方法、装置、终端、服务器及系统 |
US20140287716A1 (en) * | 2008-11-30 | 2014-09-25 | Google Inc. | Method and system for circulating messages |
CN105282720A (zh) * | 2014-07-23 | 2016-01-27 | 中国移动通信集团重庆有限公司 | 一种垃圾短信过滤方法及装置 |
CN105992178A (zh) * | 2015-02-06 | 2016-10-05 | 中国移动通信集团公司 | 一种垃圾短信识别方法及装置 |
CN106803096A (zh) * | 2016-12-27 | 2017-06-06 | 上海大汉三通通信股份有限公司 | 一种短信类型识别方法、系统及短信管理平台 |
CN107135494A (zh) * | 2017-04-24 | 2017-09-05 | 北京小米移动软件有限公司 | 垃圾短信识别方法及装置 |
CN107239504A (zh) * | 2017-05-10 | 2017-10-10 | 上海交通大学 | 一种用于识别诈骗短信的深度学习算法 |
CN107426207A (zh) * | 2017-07-21 | 2017-12-01 | 哈尔滨工程大学 | 一种基于SA‑iForest的网络入侵异常检测方法 |
-
2017
- 2017-12-13 CN CN201711329988.6A patent/CN109922444B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
US20140287716A1 (en) * | 2008-11-30 | 2014-09-25 | Google Inc. | Method and system for circulating messages |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN103501487A (zh) * | 2013-09-18 | 2014-01-08 | 小米科技有限责任公司 | 分类器更新方法、装置、终端、服务器及系统 |
CN105282720A (zh) * | 2014-07-23 | 2016-01-27 | 中国移动通信集团重庆有限公司 | 一种垃圾短信过滤方法及装置 |
CN105992178A (zh) * | 2015-02-06 | 2016-10-05 | 中国移动通信集团公司 | 一种垃圾短信识别方法及装置 |
CN106803096A (zh) * | 2016-12-27 | 2017-06-06 | 上海大汉三通通信股份有限公司 | 一种短信类型识别方法、系统及短信管理平台 |
CN107135494A (zh) * | 2017-04-24 | 2017-09-05 | 北京小米移动软件有限公司 | 垃圾短信识别方法及装置 |
CN107239504A (zh) * | 2017-05-10 | 2017-10-10 | 上海交通大学 | 一种用于识别诈骗短信的深度学习算法 |
CN107426207A (zh) * | 2017-07-21 | 2017-12-01 | 哈尔滨工程大学 | 一种基于SA‑iForest的网络入侵异常检测方法 |
Non-Patent Citations (1)
Title |
---|
赵贵玉: "时间序列基于特征向量的分类与二叉树分类", 《河南师范大学学报(自然科学版)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113840246A (zh) * | 2020-06-23 | 2021-12-24 | 深圳艾派网络科技股份有限公司 | 一种垃圾短信过滤方法、系统及算机可读存储介质 |
CN112261600A (zh) * | 2020-12-22 | 2021-01-22 | 江苏音信通信息技术有限公司 | 短信内容快速匹配方法及基于内容的短信拦截方法 |
CN112261600B (zh) * | 2020-12-22 | 2021-08-13 | 江苏音信通信息技术有限公司 | 短信内容快速匹配方法及基于内容的短信拦截方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109922444B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271512B (zh) | 舆情评论信息的情感分析方法、装置及存储介质 | |
CN107436875B (zh) | 文本分类方法及装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105630767B (zh) | 一种文本相似性的比较方法以及装置 | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110516697B (zh) | 基于证据图聚合与推理的声明验证方法及系统 | |
CN110929145A (zh) | 舆情分析方法、装置、计算机装置及存储介质 | |
CN110020002A (zh) | 事件处理方案的查询方法、装置、设备和计算机存储介质 | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
CN112492606B (zh) | 垃圾短信的分类识别方法、装置、计算机设备及存储介质 | |
CN113239268B (zh) | 一种商品推荐方法、装置及系统 | |
CN110458296A (zh) | 目标事件的标记方法和装置、存储介质及电子装置 | |
CN108667678A (zh) | 一种基于大数据的运维日志安全检测方法及装置 | |
CN112507167A (zh) | 一种识别视频合集的方法、装置、电子设备及存储介质 | |
CN112328657A (zh) | 特征衍生方法、装置、计算机设备及介质 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
CN109922444A (zh) | 一种垃圾短信识别方法及装置 | |
CN113962199A (zh) | 文本识别方法、装置、设备、存储介质及程序产品 | |
CN114239683A (zh) | 一种面向电力系统的数据融合处理方法、系统及设备 | |
CN110705282A (zh) | 关键词提取方法、装置、存储介质及电子设备 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
CN108462624A (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
CN106503152A (zh) | 标题处理方法和装置 | |
CN116860963A (zh) | 一种文本分类方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |