CN106803096A - 一种短信类型识别方法、系统及短信管理平台 - Google Patents

一种短信类型识别方法、系统及短信管理平台 Download PDF

Info

Publication number
CN106803096A
CN106803096A CN201611227867.6A CN201611227867A CN106803096A CN 106803096 A CN106803096 A CN 106803096A CN 201611227867 A CN201611227867 A CN 201611227867A CN 106803096 A CN106803096 A CN 106803096A
Authority
CN
China
Prior art keywords
short message
similarity
participle
vector
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611227867.6A
Other languages
English (en)
Inventor
姚铎
夏天
高小勇
苗路平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Original Assignee
SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd filed Critical SHANGHAI DAHAN TRICOM COMMUNICATION Co Ltd
Priority to CN201611227867.6A priority Critical patent/CN106803096A/zh
Publication of CN106803096A publication Critical patent/CN106803096A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种短信类型识别方法,包括:获取待检测短信;提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用第一相似度和第二相似度,确定出待检测短信的短信类型。本申请能够对短信类型进行有效地识别。另外,本申请还公开了一种短信类型识别系统以及短信管理平台。

Description

一种短信类型识别方法、系统及短信管理平台
技术领域
本发明涉及短信管理技术领域,特别涉及一种短信类型识别方法、系统及短信管理平台。
背景技术
当前,随着短信业务的发展,手机用户受到越来越多垃圾短信的骚扰。非法短信、骚扰短信、欺诈短信以及各类垃圾短信大行其道。根据手机短消息状况调查报告显示,用户平均每周收到垃圾短信11.4条,收到垃圾短消息占全部短消息的比例为22.6%。垃圾短消息治理刻不容缓,治理好垃圾短信成为运营商提高通信服务质量的关键所在。
一般地,垃圾短信的具有如下两个特征:第一,垃圾短信发送者和接受者之间不存在社会网络联系,第二,内容相同或相似的短信在短时间内达到一定的发送量。
然而,由于物流、金融等正常短信虽然并不群发,但由于用户数量众多,造成其短时间内发送量巨大,使得上述两特点都难以被短信服务供应商用于反垃圾短信。如何对短信类型进行有效识别是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种短信类型识别方法、系统及短信管理平台,能够对短信类型进行有效地识别。其具体方案如下:
一种短信类型识别方法,包括:
获取待检测短信;
提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
可选的,所述正常短信特征模型向量的创建过程,包括:
对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
可选的,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:
结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。
可选的,所述垃圾短信特征模型向量的创建过程,包括:
对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。
可选的,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
计算所述第一相似度与所述第二相似度之间的差的绝对值,得到相似度差值;
判断所述相似度差值是否大于预设阈值;
若所述相似度差值大于所述预设阈值,则判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信;
若所述相似度差值小于或等于所述预设阈值,则禁止对所述待检测短信进行类型识别。
本发明还相应公开了一种短信类型识别系统,包括:
第一获取模块,用于获取待检测短信;
第一向量创建模块,用于提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
第二向量创建模块,用于预先创建正常短信特征模型向量;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;
第三向量创建模块,用于预先创建垃圾短信特征模型向量;其中,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
相似度计算模块,用于分别计算所述目标特征向量与所述正常短信特征模型向量和所述垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;
类型确定模块,用于利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
可选的,所述第二向量创建模块,包括:
第一分词单元,用于对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第一权重分配单元,用于为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
第一过滤单元,用于利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
第一矩阵构造单元,用于利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
第一向量创建单元,用于分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
可选的,所述第三向量创建模块,包括:
第二分词单元,用于对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第二权重分配单元,用于为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
第二过滤单元,用于利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
第二矩阵构造单元,用于利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
第二向量创建单元,用于分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
本发明进一步公开了一种短信管理平台,包括前述公开的短信类型识别系统。
本发明中,短信类型识别方法,包括:获取待检测短信;提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;利用第一相似度和第二相似度,确定出待检测短信的短信类型。
可见,本发明预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明能够对短信类型进行有效地识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种短信类型识别方法流程图;
图2为本发明实施例公开的正常短信特征模型向量创建方法流程图;
图3为本发明实施例公开的一种稀疏矩阵示意图;
图4为本发明实施例公开的一种具体的稀疏矩阵存储结构示意图;
图5为本发明实施例公开的一种具体的稀疏矩阵存储结构示意图;
图6为本发明实施例公开的垃圾短信特征模型向量创建方法流程图;
图7为本发明实施例公开的一种具体的短信类型识别方法流程图;
图8为本发明实施例公开的一种具体的短信类型识别方法流程图;
图9为本发明实施例公开的一种具体的短信类型识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种短信类型识别方法,参见图1所示,该方法包括:
步骤S11:获取待检测短信。
步骤S12:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。
步骤S13:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量。
参见图2所示,本实施例中,上述正常短信特征模型向量的创建过程,具体可以包括下面步骤S21至步骤S25:
步骤S21:对历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与历史正常短信集对应的第一分词集;其中,第一分词集中包括N个分词包,N值与历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词。
步骤S22:为第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集。
步骤S23:利用信息增益方法,对第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集。
步骤S24:利用第一特征词集以及第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵。
具体的,参见图3所示,图3中示出了一种具体的稀疏矩阵。为了节省第一稀疏矩阵所占用的存储空间,本实施例可以利用二维哈希结构来保存上述第一稀疏矩阵,具体如图4所示和图5所示,其中,图4中的二维哈希结构是基于短信优先索引的二维哈希结构,图5中的二维哈希结构是基于特征词优先索引的二维哈希结构。由于不需要存储稀疏矩阵中的0,存储空间大大压缩;又因为使用了哈希表作为数据结构,哈希表的检索时间复杂度是常数,因此,在对上述稀疏矩阵进行遍历时,如果采用的存储结构是基于特征词优先索引的结构,则时间复杂度为n,也即是总词数,如果采用的存储结构是基于短信优先索引的结构,时间复杂度为m,也即是总短信数。
步骤S25:分别对第一稀疏矩阵中的每一维度进行算术平均,得到正常短信特征模型向量。
其中,上述步骤S22中,为第一分词集的每个分词包中的每个分词分配相应的权重的过程,具体可以包括:结合历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。
也即,本实施例在计算每个分词对应的权重时,可以考虑短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率对其的影响。具体的,根据任一正常短信的短信发送方,对预先构建的正常短信发送方数据库进行查找,以确定出该正常短信的短信发送方的信誉系数,可以理解的是,上述正常短信发送方数据库中记录了大量正常短信发送方的信誉系数,任一正常短信的短信发送方的信誉系数越高,则该正常短信中的分词的权重也越高。进一步的,如果任一正常短信中的某一分词与预先获取到的正常短信关键词相一致,则该分词的权重与相应的正常短信关键词的关键词系数呈正相关关系,也即,若某一正常短信关键词的关键词系数越大,则与该正常短信关键词相一致的分词的权重也越大,需要说明的是,上述正常短信关键词具体可以是由管理员用户或者普通短信用户上传的位于正常短信中的关键词,本实施例具体可以根据获取到的某个关键词在获取到的全部关键词中所占的比例,确定出该关键词所对应的关键词系数。另外,本实施例具体可以利用TextRank算法,计算某个分词的词频对该分词权重的影响。其次,本实施例还可以在计算某个分词的权重的过程中,将逆文档频率对该分词权重的影响考虑进去。
参见图6所示,本实施例中,上述垃圾短信特征模型向量的创建过程,具体可以包括下面步骤S31至S35:
S31:对历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与历史垃圾短信集对应的第二分词集;其中,第二分词集中包括M个分词包,M值与历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
S32:为第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
S33:利用信息增益方法,对第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
S34:利用第二特征词集以及第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
S35:分别对第二稀疏矩阵中的每一维度进行算术平均,得到垃圾短信特征模型向量。
其中,上述步骤S32中,为第二分词集的每个分词包中的每个分词分配相应的权重的过程,具体可以包括:结合历史垃圾短信集中每一垃圾短信的短信发送方和/或预先获取到的垃圾短信关键词和/或词频和/或逆文档频率,计算第二分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。
步骤S14:利用第一相似度和第二相似度,确定出待检测短信的短信类型。
可见,本发明实施例预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明实施例能够对短信类型进行有效地识别。
参见图7所示,本发明实施例公开了一种具体的短信类型识别方法,包括如下步骤:
步骤S41:获取待检测短信。
步骤S42:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。
步骤S43:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。
步骤S44:判断第一相似度是否大于第二相似度,如果是,则确定待检测短信的短信类型为正常短信,如果否,则确定待检测短信的短信类型为垃圾短信。
参见图8所示,本发明实施例公开了一种具体的短信类型识别方法,包括如下步骤:
步骤S51:获取待检测短信。
步骤S52:提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量。
步骤S53:分别计算目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度。
步骤S54:计算第一相似度与第二相似度之间的差的绝对值,得到相似度差值。
步骤S55:判断相似度差值是否大于预设阈值。
步骤S56:若相似度差值大于预设阈值,则判断第一相似度是否大于第二相似度,如果是,则确定待检测短信的短信类型为正常短信,如果否,则确定待检测短信的短信类型为垃圾短信。
可以理解的是,上述预设阈值可以根据实际应用经验来进行设定。本实施例中,当相似度差值大于上述预设阈值,则说明上述待检测短信的短信特征比较显著,不容易产生误判情况。
步骤S57:若相似度差值小于或等于预设阈值,则禁止对待检测短信进行类型识别。
本实施例中,当相似度差值小于或等于上述预设阈值,则说明上述待检测短信的短信特征不是特别显著,容易造成误判。
相应的,本发明实施例还公开了一种短信类型识别系统,参见图9所示,包括:
第一获取模块11,用于获取待检测短信;
第一向量创建模块12,用于提取待检测短信中的特征词,并为每个特征词分配相应的权重,得到与待检测短信对应的目标特征向量;
第二向量创建模块13,用于预先创建正常短信特征模型向量;其中,正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;
第三向量创建模块14,用于预先创建垃圾短信特征模型向量;其中,垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
相似度计算模块15,用于分别计算目标特征向量与正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;
类型确定模块16,用于利用第一相似度和第二相似度,确定出待检测短信的短信类型。
可见,本发明实施例预先创建了正常短信特征模型向量以及垃圾短信特征模型向量,然后在获取到待检测短信的时候,将会创建与该待检测短信对应的目标特征向量,接着分别计算上述目标特征向量与上述正常短信特征模型向量以及垃圾短信特征模型向量之间的相似度,得到相应的第一相似度和第二相似度,最后利用上述两个相似度,确定出上述待检测短信的短信类型,由于上述正常短信特征模型向量以及垃圾短信特征模型向量是分别对历史正常短信集和历史垃圾短信集进行学习训练后得到的向量,它们能够有效地反映出正常短信以及垃圾短信的短信特征,利用这两种向量,可有效地确定出待检测短信的短信类型。也即,本发明实施例能够对短信类型进行有效地识别。
其中,上述第二向量创建模块,具体可以包括第一分词单元、第一权重分配单元、第一过滤单元、第一矩阵构造单元和第一向量创建单元;其中,
第一分词单元,用于对历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与历史正常短信集对应的第一分词集;其中,第一分词集中包括N个分词包,N值与历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第一权重分配单元,用于为第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
第一过滤单元,用于利用信息增益方法,对第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
第一矩阵构造单元,用于利用第一特征词集以及第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
第一向量创建单元,用于分别对第一稀疏矩阵中的每一维度进行算术平均,得到正常短信特征模型向量。
另外,上述第三向量创建模块,具体可以包括第二分词单元、第二权重分配单元、第二过滤单元、第二矩阵构造单元和第二向量创建单元;其中,
第二分词单元,用于对历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与历史垃圾短信集对应的第二分词集;其中,第二分词集中包括M个分词包,M值与历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第二权重分配单元,用于为第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
第二过滤单元,用于利用信息增益方法,对第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
第二矩阵构造单元,用于利用第二特征词集以及第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
第二向量创建单元,用于分别对第二稀疏矩阵中的每一维度进行算术平均,得到垃圾短信特征模型向量。
进一步的,本实施例可以基于上述短信类型识别系统在实际应用过程的实际表现,分析其正确率和召回率,然后基于上述正确率和召回率,对上述短信类型识别系统进行评价,得到相应的评分。如果该评分小于预设分数阈值,则发出相应的提醒信息,以提醒相关技术人员继续对该短信类型识别系统进行系统优化。
另外,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本发明实施例还公开了一种短信管理平台,包括前述实施例中公开的短信类型识别系统。关于该系统的具体构造可以参考前述实施例中公开的内容,在此不再进行赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种短信类型识别方法、系统及短信管理平台进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种短信类型识别方法,其特征在于,包括:
获取待检测短信;
提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
分别计算所述目标特征向量与预先创建的正常短信特征模型向量和垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
2.根据权利要求1所述的短信类型识别方法,其特征在于,所述正常短信特征模型向量的创建过程,包括:
对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
3.根据权利要求2所述的短信类型识别方法,其特征在于,所述为所述第一分词集的每个分词包中的每个分词分配相应的权重的过程,包括:
结合所述历史正常短信集中每一正常短信的短信发送方和/或预先获取到的正常短信关键词和/或词频和/或逆文档频率,计算所述第一分词集中每个分词对应的权重,并将得到的各个权重分配给相应的分词。
4.根据权利要求1所述的短信类型识别方法,其特征在于,所述垃圾短信特征模型向量的创建过程,包括:
对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
5.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信。
6.根据权利要求1至4任一项所述的短信类型识别方法,其特征在于,所述利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型的过程,包括:
计算所述第一相似度与所述第二相似度之间的差的绝对值,得到相似度差值;
判断所述相似度差值是否大于预设阈值;
若所述相似度差值大于所述预设阈值,则判断所述第一相似度是否大于所述第二相似度,如果是,则确定所述待检测短信的短信类型为正常短信,如果否,则确定所述待检测短信的短信类型为垃圾短信;
若所述相似度差值小于或等于所述预设阈值,则禁止对所述待检测短信进行类型识别。
7.一种短信类型识别系统,其特征在于,包括:
第一获取模块,用于获取待检测短信;
第一向量创建模块,用于提取所述待检测短信中的特征词,并为每个特征词分配相应的权重,得到与所述待检测短信对应的目标特征向量;
第二向量创建模块,用于预先创建正常短信特征模型向量;其中,所述正常短信特征模型向量为对预先获取的历史正常短信集进行学习训练后得到的向量;
第三向量创建模块,用于预先创建垃圾短信特征模型向量;其中,所述垃圾短信特征模型向量为对预先获取的历史垃圾短信集进行学习训练后得到的向量;
相似度计算模块,用于分别计算所述目标特征向量与所述正常短信特征模型向量和所述垃圾短信特征模型向量之间相似度,得到相应的第一相似度和第二相似度;
类型确定模块,用于利用所述第一相似度和所述第二相似度,确定出所述待检测短信的短信类型。
8.根据权利要求7所述的短信类型识别系统,其特征在于,所述第二向量创建模块,包括:
第一分词单元,用于对所述历史正常短信集中的每一正常短信均进行分词处理以及过滤停用词,得到与所述历史正常短信集对应的第一分词集;其中,所述第一分词集中包括N个分词包,N值与所述历史正常短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第一权重分配单元,用于为所述第一分词集的每个分词包中的每个分词分配相应的权重,得到第一赋权分词集;
第一过滤单元,用于利用信息增益方法,对所述第一赋权分词集中的冗余分词进行过滤,得到相应的第一特征词集;
第一矩阵构造单元,用于利用所述第一特征词集以及所述第一特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第一稀疏矩阵;
第一向量创建单元,用于分别对所述第一稀疏矩阵中的每一维度进行算术平均,得到所述正常短信特征模型向量。
9.根据权利要求7所述的短信类型识别系统,其特征在于,所述第三向量创建模块,包括:
第二分词单元,用于对所述历史垃圾短信集中的每一垃圾短信均进行分词处理以及过滤停用词,得到与所述历史垃圾短信集对应的第二分词集;其中,所述第二分词集中包括M个分词包,M值与所述历史垃圾短信集中的短信数量相一致,每个分词包中包括至少一个分词;
第二权重分配单元,用于为所述第二分词集的每个分词包中的每个分词分配相应的权重,得到第二赋权分词集;
第二过滤单元,用于利用信息增益方法,对所述第二赋权分词集中的冗余分词进行过滤,得到相应的第二特征词集;
第二矩阵构造单元,用于利用所述第二特征词集以及所述第二特征词集中所反映的短信ID、分词和权重之间的映射关系,构造相对应的稀疏矩阵,得到第二稀疏矩阵;
第二向量创建单元,用于分别对所述第二稀疏矩阵中的每一维度进行算术平均,得到所述垃圾短信特征模型向量。
10.一种短信管理平台,其特征在于,包括如权利要求7至9任一项所述的短信类型识别系统。
CN201611227867.6A 2016-12-27 2016-12-27 一种短信类型识别方法、系统及短信管理平台 Pending CN106803096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611227867.6A CN106803096A (zh) 2016-12-27 2016-12-27 一种短信类型识别方法、系统及短信管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611227867.6A CN106803096A (zh) 2016-12-27 2016-12-27 一种短信类型识别方法、系统及短信管理平台

Publications (1)

Publication Number Publication Date
CN106803096A true CN106803096A (zh) 2017-06-06

Family

ID=58985134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611227867.6A Pending CN106803096A (zh) 2016-12-27 2016-12-27 一种短信类型识别方法、系统及短信管理平台

Country Status (1)

Country Link
CN (1) CN106803096A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN108763209A (zh) * 2018-05-22 2018-11-06 阿里巴巴集团控股有限公司 一种特征提取和风险识别的方法、装置及设备
CN109040987A (zh) * 2018-09-18 2018-12-18 广东尚通科技发展有限公司 一种短信管理方法及其短信管理平台
CN109657231A (zh) * 2018-11-09 2019-04-19 广东电网有限责任公司 一种长短信精简方法及系统
CN109922444A (zh) * 2017-12-13 2019-06-21 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN113448861A (zh) * 2021-07-09 2021-09-28 中国银行股份有限公司 重复表单的检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
WO2013009558A2 (en) * 2011-07-11 2013-01-17 Aol Inc. Systems and methods for providing a content item database and identifying content items
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105788590A (zh) * 2014-12-16 2016-07-20 展讯通信(上海)有限公司 语音识别方法及装置、移动终端
CN106095747A (zh) * 2016-06-03 2016-11-09 北京工商大学 一种垃圾短信的识别方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756535B1 (en) * 2006-07-07 2010-07-13 Trend Micro Incorporated Lightweight content filtering system for mobile phones
WO2013009558A2 (en) * 2011-07-11 2013-01-17 Aol Inc. Systems and methods for providing a content item database and identifying content items
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN105788590A (zh) * 2014-12-16 2016-07-20 展讯通信(上海)有限公司 语音识别方法及装置、移动终端
CN106095747A (zh) * 2016-06-03 2016-11-09 北京工商大学 一种垃圾短信的识别方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘志波: "基于监控视频的值班员状态检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王伟等: "基于哈希表的动态向量降维方法的研究及应用", 《河北科技大学学报》 *
王燕萍: "一种基于向量空间的多语言反垃圾短信系统的设计和实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈婕: "短信息文本自动分类技术的研究与实施", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943791A (zh) * 2017-11-24 2018-04-20 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和移动终端
CN109922444A (zh) * 2017-12-13 2019-06-21 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN109922444B (zh) * 2017-12-13 2020-11-03 中国移动通信集团公司 一种垃圾短信识别方法及装置
CN108763209A (zh) * 2018-05-22 2018-11-06 阿里巴巴集团控股有限公司 一种特征提取和风险识别的方法、装置及设备
CN109040987A (zh) * 2018-09-18 2018-12-18 广东尚通科技发展有限公司 一种短信管理方法及其短信管理平台
CN109657231A (zh) * 2018-11-09 2019-04-19 广东电网有限责任公司 一种长短信精简方法及系统
CN113448861A (zh) * 2021-07-09 2021-09-28 中国银行股份有限公司 重复表单的检测方法及装置

Similar Documents

Publication Publication Date Title
CN106803096A (zh) 一种短信类型识别方法、系统及短信管理平台
Sonowal et al. SmiDCA: an anti-smishing model with machine learning approach
US10212114B2 (en) Systems and methods for spam detection using frequency spectra of character strings
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN109543373B (zh) 一种基于用户行为的信息识别方法及装置
CN107357790B (zh) 一种异常消息检测方法、装置及系统
CN104982011A (zh) 使用多尺度文本指纹的文档分类
Liu et al. Content based spam e-mail filtering
CN110213152B (zh) 识别垃圾邮件的方法、装置、服务器及存储介质
CN108021582B (zh) 互联网舆情监控方法及装置
Sajedi et al. Sms spam filtering using machine learning techniques: A survey
CN103580919A (zh) 一种利用邮件服务器日志进行邮件用户标记的方法与系统
CN109583228B (zh) 一种隐私信息管理方法、装置和系统
Rafique et al. Application of evolutionary algorithms in detecting SMS spam at access layer
CN112035728B (zh) 一种跨模态检索方法、装置及可读存储介质
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
US9332031B1 (en) Categorizing accounts based on associated images
CN111062422B (zh) 一种套路贷体系化识别方法及装置
CN109922444B (zh) 一种垃圾短信识别方法及装置
Santos et al. Spam filtering through anomaly detection
CN113409096B (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN106911660B (zh) 一种信息管理方法及装置
CN110288272B (zh) 数据处理方法、装置、电子设备及存储介质
CN113076450A (zh) 一种目标推荐列表的确定方法和装置
Charninda et al. Content based hybrid sms spam filtering system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170606