CN109922444B

CN109922444B - 一种垃圾短信识别方法及装置

Info

Publication number: CN109922444B
Application number: CN201711329988.6A
Authority: CN
Inventors: 白浩; 张永涛; 王静
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Inner Mongolia Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Inner Mongolia Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2020-11-03
Anticipated expiration: 2037-12-13
Also published as: CN109922444A

Abstract

本发明实施例提供一种垃圾短信识别方法及装置。所述方法包括：提取待识别短信中的多个关键词，并确定各关键词对应的属性，并根据待识别短信的各关键词、各关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；按照预设模型计算目标样本短信数据库中包括的各关键词对应的多个特征参数；根据目标样本短信数据库中包括的各关键词对应的多个特征参数分别生成各关键词对应的特征向量，根据各关键词对应的特征向量建立随机二叉树，并根据随机二叉树计算待识别短信的异常分数，根据异常分数对所述待识别短信进行垃圾短信识别。所述装置用于执行上述方法。本发明提供的方法及装置提高了垃圾短信的识别效率。

Description

一种垃圾短信识别方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种垃圾短信识别方法及装置。

背景技术

移动通信技术的不断发展之下，短信已经成为人们生活中不可或缺的工具之一，但伴随而来的垃圾短信泛滥，不但占用了电信运营商宝贵的网络资源，而且给人们的生活、工作带来了无尽的烦恼，因此对于垃圾短信进行识别方法的研究越来越受到人们的关注。

现有技术条件下，垃圾短信识别方法主要包括以下三种：(1)短信通讯信任机制，也就是在用户双方进行短信通讯之前，双方必须明确对方身份并获得短信通信信任许可，才可以进行短信通讯；(2)关键词过滤技术，主要通过移动运营商SMSC确定关键词、建立关键词库以及垃圾短信关键词匹配规则，来识别短信是否为垃圾短信；(3)黑名单过滤技术，一般通过两种方式完成，一方面用户在手机上设置白名单与黑名单来进行短信过滤，另一方面，运营商通过SMSC系统来设置黑名单和白名单来进行短信过滤。但是，方法(1)对短信通讯带来了极大的不便，方法(2)以关键词匹配识别垃圾短信的方法误检率较高，而且事后增加关键词存在滞后性；方法(3)对黑白名单的处理数量有上限要求。综上所述，现有技术条件下的识别方法大大影响了垃圾短信的识别效率。

因此，提出一种方法提高垃圾短信识别的效率是目前业界亟待解决的重要课题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种垃圾短信识别方法及装置。

一方面，本发明实施例提供一种垃圾短信识别方法，包括：

提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；

按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；

根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

另一方面，本发明实施例提供一种垃圾短信识别装置，包括：

处理单元，用于提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；

计算单元，用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；

识别单元，用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

又一方面，本发明实施例提供一种电子设备，包括处理器、存储器和总线，其中：

所述处理器，所述存储器通过总线完成相互间的通信；

所述处理器可以调用存储器中的计算机程序，以执行上述方法的步骤。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的垃圾短信识别方法及装置，通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性，以及预设样本短信数据库，生成目标样本短信数据库，并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数，生成各所述关键词对应的特征向量，并根据各所述关键词对应的特征向量，建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别，提高了垃圾短信识别效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的垃圾短信识别方法的流程示意图；

图2为本发明实施例提供的垃圾短信识别装置的结构示意图；

图3为本发明实施例提供的电子设备实体装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的垃圾短信识别方法的流程示意图，如图1所示，本实施例提供一种垃圾短信识别方法，包括：

S101、提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；

具体地，垃圾短信识别装置可以通过现有的分词方法(如统计语言模型)对所述待识别短信进行分词处理，得到多个词语，然后对所述多个词语进行清洗处理(如删除*、※等特殊字符，进行数字变换等)，然后基于现有的语义识别技术，从所述多个词语中筛选可以用于表达语义的词语作为所述关键词。然后，所述装置分别确定各所述关键词对应的属性，例如，对于词性为名词的关键词，确定其属性为名词属性；对于词性为动词的关键词，确定其属性为动词属性；对于表示URL的关键词，确定其属性为链接属性；对于表示邮箱的关键词，确定其属性为邮箱属性；对于包括第一预设位数的数字的关键词，确定其属性为电话号码属性；对于包括第一预设位数的数字的关键词，确定其属性为卡号属性；当然还可以包括其他关键词属性的确定方式，具体可以根据实际情况进行设置和调整，此处不做具体限定。接着，所述装置将所述待识别短信作为新增的样本短信，将所述待识别短信的各所述关键词、各所述关键词对应的属性添加至所述预设样本短信数据库，生成目标样本短信数据库；其中，所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性。

S102、按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；

具体地，所述装置按照预设模型计算所述目标样本短信数据库中包括的所述各关键词对应的多个特征参数。其中，所述预设模型包括各所述特征参数对应的计算策略；所述特征参数可以包括信誉度特征参数、位置特征参数、属性特征参数、第一距离特征参数、第二距离特征参数、关联特征参数，还可以包括其他特征参数，具体可以根据实际情况进行设置和调整，此处不做具体限定。

S103、根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

具体地，所述装置根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树确定所述待识别短信包括的各所述关键词对应的二叉树分裂值，并计算所述待识别短信对应的叶子节点路径长度，根据所述二叉树分裂值和所述叶子节点路径长度，计算所述待识别短信的异常分数，并根据所述异常分数判断所述待识别短信是否为垃圾短信。

本发明实施例提供的垃圾短信识别方法，通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性，以及预设样本短信数据库，生成目标样本短信数据库，并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数，生成各所述关键词对应的特征向量，并根据各所述关键词对应的特征向量，建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别，提高了垃圾短信识别效率。

在上述实施例的基础上，进一步地，所述按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数，包括：

根据公式

计算所述目标样本短信数据库中包括的第i个关键词的词频；其中，TF_i为所述第i个关键词的词频，P_i为所述第i个关键词在所述目标样本短信数据库中出现的次数，P^*为所述目标样本短信数据库中包括的全部关键词出现的总次数；

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的区分能力特征值；其中，TI_i所述第i个关键词的区分能力特征值，TF_i为所述第i个关键词的词频，n_i为所述目标样本短信数据库中包括所述第i个关键词的短信的条数，N为所述目标样本短信数据库中包括的短信总条数，W_i为所述第i个关键词的属性对应的权重值；

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的信誉度特征参数；其中，A_i为所述第i个关键词的信誉度特征值，TI_i为所述第i个关键词的区分能力特征值，TI^*为所述目标样本数库中包括的全部关键词的区分能力特征值之和，M_i为所述第i个关键词在所述目标样本短信数据库中出现的总次数，U_i为与所述第i个关键词属性相同的关键词在所述目标样本短信数据库中出现的总次数。

应当说明的是，所述各关键词的属性对应的权重值是预先设置的，可以根据经验值确定，也可以根据机器学习模型训练获得，具体可以根据实际情况进行设置和调整，此处不做具体限定；在本发明实施例及以下的各实施例中所述目标样本短信数据库中包括的短信为所述目标样本短信数据库中所有的短信，即包括所述待识别短信和所述预设样本短信数据库中的短信。

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的位置特征参数；其中，B_i为所述第i个关键词的位置特征参数，Q_i,j为在所述目标样本短信数据库的第j条短信中处于所述第i个关键词之前的字符个数，Z_i,j为所述第j条短信中包括的字符的总个数，N为所述目标样本短信数据库中包括的短信总条数。

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的属性特征参数；其中，X_i,j为所述目标样本短信数据库的第j条短信中与所述第i个关键词属性相同的关键词的个数，G_i,j为所述第j条短信中包括的关键词总个数，N为所述目标样本短信数据库中包括的短信的总条数。

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的第一距离特征参数；其中，D_i为所述第i个关键词的第一距离特征参数，H_i,j为在所述目标样本短信数据库的第j条短信中，与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最小值；K_i,j为在所述目标样本短信数据库的第j条短信中，与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最小值；

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的第二距离特征参数；其中，E_i为所述第i个关键词的第二距离特征参数，L_i,j为在所述目标样本短信数据库的第j条短信中，与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的关键词个数的最大值；R_i,j为在所述目标样本短信数据库的第j条短信中，与所述第i个关键词属性相同的关键词和所述第i个关键词之间相隔的字符个数的最大值；

其中，G_i,j为所述第j条短信中包括的关键词总个数，Z_i,j为所述第j条短信中包括的字符的总个数；N为所述目标样本短信数据库中包括的短信的总条数。

根据公式：

计算所述目标样本短信数据库中包括的第i个关键词的关联特征参数；其中，F_i为所述第i个关键词的关联特征参数；V_i,j为在所述目标样本短信数据库的第j条短信中，其它各关键词与所述第i个关键词之间相隔的字符个数的最小值；Z_i,j为所述第j条短信包括的字符的总个数，W_i为所述第i个关键词的属性对应的权重值；W_t,j为在所述第j条短信中，与所述第i个关键词之间相隔的字符个数为最小值的关键词对应的权重值；N为所述目标样本短信数据库中包括的短信的总条数。

在上述实施例的基础上，进一步地，所述根据所述随机二叉树计算所述待识别短信的异常分数，包括：

根据所述随机二叉树，确定所述待识别短信中包括的各关键词对应的二叉树分裂值，并根据所述待识别短信包括的关键词计算所述待识别短信对应的叶子节点路径长度；

根据所述待识别短信包括的各关键词对应的二叉树分裂值，以及所述待识别短信对应的叶子节点路径长度，计算所述待识别短信的异常分数。

具体地，所述装置根据所述目标数据库中包括的各关键词对应的多个特征参数，生成各所述关键词对应的特征向量Y_i＝{y₁，y₂，y₃…y_k}^T，其中，Y_i为所述目标数据库中包括的第i个关键词对应的特征向量，其中y₁，y₂，y₃…y_k为所述第i个关键词对应的k个特征参数，并根据所述各关键词对应的特征向量生成随机二叉树，所述随机二叉树的节点分别为Y₁，Y₂，Y₃…Y_i…Y_m，其中，m为所述目标数据库中包括的关键词的总个数。所述待识别短信中包括的第l个关键词的特征向量为S_l，S_l∈{Y₁，Y₂，Y₃…Y_i…Y_m}，所述待识别短信包括的关键词的集合为{S₁，S₂，S₃…S_l…S_g}，g为所述待识别短信包括的关键词的个数，且g≤m，所述装置通过遍历所述随机二叉树，确定所述待识别短信中包括的各关键词的二叉树分裂值分别为{p₁，p₂，p₃…p_l…p_g}。由于所述待识别短信的叶节点路径长度等于二叉树中失败查询的路径长度，对于{S₁，S₂，S₃…S_l…S_g}，根据公式：

计算所述待识别短信的叶节点路径长度；其中，c(g)为所述待识别短信的叶节点路径长度，H(g-1)＝ln(g-1)+γ，γ为欧拉常数，g为所述待识别短信包括的关键词的个数。然后，所述装置根据公式：

计算所述待识别短信的异常分数；其中，s为所述待识别短信的异常分数，

即为所述待识别短信包括的各所述关键词对应的二叉树分裂值的平均值，c(g)为所述待识别短信对应的叶节点路径长度。所述装置若判断获知E(p_l)趋近于c(g)时s趋近于0.5，或者，E(p_l)趋近于(g-1)时s趋近于0，则判定所述待识别短信为非垃圾短信；若判断获知E(p_l)趋近于0时s趋近于1，则判定所述待识别短信为垃圾短信。应当说明的是，本实施例中建立根据各关键词的特征向量建立随机二叉树现有技术中建立随机二叉树的方法一致，确定所述各关键词对应的二叉树分裂值的具体方法与现有技术中计算二叉树分裂值的方法一致，此处均不再赘述。

图2为本发明实施例提供的垃圾短信识别装置的结构示意图，如图2所示，本发明实施例提供一种垃圾短信识别装置，包括：处理单元201、计算单元202和识别单元203，其中：

处理单元201用于提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；

计算单元202用于按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；

识别单元203用于根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

本发明实施例提供的垃圾短信识别装置，通过根据提取待识别短信中的多个关键词、各所述关键词对应的属性，以及预设样本短信数据库，生成目标样本短信数据库，并按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数，生成各所述关键词对应的特征向量，并根据各所述关键词对应的特征向量，建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别，提高了垃圾短信识别效率。

本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的电子设备实体装置结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303，其中，处理器301，存储器302通过总线303完成相互间的通信。处理器301可以调用存储器302中的计算机程序，以执行各方法实施例所提供的方法，例如包括：提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：提取待识别短信中的多个关键词，并确定各所述关键词对应的属性，并根据所述待识别短信的各所述关键词、各所述关键词对应的属性以及预设样本短信数据库，生成目标样本短信数据库；所述预设样本短信数据库包括多个样本短信以及各样本短信中包括的多个关键词的属性；按照预设模型计算所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数；所述预设模型包括各所述特征参数对应的计算策略；根据所述目标样本短信数据库中包括的各所述关键词对应的多个特征参数分别生成各所述关键词对应的特征向量，根据所述各关键词对应的特征向量建立随机二叉树，并根据所述随机二叉树计算所述待识别短信的异常分数，根据所述异常分数对所述待识别短信进行垃圾短信识别。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。