CN117880764A

CN117880764A - 基于大数据的垃圾短信筛选方法

Info

Publication number: CN117880764A
Application number: CN202410281492.XA
Authority: CN
Inventors: 赖红琼; 黄瑞先; 周颖; 王金龙
Original assignee: Shenzhen Chengliye Technology Development Co ltd
Current assignee: Shenzhen Chengliye Technology Development Co ltd
Priority date: 2024-03-13
Filing date: 2024-03-13
Publication date: 2024-04-12
Anticipated expiration: 2044-03-13
Also published as: CN117880764B

Abstract

本发明涉及数据处理技术领域，提出了基于大数据的垃圾短信筛选方法，包括：获取待检测短信和垃圾短信的文本分词向量并计算结构频度，获取短信文本词语特征向量并计算关键筛选系数，计算垃圾短信关键筛选阈值，获取垃圾短信关键表征向量集合；将所有待检测短信文本分词向量记为待检测短信文本分词向量集合，获取待检测短信和垃圾短信文本分词向量集合的相似性，计算待检测短信和垃圾短信文本分词向量的互相关系数和互相关系数界定阈值，利用互相关系数界定阈值获取N‑Gram语言模型参数并对待检测短信进行垃圾短信筛选。本发明实现了对垃圾短信的准确筛选。

Description

基于大数据的垃圾短信筛选方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于大数据的垃圾短信筛选方法。

背景技术

随着以智能手机为主的可移动终端设备的不断普及，不同用户之间日常通信的代价不断降低，短信消息通信作为一种便捷化、低成本的即时消息通信手段，被不同领域的广大用户群体所广泛接受。随着短信的日益普及，垃圾短信成为干扰用户群体正常生活一大严重阻碍。

发明内容

本发明提供基于大数据的垃圾短信筛选方法，以解决传统垃圾短信筛选N-Gram参数不确定导致垃圾短信筛选精确性较差的问题，所采用的技术方案具体如下：

本发明一个实施例基于大数据的垃圾短信筛选方法，该方法包括以下步骤：

获取待检测短信和垃圾短信的文本分词向量；

根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度，根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量，根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数，根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值，根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合；

将所有待检测短信文本分词向量记为待检测短信文本分词向量集合，获取待检测短信和垃圾短信文本分词向量集合的相似性，根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数；

根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值，利用互相关系数界定阈值获取N-Gram语言模型参数并对待检测短信进行垃圾短信筛选。

优选地，所述根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度的数学公式为：

上式中，N表示了所有不同垃圾短信的总个数，表示了以数字2为底的对数函数,/>，/>分别表示了最大值和最小值函数，/>，/>分别表示了第k条垃圾短信在第i个文本分词向量出现的次数和在全部垃圾短信中的第i个文本分词向量出现的次数，/>第k条垃圾短信中第i个文本分词向量的位置，/>表示了第i个文本分词向量的结构频度大小。

优选地，所述根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量的方法为：

将垃圾短信分词文本分词向量作为短信文本词语特征向量的第一维度，并将文本分词向量的结构频度作为短信文本词语特征向量的第二维度，构建得到短信文本词语特征向量。

优选地，所述根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数的具体方法为：

将每个不同短信文本词语特征向量与其他短信文本词语特征向量余弦相似性与点积的乘积结果记为第一乘积，将第一乘积累加和的均值记为垃圾短信每个文本分词向量的关键筛选系数。

优选地，所述根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值的方法为：

将垃圾短信每个文本分词向量对应文本数据的信息熵与垃圾短信所有文本分词向量对应文本数据的信息熵比值记为第一比值，将第一比值与垃圾短信每个文本分词向量的关键筛选系数乘积记为第二乘积，将第二乘积累加和的均值记为垃圾短信关键筛选阈值。

优选地，所述根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合的方法为：

将垃圾短信文本分词向量关键筛选系数大于垃圾短信关键筛选阈值的所有垃圾短信文本分词向量记为垃圾短信关键表征向量集合。

优选地，所述获取待检测短信和垃圾短信文本分词向量集合的相似性的具体方法为：

将待检测短信和垃圾短信文本分词向量集合作为Dice相似系数算法的输入，将算法输出结果作为待检测短信和垃圾短信文本分词向量集合的相似性。

优选地，所述根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数为：

上式中，dice表示了待检测短信文本分词向量集合与垃圾短信关键表征向量集合之间的相似系数的数值大小，表示了垃圾短信关键表征向量集合中文本分词向量的总个数，/>表示了向量取模函数，/>表示了卷积操作，/>表示了第i个待检测短信文本分词向量的语义特征向量，/>表示了在垃圾短信关键表征向量集合中第k个文本分词向量的语义特征向量, />表示了第i个待检测短信中所有不同文本分词向量和垃圾短信关键表征向量集合中所有不同向量之间的互相关系。

优选地，所述待检测短信和垃圾短信文本分词向量的语义分词向量的语义特征向量的计算方法为：

将所有待检测短信和垃圾短信文本分词向量作为5层全卷积神经网络的输入，将神经网络输出结果分别记为待检测短信和垃圾短信文本分词向量的语义分词向量。

优选地，所述根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值的计算方法为：

上式中，MRg表示了所有待检测短信文本分词向量互相关关系最大值和最小值的差值，，/>分别表示了所有待检测短信文本分词向量的互相关系数的最大值和最小值，Mean表示了所有待检测短信文本分词向量的互相关系数的均值，T表示了互相关系数界定阈值。

本发明的有益效果是：本发明申请通过对垃圾短信中反复出现词语计算得到相应的文本分词向量结构频度大小，构建文本词语特征向量，并利用结构频度大小获取关键筛选系数对垃圾短信中关键文本词语信息进行表征计算，通过对词语结构顺序特点的分析相较于传统仅通过词频计数方法更加有效地反映出垃圾短信中关键词语相关信息。进一步地，本发明利用卷积操作提取文本向量中相关的语义特征信息获取语义特征向量，并计算得到不同语义特征向量之间的互相关系数，从语序语义角度共同对待检测短信和垃圾短信中关键特征信息进行分析，从而准确计算得到N-Gram语言模型参数，达到对垃圾短信筛选准确筛选的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的基于大数据的垃圾短信筛选方法的流程示意图；

图2为待检测短信与垃圾短信互相关系数计算方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的垃圾短信筛选方法流程图，该方法包括以下步骤：

步骤S001，获取待检测短信和垃圾短信的文本分词向量。

首先，收集获取垃圾短信文本数据，为了充分反映垃圾短信中常用词语和句式，令垃圾短信收集总个数为N，N取经验值为5000，在具体应用中，实施者可根据具体情况进行设置。通常情况下，在短信文本中会使用停用词、标点符号等文本编辑手段确保在中文语言表述的连贯性。为了消除短信数据中无实际意义停用词和标点符号的影响，需要对短信文本数据进行预处理。对收集获取得到的所有不同垃圾短信文本数据和待检测短信文本数据作为jieba分词输入，分别获取得到的所有不同垃圾短信和待检测短信的文本分词数据。同时，为了便于进一步计算，将所有不同文本分词数据使用One-hot编码，得到不同垃圾短信和待检测短信的文本分词向量。其中，jieba分词处理和One-hot编码过程为公知技术，在此不再赘述。

步骤S002，根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度，根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量，根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数，根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值，根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合。

通常情况下，垃圾短信的文本编辑过程中会使用固定的话术套路，此时不同垃圾短信中会反复多次出现相关的语义词句，通过对不同垃圾短信文本分词数据的出现状态进行计算分析，需要计算获取垃圾短信中反复多次出现的词语信息。

具体地，假设N个不同的垃圾短信通过分词编码后获取得到的文本分词向量个数为Nw个，每个不同的文本分词向量均表示了垃圾短信中不同的有效词语。考虑到不同词语在短信文本数据中出现的位置次序有所差异，而相同词语在同一个句子中所表示的含义可能存在较大的差异，因此需要根据垃圾短信中语序顺序构建短信文本词语特征向量。

通过上式可以计算得到不同垃圾短信中不同文本分词向量的结构频度数值大小，假设不同垃圾短信的文本分词向量分别在当前垃圾短信和所有不同垃圾短信中出现次数都相对较大，说明该文本分词向量在垃圾短信中越常见，同时，利用不同文本分词向量出现的位置对同一条短信的中不同语句位置处结构频度在数值上进行区分。

将垃圾短信分词文本分词向量作为短信文本词语特征向量的第一维度，并将文本分词向量的结构频度作为短信文本词语特征向量的第二维度，构建得到短信文本词语特征向量。对垃圾短信中不同的词语信息通过短信文本词句特征向量从原始数据信息和词频句子结构两个不同的维度进行表征。将第i个文本分词的词语特征向量记为，其中/>表示了第i个文本分词向量，/>表示了第i个文本分词向量的结构频度大小。

需要说明的是，在垃圾短信不同的文本分词向量中，不同文本分词向量也可能表示了含义相近的词语，因此，需要对垃圾短信中不同文本分词向量之间的相似性进行分析。

上式中，表示了垃圾短信文本分词向量个数，/>表示了两个不同向量之间的余弦相似性函数，/>表示了两个不同向量之间的点积函数，/>表示了垃圾短信中第i个文本词语特征向量，/>表示了垃圾短信中与第i个文本词语特征向量不同的第k个文本词语特征向量，/>表示了垃圾短信中第i个文本分词向量的关键筛选系数。

通过上式可以计算得到垃圾短信中所有不同文本分词向量的关键筛选系数，若垃圾短信中第i个文本分词数据与其他文本分词数据之间所表示的语义信息较为接近，则此时计算得到的两个不同文本分词的词语特征向量之间余弦相似性数值相对较大，同时，若两个不同文本分词在对应垃圾短信中出现的次数越多，则此时短信文本词语特征向量第二维度所表示的结构频度数值会相对较大，因此两个不同向量之间计算得到的点积数值会相对较大，此时计算得到的第i个文本分词向量的关键筛选系数的数值会越大，说明两个当前第i个文本分词向量在所有不同的垃圾短信中存在语义相近且反复多次出现的文本分词向量，则认为当前第i个文本分词向量在垃圾短信中越关键。

对于垃圾短信的不同文本分词向量均可以计算得到不同的关键筛选系数，若关键筛选系数越大，说明对应的文本分词向量在垃圾短信中反复多次出现，则此时有较大可能为垃圾短信中的关键词句。但考虑到垃圾短信中语序习惯顺序存在较大的差别，从而导致垃圾短信中不同文本分词向量分布出现不均衡的情况，需要结合垃圾短信中不同文本分词向量具体分布状态进一步计算。

上式中，表示了垃圾短信文本分词向量个数，/>表示了垃圾短信中第k个文本分词向量对应的垃圾短信文本数据信息熵数值大小，/>表示了垃圾短信所有不同文本分词向量对应的垃圾短信文本数据信息熵数值大小，/>表示了垃圾短信中第k个文本分词向量的关键筛选系数，/>表示了垃圾短信关键筛选阈值。

通过上述公式可以计算得到垃圾短信的关键筛选阈值大小，若垃圾短信对应文本分词向量的信息熵相对垃圾短信整体信息熵数值越大，说明在垃圾短信中，该文本分词向量可以表征垃圾短信中大部分语义信息，因此对应文本分词向量的计算权重会相对较高，从而根据垃圾短信中不同文本分词向量出现状态进行动态调整，较为准确地反映垃圾短信中的关键文本信息。

利用垃圾短信关键筛选阈值对垃圾短信中不同文本分词向量进行划分，将关键筛选系数大于垃圾短信关键筛选阈值的所有文本分词向量记为垃圾短信关键表征向量集合。

步骤S003，将所有待检测短信文本分词向量记为待检测短信文本分词向量集合，获取待检测短信和垃圾短信文本分词向量集合的相似性，根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数。

可以理解的是，若在待检测短信中出现垃圾短信关键表征向量集合中相同的文本分词向量，则当前待检测短信有较大可能为垃圾短信，因此需要对待检测短信中不同文本分词向量与垃圾短信关键表征向量集合之间的相似情况进一步分析计算。

具体地，将待检测短信的文本分词向量记为待检测短信文本向量集合，计算待检测短信文本分词向量集合与垃圾短信关键表征向量集合的Dice相似系数并记为dice。若在待检测短信中出现与垃圾短信相同的语句，且待检测短信文本向量集合中出现的垃圾短信文本分词向量的次数越多，说明此时待检测短信为垃圾短信的可能性也会相对较大。其中Dice相似系数的具体计算方法为公知技术，在此不再赘述。

可以理解的是，若待检测短信文本分词向量集合和垃圾短信文本分词向量集合之间存在较大部分重合时，说明待检测短信中存在与垃圾短信文本分词较多相同重合的部分。但由于不同形式结构词句所表征的语义信息可能较为接近，此时还需要对待检测短信和垃圾短信的文本分词向量的具体语义含义进一步分析计算。

具体地，在传统图像处理过程中，使用卷积神经网络的卷积操作可以提取得到图像的特征信息，同时随着卷积层数的不断加深，提取得到特征所表征的含义也越抽象，所表示的对象内容信息也越明显。因此，如图2所示，将待检测短信和垃圾短信所有不同的文本分词向量作为5层全卷积神经网络FCN的输入，卷积核大小为，步长为1，分别提取待检测短信和垃圾短信文本分词向量的语义特征向量，在具体应用中，实施者可根据具体情况进行设置。

上式中，dice表示了待检测短信文本分词向量集合与垃圾短信关键表征向量集合之间的相似系数的数值大小，表示了垃圾短信关键表征向量集合中文本分词向量的总个数，/>表示了向量取模函数，/>表示了卷积操作，/>表示了第i个待检测短信文本分词向量的语义特征向量，/>表示了在垃圾短信关键表征向量集合中第k个文本分词向量的语义特征向量, />表示了第i个待检测短信中所有不同文本分词向量和垃圾短信关键表征向量集合中所有不同向量之间的互相关系数。

通过上式可以计算得到待检测短信中所有不同文本分词向量和垃圾短信关键表征向量集合中所有不同向量之间的互相关系数，若两个不同集合中存在较大部分的重合，说明待检测短信和垃圾短信中存在较大部分文本分词向量重合现象，同时，若不同文本分词向量之间所表述的语义信息较为接近，则此时两个向量之间卷积后模长数值会相对较大，此时计算得到的待检测短信文本分词向量和垃圾短信关键表征向量集合中文本分词向量之间的互相关系数数值会相对较大，说明待检测短信与垃圾短信在语序和语义上均具有较强的相似性。

步骤S004，根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值，利用互相关系数界定阈值获取N-Gram语言模型参数并对待检测短信进行垃圾短信筛选。

通过上式可以计算得到待检测短信中所有不同文本分词向量与垃圾短信文本分词向量所有互相关系数的界定阈值，若此时待检测短信和垃圾短信之间不同文本分词向量互相关系数的数值相对较为集中且分布均值附近，则计算得到的互相关系数界定阈值应相对较小。若此时待检测短信文本分词向量互相关系数大于等于互相关系数界定阈值的个数超过一半时，认为当前待检测短信文本处于关联界定状态，为了进一步准确评估待检测短信是否为垃圾短信短信，令N-Gram语言模型中参数N取2；反之，若待检测短信文本分词向量互相关系数小于互相关系数界定阈值的个数超过一半时，令N-Gram语言模型中参数N取3。通过对不同状态下待检测短信设置不同的N-Gram语言模型参数，完成对当前待检测短信进行垃圾短信筛选。N-Gram语言模型具体计算过程为公知技术，在此不再赘述。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.基于大数据的垃圾短信筛选方法，其特征在于，该方法包括以下步骤：

获取待检测短信和垃圾短信的文本分词向量；

2.根据权利要求1所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据不同垃圾短信文本分词向量计算每个垃圾短信文本分词向量的结构频度的数学公式为：

上式中，N表示了所有不同垃圾短信的总个数，表示了以数字2为底的对数函数,，/>分别表示了最大值和最小值函数，/>，/>分别表示了第k条垃圾短信在第i个文本分词向量出现的次数和在全部垃圾短信中的第i个文本分词向量出现的次数，第k条垃圾短信中第i个文本分词向量的位置，/>表示了第i个文本分词向量的结构频度大小。

3.根据权利要求2所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据每个垃圾短信文本分词向量结构频度获取短信文本词语特征向量的方法为：

4.根据权利要求3所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据短信文本词语特征向量计算垃圾短信每个文本分词向量的关键筛选系数的具体方法为：

5.根据权利要求4所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据垃圾短信每个文本分词向量的关键筛选系数计算垃圾短信关键筛选阈值的方法为：

6.根据权利要求5所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据垃圾短信关键筛选阈值获取垃圾短信关键表征向量集合的方法为：

7.根据权利要求6所述的基于大数据的垃圾短信筛选方法，其特征在于，所述获取待检测短信和垃圾短信文本分词向量集合的相似性的具体方法为：

8.根据权利要求7所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据待检测短信和垃圾短信文本分词向量集合的相似性计算待检测短信和垃圾短信文本分词向量的互相关系数为：

9.根据权利要求8所述的基于大数据的垃圾短信筛选方法，其特征在于，所述待检测短信和垃圾短信文本分词向量的语义分词向量的语义特征向量的计算方法为：

将所有待检测短信和垃圾短信文本分词向量作为全卷积神经网络的输入，将神经网络输出结果分别记为待检测短信和垃圾短信文本分词向量的语义分词向量。

10.根据权利要求8所述的基于大数据的垃圾短信筛选方法，其特征在于，所述根据待检测短信和垃圾短信文本分词向量的互相关系数计算互相关系数界定阈值的计算方法为：