CN114866966B

CN114866966B - 一种基于大数据的短信用户管理方法

Info

Publication number: CN114866966B
Application number: CN202210797298.8A
Authority: CN
Inventors: 吴锋; 吴宪
Original assignee: Anhui Chonry Information Technology Co ltd
Current assignee: Anhui Chonry Information Technology Co ltd
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-09-06
Anticipated expiration: 2042-07-08
Also published as: CN114866966A

Abstract

本发明涉及大数据挖掘技术领域，公开了一种基于大数据的短信用户管理方法，包括以下步骤：提取恶意域名和第一域名关联的短信的信息；提取第一域名关联的用户的信息；从第一域名关联的短信中提取短信生成第三短信集合；从恶意域名关联的短信中提取短信生成第四短信集合；计算第三短信集合与第四短信集合的短信的第一内容的语义相似度，计算平均相似度S；提取第三短信集合的短信的第二内容得到第一链接集合；提取第四短信集合的短信的第二内容得到第二链接集合；计算第一链接集合和第二链接集合的相关系数R，计算相关度Q=S+R，基于相关度Q判断第一域名关联的用户是否异常；本发明能够避免用户更换域名逃避相似度的检测。

Description

一种基于大数据的短信用户管理方法

技术领域

本发明涉及大数据挖掘技术领域，更具体地说，它涉及一种基于大数据的短信用户管理方法。

背景技术

短信平台对用户以及用户所发送的短信具有监管的义务，除了在用户注册时审核用户的身份以及注册材料之外，在用户使用过程中还将用户的历史数据保存，基于用户的历史数据判断用户是否存在异常，现有技术多是采用将待评价用户与恶意用户模型进行对比判断用户是否存在异常的方法，但是用户的历史数据维度较高，一般仅通过有限的维度进行对比，例如判断待评价用户发送的短信的内容与恶意用户模型的内容的相似度，但是大部分的恶意的短信并不能通过短信的内容直接的体现，例如内容主要包含恶意的短链接的短信，直接通过更换域名即可通过相似度的检测。

发明内容

本发明提供一种基于大数据的短信用户管理方法，解决相关技术中待评价用户与恶意用户模型进行对比判断用户是否存在异常的方法容易被逃避的技术问题。

根据本发明的一个方面，提供了一种基于大数据的短信用户管理方法，包括以下步骤：

步骤S101，提取恶意域名关联的短信的信息；

提取第一域名关联的短信的信息；

提取第一域名关联的用户的信息；

短信的信息包括短信的内容，短信的内容包括第一内容和第二内容，第一内容是指短信的内容中除短链接之外的内容，第二内容是指短信的内容中的短链接；

步骤S102，从第一域名关联的短信中选取其中一个作为第一短信，从第一域名关联的短信中搜索第二短信，第二短信的第二内容与第一短信的第二内容相同，并且第二短信的第一内容与第一短信的第一内容不同；

选择发送时间最接近第一短信的一个第二短信作为第一标记短信；

提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合；

步骤S103，从恶意域名关联的短信中选取其中一个作为第三短信，第三短信的第一内容与第一短信的第一内容相似度大于设定的第二阈值；

从恶意域名关联的短信中搜索第四短信，第四短信的第二内容与第三短信的第二内容相同，并且第四短信的第一内容与第三短信的第一内容不同；

选择发送时间最接近第三短信的一个第四短信作为第二标记短信；

提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合；

步骤S104，整理第一短信集合和第二短信集合，使第一短信集合和第二短信集合包含的短信数量一致；

步骤S105，将第一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排序分别获得第三短信集合和第四短信集合；

步骤S106，计算第三短信集合与第四短信集合的短信的第一内容的语义相似度，获得相似度矩阵，相似度矩阵的一个元素以s_ij表示，s_ij表示相似度矩阵的第i行第j列的元素，s_ij表示第i个第三短信集合的短信与第j个第四短信集合的短信的相似度；

从相似度矩阵中每一行中提取最小的值得到相似度集合，基于相似度集合计算平均相似度S；

步骤S107，提取第三短信集合的短信的第二内容，并去除第二内容中的域名部分之后得到第一进制数，将第一进制数转换为10进制获得第二进制数，集合第三短信集合的短信获得的第二进制数得到第一链接集合。

步骤S108，提取第四短信集合的短信的第二内容，并去除第二内容中的域名部分之后得到第三进制数，将第三进制数转换为10进制获得第四进制数，集合第四短信集合的短信获得的第四进制数得到第二链接集合；

步骤S109，计算第一链接集合和第二链接集合的相关系数R，计算公式如下：

其中d_i为X_i和Y_i之间的等级差，X_i表示第一链接集合中第i个项，Y_i表示第二链接集合中第i个项；

X_i的等级是将第一链接集合中的项按照从小到大排序后，这个项所在的位置；Y_i的等级是将第二链接集合中的项按照从小到大排序后，这个项所在的位置；其中n为第一链接集合包含的项的数量。

步骤S110，基于平均相似度S和相关系数R计算相关度Q，相关度Q=S+R，如果相关度Q大于设定的相关度阈值则判断第一域名关联的用户异常；如果相关度Q小于或等于设定的相关度阈值则判断第一域名关联的用户不异常。

在一个被实施的步骤S101中，用户的信息包括用户的ID。

在一个被实施的步骤S102中，如果第一短信集合中存在重复短信，则只保留重复短信中的一个；

重复短信是指第一内容和第二内容相同的短信。

在上述被实施的步骤S102中，第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的。

在上述被实施的步骤S102中，第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值。

在一个被实施的步骤S103中，第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的。

在上述被实施的步骤S103中，第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值。

在一个被实施的步骤S104中，整理第一短信集合和第二短信集合的方法包括：第一短信集合包含的短信的数量为M，第二短信集合包含的短信的数量为N；

如果第一短信集合包含的短信的数量M大于N，则删除第一短信集合中部分短信直至M=N；

如果第二短信集合包含的短信的数量N大于M，则删除第二短信集合中部分短信直至M=N。

在上述被实施的步骤S104中，删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。

在另一个被实施的步骤S104中，整理第一短信集合和第二短信集合包括以下步骤：

步骤S201，提取第一短信集合的短信的第二内容，并去除第二内容中的域名部分之后得到第五进制数，将第五进制数转换为10进制获得第六进制数；

步骤S202，在第一短信集合中选择获得的第六进制数最小的一个短信作为第一基准短信；

步骤S203，从第一短信集合中删除发送时间在第一基准短信之前的短信；

步骤S204，提取第二短信集合的短信的第二内容，并去除第二内容中的域名部分之后得到第七进制数，将第五进制数转换为10进制获得第八进制数；

步骤S205，在第二短信集合中选择获得的第六进制数最小的一个短信作为第二基准短信；

步骤S206，从第二短信集合中删除发送时间在第二基准短信之前的短信；

步骤S207，如果第一短信集合包含的短信的数量M大于第二短信集合包含的短信的数量N，则删除第一短信集合中部分短信直至M=N；

如果第二短信集合包含的短信的数量N大于第一短信集合包含的短信的数量M，则删除第二短信集合中部分短信直至M=N。

本发明的有益效果在于：

本发明通过第一域名与恶意域名关联的短信的数据处理来判断第一域名与恶意域名的相关度，处理的数据维度低，并且能够通过短链接生成规则的相似度来避免用户更换域名逃避相似度的检测。

附图说明

图1是本发明的一种基于大数据的短信用户管理方法的流程图一；

图2是本发明的一种基于大数据的短信用户管理方法的流程图二；

图3是本发明的一种整理第一短信集合和第二短信集合的步骤。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其他例子中也可以进行组合。

实施例一

如图1和图2所示，一种基于大数据的短信用户管理方法，包括以下步骤：

步骤S101，提取恶意域名关联的短信的信息；

提取第一域名关联的短信的信息；

提取第一域名关联的用户的信息；

用户的信息包括用户的ID；一个第一域名可能关联多个用户；

选择发送时间最接近第一短信的一个第二短信作为第一标记短信，（如果只搜索到一个第二短信则直接选择该第二短信作为第一标记短信）；

提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合，第一短信集合包含的短信的数量为M；

如果第一短信集合中存在重复短信，则只保留重复短信中的一个；

重复短信是指第一内容和第二内容相同的短信；

第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的；

第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值；

对于纯文本的短信来说，第二短信和第一短信的第一内容的相似度所指的是语义相似度；

第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的；

第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值；

对于纯文本的短信来说，第四短信和第三短信的第一内容的相似度所指的是语义相似度；

对于第一标记短信和第一短信来说，由于二者将不同的第一内容与第二内容组合，这表示在第一标记短信发送之前短链接已经按照预定的规则重新生成。

提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合，第二短信集合包含的短信的数量为N；

如果第二短信集合中存在重复短信，则只保留重复短信中的一个；

步骤S104，整理第一短信集合和第二短信集合，如果第一短信集合包含的短信的数量M大于N，则删除第一短信集合中部分短信直至M=N；

如果第二短信集合包含的短信的数量N大于M，则删除第二短信集合中部分短信直至M=N；

删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的；例如需要在第一短信集合中删除三条短信，则可以删除第一短信集合中发送时间最早或最晚的三条短信。

第一短信集合和第二短信集合中的短信均包含第二内容。

第三短信集合和第四短信集合的短信的排序方式是一致的，例如均是按照发送时间由早至晚进行排序；

平均相似度的一个计算方法是相似度集合内的值的算术平均值；

对于任意一个第三短信集合的短信来说，需要计算其与第四短信集合的短信的第一内容的相似度；

如表1所示，表1中的数字值部分即为相似度矩阵，提取得到的相似度集合为{0.2,0.3,0.2}，平均相似度S≈0.234。

表1

步骤S107，提取第三短信集合的短信的第二内容，并去除第二内容中的域名部分之后得到第一进制数，将第一进制数转换为10进制获得第二进制数，集合第三短信集合的短信获得的第二进制数得到第一链接集合；

例如对于第二内容“https://dz.cn/LwlrfGj”，去除第二内容中的域名部分之后得到“LwlrfGj”；

将第一进制数和第二进制数转换为10进制的方法是：

判断第一进制数或第二进制数所使用的计算机进制，然后从其所使用的计算机进制向10进制转换。

判断第一进制数和第二进制数所使用的计算机进制是根据计算机进制的规范所确定的，例如62进制是数字+小写字母+大写字母的组合；

基于计算机进制的规范可能确定的第一进制数或第二进制数所使用的计算机进制可能是多个，例如“LwlrfGk”，由52进制和62进制转换到10进制可能得到“2699244121268”和“739959879578”，“LwlrfGj”，由52进制和62进制转换到10进制可能得到“2699244121267”和“739959879577”；

因此如果基于计算机进制的规范可能确定的第一进制数或第二进制数所使用的计算机进制是多个的情况下统一通过将其从较高的进制向10进制转换，例如判断第一进制数为52进制或62进制，则选择从62进制向10进制转换。

对于判断为异常的用户可以采用警告的方式进行通知或进一步进行审核。

上述实施例中通过短信包含的域名关联到用户，通过第一域名与恶意域名关联的短信的数据处理来判断第一域名与恶意域名的相关度，处理的数据维度低，并且能够通过短链接生成规则的相似度来避免用户更换域名逃避相似度的检测。

实施例二

如图3所示，区别于实施例一，步骤S104中整理第一短信集合和第二短信集合包括以下步骤：

步骤S207，如果第一短信集合包含的短信的数量M大于N，则删除第一短信集合中部分短信直至M=N；

删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。

上面结合附图对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，在不脱离本实施例宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本实施例的保护之内。

Claims

1.一种基于大数据的短信用户管理方法，其特征在于，包括以下步骤：

步骤S101，提取恶意域名关联的短信的信息；

提取第一域名关联的短信的信息；

提取第一域名关联的用户的信息；

X_i的等级是将第一链接集合中的项按照从小到大排序后，这个项所在的位置；Y_i的等级是将第二链接集合中的项按照从小到大排序后，这个项所在的位置；其中n为第一链接集合包含的项的数量；

2.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，用户的信息包括用户的ID。

3.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，步骤S102中，如果第一短信集合中存在重复短信，则只保留重复短信中的一个；

重复短信是指第一内容和第二内容相同的短信。

4.根据权利要求3所述的一种基于大数据的短信用户管理方法，其特征在于，第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的。

5.根据权利要求3所述的一种基于大数据的短信用户管理方法，其特征在于，第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值。

6.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同，也即二者的第二内容包含相同的字符，并且字符的排序也是相同的。

7.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值。

8.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，步骤S104中整理第一短信集合和第二短信集合的方法包括：第一短信集合包含的短信的数量为M，第二短信集合包含的短信的数量为N；

9.根据权利要求8所述的一种基于大数据的短信用户管理方法，其特征在于，删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。

10.根据权利要求1所述的一种基于大数据的短信用户管理方法，其特征在于，步骤S104中整理第一短信集合和第二短信集合包括以下步骤：