CN114866966B - 一种基于大数据的短信用户管理方法 - Google Patents

一种基于大数据的短信用户管理方法 Download PDF

Info

Publication number
CN114866966B
CN114866966B CN202210797298.8A CN202210797298A CN114866966B CN 114866966 B CN114866966 B CN 114866966B CN 202210797298 A CN202210797298 A CN 202210797298A CN 114866966 B CN114866966 B CN 114866966B
Authority
CN
China
Prior art keywords
short message
content
short
messages
domain name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210797298.8A
Other languages
English (en)
Other versions
CN114866966A (zh
Inventor
吴锋
吴宪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Chonry Information Technology Co ltd
Original Assignee
Anhui Chonry Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Chonry Information Technology Co ltd filed Critical Anhui Chonry Information Technology Co ltd
Priority to CN202210797298.8A priority Critical patent/CN114866966B/zh
Publication of CN114866966A publication Critical patent/CN114866966A/zh
Application granted granted Critical
Publication of CN114866966B publication Critical patent/CN114866966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/12Messaging; Mailboxes; Announcements
    • H04W4/14Short messaging services, e.g. short message services [SMS] or unstructured supplementary service data [USSD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据挖掘技术领域,公开了一种基于大数据的短信用户管理方法,包括以下步骤:提取恶意域名和第一域名关联的短信的信息;提取第一域名关联的用户的信息;从第一域名关联的短信中提取短信生成第三短信集合;从恶意域名关联的短信中提取短信生成第四短信集合;计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,计算平均相似度S;提取第三短信集合的短信的第二内容得到第一链接集合;提取第四短信集合的短信的第二内容得到第二链接集合;计算第一链接集合和第二链接集合的相关系数R,计算相关度Q=S+R,基于相关度Q判断第一域名关联的用户是否异常;本发明能够避免用户更换域名逃避相似度的检测。

Description

一种基于大数据的短信用户管理方法
技术领域
本发明涉及大数据挖掘技术领域,更具体地说,它涉及一种基于大数据的短信用户管理方法。
背景技术
短信平台对用户以及用户所发送的短信具有监管的义务,除了在用户注册时审核用户的身份以及注册材料之外,在用户使用过程中还将用户的历史数据保存,基于用户的历史数据判断用户是否存在异常,现有技术多是采用将待评价用户与恶意用户模型进行对比判断用户是否存在异常的方法,但是用户的历史数据维度较高,一般仅通过有限的维度进行对比,例如判断待评价用户发送的短信的内容与恶意用户模型的内容的相似度,但是大部分的恶意的短信并不能通过短信的内容直接的体现,例如内容主要包含恶意的短链接的短信,直接通过更换域名即可通过相似度的检测。
发明内容
本发明提供一种基于大数据的短信用户管理方法,解决相关技术中待评价用户与恶意用户模型进行对比判断用户是否存在异常的方法容易被逃避的技术问题。
根据本发明的一个方面,提供了一种基于大数据的短信用户管理方法,包括以下步骤:
步骤S101,提取恶意域名关联的短信的信息;
提取第一域名关联的短信的信息;
提取第一域名关联的用户的信息;
短信的信息包括短信的内容,短信的内容包括第一内容和第二内容,第一内容是指短信的内容中除短链接之外的内容,第二内容是指短信的内容中的短链接;
步骤S102,从第一域名关联的短信中选取其中一个作为第一短信,从第一域名关联的短信中搜索第二短信,第二短信的第二内容与第一短信的第二内容相同,并且第二短信的第一内容与第一短信的第一内容不同;
选择发送时间最接近第一短信的一个第二短信作为第一标记短信;
提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合;
步骤S103,从恶意域名关联的短信中选取其中一个作为第三短信,第三短信的第一内容与第一短信的第一内容相似度大于设定的第二阈值;
从恶意域名关联的短信中搜索第四短信,第四短信的第二内容与第三短信的第二内容相同,并且第四短信的第一内容与第三短信的第一内容不同;
选择发送时间最接近第三短信的一个第四短信作为第二标记短信;
提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合;
步骤S104,整理第一短信集合和第二短信集合,使第一短信集合和第二短信集合包含的短信数量一致;
步骤S105,将第一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排序分别获得第三短信集合和第四短信集合;
步骤S106,计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,获得相似度矩阵,相似度矩阵的一个元素以sij表示,sij表示相似度矩阵的第i行第j列的元素,sij表示第i个第三短信集合的短信与第j个第四短信集合的短信的相似度;
从相似度矩阵中每一行中提取最小的值得到相似度集合,基于相似度集合计算平均相似度S;
步骤S107,提取第三短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第一进制数,将第一进制数转换为10进制获得第二进制数,集合第三短信集合的短信获得的第二进制数得到第一链接集合。
步骤S108,提取第四短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第三进制数,将第三进制数转换为10进制获得第四进制数,集合第四短信集合的短信获得的第四进制数得到第二链接集合;
步骤S109,计算第一链接集合和第二链接集合的相关系数R,计算公式如下:
Figure 626930DEST_PATH_IMAGE001
其中di为Xi和Yi之间的等级差,Xi表示第一链接集合中第i个项,Yi表示第二链接集合中第i个项;
Xi的等级是将第一链接集合中的项按照从小到大排序后,这个项所在的位置;Yi的等级是将第二链接集合中的项按照从小到大排序后,这个项所在的位置;其中n为第一链接集合包含的项的数量。
步骤S110,基于平均相似度S和相关系数R计算相关度Q,相关度Q=S+R,如果相关度Q大于设定的相关度阈值则判断第一域名关联的用户异常;如果相关度Q小于或等于设定的相关度阈值则判断第一域名关联的用户不异常。
在一个被实施的步骤S101中,用户的信息包括用户的ID。
在一个被实施的步骤S102中,如果第一短信集合中存在重复短信,则只保留重复短信中的一个;
重复短信是指第一内容和第二内容相同的短信。
在上述被实施的步骤S102中,第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的。
在上述被实施的步骤S102中,第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值。
在一个被实施的步骤S103中,第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的。
在上述被实施的步骤S103中,第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值。
在一个被实施的步骤S104中,整理第一短信集合和第二短信集合的方法包括:第一短信集合包含的短信的数量为M,第二短信集合包含的短信的数量为N;
如果第一短信集合包含的短信的数量M大于N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于M,则删除第二短信集合中部分短信直至M=N。
在上述被实施的步骤S104中,删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。
在另一个被实施的步骤S104中,整理第一短信集合和第二短信集合包括以下步骤:
步骤S201,提取第一短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第五进制数,将第五进制数转换为10进制获得第六进制数;
步骤S202,在第一短信集合中选择获得的第六进制数最小的一个短信作为第一基准短信;
步骤S203,从第一短信集合中删除发送时间在第一基准短信之前的短信;
步骤S204,提取第二短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第七进制数,将第五进制数转换为10进制获得第八进制数;
步骤S205,在第二短信集合中选择获得的第六进制数最小的一个短信作为第二基准短信;
步骤S206,从第二短信集合中删除发送时间在第二基准短信之前的短信;
步骤S207,如果第一短信集合包含的短信的数量M大于第二短信集合包含的短信的数量N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于第一短信集合包含的短信的数量M,则删除第二短信集合中部分短信直至M=N。
本发明的有益效果在于:
本发明通过第一域名与恶意域名关联的短信的数据处理来判断第一域名与恶意域名的相关度,处理的数据维度低,并且能够通过短链接生成规则的相似度来避免用户更换域名逃避相似度的检测。
附图说明
图1是本发明的一种基于大数据的短信用户管理方法的流程图一;
图2是本发明的一种基于大数据的短信用户管理方法的流程图二;
图3是本发明的一种整理第一短信集合和第二短信集合的步骤。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
实施例一
如图1和图2所示,一种基于大数据的短信用户管理方法,包括以下步骤:
步骤S101,提取恶意域名关联的短信的信息;
提取第一域名关联的短信的信息;
提取第一域名关联的用户的信息;
用户的信息包括用户的ID;一个第一域名可能关联多个用户;
短信的信息包括短信的内容,短信的内容包括第一内容和第二内容,第一内容是指短信的内容中除短链接之外的内容,第二内容是指短信的内容中的短链接;
步骤S102,从第一域名关联的短信中选取其中一个作为第一短信,从第一域名关联的短信中搜索第二短信,第二短信的第二内容与第一短信的第二内容相同,并且第二短信的第一内容与第一短信的第一内容不同;
选择发送时间最接近第一短信的一个第二短信作为第一标记短信,(如果只搜索到一个第二短信则直接选择该第二短信作为第一标记短信);
提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合,第一短信集合包含的短信的数量为M;
如果第一短信集合中存在重复短信,则只保留重复短信中的一个;
重复短信是指第一内容和第二内容相同的短信;
第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的;
第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值;
对于纯文本的短信来说,第二短信和第一短信的第一内容的相似度所指的是语义相似度;
步骤S103,从恶意域名关联的短信中选取其中一个作为第三短信,第三短信的第一内容与第一短信的第一内容相似度大于设定的第二阈值;
从恶意域名关联的短信中搜索第四短信,第四短信的第二内容与第三短信的第二内容相同,并且第四短信的第一内容与第三短信的第一内容不同;
选择发送时间最接近第三短信的一个第四短信作为第二标记短信;
第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的;
第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值;
对于纯文本的短信来说,第四短信和第三短信的第一内容的相似度所指的是语义相似度;
对于第一标记短信和第一短信来说,由于二者将不同的第一内容与第二内容组合,这表示在第一标记短信发送之前短链接已经按照预定的规则重新生成。
提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合,第二短信集合包含的短信的数量为N;
如果第二短信集合中存在重复短信,则只保留重复短信中的一个;
步骤S104,整理第一短信集合和第二短信集合,如果第一短信集合包含的短信的数量M大于N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于M,则删除第二短信集合中部分短信直至M=N;
删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的;例如需要在第一短信集合中删除三条短信,则可以删除第一短信集合中发送时间最早或最晚的三条短信。
第一短信集合和第二短信集合中的短信均包含第二内容。
步骤S105,将第一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排序分别获得第三短信集合和第四短信集合;
第三短信集合和第四短信集合的短信的排序方式是一致的,例如均是按照发送时间由早至晚进行排序;
步骤S106,计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,获得相似度矩阵,相似度矩阵的一个元素以sij表示,sij表示相似度矩阵的第i行第j列的元素,sij表示第i个第三短信集合的短信与第j个第四短信集合的短信的相似度;
从相似度矩阵中每一行中提取最小的值得到相似度集合,基于相似度集合计算平均相似度S;
平均相似度的一个计算方法是相似度集合内的值的算术平均值;
对于任意一个第三短信集合的短信来说,需要计算其与第四短信集合的短信的第一内容的相似度;
如表1所示,表1中的数字值部分即为相似度矩阵,提取得到的相似度集合为{0.2,0.3,0.2},平均相似度S≈0.234。
表1
Figure 121496DEST_PATH_IMAGE002
步骤S107,提取第三短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第一进制数,将第一进制数转换为10进制获得第二进制数,集合第三短信集合的短信获得的第二进制数得到第一链接集合;
例如对于第二内容“https://dz.cn/LwlrfGj”,去除第二内容中的域名部分之后得到“LwlrfGj”;
步骤S108,提取第四短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第三进制数,将第三进制数转换为10进制获得第四进制数,集合第四短信集合的短信获得的第四进制数得到第二链接集合;
将第一进制数和第二进制数转换为10进制的方法是:
判断第一进制数或第二进制数所使用的计算机进制,然后从其所使用的计算机进制向10进制转换。
判断第一进制数和第二进制数所使用的计算机进制是根据计算机进制的规范所确定的,例如62进制是数字+小写字母+大写字母的组合;
基于计算机进制的规范可能确定的第一进制数或第二进制数所使用的计算机进制可能是多个,例如“LwlrfGk”,由52进制和62进制转换到10进制可能得到“2699244121268”和“739959879578”,“LwlrfGj”,由52进制和62进制转换到10进制可能得到“2699244121267”和“739959879577”;
因此如果基于计算机进制的规范可能确定的第一进制数或第二进制数所使用的计算机进制是多个的情况下统一通过将其从较高的进制向10进制转换,例如判断第一进制数为52进制或62进制,则选择从62进制向10进制转换。
步骤S109,计算第一链接集合和第二链接集合的相关系数R,计算公式如下:
Figure 591792DEST_PATH_IMAGE001
其中di为Xi和Yi之间的等级差,Xi表示第一链接集合中第i个项,Yi表示第二链接集合中第i个项;
Xi的等级是将第一链接集合中的项按照从小到大排序后,这个项所在的位置;Yi的等级是将第二链接集合中的项按照从小到大排序后,这个项所在的位置;其中n为第一链接集合包含的项的数量。
步骤S110,基于平均相似度S和相关系数R计算相关度Q,相关度Q=S+R,如果相关度Q大于设定的相关度阈值则判断第一域名关联的用户异常;如果相关度Q小于或等于设定的相关度阈值则判断第一域名关联的用户不异常。
对于判断为异常的用户可以采用警告的方式进行通知或进一步进行审核。
上述实施例中通过短信包含的域名关联到用户,通过第一域名与恶意域名关联的短信的数据处理来判断第一域名与恶意域名的相关度,处理的数据维度低,并且能够通过短链接生成规则的相似度来避免用户更换域名逃避相似度的检测。
实施例二
如图3所示,区别于实施例一,步骤S104中整理第一短信集合和第二短信集合包括以下步骤:
步骤S201,提取第一短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第五进制数,将第五进制数转换为10进制获得第六进制数;
步骤S202,在第一短信集合中选择获得的第六进制数最小的一个短信作为第一基准短信;
步骤S203,从第一短信集合中删除发送时间在第一基准短信之前的短信;
步骤S204,提取第二短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第七进制数,将第五进制数转换为10进制获得第八进制数;
步骤S205,在第二短信集合中选择获得的第六进制数最小的一个短信作为第二基准短信;
步骤S206,从第二短信集合中删除发送时间在第二基准短信之前的短信;
步骤S207,如果第一短信集合包含的短信的数量M大于N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于M,则删除第二短信集合中部分短信直至M=N;
删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。
上面结合附图对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,在不脱离本实施例宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本实施例的保护之内。

Claims (10)

1.一种基于大数据的短信用户管理方法,其特征在于,包括以下步骤:
步骤S101,提取恶意域名关联的短信的信息;
提取第一域名关联的短信的信息;
提取第一域名关联的用户的信息;
短信的信息包括短信的内容,短信的内容包括第一内容和第二内容,第一内容是指短信的内容中除短链接之外的内容,第二内容是指短信的内容中的短链接;
步骤S102,从第一域名关联的短信中选取其中一个作为第一短信,从第一域名关联的短信中搜索第二短信,第二短信的第二内容与第一短信的第二内容相同,并且第二短信的第一内容与第一短信的第一内容不同;
选择发送时间最接近第一短信的一个第二短信作为第一标记短信;
提取发送时间在第一短信和第一标记短信之间的短信构成第一短信集合;
步骤S103,从恶意域名关联的短信中选取其中一个作为第三短信,第三短信的第一内容与第一短信的第一内容相似度大于设定的第二阈值;
从恶意域名关联的短信中搜索第四短信,第四短信的第二内容与第三短信的第二内容相同,并且第四短信的第一内容与第三短信的第一内容不同;
选择发送时间最接近第三短信的一个第四短信作为第二标记短信;
提取发送时间在第三短信和第二标记短信之间的短信构成第二短信集合;
步骤S104,整理第一短信集合和第二短信集合,使第一短信集合和第二短信集合包含的短信数量一致;
步骤S105,将第一短信集合和第二短信集合中的短信按照发送时间的先后时间进行排序分别获得第三短信集合和第四短信集合;
步骤S106,计算第三短信集合与第四短信集合的短信的第一内容的语义相似度,获得相似度矩阵,相似度矩阵的一个元素以sij表示,sij表示相似度矩阵的第i行第j列的元素,sij表示第i个第三短信集合的短信与第j个第四短信集合的短信的相似度;
从相似度矩阵中每一行中提取最小的值得到相似度集合,基于相似度集合计算平均相似度S;
步骤S107,提取第三短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第一进制数,将第一进制数转换为10进制获得第二进制数,集合第三短信集合的短信获得的第二进制数得到第一链接集合;
步骤S108,提取第四短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第三进制数,将第三进制数转换为10进制获得第四进制数,集合第四短信集合的短信获得的第四进制数得到第二链接集合;
步骤S109,计算第一链接集合和第二链接集合的相关系数R,计算公式如下:
Figure 720623DEST_PATH_IMAGE001
其中di为Xi和Yi之间的等级差,Xi表示第一链接集合中第i个项,Yi表示第二链接集合中第i个项;
Xi的等级是将第一链接集合中的项按照从小到大排序后,这个项所在的位置;Yi的等级是将第二链接集合中的项按照从小到大排序后,这个项所在的位置;其中n为第一链接集合包含的项的数量;
步骤S110,基于平均相似度S和相关系数R计算相关度Q,相关度Q=S+R,如果相关度Q大于设定的相关度阈值则判断第一域名关联的用户异常;如果相关度Q小于或等于设定的相关度阈值则判断第一域名关联的用户不异常。
2.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,用户的信息包括用户的ID。
3.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,步骤S102中,如果第一短信集合中存在重复短信,则只保留重复短信中的一个;
重复短信是指第一内容和第二内容相同的短信。
4.根据权利要求3所述的一种基于大数据的短信用户管理方法,其特征在于,第二短信的第二内容与第一短信的第二内容相同是指第二短信的第二内容与第一短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的。
5.根据权利要求3所述的一种基于大数据的短信用户管理方法,其特征在于,第二短信的第一内容与第一短信的第一内容不同是指第二短信和第一短信的第一内容的相似度低于设定的第一阈值。
6.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,第四短信的第二内容与第三短信的第二内容相同是指第四短信的第二内容与第三短信的第二内容完全相同,也即二者的第二内容包含相同的字符,并且字符的排序也是相同的。
7.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,第四短信的第一内容与第三短信的第一内容不同是指第四短信和第三短信的第一内容的相似度低于设定的第一阈值。
8.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,步骤S104中整理第一短信集合和第二短信集合的方法包括:第一短信集合包含的短信的数量为M,第二短信集合包含的短信的数量为N;
如果第一短信集合包含的短信的数量M大于N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于M,则删除第二短信集合中部分短信直至M=N。
9.根据权利要求8所述的一种基于大数据的短信用户管理方法,其特征在于,删除第一短信集合和第二短信集合中的部分短信是按照发送时间的先后顺序进行删除的。
10.根据权利要求1所述的一种基于大数据的短信用户管理方法,其特征在于,步骤S104中整理第一短信集合和第二短信集合包括以下步骤:
步骤S201,提取第一短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第五进制数,将第五进制数转换为10进制获得第六进制数;
步骤S202,在第一短信集合中选择获得的第六进制数最小的一个短信作为第一基准短信;
步骤S203,从第一短信集合中删除发送时间在第一基准短信之前的短信;
步骤S204,提取第二短信集合的短信的第二内容,并去除第二内容中的域名部分之后得到第七进制数,将第五进制数转换为10进制获得第八进制数;
步骤S205,在第二短信集合中选择获得的第六进制数最小的一个短信作为第二基准短信;
步骤S206,从第二短信集合中删除发送时间在第二基准短信之前的短信;
步骤S207,如果第一短信集合包含的短信的数量M大于第二短信集合包含的短信的数量N,则删除第一短信集合中部分短信直至M=N;
如果第二短信集合包含的短信的数量N大于第一短信集合包含的短信的数量M,则删除第二短信集合中部分短信直至M=N。
CN202210797298.8A 2022-07-08 2022-07-08 一种基于大数据的短信用户管理方法 Active CN114866966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210797298.8A CN114866966B (zh) 2022-07-08 2022-07-08 一种基于大数据的短信用户管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210797298.8A CN114866966B (zh) 2022-07-08 2022-07-08 一种基于大数据的短信用户管理方法

Publications (2)

Publication Number Publication Date
CN114866966A CN114866966A (zh) 2022-08-05
CN114866966B true CN114866966B (zh) 2022-09-06

Family

ID=82626517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210797298.8A Active CN114866966B (zh) 2022-07-08 2022-07-08 一种基于大数据的短信用户管理方法

Country Status (1)

Country Link
CN (1) CN114866966B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115580841B (zh) * 2022-12-05 2023-03-28 安徽创瑞信息技术有限公司 一种降低短信发送延迟的方法
CN116456347B (zh) * 2023-06-16 2023-09-08 安徽创瑞信息技术有限公司 一种终端信息处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024969A (zh) * 2014-04-17 2015-11-04 北京启明星辰信息安全技术有限公司 一种实现恶意域名识别的方法及装置
EP3270549A1 (en) * 2016-07-15 2018-01-17 Bics Sa/Nv A method and device for spam sms detection
CN109698820A (zh) * 2018-09-03 2019-04-30 长安通信科技有限责任公司 一种域名相似性计算及分类方法和系统
CN110019773A (zh) * 2017-08-14 2019-07-16 中国移动通信有限公司研究院 一种垃圾短信检测方法、终端及计算机可读存储介质
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN114554492A (zh) * 2022-01-29 2022-05-27 重庆华唐云树科技有限公司 一种基于大数据识别短信内容中有害信息的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160065534A1 (en) * 2011-07-06 2016-03-03 Nominum, Inc. System for correlation of domain names

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024969A (zh) * 2014-04-17 2015-11-04 北京启明星辰信息安全技术有限公司 一种实现恶意域名识别的方法及装置
EP3270549A1 (en) * 2016-07-15 2018-01-17 Bics Sa/Nv A method and device for spam sms detection
CN110019773A (zh) * 2017-08-14 2019-07-16 中国移动通信有限公司研究院 一种垃圾短信检测方法、终端及计算机可读存储介质
CN109698820A (zh) * 2018-09-03 2019-04-30 长安通信科技有限责任公司 一种域名相似性计算及分类方法和系统
CN110175221A (zh) * 2019-05-17 2019-08-27 国家计算机网络与信息安全管理中心 利用词向量结合机器学习的垃圾短信识别方法
CN114554492A (zh) * 2022-01-29 2022-05-27 重庆华唐云树科技有限公司 一种基于大数据识别短信内容中有害信息的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多特征融合的垃圾短信识别;李润川等;《山东大学学报(理学版)》;20170614(第07期);全文 *

Also Published As

Publication number Publication date
CN114866966A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN114866966B (zh) 一种基于大数据的短信用户管理方法
JP2008538023A (ja) 電子メールを処理する方法およびシステム
US20090028441A1 (en) Method for determining near duplicate data objects
CN103136266A (zh) 邮件分类的方法及装置
US7624274B1 (en) Decreasing the fragility of duplicate document detecting algorithms
CN114885334B (zh) 一种高并发的短信处理方法
Jatana et al. Bayesian spam classification: Time efficient radix encoded fragmented database approach
Liu et al. Content based spam e-mail filtering
US20070208684A1 (en) Information collection support apparatus, method of information collection support, computer readable medium, and computer data signal
CN113591924A (zh) 一种网络诈骗号码检测方法、系统、存储介质及终端设备
US10474700B2 (en) Robust stream filtering based on reference document
Singh et al. Enhancing spam detection on SMS performance using several machine learning classification models
JP5325131B2 (ja) パターン抽出装置、パターン抽出方法及びプログラム
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
US10163005B2 (en) Document structure analysis device with image processing
CN112883704B (zh) 一种大数据相似文本去重预处理方法、装置及终端设备
JP4686724B2 (ja) 迷惑メールのフィルタ機能を有する電子メールシステム
CN108090084A (zh) 一种知识管理方法和系统
CN116263770A (zh) 基于数据库的业务数据存储方法、装置、终端设备及介质
US20110252024A1 (en) System, method, and computer program product for identifying objects as at least potentially unwanted based on strings of symbols
CN112307133A (zh) 安全防护方法、装置、计算机设备及存储介质
CN113590436A (zh) 一种告警方法及装置
CN107180022A (zh) 对象分类方法及装置
CN107688567B (zh) 一种索引存储方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant