CN110019818A - 一种批量注册邮箱的检测方法及装置 - Google Patents

一种批量注册邮箱的检测方法及装置 Download PDF

Info

Publication number
CN110019818A
CN110019818A CN201910113558.3A CN201910113558A CN110019818A CN 110019818 A CN110019818 A CN 110019818A CN 201910113558 A CN201910113558 A CN 201910113558A CN 110019818 A CN110019818 A CN 110019818A
Authority
CN
China
Prior art keywords
email address
model string
vertex
string
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910113558.3A
Other languages
English (en)
Other versions
CN110019818B (zh
Inventor
苗加成
齐翔
章鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910113558.3A priority Critical patent/CN110019818B/zh
Publication of CN110019818A publication Critical patent/CN110019818A/zh
Application granted granted Critical
Publication of CN110019818B publication Critical patent/CN110019818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Character Discrimination (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本说明书实施例提供了一种批量注册邮箱的检测方法及装置,所述检测方法,包括:获得N个邮箱地址,并提取每个所述邮箱地址的前缀,N≥2;对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。本申请通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串之后,采用无监督算法即聚类算法,无需标签数据,即可进行批量注册邮箱的识别。

Description

一种批量注册邮箱的检测方法及装置
技术领域
本说明书实施例涉及计算机通信技术领域,尤其涉及一种批量注册邮箱的检测方法及装置。
背景技术
随着通信技术和计算机技术的快速发展,Internet应用日益广泛,邮箱成为因特网中最重要的信息交流工具。邮箱不仅可以收发电子邮件,传送文件,音乐图片等等,还也可以写信,还可以注册应用软件。黑色产业链利用脚本注册大批量邮箱后,在电商平台的注册、营销和交易环节中利用这些邮箱进行大规模攻击,获取非法利益。
因此,如何识别批量注册邮箱,从而更好的解决对电商平台的注册、营销和交易环节进行攻击、获取非法利益的问题是一个亟待解决的问题。
发明内容
本说明书实施例提供及一种批量注册邮箱的检测方法及装置,解决了如何识别批量注册邮箱的技术问题。
本说明书实施例提供一种批量注册邮箱的检测方法,包括:
获得N个邮箱地址,并提取每个所述邮箱地址的前缀,N≥2;
对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;
对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;
基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
本说明书实施例还提供一种批量注册邮箱的检测装置,包括:
提取单元,用于并提取N个邮箱地址中每个所述邮箱地址的前缀,N≥2;
转换单元,用于对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;
聚类单元,用于对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;
确定单元,用于基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例中,通过提取N个邮箱地址中每个邮箱地址的前缀后,对前缀进行正则化,并按照预设的M种映射规则将每个邮箱地址的前缀转换为K个模式字符串,M、K≥2,然后再对对N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,基于类别信息相同的模式字符串,即可确定N个邮箱地址中的批量注册邮箱,即本申请通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串之后,采用无监督算法即聚类算法,无需标签数据,即可以进行批量注册邮箱的识别,从而更好的解决对电商平台的注册、营销和交易环节进行攻击、获取非法利益的问题。
本说明书实施例中,通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串,使得一个前缀经转换后,可以同时通过多个模式字符串进行表示,从而增加邮箱前缀的覆盖面,便于在多个维度对邮箱进行聚集分析。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1-图3示出了本说明书一个实施例的一种批量注册邮箱的检测方法流程图;
图4示出了本说明书另一个实施例的一种批量注册邮箱的检测装置的示意图;
图5示出了根据本说明书一个实施例的计算机设备的示意图。
具体实施方式
为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细说明,而不是对本说明书技术方案的限定。在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
实施例一
本说明书实施例一提供一种批量注册邮箱的检测方法,如图1-图3所示,所述方法包括如下步骤:
步骤110,获得N个邮箱地址,并提取每个所述邮箱地址的前缀,N≥2。
邮箱地址可以是已经注册成功的邮箱地址,也可以是已申请但未审批的邮箱地址。也就是说,本说明书中的检测方法可以用于检测已经注册成功的邮箱地址是不是批量注册邮箱,也可用于检测正在申请注册的邮箱地址是不是批量注册邮箱。N为大于或等于2的整数,本说明书对邮箱地址的具体个数不做限定,可以是已经注册的所有或者某一预设时间段内注册成功的邮箱地址,也可以是全部或者部分已申请但未审批的邮箱地址。
邮箱的格式通常为“前缀@域名”,如wowo.11111@mail.ru、zozo.11111@bk.ru、alim13k@mail.ru,其中,邮箱地址的前缀分别为wowo.11111、zozo.11111、alim13k。也就是说,提取邮箱地址的前缀可以是去除邮箱地址中的@和域名,也可以提取邮箱地址@之前的字符串。
在本实施方式中,为了减小计算的数据量,在进入步骤120之前,检测方法还包括:将N个邮箱地址的前缀中相同的前缀去重。假如N个邮箱地址包括wowo.11111@bk.ru、wowo.11111@mail.ru、wowo.11111@mail.ru、alim47k@mail.ru、alim47k@yandex.ru、zozo.11111@bk.ru这6个邮箱地址,在经过步骤110提取每个邮箱地址的前缀后,获得如下前缀:wowo.11111、wowo.11111、wowo.11111、alim47k、alim47k、zozo.11111,由获得的前缀可知,有3个一样的前缀wowo.11111,有2个一样的前缀alim47k,在对该6个前缀中相同的前缀去重,获得的前缀为wowo.11111、alim47k、zozo.11111。
在其它实施方式中,在获得邮箱地址的前缀后,直接进入步骤120,
步骤120,对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2。
对每个邮箱地址的前缀进行正则化,就是按照一定的规则表达每个邮箱地址的前缀。具体地,在本实施方式中,对每个邮箱地址的前缀进行正则化,包括:将每个邮箱地址的前缀按照前后顺序进行字符串分割,分割获得的每个子字符串只包含连续数字、连续字母和特殊字符中的一种。
特殊字符指的是邮箱地址的前缀中允许出现的字符中除数字和字母外的其它字符,如现在通常的邮箱服务器中,邮箱地址的前缀中除了允许出现的字母和数字外,还允许出现'-'、'.'、'_',这里的'-'、'.'、'_'都是特殊字符,但特殊字符并不仅限于上述字符。
以下进行字符串分割说明,每个邮箱地址的前缀可以分割为一个或者多个子字符串str_{1,...,k},如对前缀为abc.123_abc按照前后顺序进行分割,分割为['abc','.','123','_','abc],其中'abc'、'.'、'123'、'_'、'abc中的每个部分都被称作子字符串。
在分割完成后,按照预设的多种映射规则将每个前缀转换为多个模式字符串。这里特别强调每个前缀按照多种映射规则进行转换,获得多个模式字符串,使得一个前缀经转换后,同时通过多个模式字符串进行表示。
如果只是将每个邮箱地址的前缀转换为一个模式字符串,那只能在一个维度对邮箱地址进行聚集,但实际的采用脚本注册的邮箱,聚集的维度事先我们是不知道的,因此,可以通过将每个前缀转换为多个模式字符串,从而能通过多种模式去识别批量注册邮箱,便于在多个维度对邮箱进行聚集分析,提高批量注册邮箱的识别率。
具体地,字母、数字、特殊字符的映射规则分别如下:
a、将只包含连续字母的子字符串映射为第一预设字符加子字符串所包含的字母个数的子模式,或者,映射为第一预设字符的子模式,或者,映射为用连续字母本身代替的子模式。
第一预设字符可以为字母、数字或者特殊符号等,在本实施方式中,第一预设字符为'[a-z]',在其它实施方式中,可以采用其它字符进行代替。另外,在本实施方式中,子字符串所包含的字母个数采用'{d}',d=len(str_i)。将只包含连续字母的子字符串可以映射为上述3种模式,也可以映射为上述3种模式中的一种或者两种模式,或设置更多的映射模式,具体可以根据需要进行设置。
在本实施例中,将只包含连续字母的子字符串具体映射为('[a-z]{d}',d=len(str_i))、('[a-z]+')和(str_i)三种子模式进行举例说明。以前述的只包含连续字母的子字符串'abc'为例进行说明,采用本实施例的映射方式,可以将子字符串'abc'可以映射为'[a-z]{3}'、'[a-z]+'、'abc'三种子模式。
b、将只包含连续数字的子字符串映射为第二预设字符加字符串所包含的数字个数的子模式,或者,映射为第二预设字符的子模式,或者,映射为用连续数字本身代替的子模式。
第二预设字符可以为字母、数字或者特殊符号等,在本实施方式中,第二预设字符为'[0-9]',在其它实施方式中,可以采用其它字符进行代替。另外,在本实施方式中,子字符串所包含的字母个数采用'{d}',d=len(str_i)。将只包含连续数字的子字符串可以映射为上述3种模式,也可以映射为上述3种模式中的一种或者两种模式,或设置更多的映射模式,具体可以根据需要进行设置。
在本实施例中,将只包含连续数字的子字符串映射为('[0-9]{d}',d=len(str_i))、('[0-9]+')和(str_i)三种子模式为例进行举例说明。以前述的只包含连续数字的子字符串'123'为例进行说明,采用本实施例的映射方式,可以将子字符串'123'可以映射为'[0-9]{3}'、'[0-9]+'、'123'三种子模式。
c、将只包含特殊字符的子字符串映射为用特殊字符本身代替的子模式。
在本实施例中,采用特殊字符本身代替,也就是说,将只包含特殊字符的子字符串映射为(str_i)的子模式。在其它实施方式中,也可以将只包含特殊字符的子字符串映射为第三预设字符的子模式或者其它子模式,第三预设字符不包括特殊字符本身。
本说明书实施例字母、数字、特殊字符的映射规则如表1。
表1本说明书实施例字母、数字、特殊字符的映射规则
在前缀分割出的所有子字符串映射为子模式后,将每个邮箱地址的前缀包含的子字符串映射获得的子模式按前后顺序合并,生成K个模式字符串。K的取值由邮箱地址前缀中子字符串的映射模式数目决定。
以邮箱地址的前缀wowo.11111为例进行说明。如在本实施例中,将只包含连续字母的子字符串映射为('[a-z]{d}',d=len(str_i))、('[a-z]+')和(str_i)三种子模式,将只包含连续数字的子字符串映射为('[0-9]{d}',d=len(str_i))、('[0-9]+')和(str_i)三种子模式,将只包含特殊字符的子字符串映射为(str_i)的子模式。wowo.11111可以分割为3个子字符串,分别为'wowo'、'.'、'11111',其中,'wowo'可以映射为[a-z]{4}、[a-z]+'、wowo三种,'.'映射为'.'一种,'11111'映射为[0-9]{5}、[0-9]+'、11111三种。按照前后顺序合并,可生成8中模式字符串,具体如表2:
表2邮箱地址的前缀wowo.11111生成的8个模式字符串
邮箱地址前缀 wowo.11111
模式字符串1 [a-z]{4}.(11111)
模式字符串2 [a-z]+.(11111)
模式字符串3 [a-z]{4}.[0-9]{5}
模式字符串4 [a-z]+.[0-9]{5}
模式字符串5 [a-z]{4}.[0-9]+
模式字符串6 [a-z]+.[0-9]+
模式字符串7 (wowo).[0-9]{5}
模式字符串8 (wowo).[0-9]+
在本实施方式中,步骤120的具体执行过程如下:
(concat函数将若干字符串按照从左至右顺序连接成一个字符串)
end for
end for
fun_1:如果str_i是连续字母,str_map_i='[a-z]{d}',d=len(str_i)
如果str_i是连续数字,str_map_i=(str_i)
如果str_i是特殊字符,str_map_i=str_i
fun_2:如果str_i是连续字母,str_map_i='[a-z]+'
如果str_i是连续数字,str_map_i=(str_i)
如果str_i是特殊字符,str_map_i=str_i
fun_3:如果str_i是连续字母,str_map_i='[a-z]{d}',d=len(str_i)
如果str_i是连续数字,str_map_i='[0-9]{d}',d=len(str_i)
如果str_i是特殊字符,str_map_i=str_i
fun_4:如果str_i是连续字母,str_map_i='[a-z]+'
如果str_i是连续数字,str_map_i='[0-9]{d}',d=len(str_i)
如果str_i是特殊字符,str_map_i=str_i
fun_5:如果str_i是连续字母,str_map_i='[a-z]{d}',d=len(str_i)
如果str_i是连续数字,str_map_i='[0-9]+'
如果str_i是特殊字符,str_map_i=str_i
fun_6:如果str_i是连续字母,str_map_i='[a-z]+'
如果str_i是连续数字,str_map_i='[0-9]+'
如果str_i是特殊字符,str_map_i=str_i
fun_7:如果str_i是连续字母,str_map_i=(str_i)
如果str_i是连续数字,str_map_i='[0-9]{d}',d=len(str_i)
如果str_i是特殊字符,str_map_i=str_i
fun_8:如果str_i是连续字母,str_map_i=(str_i)
如果str_i是连续数字,str_map_i='[0-9]+'
如果str_i是特殊字符,str_map_i=str_i
在本实施方式中,为了简化邮箱地址的前缀与模式字符串之间的连接关系,在获得模式字符串之后,方法还包括:将所述N个邮箱地址的前缀生成的所有的模式字符串中相同的模式字符串去重。在去除重复的模式字符串之后,再进入步骤130。在其它实施方式中,在获得模式字符串之后,可直接进入步骤130。
步骤130,对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息。
聚类是一种无监督的学习算法,这里的聚类处理是指:将模式字符串的集合分组为由类似的模式字符串组成的多个类的处理过程。由聚类所生成的簇是一组模式字符串的集合,这些模式字符串与同一个簇中的模式字符串彼此相似,与其他簇中的模式字符串相异。具体可以采用最大连通子图、K-core,Louvain等算法,本实施例以采用最大连通子图的方式为例进行详细说明。
在详细说明之前,首先介绍类别信息,类别信息表示每个模式字符串的类别,如设置为1、2、3或,a、b、c均可,这个类别信息只是一个类别标记,并不表示任何该类别的特征信息。在对所有的模式字符串进行聚类处理后,将所有的模式字符串分为多个类,定义出多个类的id,如1、2、3等,其中“1”、“2”、“3”即为类别信息,每个类的模式字符串的类别信息相同,即通过聚类将相同或者相近似的模式字符串聚为同一类,设置为类别信息相同,该类的所有模式字符串对应的邮箱地址为批量注册邮箱。
在实际使用的过程中,用户也会采用一些通用的格式如手机号码、qq号码等作为邮箱地址的前缀,为了降低该等前缀被识别为批量注册邮箱的几率,采用如下方法。具体地,对N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,包括以下步骤:
获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;
对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息。
预设范围可以根据需要进行设置,如上述提到的通用格式,采用通用格式申请邮箱地址的情况很多,则可以设定一上限值,在一个模式字符串对应的邮箱地址的数目大于预设值时,可将该模式字符串去除,即降低将通用格式申请的邮箱地址的概率。
另外,批量注册邮箱即有“一批”注册的邮箱,何为“一批”,可通过预设范围去定义,如设定一下限值,在一个模式字符串对应的邮箱地址数目达到该下限值时,才进行后续批量识别的处理。
在本实施方式中,可通过二部图(bipartite graph)的方式去除模式字符串,具体地,所述获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息,具体包括:
步骤131,基于所述N个邮箱地址、所有的模式字符串以及每个邮箱地址与每个模式字符串之间的映射关系构建二部图,其中,所述二部图的顶点u表示邮箱地址、所述二部图的顶点v表示模式字符串,所述二部图的边表示邮箱地址与模式字符串之间的映射关系。
即,二部图是以每个邮箱地址作为一个顶点u,每个模式字符串作为一个顶点v,在顶点ui所代表的邮箱地址生成的模式字符串含有顶点vj所代表的模式字符串时,顶点ui和顶点vj通过边连接,顶点ui为顶点u中的任一顶点,顶点vj为顶点v中的任一顶点。
步骤132,去除边的数目大于t1或小于t2的顶点v,所述t1大于所述t2,所述t2为大于等于0正整数。所述t1和t2可以根据需要进行设置,具体设置数值不做限定。
分别计算与每个顶点v连接的边的数目,在一个顶点v连接的边的数目大于一预设上限值t1或低于一预设下限值t2时,去除该顶点v。在一个顶点v连接的边的数目大于一预设上限值t1时表明:该顶点v所代表的模式字符串对应的邮箱地址太多,可能属于用户的通用的格式,因此,为了不将通用的格式注册的邮箱地址识别为批量注册邮箱,则将该顶点v去除。在一个顶点v连接的边的数目低于一预设下限值t2时表明:与该顶点v表示的模式字符串对应的邮箱地址数量太少,不满足批量的要求。通过去除顶点v中连接的边的数目大于上限或小于下限的顶点后,会使得识别结果更为准确。
步骤133,对所述二部图中剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息。
在去除顶点v中连接的边的数目大于上限或小于下限的顶点后,对剩余的顶点v表示的模式字符串进行聚类处理,将剩余的顶点v表示的模式字符串的集合分组为由类似的模式字符串组成的多个类,基于多个类,设置每个类的类名(即类别信息),从而获得每个模式字符串的类别信息,类别信息表示将模式字符串归为多个类中的那个类。
在本实施方式中,采用最大连通子图的聚类方式对剩余的顶点v表示的模式字符串进行聚类处理。具体地,对剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息,包括:
步骤1331,基于所述顶点u和剩余的顶点v以及所述顶点u和剩余的顶点v之间映射关系,生成多个最大连通子图。
顶点u和剩余的顶点v之间映射关系指的是:顶点u中某一顶点ui所表示的邮箱地址的前缀生成的模式字符串是否包含的剩余的顶点v中某一顶点vj表示的模式字符串;若包含,则表明顶点ui和顶点vj之间有映射关系,顶点ui和顶点vj通过边连接;若不包含,则表明顶点ui和顶点vj之间无映射关系。顶点ui为顶点u中的任一顶点,顶点vj为顶点v中的任一顶点。
如果一个无向图中任意两点都是连通的,则这个无向图被称作连通图。如果一个无向图按照顶点划分为若干子图,每个子图是连通图,子图之间不连通,则每个子图称为该无向图的最大连通子图。生成最大连通子图后,进入步骤1331。
步骤1332,确定每个最大连通子图中顶点v表示的模式字符串的类别信息相同。
每个最大连通子图中的模式字符串为相同或相近似的模式字符串,将每个最大连通子图中顶点v代表的模式字符串的类别信息定义为相同的类别信息。在确定完成类别信息后,进入步骤140。
步骤140,基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
在确定类别信息相同的模式字符串之后,基于类别信息相同的每个模式字符串,获取前缀转换后的模式字符串包含该类别信息相同的每个模式字符串的所有邮箱地址,确定该等邮箱地址为一批量注册邮箱。
具体地,在采用最大连通子图的聚类方式时,基于类别信息相同的模式字符串,确定N个邮箱地址中的批量注册邮箱,包括:
步骤1333,确定每个最大连通子图中的所有顶点u表示的邮箱地址为同一批量注册邮箱。
基于每个最大连通子图中顶点v代表的模式字符串的类别信息为相同的类别信息,即可确定每个最大连通子图中顶点u代表的邮箱地址为同一批量注册邮箱。
本说明书实施例中,通过提取N个邮箱地址中每个邮箱地址的前缀后,对前缀进行正则化,并按照预设的M种映射规则将每个邮箱地址的前缀转换为K个模式字符串,M、K≥2,然后再对对N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,基于类别信息相同的模式字符串,即可确定N个邮箱地址中的批量注册邮箱,即本申请通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串之后,采用无监督算法即聚类算法,无需标签数据,即可以进行批量注册邮箱的识别,从而更好的解决对电商平台的注册、营销和交易环节进行攻击、获取非法利益的问题。
本说明书实施例中,通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串,使得一个前缀经转换后,可以同时通过多个模式字符串进行表示,从而增加邮箱前缀的覆盖面,便于在多个维度对邮箱进行聚集分析。
实施例二
基于同样的发明构思,本申请还提供一种批量注册邮箱的检测装置,如图4所示,所述检测装置包括:
提取单元410,用于并提取N个邮箱地址中每个所述邮箱地址的前缀,N≥2;
转换单元420,用于对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;
聚类单元430,用于对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;
确定单元440,用于基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
可选的,所述聚类单元430具体用于:
获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;
对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息。
可选的,所述聚类单元430具体用于:
基于所述N个邮箱地址、所有的模式字符串以及每个邮箱地址与每个模式字符串之间的映射关系构建二部图;其中,所述二部图的顶点u表示邮箱地址、所述二部图的顶点v表示模式字符串,所述二部图的边表示邮箱地址与模式字符串之间的映射关系;
去除边的数目大于t1或小于t2的顶点v,所述t1大于所述t2,所述t2为大于等于0正整数;
对剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息。
可选的,所述聚类单元430具体用于:基于所述顶点u和剩余的顶点v以及所述顶点u和剩余的顶点v之间映射关系,生成多个最大连通子图;确定每个最大连通子图中顶点v表示的模式字符串的类别信息相同;
所述确定单元具体用于:确定每个最大连通子图中的所有顶点u表示的邮箱地址为同一批量注册邮箱。
可选的,所述转换单元420具体用于:将每个所述邮箱地址的前缀按照前后顺序进行字符串分割,分割获得的每个子字符串只包含连续数字、连续字母和特殊字符中的一种。
可选的,所述转换单元420还具体用于:
将只包含连续字母的子字符串映射为第一预设字符加子字符串所包含的字母个数的子模式,或者,映射为第一预设字符的子模式,或者,映射为用连续字母本身代替的子模式;
将只包含连续数字的子字符串映射为第二预设字符加字符串所包含的数字个数的子模式,或者,映射为第二预设字符的子模式,或者,映射为用连续数字本身代替的子模式;
将只包含特殊字符的子字符串映射为用特殊字符本身代替的子模式;
将每个邮箱地址的前缀包含的子字符串映射获得的子模式按前后顺序合并,生成所述K个模式字符串。
本说明书实施例中,通过提取N个邮箱地址中每个邮箱地址的前缀后,对前缀进行正则化,并按照预设的M种映射规则将每个邮箱地址的前缀转换为K个模式字符串,M、K≥2,然后再对对N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,基于类别信息相同的模式字符串,即可确定N个邮箱地址中的批量注册邮箱,即本申请通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串之后,采用无监督算法即聚类算法,无需标签数据,即可以进行批量注册邮箱的识别,从而更好的解决对电商平台的注册、营销和交易环节进行攻击、获取非法利益的问题。
本说明书实施例中,通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串,使得一个前缀经转换后,可以同时通过多个模式字符串进行表示,从而增加邮箱前缀的覆盖面,便于在多个维度对邮箱进行聚集分析。
实施例三
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
实施例四
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图5所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文任一所述方法的步骤。
其中,在图5中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
通过本说明书的一个或者多个实施例,本说明书具有以下有益效果或者优点:
本说明书实施例中,通过提取N个邮箱地址中每个邮箱地址的前缀后,对前缀进行正则化,并按照预设的M种映射规则将每个邮箱地址的前缀转换为K个模式字符串,M、K≥2,然后再对对N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,基于类别信息相同的模式字符串,即可确定N个邮箱地址中的批量注册邮箱,即本申请通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串之后,采用无监督算法即聚类算法,无需标签数据,即可以进行批量注册邮箱的识别,从而更好的解决对电商平台的注册、营销和交易环节进行攻击、获取非法利益的问题。
本说明书实施例中,通过将每个前缀按照多种映射规则进行转换,获得多个模式字符串,使得一个前缀经转换后,可以同时通过多个模式字符串进行表示,从而增加邮箱前缀的覆盖面,便于在多个维度对邮箱进行聚集分析。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (16)

1.一种批量注册邮箱的检测方法,包括:
获得N个邮箱地址,并提取每个所述邮箱地址的前缀,N≥2;
对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;
对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;
基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
2.根据权利要求1所述的方法,所述对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息,包括:
获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;
对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息。
3.根据权利要求2所述的方法,所述获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息,包括:
基于所述N个邮箱地址、所有的模式字符串以及每个邮箱地址与每个模式字符串之间的映射关系构建二部图;其中,所述二部图的顶点u表示邮箱地址、所述二部图的顶点v表示模式字符串,所述二部图的边表示邮箱地址与模式字符串之间的映射关系;
去除边的数目大于t1或小于t2的顶点v,所述t1大于所述t2,所述t2为大于等于0正整数;
对剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息。
4.根据权利要求3所述的方法,所述对剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息,包括:
基于所述顶点u和剩余的顶点v以及所述顶点u和剩余的顶点v之间映射关系,生成多个最大连通子图;
确定每个最大连通子图中顶点v表示的模式字符串的类别信息相同;
所述基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱,包括:
确定每个最大连通子图中的所有顶点u表示的邮箱地址为同一批量注册邮箱。
5.根据权利要求1所述的方法,所述对每个所述邮箱地址的前缀进行正则化,包括:
将每个所述邮箱地址的前缀按照前后顺序进行字符串分割,分割获得的每个子字符串只包含连续数字、连续字母和特殊字符中的一种。
6.根据权利要求5所述的方法,所述按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,包括:
将只包含连续字母的子字符串映射为第一预设字符加子字符串所包含的字母个数的子模式,或者,映射为第一预设字符的子模式,或者,映射为用连续字母本身代替的子模式;
将只包含连续数字的子字符串映射为第二预设字符加字符串所包含的数字个数的子模式,或者,映射为第二预设字符的子模式,或者,映射为用连续数字本身代替的子模式;
将只包含特殊字符的子字符串映射为用特殊字符本身代替的子模式;
将每个邮箱地址的前缀包含的子字符串映射获得的子模式按前后顺序合并,生成所述K个模式字符串。
7.根据权利要求1所述的方法,在所述对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息之前,所述方法还包括:
将所有的模式字符串中相同的模式字符串去重。
8.根据权利要求1所述的方法,在所述对每个所述邮箱地址的前缀进行正则化之前,所述方法还包括:
将所述N个邮箱地址的前缀中相同的前缀去重。
9.一种批量注册邮箱的检测装置,包括:
提取单元,用于并提取N个邮箱地址中每个所述邮箱地址的前缀,N≥2;
转换单元,用于对每个所述邮箱地址的前缀进行正则化,并按照预设的M种映射规则将每个所述邮箱地址的前缀转换为K个模式字符串,M、K≥2;
聚类单元,用于对所述N个邮箱地址转换获得的模式字符串进行聚类处理,获得每个模式字符串的类别信息;
确定单元,用于基于所述类别信息相同的模式字符串,确定所述N个邮箱地址中的批量注册邮箱。
10.根据权利要求9所述的装置,所述聚类单元具体用于:
获得所述N个邮箱地址转换获得的模式字符串中每个模式字符串在所述N个邮箱地址中对应的邮箱地址数n,去除n在预设范围内的模式字符串;
对剩余的模式字符串进行聚类处理,获得每个模式字符串的类别信息。
11.根据权利要求10所述的装置,所述聚类单元具体用于:
基于所述N个邮箱地址、所有的模式字符串以及每个邮箱地址与每个模式字符串之间的映射关系构建二部图;其中,所述二部图的顶点u表示邮箱地址、所述二部图的顶点v表示模式字符串,所述二部图的边表示邮箱地址与模式字符串之间的映射关系;
去除边的数目大于t1或小于t2的顶点v,所述t1大于所述t2,所述t2为大于等于0正整数;
对剩余的顶点v表示的模式字符串进行聚类处理,获得剩余的顶点v中每个顶点v表示的模式字符串的类别信息。
12.根据权利要求11所述的装置,所述聚类单元具体用于:
基于所述顶点u和剩余的顶点v以及所述顶点u和剩余的顶点v之间映射关系,生成多个最大连通子图;
确定每个最大连通子图中顶点v表示的模式字符串的类别信息相同;
所述确定单元具体用于:
确定每个最大连通子图中的所有顶点u表示的邮箱地址为同一批量注册邮箱。
13.根据权利要求9所述的装置,所述转换单元具体用于:
将每个所述邮箱地址的前缀按照前后顺序进行字符串分割,分割获得的每个子字符串只包含连续数字、连续字母和特殊字符中的一种。
14.根据权利要求13所述的装置,所述转换单元还具体用于:
将只包含连续字母的子字符串映射为第一预设字符加子字符串所包含的字母个数的子模式,或者,映射为第一预设字符的子模式,或者,映射为用连续字母本身代替的子模式;
将只包含连续数字的子字符串映射为第二预设字符加字符串所包含的数字个数的子模式,或者,映射为第二预设字符的子模式,或者,映射为用连续数字本身代替的子模式;
将只包含特殊字符的子字符串映射为用特殊字符本身代替的子模式;
将每个邮箱地址的前缀包含的子字符串映射获得的子模式按前后顺序合并,生成所述K个模式字符串。
15.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-8任一项所述方法的步骤。
CN201910113558.3A 2019-02-14 2019-02-14 一种批量注册邮箱的检测方法及装置 Active CN110019818B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910113558.3A CN110019818B (zh) 2019-02-14 2019-02-14 一种批量注册邮箱的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910113558.3A CN110019818B (zh) 2019-02-14 2019-02-14 一种批量注册邮箱的检测方法及装置

Publications (2)

Publication Number Publication Date
CN110019818A true CN110019818A (zh) 2019-07-16
CN110019818B CN110019818B (zh) 2024-01-16

Family

ID=67188994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910113558.3A Active CN110019818B (zh) 2019-02-14 2019-02-14 一种批量注册邮箱的检测方法及装置

Country Status (1)

Country Link
CN (1) CN110019818B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726822A (zh) * 2020-02-10 2022-07-08 完美世界控股集团有限公司 一种用于电子邮箱地址生成的方法与设备
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112952A1 (en) * 2013-10-17 2015-04-23 Wistron Corporation Method of data sorting
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置
CN109063966A (zh) * 2018-07-03 2018-12-21 阿里巴巴集团控股有限公司 风险账户的识别方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112952A1 (en) * 2013-10-17 2015-04-23 Wistron Corporation Method of data sorting
CN105991620A (zh) * 2015-03-05 2016-10-05 阿里巴巴集团控股有限公司 恶意账户识别方法及装置
CN109063966A (zh) * 2018-07-03 2018-12-21 阿里巴巴集团控股有限公司 风险账户的识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方勇 等: "基于层次聚类的虚假用户检测", 《清华大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726822A (zh) * 2020-02-10 2022-07-08 完美世界控股集团有限公司 一种用于电子邮箱地址生成的方法与设备
CN114726822B (zh) * 2020-02-10 2023-10-20 完美世界控股集团有限公司 一种用于电子邮箱地址生成的方法与设备
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN110019818B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN111144370B (zh) 单据要素抽取方法、装置、设备及存储介质
WO2008098956A1 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
CN107784063B (zh) 算法的生成方法及终端设备
CN109376731A (zh) 一种文字识别方法和装置
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
RU2768233C1 (ru) Нечеткий поиск с использованием форм слов для работы с большими данными
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
CN109241455B (zh) 一种推荐对象的展示方法及装置
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
CN108280197A (zh) 一种识别同源二进制文件的方法及系统
CN113343012B (zh) 一种新闻配图方法、装置、设备及存储介质
CN115344504A (zh) 基于需求规格说明书的软件测试用例自动生成方法及工具
CN113408660B (zh) 图书聚类方法、装置、设备和存储介质
CN114238746A (zh) 跨模态检索方法、装置、设备及存储介质
CN111898378B (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN110019821A (zh) 文本类标训练方法和识别方法、相关装置及存储介质
CN110019818A (zh) 一种批量注册邮箱的检测方法及装置
CN107368500A (zh) 数据抽取方法及系统
CN113343109A (zh) 榜单推荐方法、计算设备及计算机存储介质
JP2019128925A (ja) 事象提示システムおよび事象提示装置
CN112862020A (zh) 一种数据识别方法、装置及存储介质
CN110427496B (zh) 用于文本处理的知识图谱扩充方法及装置
CN107656927A (zh) 一种特征选择方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant