CN108683749A - 一种随机邮箱地址的判断方法、设备和介质 - Google Patents

一种随机邮箱地址的判断方法、设备和介质 Download PDF

Info

Publication number
CN108683749A
CN108683749A CN201810480928.2A CN201810480928A CN108683749A CN 108683749 A CN108683749 A CN 108683749A CN 201810480928 A CN201810480928 A CN 201810480928A CN 108683749 A CN108683749 A CN 108683749A
Authority
CN
China
Prior art keywords
email address
judged
length
address
target sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810480928.2A
Other languages
English (en)
Other versions
CN108683749B (zh
Inventor
刘晓红
唐明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN201810480928.2A priority Critical patent/CN108683749B/zh
Publication of CN108683749A publication Critical patent/CN108683749A/zh
Application granted granted Critical
Publication of CN108683749B publication Critical patent/CN108683749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2101/00Indexing scheme associated with group H04L61/00
    • H04L2101/30Types of network names
    • H04L2101/37E-mail addresses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种随机邮箱地址的判断方法、设备和介质,获取待判断邮箱地址,确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列,将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的,其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:所述待判断邮箱地址是随机邮箱地址;所述待判断邮箱地址非随机邮箱地址。本申请对帮助企业识别欺诈订单、控制相关风险具有积极的作用。

Description

一种随机邮箱地址的判断方法、设备和介质
技术领域
本申请涉及计算机领域,具体涉及一种随机邮箱地址的判断技术。
背景技术
随着电子商务的发展,用户体验得到越来越多的重视,很多企业也不断为了提供更便捷、更优质的服务而努力。然而,企业良好的服务有时也会给欺诈用户带来可乘之机。例如,当用户在网页上提交订单时,提供服务的企业往往会要求用户提供一些个人信息(例如联系人手机号码、姓名、电子邮箱地址等),以便联系用户并确认订单信息。其中,就用户填写的邮箱地址而言,部分欺诈用户所填写的电子邮箱地址是随机敲击键盘填写的随机邮箱地址,而正常用户则会填写真实有效的邮箱地址。
发明内容
针对现有技术中的问题,本申请的目的在于提供一种用于判断邮箱地址是随机邮箱地址的技术。
根据本申请的一个方面,提供了一种随机邮箱地址的判断方法,包括:
a获取待判断邮箱地址;
b确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
c将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
根据本申请的一个实施例,所述步骤b包括:
若所述待判断邮箱地址中的字符所组成的第一序列的长度大于或等于一目标长度,确定所述第一序列的一个子序列为目标序列;
若所述第一序列的长度小于或等于所述目标长度,基于所述第一序列及预设填充元素确定目标序列;
其中所述目标序列的长度为目标长度。
根据本申请的一个实施例,所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符。
根据本申请的一个实施例,所述步骤b包括:
基于所述待判断邮箱地址及预设填充元素确定长度为第一长度的第二序列;
确定所述第二序列的一个子序列为目标序列,其中所述目标序列的长度为目标长度;
其中所述第一长度大于所述目标长度。
根据本申请的一个实施例,所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符。
根据本申请的一个实施例,所述步骤b包括:
对所述待判断邮箱地址进行预处理,并确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
其中所述对所述待判断邮箱地址进行预处理包括:
遍历所述待判断邮箱地址中的字符,并将其中的大写字母分别替换为相应的小写字母。
根据本申请的一个实施例,所述步骤b包括:
确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列。
根据本申请的一个实施例,所述步骤b包括:
b1基于所述邮箱地址的域名部分判断所述邮箱地址是否满足预处理条件;
b2若所述邮箱地址满足所述预处理条件,确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列。
根据本申请的一个实施例,所述步骤b1包括:
向域名数据库设备发送关于所述邮箱地址的域名部分的查询请求;
接收所述域名数据库设备基于所述查询请求返回的查询结果;
若所述查询结果包括命中,判断所述邮箱地址满足预处理条件,否则判断所述邮箱地址不满足所述预处理条件。
根据本申请的一个实施例,所述地址判断模型包括至少两个长短时记忆网络,其中一个长短时记忆网络的输入为另一个长短时记忆网络的输出。
根据本申请的另一个方面,提供了一种随机邮箱地址的判断设备,包括:
处理器;以及
被配置为存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
根据本申请的又一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使系统执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
本申请基于长短时记忆网络(Long Short Term Memory networks,LSTMs)判断用户所输入的邮箱地址是否随机邮箱地址,判断结果可作为相应订单是否欺诈订单的重要参考信息,对帮助企业识别欺诈订单、控制相关风险具有积极的作用。其中,本申请通过判断用户所填写的邮箱地址中字符的前后关联性,克服了一般的神经网络输入、输出相独立的问题,根据待判断的邮箱地址本身即可完成其是否为随机邮箱地址的判断。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1示出根据本申请一个实施例的随机邮箱地址的判断方法的流程;
图2示出邮箱地址长度的分布比例;
图3示出根据本申请一个实施例的损失函数的图形;
图4示出根据本申请一个实施例的随机邮箱地址的判断设备的结构;
图5示出一种计算机可读介质。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
以下以一种随机邮箱地址的判断设备为例,详细描述本申请所提供的随机邮箱地址的判断方法。其中,所述判断设备为一种计算设备,包括但不限于任何一种可与用户进行人机交互的电子设备,例如智能手机、平板电脑、个人电脑等。
根据本申请的一个方面,提供了一种随机邮箱地址的判断方法,该方法包括步骤S100、步骤S200和步骤S300。参照图1,在步骤S100中,判断设备获取待判断邮箱地址;在步骤S200中,判断设备确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;在步骤S300中,判断设备将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的。其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:所述待判断邮箱地址是随机邮箱地址;所述待判断邮箱地址非随机邮箱地址。其中,长短时记忆网络(Long Short TermMemory networks,LSTMs)与通常的循环神经网络(Recurrent Neural Networks,RNNs)结构大致类似,通过三个门(输入门、遗忘门、输出门)和相应步骤控制信息的增加、删除和修改并输出。
具体而言,在步骤S100中,判断设备基于用户的输入,获取待判断邮箱地址,例如在用户提交订单时通过采集表单信息取得用户填入的邮箱地址。
随后在步骤S200中,判断设备基于以上所获得的待判断邮箱地址,确定一个长度为目标长度的序列(称为目标序列),对待判断邮箱地址是否随机邮箱地址的判断基于该序列进行。其中,所述目标长度可根据实际需要指定,例如基于处理效率和精度的考量确定。此外,目标序列的内容与待判断邮箱地址也是对应的;在某些实施例中,目标序列中的元素依序取自待判断邮箱地址,例如目标序列基于待判断邮箱地址中的字母序列、字符序列等建立,但是本申请并不限于此。
在步骤S300中,判断设备将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的。例如,目标向量中的每个元素均分别对应于待判断邮箱地址中的一个字符。以上所述的地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:所述待判断邮箱地址是随机邮箱地址,或者所述待判断邮箱地址非随机邮箱地址。例如,基于地址判断模型确定待判断邮箱地址是随机邮箱的概率(例如地址判断模型的输出是一个0至1之间的概率),当该概率大于选定的阈值则待判断邮箱地址是随机邮箱地址;反之,待判断邮箱地址非随机邮箱地址。
为便于系统对待判断邮箱地址进行处理,可先对待判断邮箱地址进行一些处理。
在一些实施例中,步骤S200包括子步骤S201和子步骤S202(均未示出)。在子步骤S201中,若所述待判断邮箱地址中的字符所组成的第一序列的长度大于或等于一目标长度,判断设备确定所述第一序列的一个子序列为目标序列;在子步骤S202中,若所述第一序列的长度小于或等于所述目标长度,判断设备基于所述第一序列及预设填充元素确定目标序列。其中,优选地,在一些实施例中,所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符。例如,当待判断邮箱地址较长、其中的字符数超过了一个预定的目标长度(例如26个字符)时,若基于整个待判断邮箱地址中的所有字符构造目标序列,则目标序列的长度过长,此时可采用由该待判断邮箱地址中的26个字符构成的子序列作为目标序列;优选地,在一个实施例中,上述子序列中的第一个元素对应于待判断邮箱地址中的第一个字符,或者可以理解为采用基于整个待判断邮箱地址中的所有字符构造的序列(可称为第一序列)中的前26个元素构成的子序列作为目标序列,从而保持待判断邮箱地址的判断精度。又例如,当待判断邮箱地址较短、其中的字符数没有达到预定的目标长度(例如26个字符)时,若仅仅基于待判断邮箱地址中的所有字符构造目标序列,则目标序列的长度过短,在大批量处理待判断邮箱地址时会严重降低处理效率,为克服这个问题、提高系统效能,可采用预设的填充元素(例如采用空字节、空格等对应的元素作为填充元素)填充待判断邮箱地址的长度不足的部分,构造长度为26个元素的目标序列。
需要注意的是,目标序列中的元素之间的顺序关系,应当与原来待判断邮箱地址中的相应字符的顺序相一致;从而,对目标序列(或者其子序列)中的元素的随机性的判断可映射为对相应字符组合的随机性的判断,进而基于目标序列中的元素判断待判断邮箱地址是否随机邮箱地址。其中,上述目标序列的长度,指的是目标序列中元素的个数。在一些实施例中,目标序列中的每个元素并非直接采用待判断邮箱地址中的相应字符,而是对相应字符进行编码后,将编码作为目标序列中的元素。例如,基于美国信息交换标准代码(American Standard Code for Information Interchange,ASCII)对待判断邮箱地址中的字符进行编码。ASCII是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。当然,本领域技术人员应能理解,上述基于ASCII的编码仅用于举例,并不构成对本申请的任何限定,其他现有的或今后可能出现的编码方式如能适用于本申请,也包含在本申请的保护范围内,并以引用方式包含于此。
为了克服上面提到的目标序列的长度过长或者过短而造成的系统效能低下的问题,在另一些实施例中,步骤S200包括子步骤S203和子步骤S204(均未示出)。在子步骤S203中,判断设备基于所述待判断邮箱地址及预设填充元素确定长度为第一长度的第二序列;在子步骤S204中,判断设备确定所述第二序列的一个子序列为目标序列,其中所述目标序列的长度为目标长度。其中,所述第一长度大于所述目标长度。
其中,在子步骤S203中,判断设备首先确定一个第二序列。例如,在一些实施例中,当待判断邮箱地址的长度小于一个预设的第一长度(例如52个字符)时,采用预设的填充元素(例如采用空字节、空格等对应的元素作为填充元素)填充不足的部分,例如将填充元素填充在在待判断邮箱地址中的字符对应的元素构成的序列之后,从而构造长度为上述第一长度(例如52个字符)的第二序列,该第二序列用于进一步构造目标序列。当待判断邮箱地址的长度大于或等于上述第一长度时,截取其中52个字符(例如前52个字符),并采用这52个字符对应的元素构造第二序列。
随后在子步骤S204中,判断设备基于上述第二序列确定目标序列,其中所述目标序列是所述第二序列的一个子序列,该子序列的长度为预设的目标长度。例如,在一个实施例中,预设的目标长度为26,判断设备基于在子步骤S203中得到的长度为52的第二序列截取长度为目标长度即26的子序列作为目标序列;优选地,为尽可能保持判断精度,尽可能保存位于第二序列开头的元素,例如所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符(如,可以理解为采用第二序列中的前26个元素构造所述目标序列)。
在一些实施例中,在步骤S200中,判断设备对所述待判断邮箱地址进行预处理,并确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列。其中,所述预处理主要指对邮箱中的字母的大小写进行处理,例如遍历所述待判断邮箱地址中的字符并将其中的大写字母分别替换为相应的小写字母,或者将小写字母分别替换为相应的大写字母。一般而言,电子邮箱地址对于字母的大小写并不敏感,因此上述预处理能够排除字母的大小写对邮箱地址是否随机的判断的影响,提高判断效率;此外,经过上述预处理之后,待判断邮箱地址中字母的种类变少,前后字母之间的联系更紧密,对电子邮箱地址是否随机的判断也更精确。
一个电子邮箱地址通常包括用户名部分和域名部分,两个部分通过符号“@”隔开。一般而言,若一位用户提供的邮箱地址是随机的,则该邮箱地址在用户名部分就是随机的。因此,在一些实施例中,通过判断用户名部分是否是随机的,也可以实现对待判断邮箱地址是否随机的判断。相应地,在一些实施例中,在步骤S200中,判断设备确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列,操作步骤与以上的基于待判断邮箱地址整体的判断过程类似,不予赘述,并以引用方式包含于此。
其中优选地,在一些实施例中,步骤S200包括子步骤S205和子步骤S206(均未示出)。在子步骤S205中,判断设备基于所述邮箱地址的域名部分判断所述邮箱地址是否满足预处理条件;在子步骤S206中,若所述邮箱地址满足所述预处理条件,判断设备确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列。其中,在子步骤S206中,基于预处理条件,可以通过判断待判断邮箱地址的域名部分是否是合法的域名来判断用户提供的待判断邮箱地址是否有可能是非随机邮箱地址。例如,当域名部分是合法的域名,整个待判断邮箱地址有可能是非随机邮箱地址;反之,域名为非法域名的邮箱地址不可能是有效的邮箱地址,因此无需进入后续的判断步骤即可确定该地址为随机邮箱地址。因此,通过设置前置的判断步骤,可提高非法邮箱地址的判断效率。
其中,在一些实施例中,待判断邮箱地址是否满足预处理条件的判断可在判断设备本地完成,也可由相应的数据库设备配合完成。当该判断过程由相应的数据库设备配合完成时,子步骤S205包括子步骤S2051、子步骤S2052和子步骤S2053(均未示出)。在子步骤S2051中,判断设备向域名数据库设备发送关于所述邮箱地址的域名部分的查询请求,例如将域名部分发送至域名数据库设备以查询该域名部分是否为合法域名;在子步骤S2052中,判断设备接收所述域名数据库设备基于所述查询请求返回的查询结果,例如在相应的数据库中查询该域名部分并命中,或者未命中;在子步骤S2053中,若所述查询结果包括命中,判断设备判断所述邮箱地址满足预处理条件,否则判断所述邮箱地址不满足所述预处理条件。
其中,所述域名数据库设备为判断设备可访问的数据库设备,包括但不限于计算机、计算机集群、云端服务器等,其中云端服务器可位于公有云或者私有云。
在一些实施例中,所述地址判断模型包括至少两个长短时记忆网络,其中一个长短时记忆网络的输入为另一个长短时记忆网络的输出。对于地址判断模型而言,其隐藏层通过选取两个或者更多的长短时记忆网络堆叠成栈式的长短时记忆网络,可使该模型能够学习更高层次的时域特征表示。其中,对于多层长短时记忆网络,前n-1层将每个时间节点上的序列全部输出,最后一层仅输出最后一个时间节点上的序列,该序列可为前一层或者多层输出的判断结果(例如,1或者0)。
在一些实施例中,本申请所述的地址判断模型可基于黑白样本训练得到。以下描述其中一个具体实施例。
首先,选择非临时用户的绑定邮箱并去掉邮箱前缀是纯数字的邮箱地址作为白样本;利用邮箱随机生成器生成邮箱前缀为纯字母、字母夹数字(数字位置随机)、字母与数字(数字位于字母之后)的三种邮箱地址以及人工判断出来的一部分随机邮箱,共同作为随机样本,称为黑样本。白样本数量为42万以上,黑样本数量为2万以上。将白样本和黑样本分别加入测试集和训练集。例如,随机抽取20%的样本作为测试集,剩余的80%作为训练集,在此,训练集总样本数为355572,测试集总样本数为88781。
然后,将邮箱地址中的所有字母转换成小写,并对邮箱中的所有字符进行编码,将邮箱地址中的所有字符全部转成编码后的数字表示,并处理成统一的长度,不够长的用特殊的数字进行填充。
接着,将邮箱地址处理成LSTM需要的格式[样本数,时间步伐,特征数]。需要注意的是,在此使用的样本中,邮箱最大长度为44,若是直接将时间步伐设置为44,实际运行中发现会出现梯度消失,训练效果非常差。参考图2,对邮箱地址的长度分布进行分析发现,当长度为26时,已覆盖了98.3%的邮箱。接下来,采取的解决办法是截断序列至长度为26。此处特征数为1。将处理后的邮箱地址放缩至均值为0,选用双曲正切函数tanh或者sigmoid作为激活函数。
然后,对模型进行训练。选用keras模型库,后端引擎选用Theano。使用回调函数,设置early-stopping,在波动率和准确率之间取得平衡。隐藏层选用栈式的LSTM,每层中间使用dropout来减轻过拟合。损失函数选用用于二分类的对数损失binary_crossentropy;优化器此处选用适应性矩估计adam,需要资源少,模型收敛速度更快;性能评估函数使用自带的准确率accuracy;Epoch设置为100(但是因为设置了early-stopping,所以可能达不到);批大小Batchsize=64;训练中使用验证集,比例为0.1;每个epoch(1个epoch等于使用训练集中的全部样本训练一次)都会对数据进行打乱(shuffle)。实际上,本次训练在第52个epoch发生了early-stopping,损失函数的图形参考附图3。
至此,模型训练完成。经测试,该对于随机邮箱地址的识别准确率达到89%,覆盖率达到74%,取得了较佳的实际效果。
根据本申请的另一个方面,提供了一种随机邮箱地址的判断设备,包括:
处理器;以及
被配置为存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
下面参照图4来描述根据本申请的一个实施例的随机邮箱地址的判断设备600。其中,图4显示的判断设备600仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,设备600以通用计算设备的形式表现。设备600的组件可以包括但不限于:至少一个处理器610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理器610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理器610执行,使得所述处理器610执行本说明书上述电子处方流转处理方法部分中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理器610可以执行以上所述方法中的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
根据本申请的又一个方面,还提供了一种包括指令的计算机可读介质,所述指令在被执行时使系统执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
其中,参考图5所示,在一个实施例中,用于实现上述方法的程序产品800可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,且可以在终端设备(例如个人电脑)上运行。然而,本领域技术人员应能理解,本申请所指的程序产品不限于此,计算机可读介质可以是任何包含或存储程序的有形介质,且该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线,例如光纤、同轴等)和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括(但不限于)易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息或数据。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种随机邮箱地址的判断方法,包括:
a获取待判断邮箱地址;
b确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
c将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
2.根据权利要求1所述的方法,其中所述步骤b包括:
若所述待判断邮箱地址中的字符所组成的第一序列的长度大于或等于一目标长度,确定所述第一序列的一个子序列为目标序列;
若所述第一序列的长度小于或等于所述目标长度,基于所述第一序列及预设填充元素确定目标序列;
其中所述目标序列的长度为目标长度。
3.根据权利要求2所述的方法,其中所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符。
4.根据权利要求1所述的方法,其中所述步骤b包括:
基于所述待判断邮箱地址及预设填充元素确定长度为第一长度的第二序列;
确定所述第二序列的一个子序列为目标序列,其中所述目标序列的长度为目标长度;
其中所述第一长度大于所述目标长度。
5.根据权利要求4所述的方法,其中所述子序列中的第一个元素对应所述待判断邮箱地址的第一个字符。
6.根据权利要求1所述的方法,其中所述步骤b包括:
对所述待判断邮箱地址进行预处理,并确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
其中所述对所述待判断邮箱地址进行预处理包括:
遍历所述待判断邮箱地址中的字符,并将其中的大写字母分别替换为相应的小写字母。
7.根据权利要求1所述的方法,其中所述步骤b包括:
确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列。
8.根据权利要求7所述的方法,其中所述步骤b包括:
b1基于所述邮箱地址的域名部分判断所述邮箱地址是否满足预处理条件;
b2若所述邮箱地址满足所述预处理条件,确定与所述待判断邮箱地址的用户名部分相对应且长度为目标长度的目标序列。
9.根据权利要求8所述的方法,其中所述步骤b1包括:
向域名数据库设备发送关于所述邮箱地址的域名部分的查询请求;
接收所述域名数据库设备基于所述查询请求返回的查询结果;
若所述查询结果包括命中,判断所述邮箱地址满足预处理条件,否则判断所述邮箱地址不满足所述预处理条件。
10.根据权利要求1所述的方法,其中所述地址判断模型包括至少两个长短时记忆网络,其中一个长短时记忆网络的输入为另一个长短时记忆网络的输出。
11.一种随机邮箱地址的判断设备,包括:
处理器;以及
被配置为存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
12.一种包括指令的计算机可读介质,所述指令在被执行时使系统执行以下操作:
获取待判断邮箱地址;
确定与所述待判断邮箱地址相对应且长度为目标长度的目标序列;
将目标向量应用于地址判断模型,以获取关于所述待判断邮箱地址的判断结果,其中所述目标向量是基于所述目标序列得到的;
其中所述地址判断模型包括至少一个长短时记忆网络,所述判断结果包括以下任一项:
所述待判断邮箱地址是随机邮箱地址;
所述待判断邮箱地址非随机邮箱地址。
CN201810480928.2A 2018-05-18 2018-05-18 一种随机邮箱地址的判断方法、设备和介质 Active CN108683749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810480928.2A CN108683749B (zh) 2018-05-18 2018-05-18 一种随机邮箱地址的判断方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810480928.2A CN108683749B (zh) 2018-05-18 2018-05-18 一种随机邮箱地址的判断方法、设备和介质

Publications (2)

Publication Number Publication Date
CN108683749A true CN108683749A (zh) 2018-10-19
CN108683749B CN108683749B (zh) 2021-07-06

Family

ID=63806885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810480928.2A Active CN108683749B (zh) 2018-05-18 2018-05-18 一种随机邮箱地址的判断方法、设备和介质

Country Status (1)

Country Link
CN (1) CN108683749B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460582A (zh) * 2019-07-12 2019-11-15 同盾控股有限公司 一种风险邮箱地址的检测方法和装置
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置
CN107332856A (zh) * 2017-07-28 2017-11-07 腾讯科技(深圳)有限公司 地址信息的检测方法、装置、存储介质和电子装置
CN107798571A (zh) * 2016-08-31 2018-03-13 阿里巴巴集团控股有限公司 恶意地址/恶意订单的识别系统、方法及装置
US20180129933A1 (en) * 2016-11-10 2018-05-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and Apparatus for Processing Data Sequence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468742A (zh) * 2015-11-25 2016-04-06 小米科技有限责任公司 恶意订单识别方法及装置
CN107798571A (zh) * 2016-08-31 2018-03-13 阿里巴巴集团控股有限公司 恶意地址/恶意订单的识别系统、方法及装置
US20180129933A1 (en) * 2016-11-10 2018-05-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and Apparatus for Processing Data Sequence
CN107332856A (zh) * 2017-07-28 2017-11-07 腾讯科技(深圳)有限公司 地址信息的检测方法、装置、存储介质和电子装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110460582A (zh) * 2019-07-12 2019-11-15 同盾控股有限公司 一种风险邮箱地址的检测方法和装置
CN115099832A (zh) * 2022-06-29 2022-09-23 广州华多网络科技有限公司 异常用户检测方法及其装置、设备、介质、产品

Also Published As

Publication number Publication date
CN108683749B (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
Melicher et al. Fast, lean, and accurate: Modeling password guessability using neural networks
EP3002686A1 (en) Language identification
CN109684543A (zh) 用户行为预测和信息投放方法、装置、服务器和存储介质
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN107038157A (zh) 基于人工智能的识别错误发现方法、装置及存储介质
CN111401700A (zh) 一种数据分析方法、装置、计算机系统及可读存储介质
CN109637000A (zh) 发票检验方法及装置、存储介质、电子终端
CN110598070A (zh) 应用类型识别方法及装置、服务器及存储介质
CN112789626A (zh) 可扩展和压缩的神经网络数据储存系统
CA3163408A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
CN107644051A (zh) 用于同类实体分组的系统和方法
CN116324804A (zh) 训练问答对话系统以避免对抗性攻击
CN112966713A (zh) 基于深度学习的dga域名检测方法、装置及计算机设备
CN115544560A (zh) 一种敏感信息的脱敏方法、装置、计算机设备及存储介质
CN108683749A (zh) 一种随机邮箱地址的判断方法、设备和介质
CN113157853B (zh) 问题挖掘方法、装置、电子设备及存储介质
CN112925914B (zh) 数据安全分级方法、系统、设备及存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN110019193A (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN113420119B (zh) 基于知识卡片的智能问答方法、装置、设备及存储介质
CN109359274A (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
US20220405487A1 (en) Causal Knowledge Identification and Extraction
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN112231454A (zh) 提问预测及回答反馈方法、装置、计算机设备及存储介质
KR20210024748A (ko) Gan을 이용한 문서형 악성코드 탐지 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant