CN113890756A - 用户账号的混乱度检测方法、装置、介质和计算设备 - Google Patents
用户账号的混乱度检测方法、装置、介质和计算设备 Download PDFInfo
- Publication number
- CN113890756A CN113890756A CN202111130163.8A CN202111130163A CN113890756A CN 113890756 A CN113890756 A CN 113890756A CN 202111130163 A CN202111130163 A CN 202111130163A CN 113890756 A CN113890756 A CN 113890756A
- Authority
- CN
- China
- Prior art keywords
- sub
- character strings
- user account
- character string
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 208000003443 Unconsciousness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Abstract
本公开的实施方式提供了一种用户账号的混乱度检测方法、装置、介质和计算设备。该方法包括:获取待执行混乱度检测的目标用户账号;基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。本公开可以实现对用户账号的混乱度的量化处理。
Description
技术领域
本公开的实施方式涉及计算机应用技术领域,更具体地,本公开的实施方式涉及一种用户账号的混乱度检测方法、装置、介质和计算设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着互联网规模的不断扩大,互联网业务平台层出不穷,使用互联网的人数也与日俱增。对于绝大多数的互联网业务平台而言,这些业务平台通常都需要用户注册一个用户账号(例如:电子邮箱账号、微博账号、微信账号等)来进行登录,以根据登录的用户账号对不同的用户进行区分,从而向用户提供定向的服务。
在海量的用户账号中,一部分用户账号的主体是自然人(即正常用户),而另一部分用户账号的主体则可能是网络黑产或僵尸用户。以电子邮箱业务平台为例,网络黑产或僵尸用户会利用批量注册的电子邮箱账号来制造垃圾邮件,或者对业务平台发起恶意攻击。因此,主体为网络黑产或僵尸用户的用户账号通常被视为风险账号;相应地,如何从海量的用户账号中识别出这些风险账号,也就成为了亟待解决的问题。
发明内容
在本上下文中,本公开的实施方式期望提供一种用户账号的混乱度检测方法、装置、介质和计算设备。
在本公开实施方式的第一方面中,提供了一种用户账号的混乱度检测方法,所述方法包括:
获取待执行混乱度检测的目标用户账号;
基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;
基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
可选地,所述预设条件包括以下示出的一种或多种:
所述若干用户账号分别对应的字符串包含的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数相同;
所述若干用户账号分别对应的字符串包含的若干子字符串的总数量达到预设阈值。
可选地,所述基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串,通过以下方式确定:
按照预设的初始长度对与用户数据库中的若干用户账号分别对应的字符串进行切分处理,得到若干子字符串;
针对所述若干用户账号分别对应的字符串包含的若干子字符串,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的任意相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串。
可选地,所述基于所述若干子字符串中的相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串,包括:
重复以下步骤以得到满足预设条件的若干子字符串:
确定所述若干子字符串是否满足所述预设条件;
如果所述若干子字符串不满足所述预设条件,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将所述若干子字符串中的所述相邻的两个子字符串替换为所述目标子字符串。
可选地,所述若干用户账号分别对应的字符串包括:
根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述若干用户账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与用户数据库中的若干用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述目标用户账号对应的字符串包括:
根据与所述目标用户账号对应的字符串中的分隔符,对所述目标账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与所述目标用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与所述目标用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述与所述目标用户账号对应的子字符串,包括:与所述字符串表中的字符串匹配的子字符串;和/或,长度为预设的初始长度的子字符串;
所述切分规则包括以下示出的一种或多种:
从字符串中切分出与所述字符串表中的字符串匹配且长度最长的子字符串;
从字符串中切分出的长度为所述初始长度的子字符串的数量最少。
可选地,所述基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度,包括:
计算与所述目标用户账号对应的子字符串的平均长度,并计算所述平均长度的倒数,以将所述倒数确定为所述目标用户账号的混乱度。
可选地,所述方法还包括:
确定所述目标用户账号的混乱度是否大于预设阈值;
如果所述目标用户账号的混乱度大于所述阈值,则将所述目标用户账号确定为风险账号。
可选地,所述用户账号为电子邮箱账号的前缀。
在本公开实施方式的第二方面中,提供了一种用户账号的混乱度检测装置,所述装置包括:
获取模块,用于获取待执行混乱度检测的目标用户账号;
切分模块,用于基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;
计算模块,用于基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
可选地,所述预设条件包括以下示出的一种或多种:
所述若干用户账号分别对应的字符串包含的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数相同;
所述若干用户账号分别对应的字符串包含的若干子字符串的总数量达到预设阈值。
可选地,所述基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串,通过以下方式确定:
按照预设的初始长度对与用户数据库中的若干用户账号分别对应的字符串进行切分处理,得到若干子字符串;
针对所述若干用户账号分别对应的字符串包含的若干子字符串,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的任意相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串。
可选地,所述基于所述若干子字符串中的相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串,包括:
重复以下步骤以得到满足预设条件的若干子字符串:
确定所述若干子字符串是否满足所述预设条件;
如果所述若干子字符串不满足所述预设条件,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将所述若干子字符串中的所述相邻的两个子字符串替换为所述目标子字符串。
可选地,所述若干用户账号分别对应的字符串包括:
根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述若干用户账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与用户数据库中的若干用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述目标用户账号对应的字符串为:
根据与所述目标用户账号对应的字符串中的分隔符,对所述目标账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与所述目标用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与所述目标用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述与所述目标用户账号对应的子字符串,包括:与所述字符串表中的字符串匹配的子字符串;和/或,长度为预设的初始长度的子字符串;
所述切分规则包括以下示出的一种或多种:
从字符串中切分出与所述字符串表中的字符串匹配且长度最长的子字符串;
从字符串中切分出的长度为所述初始长度的子字符串的数量最少。
可选地,所述计算模块具体用于:
计算与所述目标用户账号对应的子字符串的平均长度,并计算所述平均长度的倒数,以将所述倒数确定为所述目标用户账号的混乱度。
可选地,所述装置还包括:
确定模块,用于确定所述目标用户账号的混乱度是否大于预设阈值,并在所述目标用户账号的混乱度大于所述阈值时,将所述目标用户账号确定为风险账号。
可选地,所述用户账号为电子邮箱账号的前缀。
在本公开实施方式的第三方面中,提供了一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一用户账号的混乱度检测方法。
在本公开实施方式的第四方面中,提供了一种计算设备,包括:
处理器;
用于存储处理器可执行程序的存储器;
其中,所述处理器通过运行所述可执行程序以实现上述任一用户账号的混乱度检测方法。
根据本公开实施方式的数据处理方法,可以预先基于与用户数据库中的若干用户账号分别对应的字符串,确定出满足预设条件的若干子字符串,并将这若干子字符串构建为字符串表,后续可以利用该字符串表对目标用户账号进行混乱度检测;具体地,可以基于该字符串表和预设的切分规则,对与该目标用户账号对应的字符串进行切分处理,得到与该目标用户账号对应的子字符串,并基于与该目标用户账号对应的子字符串,计算该目标用户账号的混乱度。
采用上述方式,可以对用户账号的混乱度进行量化处理,从而实现根据量化后的该用户账号的混乱度,判断该用户账号是否为风险账号。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测的应用场景的示意图;
图2示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测方法的流程图;
图3示意性地示出了根据本公开实施方式的一种字符串表构建方法的流程图;
图4示意性地示出了根据本公开实施方式的一种介质的示意图;
图5示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测装置的框图;
图6示意性地示出了根据本公开实施方式的一种计算设备的示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种用户账号的混乱度检测方法、装置、介质和计算设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
在相关技术中,在从海量的用户账号中识别风险账号时,通常可以针对其中某一用户账号,检测与该用户账号对应的用户行为是否存在异常,并将异常的用户账号确定为风险账号;或者,对该用户账号所包含的字符串进行检测,根据其中的字符的排列判断该用户账号为风险账号的可能性,并将可能性较大的用户账号确定为风险账号。在这两种识别方式中,对用户账号所包含的字符串进行检测的工作量更小,且识别效率更高,因此更为常用。
在实际应用中,以电子邮箱账号为例,大量的垃圾邮件通常都产自所包含的字符串中的字符排列混乱的电子邮箱账号;也即,所包含的字符串中的字符排列混乱的电子邮箱账号是风险账号的可能性较大。
造成这种情况的主要原因在于,自然人在注册用户账号时,通常会采用与自己的现实生活存在一定关联的字符串(例如:表示自己的姓名拼音和出生年月的字符串、表示自己的恋人的姓名拼音的字符串等),因此,正常的用户账号所包含的字符串中的字符通常按照一定的规律排列。然而,为了避免与用于存储已注册的用户账号的数据库中的用户账号发生重复,导致注册失败,风险账号通常由机器随机生成,并批量注册,因此,风险账号所包含的字符串中的字符排列较为混乱。
举例来说,1990年1月出生的名叫李四的自然人,注册的用户账号可能是“lisi1990”;1990年3月出生的名叫李四的自然人,注册的用户账号可能是“lisi_1990”;恋人名叫王五的自然人,注册的用户账号可能是“love_wangwu”。而风险账号则可能是“ewdgfzc”、“hwffwec”这些无明显意义的、较为混乱的字符串。
在这种情况下,就需要对用户账号的混乱度进行量化处理,以便于根据量化后的该用户账号的混乱度,判断该用户账号是否为风险账号。
为了解决上述问题,本公开提出了一种用户账号的混乱度检测的技术方案,可以预先基于与用户数据库中的若干用户账号分别对应的字符串,确定出满足预设条件的若干子字符串,并将这若干子字符串构建为字符串表,后续可以利用该字符串表对目标用户账号进行混乱度检测;具体地,可以基于该字符串表和预设的切分规则,对与该目标用户账号对应的字符串进行切分处理,得到与该目标用户账号对应的子字符串,并基于与该目标用户账号对应的子字符串,计算该目标用户账号的混乱度。
采用上述方式,可以对用户账号的混乱度进行量化处理,从而实现根据量化后的该用户账号的混乱度,判断该用户账号是否为风险账号。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测的应用场景的示意图。
如图1所示,在用户账号的混乱度检测的应用场景中,首先,用户可以通过接入业务平台的用户客户端(例如:用户客户端1至N),在该业务平台上注册用户账号;该业务平台可以将各个用户注册的用户账号,存储至与该业务平台对接的数据库(称为用户数据库)中。
后续,用于执行针对用户账号的混乱度检测的检测服务端,也可以与上述用户数据库进行对接,并对该用户数据库中存储的若干用户账号进行统计、分析,以得到与这些用户账号对应的字符串中的字符的若干排列规律,并根据这些排列规律对各个用户账号的混乱度进行量化处理。
需要说明的是,上述检测服务端可以是上述业务平台的一部分,即可以由该业务平台执行针对用户账号的混乱度检测;或者,该检测服务端可以是独立于该业务平台的服务端,仅用于执行针对用户账号的混乱度检测;本公开对此不作限制。
在实际应用中,上述用户客户端可以是运行在手机、平板设备、笔记本电脑等移动终端上的小程序或APP(Application,应用程序);上述业务平台或上述检测服务端可以部署在计算机、服务器等电子设备上;本公开对此不作限制。
示例性方法
下面结合图1的应用场景,参考图2-3来描述根据本公开示例性实施方式的用于用户账号的混乱度检测的方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
参考图2,图2示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测方法的流程图。
结合如图1所示的应用场景,上述用户账号的混乱度检测方法可以应用于如图1所示的检测服务端。该用户账号的混乱度检测方法可以包括以下步骤:
步骤201,获取待执行混乱度检测的目标用户账号。
在实际应用中,一方面,为了及时发现风险账号,可以由上述检测服务端按照一定的时间周期,定期地执行针对用于存储用户账号的上述用户数据库中的用户账号的混乱度检测;其中,该时间周期可以由技术人员根据实际需求预先设置,例如:可以将该时间周期设置为24小时,即每天执行一次针对该用户数据库中的用户账号的混乱度检测。
或者,可以由技术人员根据实际需求,在上述检测服务端上发起针对上述用户数据库中的用户账号的混乱度检测。
在这种情况下,可以获取上述用户数据库中的任一用户账号,并将获取到的该用户账号作为待执行混乱度检测的用户账号(称为目标用户账号)。
另一方面,上述检测服务端可以在监测到有新的用户账号被注册时,针对该新的用户账号进行混乱度检测。例如,可以在监测到上述用户数据库中被写入了新的用户账号时,针对该新的用户账号进行混乱度检测。
在这种情况下,可以获取该上述新的用户账号,并将该新的用户账号作为待执行混乱度检测的用户账号(称为目标用户账号)。
在实际应用中,以电子邮箱账号为例,电子邮箱账号被分为前缀和后缀两部分;其中,前缀即为用户自行填充的部分(可视为用户账号),后缀则是表示提供电子邮箱服务的业务平台的部分。例如,对于“liuwojing666@163.com”这一电子邮箱账号而言,“liuwojing666”为用户自行填充的用户账号,“@163.com”表示提供电子邮箱服务的业务平台为网易电子邮箱平台。
因此,在示出的一种实施方式中,上述目标用户账号可以是电子邮箱账号的前缀。
步骤202,基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串。
在获取到上述目标用户账号的情况下,可以基于字符串表和预设的切分规则,对与该目标用户账号对应的字符串进行切分处理,得到与该目标用户账号对应的子字符串。
其中,一方面,上述字符串表,可以包括基于与上述用户数据库中的若干用户账号分别对应的字符串确定的、满足预设条件的若干子字符串。
另一方面,上述切分规则可以由技术人员根据实际需求预先设置。
在实际应用中,与上述目标用户账号对应的字符串可以是该目标账号所包含的字符串的整体;切分处理得到的与该目标用户账号对应的子字符串可以是从该字符串中切分出的多个子字符串,也可以是该字符串本身。
步骤203,基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
在通过切分处理得到与上述目标用户账号对应的子字符串的情况下,可以基于与该目标用户账号对应的子字符串,计算该目标用户账号的混乱度。
在示出的一种实施方式中,在计算得到了上述目标用户账号的混乱度的情况下,可以确定该目标用户账号的混乱度是否大于预设阈值;其中,该阈值可以由技术人员根据实际需求预先设置。
如果上述目标用户账号的混乱度大于上述阈值,则可以将该目标用户账号确定为风险账号,并对该风险账号进行相应的处理。
针对如图2所示的用户账号的混乱度检测方法,从构建上述字符串表、对与上述目标用户账号对应的字符串进行切分处理、计算上述目标用户账号的混乱度的三个方面进行详细说明。
(1)构建上述字符串表
在实际应用中,可以通过对与上述用户数据库中的若干用户账号分别对应的字符串进行统计、分析,确定出满足预设条件的若干子字符串,并将这若干子字符串构建为上述字符串表。
例如,可以采用无监督的方式,对与这若干用户账号分别对应的字符串进行学习,学习到满足上述预设条件的若干子字符串。
其中,上述预设条件可以由技术人员根据实际需求预先设置。
例如,在示出的一种实施方式中,上述预设条件可以包括以下示出的一种或多种:与上述若干用户账号分别对应的字符串包含的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与这若干用户账号分别对应的字符串中匹配到的次数相同;与上述若干用户账号分别对应的字符串包含的若干子字符串的总数量达到预设阈值;其中,该阈值可以由技术人员根据实际需求预先设置。
对于某一字符串而言,该字符串在与上述若干用户账号分别对应的字符串中匹配到的次数,即为该字符串在与这若干用户账号分别对应的字符串中出现的次数。
举例来说,假设与上述若干用户账号分别对应的字符串为abcd、acde、acdf,则字符串cd在与这若干用户账号分别对应的字符串中一共出现了3次,因此,字符串cd在与上述若干用户账号分别对应的字符串中匹配到的次数为3,;字符串acd在与这若干用户账号分别对应的字符串中一共出现了2次,因此,字符串acd在与这若干用户账号分别对应的字符串中匹配到的次数为2;以此类推。
需要说明的是,在对与上述若干用户账号分别对应的字符串进行学习的过程中,与这若干用户账号分别对应的字符串包含的若干子字符串的总数量会逐渐减少,因此,上述预设条件中的该总数量达到上述阈值,即为该总数量小于或等于该阈值。
在实际应用中,为了便于后续利用上述字符串表,在将上述若干子字符串构建为该字符串表时,可以对这若干子字符串进行去重处理,并将去重后的若干子字符串构建为该字符串表。
为了得到满足上述预设条件的若干子字符串,在示出的一种实施方式中,可以先按照预设的初始长度,对与上述若干用户账号分别对应的字符串进行切分处理,得到若干子字符串,后续可以基于这若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与这若干用户账号分别对应的字符串中匹配到的次数,对这若干子字符串中的任意相邻的两个子字符串进行合并处理,得到满足该预设条件的若干子字符串。
其中,上述初始长度可以由技术人员根据实际需求预先设置。
需要说明的是,分别属于两个字符串的两个子字符串,不会作为相邻的两个子字符串。
具体地,在示出的一种实施方式中,可以先确定上述若干子字符串是否满足上述预设条件,如果这若干子字符串不满足该预设条件,则可以基于这若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述若干用户账号分别对应的字符串中匹配到的次数(即匹配次数),将匹配次数最大的任意相邻的两个子字符串合并为一个子字符串(称为目标子字符串),并将这若干子字符串中的相邻的这两个目标子字符串替换为该目标子字符串。
需要说明的是,如果上述匹配次数最大的相邻的两个子字符串有多组,则可以将这多组相邻的两个子字符串中的任意一组或多组相邻的两个子字符串合并为一个子字符串,执行后续的替换操作。例如,假设在上述若干子字符串中,上述匹配次数最大的相邻的两个子字符串包括三组,分别为:a、b这一组相邻的两个字符串,c、d这一组相邻的两个字符串,并且,这两组相邻的两个子字符串的匹配次数均为2,其他的相邻的两个子字符串的匹配次数均为1,则可以从这两组相邻的两个子字符串中任选一组执行后续的合并和替换操作,或者可以对这两组相邻的两个子字符串都执行后续的合并和替换操作。
相应地,如果上述若干子字符串满足上述预设条件,则可以将这若干子字符串构建为上述字符串表。
在实际应用中,可以采用任一可行的方式,统计上述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与这若干用户账号分别对应的字符串中匹配到的次数,以及确定这若干子字符串是否满足上述预设条件;本公开对此不作限制。
通过上述方式构建的字符串表,其中的字符串可以表示上述用户数据库中的用户账号中较为常见的字符排列。在这种情况下,如果与某一用户账号对应的字符串与该字符串表中的字符串的匹配度越高,则说明该用户账号的混乱度越低。
参考图3,图3示意性地示出了根据本公开实施方式的一种字符串表构建方法的流程图。
上述字符串表构建方法可以包括以下步骤:
步骤301,按照预设的初始长度对与用户数据库中的若干用户账号分别对应的字符串进行切分处理,得到若干子字符串。
步骤302,确定所述若干子字符串是否满足所述预设条件;如果否,执行步骤304;如果是,执行步骤305。
步骤304,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将所述若干子字符串中的所述相邻的两个子字符串替换为所述目标子字符串;后续,跳转执行步骤302。
步骤305,将所述若干子字符串构建为所述字符串表。
也即,可以先按照预设的初始长度,对与上述若干用户账号分别对应的字符串进行切分处理,得到若干子字符串。
然后,可以确定上述若干子字符串是否满足上述预设条件,如果这若干子字符串不满足该预设条件,则可以基于这若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将这若干子字符串中的相邻的这两个子字符串替换为该目标子字符串;此时,这若干子字符串中包含该目标子字符串,而不再包含相邻的这两个子字符串,但需要说明的是,可以包含这若干子字符串中除相邻的这两个子字符串外的其他所有子字符串。
再然后,可以重新确定替换后的若干子字符串是否满足上述预设条件,如果替换后的若干子字符串不满足该预设条件,则可以重新基于替换后的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个新的目标子字符串,并将替换后的若干子字符串中的相邻的这两个目标子字符串替换为新的目标子字符串;以此类推。
相应地,在任意一次确定出上述若干子字符串满足上述预设条件时,都可以直接将这若干子字符串构建为上述字符串表,而不再执行后续的替换操作。
举例来说,假设:①上述用户数据库中有三个用户账号,与这三个用户账号分别对应的字符串为abcd、acde、acdf,②上述预设条件为若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与若干用户账号分别对应的字符串中匹配到的次数相同,③上述初始长度为1,则首先,可以将与这三个用户账号分别对应的字符串分别切分为长度为1的十二个子字符串,如下表1所示:
表1
其中,总数表示对应的字符串在与上述用户数据库中的若干用户账号分别对应的字符串中出现的次数。
需要说明的是,在统计上述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述若干用户账号分别对应的字符串中匹配到的次数时,可以同时考虑与这若干字符串分别对应的上述总数。
举例来说,假设与字符串abcd对应的上述总数为2,与字符串acde和字符串acdf对应的上述总数均为1,则在统计字符串abcd切分得到的长度为1的四个子字符串中的任意相邻的两个子字符串组合成的字符串,在这三个字符串中匹配到的次数时,可以统计到字符串ab匹配到的次数为2(匹配到两个abcd),字符串bc匹配到的次数为2(匹配到两个abcd),字符串cd匹配到的次数为4(匹配到两个abcd、一个acde和一个acdf);以此类推。
继续以上表1为例,针对表1中的十二个子字符串,可以统计这十二个子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述三个用户账号分别对应的字符串中匹配到的次数;具体地,可以对这十二个子字符串中的各个子字符串依次与其相邻的子字符串进行组合处理,得到ab、bc、cd、ac、cd、de、ac、cd、df这九个字符串,并分别统计这九个字符串中的各个字符串,在这九个字符串中出现的次数。其中,字符串ab匹配到的次数为1,字符串bc匹配到的次数为1,字符串cd匹配到的次数为3,字符串ac匹配到的次数为2,字符串de匹配到的次数为1,字符串df匹配到的次数为1。
由于表1中的十二个子字符串中的任意相邻的两个子字符串组合成的字符串,在与上述三个用户账号分别对应的字符串中匹配到的次数不同,即不满足上述预设条件,因此,可以确定统计到的次数最大的相邻的两个目标子字符串为c、d,从而可以将相邻的这两个目标子字符串c、d合并为一个子字符串cd,并将这十二个子字符串中的相邻的这两个目标子字符串c、d替换为合并得到的子字符串cd,如下表2所示:
表2
字符串 | 子字符串 | 总数 |
abcd | a、b、cd | 1 |
acde | a、cd、e | 1 |
acdf | a、cd、f | 1 |
针对表2中的九个子字符串,可以对这九个子字符串中的各个子字符串依次与其相邻的子字符串进行组合处理,得到ab、bcd、acd、cde、acd、cdf这六个字符串,并分别统计这九个字符串中的各个字符串,在这九个字符串中出现的次数。其中,字符串ab匹配到的次数为1,字符串bcd匹配到的次数为1,字符串acd匹配到的次数为2,字符串cde匹配到的次数为1,字符串cdf匹配到的次数为1。
由于表2中的九个字符串中的任意相邻的两个子字符串组合成的字符串,在与上述三个用户账号分别对应的字符串中匹配到的次数不同,即不满足上述预设条件,因此,可以确定统计到的次数最大的相邻的两个目标子字符串为a、cd,从而可以将相邻的这两个目标子字符串a、cd合并为一个子字符串acd,并将这十二个子字符串中的相邻的这两个目标子字符串a、cd替换为合并得到的子字符串acd,如下表3所示:
表3
字符串 | 子字符串 | 总数 |
abcd | a、b、cd | 1 |
acde | acd、e | 1 |
acdf | acd、f | 1 |
针对表3中的七个子字符串,可以对这七个子字符串中的各个子字符串依次与其相邻的子字符串进行组合处理,得到ab、bcd、acde、acdf这四个字符串,并分别统计这四个字符串中的各个字符串,在这四个字符串中出现的次数。其中,字符串ab匹配到的次数为1,字符串bcd匹配到的次数为1,字符串acde匹配到的次数为1,字符串acdf匹配到的次数为1。
由于表3中的七个字符串中的任意相邻的两个子字符串组合成的字符串,在与上述三个用户账号分别对应的字符串中匹配到的次数相同,均为1,即满足上述预设条件,因此,可以将这七个子字符串构建为上述字符串表。
为了便于利用上述字符串表,可以对表3中的七个子字符串进行去重处理,得到a、b、cd、acd、e、f这六个子字符串,并将这六个子字符串构建为该字符串表。
为了去除用户账号中的分隔符(例如:下划线“_”、中划线“-”、点“.”等)的影响,在示出的一种实施方式中,可以先根据与上述用户数据库中的若干用户账号对应的字符串中的分隔符,对这若干字符串进行拆分处理,再按照上述初始长度对拆分后的若干字符串进行切分处理,得到上述若干子字符串。
需要说明的是,拆分得到的若干字符串不再作为同一字符串。
具体地,在示出的一种实施方式中,可以识别与上述用户数据库中的若干用户账号对应的字符串中的分隔符,并将该分隔符替换为空格,以根据替换成的空格对这若干字符串进行拆分处理。
举例来说,假设与上述用户数据库中的某一用户账号对应的字符串为love_wangwu_1990,则可以先识别该字符串中作为分隔符的两个下划线,并将这两个下划线替换为空格,以根据替换成的空格对该字符串进行拆分处理,得到love、wangwu、1990这三个字符串,再按照上述初始长度对拆分后的这三个字符串分别进行切分处理,得到上述若干子字符串。
其中,三个字符串love、wangwu、1990不再作为同一字符串,即e、w不会作为相邻的两个子字符串,u、1也不会作为相邻的两个子字符串;以此类推。
(2)对与上述目标用户账号对应的字符串进行切分处理
在示出的一种实施方式中,在基于上述字符串表和上述切分规则,对与上述目标用户账号对应的字符串进行切分处理时,可以从该字符串中切分出与上述字符串表中的字符串匹配的子字符串,以及长度为预设的初始长度的子字符串。
其中,上述初始长度可以由技术人员根据实际需求预先设置;该初始长度通常被设置为1。
在这种情况下,上述切分规则可以包括以下示出的一种或多种:从字符串中切分出与上述字符串表中的字符串匹配且长度最长的子字符串;从字符串中切分出的长度为上述初始长度的子字符串的数量最少。
具体地,一种可能的实施方式是,可以在与上述目标用户账号对应的字符串中,从首个字符开始查找与上述字符串表中的字符串匹配的字符串,即确定在与该目标用户账号对应的字符串中出现的该字符串表中的字符串,并从与该目标用户账号对应的字符串中,切分出该字符串表中的字符串匹配到的子字符串,作为与该目标用户账号对应的子字符串,若在该字符串表中无匹配的字符串,则可以按照初始长度从与该目标用户账号对应的字符串中切分出与该目标用户账号对应的子字符串;后续,再对与该目标用户账号对应的字符串中的剩余的字符串按上述方式继续进行处理,直到对上述目标用户账号对应的字符串的每个字符都完成切分。
在实际应用中,可以采用动态规划的方式,将上述切分规则作为优化目标,并根据上述字符串表,针对与上述目标用户账号对应的字符串,计算达到该优化目标的最优解,以基于该最优解确定与该目标用户账号对应的子字符串。
继续以上述六个子字符串a、b、cd、acd、e、f构建得到的字符串表为例,假设与上述目标用户账号对应的字符串为acdgh,则在基于该字符串表和上述切分规则,对字符串acdgh进行切分处理时,由于字符串acdgh可以匹配到该字符串表中的字符串a、cd、acd,因此,以初始长度为1按上述实施方式可以得到a、cd、g、h和acd、g、h两种切分方式,由于匹配到的字符串中字符串acd的长度最长且切分出的初始长度字符串的数量最少(两种方式中切分出的初始长度字符串均为g、h),因此,可以先从字符串acdgh中切分出子字符串acd,作为与该目标用户账号对应的一个子字符串,再以初始长度为1将字符串acdgh中的剩余的字符串gh切分为子字符串g、h,作为与该目标用户账号对应的另外两个子字符串。也即,最终可以将字符串acdgh切分为acd、g、h这三个子字符串。
为了去除用户账号中的分隔符(例如:下划线“_”、中划线“-”、点“.”等)的影响,在示出的一种实施方式中,在基于上述字符串表和上述切分规则,对与上述目标用户账号对应的字符串进行切分处理时,为了去除用户账号中的分隔符的影响,可以先根据与该目标用户账号对应的字符串中的分隔符,对该字符串进行拆分处理,再基于该字符串表和该切分规则,对拆分后的若干字符串分别进行切分处理。
具体地,在示出的一种实施方式中,可以识别与上述目标用户账号对应的字符串中的分隔符,并将该分隔符替换为空格,以根据替换成的空格对该字符串进行拆分处理。
(3)计算上述目标用户账号的混乱度
在实际应用中,针对与某一用户账号对应的字符串,如果该字符串匹配到的上述字符串表中的字符串的长度越长、数量越多,则说明该字符串与该字符串表中的字符串的匹配度越高,从而说明该用户账号的混乱度越低。
因此,在示出的一种实施方式中,在基于与上述目标用户账号对应的子字符串,计算该目标用户账号的混乱度时,可以计算与该目标用户账号对应的子字符串的平均长度,并计算该平均长度的倒数,以将该倒数确定为该目标用户账号的混乱度。
举例来说,假设通过切分处理得到的与上述目标用户账号对应的子字符串一共有3个,且这3个子字符串的长度分别为1个字符、4个字符和4个字符,则可以计算出这3个子字符串的平均长度为3个字符,并计算出该平均长度的倒数约为0.33,此时,可以将该目标用户账号的混乱度确定为0.33。
在这种情况下,可以由技术人员针对用户账号的混乱度预先设置阈值,并在确定上述目标用户账号的混乱度大于该阈值时,将该目标用户账号确定为风险账号,并对该风险账号进行相应的处理。
在实际应用中,针对与多个用户账号对应的字符串,也可以通过比较这些字符串匹配到的上述字符串表中的字符串的长度和数量,确定这些用户账号中混乱度最高的用户账号。
继续以上述六个子字符串a、b、cd、acd、e、f构建得到的字符串表为例,假设与某一用户账号对应的字符串为acdeh,与另一用户账号对应的字符串为efgh,则字符串acdeh匹配到的该字符串表中的字符串为acd、e,字符串efgh匹配到的该字符串表中的字符串为e、f,则字符串acdeh和字符串efgh匹配到的该字符串表中的字符串的数量相同,但字符串acdeh匹配到的该字符串表中的字符串的长度更长,此时,可以认为字符串acdeh与该字符串表中的字符串的匹配度更高,即字符串acdeh的混乱度更低,而字符串efgh的混乱度更高。
根据本公开实施方式的数据处理方法,可以预先基于与用户数据库中的若干用户账号分别对应的字符串,确定出满足预设条件的若干子字符串,并将这若干子字符串构建为字符串表,后续可以利用该字符串表对目标用户账号进行混乱度检测;具体地,可以基于该字符串表和预设的切分规则,对与该目标用户账号对应的字符串进行切分处理,得到与该目标用户账号对应的子字符串,并基于与该目标用户账号对应的子字符串,计算该目标用户账号的混乱度。
采用上述方式,可以对用户账号的混乱度进行量化处理,从而实现根据量化后的该用户账号的混乱度,判断该用户账号是否为风险账号。
示例性介质
在介绍了本公开示例性实施方式的方法之后,接下来,参考图4对本公开示例性实施方式的介质进行说明。
本示例性实施方式中,可以通过程序产品实现上述方法,如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RE等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性装置
在介绍了本公开示例性实施方式的介质之后,接下来,参考图5对本公开示例性实施方式的装置进行说明。
下述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
图5示意性地示出了根据本公开实施方式的一种用户账号的混乱度检测装置的框图;所述装置包括:
获取模块501,用于获取待执行混乱度检测的目标用户账号;
切分模块502,用于基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;
计算模块503,用于基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
可选地,所述预设条件包括以下示出的一种或多种:
所述若干用户账号分别对应的字符串包含的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数相同;
所述若干用户账号分别对应的字符串包含的若干子字符串的总数量达到预设阈值。
可选地,所述基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串,通过以下方式确定:
按照预设的初始长度对与用户数据库中的若干用户账号分别对应的字符串进行切分处理,得到若干子字符串;
针对所述若干用户账号分别对应的字符串包含的若干子字符串,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的任意相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串。
可选地,所述基于所述若干子字符串中的相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串,包括:
重复以下步骤以得到满足预设条件的若干子字符串:
确定所述若干子字符串是否满足所述预设条件;
如果所述若干子字符串不满足所述预设条件,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将所述若干子字符串中的所述相邻的两个子字符串替换为所述目标子字符串。
可选地,所述若干用户账号分别对应的字符串包括:
根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述若干用户账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与用户数据库中的若干用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与用户数据库中的若干用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述目标用户账号对应的字符串为:
根据与所述目标用户账号对应的字符串中的分隔符,对所述目标账号字符串进行拆分处理,得到的若干字符串。
可选地,所述根据与所述目标用户账号对应的字符串中的分隔符,对所述字符串进行拆分处理,包括:
识别与所述目标用户账号对应的字符串中的分隔符,并将所述分隔符替换为空格,根据所述空格对所述字符串进行拆分处理。
可选地,所述与所述目标用户账号对应的子字符串,包括:与所述字符串表中的字符串匹配的子字符串;和/或,长度为预设的初始长度的子字符串;
所述切分规则包括以下示出的一种或多种:
从字符串中切分出与所述字符串表中的字符串匹配且长度最长的子字符串;
从字符串中切分出的长度为所述初始长度的子字符串的数量最少。
可选地,所述计算模块503具体用于:
计算与所述目标用户账号对应的子字符串的平均长度,并计算所述平均长度的倒数,以将所述倒数确定为所述目标用户账号的混乱度。
可选地,所述装置还包括:
确定模块504,用于确定所述目标用户账号的混乱度是否大于预设阈值,并在所述目标用户账号的混乱度大于所述阈值时,将所述目标用户账号确定为风险账号。
可选地,所述用户账号为电子邮箱账号的前缀。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,参考图6对本公开示例性实施方式的计算设备进行说明。
图6显示的计算设备600仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,计算设备600以通用计算设备的形式表现。计算设备600的组件可以包括但不限于:上述至少一个处理单元601、上述至少一个存储单元602,连接不同系统组件(包括处理单元601和存储单元602)的总线603。
总线603包括数据总线、控制总线和地址总线。
存储单元602可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)6021和/或高速缓存存储器6022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)6023。
存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025,这样的程序模块6024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信。
这种通信可以通过输入/输出(I/O)接口605进行。并且,计算设备600还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器606通过总线603与计算设备600的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了用户账号的混乱度检测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种用户账号的混乱度检测方法,所述方法包括:
获取待执行混乱度检测的目标用户账号;
基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;
基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
2.根据权利要求1所述的方法,所述预设条件包括以下示出的一种或多种:
所述若干用户账号分别对应的字符串包含的若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数相同;
所述若干用户账号分别对应的字符串包含的若干子字符串的总数量达到预设阈值。
3.根据权利要求2所述的方法,所述基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串,通过以下方式确定:
按照预设的初始长度对与用户数据库中的若干用户账号分别对应的字符串进行切分处理,得到若干子字符串;
针对所述若干用户账号分别对应的字符串包含的若干子字符串,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的任意相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串。
4.根据权利要求3所述的方法,所述基于所述若干子字符串中的相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,对所述若干子字符串中的相邻的两个子字符串进行合并处理,得到满足预设条件的若干子字符串,包括:
重复以下步骤以得到满足预设条件的若干子字符串:
确定所述若干子字符串是否满足所述预设条件;
如果所述若干子字符串不满足所述预设条件,基于所述若干子字符串中的任意相邻的两个子字符串组合成的字符串,在与所述若干用户账号分别对应的字符串中匹配到的次数,将匹配次数最大的任意相邻的两个子字符串合并为一个目标子字符串,并将所述若干子字符串中的所述相邻的两个子字符串替换为所述目标子字符串。
5.根据权利要求1所述的方法,所述与所述目标用户账号对应的子字符串,包括:与所述字符串表中的字符串匹配的子字符串;和/或,长度为预设的初始长度的子字符串;
所述切分规则包括以下示出的一种或多种:
从字符串中切分出与所述字符串表中的字符串匹配且长度最长的子字符串;
从字符串中切分出的长度为所述初始长度的子字符串的数量最少。
6.根据权利要求1所述的方法,所述基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度,包括:
计算与所述目标用户账号对应的子字符串的平均长度,并计算所述平均长度的倒数,以将所述倒数确定为所述目标用户账号的混乱度。
7.根据权利要求1所述的方法,所述方法还包括:
确定所述目标用户账号的混乱度是否大于预设阈值;
如果所述目标用户账号的混乱度大于所述阈值,则将所述目标用户账号确定为风险账号。
8.一种用户账号的混乱度检测装置,所述装置包括:
获取模块,用于获取待执行混乱度检测的目标用户账号;
切分模块,用于基于字符串表和预设的切分规则,对与所述目标用户账号对应的字符串进行切分处理,得到与所述目标用户账号对应的子字符串;其中,所述字符串表包括基于与用户数据库中的若干用户账号分别对应的字符串确定的满足预设条件的若干子字符串;
计算模块,用于基于与所述目标用户账号对应的子字符串,计算所述目标用户账号的混乱度。
9.一种介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种计算设备,包括:
处理器;
用于存储处理器可执行程序的存储器;
其中,所述处理器通过运行所述可执行程序以实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130163.8A CN113890756B (zh) | 2021-09-26 | 2021-09-26 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130163.8A CN113890756B (zh) | 2021-09-26 | 2021-09-26 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113890756A true CN113890756A (zh) | 2022-01-04 |
CN113890756B CN113890756B (zh) | 2024-01-02 |
Family
ID=79006799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130163.8A Active CN113890756B (zh) | 2021-09-26 | 2021-09-26 | 用户账号的混乱度检测方法、装置、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113890756B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697153A (zh) * | 2009-10-30 | 2010-04-21 | 卓望数码技术(深圳)有限公司 | 一种非法词判定方法和非法词判定装置 |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
US20150326520A1 (en) * | 2012-07-30 | 2015-11-12 | Tencent Technology (Shenzhen) Company Limited | Method and device for detecting abnormal message based on account attribute and storage medium |
US20180096144A1 (en) * | 2015-11-17 | 2018-04-05 | Wuhan Antiy Information Technology Co., Ltd. | Method, system, and device for inferring malicious code rule based on deep learning method |
US20180145993A1 (en) * | 2013-12-10 | 2018-05-24 | Nippon Telegraph And Telephone Corporation | Url matching apparatus, url matching method, and url matching program |
US20180212986A1 (en) * | 2015-08-17 | 2018-07-26 | NSFOCUS Information Technology Co., Ltd. | Network attack detection method and device |
US20180268166A1 (en) * | 2017-03-17 | 2018-09-20 | Mediasift Limited | Event processing system |
US20180285565A1 (en) * | 2017-03-30 | 2018-10-04 | AVAST Software s.r.o. | Malware detection in applications based on presence of computer generated strings |
WO2018184510A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 分词方法、装置及存储介质 |
CN111585955A (zh) * | 2020-03-31 | 2020-08-25 | 中南大学 | 一种http请求异常检测方法及系统 |
CN111666502A (zh) * | 2020-07-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
CN111770079A (zh) * | 2020-06-24 | 2020-10-13 | 绿盟科技集团股份有限公司 | 一种web框架注入漏洞检测方法及装置 |
CN112070649A (zh) * | 2020-09-09 | 2020-12-11 | 焦点科技股份有限公司 | 一种去除特定字符串水印的方法及系统 |
CN113382000A (zh) * | 2021-06-09 | 2021-09-10 | 北京天融信网络安全技术有限公司 | 一种ua字符串的异常检测方法、装置、设备及介质 |
-
2021
- 2021-09-26 CN CN202111130163.8A patent/CN113890756B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101697153A (zh) * | 2009-10-30 | 2010-04-21 | 卓望数码技术(深圳)有限公司 | 一种非法词判定方法和非法词判定装置 |
US20150326520A1 (en) * | 2012-07-30 | 2015-11-12 | Tencent Technology (Shenzhen) Company Limited | Method and device for detecting abnormal message based on account attribute and storage medium |
CN103617235A (zh) * | 2013-11-26 | 2014-03-05 | 中国科学院信息工程研究所 | 一种基于粒子群算法的网络水军账号识别方法及系统 |
US20180145993A1 (en) * | 2013-12-10 | 2018-05-24 | Nippon Telegraph And Telephone Corporation | Url matching apparatus, url matching method, and url matching program |
US20180212986A1 (en) * | 2015-08-17 | 2018-07-26 | NSFOCUS Information Technology Co., Ltd. | Network attack detection method and device |
US20180096144A1 (en) * | 2015-11-17 | 2018-04-05 | Wuhan Antiy Information Technology Co., Ltd. | Method, system, and device for inferring malicious code rule based on deep learning method |
US20180268166A1 (en) * | 2017-03-17 | 2018-09-20 | Mediasift Limited | Event processing system |
US20180285565A1 (en) * | 2017-03-30 | 2018-10-04 | AVAST Software s.r.o. | Malware detection in applications based on presence of computer generated strings |
WO2018184510A1 (zh) * | 2017-04-07 | 2018-10-11 | 腾讯科技(深圳)有限公司 | 分词方法、装置及存储介质 |
CN111585955A (zh) * | 2020-03-31 | 2020-08-25 | 中南大学 | 一种http请求异常检测方法及系统 |
CN111770079A (zh) * | 2020-06-24 | 2020-10-13 | 绿盟科技集团股份有限公司 | 一种web框架注入漏洞检测方法及装置 |
CN111666502A (zh) * | 2020-07-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
CN112070649A (zh) * | 2020-09-09 | 2020-12-11 | 焦点科技股份有限公司 | 一种去除特定字符串水印的方法及系统 |
CN113382000A (zh) * | 2021-06-09 | 2021-09-10 | 北京天融信网络安全技术有限公司 | 一种ua字符串的异常检测方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
刘刚, 魏锋, 吴铭, 张洪刚, 郭军: "基于LDP算法的手写数字串切分", 北京邮电大学学报, no. 01 * |
邹智敏;郭荷清;高英;: "一种对英文字符串进行分词的方法", 计算机应用研究, no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN113890756B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106844576B (zh) | 一种异常检测方法、装置和监控设备 | |
CN106022349B (zh) | 用于设备类型确定的方法和系统 | |
US10885042B2 (en) | Associating contextual structured data with unstructured documents on map-reduce | |
Chen et al. | Bert-log: Anomaly detection for system logs based on pre-trained language model | |
US10489715B2 (en) | Fingerprinting and matching log streams | |
CN110348471B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
US20170091190A1 (en) | Computer system programmed to identify common subsequences in logs | |
CN113906445A (zh) | 上下文感知数据挖掘 | |
CN110555454B (zh) | 用于跟踪网络中的主题随时间的演变的方法、系统和介质 | |
US9563635B2 (en) | Automated recognition of patterns in a log file having unknown grammar | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
US9715490B2 (en) | Automating multilingual indexing | |
CN113890756B (zh) | 用户账号的混乱度检测方法、装置、介质和计算设备 | |
CN115603955B (zh) | 异常访问对象识别方法、装置、设备和介质 | |
WO2023125336A1 (en) | Methods and devices for generating sensitive text detectors | |
CN111210109A (zh) | 基于关联用户预测用户风险的方法、装置和电子设备 | |
US11961316B2 (en) | Text extraction using optical character recognition | |
CN113688240B (zh) | 威胁要素提取方法、装置、设备及存储介质 | |
CN115567572A (zh) | 确定对象异常度的方法、装置、设备以及存储介质 | |
US11922129B2 (en) | Causal knowledge identification and extraction | |
CN115481031A (zh) | 南向网关检测方法、装置、设备及介质 | |
US20220083918A1 (en) | Intelligent scoring of missing data records | |
US20110172991A1 (en) | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program | |
US20200026754A1 (en) | Method for improving the accuracy of a statement | |
CN115033701B (zh) | 文本向量生成模型训练方法、文本分类方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |