CN111371767A - 恶意账号识别方法、恶意账号识别装置、介质及电子设备 - Google Patents

恶意账号识别方法、恶意账号识别装置、介质及电子设备 Download PDF

Info

Publication number
CN111371767A
CN111371767A CN202010123002.5A CN202010123002A CN111371767A CN 111371767 A CN111371767 A CN 111371767A CN 202010123002 A CN202010123002 A CN 202010123002A CN 111371767 A CN111371767 A CN 111371767A
Authority
CN
China
Prior art keywords
node
similarity
user
group
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010123002.5A
Other languages
English (en)
Other versions
CN111371767B (zh
Inventor
陈辉亮
金洪波
金欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN202010123002.5A priority Critical patent/CN111371767B/zh
Publication of CN111371767A publication Critical patent/CN111371767A/zh
Application granted granted Critical
Publication of CN111371767B publication Critical patent/CN111371767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种恶意账号识别方法、恶意账号识别装置、计算机可读存储介质及电子设备;涉及计算机技术领域;包括:根据预设分组条件对采集的用户数据对应的用户账号分组;计算各组间的第一相似度;根据第一相似度构建节点关系图;计算图中各组的节点特征分别与节点关系图的全局特征间的第二相似度;根据第二相似度选取目标节点;根据各组间的连接权重计算各组的分值,并根据分值从目标节点中选取第一特定节点;根据预设判定规则从第一特定节点内识别恶意账号。上述方法能够提升对于恶意账号的识别准确率。

Description

恶意账号识别方法、恶意账号识别装置、介质及电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种恶意账号识别方 法、恶意账号识别装置、计算机可读存储介质及电子设备。
背景技术
电商平台、短消息发布平台等多种平台中大都存在恶意账号。恶意 账号通常具有一定的规模和相似性,用于大量的占用电商平台的优惠活 动名额,或者,用于提升短消息发布平台中发布消息的博主的粉丝数量。 而恶意账号的存在会扰乱各平台的营运秩序,增加服务器的计算负担。 基于上述情况,各平台通常会对用户账号的行为进行识别,若识别出某 一账号的行为异常,则将该账号判定为恶意账号。但是,这种方法通常 会误将正常账号识别为恶意账号,即,存在识别准确率不高的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申 请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现 有技术的信息。
发明内容
本申请的目的在于提供一种恶意账号识别方法、恶意账号识别装置、 计算机可读存储介质及电子设备,通过对用户账号分组,根据用户账号 之间的相似性构建节点关系图,以及结合用户账号的交易数据识别该用 户账号是否为恶意账号,可以提升对于恶意账号的识别准确率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分 地通过本申请的实践而习得。
根据本申请的第一方面,提供一种恶意账号识别方法,包括:
采集特定事件对应的用户数据,并根据预设分组条件对用户数据对 应的用户账号进行分组,得到分组结果;其中,用户数据包括用户画像 数据和用户行为数据;
计算分组结果中各组之间的第一相似度,并根据第一相似度构建由 各组作为节点的节点关系图;
计算节点关系图中各组对应的节点特征分别与节点关系图对应的全 局特征之间的第二相似度,并根据第二相似度从节点关系图中选取目标 节点;
根据各组之间的连接权重计算各组对应的分值,并根据分值从目标 节点中选取第一特定节点;
根据预设判定规则从第一特定节点内的用户账号中识别恶意账号。
在本申请的一种示例性实施例中,采集特定事件对应的用户数据, 包括:
根据特定事件对应的发布方式确定数据采集方式;其中,发布方式 包括客户端发布和网页发布;
根据数据采集方式采集特定事件对应的用户数据。
在本申请的一种示例性实施例中,用户画像数据包括性别、年龄、 账号注册时长、账号活跃度以及历史消费数据;用户行为数据包括事件 参与时间、注册地址、注册设备以及联系方式。
在本申请的一种示例性实施例中,预设分组条件包括预设时长、注 册地址以及注册设备中至少一种,根据预设分组条件对用户数据对应的 用户账号进行分组,得到分组结果,包括:
根据预设时长对用户数据对应的用户账号进行分组,得到时长分组 结果;根据注册地址对时长分组结果进行分组,得到分组结果,其中, 分组结果中的组数量大于等于时长分组结果中的组数量;
或者,
根据预设时长对用户数据对应的用户账号进行分组,得到时长分组 结果;根据注册设备对时长分组结果进行分组,得到分组结果;其中, 分组结果中的组数量大于等于时长分组结果的组数量。
在本申请的一种示例性实施例中,计算分组结果中各组之间的第一 相似度,包括:
根据用户账号对应的属性数据确定分组结果中各组对应的属性分布; 其中,属性数据包括好友数量、账号等级以及历史行为中至少一种;
计算各属性分布之间的第一相似度。
在本申请的一种示例性实施例中,计算各属性分布之间的第一相似 度,包括:
计算属性分布两两之间的正向散度和反向散度,并将正向散度与反 向散度之和确定为属性分布两两之间的第一相似度;
或者,
对各属性分布进行数据归一化,并将属性分布对应的归一化结果转 换至特定维度,计算特定维度下各归一化结果之间的距离,作为属性分 布两两之间的第一相似度。
在本申请的一种示例性实施例中,根据第一相似度构建由各组作为 节点的节点关系图,包括:
根据第一相似度确定各组之间的连接权重,并通过权重阈值对连接 权重进行筛选;
依据筛选结果构建由各组作为节点的节点关系图。
在本申请的一种示例性实施例中,计算节点关系图中各组对应的节 点特征分别与节点关系图对应的全局特征之间的第二相似度,包括:
确定节点关系图中各组内针对特定事件每个用户账号对应的属性数 据和当前交易数据;
根据对属性数据和当前交易数据的综合统计,确定各组对应的节点 特征,并根据节点特征确定节点关系图对应的全局特征;
计算节点特征与全局特征之间的第二相似度。
在本申请的一种示例性实施例中,计算节点关系图中各组对应的节 点特征分别与节点关系图对应的全局特征之间的第二相似度,包括:
确定节点关系图中各组内每个用户账号对应的历史交易数据以及针 对特定事件每个用户账号对应的属性数据和当前交易数据;
根据对历史交易数据、属性数据和当前交易数据的综合统计,确定 各组对应的节点特征,并根据节点特征确定节点关系图对应的全局特征;
计算节点特征与全局特征之间的第二相似度。
在本申请的一种示例性实施例中,根据各组之间的连接权重计算各 组对应的分值,包括:
根据各组之间的连接关系计算各组对应的连接权重之和,并计算各 组对应的各连接权重分别与连接权重之和的比例,以及,根据比例计算 各组对应的影响因子和分值;
根据前一代对应的分值和影响因子计算当前一代对应的分值,直到 完成预设次数的迭代;
将预设次数中所述各组最后一次迭代的分值确定为各组对应的分值。
在本申请的一种示例性实施例中,根据预设判定规则从第一特定节 点内的用户账号中识别恶意账号之前,上述方法还可以包括以下步骤:
计算各组内的用户账号相似度,若存在目标组,则将目标组对应的 节点确定为第二特定节点,目标组内的用户账号相似度大于预设相似度。
在本申请的一种示例性实施例中,根据预设判定规则从第一特定节 点内的用户账号中识别恶意账号,包括:
计算第一特定节点和第二特定节点的并集,将并集中的节点确定为 节点关系图中的可疑节点;根据预设判定规则从可疑节点内的用户账号 中识别恶意账号。
在本申请的一种示例性实施例中,预设判定规则包括预设阈值或先 验信息,根据预设判定规则从可疑节点内的用户账号中识别恶意账号, 包括:
从可疑节点内选取数量大于预设阈值的目标用户账号并将目标用户 账号识别为恶意账号,其中,各目标用户账号之间的相似度大于目标用 户账号与可疑节点内其他用户账号的相似度;
或者,
根据先验信息对可疑节点内的用户账号进行筛选,将筛选后的用户 账号识别为恶意账号。
根据本申请的第二方面,提供一种恶意账号识别装置,包括账号分 组单元、节点关系图构建单元、节点选取单元以及恶意账号识别单元, 其中:
账号分组单元,用于采集特定事件对应的用户数据,并根据预设分 组条件对用户数据对应的用户账号进行分组,得到分组结果;其中,用 户数据包括用户画像数据和用户行为数据;
节点关系图构建单元,用于计算分组结果中各组之间的第一相似度, 并根据第一相似度构建由各组作为节点的节点关系图;
节点选取单元,用于计算节点关系图中各组对应的节点特征分别与 节点关系图对应的全局特征之间的第二相似度,并根据第二相似度从节 点关系图中选取目标节点;
节点选取单元,还用于根据各组之间的权重值计算各组对应的分值, 并根据分值从目标节点中选取第一特定节点;
恶意账号识别单元,用于根据预设判定规则从第一特定节点内的用 户账号中识别恶意账号。
在本申请的一种示例性实施例中,账号分组单元采集特定事件对应 的用户数据的方式具体可以为:
账号分组单元根据特定事件对应的发布方式确定数据采集方式;其 中,发布方式包括客户端发布和网页发布;
账号分组单元根据数据采集方式采集特定事件对应的用户数据。
在本申请的一种示例性实施例中,用户画像数据包括性别、年龄、 账号注册时长、账号活跃度以及历史消费数据;用户行为数据包括事件 参与时间、注册地址、注册设备以及联系方式。
在本申请的一种示例性实施例中,预设分组条件包括预设时长、注 册地址以及注册设备中至少一种,账号分组单元根据预设分组条件对用 户数据对应的用户账号进行分组,得到分组结果的方式具体可以为:
账号分组单元根据预设时长对用户数据对应的用户账号进行分组, 得到时长分组结果;根据注册地址对时长分组结果进行分组,得到分组 结果,其中,分组结果中的组数量大于等于时长分组结果中的组数量;
或者,
账号分组单元根据预设时长对用户数据对应的用户账号进行分组, 得到时长分组结果;根据注册设备对时长分组结果进行分组,得到分组 结果;其中,分组结果中的组数量大于等于时长分组结果的组数量。
在本申请的一种示例性实施例中,节点关系图构建单元计算分组结 果中各组之间的第一相似度的方式具体可以为:
节点关系图构建单元根据用户账号对应的属性数据确定分组结果中 各组对应的属性分布;其中,属性数据包括好友数量、账号等级以及历 史行为中至少一种;
节点关系图构建单元计算各属性分布之间的第一相似度。
在本申请的一种示例性实施例中,节点关系图构建单元计算各属性 分布之间的第一相似度的方式具体可以为:
节点关系图构建单元计算属性分布两两之间的正向散度和反向散度, 并将正向散度与反向散度之和确定为属性分布两两之间的第一相似度;
或者,
节点关系图构建单元对各属性分布进行数据归一化,并将属性分布 对应的归一化结果转换至特定维度,计算特定维度下各归一化结果之间 的距离,作为属性分布两两之间的第一相似度。
在本申请的一种示例性实施例中,节点关系图构建单元根据第一相 似度构建由各组作为节点的节点关系图的方式具体可以为:
节点关系图构建单元根据第一相似度确定各组之间的连接权重,并 通过权重阈值对连接权重进行筛选;
节点关系图构建单元依据筛选结果构建由各组作为节点的节点关系 图。
在本申请的一种示例性实施例中,节点选取单元计算节点关系图中 各组对应的节点特征分别与节点关系图对应的全局特征之间的第二相似 度的方式具体可以为:
节点选取单元确定节点关系图中各组内针对特定事件每个用户账号 对应的属性数据和当前交易数据;
节点选取单元根据对属性数据和当前交易数据的综合统计,确定各 组对应的节点特征,并根据节点特征确定节点关系图对应的全局特征;
节点选取单元计算节点特征与全局特征之间的第二相似度。
在本申请的一种示例性实施例中,节点选取单元计算节点关系图中 各组对应的节点特征分别与节点关系图对应的全局特征之间的第二相似 度的方式具体可以为:
节点选取单元确定节点关系图中各组内每个用户账号对应的历史交 易数据以及针对特定事件每个用户账号对应的属性数据和当前交易数据;
节点选取单元根据对历史交易数据、属性数据和当前交易数据的综 合统计,确定各组对应的节点特征,并根据节点特征确定节点关系图对 应的全局特征;
节点选取单元计算节点特征与全局特征之间的第二相似度。
在本申请的一种示例性实施例中,节点选取单元根据各组之间的连 接权重计算各组对应的分值的方式具体可以为:
节点选取单元根据各组之间的连接关系计算各组对应的连接权重之 和,并计算各组对应的各连接权重分别与连接权重之和的比例,以及, 根据比例计算各组对应的影响因子和分值;
节点选取单元根据前一代对应的分值和影响因子计算当前一代对应 的分值,直到完成预设次数的迭代;
节点选取单元将预设次数中所述各组最后一次迭代的分值确定为各 组对应的分值。
在本申请的一种示例性实施例中,节点选取单元,还用于在恶意账 号识别单元根据预设判定规则从第一特定节点内的用户账号中识别恶意 账号之前,计算各组内的用户账号相似度,若存在目标组,则将目标组 对应的节点确定为第二特定节点,目标组内的用户账号相似度大于预设 相似度。
在本申请的一种示例性实施例中,恶意账号识别单元根据预设判定 规则从第一特定节点内的用户账号中识别恶意账号的方式具体可以为:
恶意账号识别单元计算第一特定节点和第二特定节点的并集,将并 集中的节点确定为节点关系图中的可疑节点;根据预设判定规则从可疑 节点内的用户账号中识别恶意账号。
在本申请的一种示例性实施例中,预设判定规则包括预设阈值或先 验信息,恶意账号识别单元根据预设判定规则从可疑节点内的用户账号 中识别恶意账号的方式具体可以为:
恶意账号识别单元从可疑节点内选取数量大于预设阈值的目标用户 账号并将目标用户账号识别为恶意账号,其中,各目标用户账号之间的 相似度大于目标用户账号与可疑节点内其他用户账号的相似度;
或者,
恶意账号识别单元根据先验信息对可疑节点内的用户账号进行筛选, 将筛选后的用户账号识别为恶意账号。
根据本申请的第三方面,提供一种电子设备,包括:处理器;以及 存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为 经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本申请的第四方面,提供一种计算机可读存储介质,其上存储 有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述 的方法。
本申请示例性实施例可以具有以下部分或全部有益效果:
在本申请的一示例实施方式所提供的恶意账号识别方法中,可以采 集特定事件(如,酸奶限时促销活动)对应的用户数据,并根据预设分 组条件对用户数据对应的用户账号进行分组,得到分组结果(如,组1、 组2、……、组n,n为正整数);其中,用户数据包括用户画像数据和 用户行为数据;以及,可以计算分组结果中各组之间的第一相似度,并 根据第一相似度构建由各组作为节点的节点关系图;以及,可以计算节 点关系图中各组对应的节点特征分别与节点关系图对应的全局特征之间 的第二相似度,并根据第二相似度从节点关系图中选取目标节点;以及, 可以根据各组之间的连接权重计算各组对应的分值,并根据分值从目标 节点中选取第一特定节点;以及,可以根据预设判定规则从第一特定节 点内的用户账号中识别恶意账号。依据上述方案描述,本申请一方面能 够通过对用户账号分组,根据用户账号之间的相似性构建节点关系图, 以及结合用户账号的交易数据识别该用户账号是否为恶意账号,可以提 升对于恶意账号的识别准确率;另一方面,还能够通过对恶意账号的准 确识别,提升恶意账号的召回率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解 释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合 本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地, 下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人 员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
图1示出了可以应用本申请实施例的一种恶意账号识别方法及恶意 账号识别装置的示例性系统架构的示意图;
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的 结构示意图;
图3示意性示出了根据本申请的一个实施例的恶意账号识别方法的 流程图;
图4示意性示出了根据本申请的一个实施例的针对特定事件的用户 账号分组实例图;
图5示意性示出了根据本申请的一个实施例中的节点关系图;
图6示意性示出了根据本申请的一个实施例中可疑节点的筛选方式 示意图;
图7示意性示出了根据本申请的一个实施例对于分类模型的训练示 意图;
图8示意性示出了根据本申请的另一个实施例的恶意账号识别方法 的流程图;
图9示意性示出了根据本申请的一个实施例中的恶意账号识别装置 的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式 能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提 供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构 思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以 任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供 许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域 技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中 的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其 它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申 请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图 中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描 述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上 独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个 或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处 理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本申请实施例的一种恶意账号识别方法及恶意 账号识别装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的 一个或多个,网络104和服务器105。网络104用以在终端设备101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连 接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、 102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、 便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设 备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任 意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器 组成的服务器集群等。
本申请实施例所提供的恶意账号识别方法一般由终端设备101、102 或103执行,相应地,恶意账号识别装置一般设置于终端设备101、102 或103中。但本领域技术人员容易理解的是,本申请实施例所提供的恶 意账号识别方法也可以由服务器105执行,相应的,恶意账号识别装置 也可以设置于服务器105中,本示例性实施例中对此不做特殊限定。举 例而言,在一种示例性实施例中,终端设备101、102或103可以采集特 定事件(如,营销活动)对应的用户数据并传输至服务器105,以使得 服务器105根据预设分组条件对用户数据对应的用户账号进行分组,得 到分组结果,并计算分组结果中各组之间的第一相似度,根据第一相似 度构建由各组作为节点的节点关系图;计算节点关系图中各组对应的节 点特征分别与节点关系图对应的全局特征之间的第二相似度,并根据第 二相似度从节点关系图中选取目标节点;以及,根据各组之间的连接权 重计算各组对应的分值,并根据分值从目标节点中选取第一特定节点; 以及,根据预设判定规则从第一特定节点内的用户账号中识别恶意账号。 进而,可以将识别结果反馈至终端设备101、102或103,以使得终端设 备101、102或103在检测到恶意账号参加营销活动时输出用于表示当前 用于账号无法参加营销活动的信息,避免营销资源的浪费,维护营销活 动的正常有序进行。
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的 结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示 例,不应对本申请实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可 以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加 载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处 理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU 201、 ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口 205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的 输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调 制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特 网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可 拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需 要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安 装入存储部分208。
特别地,根据本申请的实施例,下文参考流程图描述的过程可以被 实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产 品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含 用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机 程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质 211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行 本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统 200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处 理器用于处理有关机器学习的计算操作。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计 算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使 用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工 智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出 一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就 是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与 决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技 术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人 工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、 机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音 处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率 论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究 计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新 组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的 核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领 域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、 迁移学习、归纳学习、式教学习等技术。
目前,随着互联网的发展,ip资源的成本降低,设备号容易通过软 件进行修改,因此,降低了对于恶意账号的识别率;并且由于国内的环 境,很多企事业单位,学校等共享一个ip,以ip为手段的识别将会造成 误拦,影响特定事件(如,营销活动)的发展效果。而有监督模型通常 只能检测出与训练样本模式类似的恶意账号,对于新型恶意账号的特征 模式无法识别。
基于上述问题,本示例实施方式提供了一种恶意账号识别方法。该 恶意账号识别方法可以应用于上述服务器105,也可以应用于上述终端 设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊 限定。参考图3所示,该恶意账号识别方法可以包括以下步骤S310至步 骤S350:
步骤S310:采集特定事件对应的用户数据,并根据预设分组条件对 用户数据对应的用户账号进行分组,得到分组结果;其中,用户数据包 括用户画像数据和用户行为数据。
步骤S320:计算分组结果中各组之间的第一相似度,并根据第一相 似度构建由各组作为节点的节点关系图。
步骤S330:计算节点关系图中各组对应的节点特征分别与节点关系 图对应的全局特征之间的第二相似度,并根据第二相似度从节点关系图 中选取目标节点。
步骤S340:根据各组之间的连接权重计算各组对应的分值,并根据 分值从目标节点中选取第一特定节点。
步骤S350:根据预设判定规则从第一特定节点内的用户账号中识别 恶意账号。
需要说明的是,本申请可以应用于客户端或网页等入口的各种营销 活动,例如,游戏、视频、点券、会员类的营销活动。由于需要活动在 单位时间段的全部数据,本方案适用对恶意账号进行识别,以便将其加 入到黑名单中;或者,适用于当用户所参与的活动流程较长时,对用户 及时进行柔性方面的验证,例如,要求输入图形验证码、手机验证码等,可以阻止自动批量的恶意刷取,避免营销资源的浪费,维护营销活动的 正常有序进行。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,采集特定事件对应的用户数据,并根据预设分组条 件对用户数据对应的用户账号进行分组,得到分组结果;其中,用户数 据包括用户画像数据和用户行为数据。
其中,特定事件可以为线上事件也可以为线下事件,具体地,特定 事件可以为营销活动,特定事件对应的用户数据为参加本次营销活动(如, 酸奶满减优惠券限时领活动)的用户的相关数据。预设分组条件用于对 用户账号进行分组,预设分组条件中可以包括一个或多个条件,本申请 实施例不作限定。此外,分组结果中包括至少两个组,每个组中包括至 少一个用户账号。用户画像数据包括性别、年龄、账号注册时长、账号 活跃度以及历史消费数据;用户行为数据包括事件参与时间、注册地址、 注册设备以及联系方式(如,手机号)。此外,用户画像数据还可以包 括历史消费数据的均值、最小值、方差、参与营销活动次数占比、花费 金额占比等,本申请实施例不作限定。其中,事件参与时间可以为用户 参与营销活动的时刻;注册地址可以为IP地址,其中,IP(Internet Protocol) 是网际互连协议;注册设备中可以包括设备名称、设备号等信息。此外, 每个用户账号存在与其对应的用户数据,由于用户数据中包括用户画像 数据和用户行为数据,因此,每个用户账号均存在与其对应的用户画像 数据和用户行为数据。特定事件对应的用户数据可以为一个或多个,若 对应的用户数据为多个,可以理解为参与该特定事件的用户有多个。
本申请实施例中,可选的,采集特定事件对应的用户数据,包括:
根据特定事件对应的发布方式确定数据采集方式;其中,发布方式 包括客户端发布和网页发布;
根据数据采集方式采集特定事件对应的用户数据。
其中,发布方式用于表示发布特定事件的方式,如,通过客户端发 布特定事件或通过网页发布特定事件;发布方式可以包括线上发布和线 下发布,线上发布包括客户端发布和网页发布。此外,数据采集方式用 于表示采集用户数据的方式,可以包括通过用户账号采集的方式也可以 包括通过设备IP采集的方式,本申请实施例不作限定。
具体地,通过根据特定事件对应的发布方式确定数据采集方式的方 式可以为:若特定事件对应的发布方式为客户端发布,则将数据采集方 式确定为通过用户账号采集的方式;若特定事件对应的发布方式为网页 发布,则将数据采集方式确定为通过设备IP采集的方式。
进一步地,若数据采集方式为通过用户账号采集的方式,根据数据 采集方式采集特定事件对应的用户数据的方式可以为:从存储系统中调 用针对特定事件中各用户账号的日志;从日志中提取各用户账号对应的 用户数据。其中,存储系统用于存储用户账号对应的日志,日志记录了 用户账号在特定事件中的行为。
进一步地,若数据采集方式为通过设备IP采集的方式,根据数据采 集方式采集特定事件对应的用户数据的方式可以为:采集参与特定事件 的设备IP;根据设备IP确定参与特定事件的用户账号;从存储系统中调 用针对特定事件中各用户账号的日志;从日志中提取各用户账号对应的 用户数据。
可见,实施该可选的实施例,能够根据特定事件的发布方式确定匹 配的数据采集方式,提升数据采集效率。
本申请实施例中,可选的,预设分组条件包括预设时长、注册地址 以及注册设备中至少一种,根据预设分组条件对用户数据对应的用户账 号进行分组,得到分组结果,包括:
根据预设时长对用户数据对应的用户账号进行分组,得到时长分组 结果;根据注册地址对时长分组结果进行分组,得到分组结果,其中, 分组结果中的组数量大于等于时长分组结果中的组数量;或者,
根据预设时长对用户数据对应的用户账号进行分组,得到时长分组 结果;根据注册设备对时长分组结果进行分组,得到分组结果;其中, 分组结果中的组数量大于等于时长分组结果的组数量;
或者,根据预设时长对用户数据对应的用户账号进行分组,得到分 组结果;
或者,根据注册地址对用户数据对应的用户账号进行分组,得到分 组结果;
或者,根据注册设备对用户数据对应的用户账号进行分组,得到分 组结果。
其中,预设时长为预先设定的时间段长度,如,一个小时。此外, 预设分组条件还可以包括账号注册地、年龄等,本申请实施例不作限定。 时长分组结果中各组对应的时长相同;举例来说,时长分组结果中包括 3个组,一个组对应的特定事件发生时间为12:00-13:00,另一个组对应 的特定事件发生时间为13:00-14:00,又一个组对应的特定事件发生时间 为14:00-15:00。
具体地,根据注册设备对时长分组结果进行分组,得到分组结果的 方式可以为:根据注册设备的设备信息对时长分组结果进行分组,得到 分组结果;其中,设备信息可以包括userAgent属性、浏览器版本,操作 系统等,本申请实施例不作限定。
请参阅图4,图4示意性示出了根据本申请的一个实施例的针对特 定事件的用户账号分组实例图。如图4所示,可以根据预设分组条件(如, 预设时长、注册地址以及注册设备中至少一种)针对特定事件的用户账 号进行分组,得到组1、组2、……、组n;其中,n为大于等于3的正 整数。若预设分组条件为预设时长,那么,组1、组2、……、组n分别 对应了相同的时长。根据对组间的相似度计算,能够确定出权重12、权 重13、权重23、……;其中,权重12用于表示组1代表的节点与组2 代表的节点之间的连接权重,权重13用于表示组1代表的节点与组3 代表的节点之间的连接权重,权重23同理。进而,可以通过权重阈值将 前一步骤确定出的权重12、权重13、权重23、……进行过滤,得到权 重12、权重23、权重34、……。可见,通过权重阈值滤除了权重13等 连接权重,这样可以去除连接关系较弱的两个节点之间的连接,提升识 别恶意账号的准确性。
可见,实施该可选的实施例,能够通过对用户账号进行分组,集中 通过小号恶意占取优惠活动名额的恶意账号,提升对于恶意账号的识别 准确率。
在步骤S320中,计算分组结果中各组之间的第一相似度,并根据第 一相似度构建由各组作为节点的节点关系图。
其中,节点关系图可以为有权无向的关联图,节点关系图中可以包 括至少两个节点,节点之间通过边进行连接,每条边存在对应的权重, 用于表征被边连接的两个节点之间的相似程度。举例来说,每个用户账 号存在对应的等级,以及相应的好友数量,若组A中包括用户账号A1 和用户账号A2,对应的等级均为10、好友数量均为22;组B中包括用 户账号B1和用户账号B2,对应的等级均为10、好友数量均为23,那么, 组A和组B对应的等级均为10(即,节点内用户账号的的国际平均值), 组A对应的好友数量为22,组B对应的好友数量为23。通过对组A和 组B的相似度计算,可以确定出组A和组B的第一相似度为90%,而 90%大于预设权重60%,因此,可以将组A和组B分别作为两个节点进 行连接,用于连接组A代表的节点和组B代表的节点的边存在与其对应 的权重,用以表征组A和组B之间的相似度和相关程度;其中,等级随 着用户账号的注册时长的增长而增长。此外,第一相似度的数量可以为 一个或多个,本申请实施例不作限定。
请参阅图5,图5示意性示出了根据本申请的一个实施例中的节点 关系图。如图5所示,该节点关系图中可以包括以组1、组2、组3、组 4、组5、……、组n分别代表的节点,其中,各组中包括一个或多个用 户账号,不同组中可以存在相同账号,n为大于等于6的正整数。组1 和组2之间通过对应权重12的边连接,组2和组5之间通过对应权重 25的边连接,组2和组3之间通过对应权重23的边连接,组3和组5 之间通过对应权重35的边连接,组1和组4之间通过对应权重14的边 连接,组4和组5之间通过对应权重45的边连接,组5和组n之间通过 对应权重5n的边连接。另外,由于,组1与组3之间、组3与组4之间、 组1与组5之间、组1与组n之间、组4与组n之间等多个节点之间的 连接权重低于预设权重,即,上述节点之间的相似度较低,因此,上述 节点之间未通过边连接。通过图5所示的节点关联图可以确定出相似节 点,有利于进一步确定出包括恶意账号的可疑节点。
本申请实施例中,可选的,计算分组结果中各组之间的第一相似度, 包括:
根据用户账号对应的属性数据确定分组结果中各组对应的属性分布; 其中,属性数据包括好友数量、账号等级以及历史行为中至少一种;
计算各属性分布之间的第一相似度。
其中,属性分布可以表示各组分别对应的不同属性数据的比例分布, 属性分布的输出形式可以为特征向量。此外,第一相似度可以为一个或 多个,用于表示属性分布两两之间的相似度。
具体地,根据用户账号对应的属性数据确定分组结果中各组对应的 属性分布的方式可以为:根据用户账号对应的属性数据确定分组结果中 各组对应的描述信息;根据向量映射关系将各组对应的描述信息映射为 特征向量,作为各组对应的属性分布;将各组对应的特征向量转换至同 一向量空间。其中,描述信息用于表示组内用户账号的属性数据的平均 情况,描述信息的表示方式可以为数字、文字等,本申请实施例不作限 定。
可见,实施该可选的实施例,能够通过对组间相似度的计算,确定 出相似组,以便于确定出其中包含恶意账号的组,有利于提升恶意账号 的识别效率。
进一步地,计算各属性分布之间的第一相似度,包括:
计算属性分布两两之间的正向散度和反向散度,并将正向散度与反 向散度之和确定为属性分布两两之间的第一相似度;
或者,
对各属性分布进行数据归一化,并将属性分布对应的归一化结果转 换至特定维度,计算特定维度下各归一化结果之间的距离,作为属性分 布两两之间的第一相似度。
一方面,可选的,计算属性分布两两之间的正向散度和反向散度的 方式可以为:根据表达式
Figure BDA0002393563160000181
Figure BDA0002393563160000182
Figure BDA0002393563160000183
计算属性分布两两之间的正向散度KL(P||Q)和反向散度 KL(Q||P);其中,P(x)和Q(x)分别用于代表通过边进行连接的两个组对 应的属性分布。进一步地,将正向散度与反向散度之和确定为属性分布 两两之间的第一相似度的方式可以为:根据表达式KL(Q||P)+ KL(P||Q)的方式将正向散度与反向散度之和确定为属性分布两两之间 的第一相似度。
另一方面,可选的,计算特定维度下各归一化结果之间的距离,作 为属性分布两两之间的第一相似度的方式可以为:
计算特定维度下各归一化结果之间的欧氏距离或余弦距离,作为属 性分布两两之间的第一相似度;或者,
根据表达式
Figure BDA0002393563160000184
计算特定维度下各归一化 结果之间的杰卡德系数(Jaccard similarity coefficient,jaccard系数), 作为属性分布两两之间的第一相似度;其中,P和Q分别用于代表通过边 进行连接的两个组对应的属性分布。另外,jaccard系数用于比较有限样 本集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。
可见,实施该可选的实施例,能够通过计算组间相似度,有利于确 定出相似组,进而提升识别出恶意账号的准确率。
本申请实施例中,可选的,根据第一相似度构建由各组作为节点的 节点关系图,包括:
根据第一相似度确定各组之间的连接权重,并通过权重阈值对连接 权重进行筛选;
依据筛选结果构建由各组作为节点的节点关系图。
其中,筛选结果中可以包括一个或多个连接权重,筛选结果中的连 接权重数量小于等于各组对应的连接权重总数量。
具体地,依据筛选结果构建由各组作为节点的节点关系图的方式可 以为:将筛选结果中各连接权重对应的节点确定为待连接节点,并根据 连接权重连接待连接节点,以实现对于由各组作为节点的节点关系图的 构建。
可见,实施该可选的实施例,能够通过对连接权重的筛选,删减非 必要信息,以提升对于节点关系图的构建效率。
在步骤S330中,计算节点关系图中各组对应的节点特征分别与节点 关系图对应的全局特征之间的第二相似度,并根据第二相似度从节点关 系图中选取目标节点。
其中,第二相似度用于描述节点关系图中的节点特征与全局特征之 间的相似程度,第二相似度的数量与节点关系图中的节点数量相同,各 节点分别对应一个第二相似度。目标节点的数量可以为一个或多个,即, 可能包含第一特定节点(即,可疑节点)的节点。
本申请实施例中,可选的,计算节点关系图中各组对应的节点特征 分别与节点关系图对应的全局特征之间的第二相似度,包括:
确定节点关系图中各组内针对特定事件每个用户账号对应的属性数 据和当前交易数据;
根据对属性数据和当前交易数据的综合统计,确定各组对应的节点 特征,并根据节点特征确定节点关系图对应的全局特征;
计算节点特征与全局特征之间的第二相似度。
其中,当前交易数据用于表示针对特定事件发生的交易数据,可以 包括特定事件对应的交易IP、交易金额、交易次数等。全局特征用于表 征节点关系图中各节点(即,各组)的属性数据平均水平以及交易数据 平均水平。节点特征用于表示组内各用户账号的属性数据平均水平以及 交易数据平均水平。第二相似度与第一相似度的表示方式(如,小数表示、分数表示等)相同。
具体地,确定节点关系图中各组内针对特定事件每个用户账号对应 的属性数据和当前交易数据的方式可以为:根据用户画像数据确定节点 关系图中各组内针对特定事件每个用户账号对应的属性数据;根据属性 数据确定针对特定事件每个用户账号对应的当前交易数据。
具体地,根据对属性数据和当前交易数据的综合统计,确定各组对 应的节点特征的方式可以为:计算各组内属性数据的第一平均值以及当 前交易数据的第二平均值;将第一平均值和第二平均值作为对属性数据 和当前交易数据的综合统计结果,进而确定出每组对应的第一平均值和 第二平均值,作为各组的节点特征。
进一步地,根据节点特征确定节点关系图对应的全局特征的方式可 以为:计算所有第一平均值的平均值以及所有第二平均值的平均值,作 为节点关系图对应的全局特征。由于节点关系图中包括至少两个节点, 因此,节点关系图对应至少两个第一平均值以及至少两个第二平均值。
另外,一方面,计算节点特征与全局特征之间的第二相似度的方式 可以为:根据表达式
Figure BDA0002393563160000201
Figure BDA0002393563160000202
Figure BDA0002393563160000203
计算节点特征与全局特征之间的正向散度KL(P||Q)和反 向散度KL(Q||P);其中,P(x)和Q(x)分别用于表示节点特征与全局特征; 进而,根据表达式KL(Q||P)+KL(P||Q)的方式将正向散度与反向散度 之和确定为节点特征与全局特征之间的第二相似度。
另一方面,计算节点特征与全局特征之间的第二相似度的方式可以 为:对节点特征与全局特征进行数据归一化,并将节点特征与全局特征对应的归一化结果转换至特定维度;计算特定维度下各节点特征归一化 结果与全局特征归一化结果之间的欧氏距离或余弦距离,作为节点特征 与全局特征之间的第二相似度,或者,根据表达式
Figure BDA0002393563160000211
Figure BDA0002393563160000212
计算特定维度下各节点特征归一化结果与全局特征归一化 结果之间的杰卡德系数(Jaccard similarity coefficient,jaccard系数), 节点特征与全局特征之间的第二相似度;其中,P和Q分别用于表示节点 特征与全局特征。
可见,实施该可选的实施例,能够加入交易数据以及属性数据,提 升节点特征与全局特征的比对结果的准确度,进而可以提升对于恶意账 号的识别准确率。
本申请实施例中,另一可选的,计算节点关系图中各组对应的节点 特征分别与节点关系图对应的全局特征之间的第二相似度,包括:
确定节点关系图中各组内每个用户账号对应的历史交易数据以及针 对特定事件每个用户账号对应的属性数据和当前交易数据;
根据对历史交易数据、属性数据和当前交易数据的综合统计,确定 各组对应的节点特征,并根据节点特征确定节点关系图对应的全局特征;
计算节点特征与全局特征之间的第二相似度。
其中,历史交易数据包括历史事件中分别发生的交易数据,可以包 括各历史事件对应的交易IP、交易金额、交易次数等。
可见,实施该可选的实施例,能够通过参考历史事件对应的交易数 据,提升确定出的目标节点的准确率。
在步骤S340中,根据各组之间的连接权重计算各组对应的分值,并 根据分值从目标节点中选取第一特定节点。
其中,第一特定节点为候选的可疑节点,第一特定节点可以为一个 或多个,本申请不作限定。
本申请实施例中,可选的,根据各组之间的连接权重计算各组对应 的分值,包括:
根据各组之间的连接关系计算各组对应的连接权重之和,并计算各 组对应的各连接权重分别与连接权重之和的比例,以及,根据比例计算 各组对应的影响因子和分值;
根据前一代对应的分值和影响因子计算当前一代对应的分值,直到 完成预设次数的迭代;
将预设次数中各组最后一次迭代的分值确定为各组对应的分值。
具体地,在根据各组之间的连接关系计算各组对应的连接权重之和 之前,还可以包括:对各组赋予初始分值,并将目标节点标注为1,将 节点关系图中除目标节点外的其他节点标注为0;其中,初始分值可以 为随机值。进一步地,可以根据weightRatioi=weightij/weightSumi计 算各组对应的各连接权重分别与连接权重之和 weightSumi=∑j∈Neight(i)weightij的比例weightRatioi;其中,i和j分别用于表示节点联系图中通过边进行连接的两个节点。进而,可以计算每个节点周围的影响因子
Figure BDA0002393563160000221
并通过表达式
Figure BDA0002393563160000222
计算得到该节点新的 分值,即,根据前一代对应的分值和影响因子计算当前一代对应的分值, 直到完成预设次数(如,T次,T为正整数)的迭代,并将预设次数中 各组最后一次迭代的分值确定为各组对应的分值;其中,
Figure BDA0002393563160000223
Figure BDA0002393563160000224
t为当前迭代次数,α为节点 初始值的权重,β为周围节点影响的权重,(α,β)∈[0,1]且α+β=1,
Figure BDA0002393563160000225
为第t次迭代时节点i的分值,
Figure BDA0002393563160000226
为邻近节点对该节点的权 重和,weightij为连接节点i和节点j的边的权重。具体代码实现如下:
Figure BDA0002393563160000227
Figure BDA0002393563160000231
可见,实施该可选的实施例,能够计算各组对应的分值,以提升对 于可疑节点的识别准确率,降低误识别的概率。
在步骤S350中,根据预设判定规则从第一特定节点内的用户账号中 识别恶意账号。
其中,预设判定规则用于判定可疑节点内的用户账号为恶意账号还 是正常账号。
本申请实施例中,可选的,根据预设判定规则从第一特定节点内的 用户账号中识别恶意账号之前,上述方法还可以包括以下步骤:计算各 组内的用户账号相似度,若存在目标组,则将目标组对应的节点确定为 第二特定节点,目标组内的用户账号相似度大于预设相似度。
请参阅图6,图6示意性示出了根据本申请的一个实施例中可疑节 点的筛选方式示意图。如图6所示,图6示意性示出了根据本申请的一 个实施例中可疑节点的筛选方式示意图。如图6所示,可以参考特定事 件当前交易数据601(如,当前的酸奶特价活动的交易数据)、特定事 件历史交易数据602(如,历史的酸奶特价活动的交易数据)、其他事 件当前交易数据603(如,当前的话费9折充值活动的交易数据)以及 其他事件历史交易数据604(如,历史的话费9折充值活动的交易数据) 对节点特征与全局特征进行相似度计算,以确定出各节点特征与全局特 征之间的第二相似度,进而可以根据第二相似度从节点关系图中选取目 标节点606。另外,还可以参考特定事件当前交易数据601对各组之间 的连接权重进行聚集性计算已确定出各组对应的分值,并根据分值从目 标节点中选取第一特定节点605。进一步地,可以计算各组内的用户账 号相似度,若存在目标组,则将目标组对应的节点确定为第二特定节点, 目标组内的用户账号相似度大于预设相似度;以及,计算第一特定节点 和第二特定节点的并集,将并集中的节点确定为节点关系图中的可疑节 点;根据预设判定规则从可疑节点内的用户账号中识别恶意账号607。
本申请实施例中,可选的,根据预设判定规则从第一特定节点内的 用户账号中识别恶意账号,包括:
计算第一特定节点和第二特定节点的并集,将并集中的节点确定为 节点关系图中的可疑节点;根据预设判定规则从可疑节点内的用户账号 中识别恶意账号。
可见,实施该可选的实施例,能够通过计算并集的方式,确定可疑 节点的范围,提升恶意账号的识别效率。
本申请实施例中,可选的,预设判定规则包括预设阈值或先验信息, 根据预设判定规则从可疑节点内的用户账号中识别恶意账号,包括:
从可疑节点内选取数量大于预设阈值(如,10个)的目标用户账号 并将目标用户账号识别为恶意账号,其中,各目标用户账号之间的相似 度大于目标用户账号与可疑节点内其他用户账号的相似度;
或者,
根据先验信息对可疑节点内的用户账号进行筛选,将筛选后的用户 账号识别为恶意账号。
其中,先验信息包括判断条件,如,好友数量是否小于等于预设数 量(如,3),或者,参与营销活动的行为与用户账号的所有行为之间的 比例是否大于预设比例(如,90%)等。恶意账号为非正常账号,恶意 账号的用户行为非活动所允许的行为。
具体地,根据孤立森林(Isolation Forest,iForest)、one-class SVM 等异常点检测法从可疑节点内选取数量大于预设阈值的目标用户账号。
可见,实施该可选的实施例,能够通过对可疑节点内的恶意账号进 行识别,推动特定事件的正向进展。
另外,可选的,在根据预设判定规则从可疑节点内的用户账号中识 别恶意账号之后,还可以包括以下步骤:根据识别出的恶意账号以及节 点关系图中其他账号(正常账号)构建样本集,并通过该样本集训练分 类模型,直到分类模型的识别准确率处于预设准确率范围(如, 90%~100%)内。
请参阅图7,图7示意性示出了根据本申请的一个实施例对于分类 模型的训练示意图。如图7所示,非可疑节点701即正常节点,因此, 可以将非可疑节点701中的用户账号识别为正常账号703。另外,根据 对可疑节点702中的用户账号进行识别,识别结果中包括正常账号703 和恶意账号704。进而,参考上述可选的实施例,可以根据正常账号703 和恶意账号704构建样本集,并通过该样本集训练分类模型705,经过 多次迭代后的分类模型705可以用于识别用户账号是否为恶意账号;其 中,该分类模型705可以为决策树类型的模型。
可见,实施图3所示的恶意账号识别方法,能够通过对用户账号分 组,根据用户账号之间的相似性构建节点关系图,以及结合用户账号的 交易数据识别该用户账号是否为恶意账号,可以提升对于恶意账号的识 别准确率;以及,还能够通过对恶意账号的准确识别,提升恶意账号的 召回率。
请参阅图8,图8示意性示出了根据本申请的另一个实施例的恶意 账号识别方法的流程图。如图8所示,另一个实施例的恶意账号识别方 法包括步骤S800~步骤S840,其中:
需要说明的是,本申请不限定步骤S800~步骤S840之间任意两个步 骤之间的先后顺序。
步骤S800:根据特定事件对应的发布方式确定数据采集方式;其中, 发布方式包括客户端发布和网页发布。
步骤S802:根据数据采集方式采集特定事件对应的用户数据;其中, 用户数据包括用户画像数据和用户行为数据。
步骤S804:根据预设时长对用户数据对应的用户账号进行分组,得 到时长分组结果;根据注册地址对时长分组结果进行分组,得到分组结 果,其中,分组结果中的组数量大于等于时长分组结果中的组数量。
步骤S806:根据预设时长对用户数据对应的用户账号进行分组,得 到时长分组结果;根据注册设备对时长分组结果进行分组,得到分组结 果;其中,分组结果中的组数量大于等于时长分组结果的组数量。
步骤S808:根据用户账号对应的属性数据确定分组结果中各组对应 的属性分布;其中,属性数据包括好友数量、账号等级以及历史行为中 至少一种。
步骤S810:计算属性分布两两之间的正向散度和反向散度,并将正 向散度与反向散度之和确定为属性分布两两之间的第一相似度。
步骤S812:对各属性分布进行数据归一化,并将属性分布对应的归 一化结果转换至特定维度,计算特定维度下各归一化结果之间的距离, 作为属性分布两两之间的第一相似度。
步骤S814:根据第一相似度确定各组之间的连接权重,并通过权重 阈值对连接权重进行筛选。
步骤S816:依据筛选结果构建由各组作为节点的节点关系图。
步骤S818:确定节点关系图中各组内针对特定事件每个用户账号对 应的属性数据和当前交易数据。
步骤S820:确定节点关系图中各组内每个用户账号对应的历史交易 数据以及针对特定事件每个用户账号对应的属性数据和当前交易数据。
步骤S822:根据对属性数据和当前交易数据的综合统计,确定各组 对应的节点特征,并根据节点特征确定节点关系图对应的全局特征。
步骤S824:根据对历史交易数据、属性数据和当前交易数据的综合 统计,确定各组对应的节点特征,并根据节点特征确定节点关系图对应 的全局特征。
步骤S826:计算节点特征与全局特征之间的第二相似度,并根据第 二相似度从节点关系图中选取目标节点。
步骤S828:根据各组之间的连接关系计算各组对应的连接权重之和, 并计算各组对应的各连接权重分别与连接权重之和的比例,以及,根据 比例计算各组对应的影响因子和分值。
步骤S830:根据前一代对应的分值和影响因子计算当前一代对应的 分值,直到完成预设次数的迭代。
步骤S832:将预设次数中所述各组最后一次迭代的分值确定为各组 对应的分值。
步骤S834:将预设次数中所述各组最后一次迭代的分值确定为各组 对应的分值,并根据分值从目标节点中选取第一特定节点。
步骤S836:计算各组内的用户账号相似度,若存在目标组,则将目 标组对应的节点确定为第二特定节点,目标组内的用户账号相似度大于 预设相似度;计算第一特定节点和第二特定节点的并集,将并集中的节 点确定为节点关系图中的可疑节点;根据预设判定规则从可疑节点内的 用户账号中识别恶意账号。
步骤S838:从可疑节点内选取数量大于预设阈值的目标用户账号并 将目标用户账号识别为恶意账号,其中,各目标用户账号之间的相似度 大于目标用户账号与可疑节点内其他用户账号的相似度。
步骤S840:根据先验信息对可疑节点内的用户账号进行筛选,将筛 选后的用户账号识别为恶意账号。
需要说明的是,步骤S800~步骤S840与图3所示的步骤及实施例相 对应,故,步骤S800~步骤S840对应的限定请参阅图3所示的步骤及实 施例,此处不再赘述。
可见,实施图8所示的恶意账号识别方法,能够通过对用户账号分 组,根据用户账号之间的相似性构建节点关系图,以及结合用户账号的 交易数据识别该用户账号是否为恶意账号,可以提升对于恶意账号的识 别准确率;以及,还能够通过对恶意账号的准确识别,提升恶意账号的 召回率。
进一步的,本示例实施方式中,还提供了一种恶意账号识别装置。 参考图9所示,该恶意账号识别装置900可以包括账号分组单元901、 节点关系图构建单元902、节点选取单元903以及恶意账号识别单元904, 其中:
账号分组单元901,用于采集特定事件对应的用户数据,并根据预 设分组条件对用户数据对应的用户账号进行分组,得到分组结果;其中, 用户数据包括用户画像数据和用户行为数据;
节点关系图构建单元902,用于计算分组结果中各组之间的第一相 似度,并根据第一相似度构建由各组作为节点的节点关系图;
节点选取单元903,用于计算节点关系图中各组对应的节点特征分 别与节点关系图对应的全局特征之间的第二相似度,并根据第二相似度 从节点关系图中选取目标节点;
节点选取单元903,还用于根据各组之间的权重值计算各组对应的 分值,并根据分值从目标节点中选取第一特定节点;
恶意账号识别单元904,用于根据预设判定规则从第一特定节点内 的用户账号中识别恶意账号。
可见,实施图9所示的恶意账号识别装置,能够通过对用户账号分 组,根据用户账号之间的相似性构建节点关系图,以及结合用户账号的 交易数据识别该用户账号是否为恶意账号,可以提升对于恶意账号的识 别准确率;以及,还能够通过对恶意账号的准确识别,提升恶意账号的 召回率。
在本申请的一种示例性实施例中,账号分组单元901采集特定事件 对应的用户数据的方式具体可以为:
账号分组单元901根据特定事件对应的发布方式确定数据采集方式; 其中,发布方式包括客户端发布和网页发布;
账号分组单元901根据数据采集方式采集特定事件对应的用户数据。
可见,实施该可选的实施例,能够根据特定事件的发布方式确定匹 配的数据采集方式,提升数据采集效率。
在本申请的一种示例性实施例中,用户画像数据包括性别、年龄、 账号注册时长、账号活跃度以及历史消费数据;用户行为数据包括事件 参与时间、注册地址、注册设备以及联系方式。
在本申请的一种示例性实施例中,所述预设分组条件包括预设时长、 所述注册地址以及所述注册设备中至少一种,账号分组单元901根据预 设分组条件对用户数据对应的用户账号进行分组,得到分组结果的方式 具体可以为:
账号分组单元901根据预设时长对用户数据对应的用户账号进行分 组,得到时长分组结果;根据注册地址对时长分组结果进行分组,得到 分组结果,其中,分组结果中的组数量大于等于时长分组结果中的组数 量;
或者,
账号分组单元901根据预设时长对用户数据对应的用户账号进行分 组,得到时长分组结果;根据注册设备对时长分组结果进行分组,得到 分组结果;其中,分组结果中的组数量大于等于时长分组结果的组数量。
可见,实施该可选的实施例,能够通过对用户账号进行分组,集中 通过小号恶意占取优惠活动名额的恶意账号,提升对于恶意账号的识别 准确率。
在本申请的一种示例性实施例中,节点关系图构建单元902计算分 组结果中各组之间的第一相似度的方式具体可以为:
节点关系图构建单元902根据用户账号对应的属性数据确定分组结 果中各组对应的属性分布;其中,属性数据包括好友数量、账号等级以 及历史行为中至少一种;
节点关系图构建单元902计算各属性分布之间的第一相似度。
可见,实施该可选的实施例,能够通过对组间相似度的计算,确定 出相似组,以便于确定出其中包含恶意账号的组,有利于提升恶意账号 的识别效率。
在本申请的一种示例性实施例中,节点关系图构建单元902计算各 属性分布之间的第一相似度的方式具体可以为:
节点关系图构建单元902计算属性分布两两之间的正向散度和反向 散度,并将正向散度与反向散度之和确定为属性分布两两之间的第一相 似度;
或者,
节点关系图构建单元902对各属性分布进行数据归一化,并将属性 分布对应的归一化结果转换至特定维度,计算特定维度下各归一化结果 之间的距离,作为属性分布两两之间的第一相似度。
可见,实施该可选的实施例,能够通过计算组间相似度,有利于确 定出相似组,进而提升识别出恶意账号的准确率。
在本申请的一种示例性实施例中,节点关系图构建单元902根据第 一相似度构建由各组作为节点的节点关系图的方式具体可以为:
节点关系图构建单元902根据第一相似度确定各组之间的连接权重, 并通过权重阈值对连接权重进行筛选;
节点关系图构建单元902依据筛选结果构建由各组作为节点的节点 关系图。
可见,实施该可选的实施例,能够通过对连接权重的筛选,删减非 必要信息,以提升对于节点关系图的构建效率。
在本申请的一种示例性实施例中,节点选取单元903计算节点关系 图中各组对应的节点特征分别与节点关系图对应的全局特征之间的第二 相似度的方式具体可以为:
节点选取单元903确定节点关系图中各组内针对特定事件每个用户 账号对应的属性数据和当前交易数据;
节点选取单元903根据对属性数据和当前交易数据的综合统计,确 定各组对应的节点特征,并根据节点特征确定节点关系图对应的全局特 征;
节点选取单元903计算节点特征与全局特征之间的第二相似度。
可见,实施该可选的实施例,能够加入交易数据以及属性数据,提 升节点特征与全局特征的比对结果的准确度,进而可以提升对于恶意账 号的识别准确率。
在本申请的一种示例性实施例中,节点选取单元903计算节点关系 图中各组对应的节点特征分别与节点关系图对应的全局特征之间的第二 相似度的方式具体可以为:
节点选取单元903确定节点关系图中各组内每个用户账号对应的历 史交易数据以及针对特定事件每个用户账号对应的属性数据和当前交易 数据;
节点选取单元903根据对历史交易数据、属性数据和当前交易数据 的综合统计,确定各组对应的节点特征,并根据节点特征确定节点关系 图对应的全局特征;
节点选取单元903计算节点特征与全局特征之间的第二相似度。
可见,实施该可选的实施例,能够通过参考历史事件对应的交易数 据,提升确定出的目标节点的准确率。
在本申请的一种示例性实施例中,节点选取单元903根据各组之间 的连接权重计算各组对应的分值的方式具体可以为:
节点选取单元903根据各组之间的连接关系计算各组对应的连接权 重之和,并计算各组对应的各连接权重分别与连接权重之和的比例,以 及,根据比例计算各组对应的影响因子和分值;
节点选取单元903根据前一代对应的分值和影响因子计算当前一代 对应的分值,直到完成预设次数的迭代;
节点选取单元903将预设次数中所述各组最后一次迭代的分值确定 为各组对应的分值。
可见,实施该可选的实施例,能够计算各组对应的分值,以提升对 于可疑节点的识别准确率,降低误识别的概率。
在本申请的一种示例性实施例中,节点选取单元903,还用于在恶 意账号识别单元904根据预设判定规则从第一特定节点内的用户账号中 识别恶意账号之前,计算各组内的用户账号相似度,若存在目标组,则 将目标组对应的节点确定为第二特定节点,目标组内的用户账号相似度 大于预设相似度。
在本申请的一种示例性实施例中,恶意账号识别单元904根据预设 判定规则从第一特定节点内的用户账号中识别恶意账号的方式具体可以 为:
恶意账号识别单元904计算第一特定节点和第二特定节点的并集, 将并集中的节点确定为节点关系图中的可疑节点;根据预设判定规则从 可疑节点内的用户账号中识别恶意账号。
可见,实施该可选的实施例,能够通过计算并集的方式,确定可疑 节点的范围,提升恶意账号的识别效率。
在本申请的一种示例性实施例中,预设判定规则包括预设阈值或先 验信息,恶意账号识别单元904根据预设判定规则从可疑节点内的用户 账号中识别恶意账号的方式具体可以为:
恶意账号识别单元904从可疑节点内选取数量大于预设阈值的目标 用户账号并将目标用户账号识别为恶意账号,其中,各目标用户账号之 间的相似度大于目标用户账号与可疑节点内其他用户账号的相似度;
或者,
恶意账号识别单元904根据先验信息对可疑节点内的用户账号进行 筛选,将筛选后的用户账号识别为恶意账号。
可见,实施该可选的实施例,能够通过对可疑节点内的恶意账号进 行识别,推动特定事件的正向进展。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若 干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的 实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一 个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征 和功能可以进一步划分为由多个模块或者单元来具体化。
由于本申请的示例实施例的恶意账号识别装置的各个功能模块与上 述恶意账号识别方法的示例实施例的步骤对应,因此对于本申请装置实 施例中未披露的细节,请参照本申请上述的恶意账号识别方法的实施例。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可 读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独 存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者 多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该 电子设备实现上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信 号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可 读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储 介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、 便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘 只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意 合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储 程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者 与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带 中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序 代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、 光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算 机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发 送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结 合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介 质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意 合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方 法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上, 流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部 分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定 的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两 个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相 反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图 中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的 功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计 算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现, 也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。 其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想 到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或 者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原 理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说 明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权 利要求指出。
应当理解的是本申请并不局限于上面已经描述并在附图中示出的 精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范 围仅由所附的权利要求来限制。

Claims (16)

1.一种恶意账号识别方法,其特征在于,包括:
采集特定事件对应的用户数据,并根据预设分组条件对所述用户数据对应的用户账号进行分组,得到分组结果;其中,所述用户数据包括用户画像数据和用户行为数据;
计算所述分组结果中各组之间的第一相似度,并根据所述第一相似度构建由所述各组作为节点的节点关系图;
计算所述节点关系图中各组对应的节点特征分别与所述节点关系图对应的全局特征之间的第二相似度,并根据所述第二相似度从所述节点关系图中选取目标节点;
根据所述各组之间的连接权重计算所述各组对应的分值,并根据所述分值从所述目标节点中选取第一特定节点;
根据预设判定规则从所述第一特定节点内的用户账号中识别恶意账号。
2.根据权利要求1所述的方法,其特征在于,采集特定事件对应的用户数据,包括:
根据所述特定事件对应的发布方式确定数据采集方式;其中,所述发布方式包括客户端发布和网页发布;
根据所述数据采集方式采集所述特定事件对应的所述用户数据。
3.根据权利要求1所述的方法,其特征在于,所述用户画像数据包括性别、年龄、账号注册时长、账号活跃度以及历史消费数据;所述用户行为数据包括事件参与时间、注册地址、注册设备以及联系方式。
4.根据权利要求3所述的方法,其特征在于,所述预设分组条件包括预设时长、所述注册地址以及所述注册设备中至少一种,根据预设分组条件对所述用户数据对应的用户账号进行分组,得到分组结果,包括:
根据所述预设时长对所述用户数据对应的用户账号进行分组,得到时长分组结果;根据所述注册地址对所述时长分组结果进行分组,得到所述分组结果,其中,所述分组结果中的组数量大于等于所述时长分组结果中的组数量;
或者,
根据所述预设时长对所述用户数据对应的用户账号进行分组,得到时长分组结果;根据所述注册设备对所述时长分组结果进行分组,得到所述分组结果;其中,所述分组结果中的组数量大于等于所述时长分组结果的组数量。
5.根据权利要求1所述的方法,其特征在于,计算所述分组结果中各组之间的第一相似度,包括:
根据所述用户账号对应的属性数据确定所述分组结果中各组对应的属性分布;其中,所述属性数据包括好友数量、账号等级以及历史行为中至少一种;
计算各所述属性分布之间的第一相似度。
6.根据权利要求5所述的方法,其特征在于,计算各所述属性分布之间的第一相似度,包括:
计算所述属性分布两两之间的正向散度和反向散度,并将所述正向散度与所述反向散度之和确定为所述属性分布两两之间的第一相似度;
或者,
对各所述属性分布进行数据归一化,并将所述属性分布对应的归一化结果转换至特定维度,计算所述特定维度下各所述归一化结果之间的距离,作为所述属性分布两两之间的第一相似度。
7.根据权利要求1所述的方法,其特征在于,根据所述第一相似度构建由所述各组作为节点的节点关系图,包括:
根据所述第一相似度确定所述各组之间的连接权重,并通过权重阈值对所述连接权重进行筛选;
依据筛选结果构建由所述各组作为节点的节点关系图。
8.根据权利要求1所述的方法,其特征在于,计算所述节点关系图中各组对应的节点特征分别与所述节点关系图对应的全局特征之间的第二相似度,包括:
确定所述节点关系图中各组内针对所述特定事件每个用户账号对应的属性数据和当前交易数据;
根据对所述属性数据和所述当前交易数据的综合统计,确定所述各组对应的节点特征,并根据所述节点特征确定所述节点关系图对应的全局特征;
计算所述节点特征与所述全局特征之间的第二相似度。
9.根据权利要求1所述的方法,其特征在于,计算所述节点关系图中各组对应的节点特征分别与所述节点关系图对应的全局特征之间的第二相似度,包括:
确定所述节点关系图中各组内每个用户账号对应的历史交易数据以及针对所述特定事件所述每个用户账号对应的属性数据和当前交易数据;
根据对所述历史交易数据、所述属性数据和所述当前交易数据的综合统计,确定所述各组对应的节点特征,并根据所述节点特征确定所述节点关系图对应的全局特征;
计算所述节点特征与所述全局特征之间的第二相似度。
10.根据权利要求1所述的方法,其特征在于,根据所述各组之间的连接权重计算所述各组对应的分值,包括:
根据所述各组之间的连接关系计算所述各组对应的连接权重之和,并计算所述各组对应的各连接权重分别与所述连接权重之和的比例,以及,根据所述比例计算各组对应的影响因子和分值;
根据前一代对应的分值和影响因子计算当前一代对应的分值,直到完成预设次数的迭代;
将所述预设次数中所述各组最后一次迭代的分值确定为所述各组对应的分值。
11.根据权利要求1所述的方法,其特征在于,根据预设判定规则从所述第一特定节点内的用户账号中识别恶意账号之前,所述方法还包括:
计算所述各组内的用户账号相似度,若存在目标组,则将所述目标组对应的节点确定为第二特定节点,所述目标组内的用户账号相似度大于预设相似度。
12.根据权利要求11所述的方法,其特征在于,根据预设判定规则从所述第一特定节点内的用户账号中识别恶意账号,包括:
计算所述第一特定节点和所述第二特定节点的并集,将所述并集中的节点确定为所述节点关系图中的可疑节点;
根据预设判定规则从所述可疑节点内的用户账号中识别恶意账号。
13.根据权利要求12所述的方法,其特征在于,所述预设判定规则包括预设阈值或先验信息,根据预设判定规则从所述可疑节点内的用户账号中识别恶意账号,包括:
从所述可疑节点内选取数量大于所述预设阈值的目标用户账号并将所述目标用户账号识别为所述恶意账号,其中,各所述目标用户账号之间的相似度大于所述目标用户账号与可疑节点内其他用户账号的相似度;
或者,
根据所述先验信息对所述可疑节点内的用户账号进行筛选,将筛选后的用户账号识别为所述恶意账号。
14.一种恶意账号识别装置,其特征在于,包括:
账号分组单元,用于采集特定事件对应的用户数据,并根据预设分组条件对所述用户数据对应的用户账号进行分组,得到分组结果;其中,所述用户数据包括用户画像数据和用户行为数据;
节点关系图构建单元,用于计算所述分组结果中各组之间的第一相似度,并根据所述第一相似度构建由所述各组作为节点的节点关系图;
节点选取单元,用于计算所述节点关系图中各组对应的节点特征分别与所述节点关系图对应的全局特征之间的第二相似度,并根据所述第二相似度从所述节点关系图中选取目标节点;
所述节点选取单元,还用于根据所述各组之间的权重值计算所述各组对应的分值,并根据所述分值从所述目标节点中选取第一特定节点;
恶意账号识别单元,用于根据预设判定规则从所述第一特定节点内的用户账号中识别恶意账号。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-13任一项所述的方法。
16.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-13任一项所述的方法。
CN202010123002.5A 2020-02-20 2020-02-20 恶意账号识别方法、恶意账号识别装置、介质及电子设备 Active CN111371767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123002.5A CN111371767B (zh) 2020-02-20 2020-02-20 恶意账号识别方法、恶意账号识别装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123002.5A CN111371767B (zh) 2020-02-20 2020-02-20 恶意账号识别方法、恶意账号识别装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN111371767A true CN111371767A (zh) 2020-07-03
CN111371767B CN111371767B (zh) 2022-05-13

Family

ID=71209719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123002.5A Active CN111371767B (zh) 2020-02-20 2020-02-20 恶意账号识别方法、恶意账号识别装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN111371767B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163008A (zh) * 2020-09-28 2021-01-01 邓燕平 基于大数据分析的用户行为数据处理方法及云计算平台
CN112182240A (zh) * 2020-09-23 2021-01-05 成都数联铭品科技有限公司 同名自然人实体超级节点识别处理方法及系统、电子设备
CN112288528A (zh) * 2020-10-30 2021-01-29 浙江集享电子商务有限公司 恶意社群发现方法、装置、计算机设备和可读存储介质
CN113297840A (zh) * 2021-04-28 2021-08-24 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质
CN113486211A (zh) * 2021-06-30 2021-10-08 北京达佳互联信息技术有限公司 帐号识别方法、装置、电子设备、存储介质及程序产品
CN114742479A (zh) * 2022-06-10 2022-07-12 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN115146263A (zh) * 2022-09-05 2022-10-04 北京微步在线科技有限公司 用户账号的失陷检测方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174296A (zh) * 2018-01-02 2018-06-15 武汉斗鱼网络科技有限公司 恶意用户识别方法及装置
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
CN109271418A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN109948641A (zh) * 2019-01-17 2019-06-28 阿里巴巴集团控股有限公司 异常群体识别方法及装置
CN110264326A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 识别异常账户集合和风险账户集合的方法、装置及设备
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10009358B1 (en) * 2014-02-11 2018-06-26 DataVisor Inc. Graph based framework for detecting malicious or compromised accounts
CN108174296A (zh) * 2018-01-02 2018-06-15 武汉斗鱼网络科技有限公司 恶意用户识别方法及装置
CN109271418A (zh) * 2018-08-14 2019-01-25 阿里巴巴集团控股有限公司 可疑团伙识别方法、装置、设备及计算机可读存储介质
CN109948641A (zh) * 2019-01-17 2019-06-28 阿里巴巴集团控股有限公司 异常群体识别方法及装置
CN110264326A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 识别异常账户集合和风险账户集合的方法、装置及设备
CN110517097A (zh) * 2019-09-09 2019-11-29 平安普惠企业管理有限公司 识别异常用户的方法、装置、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182240A (zh) * 2020-09-23 2021-01-05 成都数联铭品科技有限公司 同名自然人实体超级节点识别处理方法及系统、电子设备
CN112182240B (zh) * 2020-09-23 2024-04-02 成都数联铭品科技有限公司 同名自然人实体超级节点识别处理方法及系统、电子设备
CN112163008A (zh) * 2020-09-28 2021-01-01 邓燕平 基于大数据分析的用户行为数据处理方法及云计算平台
CN112163008B (zh) * 2020-09-28 2021-11-30 深圳薪汇科技有限公司 基于大数据分析的用户行为数据处理方法及云计算平台
CN112288528A (zh) * 2020-10-30 2021-01-29 浙江集享电子商务有限公司 恶意社群发现方法、装置、计算机设备和可读存储介质
CN113297840A (zh) * 2021-04-28 2021-08-24 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质
CN113297840B (zh) * 2021-04-28 2024-05-24 百果园技术(新加坡)有限公司 恶意流量账号检测方法、装置、设备和存储介质
CN113486211A (zh) * 2021-06-30 2021-10-08 北京达佳互联信息技术有限公司 帐号识别方法、装置、电子设备、存储介质及程序产品
CN114742479A (zh) * 2022-06-10 2022-07-12 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN114742479B (zh) * 2022-06-10 2022-09-06 深圳竹云科技股份有限公司 账号识别方法、装置、服务器及存储介质
CN115146263A (zh) * 2022-09-05 2022-10-04 北京微步在线科技有限公司 用户账号的失陷检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111371767B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
US10965775B2 (en) Discovering signature of electronic social networks
WO2019144892A1 (zh) 数据处理方法、装置、存储介质和电子装置
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
US8712952B2 (en) Method and system for selecting a target with respect to a behavior in a population of communicating entities
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN112700252B (zh) 一种信息安全性检测方法、装置、电子设备和存储介质
CN113014566B (zh) 恶意注册的检测方法、装置、计算机可读介质及电子设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN113011884A (zh) 账户特征的提取方法、装置、设备及可读存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
US20230281696A1 (en) Method and apparatus for detecting false transaction order
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
CN113011911A (zh) 基于人工智能的数据预测方法、装置、介质及电子设备
CN111325578B (zh) 预测模型的样本确定方法及装置、介质和设备
CN113935738B (zh) 交易数据处理方法、装置、存储介质及设备
CN113780318B (zh) 用于生成提示信息的方法、装置、服务器和介质
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN112950222A (zh) 资源处理异常检测方法、装置、电子设备及存储介质
CN110909777A (zh) 一种多维特征图嵌入方法、装置、设备及介质
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN113706279A (zh) 欺诈分析方法、装置、电子设备及存储介质
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant