CN110225036B

CN110225036B - 一种账号检测方法、装置、服务器及存储介质

Info

Publication number: CN110225036B
Application number: CN201910506473.1A
Authority: CN
Inventors: 补彬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2022-03-22
Anticipated expiration: 2039-06-12
Also published as: CN110225036A

Abstract

本发明提供一种账号检测方法、装置、服务器及存储介质，获取待处理账号的历史交互数据，确定待处理账号的特征向量，基于待处理账号的特征向量，确定待处理账号所属的账号检测数据簇，并基于待处理账号所属的账号检测数据簇的类型，确定待处理账号的账号类型，其中待处理账号的特征向量用于表述待处理账号和至少一个已有账号之间的关联，且账号检测数据簇是基于已有账号的特征向量聚类得到，由此能够通过待处理账号和已有账号之间的关联进行识别，实现从检测高频行为特征向检测账号之间的关联进行转变，这样即使待处理账号修改自身的行为特征，仍可以通过待处理账号与已有账号之间的联系检测出该待处理账号是异常账号还是正常账号，提高准确度。

Description

一种账号检测方法、装置、服务器及存储介质

技术领域

本发明属于网络技术领域，具体为涉及一种账号检测方法、装置、服务器及存储介质。

背景技术

目前用户可通过注册账号方式成为各个网络公司的多媒体平台的会员，以观看多媒体平台上的多媒体信息，并且各个网络公司为了推广自身的多媒体平台，以会通过一些活动如出售激活码的方式使用户成为会员，其中通过激活码方式成为会员的成本远低于直接其他成为会员方式的成本。

在此情况下一些非法用户会在活动期间通过某个账号或多个账号购买大量激活码，然后再将购买的激活码出售给其他用户来牟利。为了打击这一非法行为，可通过分析行为数据方式来确定账号是否是异常账号，如果是则会禁止该账号获得激活码，例如通过检测一个物料(包括手机号、账号、IP和设备号等)的请求数是否高于正常账户的请求数，如果是则确定是异常账号，但是非法用户可以频繁更换每次请求的物料，从而降低检测的准确度。

发明内容

有鉴于此，本发明的目的在于提供一种账号检测方法、装置、服务器及存储介质，用于识别异常账号。技术方案如下：

本发明提供一种账号检测方法，所述方法包括：

获取待处理账号的历史交互数据；

基于待处理账号的历史交互数据，生成所述待处理账号的特征向量，所述待处理账号的特征向量用于表述所述待处理账号和至少一个已有账号之间的关联；

基于所述待处理账号的特征向量，确定所述待处理账号所属的账号检测数据簇，所述账号检测数据簇是基于所述已有账号的特征向量聚类得到的数据集合；

基于所述待处理账号所属的账号检测数据簇的类型，确定所述待处理账号的账号类型。

优选的，所述账号检测数据簇的预先得到过程包括：

获得账号集合中各个已有账号的历史交互数据；

生成各个所述已有账号的特征向量，所述各个已有账号的特征向量用于表述各个已有账号之间的关联；

基于各个已有账号的特征向量的相似度进行聚类，得到所述账号检测数据簇；

获得所述账号检测数据簇中账号类型为异常类型的已有账号在所述账号检测数据簇中的占比；

如果账号类型为异常类型的已有账号在所述账号检测数据簇中的占比大于预设比例，确定所述账号检测数据簇的类型为异常数据簇。

优选的，所述生成所述待处理账号的特征向量包括：

从所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据中，获得所述待处理账号和所述至少一个已有账号的共有数据，所述待处理账号和所述至少一个已有账号的共有数据用于体现所述待处理账号和所述至少一个已有账号之间的关联；

基于所述待处理账号和所述至少一个已有账号的共有数据，得到所述待处理账号的特征向量。

优选的，所述生成所述待处理账号的特征向量包括：

基于所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据，获得所述待处理账号和所述至少一个已有账号的共有数据的权重；

基于所述待处理账号和所述至少一个已有账号的共有数据的权重，得到所述待处理账号的第一类型向量，所述第一类型向量用于表述所述待处理账号和至少一个已有账号之间的关联程度；

基于所述待处理账号的历史交互数据，得到所述待处理账号的第二类型向量，所述第二类型向量用于表述所述待处理账号的行为特征；

将所述第一类型向量和所述第二类型向量组成所述待处理账号的特征向量。

优选的，所述第一类型向量包括：所述共有数据中至少一个属性的权重；所述第二类型向量包括：所述待处理账号的历史交互数据中至少一种属性对应的属性值。

优选的，所述方法还包括：基于所述待处理账号的历史交互数据和至少一个所述已有账号的历史交互数据，建立所述待处理账号的特征模型，所述待处理账号的特征模型用于将所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的共有数据进行图形化表述。

优选的，所述基于所述待处理账号的特征向量，确定所述待处理账号所属的账号检测数据簇包括：

获得各个所述账号检测数据簇的参考样本；

基于所述待处理账号的特征向量和各个参考样本的特征向量，从所述各个参考样本中确定满足预设条件的参考样本；

将所述满足预设条件的参考样本所属的账号检测数据簇确定为所述待处理账号所属的账号检测数据簇。

本发明还提供一种账号检测装置，所述装置包括：

获取单元，用于获取待处理账号的历史交互数据；

生成单元，用于基于待处理账号的历史交互数据，生成所述待处理账号的特征向量，所述待处理账号的特征向量用于表述所述待处理账号和至少一个已有账号之间的关联；

第一确定单元，用于基于所述待处理账号的特征向量，确定所述待处理账号所属的账号检测数据簇，所述账号检测数据簇是基于所述已有账号的特征向量聚类得到的数据集合；

第二确定单元，用于基于所述待处理账号所属的账号检测数据簇的类型，确定所述待处理账号的账号类型。

优选的，所述装置还包括：数据簇获得单元，用于获得账号集合中各个已有账号的历史交互数据，生成各个所述已有账号的特征向量，所述各个已有账号的特征向量用于表述各个已有账号之间的关联；基于各个已有账号的特征向量的相似度进行聚类，得到所述账号检测数据簇，获得所述账号检测数据簇中账号类型为异常类型的已有账号在所述账号检测数据簇中的占比，如果账号类型为异常类型的已有账号在所述账号检测数据簇中的占比大于预设比例，确定所述账号检测数据簇的类型为异常数据簇。

优选的，所述生成单元，用于从所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据中，获得所述待处理账号和所述至少一个已有账号的共有数据，并基于所述待处理账号和所述至少一个已有账号的共有数据，得到所述待处理账号的特征向量，所述待处理账号和所述至少一个已有账号的共有数据用于体现所述待处理账号和所述至少一个已有账号之间的关联；

或者

所述生成单元，用于基于所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据，获得所述待处理账号和所述至少一个已有账号的共有数据的权重，基于所述待处理账号和所述至少一个已有账号的共有数据的权重，得到所述待处理账号的第一类型向量，基于所述待处理账号的历史交互数据，得到所述待处理账号的第二类型向量，并将所述第一类型向量和所述第二类型向量组成所述待处理账号的特征向量，所述第一类型向量用于表述所述待处理账号和至少一个已有账号之间的关联程度，所述第二类型向量用于表述所述待处理账号的行为特征。

优选的，所述装置还包括：建立单元，用于基于所述待处理账号的历史交互数据和至少一个所述已有账号的历史交互数据，建立所述待处理账号的特征模型，所述待处理账号的特征模型用于将所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的共有数据进行图形化表述。

优选的，所述第一确定单元，用于获得各个所述账号检测数据簇的参考样本，基于所述待处理账号的特征向量和各个参考样本的特征向量，从所述各个参考样本中确定满足预设条件的参考样本，并将所述满足预设条件的参考样本所属的账号检测数据簇确定为所述待处理账号所属的账号检测数据簇。

本发明还提供一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有一个或多个程序，所述处理器执行所述一个或多个程序时实现上述账号检测方法。

本发明还提供一种存储介质，所述存储介质上存储有一个或多个计算机程序代码，所述一个或多个计算机程序代码被运行时实现上述账号检测方法。

从上述技术方案可知，在获取待处理账号的历史交互数据之后，确定待处理账号的特征向量，基于待处理账号的特征向量，确定待处理账号所属的账号检测数据簇，并基于待处理账号所属的账号检测数据簇的类型，确定待处理账号的账号类型，其中待处理账号的特征向量用于表述待处理账号和至少一个已有账号之间的关联，且账号检测数据簇是基于已有账号的特征向量聚类得到的数据集合，由此能够通过待处理账号和已有账号之间的关联以及基于已有账号的特征向量得到的账号检测数据簇进行账号类型的识别，实现了从检测高频行为特征向检测账号之间存在联系的行为特征进行转变，这样即使待处理账号修改自身的行为特征，仍可以通过待处理账号与已有账号之间的联系检测出该待处理账号是异常账号还是正常账号，提高账号检测的准确度。并且确定待处理账号的账号类型基于的账号检测数据簇是基于已有账号的特征向量聚类得到，当时可以基于预先构建的至少两个账号类别检测数据组来确定，当已有账号中的异常账号的行为特征发生变化时可以基于发生变化后的行为特征重新构建账号检测数据簇即可，无需人为修改异常账号规则，提高账号检测的灵活性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种账号检测方法的流程图；

图2是本发明实施例提供的一种确定待处理账号的特征向量的流程图；

图3是本发明实施例提供的另一种确定待处理账号的特征向量的流程图；

图4是本发明实施例提供的另一种账号检测方法的流程图；

图5是本发明实施例提供的一种待处理账号的特征模型的示意图；

图6是本发明实施例提供的再一种账号检测方法的流程图；

图7是本发明实施例提供的一种账号检测装置的结构示意图；

图8是本发明实施例提供的另一种账号检测装置的结构示意图。

具体实施方式

本发明提供了一种账号检测方法及装置，通过以字符化方式表述的待处理账号和至少一个已有账号之间的关联进行账号类型识别，实现从检测高频行为特征向检测账号之间存在联系的行为特征进行转变，摆脱了对黑色产业高频行为特征的依赖，以提高账号检测的准确度。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，都属于本发明保护范围。

如图1所示，为本发明实施例提供的一种账号检测方法的流程图，该方法包括以下步骤：

S101：获取待处理账号的历史交互数据。其中待处理账号的历史交互数据是用于获得待处理账号的账号类型依据的数据基础，待处理账号的历史交互数据用于表明待处理账号在一定时间内发生的行为特征，例如历史交互数据是待处理账号所执行的行为、行为发生时产生的数据等等，如账号在某一时间、某一地点针对某一对象的行为，而待处理账号可以是在任一软件中使用的账号，如用于登录某个视频软件的账号，那么该用于登陆某个视频软件的账号的历史交互数据则是通过该账号登陆视频软件产生的数据，通过该账号浏览视频的数据等。

在本实施例中，待处理账号的历史交互数据可以包括但不限于待处理账号的行为日志中的数据，由此对于待处理账号的历史交互数据获得过程可以是：通过服务器可对待处理账号的行为日志进行监控，在接收到数据获取请求或接收到账号检测请求之后从行为日志中获得待处理账号的历史交互数据。

同一个待处理账号能够在不同设备上使用，不同设备对数据存储、数据记录等可能设置有不同的格式，由此会导致从不同设备上获取到的待处理账号的历史交互数据的格式可能不同，因此在获取到历史交互数据之后，需要对历史交互数据进行预处理，以使得各个待处理账号的历史交互数据的格式统一，降低因数据格式有误导致的账号类型检测出错。

预处理的过程可以是但不限于：将待处理账号的历史交互数据的格式转换为预设格式，并删除待处理账号的历史交互数据中的异常历史交互数据，所谓异常历史交互数据包括但不限于不符合该历史交互数据对应类型的取值要求的数据，以时间为例，时间的格式有某年某月某日、年/月/日、年月日、年.月.日、年-月-日等格式，为此在获得这种类型的历史交互数据，需要进行格式统一以使得在后续特征提取时可以保证是从具有统一格式的数据中提取，提高特征提取的准确度，例如时间的预设格式为年.月.日，则在获得时间这种类型的历史交互数据之后，需要将不具备预设格式的时间转换为该预设格式的时间，如20180901和2018年9月1日等格式转化成2017.09.01的预设格式。并且对于时间这种类型的历史交互数据来说，时间一般是对应某个数值，且该数值不能为负值，因此如果时间这种历史交互数据的取值为空或者取值为负值，则认为该历史交互数据为异常历史交互数据，需要将该历史交互数据删除。

S102：基于待处理账号的历史交互数据，确定待处理账号的特征向量，其中待处理账号的特征向量用于表述待处理账号和至少一个已有账号之间的关联，以通过待处理账号的特征向量体现出待处理账号和至少一个已有账号在行为特征间的联系，待处理账号和至少一个已有账号在行为特征间的联系包括但不限于：账号注册行为、账号激活行为和账号使用行为(如账号登陆行为和基于账号的观影行为等)对应的行为特征间的联系，以通过这些行为特征间的联系确定待处理账号和至少一个已有账号是否是因更换物料生成的对应同一个用户的账号，这样就可以将基于高频行为的账号识别替换为基于待处理账号和已有账号之间的关联的账号识别，实现从检测高频行为特征到检测账号之间存在联系的行为特征的转变。

在本实施例中，为了能够表述待处理账号和至少一个已有账号之间的关联，待处理账号的特征向量可以是基于待处理账号和至少一个已有账号的共有数据得到，所谓共有数据是待处理账号的历史交互数据和至少一个已有账号的历史交互数据中相同的数据，将这些相同的数据以数值化形式表示得到待处理账号的特征向量。

例如待处理账号和已有账号的历史交互数据中包括多种属性的属性值，一种属性可以视为是一种行为特征，如果待处理账号和已有账号的历史交互数据的多种属性中的任一属性的属性值相同，则该属性的属性值是待处理账号和已有账号的历史交互数据中的共有数据，如果该属性的属性值采用的数值化形式表示，则不需要对其进行处理，如果该属性的属性值采用的是非数值化形式表示，则需要将该属性值从非数值化形式表示转换为以数值化形式表示，然后基于能够作为共有数据的所有属性的属性值得到待处理账号的特征向量，如将能够作为共有数据的所有属性的属性值组合成待处理账号的特征向量。

在本实施例中，将属性值从非数值化形式表示转换为以数值化形式表示的方式是：采用编码形式将属性值以数值化形式表示，以待处理账号的注册地为例，假设待处理账号的注册地为上海，已知的所有注册地的排列为：北京、上海、广州、河北等，则该注册地这一属性的属性值“上海”的数值化形式表示为：0100…。

此外在基于共有数据得到待处理账号的特征向量之后，还可以对待处理账号的特征向量进行归一化处理(如线性归一化、标准差归一化等)，以使得不同待处理账号的特征向量处于同一数量级，对于归一化处理过程本实施例不再详述。

S103：基于待处理账号的特征向量，确定待处理账号所属的账号检测数据簇，其中账号检测数据簇是基于已有账号的特征向量聚类得到的数据集合，其预先得到账号检测数据簇的过程如下：

1)获得账号集合中各个已有账号的历史交互数据，其中账号集合包括账号类型为异常类型和账号类型为正常类型的已有账号，将这两种类型的已有账号作为样本进行聚类以得到账号检测数据簇，进而基于这两种类型的已有账号确定出每个账号检测数据簇的类型。对于各个已有账号的历史交互数据的说明以及获得过程请参阅对待处理账号的历史交互数据的说明，此处不再详述。

2)确定各个已有账号的特征向量，其中各个已有账号的特征向量用于表述各个已有账号之间的关联。一种可行方式是：从各个已有账号的历史交互数据中获得共有数据，基于各个已有账号的共有数据，得到各个已有账号的特征向量，具体请参阅待处理账号的特征向量的说明，此处不再阐述。

3)基于各个已有账号的特征向量的相似度进行聚类，得到账号检测数据簇。其中各个已有账号的特征向量的相似度可通过余弦相似度算法、欧式距离算法等获得，并基于聚类算法对各个已有账号进行聚类，如基于K均值聚类算法或K最近邻分类算法对各个已有账号进行聚类，实现对各个已有账号的划分，得到账号集合对应的多个账号检测数据簇，并且通过聚类能够将各个已有账号划分至对应的账号检测数据簇中。

4)基于账号检测数据簇中账号类型为异常类型的已有账号，确定账号检测数据簇的类型为异常数据簇。

在本实施例中，通过聚类得到账号集合对应的多个账号检测数据簇之后，对各个账号检测数据簇都需要基于各自包括的账号类型为异常类型的已有账号，确定各个账号检测数据簇的类型。以一个账号检测数据簇为例阐述确定该账号检测数据簇的类型的可行方式：

一种可行方式：获得该账号检测数据簇中账号类型为异常类型的已有账号在该账号检测数据簇中的占比，如果账号类型为异常类型的已有账号在该账号检测数据簇中的占比大于或等于预设比例，则该账号类别检测数据簇的类型为异常数据簇，否则该账号类别检测数据簇的类型为正常数据簇，对于预设比例的设定可以根据实际应用而定，对此本实施例不进行限定。

另一种可行方式：基于该账号检测数据簇中账号类型为正常类型的已有账号，确定账号检测数据簇的类型，例如获得该账号检测数据簇中账号类型为正常类型的已有账号在该账号检测数据簇中的占比，如果账号类型为正常类型的已有账号在该账号检测数据簇中的占比大于或等于预设占比，则该账号类别检测数据簇的类型为正常数据簇，否则该账号类别检测数据簇的类型为异常数据簇，对于预设占比的设定可以根据实际应用而定，对此本实施例不进行限定。

而确定待处理账号所属的账号检测数据簇的一种方式可以是：获得各个账号检测数据簇的参考样本，基于待处理账号的特征向量和各个参考样本的特征向量，从各个参考样本中确定满足预设条件的参考样本，并将满足预设条件的参考样本所属的账号检测数据簇确定为待处理账号所属的账号检测数据簇。

其中账号检测数据簇的参考样本是属于该账号检测数据簇中能够体现该账号检测数据簇的类型的已有账号，例如如果该账号检测数据簇是一个异常数据簇，则可以将属于该账号检测数据簇中账号类型为异常类型的已有账号视为是该账号检测数据簇的参考样本。并且属于该账号检测数据簇的所有已有账号中相似的已有账号(相似度接近的已有账号)会向该账号检测数据簇的中心汇集，由此可以将位于该账号检测数据簇的中心一定范围内的已有账号视为是账号检测数据簇的参考样本，例如可以将能够作为该账号检测数据簇的中心点的已有账号作为参考样本。

在获得各个账号检测数据簇的参考样本之后，基于待处理账号的特征向量和各个参考样本的特征向量，计算待处理账号到各个参考样本的距离，并选取出距离满足预设条件(如距离最小)的参考样本所属账号检测数据簇作为该待处理账号所属的账号检测数据簇。

S104：基于待处理账号所属的账号检测数据簇的类型，确定待处理账号的账号类型。例如如果待处理账号所属的账号检测数据簇的类型为异常数据簇，则待处理账号的账号类型为异常类型，如果待处理账号所属的账号检测数据簇的类型为正常数据簇，则待处理账号的账号类型为正常类型。

在得到待处理账号的账号类型之后，该待处理账号变更为已有账号，由此可以将该待处理账号存储至账号集合中，以对账号集合进行更新，相对应本实施例提供的账号检测方法还可以基于更新后的账号集合对账号检测数据簇进行更新。其中对账号检测数据簇的更新方式是：

获得更新后的账号集合中各个已有账号的特征向量，基于各个已有账号的特征向量的相似度，对更新后的账号集合中各个已有账号进行重新聚类，得到账号检测数据簇，从而实现基于新的已有账号(即确定出账号类型的待处理账号)对账号检测数据簇进行更新，进而可以基于更新后的账号检测数据簇对后续的待处理账号的账号类型进行检测。

之所以基于更新后的账号检测数据簇进行检测是因为：账号集合中的已有账号的历史交互数据会在使用一段时间发生变化，使得异常类型的已有账号的行为特征发生变化，而待处理账号的历史交互数据体现的行为特征可能是发生变化的行为特征，这样可以通过引入待处理账号的方式来加入体现最新行为特征的历史交互数据，使得账号检测数据簇可以基于体现最新行为特征的历史交互数据进行构建，以使得账号检测数据簇可以表明最新行为特征的规律，避免降低账号检测的准确度。并且当行为特征发生变化之后，仅需要将体现发生变化的行为特征的历史交互数据所属账号加入账号集合中来更新账号检测数据簇即可，相对于现有人为修改异常账号规则来说，提高账号检测的灵活性。

下面将结合附图对确定待处理账号的特征向量的过程进行说明，请参阅图2，其示出了本发明实施例提供的一种确定待处理账号的特征向量的可行方式，可以包括以下步骤：

S201：从待处理账号的历史交互数据和至少一个已有账号的历史交互数据中，获得待处理账号和至少一个已有账号的共有数据，其中待处理账号和至少一个已有账号的共有数据用于体现待处理账号和至少一个已有账号之间的关联。

可以理解的是：待处理账号和至少一个已有账号的共有数据是待处理账号的历史交互数据和至少一个已有账号的历史交互数据中相同的数据，例如待处理账号和已有账号的历史交互数据中包括多种属性的属性值，一种属性可以视为是一种行为特征，如果待处理账号和已有账号的历史交互数据的多种属性中的任一属性的属性值相同，则该属性的属性值是待处理账号和已有账号的历史交互数据中的共有数据，因此通过共有数据能够体现出待处理账号和已有账号之间的关联。

S202：基于待处理账号和至少一个已有账号的共有数据，得到待处理账号的特征向量，以使得得到的待处理账号的特征向量能够表述待处理账号和至少一个已有账号之间的关联，对于如何得到待处理账号的特征向量请参阅上述步骤S102中的说明。

请参阅图3，其示出了本发明实施例提供的另一种确定待处理账号的特征向量的可行方式，可以包括以下步骤：

S301：基于待处理账号的历史交互数据和至少一个已有账号的历史交互数据，获得待处理账号和至少一个已有账号的共有数据的权重，其中共有数据的说明请参阅上一实施例。

而待处理账号和至少一个已有账号的共有数据的权重是：共有数据中每个属性的权重，该属性的权重表明待处理账号和至少一个已有账号在该属性下的关联程度。在本实施例中共有数据中每个属性的权重可以运用但不限于TF-IDF(Term Frequency–InverseDocument Frequency，一种用于信息检索与数据挖掘的常用加权技术)计算得到。

S302：基于待处理账号和至少一个已有账号的共有数据的权重，得到待处理账号的第一类型向量，其中第一类型向量用于表述待处理账号和至少一个已有账号之间的关联程度。一种方式是：由共有数据中每个属性的权重组成第一类型向量；另一种方式是：对共有数据中每个属性的权重进行处理，如加权求和、对每个属性的权重进行平均等等中的一种处理，然后基于处理后的结果得到第一类型向量。

S303：基于待处理账号的历史交互数据，得到待处理账号的第二类型向量，其中第二类型向量用于表述待处理账号的行为特征，以通过第二类型向量体现出待处理账号与已有账号在各自的行为特征上的差异。

在本实施例中，第二类型向量可以是由待处理账号的历史交互数据中每个属性的属性值组合得到，其得到过程与上述步骤S102中生成特征向量的过程相同，对此本实施例不在阐述，从第一类型向量和第二类型向量的得到过程可知：第一类型向量基于待处理账号和至少一个已有账号的共有数据的权重生成，第二类型向量基于待处理账号的历史交互数据中每个属性的属性值得到，因此第一类型向量能够表述出待处理账号和至少一个已有账号的关联程度，第二类型向量能够表述出待处理账号自身的行为特征，使得待处理账号的特征向量能够同时包含账号之间的关联程度以及待处理账号自身的行为特征这两个方面，进而使得账号检测能够从这两个方面进行。

S304：将第一类型向量和第二类型向量组成待处理账号的特征向量。一种组成方式是：将第一类型向量和第二类型向量合并，以得到待处理账号的特征向量，这样可以基于待处理账号自身的行为特征和待处理账号与至少一个已有账号之间的关联程度进行账号类型检测，从而能够同时基于高频行为特征和行为特征的联系共同进行账号类型检测，以提高账号检测的准确度。或者在将第一类型向量和第二类型向量合并之后，对合并得到的特征向量进行归一化处理，以得到待处理账号的特征向量。

此外在本实施例中第一类型向量包括：共有数据中至少一个属性的权重；第二类型向量包括：待处理账号的历史交互数据中至少一种属性对应的属性值，以使至少一种向量能够从多方面对待处理账号进行体现。例如待处理账号的属性可以是ip、ua、共用账号、手机号、tvid(观看的视频)和设备参数等，那么第一类型向量可以包括但不限于：用户在ip属性上的权重之和，用户在ua属性上的权重之和，用户在phone(手机号)属性上的权重之和，用户在device(设备比如：手机/PC/平板等等)上的权重之和，用户在注册时间属性上的权重之和，用户在登陆时间属性上的权重之和，用户在tvid属性上的权重之和，用户在支付方式属性上的权重之和等

第二类型向量可以包括：用户使用的ip总数，用户在ip属性上关联的邻居(即通过ip直接关联的用户)数；用户使用的ua总数，用户在ua属性上关联的邻居数；用户使用的phone总数，用户在phone属性上关联的邻居数；用户使用的device总数，用户在device属性上关联的邻居数；用户在注册时间属性上关联的邻居数；用户登陆的总次数，用户在登陆时间属性上关联的邻居数；用户观看的tvid总数，用户在tvid属性上关联的邻居数；用户使用的支付方式总数，用户在支付方式属性上关联的邻居数等。

从上述第一类型向量和第二类型向量说明可知，本实施例在进行账号类型检测时能够从多角度出发，以提高账号检测的准确度。

请参阅图4，其示出了本发明实施例提供的另一种账号检测方法，可以包括以下步骤：

S401：获取待处理账号的历史交互数据。

S402：基于待处理账号的历史交互数据和至少一个已有账号的历史交互数据，建立待处理账号的特征模型，其中待处理账号的特征模型用于将待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的共有数据进行图形化表述，所谓共有数据是待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的相同数据，待处理账号和已有账号的历史交互数据中记录有各个属性的属性值，那么中如果有一个属性的属性值在待处理账号和已有账号的历史交互数据的记录相同，那么该属性的属性值则是两个账号的历史交互数据中的相同数据，如果该属性的属性值在待处理账号和已有账号的历史交互数据的记录不同，则这两个账号的历史交互数据中该属性的属性值分别为这两个账号的私有数据。在本实施例中建立待处理账号的特征模型的过程如下：

步骤1：将待处理账号和其他账号作为特征模型的节点；

步骤2：以不同节点的历史交互数据中的属性值作为连接不同节点的条件，将具有同一属性且该属性的属性值相同(即共有数据)的节点通过一条边连接。由步骤1和步骤2可知，特征模型就是把各个账号抽象的作为特征模型的节点，这些节点可以两两连接，但是需要满足条件才能够两两相连，该条件是两个节点之间具备相同属性值。

其中对于作为节点的账号来说，历史交互数据包括的属性有物料和行为，物料表明账号在执行某个行为时使用的参数，如ip(Internet Protocol Address，网际协议地址)、useragent(用户代理，简称ua)、设备参数、时间和地点等，而行为表明使用账号发生的一种动作，如包括但不限于注册行为、激活行为、登录行为和观影行为中的至少一种，对于每种类型的行为来说都有不同属性，如注册行为包括的至少一种属性可以是但不限于：注册时间、注册地点、注册ip、注册ua、注册邮箱和注册手机号；激活行为包括的至少一种属性可以是但不限于：激活时使用的ip、激活时使用的ua，激活时所在城市和激活时间；登录行为包括的至少一种属性可以是但不限于：登陆ip、登陆ua、登陆地点、登录时使用的设备和登录时间；观影行为包括的至少一种属性可以是但不限于：观影ip、观影ua、观影时间、观影地点和观影视频。

并且对于每种类型的属性来说还包括至少一种行为子属性，以注册行为下的属性为例，注册时间包括的行为子属性可以是但不限于：同一时间注册的帐号数和同一天同一地点注册的帐号数，注册地点包括的行为子属性可以是但不限于：同一地点注册的帐号数，注册ip包括至的行为子属性可以是但不限于：同一ip注册的帐号数和同一天同一ip注册的帐号数，注册ua包括的行为子属性可以是但不限于：同一ua注册的帐号数和同一天同一ua注册的帐号数，注册邮箱包括的行为子属性可以是但不限于：同一邮箱后缀注册的帐号数和同一天同一邮箱后缀注册的帐号数，注册手机号包括的行为子属性可以是但不限于：同一手机号归属地注册的帐号数和同一天同一手机号归属地注册的帐号数。对于其他行为下的属性包括的行为子属性，本实施例不再一一说明。

基于上述，在获得特征模型时，除需要考虑属性相同之外，还需要考虑属性对应的属性值相同，如对于ip这一属性来说，待处理账号和其他账号可能会使用不同的ip，那么在获得特征模型时需要将ip相同的节点通过边连接。

举例说明，若节点1和节点2都具有属性值ip1，则将节点1和节点2相连接，需要说明的是只要两个节点具有相同的属性值，不限制属性值的数量都可对两个节点进行连接，也就是说两个节点可能具有多个属性，且这多个属性的属性值相同，则需要通过一条边相连，而非多条边，例如节点1和节点2都具有属性值ip1和ua1，则节点1和节点2通过一条边相连，该边对应的属性值为ip1和ua1。

步骤3：计算每个节点的每个属性值的权重。其中每个属性值的权重用来表示每个属性值在所属的节点中的稀有程度，对于每个属性值的权重可以运用但不限于TF-IDF(Term Frequency–Inverse Document Frequency，一种用于信息检索与数据挖掘的常用加权技术)计算，具体过程本实施例不再进行阐述。并且对于通过一条边连接的两个节点来说，这两个节点所具有的相同的属性值具有相同的权重，为此对于任意两个节点共用的属性值计算一次权重即可，其中两个节点共用的属性值为两个节点所具有的相同的属性值。

步骤4：对任意两个节点之间的边：如果该边连接的两个节点共用至少两个属性值，将共用的至少两个属性值的权重之和确定为该边的权重，如果该边连接的两个节点共用一个属性值，从而获得所述待处理账号的特征模型。

也就是说一个边的权重是由其连接的两个节点的属性值的权重而定，仍以上述例子为例，如若节点1和节点2之间的边共用一个属性值ip1，则节点1和节点2之间的边的权重为ip1的权重。如果一条边共用至少两个属性值，如上述对应节点1和节点2都具有属性值ip1和ua1，则该边的权重是：ip1的权重和ua1的权重进行加和，在得到节点的每个属性值的权重和节点之间连接的边的权重之后得到构成待处理账号的特征模型。特征模型如图3所示，在该特征模型中待处理账号为小薇，通过小薇的历史交互数据和已有账号的历史交互数据构建出小薇的特征模型，并且从图5可知在小薇的特征模型中不仅能体现小薇与已有账号之间的关系，还能够体现已有账号彼此之间的关系，因此一个特征模型可以适用于多个账号。

从上述过程可知，获得的待处理账号的特征模型可以通过边的联系直观而且清楚的表明待处理账号与已有账号之间的关联，通过边的权重体现关联程度。在构建待处理账号的特征模型时可以在已有账号的特征模型中加入待处理账号，这样在基于待处理账号的历史交互数据与一个已有账号建立联系之后，与该已有账号有联系的其他已有账号就无需与该待处理账号的历史交互数据进行比对，从而提高待处理账号的特征模型的构建效率。

并且通过待处理账号的特征模型可以检测基于账号检测数据簇确定的账号类型的是否准确，之所以能够检测是因为：待处理账号的特征模型中已有账号的账号类型已知，在特征模型中待处理账号与哪个已有账号通过边关联在一起，那么待处理账号的账号类型与通过边关联的已有账号的账号类型就极可能相同，所以通过特征模型可以对账号类型检测的准确度进行核实。

S403：基于待处理账号的历史交互数据，生成待处理账号的特征向量，其中待处理账号的特征向量用于表述待处理账号和至少一个已有账号之间的关联。

在本实施例中，待处理账号的特征模型通过边展示出待处理账号和至少一个已有账号的共有数据的权重，因此在生成待处理账号的特征向量过程中可以借助于待处理账号的特征模型得到第一类型向量，省去在生成特征向量时再次比对待处理账号和至少一个已有账号的历史交互数据计算权重的过程。

S404：基于待处理账号的特征向量，确定待处理账号所属的账号检测数据簇，其中账号检测数据簇是基于已有账号的特征向量聚类得到的数据集合。

S405：基于待处理账号所属的账号检测数据簇的类型，确定待处理账号的账号类型。

在本实施例中，上述步骤S401、S403至S405：与上述步骤S101至S104相同，对此本实施例不在阐述。

从上述技术方案可知，通过待处理账号的特征模型的边能够直观而且清楚的表明待处理账号与已有账号之间的关联，通过边的权重体现关联程度。在构建待处理账号的特征模型时可以在已有账号的特征模型中加入待处理账号，这样在基于待处理账号的历史交互数据与一个已有账号建立联系之后，与该已有账号有联系的其他已有账号就无需与该待处理账号的历史交互数据进行比对，从而提高待处理账号的特征模型的构建效率。并且待处理账号的特征模型中已有账号的账号类型已知，在特征模型中待处理账号与哪个已有账号通过边关联在一起，那么待处理账号的账号类型与通过边关联的已有账号的账号类型就极可能相同，所以通过特征模型可以对账号类型检测的准确度进行核实

请参阅图6，其示出了本发明实施例提供的再一种账号检测方法，可以包括以下步骤：

S601：获得待处理集合中各个待处理账号的历史交互数据。

S602：基于各个待处理账号的历史交互数据，确定各个待处理账号的特征向量，其中各个待处理账号的特征向量用于表述各个待处理账号之间的关联。

在本实施例中，确定各个待处理账号的特征向量的一种形式是：获得各个待处理账号之间的共有数据，基于各个待处理账号之间的共有数据，得到各个待处理账号的特征向量，其中各个待处理账号的特征向量用于表述各个待处理账号之间的关联；另一种形式是：基于各个待处理账号的历史交互数据，建立待处理集合的特征模型，基于待处理集合的特征模型，获得各个待处理账号的特征向量；再一种形式是：获得待处理集合中各个待处理账号的共有数据，基于各个待处理账号的共有数据，得到各个待处理账号的第一类型向量，基于各个待处理账号的历史交互数据，得到各个待处理账号的第二类型向量，将各个待处理账号的第一类型向量与各自的第二类型向量组合，得到各个待处理账号的特征向量，这三种形式的具体过程请参阅上述方法实施例中的相关说明。

S603：基于各个待处理账号的特征向量的相似度进行聚类，得到账号检测数据簇，从而将各个待处理账号划分至对应的账号检测数据簇中。

S604：获得账号类型为异常类型的已有账号的特征向量。

S605：基于账号类型为异常类型的已有账号的特征向量，确定该已有账号所属的账号检测数据簇，并将已有账号所属的账号检测数据簇的类型确定为异常数据簇，且属于该异常数据簇的待处理账号的账号类型为异常类型。

其中确定该已有账号所属的账号检测数据簇的过程请参阅上述方法实施例中确定待处理账号所属的账号检测数据簇，对此本实施例不在阐述。并且为了能够提高账号检测的准确度，在一个账号检测数据簇中包括的账号类型为异常类型的已有账号达到一定数量的情况下，将该账号检测数据簇的类型确定为异常数据簇，该一定数据可以根据实际需求而定。

此外在将已有账号所属的账号检测数据簇的类型确定为异常数据簇之后，还可以基于已有账号的特征向量和该账号检测数据簇中待处理账号的特征向量，从该异常数据簇中确定出账号类型为异常类型的待处理账号。

例如基于已有账号的特征向量和该账号检测数据簇中待处理账号的特征向量，计算已有账号和该账号检测数据簇中待处理账号之间的距离，将距离满足预设条件的待处理账号的账号类型确定为异常类型，否则确定为正常类型。

从上述技术方案可知，在获得待处理集合中各个待处理账号的历史交互数据之后，基于各个待处理账号的历史交互数据，确定各个待处理账号的特征向量，基于各个待处理账号的特征向量的相似度进行聚类，得到账号检测数据簇，获得账号类型为异常类型的已有账号的特征向量，基于账号类型为异常类型的已有账号的特征向量，确定该已有账号所属的账号检测数据簇，并将已有账号所属的账号检测数据簇的类型确定为异常数据簇，且属于该异常数据簇的待处理账号的账号类型为异常类型，其中各个待处理账号的特征向量用于表述各个待处理账号之间的关联，由此实现了从检测高频行为特征向检测账号之间存在联系的行为特征进行转变，这样即使待处理账号修改自身的行为特征，仍可以通过待处理账号与已有账号之间的联系检测出该待处理账号是异常账号还是正常账号，提高账号检测的准确度。

与上述方法实施例相对应，本发明实施例还提供一种账号检测装置，其结构如图7所示，可以包括：获取单元10、生成单元20、第一确定单元30和第二确定单元40。

获取单元10，用于获取待处理账号的历史交互数据。其中待处理账号的历史交互数据是用于获得待处理账号的账号类型依据的数据基础，待处理账号的历史交互数据用于表明待处理账号在一定时间内发生的行为特征，例如历史交互数据是待处理账号所执行的行为、行为发生时产生的数据等等，如账号在某一时间、某一地点针对某一对象的行为，而待处理账号可以是在任一软件中使用的账号，如用于登录某个视频软件的账号，那么该用于登陆某个视频软件的账号的历史交互数据则是通过该账号登陆视频软件产生的数据，通过该账号浏览视频的数据等，详细说明请参阅方法实施例，对此本实施例不再阐述。

生成单元20，用于基于待处理账号的历史交互数据，生成待处理账号的特征向量，其中待处理账号的特征向量用于表述待处理账号和至少一个已有账号之间的关联，以通过待处理账号的特征向量体现出待处理账号和至少一个已有账号在行为特征间的联系，待处理账号和至少一个已有账号在行为特征间的联系包括但不限于：账号注册行为、账号激活行为和账号使用行为(如账号登陆行为和基于账号的观影行为等)对应的行为特征间的联系，以通过这些行为特征间的联系确定待处理账号和至少一个已有账号是否是因更换物料生成的对应同一个用户的账号，这样就可以将基于高频行为的账号识别替换为基于待处理账号和已有账号之间的关联的账号识别，实现从检测高频行为特征到检测账号之间存在联系的行为特征的转变。

在本实施例中生成单元20生成待处理账号的特征向量的方式可以包括但不限于如下方式：

一种方式：从待处理账号的历史交互数据和至少一个已有账号的历史交互数据中，获得待处理账号和至少一个已有账号的共有数据，并基于待处理账号和至少一个已有账号的共有数据，得到待处理账号的特征向量，待处理账号和至少一个已有账号的共有数据用于体现待处理账号和至少一个已有账号之间的关联。

另一种方式：基于待处理账号的历史交互数据和至少一个已有账号的历史交互数据，获得待处理账号和至少一个已有账号的共有数据的权重，基于待处理账号和至少一个已有账号的共有数据的权重，得到待处理账号的第一类型向量，基于待处理账号的历史交互数据，得到待处理账号的第二类型向量，并将第一类型向量和第二类型向量组成待处理账号的特征向量，第一类型向量用于表述待处理账号和至少一个已有账号之间的关联程度，第二类型向量用于表述待处理账号的行为特征，其中所述第一类型向量包括：所述共有数据中至少一个属性的权重；所述第二类型向量包括：所述待处理账号的历史交互数据中至少一种属性对应的属性值。

上述两种方式的说明请参阅方法实施例，对此本实施例不再阐述。

第一确定单元30，用于基于待处理账号的特征向量，确定待处理账号所属的账号检测数据簇，其中账号检测数据簇是基于已有账号的特征向量聚类得到的数据集合。

在本实施例中，账号检测数据簇由账号检测装置中的数据簇获得单元得到，其得到过程包括：获得账号集合中各个已有账号的历史交互数据，生成各个已有账号的特征向量，各个已有账号的特征向量用于表述各个已有账号之间的关联。基于各个已有账号的特征向量的相似度进行聚类，得到账号检测数据簇，获得账号检测数据簇中账号类型为异常类型的已有账号在账号检测数据簇中的占比，如果账号类型为异常类型的已有账号在账号检测数据簇中的占比大于预设比例，确定账号检测数据簇的类型为异常数据簇，具体说明请参阅方法实施例，对此本实施例不再阐述。

而第一确定单元30确定待处理账号所属的账号检测数据簇的方式可以是：获得各个账号检测数据簇的参考样本，基于待处理账号的特征向量和各个参考样本的特征向量，从各个参考样本中确定满足预设条件的参考样本，并将满足预设条件的参考样本所属的账号检测数据簇确定为待处理账号所属的账号检测数据簇，具体说明请参阅方法实施例，对此本实施例不再阐述。

第二确定单元40，用于基于待处理账号所属的账号检测数据簇的类型，确定待处理账号的账号类型。例如如果待处理账号所属的账号检测数据簇的类型为异常数据簇，则待处理账号的账号类型为异常类型，如果待处理账号所属的账号检测数据簇的类型为正常数据簇，则待处理账号的账号类型为正常类型。

请参阅图8，其示出了本发明实施例提供的另一种账号检测装置的结构，在图7基础上，还可以包括：建立单元50，用于基于待处理账号的历史交互数据和至少一个已有账号的历史交互数据，建立待处理账号的特征模型，待处理账号的特征模型用于将待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的共有数据进行图形化表述，以借助于待处理账号的特征模型得到待处理账号的特征向量。

例如待处理账号的特征模型通过边展示出待处理账号和至少一个已有账号的共有数据，通过特征模型的边就可以获得待处理账号和至少一个已有账号的共有数据，然后基于特征模型展示出的共有数据得到待处理账号的特征向量，使得在生成待处理账号的特征向量过程中可以借助于待处理账号的特征模型，省去在生成特征向量时再次比对待处理账号和至少一个已有账号的历史交互数据的过程，

本发明实施例还提供一种服务器，服务器包括处理器和存储器，存储器中存储有一个或多个程序，处理器执行一个或多个程序时实现上述账号检测方法。

本发明实施例还提供一种存储介质，存储介质上存储有一个或多个计算机程序代码，一个或多个计算机程序代码被运行时实现上述账号检测方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种账号检测方法，其特征在于，所述方法包括：

获取待处理账号的历史交互数据；

基于所述待处理账号所属的账号检测数据簇的类型，确定所述待处理账号的账号类型；

所述基于所述待处理账号的特征向量，确定所述待处理账号所属的账号检测数据簇包括：

获得各个所述账号检测数据簇的参考样本；

将所述满足预设条件的参考样本所属的账号检测数据簇确定为所述待处理账号所属的账号检测数据簇；所述账号检测数据簇的预先得到过程包括：

获得账号集合中各个已有账号的历史交互数据；

2.根据权利要求1所述的方法，其特征在于，所述生成所述待处理账号的特征向量包括：

3.根据权利要求1所述的方法，其特征在于，所述生成所述待处理账号的特征向量包括：

4.根据权利要求3所述的方法，其特征在于，所述第一类型向量包括：所述共有数据中至少一个属性的权重；所述第二类型向量包括：所述待处理账号的历史交互数据中至少一种属性对应的属性值。

5.根据权利要求2或3所述的方法，其特征在于，在获取待处理账号的历史交互数据之后，所述方法还包括：基于所述待处理账号的历史交互数据和至少一个所述已有账号的历史交互数据，建立所述待处理账号的特征模型，所述待处理账号的特征模型用于将所述待处理账号的历史交互数据和至少一个已有账号的历史交互数据中的共有数据进行图形化表述。

6.一种账号检测装置，其特征在于，所述装置包括：

获取单元，用于获取待处理账号的历史交互数据；

第二确定单元，用于基于所述待处理账号所属的账号检测数据簇的类型，确定所述待处理账号的账号类型；

获得各个所述账号检测数据簇的参考样本；

将所述满足预设条件的参考样本所属的账号检测数据簇确定为所述待处理账号所属的账号检测数据簇；

所述账号检测数据簇的预先得到过程包括：

获得账号集合中各个已有账号的历史交互数据；

7.一种服务器，所述服务器包括处理器和存储器，其特征在于，所述存储器中存储有一个或多个程序，所述处理器执行所述一个或多个程序时实现如权利要求1至5中任意一项所述的账号检测方法。

8.一种存储介质，其特征在于，所述存储介质上存储有一个或多个计算机程序代码，所述一个或多个计算机程序代码被运行时实现如权利要求1至5中任意一项所述的账号检测方法。