CN113129054B

CN113129054B - 用户识别方法和装置

Info

Publication number: CN113129054B
Application number: CN202110343619.2A
Authority: CN
Inventors: 张泽磊; 李健宇
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2024-05-31
Anticipated expiration: 2041-03-30
Also published as: CN113129054A

Abstract

本发明公开了一种用户识别方法和装置。其中，该方法包括：获取第一特征集合，其中，第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，第一用户为属于正常行为的用户，第二用户为存在异常行为的用户；基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合；基于目标特征集合，构建训练数据；利用训练数据对用户识别模型进行训练，其中，用户识别模型用于检测待识别用户是否存在异常行为。本发明解决了相关技术中用户识别的效率和准确率较低的技术问题。

Description

用户识别方法和装置

技术领域

本发明涉及互联网安全领域，具体而言，涉及一种用户识别方法和装置。

背景技术

随着直播行业的发展，不仅吸引了海量观众，同时也吸引了大量系统通过作弊手段盈利的非法用户，非法用户的存在会对直播平台造成严重损失，并且影响正常用户的使用体验。

为了解决上述问题，相关技术中提供了一种使用规则的方法进行用户识别，该方法通过对用户IP、用户弹幕、用户账号等级、用户MAC(Medium Access Control，物理地址)等维度建立规则，满足规则会增加一定的分数，当总分数超过一定阈值时可以认为该用户属于非法用户，不超过该阈值则认为该用户属于正常用户。

但是，由于规则对应的分数以及阈值需要经过多次迭代才能确定，导致用户识别效率降低，而且，规则用户被非法用户通过多次尝试而绕过，导致用户识别准确度降低。针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种用户识别方法和装置，以至少解决相关技术中用户识别的效率和准确率较低的技术问题。

根据本发明实施例的一个方面，提供了一种用户识别方法，包括：获取第一特征集合，其中，第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，第一用户为属于正常行为的用户，第二用户为存在异常行为的用户；基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合；基于目标特征集合，构建训练数据；利用训练数据对用户识别模型进行训练，其中，用户识别模型用于检测待识别用户是否存在异常行为。

可选地，获取第一特征集合包括：获取第一用户的第一行为数据，以及第二用户的第二行为数据，其中，第一行为数据与第二行为数据的类型相同；基于第一行为数据和第二行为数据，生成第二特征集合；生成每个第二特征对应的特征箱型图，其中，箱型图包括：第一用户的第一箱型图和第二用户的第二箱型图；基于每个第二特征对应的特征箱型图，对第二特征集合中的第二特征进行筛选，得到第一特征集合。

可选地，基于每个第二特征对应的特征箱型图，对第二特征集合中的第二特征进行筛选，得到第一特征集合包括：将每个第二特征对应的第一箱型图和第二箱型图进行比较，得到每个第二特征对应的比较结果，其中，比较结果用于表征第一用户的第一数据分布与第二用户的第二数据分布的相似度是否小于第一阈值；基于比较结果，对第二特征集合中的第二特征进行筛选，得到第一特征集合，其中，筛选出的第二特征对应的比较结果为第一数据分布与第二数据分布的相似度小于第一阈值。

可选地，基于第一行为数据和第二行为数据，生成第二特征集合包括：确定第二用户的行为数据中存在异常的行为数据，得到目标行为数据；对目标行为数据进行特征提取，得到第二特征集合。

可选地，基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合包括：基于第一特征集合中的第一特征之间的相似度，生成热力图；获取第一特征的模型评价指标值，其中，模型评价指标值用于表征通过用户识别模型识别得到的正例样本排在反例样本前面的比例；基于热力图和模型评价指标值对第一特征进行筛选，得到目标特征集合。

可选地，获取第一特征的模型评价指标值包括：利用第一特征训练用户识别模型进行训练，得到模型评价指标值。

可选地，基于热力图和模型评价指标值对第一特征进行筛选，得到目标特征集合包括：基于热力图，确定相似度大于第二阈值的第一特征，得到待筛选特征集合；获取待筛选特征集合中，模型评价指标值最大的待筛选特征，得到目标特征集合。

可选地，利用皮尔逊相关系数确定第一特征之间的相似度。

可选地，基于目标特征集合，构建训练数据包括：获取目标特征集合中当前时刻之前的预设时刻的目标特征；确定预设时间段的结束时刻，目标特征对应的标签，其中，标签用于表征是否为第二用户；基于目标特征和目标特征对应的标签，生成训练数据。

可选地，基于目标特征集合，构建训练数据包括：确定目标特征集合中第一用户的特征；基于第一用户的特征对第一用户进行分组，得到多个分组用户；对每个分组用户进行随机采样，得到采样后的第一用户；基于目标特征集合中采样后的第一用户的特征，以及第二用户的特征，生成训练数据。

可选地，基于第一用户的特征对第一用户进行分组，得到多个分组用户包括：获取第一用户的特征的特征值；基于特征值不是预设值的特征的数量，对第一用户进行分组，得到多个分组用户。

可选地，在利用训练数据对用户识别模型进行训练之前，对用户识别模型的预设参数进行设定。

根据本发明实施例的另一方面，还提供了一种用户识别装置，包括：获取模块，用于获取第一特征集合，其中，第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，第一用户为属于正常行为的用户，第二用户为存在异常行为的用户；筛选模块，用于基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合；构建模块，用于基于目标特征集合，构建训练数据；训练模块，用于利用训练数据对用户识别模型进行训练，其中，用户识别模型用于检测待识别用户是否存在异常行为。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的用户识别方法。

根据本发明实施例的另一方面，还提供了一种电子设备，其特征在于，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的用户识别方法。

在本发明实施例中，在获取到第一特征集合之后，可以基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合，进而基于目标特征集合，构建训练数据，并利用训练数据对用户识别模型进行训练，达到模型训练的目的。容易注意到的是，通过用户识别模型对用户进行识别，替换了相关技术中的规则，并且基于不同特征之间的相似度对所有特征进行筛选，筛选出目标特征集合，另外，用户识别模型的迭代速度相比与规则较快，从而达到了提高用户识别效果，提升模型对非法用户的召回率和精确率，降低人力成本的技术效果，进而解决了相关技术中用户识别的效率和准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种用户识别方法的流程图；

图2是根据本发明实施例的一种可选的第一特征集合中特征之间的相似度的热力图；

图3是根据本发明实施例的一种可选的目标特征集合中特征之间的相似度的热力图；

图4是根据本发明实施例的一种可选的非法用户实时判别方法的流程图；

图5是根据本发明实施例的一种可选的用于执行筛选目标特征集合的模块的示意图；

图6是根据本发明实施例的一种可选的用于执行数据采样方式的模块的示意图；

图7是根据本发明实施例的一种用户识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种模型训练方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种用户识别方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取第一特征集合，其中，第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，第一用户为属于正常行为的用户，第二用户为存在异常行为的用户。

上述步骤中的第一用户可以是正常用户，不存在异常行为，第二用户可以是非法用户，存在异常行为，例如，在直播行业中，第一用户可以是正常观众，第二用户可以是黑灰产用户。

为了能够对非法用户进行准确识别，可以为大量用户构建特征，所有用户的特征均相同。

步骤S104，基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合。

由于本发明使用的用户识别模型为xgboost模型，该模型可以通过行列采样构建不同特征空间和特征样本下的基模型。但是，当第一特征集合中相似特征过多时，如果一颗树使用的特征都是相似度极高的特征，那么这棵树实际上只使用了一维特征，降低了每棵树的表现，同时，如果树A使用的特征1、2和树B使用的特征3、4相似度很高，那么树A和树B也会十分相似，因此相似特征的存在对模型的表现影响巨大。

在此基础上，为了降低相似特征的影响，可以针对第一特征集合，计算两两特征的相似度，并基于相似度进行特征筛选，使得筛选后的目标特征集合中的特征相似度降低，确保训练得到的模型具有更好的表现效果。

需要说明的是，此处采用“第一特征”描述第一特征集合中的特征，以方便与其他特征集合中的特征进行区分，并不进行具体限定。

步骤S106，基于目标特征集合，构建训练数据。

在一种可选的实施例中，在筛选出目标特征集合之后，可以为每个特征设置相应的标签，该标签用于表征相应的用户是否为非法用户，也即，相应的用户是否存在异常行为，进而将特征和对应的标签进行组合，可以得到最终的训练数据，该训练数据中既包含有正常用户的训练数据，也包含有非法用户的训练数据。

步骤S108，利用训练数据对用户识别模型进行训练，其中，用户识别模型用于检测待识别用户是否存在异常行为。

上述步骤中的用户识别模型可以是xgboost模型，但不仅限于此，也可以是其他机器学习算法模型，具体可以根据实际识别需要进行确定。

上述步骤中的待识别用户可以是需要实时判别是否为非法用户的用户，例如，可以是直播平台中新注册账号的用户，但不仅限于此。

在一种可选的实施例中，在用户识别模型训练完成之后，可以将训练好的模型部署在服务器或客户端中，从而可以实时采集新用户的行为数据，并识别该用户是否存在异常行为，也即，是被该用户是否为非法用户。

采用本发明上述实施例，在获取到第一特征集合之后，可以基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合，进而基于目标特征集合，构建训练数据，并利用训练数据对用户识别模型进行训练，达到模型训练的目的。容易注意到的是，通过用户识别模型对用户进行识别，替换了相关技术中的规则，并且基于不同特征之间的相似度对所有特征进行筛选，筛选出目标特征集合，另外，用户识别模型的迭代速度相比与规则较快，从而达到了提高用户识别效果，提升模型对非法用户的召回率和精确率，降低人力成本的技术效果，进而解决了相关技术中用户识别的效率和准确率较低的技术问题。

可选地，在本发明上述实施例中，获取第一特征集合包括：获取第一用户的第一行为数据，以及第二用户的第二行为数据，其中，第一行为数据与第二行为数据的类型相同；基于第一行为数据和第二行为数据，生成第二特征集合；生成每个第二特征对应的特征箱型图，其中，箱型图包括：第一用户的第一箱型图和第二用户的第二箱型图；基于每个第二特征对应的特征箱型图，对第二特征集合中的第二特征进行筛选，得到第一特征集合。

在一种可选的实施例中，可以基于HQL(Hibernate Query Language，Hibernate查询语言)语言为所有用户构建用户画像，在构建用户画像的过程中，需要充分考虑非法用户可能存在的异常行为，针对每一种可能的用户行为分析行为数据，如果该特征下非法用户不存在异常行为，则表明该特征对非法用户的识别无效，无需提取该特征，从而可以提取出存在异常行为的所有特征，得到第二特征集合。

另外，在确定某一维度特征下非法用户存在异常行为之后，可以从正常用户和非法用户的行为数据中提取该维度特征，并使用python下的seaborn包绘制箱型图，通过对比正常用户和非法用户的箱型图，可以分析出正常用户和非法用户在该维度特征下的数据分布，进而通过数据分布的差异程度，确定是否建立该特征，其中，如果不存在明显差异，则不建立该特征；如果存在明显差异，则建立该特征，从而得到上述的第一特征集合。

需要说明的是，此处采用“第二特征”描述第二特征集合中的特征，以方便与其他特征集合中的特征进行区分，并不进行具体限定。第一特征集合是从第二特征集合中筛选出的特征构成的集合，因此，第一特征集合中的第一特征存在于第二特征集合中，与部分第二特征相同。

可选地，在本发明上述实施例中，基于每个第二特征对应的特征箱型图，对第二特征集合中的第二特征进行筛选，得到第一特征集合包括：将每个第二特征对应的第一箱型图和第二箱型图进行比较，得到每个第二特征对应的比较结果，其中，比较结果用于表征第一用户的第一数据分布与第二用户的第二数据分布的相似度是否小于第一阈值；基于比较结果，对第二特征集合中的第二特征进行筛选，得到第一特征集合，其中，筛选出的第二特征对应的比较结果为第一数据分布与第二数据分布的相似度小于第一阈值。

对于不同特征，正常用户和非法用户的差异不同，如果某个维度特征下正常用户和非法用户的不存在差异，则通过该特征无法准确区分非法用户和正常用户。

因此，对于构建的所有特征，首先需要针对每个特征，分析正常用户和非法用户的数据分布，如果数据分布存在明显差异，也即，数据分布的相似度较小，则表明该特征有效，可以用于用户识别；如果数据分布不存在明显差异，也即，数据分布的相似度较大，则表明该特征无效，需要剔除。上述步骤中的第一阈值可以是预先设定的用于确定数据分布是否存在明显差异的相似度阈值，该阈值可以由维护人员根据需要进行调整。

在一种可选的实施例中，在绘制出正常用户和非法用户的箱型图之后，可以通过比较两个箱型图，来分析正常用户和非法用户的数据分布，因此，基于箱型图的比较结果可以确定数据分布的差异程度，进而确定是否建立该特征，得到上述的第一特征集合。

可选地，在本发明上述实施例中，基于第一行为数据和第二行为数据，生成第二特征集合包括：确定第二用户的行为数据中存在异常的行为数据，得到目标行为数据；对目标行为数据进行特征提取，得到第二特征集合。

由于非法用户仅仅在不同行为中存在异常行为，因此，为了能够准确识别非法用户，仅需要提取存在异常行为的特征。在此基础上，可以首先确定存在异常行为的行为数据，并提取出相应的特征，得到第二特征集合。

可选地，在本发明上述实施例中，基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合包括：基于第一特征集合中的第一特征之间的相似度，生成热力图；获取第一特征的模型评价指标值，其中，模型评价指标值用于表征通过用户识别模型识别得到的正例样本排在反例样本前面的比例；基于热力图和模型评价指标值对第一特征进行筛选，得到目标特征集合。

在本申请实施例中，可以利用皮尔逊相关系数确定第一特征之间的相似度。皮尔逊相关系数的计算公式如下：

其中，X和Y分别表示两个第一特征，i表示第一特征中的第i个特征值，表示均值。

通过上述公式计算相似度，皮尔逊相关系数越大，相似度越高。但是只通过相似度的值无法直观理解所有特征相似度表现，因此在本发明实施例中，可以使用热力图的形式画出所有特征间的两两相似度，热力图使用了python中的seaborn包绘制，如图2所示，其中，红色部分表示这两个特征的相似度较高，蓝色部分表示相似度较低。

通过使用每一个特征对正常用户和黑灰产用户进行分类，可以得出每一维度特征的模型评价指标值AUC(Area Under the Curve)，AUC是ROC(Receiver OperatingCharacteristic，受试者工作特征)曲线的下面积，用来描述模型效果，AUC越高表示模型效果越好。因此，可以基于AUC可以从热力图中相似度较高的特征中筛选出一个特征，得到最终的目标特征集合，目标特征集合中的特征的热力图如图3所示，由该热力图可知，使用皮尔逊相关系数筛选完特征之后，特征间的相似度明显下降，使用该目标特征集合训练得到的模型会有更好的表现效果。

可选地，在本发明上述实施例中，获取第一特征的模型评价指标值包括：利用第一特征训练用户识别模型进行训练，得到模型评价指标值。

在一种可选的实施例中，对于每个特征，可以使用该特征对xgboost模型进行训练，并测试，从而计算得到该特征的AUC。

可选地，在本发明上述实施例中，基于热力图和模型评价指标值对第一特征进行筛选，得到目标特征集合包括：基于热力图，确定相似度大于第二阈值的第一特征，得到待筛选特征集合；获取待筛选特征集合中，模型评价指标值最大的待筛选特征，得到目标特征集合。

上述步骤中的待筛选特征集合可以是指相似度较高的特征集合，上述的第二预设值可以是预先设定的用于确定特征的相似度较高的相似度阈值，可以由维护人员根据实际需要进行确定。

例如，对于相似度较高的48-53等六维特征，需要从中选出一个重要特征，其余特征可以删除，具体可以在计算每个特征的AUC之后，可以从中选择AUC最大的特征进行保留，并删除其余5个特征，也即，可以使用一个重要特征替换6个相似特征的特征集合。

可选地，在本发明上述实施例中，基于目标特征集合，构建训练数据包括：获取目标特征集合中当前时刻之前的预设时刻的目标特征；确定目标特征对应的当前时刻的标签，其中，标签用于表征是否为第二用户；基于目标特征和目标特征对应的标签，生成训练数据。

为了使训练好的模型能够学习到预测该用户未来是否会成为非法用户的可能性，可以对训练数据进行特殊处理。由于用户识别模型用于实时识别用户，因此，无法获取到当前时刻后面的行为特征。为了避免特征穿越的问题，在本申请实施例中，可以选取t-1时刻的特征，并确定t时刻该用户是否为非法用户的标签，得到训练数据，其中，t时刻表示上述的当前时刻。

可选地，在本发明上述实施例中，基于目标特征集合，构建训练数据包括：确定目标特征集合中第一用户的特征；基于第一用户的特征对第一用户进行分组，得到多个分组用户；对每个分组用户进行随机采样，得到采样后的第一用户；基于目标特征集合中采样后的第一用户的特征，以及第二用户的特征，生成训练数据。

由于正常用户数量远大于非法用户数量，因此需要对正常用户进行数据采样。传统的采样方式按照随机采样的方式对正常用户进行采样，但是由于正常用户分为活跃用户和非活跃用户，且非活跃用户占比较大，而非法用户大多为活跃用户，因此，采用传统的采样方式得到的训练数据中活跃用户数量较少，通过模型的训练，训练好的模型可能会将活跃用户识别为非法用户，导致活跃正常用户的误识别问题。

为了解决这个问题，在本申请实施例中，可以将正常用户按照特征个数进行分桶，在每个分桶内对用户进行随机采样，从而保证每种活跃度的用户都有相同概率被采样到，从而有效提高模型识别效果。例如，可以对用户按照特征个数在1-5，6-10，11-15，16-20，20以上进行分桶，但不仅限于此。

可选地，在本发明上述实施例中，基于第一用户的特征对第一用户进行分组，得到多个分组用户包括：获取第一用户的特征的特征值；基于特征值不是预设值的特征的数量，对第一用户进行分组，得到多个分组用户。

上述步骤中的预设值可以是0，但不仅限于此，可以根据实际需要进行设定。

例如，假设使用25维目标特征集合描述用户画像，其中包括用户观看直播特征、消费特征、以及参与活动相关特征。如果该用户有观看直播行为，则该特征可以使用一个特征值进行表征，例如，第三个维度是用户观看直播时长特征，如果该用户看了10分钟直播，则该维度的特征值为10，没看过直播则为0，代表该用户在这一维度没有特征。因此，如果一个用户在25维度特征中均非0的特征值，则表示该用户有消费行为、观看直播行为、参与相关活动行为等所有行为，表示用户很活跃，反之如果一个用户在25维特征中，大部分特征值为0，则表示用户很不活跃。因此，可以通过非0特征值的数量对正常用户进行分组。

可选地，在本发明上述实施例中，在利用训练数据对用户识别模型进行训练之前，对用户识别模型的预设参数进行设定。

上述步骤中的预设参数可以是xgboost模型中的超参数，例如，正则参数，行采样参数，列采样参数等，但不仅限于此。

在一种可选的实施例中，在模型训练阶段，为了避免过拟合问题，可以设置正则参数、行采样参数、列采样参数等，使得模型能够发挥出更好的表现效果。

下面结合图4至图6对本发明一种优选的实施例进行详细说明。

如图4所示，非法用户实时判别方法的流程步骤如下：

步骤S41，基于HQL为所有用户构建画像；

步骤S42，通过箱型图分析某一特征在正常用户和非法用户之间的分布差异，并基于分布差异确定是否建立该特征；

步骤S43，基于特征间的相似度，筛选目标特征集合；

上述步骤S43可以通过如图5所示的多个模块执行，具体分为：去中心化模块51、相关系数计算模块52、热力图绘制模块53、单一特征AUC计算模块54、去除相关性特征模块55和组合特征模块56。

其中，去中心化模块51用于对特征进行去中心化处理，也即，减去特征的均值；

相关系数计算模块52用于计算两两特征间的皮尔逊相关系数；

热力图绘制模块53用于使用特征间的皮尔逊相关系数绘制热力图；

单一特征AUC计算模块54用于使用每一维特为训练数据训练xgboost，并测试，得到每一维特征的AUC指标；

去除相关性特征模块55用于在相关性较高的特征集合中挑选AUC指标最高的特征进行保留，其余与其相关性较高的特征全部删除。

组合特征模块56用于将剔除相关性较高特征后的特征进行组合，得到最终的目标特征集合。

步骤S44，基于适用于本申请场景的数据采样方式和训练数据构建方式，构建训练数据；

上述步骤S44中数据采样方式可以通过如图6所示的多个模块执行，具体分为：用户分桶模块61、桶内采样模块62和训练数据生成模块63。

其中，用户分桶模块61用于将正常用户数据按照1-5，6-10，11-15，16-20，20以上的特征数量进行分桶；

桶内采样模块62用于在每个分桶内随机采样若干条，此处要保证每个桶内采样个数相同。

训练数据生成模块63用于汇总采样后的正样本与负样本组成训练数据。

步骤S45，使用训练数据训练xgboost模型，得到最终的用户识别模型。

通过上述步骤，使用HQL语言对用户画像进行构建，得到对非法用户有区分度的特征集合，之后使用皮尔逊相关系数和相关热力图从特征集合中筛选得到目标特征集合。而且，本发明中采用的样本采样方法可以提高模型最终表现效果，最后，使用训练数据训练机器学习模型得到最终的用户识别模型。通过上述方案，不仅可以提高非法用户的识别准确率，同时相比于规则能够召回更多的非法用户，更重要的是，通过机器学习模型方便迭代和更新，能够快速的学习到非法用户的行为特点从而调整模型参数，大大节省了人力，另外上述方案不会像规则那样容易被非法用户凭经验绕过，具有高可用性。

根据本发明实施例，还提供了一种用户识别装置，该装置可以实现上述实施例中的用户识别方法，具体实现方式和应用场景与上述实施例相同，在此不做赘述。

图7是根据本发明实施例的一种用户识别装置的示意图，如图7所示，该装置包括：

获取模块72，用于获取第一特征集合，其中，第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，第一用户为属于正常行为的用户，第二用户为存在异常行为的用户；

筛选模块74，用于基于第一特征集合中的第一特征之间的相似度，对第一特征进行筛选，得到目标特征集合；

构建模块76，用于基于目标特征集合，构建训练数据；

训练模块78，用于利用训练数据对用户识别模型进行训练，其中，用户识别模型用于检测待识别用户是否存在异常行为。

可选地，在本发明上述实施例中，获取模块包括：第一获取子模块，用于获取第一用户的第一行为数据，以及第二用户的第二行为数据，其中，第一行为数据与第二行为数据的类型相同；第一生成子模块，用于基于第一行为数据和第二行为数据，生成第二特征集合；第二生成子模块，用于生成每个第二特征对应的特征箱型图，其中，箱型图包括：第一用户的第一箱型图和第二用户的第二箱型图；第一筛选子模块，用于基于每个第二特征对应的特征箱型图，对第二特征集合中的第二特征进行筛选，得到第一特征集合。

可选地，在本发明上述实施例中，第一筛选子模块包括：比较单元，用于将每个第二特征对应的第一箱型图和第二箱型图进行比较，得到每个第二特征对应的比较结果，其中，比较结果用于表征第一用户的第一数据分布与第二用户的第二数据分布的相似度是否小于第一阈值；筛选单元，用于基于比较结果，对第二特征集合中的第二特征进行筛选，得到第一特征集合，其中，筛选出的第二特征对应的比较结果为第一数据分布与第二数据分布的相似度小于第一阈值。

可选地，在本发明上述实施例中，第一生成子模块包括：确定单元，用于确定第二用户的行为数据中存在异常的行为数据，得到目标行为数据；提取单元，用于对目标行为数据进行特征提取，得到第二特征集合。

可选地，在本发明上述实施例中，筛选模块包括：第三生成子模块，用于基于第一特征集合中的第一特征之间的相似度，生成热力图；第二获取子模块，用于获取第一特征的模型评价指标值，其中，模型评价指标值用于表征通过用户识别模型识别得到的正例样本排在反例样本前面的比例；第二筛选子模块，用于基于热力图和模型评价指标值对第一特征进行筛选，得到目标特征集合。

可选地，在本发明上述实施例中，第二获取子模块还用于利用第一特征训练用户识别模型进行训练，得到模型评价指标值。

可选地，在本发明上述实施例中，第二筛选子模块包括：确定单元，用于基于热力图，确定相似度大于第二阈值的第一特征，得到待筛选特征集合；第一获取单元，用于获取待筛选特征集合中，模型评价指标值最大的待筛选特征，得到目标特征集合。

可选地，在本发明上述实施例中，该装置还包括：确定模块，用于利用皮尔逊相关系数确定第一特征之间的相似度。

可选地，在本发明上述实施例中，构建模块包括：第三获取子模块，用于获取目标特征集合中当前时刻之前的预设时刻的目标特征；第一确定子模块，用于确定目标特征对应的当前时刻的标签，其中，标签用于表征是否为第二用户；第四生成子模块，用于基于目标特征和目标特征对应的标签，生成训练数据。

可选地，在本发明上述实施例中，构建模块包括：第二确定子模块，用于确定目标特征集合中第一用户的特征；分组子模块，用于基于第一用户的特征对第一用户进行分组，得到多个分组用户；采样子模块，用于对每个分组用户进行随机采样，得到采样后的第一用户；第五生成子模块，用于基于目标特征集合中采样后的第一用户的特征，以及第二用户的特征，生成训练数据。

可选地，在本发明上述实施例中，分组子模块包括：第二获取单元，用于获取第一用户的特征的特征值；分组单元，用于基于特征值不是预设值的特征的数量，对第一用户进行分组，得到多个分组用户。

可选地，在本发明上述实施例中，该装置还包括：设定模块，用于在利用训练数据对用户识别模型进行训练之前，对用户识别模型的预设参数进行设定。

根据本发明实施例，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的用户识别方法。

根据本发明实施例，还提供了一种电子设备，其特征在于，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的用户识别方法。

上述的电子设备可以是智能手机、平板电脑、掌上电脑等移动终端，还可以是个人电脑、笔记本电脑等计算机终端，但不仅限于此。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用户识别方法，其特征在于，包括：

获取第一特征集合，其中，所述第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，所述第一用户为属于正常行为的用户，所述第二用户为存在异常行为的用户；

基于所述第一特征集合中的第一特征之间的相似度，对所述第一特征进行筛选，得到目标特征集合，其中，所述目标特征集合相对于所述第一特征集合特征相似度降低；

基于所述目标特征集合，构建训练数据；

利用训练数据对用户识别模型进行训练，其中，所述用户识别模型用于检测待识别用户是否存在异常行为；

其中，基于所述目标特征集合，构建所述训练数据包括：获取所述目标特征集合中当前时刻之前的预设时刻的目标特征；确定所述目标特征对应的当前时刻的标签，其中，所述标签用于表征是否为所述第二用户；基于所述目标特征和所述目标特征对应的标签，确定所述目标特征集合中所述第一用户的第一特征以及所述第二用户的第一特征；基于所述第一用户的第一特征对所述第一用户进行分组，得到多个分组用户；对每个分组用户进行随机采样，得到采样后的第一用户；基于所述目标特征集合中所述采样后的第一用户的第一特征，以及所述第二用户的第一特征，生成所述训练数据；

在确定所述第二用户存在异常行为之后，所述方法还包括：从所述第一用户的行为数据和所述第二用户的行为数据中提取对应的维度特征，得到所述第一用户对应所述维度特征的箱型图和所述第二用户对应所述维度特征的箱型图；将所述第一用户对应所述维度特征的箱型图和所述第二用户对应所述维度特征的箱型图进行对比，得到所述第一用户和所述第二用户在对应所述维度特征下的数据分布；基于所述数据分布，确定所述数据分布的差异程度；基于所述差异程度，添加所述维度特征于所述第一特征集合中。

2.根据权利要求1所述的方法，其特征在于，获取所述第一特征集合包括：

获取所述第一用户的第一行为数据，以及所述第二用户的第二行为数据，其中，所述第一行为数据与所述第二行为数据的类型相同；

基于所述第一行为数据和所述第二行为数据，生成第二特征集合；

生成每个第二特征对应的特征箱型图，其中，所述箱型图包括：所述第一用户的第一箱型图和所述第二用户的第二箱型图；

基于所述每个第二特征对应的特征箱型图，对所述第二特征集合中的第二特征进行筛选，得到所述第一特征集合。

3.根据权利要求2所述的方法，其特征在于，基于所述每个第二特征对应的特征箱型图，对所述第二特征集合中的第二特征进行筛选，得到所述第一特征集合包括：

将所述每个第二特征对应的所述第一箱型图和所述第二箱型图进行比较，得到所述每个第二特征对应的比较结果，其中，所述比较结果用于表征所述第一用户的第一数据分布与所述第二用户的第二数据分布的相似度是否小于第一阈值；

基于所述比较结果，对所述第二特征集合中的第二特征进行筛选，得到所述第一特征集合，其中，筛选出的第二特征对应的比较结果为所述第一数据分布与所述第二数据分布的相似度小于所述第一阈值。

4.根据权利要求2所述的方法，其特征在于，基于所述第一行为数据和所述第二行为数据，生成第二特征集合包括：

确定所述第二用户的行为数据中存在异常的行为数据，得到目标行为数据；

对所述目标行为数据进行特征提取，得到所述第二特征集合。

5.根据权利要求1所述的方法，其特征在于，基于所述第一特征集合中的第一特征之间的相似度，对所述第一特征进行筛选，得到目标特征集合包括：

基于所述第一特征集合中的第一特征之间的相似度，生成热力图；

获取所述第一特征的模型评价指标值，其中，所述模型评价指标值用于表征通过所述用户识别模型识别得到的正例样本排在反例样本前面的比例；

基于所述热力图和所述模型评价指标值对所述第一特征进行筛选，得到所述目标特征集合。

6.根据权利要求5所述的方法，其特征在于，获取所述第一特征的模型评价指标值包括：

利用所述第一特征训练所述用户识别模型进行训练，得到所述模型评价指标值。

7.根据权利要求5所述的方法，其特征在于，基于所述热力图和所述模型评价指标值对所述第一特征进行筛选，得到所述目标特征集合包括：

基于所述热力图，确定相似度大于第二阈值的第一特征，得到待筛选特征集合；

获取所述待筛选特征集合中，模型评价指标值最大的待筛选特征，得到所述目标特征集合。

8.根据权利要求1所述的方法，其特征在于，利用皮尔逊相关系数确定所述第一特征之间的相似度。

9.根据权利要求1所述的方法，其特征在于，基于所述第一用户的第一特征对所述第一用户进行分组，得到所述多个分组用户包括：

获取所述第一用户的第一特征的特征值；

基于特征值不是预设值的特征的数量，对所述第一用户进行分组，得到所述多个分组用户。

10.一种用户识别装置，其特征在于，包括：

获取模块，用于获取第一特征集合，其中，所述第一特征集合包括：第一用户的多个第一特征和第二用户的多个第一特征，所述第一用户为属于正常行为的用户，所述第二用户为存在异常行为的用户；

筛选模块，用于基于所述第一特征集合中的第一特征之间的相似度，对所述第一特征进行筛选，得到目标特征集合，其中，所述目标特征集合相对于所述第一特征集合特征相似度降低；

构建模块，用于基于所述目标特征集合，构建训练数据；

训练模块，用于利用训练数据对用户识别模型进行训练，其中，所述用户识别模型用于检测待识别用户是否存在异常行为；

其中，所述构建模块，还用于获取所述目标特征集合中当前时刻之前的预设时刻的目标特征；确定所述目标特征对应的当前时刻的标签，其中，所述标签用于表征是否为所述第二用户；基于所述目标特征和所述目标特征对应的标签，确定所述目标特征集合中所述第一用户的第一特征以及所述第二用户的第一特征；基于所述第一用户的第一特征对所述第一用户进行分组，得到多个分组用户；对每个分组用户进行随机采样，得到采样后的第一用户；基于所述目标特征集合中所述采样后的第一用户的第一特征，以及所述第二用户的第一特征，生成所述训练数据；

获取模块，还用于从所述第一用户的行为数据和所述第二用户的行为数据中提取对应的维度特征，得到所述第一用户对应所述维度特征的箱型图和所述第二用户对应所述维度特征的箱型图；将所述第一用户对应所述维度特征的箱型图和所述第二用户对应所述维度特征的箱型图进行对比，得到所述第一用户和所述第二用户在对应所述维度特征下的数据分布；基于所述数据分布，确定所述数据分布的差异程度；基于所述差异程度，添加所述维度特征于所述第一特征集合中。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的用户识别方法。

12.一种电子设备，其特征在于，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的用户识别方法。