CN109587248B

CN109587248B - 用户识别方法、装置、服务器及存储介质

Info

Publication number: CN109587248B
Application number: CN201811488700.4A
Authority: CN
Inventors: 陈炳文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2023-08-29
Anticipated expiration: 2038-12-06
Also published as: CN109587248A

Abstract

本发明公开了一种用户识别方法、装置、服务器及存储介质，属于网络技术领域。本发明通过根据用户的访问特征以及目标应用的用户访问特征的相似度，进行用户识别，该目标应用的用户访问特征指示了该目标应用的恶意用户访问特征或者非恶意用户访问特征，该相似度可以准确反映出该用户与恶意用户或者与非恶意用户的相似程度。因此，基于用户与恶意用户或者非恶意用户的相似程度，能够准确的确定出该用户是恶意用户或非恶意用户，从而提高了用户识别的准确性。

Description

用户识别方法、装置、服务器及存储介质

技术领域

本发明涉及网络技术领域，特别涉及一种用户识别方法、装置、服务器及存储介质。

背景技术

在一些信息推广活动中，某一信息在一段时间内的流量，是衡量该信息推广活动的推广效果的主要标准。在许多场景中，某些恶意用户通过作弊行为，伪造信息的虚假流量，以提高与该信息相关的活动的收益。例如，通过作弊手段领取大量的购物优惠券进行倒卖，伪造广告的虚假浏览量、应用程序的虚假下载量牟取广告费用等。因而，本领域中，通常需要对参与活动的用户进行识别，以避免活动中的虚假流量。

相关技术中，以广告活动场景为例，该用户识别过程为：服务器提取用户在第一时段内的历史浏览记录，向该用户再次发送该历史浏览记录中的任一广告，并获取该用户在第二时段内对该广告的浏览次数。由于根据经验判断一个用户是不会重复浏览相同的广告。因此，当该浏览次数大于预设阈值时，则确定该用户为恶意用户。

上述过程实际上是基于该用户在历史访问情况，根据经验来判断该用户是否为恶意用户。然而，实际情况下，例如在节假日或者某些特殊情况下，该用户也可能会进行重复浏览，从而在上述判断过程中，很容易将实际为非恶意用户误判为恶意用户，导致上述识别方法的准确率低。

发明内容

本发明实施例提供了一种用户识别方法、装置、服务器及存储介质，能够解决相关技术中识别方法的准确率低的问题。所述技术方案如下：

一方面，提供了一种用户识别方法，所述方法包括：

获取待识别的用户在访问目标应用时的访问特征；

根据所述用户的访问特征和所述目标应用的用户访问特征，确定所述用户与所述目标应用的用户访问特征的相似度，所述目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问所述目标应用的访问特征；

根据所述用户与所述目标应用的用户访问特征的相似度，确定所述用户的识别结果。

另一方面，提供了一种用户识别装置，所述装置包括：

获取模块，用于获取待识别的用户在访问目标应用时的访问特征；

确定模块，用于根据所述用户的访问特征和所述目标应用的用户访问特征，确定所述用户与所述目标应用的用户访问特征的相似度，所述目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问所述目标应用的访问特征；

所述确定模块，还用于根据所述用户与所述目标应用的用户访问特征的相似度，确定所述用户的识别结果。

另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述的用户识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述的用户识别方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的方法及装置，通过根据用户的访问特征以及目标应用的用户访问特征的相似度，进行用户识别，该目标应用的用户访问特征指示了该目标应用的恶意用户访问特征或者非恶意用户访问特征，该相似度可以准确反映出该用户与恶意用户或者与非恶意用户的相似程度，因此，基于用户与恶意用户或者非恶意用户的相似程度，能够准确的确定出该用户是恶意用户或非恶意用户，从而提高了用户识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用户识别方法的实施环境的示意图；

图2是本发明实施例提供的一种用户识别方法的流程图；

图3是本发明实施例提供的一种用户识别方法的流程图；

图4是本发明实施例提供的一种用户识别装置的结构示意图；

图5是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种用户识别方法的实施环境的示意图，参见图1，该实施环境包括：第一服务器101和第二服务器102。该第一服务器101可以为目标应用的后台服务器。该第二服务器102上为识别应用的后台服务器，该识别应用是用于提供用户识别服务的应用。该用户识别服务是指对访问该目标应用的用户进行识别，以判断该用户是恶意用户或者非恶意用户。

以第二服务器102为例，该用户识别过程可以为：该第二服务器102可以根据用户的访问特征和该目标应用的用户访问特征，确定该用户与该目标应用的用户访问特征的相似度，该目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问该目标应用的访问特征。则该第二服务器102基于该用户与该目标应用的用户访问特征的相似度，识别出该用户为恶意用户或者非恶意用户。

其中，该第二服务器102事先获取该目标应用的用户访问特征，该第二服务器102可以将该目标应用的多个样本用户的访问特征输入目标神经网络中，输出该目标应用的多个特征类别。每个特征类别包括多个用户访问特征，每个特征类别代表了一种类型的用户访问特征。则该第二服务器102筛选出多个特征类别中的非恶意用户特征类别或者恶意用户特征类别，该第二服务器102将该非恶意用户特征类别包括的非恶意用户访问特征，作为该目标应用的用户访问特征，或者，该第二服务器102将该恶意用户特征类别包括的恶意用户访问特征，作为该目标应用的用户访问特征。进一步的，该第二服务器102基于该用户的访问特征，分别与该多个非恶意用户访问特征的相似度，或者与该多个恶意用户访问特征的相似度，对该用户进行识别。

需要说明的是，该第一服务器101上安装有识别应用或者该识别服务调用接口。该第二服务器102与第一服务器101之间可以基于该识别应用或者该识别服务调用接口进行通信。上述获取目标应用的用户访问特征的过程，以及基于用户的访问特征和目标应用的用户访问特征进行用户识别的过程，也可以由该第一服务器101自行完成。

在一种可能的实施场景中，该识别用户过程由第一服务器101实际执行，其中，该第二服务器102可以事先将该识别应用的安装包发送至该第一服务器101，该安装包中携带上述用户识别过程的执行逻辑。该第一服务器101基于该安装包安装该识别应用，具体可以为嵌套在目标应用中的识别插件。则该第一服务器101可以自行基于该目标应用的样本用户的访问特征，获取目标应用的用户访问特征。当需要对待识别用户进行识别时，该第一服务器101自行获取该用户的访问特征，并基于该用户的访问特征和目标应用的用户访问特征，对该用户进行识别。

在另一种可能的实施场景中，该识别用户过程由第二服务器102实际执行，该第二服务器102上可以分别基于多个应用的样本用户的访问特征，确定并存储每个应用对应的用户访问特征。以目标应用为例，该目标应用的第一服务器101中配置有服务调用接口，该第一服务器101可以通过该调用接口，调用该第二服务器102上识别应用提供的用户识别服务。该第二服务器102可以从第一服务器101中获取该目标应用的多个样本用户的访问特征，基于该样本用户的访问特征，获取该目标应用的用户访问特征。该第一服务器101可以通过该服务调用接口，向该第二服务器102发送识别请求。该第二服务器102基于该识别请求，从该第一服务器101中获取待识别的用户的访问特征，并基于该用户的访问特征和该目标应用的用户访问特征，为该第一服务器101提供用户识别服务。其中，该服务调用接口可以为API接口。

需要说明的是，该第二服务器102或第一服务器101可以对访问该目标应用的用户进行识别，该用户在该目标应用上的用户行为可以包括但不限于：浏览行为、点击行为、点赞行为、领取优惠券的行为、活动参与行为、评论行为或者转发行为等等。本发明实施例对此不作具体限定。本发明实施例可以对执行任一种用户行为的用户进行识别。

图2是本发明实施例提供的一种用户识别方法的流程图。该发明实施例的执行主体为第一服务器，该第一服务器为目标应用的后台服务器。参见图2，该方法包括：

201、第一服务器根据该目标应用的多个历史访问记录，获取多个样本用户的访问特征。

其中，该第一服务器可以基于该目标应用在一段时间内历史访问记录，得到该样本用户的访问特征。本步骤中，该第一服务器获取该目标应用在第二预设时段内的多个历史访问记录，从该多个历史访问记录中，提取多个样本用户的访问特征。

其中，该第一服务器所提取的样本用户的访问特征包括但不限于：第二预设时段内在该目标应用上所访问的信息总数量、第二预设时段内访问该目标应用的总次数、第二预设时段内在该目标应用上访问的总时长或者某样本用户在第二预设时段内访问该目标应用时采用的IP(Intemet Protocol，互联网协议)地址的总数量。

需要说明的是，该第二预设时段可以基于需要进行设置，本发明实施例对此不作具体限定。例如，该第二预设时段可以为5小时、7天或者一个月等。

该第一服务器可以实时记录并存储该目标应用的多个历史访问记录。每个历史访问记录中包括样本用户访问该目标应用的信息、访问时长、该样本用户使用的IP地址等。该第一服务器从该多个历史访问记录中提取多个样本用户的访问特征。

在一种可能的实施方式中，该第一服务器可以用特征向量来表示该样本用户的访问特征。则本步骤可以为：该第一服务器从该目标应用在第二预设时段内的多个历史访问记录中，提取多个样本用户的访问特征；对于每个样本用户，该第一服务器根据该样本用户的访问特征，生成该样本用户的特征向量。

其中，该样本用户的特征向量可以用S表示，S＝[F_t，F_t ^c]，其中，F_t ^c＝1-F_t，F_t＝[T₁，T₂，T₃，T₄]，其中，S为F_t取补运算后的归一化向量；“[]”为向量符号。该T₁表示第二预设时段内在该目标应用上所访问的信息总数量、T₂表示第二预设时段内访问该目标应用的总次数、T₃表示第二预设时段内在该目标应用上访问的总时长、T₄表示某样本用户在第二预设时段内访问该目标应用时使用的IP地址的总数量。

202、第一服务器根据该多个样本用户的访问特征，确定该目标应用的用户访问特征。

其中，该目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问该目标应用的用户访问特征。该第一服务器可以根据该多个样本用户的访问特征，确定出该多个样本用户中的多个恶意用户或多个非恶意用户。该第一服务器根据多个恶意用户的访问特征或者多个非恶意用户的访问特征，确定该目标应用的用户访问特征。

其中，该目标应用的用户访问特征的数目可以为多个，该第一服务器可以先基于该多个样本用户的访问特征，获取该多个样本用户的访问特征对应的多个特征类别。每个特征类别包括多个用户访问特征，每个特征类别代表了一种类型的用户访问特征。该第一服务器可以基于每个特征类别的特征值，筛选出多个特征类别中的非恶意用户特征类别或者恶意用户特征类别，进而确定该目标应用的用户访问特征。其中，该目标应用的用户访问特征既可以指示非恶意用户访问特征，也可以指示恶意用户访问特征。相应的，本步骤可以通过以下两种方式实现。

第一种方式、该目标应用的用户访问特征指示非恶意用户访问特征。该第一服务器将该多个样本用户的访问特征输入目标神经网络，输出多个特征类别，每个特征类别包括多个用户访问特征，目标神经网络用于确定多个样本用户的访问特征对应的多个特征类别。该第一服务器基于该多个特征类别的类别特征，确定出该多个用户访问特征中的非恶意用户访问特征。

本步骤中，对于每个特征类别，该第一服务器根据该特征类别所包括的多个用户访问特征，获取该每个特征类别包括的样本用户的总数量和IP地址的总数量；该第一服务器根据该每个特征类别包括的样本用户的总数量和IP地址的总数量，确定该多个特征类别中非恶意用户特征类别。该非恶意用户特征类别所包括的多个非恶意用户访问特征也即为该目标应用的用户访问特征。

其中，该目标神经网络可以为Fuzzy ART(Fuzzy Adaptive Resonance Theory模糊自适应共振理论)神经网络，该第一服务器将该多个样本用户的多个特征向量输入该Fuzzy ART神经网络的输入层，通过该Fuzzy ART神经网络对该多个特征向量进行分类，从而确定出该多个特征向量对应的多个特征类别，每个特征类别下包括了多个特征向量。该第一服务器可以根据该每个特征类别的特征值，筛选出该多个特征类别中的非恶意用户特征类别。

其中，该第一服务器可以根据每个特征类别所包括的多个用户访问特征，统计每个特征类别包括的样本用户的总数量和IP地址的总数量，并根据该每个特征类别包括的样本用户的总数量和IP地址的总数量，通过以下公式一，确定每个特征类别的特征值。然后，该第一服务器根据多个特征类别的特征值，确定多个特征类别的特征值的均值和方差，并获取第三预设阈值，通过以下公式二，筛选出多个特征类别中的非恶意用户特征类别。

公式一：Q_i＝U₁*U₂；

公式二：

其中，“||”表示绝对值符号。Q_i用于表示多个特征类别中第i个特征类别的特征值；U₁用于表示第i个特征类别包括的样本用户的总数量，U₂用于表示第i个特征类别包括的IP地址的总数量。θ用于表示第三预设阈值，ν用于表示多个特征类别的特征值的均值，σ用于多个特征类别的特征值的方差。C_i用于表示第i个特征类别，Bg用于表示非恶意用户特征类别，该非恶意用户特征类别包括的用户访问特征即为非恶意用户访问特征。

根据上述公式二，当该特征类别的特征值与均值之差的绝对值，不大于该第三预设阈值与方差的乘积时，该第一服务器确定该特征类别为非恶意用户特征类别，否则，该特征类别为恶意用户特征类别。

需要说明的是，通过该目标神经网络对多个样本用户的访问特征进行分类，得到多个特征类别，每个特征类别所包括的用户访问特征是在该目标神经网络中分类后的特征，每个特征类别所包括的用户访问特征可以用特征向量W_j表示。

第二种方式、该目标应用的用户访问特征指示恶意用户访问特征。该第一服务器将该多个样本用户的访问特征输入目标神经网络，输出多个特征类别，每个特征类别包括多个用户访问特征，该目标神经网络用于确定该多个样本用户的访问特征对应的多个特征类别。该第一服务器基于该多个特征类别的类别特征，确定出该多个用户访问特征中的恶意用户访问特征。

本步骤中，对于每个特征类别，该第一服务器根据该每个特征类别所包括的多个用户访问特征，获取该每个特征类别包括的样本用户的总数量和IP地址的总数量；该第一服务器根据该每个特征类别包括的样本用户的总数量和IP地址的总数量，确定该多个特征类别中恶意用户特征类别。该恶意用户特征类别所包括的多个恶意用户访问特征也即为该目标应用的用户访问特征。

其中，该第一服务器确定该恶意用户访问特征的过程，为与上述确定非恶意用户访问特征的过程同理的过程，此处不再一一赘述。

该第一服务器可以通过上述任一种方式，筛选出该目标应用的用户访问特征，也可以结合上述两种方式，既获取该目标应用的非恶意用户访问特征，也获取该目标应用的恶意用户访问特征，后续基于该目标应用的两种类型的访问特征进行识别，从而进一步提高识别的准确性。本发明实施例对此不做具体限定。

需要说明的是，该第一服务器可以实时基于样本用户的访问特征，来确定该目标应用中恶意用户访问特征，或者非恶意用户访问特征，使得目标应用的用户访问特征能够准确反映该目标应用中，恶意用户或非恶意用户的访问特征。并且，该服务器还可以进一步通过目标神经网络，确定该多个样本用户的访问特征对应的多个特征类别，并基于该特征类别的类别特征，进行恶意用户特征类别或非恶意用户特征类别的筛选，从而能够准确筛选出与当前环境相适应的恶意用户访问特征或非恶意用户访问特征，大大提高了用户识别的准确性。

203、第一服务器获取待识别的用户在访问目标应用时的访问特征。

本步骤中，该第一服务器可以根据该用户的用户标识，提取该用户在第一预设时段内的至少一条访问记录，从该至少一条访问记录中提取该用户的访问特征。其中，该用户的用户特征可以包括但不限于：该用户在第一预设时段内所访问的信息总数量、第一预设时段内访问该目标应用的总次数、第一预设时段内在该目标应用上浏览的总时长或者该用户在第一预设时段内访问该目标应用时采用的IP地址的总数量等。

其中，该第一预设时段可以为基于当前时间所确定的时段。在一种可能的实施方式中，该第一预设时段可以为覆盖当前时间在内的时段，该第一预设时段的时长可以为M，该第一预设时段可以为基于当前时间的前M/2和后M/2。其中，该第一预设时段的具体时长可以基于需要进行设置，本发明实施例对此不作具体限定。例如，该第一预设时段的时长M可以为6小时，该第一预设时段可以为距离当前时间的前3个小时和后3个小时。

当然，该第一预设时段内访问记录可以表示为Rⁱ，该用户的特征向量可以为Sⁱ，该第一服务器可以根据该用户的访问特征，生成该用户的特征向量。该特征向量的生成方式可以与上述样本用户的特征向量的生成方式同理，此处不再一一赘述。

该第一服务器可以在接收到识别指令时，根据识别指令，获取待识别的用户在访问目标应用时的访问特征。其中，该识别指令用于指示对该用户进行识别。该第一服务器可以基于该用户在第一预设时段内访问该目标应用的访问记录，获取该用户的访问特征。

该第一服务器可以基于一定的识别策略进行用户识别。该识别策略可以包括但不限于：按照识别周期进行识别，当该目标应用的当前访问人数超过预设人数时进行识别，对第三预设时段内访问次数超过预设次数的用户进行识别或者对第四时段内使用的IP地址超过预设数目的用户进行识别等。该第一服务器可以根据该识别策略，触发该识别过程。当然，该待识别的用户可以为基于该识别策略所确定的用户。本步骤可以为：第一服务器基于该识别策略，当检测到在第三预设时段内访问次数超过预设次数的用户，该第一服务器确定该用户的访问特征。或者，当检测到在第四预设时段内使用的IP地址超过预设数目的用户时，该第一服务器确定该用户的访问特征。或者，该第一服务器按照预设识别周期进行识别，每隔预设识别周期，获取当前时刻访问该目标应用的用户的访问特征。或者，该第一服务器检测到目标应用的当前访问人数超过预设人数时，从该当前访问的多个用户中，随机抽取任一用户作为待识别用户，获取该用户的访问特征。

需要说明的是，该第一服务器可以基于当前时间，采集该用户在第一预设时段内的访问特征，该时间段内的访问特征能够很好的反应该用户当前的访问情况，从而后续该第一预设时段内的访问特征进行识别过程，大大提高了识别的准确性。并且，该第一服务器可以基于一定的识别策略进行识别，能够很好地满足多种场景下的识别需求，大大提高了用户识别的实用性。

204、第一服务器根据该用户的访问特征和该目标应用的用户访问特征，确定该用户与该目标应用的用户访问特征的相似度。

本步骤中，该第一服务器该用户的访问特征和该目标应用的用户访问特征，确定该用户与恶意用户访问特征的相似度，或者，该用户与非恶意用户访问特征的相似度。

如果目标应用的用户访问特征的数目为多个，该第一服务器确定该用户分别与该目标应用的每个用户访问特征的相似度，从而得到多个相似度。该第一服务器将多个相似度中的最大相似度，确定为该用户与该目标应用的用户访问特征的相似度。其中，该目标应用的用户访问特征既可以指示非恶意用户访问特征，也可以指示恶意用户访问特征。相应的，本步骤可以通过以下两种方式实现。

第一种方式、该目标应用的用户访问特征指示非恶意用户访问特征。该第一服务器根据用户的访问特征和目标应用的非恶意用户访问特征，确定用户的访问特征和目标应用的非恶意用户访问特征之间的相似度。

其中，当该目标应用的用户访问特征的数目为多个时，该第一服务器根据该用户的访问特征和多个非恶意用户访问特征之间的多个相似度，将该多个相似度中的最大相似度，确定为该用户与目标应用的用户访问特征的相似度。

其中，该第一服务器可以用两个访问特征之间的模糊隶属度算法，确定该用户和该非恶意用户访问特征之间的相似度。则该第一服务器可以根据该用户的特征向量和该多个非恶意用户访问特征对应的特征向量，通过以下公式三，分别确定该用户的访问特征与每个非恶意用户访问特征的模糊隶属度，并根据该用户的访问特征与多个非恶意用户访问特征的多个模糊隶属度，通过以下公式四，确定该用户的访问特征与该非恶意用户访问特征之间的相似度。

公式三：

公式四：Pⁱ＝max{P_j|j＝1,2……J}；

其中，W_j用于表示J个非恶意用户访问特征中第j个非恶意用户访问特征对应的特征向量；P_j用于表示用户与第j个非恶意用户访问特征之间的模糊隶属度；Sⁱ用于表示用户的访问特征对应的特征向量；“^”用于表示模糊交运算子，其计算结果取两个向量间的最小值；公式三中的“||”用于表示向量的幅值，即向量各个维度幅值之和。Pⁱ用于表示用户与目标应用的非恶意用户访问特征的模糊隶属度。

其中，该第一服务器将多个用户与多个非恶意用户访问特征之间的多个模糊隶属度中，最大模糊隶属度作为用户与目标应用的非恶意用户访问特征的模糊隶属度。也即是，用户与目标应用的非恶意用户访问特征之间的相似度。

第二种方式、该目标应用的用户访问特征指示恶意用户访问特征。该第一服务器根据该用户的访问特征和该目标应用的恶意用户访问特征，确定该用户与该目标应用的恶意用户访问特征的相似度。

其中，该第一服务器确定用户与该目标应用的恶意用户访问特征的相似度的过程，为与上述第一种方式中，确定用户与该目标应用的非恶意用户访问特征的相似度的过程同理，此处不再一一赘述。

需要说明的是，该第一服务器可以通过上述任一种方式，确定用户与目标应用的用户访问特征之间的相似度，也可以通过结合上述两种方式，既获取该用户与目标应用的非恶意用户访问特征之间的相似度，也获取用户与目标应用的恶意用户访问特征之间的相似度，后续基于该两个相似度进行用户识别，从而提高了用户识别的准确性。本发明实施例对此不作具体限定。

需要说明的是，在确定用户与目标应用的用户访问特征的相似度时，该第一服务器可以基于模糊相似度技术，用该用户的访问特征与非恶意用户访问特征或者非恶意用户访问特征的模糊隶属度，来表示该相似度，能够准确的反映出出该用户与恶意用户或者非恶意用户的相似程度，从而很好的将目标应用中的虚假流量和正常流量区分开来，提高了对用户进行识别的准确性。

205、第一服务器根据该用户与该目标应用的用户访问特征的相似度，确定该用户的识别结果。

当该相似度越大时，说明该用户的访问特征越接近于与该目标应用的用户访问特征。该第一服务器可以根据该相似度的大小，来确定该用户的识别结果。当该用户与该目标应用的非恶意用户访问特征的相似度不小于第一预设阈值时，确定该用户为非恶意用户；或者，当该用户与该目标应用的恶意用户访问特征的相似度不小于第二预设阈值时，确定该用户为恶意用户。相应的，本步骤可以通过以下两种方式实现。

第一种方式、该目标应用的用户访问特征指示非恶意用户访问特征。则当该用户与该目标应用的非恶意用户访问特征的相似度不小于第一预设阈值时，该第一服务器确定该用户为非恶意用户；否则，该第一服务器确定该用户为恶意用户。

当该相似度越大时，该用户与该目标应用的非恶意用户访问特征越相似，第一服务器可以根据该相似度与第一预设阈值，判断该用户是否为非恶意用户，其中，该第一服务器根据该用户与目标应用的非恶意用户访问特征的模糊隶属度，通过以下公式五，当该模糊隶属度不小于第一预设阈值时，该第一服务器可以确定该用户为非恶意用户；否则，该第一服务器可以确定该用户为恶意用户。

公式五：

其中，ρ用于表示第一预设阈值，Pⁱ用于表示获取用户与目标应用的非恶意用户访问特征的模糊隶属度。Dⁱ用于表示该用户是否为恶意用户，当该Dⁱ为0时，该用户为非恶意用户，当该Dⁱ为1时，该用户为恶意用户，该用户流量为虚假流量。

第二种方式、该目标应用的用户访问特征指示恶意用户访问特征。当该用户与该目标应用的恶意用户访问特征的相似度不小于第二预设阈值时，该第一服务器确定该用户为恶意用户；否则，该第一服务器确定该用户为非恶意用户。

当该相似度越大时，该用户与该目标应用的恶意用户访问特征越相似，该第一服务器可以根据该相似度与第二预设阈值，判断该用户是否为恶意用户。其中，该第一服务器根据该用户与目标应用的非恶意用户访问特征的模糊隶属度进行识别，该识别过程与上述第一种方式的识别过程同理，此处不再一一赘述。

其中，该第一服务器可以结合多个用户识别过程中的最大相似度和识别结果，实时调整该第一预设阈值或第二预设阈值的大小。另外，对于第一预设阈值和第二预设阈值的具体数值，该第一服务器可以基于需要进行设置，本发明实施例对此不作具体限定。

需要说明的是，本发明实施例中，该第一服务器可以通过上述任一种方式，对访问该目标应用的用户进行识别，以判断出该用户为恶意用户或者非恶意用户。

在一种可能的实施方式中，该第一服务器还可以同时结合上述第一种方式和第二种方式，对用户进行识别，该过程可以为：该第一服务器根据该用户与该目标应用的非恶意用户访问特征的相似度分别与第一预设阈值、第二预设阈值的大小关系，判断该用户是否为非恶意用户或恶意用户，从而进一步确定该用户为恶意用户或者非恶意用户。

当结合上述第一种方式和第二种方式进行识别时，该判断过程可以为：当该用户与该目标应用的非恶意用户访问特征的相似度不小于第一预设阈值，且与目标应用的恶意用户访问特征的相似度小于第二预设阈值时，该第一服务器确定该用户为非恶意用户；当该用户与该目标应用的非恶意用户访问特征的相似度小于第一预设阈值，或者，该用户与目标应用的恶意用户访问特征的相似度不小于第二预设阈值时，该第一服务器确定该用户为非恶意用户。

206、第一服务器根据该用户的访问特征，更新该目标应用的多个用户访问特征中的目标特征。

其中，该目标特征是与用户的访问特征的相似度最大的用户访问特征，也即是，该用户的访问特征与该目标特征的相似度在多个相似度中最大。

本步骤中，该第一服务器在该用户的访问特征与该目标特征的相似度不小于第一预设阈值或者第二预设阈值时，才更新该目标特征。其中，该第一服务器可以根据该用户的访问特征的特征向量，通过以下公式六，更新该目标特征对应的特征向量；

公式六：

其中，β表示学习率，W_j用于表示第j个非恶意用户访问特征对应的特征向量，也即是，目标特征的特征向量；其中，W^t+1 _j用于表示本次更新后的目标特征，用于表示基于本次用户识别过程时使用的目标特征，为更新前的目标特征；Sⁱ用于表示用户的访问特征对应的特征向量。

需要说明的是，该第一服务器在确定出用户的识别结果后，该第一服务器还可以根据该用户的访问特征，实时更新多个用户访问特征中的目标特征，以使该多个用户访问特征可以与该目标应用的最新访问情况相适应，提高了各个恶意用户访问特征或非恶意用户访问特征的准确性，从而提高了后续使用该多个用户访问特征进行用户识别的准确性和有效性。

需要说明的是，该第一服务器还可以基于该识别结果，针对识别结果为恶意用户的访问特征，采取一定的限制访问策略，以抑制该目标应用上的恶意访问行为带来的虚假流量。进一步的，该第一服务器还可以实时基于该目标应用的实际访问流量，对上述识别过程进行实时检验。为了更客观地评价上述识别过程的识别性能，采用该目标应用的覆盖率(True positive rate，TPR)、误杀率(False positive rate，FPR)指标来评价上述识别用户的识别效果。该覆盖率是指基于本发明的用户识别方法所识别出来的恶意用户总数量除以实际存在的恶意用户总数量；该误杀率是指基于本发明的用户识别方法识别的恶意用户中实际非恶意用户的数量，除以实际非恶意用户总数量。当识别效果较好，也即是，识别用户的准确率较高时，该目标应用的覆盖率保持较高水平，同时误杀率会保持较低水平。

其中，表1为分别采用现有技术和本发明实施例的用户识别方法进行识别后，目标应用分别对应的覆盖率、误杀率情况。该两种方法针对30天的实际流量的检测指标如下表1所示：

表1

方法	TPR	FPR
			现有技术	81.7％	11％
本发明	92.7％	2％

基于上述表1中所示，从而可以验证得出：本发明实施例的用户识别方法能自适应不同时段的实际流量特性，相比于现有技术，能有效、准确的识别目标应用中的实际虚假流量，虚假流量覆盖率高达92.7％，且拥有很低的误杀率。

本发明实施例中，第一服务器通过根据用户的访问特征以及目标应用的用户访问特征的相似度，进行用户识别，该目标应用的用户访问特征指示了该目标应用的恶意用户访问特征或者非恶意用户访问特征，该相似度可以准确反映出该用户与恶意用户或者与非恶意用户的相似程度。因此，基于用户与恶意用户或者非恶意用户的相似程度，能够准确的确定出该用户是恶意用户或非恶意用户，从而提高了用户识别的准确性。

上述用户识别过程还可以由第二服务器执行，图3是本发明实施例提供的一种用户识别方法的流程图。该发明实施例的执行主体为第二服务器，该第二服务器为识别应用的后台服务器。参见图3，该方法包括：

301、第二服务器从第一服务器中获取多个样本用户的访问特征。

本步骤中，该第二服务器可以从第一服务器中获取该目标应用的多个历史访问记录，该第一服务器是该目标应用的后台服务器。该第二服务器根据该目标应用的多个历史访问记录，获取多个样本用户的访问特征。其中，该第二服务器基于该多个历史访问记录获取该样本用户的访问特征的过程，与上述实施例中第一服务器获取样本用户的访问特征同理，此处不再一一赘述。

302、第二服务器根据该多个样本用户的访问特征，确定该目标应用的用户访问特征。

其中，该目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问该目标应用的用户访问特征。需要说明的是，该第二服务器可以根据该多个样本用户的访问特征，获取多个特征类别，每个特征类别包括多个用户访问特征。该第二服务器筛选出多个特征类别的恶意用户特征类别或非恶意用户特征类别。其中，本步骤的实现过程，为与上述实施例中第一服务器执行的步骤202同理的过程，此处不再一一赘述。

303、第二服务器从第一服务器中获取待识别的用户在访问目标应用时的访问特征。

该第一服务器可以通过服务调用接口，向第二服务器发送识别请求，当第二服务器接收到第一服务器的识别请求时，第二服务器从第一服务器中获取待识别用户的访问特征。其中，该第二服务器可以向该第一服务器发送获取指令，该获取指令用于获取该用户的访问特征。该第一服务器接收到该获取指令时，向该第二服务器发送该用户的访问特征，该第二服务器接收该用户的访问特征。

其中，该第一服务器可以基于该用户在第一预设时段内访问记录，提取该用户的访问特征，并根据该用户的访问特征，生成该用户的特征向量，该第一服务器向第二服务器发送该用户的特征向量。

需要说明的是，本步骤中第一服务器获取用户的访问特征的过程，为与上述实施例中步骤203同理的过程，此处不再一一赘述。

304、第二服务器根据该用户的访问特征和该目标应用的用户访问特征，确定该用户与该目标应用的用户访问特征的相似度。

该第二服务器可以根据该用户的访问特征和该目标应用的多个用户访问特征，分别确定该用户与每个用户访问特征的相似度，得到该用户与该多个用户访问特征的多个相似度，将该多个相似度中的最大相似度确定为该用户与该目标应用的用户访问特征的相似度。需要说明的是，本步骤的实现过程，为与上述实施例中步骤204同理的过程，此处不再一一赘述。

305、第二服务器根据该用户与该目标应用的用户访问特征的相似度，确定该用户的识别结果。

其中当该用户与该目标应用的非恶意用户访问特征的相似度不小于第一预设阈值时，该第二服务器确定该用户为非恶意用户；或者当该用户与该目标应用的恶意用户访问特征的相似度不小于第二预设阈值时，该第二服务器确定该用户为恶意用户。当然，本步骤的实现过程，为与上述实施例中步骤205同理的过程，此处不再一一赘述。

306、第二服务器向第一服务器发送该用户的识别结果。

307、第二服务器根据该用户的访问特征，更新该目标应用的多个用户访问特征中的目标特征。

其中，该目标特征是与用户的访问特征的相似度最大的用户访问特征，也即是，该用户的访问特征与该目标特征的相似度在多个相似度中最大。该第二服务器可以根据该用户的访问特征，更新该目标特征。需要说明的是，本步骤的实现过程，为与上述实施例中步骤206同理的过程，此处不再一一赘述。

本发明实施例中，第二服务器通过根据用户的访问特征以及目标应用的用户访问特征的相似度，进行用户识别，该目标应用的用户访问特征指示了该目标应用的恶意用户访问特征或者非恶意用户访问特征，该相似度可以准确反映出该用户与恶意用户或者与非恶意用户的相似程度。因此，基于用户与恶意用户或者非恶意用户的相似程度，能够准确的确定出该用户是恶意用户或非恶意用户，从而提高了用户识别的准确性。

图4是本发明实施例提供的一种用户识别装置的结构示意图。参见图4，该装置包括：获取模块401、确定模块402。

获取模块401，用于获取待识别的用户在访问目标应用时的访问特征；

确定模块402，用于根据该用户的访问特征和该目标应用的用户访问特征，确定该用户与该目标应用的用户访问特征的相似度，该目标应用的用户访问特征用于指示非恶意用户或者恶意用户历史访问该目标应用的访问特征；

该确定模块402，还用于根据该用户与该目标应用的用户访问特征的相似度，确定该用户的识别结果。

在一种可能的实现方式中，该装置还包括：

提取模块，用于从该目标应用的多个历史访问记录中，提取多个样本用户的访问特征；

该确定模块402，还用于根据该多个样本用户的访问特征，确定该目标应用的用户访问特征。

在一种可能的实现方式中，该确定模块402，还用于将该多个样本用户的访问特征输入目标神经网络，输出多个特征类别，每个特征类别包括多个用户访问特征，该目标神经网络用于确定该多个样本用户的访问特征对应的多个特征类别；基于该多个特征类别的类别特征，确定出该多个用户访问特征中的非恶意用户访问特征或恶意用户访问特征。

在一种可能的实现方式中，该确定模块402，还用于对于每个特征类别，根据该特征类别所包括的多个用户访问特征，获取该每个特征类别包括的样本用户的总数量和IP地址的总数量；根据该每个特征类别包括的样本用户的总数量和IP地址的总数量，确定该多个特征类别中非恶意用户特征类别或恶意用户特征类别。

在一种可能的实现方式中，该确定模块402，还用于实现下述至少一项：根据该用户的访问特征和该目标应用的非恶意用户访问特征，确定该用户与该目标应用的非恶意用户访问特征的相似度；根据该用户的访问特征和该目标应用的恶意用户访问特征，确定该用户与该目标应用的恶意用户访问特征的相似度。

在一种可能的实现方式中，该确定模块402，还用于当该用户与该目标应用的非恶意用户访问特征的相似度不小于第一预设阈值时，确定该用户为非恶意用户；或者，当该用户与该目标应用的恶意用户访问特征的相似度不小于第二预设阈值时，确定该用户为恶意用户。

在一种可能的实现方式中，该获取模块401，还用于基于该用户在第一预设时段内访问该目标应用的访问记录，获取该用户的访问特征。

在一种可能的实现方式中，该确定模块402，还用于如果该目标应用的用户访问特征的数目为多个，确定该用户的访问特征分别和该多个用户访问特征之间的多个相似度；将该多个相似度中的最大相似度，确定为该用户与该目标应用的用户访问特征的相似度。

在一种可能的实现方式中，该装置还包括：

更新模块，用于根据该用户的访问特征，更新该目标应用的多个用户访问特征中的目标特征，该用户的访问特征与该目标特征的相似度在多个相似度中最大。

本发明实施例中，通过根据用户的访问特征以及目标应用的用户访问特征的相似度，进行用户识别，该目标应用的用户访问特征指示了该目标应用的恶意用户访问特征或者非恶意用户访问特征，该相似度可以准确反映出该用户与恶意用户或者与非恶意用户的相似程度。因此，基于用户与恶意用户或者非恶意用户的相似程度，能够准确的确定出该用户是恶意用户或非恶意用户，从而提高了用户识别的准确性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的用户识别装置在识别用户时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用户识别装置与用户识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图5是本发明实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)501和一个或一个以上的存储器502，其中，该存储器502中存储有至少一条指令，该至少一条指令由该处理器501加载并执行以实现上述各个方法实施例提供的用户识别方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中的用户识别方法。例如，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户识别方法，其特征在于，应用于第一服务器，以对访问目标应用的用户进行识别，所述第一服务器为所述目标应用的后台服务器，所述第一服务器上安装有识别应用或者识别服务调用接口，所述识别应用为嵌套在所述目标应用中的识别插件，第二服务器与所述第一服务器之间基于所述识别应用或者所述识别服务调用接口进行通信，所述第二服务器为所述识别应用的后台服务器，所述第二服务器用于将所述识别应用的安装包发送至所述第一服务器，所述安装包中携带有用户识别的执行逻辑，所述方法包括：

基于识别策略和待识别的用户在第一预设时段内访问所述目标应用的访问记录，获取所述待识别的用户在访问所述目标应用时的访问特征，所述识别策略包括：按照识别周期进行识别、当所述目标应用的当前访问人数超过预设人数时进行识别、对第三预设时段内访问次数超过预设次数的用户进行识别，和/或，对第四时段内使用的IP地址超过预设数目的用户进行识别；

从所述目标应用的多个历史访问记录中，提取多个样本用户的访问特征；

将所述多个样本用户的访问特征输入目标神经网络，输出多个特征类别，每个特征类别包括多个用户访问特征，且每个特征类别代表了一种类型的用户访问特征，所述目标神经网络用于确定所述多个样本用户的访问特征对应的多个特征类别，所述目标神经网络包括模糊自适应共振理论神经网络；

对于每个特征类别，根据所述每个特征类别所包括的多个用户访问特征，获取所述每个特征类别包括的样本用户的总数量和互联网协议IP地址的总数量；将所述每个特征类别包括的所述样本用户的总数量和所述IP地址的总数量的乘积，确定为所述每个特征类别的特征值；确定所述多个特征类别的特征值的均值和方差；

当任一特征类别的特征值与所述均值之差的绝对值，不大于第三预设阈值与所述方差的乘积时，确定所述任一特征类别为非恶意用户特征类别；当所述任一特征类别的特征值与所述均值之差的绝对值，大于所述第三预设阈值与所述方差的乘积时，确定所述任一特征类别为恶意用户特征类别；

如果所述目标应用的用户访问特征的数目为多个，通过公式三，分别确定所述待识别的用户的访问特征和多个所述目标应用的用户访问特征之间的多个模糊隶属度；将所述多个模糊隶属度中的最大模糊隶属度，作为所述待识别的用户与所述目标应用的用户访问特征的相似度，所述目标应用的用户访问特征用于指示所述非恶意用户特征类别对应的非恶意用户访问特征，或者，所述恶意用户特征类别对应的恶意用户访问特征；

其中，所述公式三是：

其中，W_j用于表示J个目标应用的用户访问特征中第j个目标应用的用户访问特征对应的特征向量；P_j用于表示所述待识别的用户与所述第j个目标应用的用户访问特征之间的模糊隶属度；S_i用于表示所述待识别的用户的访问特征对应的特征向量；“^”用于表示模糊交运算子，其计算结果取两个向量间的最小值；所述公式三中的“||” 用于表示向量的幅值，即向量各个维度幅值之和；

其中，若所述第j个目标应用的用户访问特征指示的是非恶意用户特征类别对应的非恶意用户特征，则所述相似度指示的是所述待识别的用户与所述目标应用的非恶意用户访问特征的相似度；若所述第j个目标应用的用户访问特征指示的是恶意用户特征类别对应的恶意用户特征，则所述相似度指示的是所述待识别的用户与所述目标应用的恶意用户访问特征的相似度；

当所述待识别的用户与所述目标应用的非恶意用户访问特征的相似度不小于第一预设阈值，且所述待识别的用户与所述目标应用的恶意用户访问特征的相似度小于第二预设阈值时，确定所述待识别的用户为非恶意用户；

在所述待识别的用户的访问特征与目标特征的相似度不小于所述第一预设阈值或者所述第二预设阈值时，通过公式六，更新所述目标应用的多个用户访问特征中的目标特征，所述目标特征为基于本次用户识别过程使用的用户访问特征，所述待识别的用户的访问特征与所述目标特征的相似度在多个相似度中最大；

其中，所述公式六是：；

其中，表示学习率，W_j用于表示J个目标应用的用户访问特征中第j个目标应用的用户访问特征对应的特征向量，也即是，所述目标特征的特征向量；其中，W^t+1 _j用于表示本次更新后的目标特征，W^t _j用于表示基于本次用户识别过程时使用的目标特征，即更新前的目标特征；Sⁱ用于表示所述待识别的用户的访问特征对应的特征向量。

2.一种用户识别装置，其特征在于，应用于第一服务器，以对访问目标应用的用户进行识别，所述第一服务器为所述目标应用的后台服务器，所述第一服务器上安装有识别应用或者识别服务调用接口，所述识别应用为嵌套在所述目标应用中的识别插件，第二服务器与所述第一服务器之间基于所述识别应用或者所述识别服务调用接口进行通信，所述第二服务器为所述识别应用的后台服务器，所述第二服务器用于将所述识别应用的安装包发送至所述第一服务器，所述安装包中携带有用户识别的执行逻辑，所述装置包括：

获取模块，用于基于识别策略和待识别的用户在第一预设时段内访问所述目标应用的访问记录，获取所述待识别的用户在访问所述目标应用时的访问特征，所述识别策略包括：按照识别周期进行识别、当所述目标应用的当前访问人数超过预设人数时进行识别、对第三预设时段内访问次数超过预设次数的用户进行识别，和/或，对第四时段内使用的IP地址超过预设数目的用户进行识别；

提取模块，用于从所述目标应用的多个历史访问记录中，提取多个样本用户的访问特征；

确定模块，用于将所述多个样本用户的访问特征输入目标神经网络，输出多个特征类别，每个特征类别包括多个用户访问特征，且每个特征类别代表了一种类型的用户访问特征，所述目标神经网络用于确定所述多个样本用户的访问特征对应的多个特征类别，所述目标神经网络包括模糊自适应共振理论神经网络；对于每个特征类别，根据所述每个特征类别所包括的多个用户访问特征，获取所述每个特征类别包括的样本用户的总数量和互联网协议IP地址的总数量；将所述每个特征类别包括的所述样本用户的总数量和所述IP地址的总数量的乘积，确定为所述每个特征类别的特征值；确定所述多个特征类别的特征值的均值和方差；

所述确定模块，还用于当任一特征类别的特征值与所述均值之差的绝对值，不大于第三预设阈值与所述方差的乘积时，确定所述任一特征类别为非恶意用户特征类别；当所述任一特征类别的特征值与所述均值之差的绝对值，大于所述第三预设阈值与所述方差的乘积时，确定所述任一特征类别为恶意用户特征类别；

所述确定模块，还用于如果所述目标应用的用户访问特征的数目为多个，通过公式三，分别确定所述待识别的用户的访问特征和多个所述目标应用的用户访问特征之间的多个模糊隶属度；将所述多个模糊隶属度中的最大模糊隶属度，作为所述待识别的用户与所述目标应用的用户访问特征的相似度，所述目标应用的用户访问特征用于指示所述非恶意用户特征类别对应的非恶意用户访问特征，或者，所述恶意用户特征类别对应的恶意用户访问特征；

其中，所述公式三是：

所述确定模块，还用于当所述待识别的用户与所述目标应用的非恶意用户访问特征的相似度不小于第一预设阈值，且所述待识别的用户与所述目标应用的恶意用户访问特征的相似度小于第二预设阈值时，确定所述待识别的用户为非恶意用户；

更新模块，用于在所述待识别的用户的访问特征与目标特征的相似度不小于所述第一预设阈值或者所述第二预设阈值时，通过公式六，更新所述目标应用的多个用户访问特征中的目标特征，所述目标特征为基于本次用户识别过程使用的用户访问特征，所述待识别的用户的访问特征与所述目标特征的相似度在多个相似度中最大；

其中，所述公式六是：；

3.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1所述的用户识别方法所执行的操作。

4.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1所述的用户识别方法所执行的操作。