CN107657048A

CN107657048A - 用户识别方法及装置

Info

Publication number: CN107657048A
Application number: CN201710937977.XA
Authority: CN
Inventors: 蔡馥励; 王长路; 庞国胜; 李涛
Original assignee: Beijing Kylin Hesheng Network Technology Co Ltd
Current assignee: Beijing Kylin Hesheng Network Technology Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-02-02
Anticipated expiration: 2037-09-21
Also published as: CN107657048B

Abstract

本申请实施例提供一种用户识别方法及装置，其中方法包括：获取目标用户对应的识别信息，根据目标用户对应的识别信息，在用户群中确定第一用户集合；基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定与目标用户相关联的目标用户特征；根据目标用户特征，在用户群中确定第二用户集合；将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。本申请实施例提供的用户识别方法及装置，能够提高目标用户的识别深度，实现目标用户的深入识别。

Description

用户识别方法及装置

技术领域

本申请涉及用户识别领域，尤其涉及一种用户识别方法及装置。

背景技术

随着大数据和互联网技术的高速发展，通过对用户行为数据的采集与分析来进行用户识别，从而实现业务的精准推荐、广告的精准投放等需求越来越明确，用户识别逐渐成为大数据研究热点之一。

现有的用户识别方法主要为：确定目标用户以及目标用户可能相关的属性信息，如目标用户习惯浏览知乎、果壳等网站，然后根据目标用户可能相关的属性信息，在大量用户中确定目标用户的相似用户，目标用户的相似用户具有目标用户可能相关的属性信息。通过在大量用户中确定目标用户的相似用户，并将目标用户的相似用户作为业务受众，能够提高业务推送的精准度。

发明人在研究中发现，由于现有技术只根据属性信息识别目标用户的相似用户，因此识别深度较差，无法实现用户的深入识别。

发明内容

本申请实施例的目的是提供一种用户识别方法及装置，能够提高用户的识别深度，实现用户的深入识别。

为解决上述技术问题，本申请实施例是这样实现的：

本申请实施例提供了一种用户识别方法，包括：

获取目标用户对应的识别信息，根据所述目标用户对应的识别信息，在用户群中确定第一用户集合；

基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征；

根据所述目标用户特征，在所述用户群中确定第二用户集合；

将所述第一用户集合中的用户和所述第二用户集合中的用户，均确定为所述目标用户的第一相似用户。

本申请实施例提供了一种用户识别装置，包括：

第一用户确定模块，用于获取目标用户对应的识别信息，根据所述目标用户对应的识别信息，在用户群中确定第一用户集合；

特征确定模块，用于基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征；

第二用户确定模块，用于根据所述目标用户特征，在所述用户群中确定第二用户集合；

第一用户合并模块，用于将所述第一用户集合中的用户和所述第二用户集合中的用户，均确定为所述目标用户的第一相似用户。

本申请实施例中的用户识别方法及装置，首先获取目标用户对应的识别信息，并根据目标用户对应的识别信息，在用户群中确定第一用户集合，然后基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定目标用户特征，其次，根据目标用户特征，在用户群中确定第二用户集合，最后，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。通过本申请实施例中的用户识别方法及装置，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高用户的识别深度，实现用户的深入识别。通过本申请实施例中的用户识别方法及装置识别出目标用户的相似用户后，能够方便业务方对目标用户的相似用户进行业务精准推送，从而提高网络信息的推送精准度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用户识别方法的第一种流程示意图；

图2为本申请实施例提供的用户词库生成方法的流程示意图；

图3为本申请实施例提供的用户识别方法的第二种流程示意图；

图4为采用机器学习方法训练目标用户识别模型的流程示意图；

图5为本申请实施例提供的用户识别方法的第三种流程示意图；

图6a示出了一种确定第二用户集合的示意图；

图6b示出了另一种确定第二用户集合的示意图；

图7a示出了一种确定第二相似用户的示意图；

图7b示出了另一种确定第二相似用户的示意图；

图8为本申请实施例提供的用户识别装置的第一种模块组成示意图；

图9为本申请实施例提供的用户识别装置的第二种模块组成示意图；

图10为本申请实施例提供的用户识别装置的第三种模块组成示意图；

图11为本申请实施例提供的用户识别设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请实施例提供了一种用户识别方法及装置，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高目标用户的识别深度，实现目标用户的深入识别。本申请实施例中的用户识别方法能够由服务器执行，通过本申请实施例中的用户识别方法识别出目标用户的相似用户后，能够方便业务方对目标用户的相似用户进行业务精准推送，从而提高网络信息的推送精准度。

图1为本申请实施例提供的用户识别方法的第一种流程示意图，如图1所示，该流程至少包括以下步骤：

步骤S102，获取目标用户对应的识别信息，根据目标用户对应的识别信息，在用户群中确定第一用户集合。

用户群是由大量用户组成的用户群体，本实施例中的用户识别方法能够在用户群中识别目标用户的相似用户。用户群中的用户均具有用户标签，用户标签是一些能够表示用户的用户特征的词或词组，这些词或词组可以通过对用户的网页浏览记录、应用程序使用记录、词条搜索记录等用户历史的互联网行为分析得到。在具体的应用场景中，可以根据用户标签的来源将用户标签的种类分为多种，如用户标签包括搜索词标签、浏览网页标签、应用程序标签等，对于一个用户而言，其所有种类的标签共同组成其对应的虚拟用户代表，虚拟用户代表又称为用户画像。用户画像可以在一定程度上较精确地反应用户的行为偏好、消费习惯等重要商业信息，可以广泛应用在精准推荐、广告投放等领域。

目标用户对应的识别信息包括目标用户对应的用户词库以及目标用户对应的行为活动。用户词库包括多个词和/或词组，这些词和/或词组与目标用户相对应，比如，目标用户包括穆斯林用户，用户词库包括“安拉”、“伊玛尼”、“开斋节”等词。目标用户对应的行为活动包括第一指定时间出现在指定位置，和/或，第二指定时间进行指定活动，第一指定时间和第二指定时间可以相同也可以不同。目标用户对应的行为活动为区分目标用户和其他用户的行为活动，比如，目标用户包括穆斯林用户，第一指定时间和第二指定时间不同，则基于穆斯林用户做礼拜和过开斋节的特定，目标用户对应的行为活动可以是“周日出现在清真寺”，和/或，“开斋节当天进行庆祝活动”，在第一指定时间和第二指定时间相同时，目标用户对应的行为活动还可以是第一指定时间(也即第二指定时间)出现在指定位置且进行指定活动，比如，目标用户为穆斯林用户，则目标用户对应的行为活动可以是“开斋节当天出现在清真寺进行庆祝活动”。

本步骤中，根据目标用户对应的识别信息，在用户群中确定第一用户集合，具体为：

(a1)将用户群中用户标签与用户词库相匹配的用户确定为第一用户，以及，将用户群中行为活动与目标用户对应的行为活动相一致的用户确定为第二用户；

(a2)将第一用户和第二用户共同组成为第一用户集合。

动作(a1)中，服务器将用户群中用户标签与用户词库相匹配的用户确定为第一用户，比如，服务器检索用户群中每个用户的用户标签，将用户标签包含用户词库中的词或词组的用户，确定为第一用户。对于用户标签的种类分为多种的情况，如用户标签包括搜索词标签、浏览网页标签、应用程序标签等，可以检索用户的所有种类的用户标签，若检索得到用户词库中的词或词组，则将该用户确定为第一用户。将所有种类的用户标签结合起来确定第一用户，能够较全面的分析用户是否为第一用户，保证第一用户确定的准确性。

为避免用户无意中执行的互联网操作(如浏览网页)，导致其用户标签中出现了用户词库中的词或词组，对筛选第一用户造成影响，服务器也可以检索用户群中每个用户的用户标签，将用户标签中包含的用户词库中的词和词组的数量达到预定数量阈值的用户，确定为第一用户，从而使得用户标签中包含足够数量的用户词库中的词和词组的用户，才被确定为第一用户，从而提高第一用户确定的准确度。

动作(a1)中，还将用户群中行为活动与目标用户对应的行为活动相一致的用户确定为第二用户。一种筛选第二用户的场景下，目标用户对应的行为活动为，第一指定时间出现在指定位置，另一种筛选第二用户的场景下，目标用户对应的行为活动为，第二指定时间进行指定活动，又一种筛选第二用户的场景下，目标用户对应的行为活动为，第一指定时间出现在指定位置，且，第二指定时间进行指定活动。在第一指定时间和第二指定时间相同的情况下，目标用户对应的行为活动还可以是第一指定时间(也即第二指定时间)出现在指定位置且进行指定活动，具体实施时，可以根据场景要求确定目标用户对应的行为活动的内容。

以目标用户为穆斯林用户，目标用户对应的行为活动为第一指定时间出现在指定位置为例，将用户群中行为活动与目标用户对应的行为活动相一致的用户确定为第二用户，可以是，收集全网用户在穆斯林传统节日(如开斋节)时用户的GPS(GlobalPositioning System，全球定位系统)地理位置信息，判断该GPS地理位置描述中是否含穆斯林标志性场所(如“清真寺”等)，包含的即为穆斯林用户。例如，2016年7月6日是伊斯兰教开斋节，位于北京的穆斯林教徒均聚集在位于朝内豆瓣胡同4号的南豆芽清真寺举行集会，根据判断全网用户当天的GPS地理信息中是否含有“南豆芽清真寺”或“豆瓣胡同4号”等标志性信息，即可判断出用户在当天是否出现在穆斯林集会场所，进而判断该用户是否为穆斯林用户。穆斯林用户由于其宗教特点，信仰伊斯兰教的居民需在指定节日参加宗教性集会，这种集会有较强的宗教代表性，通过用户的GPS地理位置信息的描述，可在判断出用户是否参加了该宗教性活动，从而可在较大程度上判断出该用户是否为穆斯林用户，将标记出的这部分穆斯林用户作为第二用户。

能够理解，若某个用户的用户标签与用户词库相匹配，且，该用户的行为活动与目标用户对应的行为活动相一致，则该用户既被确定为第一用户，又被确定为第二用户。

动作(a2)中，服务器将第一用户和第二用户共同组成为第一用户集合，从而得到第一用户集合。

本实施例中，同时基于行为活动和用户词库确定用户，能够增大识别得到的用户的数量，提高目标用户的挖掘深度。

步骤S104，基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定与目标用户相关联的目标用户特征。

考虑到通过步骤S102确定出来的第一用户集合中的用户的数量有限，为了实现目标用户的深度挖掘，本步骤可以基于用户特征之间的关联关系，确定出与目标用户相关联的目标用户特征，从而基于目标用户特征进一步确定目标用户的相似用户。

本步骤中，基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定与目标用户相关联的目标用户特征，具体为：

对第一用户集合对应的用户特征，和，用户群中除第一用户集合以外的用户对应的用户特征，进行特征相关性分析，确定在第一用户集合中所占的第一用户比例大于第一比例值，且，在第一用户集合以外的用户中所占的第二用户比例小于第二比例值的用户特征；将确定的用户特征，确定为与目标用户相关联的目标用户特征。

具体地，对第一用户集合对应的用户特征，和，用户群中除第一用户集合以外的用户对应的用户特征，进行特征相关性分析，能够得到用户群中每个用户特征在第一用户集合中所占的第一用户比例，该第一用户比例表示具有该用户特征的用户在第一用户集合中的数量占比，以及得到用户群中每个用户特征在第一用户集合以外的用户中所占的第二用户比例，该第二用户比例表示具有该用户特征的用户在第一用户集合以外的用户中的数量占比。由于在第一用户集合中所占的第一用户比例大，且在第一用户集合以外的用户中所占的第二用户比例小的用户特征，是可以区分第一用户集合中的用户和第一用户集合以外的用户的用户特征，可以作为代表目标用户的目标用户特征，因此本步骤中确定在第一用户集合中所占的第一用户比例大于第一比例值，且，在第一用户集合以外的用户中所占的第二用户比例小于第二比例值的用户特征，并将该用户特征作为目标用户特征。

第一比例值和第二比例值可以是预先确定的值。本步骤中，对第一用户集合对应的用户特征，和，用户群中除第一用户集合以外的用户对应的用户特征，进行特征相关性分析，能够得到如下表1所示的分析结果，从该表中可以直接看出每个用户特征在第一用户集合中所占的第一用户比例，以及在第一用户集合以外的用户中所占的第二用户比例。表1中还表示了第一用户比例和第二用户比例的差值，该差值等于第一用户比例减去第二用户比例，能够理解，该差值越大，说明对应的用户特征越能够区分第一用户集合中的用户和第一用户集合以外的用户。表1中还表示了每个用户特征的分值，该分值越大，说明对应的用户特征出现的次数越多，因此该用户特征越具有代表性。

表1

用户特征	分值	第一用户比例	第二用户比例	差值
					A	80	75.4％	18.2％	57.2％
B	60	23.5％	60％	-36.5％
					C	20	58.8％	14.6％	44.2％

假设第一比例值为70％，第二比例值为30％，且考虑到分值太低的用户特征出现的次数少，不具备参考价值，因此这里划定分值要求为大于等于60分，则表1中，大于等于60分的用户特征包括A和B，由于A满足第一比例值和第二比例值的要求，因此将用户特征A确定为目标用户特征。

一种具体的实施方式中，可以利用卡方检验等方法对第一用户集合和第一用户集合以外的用户进行特征相关性分析，得到目标用户特征。

步骤S106，根据目标用户特征，在用户群中确定第二用户集合。

在确定目标用户特征后，还可以在用户群中确定第二用户集合，第二用户集合中的用户与目标用户特征相匹配。具体地，在用户群中，确定与目标用户特征相匹配的用户，将确定的用户共同组成为第二用户集合。

由于已经在用户群中确定过第一用户集合，因此这里可以在用户群中除第一用户集合以外的用户中，确定与目标用户特征相匹配的用户，并将确定的用户共同组成为第二用户集合。当然，可以在用户群的所有用户中，确定第二用户集合。

一种具体的情况下，用户群中的每个用户都具有各自的用户标签，用户标签是一些能够表示用户的用户特征的词或词组，这些词或词组可以作为用户特征使用，则目标用户特征可以是与目标用户相关联的词或词组，则确定与目标用户特征相匹配的用户，可以是，将用户标签中包含与目标用户相关联的词或词组的用户，确定为与目标用户特征相匹配的用户。

通过确定目标用户特征，根据目标用户特征，在用户群中确定第二用户集合，能够确定难以被直观发现的与目标用户有关的特征，从而扩大挖掘得到的用户的数量，避免由于识别信息的不全面导致目标用户挖掘深度低的缺陷。

步骤S108，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。

如前描述，若步骤S106中，是在用户群的所用用户中确定的第二用户集合，则第一用户集合和第二用户集合可能存在部分重合，若步骤S106中，是在用户群中除第一用户集合以外的用户中确定第二用户集合，则第二用户集合和第一用户集合完全不重合。

本步骤中，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。

本申请实施例中的用户识别方法，首先获取目标用户对应的识别信息，并根据目标用户对应的识别信息，在用户群中确定第一用户集合，然后基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定目标用户特征，其次，根据目标用户特征，在用户群中确定第二用户集合，最后，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。通过本申请实施例中的用户识别方法，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高用户的识别深度，实现用户的深入识别。

本申请实施例提供了一种用户词库生成方法，图2为本申请实施例提供的用户词库生成方法的流程示意图，如图2所示，该流程包括：

步骤S202，获取用户群中的用户在终端设备中所安装的应用程序的描述信息。

本实施例中，获取用户群中的每个用户在终端设备中所安装的应用程序的描述信息。具体地，首先，确定用户群中的每个用户在终端设备中所安装的所有应用程序，比如用户A在手机中安装QQ和微信，用户B在手机中安装知乎和网易新闻，其中，终端设备包括但不限于手机、电脑、平板电脑、车载电脑等，然后，获取每个用户的所有应用程序的描述信息，比如，获取用户A安装的QQ的描述信息和微信的描述信息，获取用户B安装的知乎的描述信息和网易新闻的描述信息，应用程序的描述信息通常是一段或多段文字，用于介绍该应用程序的功能、优点以及适用系统等。

对于多个用户安装相同应用程序的情况，在确定用户群中的每个用户在终端设备中所安装的所有应用程序之后，在获取每个用户的所有应用程序的描述信息之前，可以对相同的应用程序进行去重，从而在获取描述信息时，对于多个重复的应用程序只获取一份描述信息。

由于用户在终端设备中安装的应用程序能够一定程度上反映用户的兴趣点和关注点，因此获取应用程序的描述信息可以间接获知用户可能的爱好点。

一种具体的实施方式中，获取用户群中的用户在手机中所安装的应用程序的描述信息，具体为，收集用户群中每个用户的手机的应用程序列表，该列表与用户一一对应，该列表记载了对应用户所安装的应用程序的名称，对所有列表进行汇总去重，去掉列表中重复的应用程序的名称，得到所有被安装的应用程序的名称，根据该名称，到网络中如Googleplay中抓取每个应用程序对应的描述信息，该描述信息包括每个应用程序的功能概述和所针对的用户群体的描述信息，可以在较大程度上反映使用相应应用程序的用户的兴趣点。

步骤S204，对描述信息进行关键词和关键词组的抽取。

可以将每个应用程序对应的描述信息作为一篇文章，本步骤中，对获取的全部描述信息进行关键词和关键词组的抽取，就相当于对多篇文章进行关键词和关键词组的抽取。一种优选的实施例中，根据tfidf、textrank、rake等算法模型对获取的全部描述信息进行关键词和关键词组的抽取。

在对全部描述信息进行关键词和关键词组的抽取时，可以分别针对每个应用程序的描述信息进行关键词和关键词组的抽取，从而得到每个应用程序的关键词和关键词组，并将每个应用程序的关键词和关键词组用列表的形式表示，作为对应应用程序的标签。

延续上述具体的实施方式，根据tfidf、textrank、rake等算法模型从描述信息中进行关键词和关键词组的抽取，具体为，对每个应用程序对应的描述信息分别进行分词，根据分词结果抽取每个应用程序对应的关键词和关键词组，并将每个应用程序对应的关键词和关键词组作为对应应用程序的标签。

步骤S206，利用抽取得到的关键词和关键词组对与目标用户相关联的词库进行扩充，将扩充后的词库确定为用户词库。

与目标用户相关联的词库可以是基于经验确定的词库，其中包含多个词，如目标用户为穆斯林用户，与目标用户相关联的词库包含“真主”、“安拉”等词。本步骤中，利用抽取得到的关键词和关键词组对与目标用户相关联的词库进行扩充，具体为，从抽取得到的关键词中选取该相关联的词库中的词的同义词或近义词，将选取的同义词和近义词归入该相关联的词库，从抽取得到的关键词组中选取包含该相关联的词库中的词的词组，将选取的词组归入该相关联的词库。

基于经验确定的与目标用户相关联的词库包含的词和词组的数量较少时，通过对其进行扩充，能够丰富与目标用户相关联的词和词组，从而基于扩展得到的用户词库，确定尽可能多的目标用户的相似用户。

考虑到目标用户的第一相似用户的用户数量较少的情况，为了进一步挖掘目标用户的相似用户，图3为本申请实施例提供的用户识别方法的第二种流程示意图，如图3所示，与图1相比，该流程还包括以下步骤：

步骤S302，若第一相似用户的用户数量占用户群中所有用户的数量比例小于预定比例，则利用第一相似用户对应的用户特征，以及用户群中除第一相似用户以外的用户对应的用户特征，训练目标用户识别模型。

本实施例中设置有预定比例，该预定比例可以是基于经验估算的用户群中目标用户的比例值。比较第一相似用户的用户数量占用户群中所有用户的数量比例与该预定比例的大小关系，若小于预定比例，认为目标用户的挖掘还不够深入，利用第一相似用户对应的用户特征，以及用户群中除第一相似用户以外的用户对应的用户特征，训练目标用户识别模型。

可以采用机器学习方法训练目标用户识别模型，图4为采用机器学习方法训练目标用户识别模型的流程示意图，如图4所示，包括以下步骤：

步骤S402，确定正样本和负样本。

将第一相似用户标记为正样本，并确定第一相似用户的用户数量为第一数量，在用户群中第一相似用户以外的用户中选取第一数量的用户，将选取的第一数量的用户作为负样本，从而保持正负样本数量为1比1。

步骤S404，将正负样本分为训练集和验证集。

将正负样本分为训练集和验证集，训练集所包含的样本数量与验证集所包含的样本数量比例为3∶1，且训练集中正负样本数量为1比1，验证集中正负样本数量为1比1。

步骤S406，对训练集对应的用户特征进行特征处理，得到用于训练的训练特征。

对训练集对应的用户特征如性别、年龄、教育程度、职业、国家、应用程序安装列表等进行特征抽取，按照指定形式生成特征向量，如：

WrappedArray([userprofile|id＝0023f2a78e058cb4890ba2d3，1.0]；

[userprofile|gender＝female，1.0]；

[userprofile|age＝youth，1.0]；

[userprofile|education＝median，1.0]；

[userprofile|job＝retail，1.0])；

然后对特征向量进行特征转换和聚合，再对聚合后的特征进行离散化处理，最后进行特征交叉，将特征交叉后的特征作为用于训练的训练特征。

步骤S408，采用机器学习算法利用训练特征训练目标用户识别模型。

采用逻辑回归等机器学习算法，利用训练特征训练目标用户识别模型，在模型训练过程中，还利用交叉验证等手段进行模型参数调优，当模型中的参数满足预设阈值要求时，确定模型训练完成。训练得到的目标用户识别模型为二分类模型，能够判断输入的用户特征对应的用户是否与目标用户相似。

步骤S410，利用验证集对应的用户特征检测目标用户识别模型是否合格，若合格，执行步骤S412，否则，返回步骤S408。

为了验证训练得到的目标用户识别模型的准确度，将验证集对应的用户特征输入到目标用户识别模型中，若目标用户识别模型对验证集的识别准确度超过预设准确度阈值，比如，对于验证集中的用户，判断其是否与目标用户相似的准确率超过95％，则确定目标用户识别模型训练完成，否则，返回步骤S408继续进行模型训练。

步骤S412，模型训练完成。

在目标用户识别模型训练完成后，还执行步骤S304。

步骤S304，利用目标用户识别模型在用户群中筛选目标用户的第二相似用户。

一种情况下，可以将用户群中每个用户的特征分别输入目标用户识别模型进行运算，根据目标用户识别模型的输出结果判断对应的用户是否与目标用户相似，若是，则将该用户确定为目标用户的第二相似用户。该情况下，第一相似用户和第二相似用户存在重合。

另一种情况下，可以将用户群中除第一相似用户以外的每个用户的特征分别输入目标用户识别模型进行运算，根据目标用户识别模型的输出结果判断对应的用户是否与目标用户相似，若是，则将该用户确定为目标用户的第二相似用户。该情况下，第一相似用户和第二相似用户不重合。

根据目标用户识别模型的输出结果判断对应的用户是否与目标用户相似，可以是，若目标用户识别模型的输出结果为“1”，则确定对应的用户与目标用户相似，若目标用户识别模型的输出结果为“0”，则确定对应的用户不与目标用户相似。

步骤S306，将第一相似用户和第二相似用户，共同确定为目标用户的相似用户。

将第一相似用户和第二相似用户，共同确定为目标用户的相似用户，从而提高目标用户的相似用户的数量，实现目标用户的深度挖掘。

本实施例中，通过训练目标用户识别模型进一步识别目标用户的相似用户，能够提高目标用户的挖掘深度，解决传统目标用户确定方法挖掘得到的用户量小的问题，并且基于机器学习的可靠性保证目标用户识别的准确性。

通过本申请实施例中的方法，采用特征相关性分析以及机器学习相结合的方式，能够较大程度的在用户群中挖掘目标用户的相似用户，从而提高目标用户的挖掘深度。

图5为本申请实施例提供的用户识别方法的第三种流程示意图，如图5所示，该流程包括：

步骤S502，利用用户群中的用户在手机中所安装的应用程序的描述信息，对与目标用户相关联的词库进行扩充，得到目标用户对应的用户词库。

具体地，获取用户群中的用户在手机中所安装的应用程序的描述信息，对获取的描述信息进行关键词和关键词组的抽取，利用抽取得到的关键词和关键词组对与目标用户相关联的词库进行扩充，将扩充后的词库确定为用户词库。

步骤S504，确定目标用户对应的行为活动。

目标用户对应的行为活动包括第一指定时间出现在指定位置，和/或，第二指定时间进行指定活动。

在其他实施例中，还可以先确定目标用户对应的行为活动，然后再获得目标用户对应的用户词库。

步骤S506，根据目标用户对应的用户词库及目标用户对应的行为活动，在用户群中确定第一用户集合。

将用户群中用户标签与用户词库相匹配的用户确定为第一用户，将用户群中行为活动与目标用户对应的行为活动相一致的用户确定为第二用户，将第一用户和第二用户共同组成为第一用户集合。

步骤S508，对第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，进行特征相关性分析，确定与目标用户相关联的目标用户特征。

对第一用户集合对应的用户特征，和，用户群中除第一用户集合以外的用户对应的用户特征，进行特征相关性分析，确定在第一用户集合中所占的第一用户比例大于第一比例值，且，在第一用户集合以外的用户中所占的第二用户比例小于第二比例值的用户特征，将确定的用户特征，作为与目标用户相关联的目标用户特征。

步骤S510，根据与目标用户相关联的目标用户特征，在用户群中确定第二用户集合。

在用户群中，将与目标用户特征相匹配的用户共同组成为第二用户集合。这里可以在用户群的全部用户中，将与目标用户特征相匹配的用户共同组成为第二用户集合，也可以在用户群除第一用户集合以外的用户中，将与目标用户特征相匹配的用户共同组成为第二用户集合，前者第一用户集合和第二用户集合部分重合，后者第一用户集合和第二用户集合完全不重合。

步骤S512，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。

步骤S514，判断第一相似用户的数量在用户群中的数量占比是否小于预定比例，若小于，执行步骤S516，否则，执行步骤S522。

步骤S516，利用第一相似用户对应的用户特征，以及用户群中除第一相似用户以外的用户对应的用户特征，训练目标用户识别模型。

步骤S518，利用目标用户识别模型在用户群中筛选目标用户的第二相似用户。

这里可以在用户群的全部用户中筛选第二相似用户，也可以在用户群中除第一相似用户以外的用户中筛选第二相似用户，前者第一相似用户和第二相似用户部分重合，后者第一相似用户和第二相似用户完全不重合。

步骤S520，将第一相似用户和第二相似用户，共同确定为目标用户的相似用户。

步骤S522，确定目标用户识别完成。

图5中，在确定第二用户集合时，第一用户集合和第二用户集合可能重合，还可能不重合，在确定第二相似用户时，第一相似用户和第二相似用户可能重合，还可能不重合。

图6a示出了一种确定第二用户集合的示意图，如图6a所示，在用户群的全部用户中，将与目标用户特征相匹配的用户共同组成为第二用户集合，因此第一用户集合和第二用户集合部分重合。图6b示出了另一种确定第二用户集合的示意图，如图6b所示，在用户群除第一用户集合以外的用户中，将与目标用户特征相匹配的用户共同组成为第二用户集合，因此第一用户集合和第二用户集合完全不重合。

图7a示出了一种确定第二相似用户的示意图，如图7a所示，在用户群的全部用户中筛选第二相似用户，因此第一相似用户和第二相似用户部分重合。图7b示出了另一种确定第二相似用户的示意图，如图7b所示，在用户群中除第一相似用户以外的用户中筛选第二相似用户，因此第一相似用户和第二相似用户完全不重合。

本申请实施例提供的用户识别方法优点在于：结合用户安装的应用程序和用户的行为活动确定目标用户的相似用户，更有针对性，能够提高相似用户的识别准确度。基于准确识别的目标用户的相似用户进行机器学习，得到的目标识别模型准确度高，从而提升目标识别模型预测结果的准确度，最终实现目标用户的精确识别。

对应上述的用户识别方法，本申请实施例还提供了一种用户识别装置，图8为本申请实施例提供的用户识别装置的第一种模块组成示意图，如图8所示，该装置包括：

第一用户确定模块81，用于获取目标用户对应的识别信息，根据所述目标用户对应的识别信息，在用户群中确定第一用户集合；

特征确定模块82，用于基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征；

第二用户确定模块83，用于根据所述目标用户特征，在所述用户群中确定第二用户集合；

第一用户合并模块84，用于将所述第一用户集合中的用户和所述第二用户集合中的用户，均确定为所述目标用户的第一相似用户。

可选地，所述目标用户对应的识别信息包括所述目标用户对应的用户词库以及所述目标用户对应的行为活动；

所述第一用户确定模块81具体用于：

将所述用户群中用户标签与所述用户词库相匹配的用户确定为第一用户，以及，将所述用户群中行为活动与所述目标用户对应的行为活动相一致的用户确定为第二用户；

将所述第一用户和所述第二用户共同组成为所述第一用户集合。

图9为本申请实施例提供的用户识别装置的第二种模块组成示意图，如图9所示，该装置还包括：

描述信息获取模块91，用于获取所述用户群中的用户在终端设备中所安装的应用程序的描述信息；

关键信息抽取模块92，用于对所述描述信息进行关键词和关键词组的抽取；

词库扩充模块93，用于利用抽取得到的关键词和关键词组对与所述目标用户相关联的词库进行扩充，将扩充后的词库确定为所述用户词库。

可选地，所述特征确定模块82具体用于：

对所述第一用户集合对应的用户特征，和，所述用户群中除所述第一用户集合以外的用户对应的用户特征，进行特征相关性分析，确定在所述第一用户集合中所占的第一用户比例大于第一比例值，且，在所述第一用户集合以外的用户中所占的第二用户比例小于第二比例值的用户特征；

将确定的所述用户特征，确定为与所述目标用户相关联的目标用户特征。

可选地，所述第二用户确定模块83具体用于：

在所述用户群中，确定与所述目标用户相关联的用户特征相匹配的用户，将确定的用户共同组成为所述第二用户集合。

图10为本申请实施例提供的用户识别装置的第三种模块组成示意图，如图10所示，该装置还包括：

模型训练模块1001，用于若所述第一相似用户的用户数量占所述用户群中所有用户的数量比例小于预定比例，则利用所述第一相似用户对应的用户特征，以及所述用户群中除所述第一相似用户以外的用户对应的用户特征，训练目标用户识别模型；

用户筛选模块1002，用于利用所述目标用户识别模型在所述用户群中筛选所述目标用户的第二相似用户；

第二用户合并模块1003，用于将所述第一相似用户和所述第二相似用户，共同确定为所述目标用户的相似用户。

可选地，所述第一用户确定模块81具体用于：

将所述用户群中用户标签包含所述用户词库中的词或词组的用户，确定为所述第一用户。

可选地，所述目标用户对应的行为活动包括第一指定时间出现在指定位置，和/或，第二指定时间进行指定活动。

可选地，所述目标用户包括穆斯林用户。

本申请实施例中的用户识别装置，首先获取目标用户对应的识别信息，并根据目标用户对应的识别信息，在用户群中确定第一用户集合，然后基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定目标用户特征，其次，根据目标用户特征，在用户群中确定第二用户集合，最后，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。通过本申请实施例中的用户识别装置，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高用户的识别深度，实现用户的深入识别。通过本申请实施例中的用户识别装置识别出目标用户的相似用户后，能够方便业务方对目标用户的相似用户进行业务精准推送，从而提高网络信息的推送精准度。

对应上述的用户识别方法，本申请实施例还提供了一种用户识别设备，图11为本申请实施例提供的用户识别设备的结构示意图。

如图11所示，用户识别设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1101和存储器1102，存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对用户识别设备中的一系列计算机可执行指令。更进一步地，处理器1101可以设置为与存储器1102通信，在用户识别设备上执行存储器1102中的一系列计算机可执行指令。用户识别设备还可以包括一个或一个以上电源1103，一个或一个以上有线或无线网络接口1104，一个或一个以上输入输出接口1105，一个或一个以上键盘1106等。

在一个具体的实施例中，用户识别设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对用户识别设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

可选地，计算机可执行指令在被执行时，所述目标用户对应的识别信息包括所述目标用户对应的用户词库以及所述目标用户对应的行为活动；

根据所述目标用户对应的识别信息，在用户群中确定第一用户集合，包括：

可选地，计算机可执行指令在被执行时，还能够：

获取所述用户群中的用户在终端设备中所安装的应用程序的描述信息；

对所述描述信息进行关键词和关键词组的抽取；

利用抽取得到的关键词和关键词组对与所述目标用户相关联的词库进行扩充，将扩充后的词库确定为所述用户词库。

可选地，计算机可执行指令在被执行时，基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征，包括：

可选地，计算机可执行指令在被执行时，根据所述目标用户特征，在所述用户群中确定第二用户集合，包括：

可选地，计算机可执行指令在被执行时，还能够：

若所述第一相似用户的用户数量占所述用户群中所有用户的数量比例小于预定比例，则利用所述第一相似用户对应的用户特征，以及所述用户群中除所述第一相似用户以外的用户对应的用户特征，训练目标用户识别模型；

利用所述目标用户识别模型在所述用户群中筛选所述目标用户的第二相似用户；

将所述第一相似用户和所述第二相似用户，共同确定为所述目标用户的相似用户。

可选地，计算机可执行指令在被执行时，将所述用户群中用户标签与所述用户词库相匹配的用户确定为第一用户，包括：

可选地，所述目标用户包括穆斯林用户。

本申请实施例中的用户识别设备，首先获取目标用户对应的识别信息，并根据目标用户对应的识别信息，在用户群中确定第一用户集合，然后基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定目标用户特征，其次，根据目标用户特征，在用户群中确定第二用户集合，最后，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。通过本申请实施例中的用户识别设备，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高用户的识别深度，实现用户的深入识别。通过本申请实施例中的用户识别设备识别出目标用户的相似用户后，能够方便业务方对目标用户的相似用户进行业务精准推送，从而提高网络信息的推送精准度。

进一步地，基于上述的用户识别方法，本申请实施例还提供了一种存储介质，用于存储计算机可执行指令，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

可选地，该存储介质存储的计算机可执行指令在被执行时，所述目标用户对应的识别信息包括所述目标用户对应的用户词库以及所述目标用户对应的行为活动；

可选地，该存储介质存储的计算机可执行指令在被执行时，还能够：

对所述描述信息进行关键词和关键词组的抽取；

可选地，该存储介质存储的计算机可执行指令在被执行时，基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征，包括：

可选地，该存储介质存储的计算机可执行指令在被执行时，根据所述目标用户特征，在所述用户群中确定第二用户集合，包括：

可选地，该存储介质存储的计算机可执行指令在被执行时，将所述用户群中用户标签与所述用户词库相匹配的用户确定为第一用户，包括：

可选地，所述目标用户包括穆斯林用户。

本申请实施例中的存储介质存储的计算机可执行指令在被执行时，首先获取目标用户对应的识别信息，并根据目标用户对应的识别信息，在用户群中确定第一用户集合，然后基于第一用户集合对应的用户特征，和用户群中除第一用户集合以外的用户对应的用户特征，确定目标用户特征，其次，根据目标用户特征，在用户群中确定第二用户集合，最后，将第一用户集合中的用户和第二用户集合中的用户，均确定为目标用户的第一相似用户。通过本申请实施例中的存储介质，采用多种用户识别方式相结合，在用户群中逐步深入识别目标用户的相似用户，从而提高用户的识别深度，实现用户的深入识别。通过本申请实施例中的存储介质识别出目标用户的相似用户后，能够方便业务方对目标用户的相似用户进行业务精准推送，从而提高网络信息的推送精准度。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种用户识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标用户对应的识别信息包括所述目标用户对应的用户词库以及所述目标用户对应的行为活动；

3.根据权利要求2所述的方法，其特征在于，还包括：

对所述描述信息进行关键词和关键词组的抽取；

4.根据权利要求1所述的方法，其特征在于，基于所述第一用户集合对应的用户特征，和所述用户群中除所述第一用户集合以外的用户对应的用户特征，确定与所述目标用户相关联的目标用户特征，包括：

5.根据权利要求1或4所述的方法，其特征在于，根据所述目标用户特征，在所述用户群中确定第二用户集合，包括：

6.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

7.根据权利要求2或3所述的方法，其特征在于，将所述用户群中用户标签与所述用户词库相匹配的用户确定为第一用户，包括：

8.根据权利要求2或3所述的方法，其特征在于，所述目标用户对应的行为活动包括第一指定时间出现在指定位置，和/或，第二指定时间进行指定活动。

9.根据权利要求1至3任一项所述的方法，其特征在于，所述目标用户包括穆斯林用户。

10.一种用户识别装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述目标用户对应的识别信息包括所述目标用户对应的用户词库以及所述目标用户对应的行为活动；

所述第一用户确定模块具体用于：

12.根据权利要求10所述的装置，其特征在于，所述特征确定模块具体用于：

13.根据权利要求10或12所述的装置，其特征在于，所述第二用户确定模块具体用于：

14.根据权利要求10至11任一项所述的装置，其特征在于，还包括：

模型训练模块，用于若所述第一相似用户的用户数量占所述用户群中所有用户的数量比例小于预定比例，则利用所述第一相似用户对应的用户特征，以及所述用户群中除所述第一相似用户以外的用户对应的用户特征，训练目标用户识别模型；

用户筛选模块，用于利用所述目标用户识别模型在所述用户群中筛选所述目标用户的第二相似用户；

第二用户合并模块，用于将所述第一相似用户和所述第二相似用户，共同确定为所述目标用户的相似用户。

15.根据权利要求11所述的方法，其特征在于，所述目标用户对应的行为活动包括第一指定时间出现在指定位置，和/或，第二指定时间进行指定活动。

16.根据权利要求10至11任一项所述的装置，其特征在于，所述目标用户包括穆斯林用户。