CN112069913A

CN112069913A - 用户的识别方法、装置、存储介质和电子设备

Info

Publication number: CN112069913A
Application number: CN202010813808.7A
Authority: CN
Inventors: 孟健; 程万军; 何光宇
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-12-11
Anticipated expiration: 2040-08-13
Also published as: CN112069913B

Abstract

本公开涉及一种用户的识别方法、装置、存储介质和电子设备，涉及电子信息处理技术领域，该方法包括：根据获取到的多个用户信息中，每个用户信息包括的行动轨迹，对多个用户信息进行聚类，以获取至少一组用户类，每组用户类中包括至少一个用户信息，针对每组用户类，确定该组用户类中包括的每个用户信息的特征图，将该组用户类中包括的全部用户信息的特征图作为预先训练的用户识别模型的输入，以获取用户识别模型输出的识别结果，识别结果用于指示该组用户类是否满足指定条件。本公开按照用户信息中包括的行动轨迹进行聚类，得到用户类，以识别用户类是否满足指定条件，能够快速、准确地识别区域内聚集的用户群体是否满足指定条件。

Description

用户的识别方法、装置、存储介质和电子设备

技术领域

本公开涉及电子信息处理技术领域，具体地，涉及一种用户的识别方法、装置、存储介质和电子设备。

背景技术

随着各种交通技术和信息技术的不断发展，人口密度和人口流动的速度的都在不断增长。经常出现在某一区域内的群体，往往可能满足相同或相似的指定条件，需要及时获得关注。然而，由于这些需要关注的指定条件通常需要一定时间才能明显地表现出来，往往会错过最佳的关注时机，并且人工在前期对这些指定条件进行识别，很难保证准确度，进一步导致关注时机的延后。

发明内容

本公开的目的是提供一种用户的识别方法、装置、存储介质和电子设备，用以解决现有技术中存在的识别用户群体是否符合指定条件的效率低的问题。

为了实现上述目的，根据本公开实施例的第一方面，提供一种用户的识别方法，所述方法包括：

根据获取到的多个用户信息中，每个所述用户信息包括的行动轨迹，对所述多个用户信息进行聚类，以获取至少一组用户类，每组所述用户类中包括至少一个所述用户信息；

针对每组所述用户类，确定该组用户类中包括的每个所述用户信息的特征图；

将该组用户类中包括的全部所述用户信息的特征图作为预先训练的用户识别模型的输入，以获取所述用户识别模型输出的识别结果，所述识别结果用于指示该组用户类是否满足指定条件。

可选地，所述根据获取到的多个用户信息中，每个所述用户信息包括的行动轨迹，对所述多个用户信息进行聚类，以获取至少一组用户类，包括：

按照所述多个用户信息中，每两个所述用户信息之间的距离，对所述多个用户信息进行第一聚类，以获取至少一组初始类；

针对每组所述初始类，按照该组初始类中包括的全部所述用户信息中，每两个所述用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部所述用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类；

将每组所述初始类中包括的每组所述目标子类作为一组所述用户类。

可选地，所述按照该组初始类中包括的全部所述用户信息中，每两个所述用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部所述用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类，包括：

根据第一用户信息包括的行动轨迹、第二用户信息包括的行动轨迹，确定所述第一用户信息与所述第二用户信息包括的行动轨迹的相似程度；若所述第一用户信息与所述第二用户信息包括的行动轨迹的相似程度大于预设的关联阈值，确定所述第一用户信息与所述第二用户信息存在关联关系；

将存在关联关系的所述用户信息作为一组所述目标子类；

其中，所述第一用户信息为该组初始类中包括的任一用户信息，所述第二用户信息为该组初始类中包括除所述第一用户信息外的任一用户信息。

可选地，所述根据第一用户信息包括的行动轨迹、第二用户信息包括的行动轨迹，确定所述第一用户信息与所述第二用户信息包括的行动轨迹的相似程度，包括：

确定所述第一用户信息包括的行动轨迹指示的第一数量个轨迹点，和所述第二用户信息包括的行动轨迹指示的第二数量个轨迹点，每个所述轨迹点包括位置和时间；

将所述第一数量个轨迹点与所述第二数量个轨迹点进行匹配，以获取第三数量组匹配轨迹点对，每组所述匹配轨迹点对包括的两个轨迹点之间的位置距离小于或等于第一阈值，且时间距离小于或等于第二阈值；

根据所述第一数量、所述第二数量和所述第三数量，确定所述第一用户信息与所述第二用户信息包括的行动轨迹的相似程度。

可选地，每个所述用户信息包括至少一个字段，所述至少一个字段包括运动轨迹；所述确定该组用户类中包括的每个所述用户信息的特征图，包括：

将第三用户信息包括的每个字段映射到第一坐标轴，将所述第三用户信息包括的每个字段的值映射到第二坐标轴，以得到所述第三用户信息的时域特征图，所述第三用户信息为该组用户类中的任一用户信息，所述第一坐标轴与所述第二坐标轴垂直；

对所述第三用户信息进行离散傅立叶变换，以得到所述第三用户信息对应的频域信息；

将所述第三用户信息对应的频域信息包括的每个字段映射到所述第一坐标轴，将所述第三用户信息对应的频域信息包括的每个字段的值映射到所述第二坐标轴，以得到所述第三用户信息的频域特征图；

根据所述第三用户信息的时域特征图和频域特征图，确定所述第三用户信息的特征图。

可选地，所述用户识别模型是通过以下步骤训练的：

获取样本输入集和样本输出集，所述样本输入集中的每个样本输入包括一组训练用户类包括的全部训练用户信息的特征图，所述训练用户类为根据多个所述训练用户信息中，每个所述训练用户信息包括的行动轨迹，对所述多个训练用户信息进行聚类得到的，所述样本输出集中包括与每个所述样本输入对应的样本输出，每个所述样本输出包括对应的所述训练用户类所标注的识别结果；

将所述样本输入集作为所述用户识别模型的输入，将所述样本输出集作为所述用户识别模型的输出，以训练所述用户识别模型。

可选地，在所述将该组用户类中包括的全部所述用户信息的特征图作为预先训练的用户识别模型的输入，以获取所述用户识别模型输出的识别结果之后，所述方法还包括：

若所述识别结果指示该组用户类满足所述指定条件，将该组用户类中包括的任一所述用户信息的特征图，作为预先训练的用户分类模型的输入，以获取所述用户分类模型输出的分类结果，所述分类结果用于指示满足所述指定条件的用户类中包括的任一所述用户信息对应的类别。

根据本公开实施例的第二方面，提供一种用户的识别装置，所述装置包括：

聚类模块，用于根据获取到的多个用户信息中，每个所述用户信息包括的行动轨迹，对所述多个用户信息进行聚类，以获取至少一组用户类，每组所述用户类中包括至少一个所述用户信息；

确定模块，用于针对每组所述用户类，确定该组用户类中包括的每个所述用户信息的特征图；

识别模块，用于将该组用户类中包括的全部所述用户信息的特征图作为预先训练的用户识别模型的输入，以获取所述用户识别模型输出的识别结果，所述识别结果用于指示该组用户类是否满足指定条件。

可选地，聚类模块包括：

第一聚类子模块，用于按照所述多个用户信息中，每两个所述用户信息之间的距离，对所述多个用户信息进行第一聚类，以获取至少一组初始类；

第二聚类子模块，用于针对每组所述初始类，按照该组初始类中包括的全部所述用户信息中，每两个所述用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部所述用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类；

所述第二聚类子模块，还用于将每组所述初始类中包括的每组所述目标子类作为一组所述用户类。

可选地，所述第二聚类子模块用于：

将存在关联关系的所述用户信息作为一组所述目标子类；

可选地，所述第二聚类子模块用于：

可选地，每个所述用户信息包括至少一个字段，所述至少一个字段包括运动轨迹；所述确定模块包括：

第一确定子模块，用于将第三用户信息包括的每个字段映射到第一坐标轴，将所述第三用户信息包括的每个字段的值映射到第二坐标轴，以得到所述第三用户信息的时域特征图，所述第三用户信息为该组用户类中的任一用户信息，所述第一坐标轴与所述第二坐标轴垂直；

第二确定子模块，用于对所述第三用户信息进行离散傅立叶变换，以得到所述第三用户信息对应的频域信息；

第三确定子模块，用于将所述第三用户信息对应的频域信息包括的每个字段映射到所述第一坐标轴，将所述第三用户信息对应的频域信息包括的每个字段的值映射到所述第二坐标轴，以得到所述第三用户信息的频域特征图；

所述第三确定子模块，还用于根据所述第三用户信息的时域特征图和频域特征图，确定所述第三用户信息的特征图。

可选地，所述用户识别模型是通过以下步骤训练的：

可选地，所述装置还包括：

分类模块，用于在所述将该组用户类中包括的全部所述用户信息的特征图作为预先训练的用户识别模型的输入，以获取所述用户识别模型输出的识别结果之后，若所述识别结果指示该组用户类满足所述指定条件，将该组用户类中包括的任一所述用户信息的特征图，作为预先训练的用户分类模型的输入，以获取所述用户分类模型输出的分类结果，所述分类结果用于指示满足所述指定条件的用户类中包括的任一所述用户信息对应的类别。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例的第一方面所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开实施例的第一方面所述方法的步骤。

通过上述技术方案，本公开首先根据多个用户信息中，每个用户信息包括的行动轨迹，进行聚类，以得到一个或多个用户类，每个用户类中至少包括一个用户信息，之后获取每个用户类中包括的每个用户信息的特征图，最后，将该组用户类中包括的全部用户信息的特征图，作为预先训练的用户识别模型的一组输入，以得到用户识别模型输出的，用于指示该组用户类是否满足指定条件的识别结果。本公开按照用户信息中包括的行动轨迹进行聚类，得到用户类，然后将用户类中每个用户信息的特征图作为用户识别模型的一组输入，以识别用户类是否满足指定条件，能够快速、准确地识别区域内聚集的用户群体是否满足指定条件，提高了识别效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种用户的识别方法的流程图；

图2是根据一示例性实施例示出的另一种用户的识别方法的流程图；

图3是根据一示例性实施例示出的一种轨迹点分布图；

图4是根据一示例性实施例示出的另一种用户的识别方法的流程图；

图5是根据一示例性实施例示出的一种用户信息的特征图；

图6是根据一示例性实施例示出的另一种用户的识别方法的流程图；

图7是根据一示例性实施例示出的一种用户的识别装置的框图；

图8是根据一示例性实施例示出的另一种用户的识别装置的框图；

图9是根据一示例性实施例示出的另一种用户的识别装置的框图；

图10是根据一示例性实施例示出的另一种用户的识别装置的框图；

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的用户的识别方法、装置、存储介质和电子设备之前，首先对本公开中各个实施例所涉及的应用场景进行介绍，该应用场景可以为识别大量的用户中是否存在一些用户群体满足指定条件。例如，可以是厂家在投放某款产品之前，对用户群体进行调查，确定是否存在可能会使用该产品的目标用户。也可以是公安机关在做治安隐患排查时，对管辖范围内的用户群体进行调查，确定是否存在符合嫌疑的目标用户。还可以是疾控部门在进行流行病学调查时，对一定区域内的用户群体进行调查，确定是否存在流行病在用户群体内传播。还可以是其他需要对用户群体进行调查的场景，本公开对此不作具体限定。

图1是根据一示例性实施例示出的一种用户的识别方法的流程图，如图1所示，该方法包括以下步骤：

步骤101，根据获取到的多个用户信息中，每个用户信息包括的行动轨迹，对多个用户信息进行聚类，以获取至少一组用户类，每组用户类中包括至少一个用户信息。

举例来说，在对多个用户信息进行聚类之前，需要先获取多个用户信息。若应用场景为厂家确定是否存在产品的目标用户，那么用户信息可以通过第三方信息系统来获取。若应用场景为公安机关确定是否存在符合嫌疑的目标用户，那么用户信息可以通过公安机关内部的信息系统来获取。若应用场景为疾控部门确定是否存在流行病在用户群体内传播，那么用户信息可以通过医院信息系统(英文：Hospital Information System，缩写：HIS)来获取。本公开对用户信息的获取方式不作具体限定。用户信息可以理解为能够描述用户各种特征的数据，其中包括了用户的多种特征。用户信息可以包括能够描述用户在何时去过何地的行动轨迹，可以理解为用户在时间和空间两个维度上的轨迹。用户信息中还可以包括：能够唯一标识对应用户的用户标识。以用户信息为从公安机关内部的信息系统获取的信息来举例，用户信息可以包括：用户标识、年龄、性别、身高、体重、行动轨迹、行为特征等。以用户信息为从医院信息系统获取的病历信息来举例，用户信息可以包括：用户标识、年龄、性别、体温、行动轨迹、检验结果、症状、影像结果等，例如，多个用户信息可以如表1所示：

表1

在获取到多个用户信息之后，可以根据每个用户信息包括的行动轨迹，对多个用户信息进行聚类，以得到一组或多组用户类，其中，每组用户类中都至少包括一个用户信息。由于经常出现在某一区域内的群体，往往可能满足相同或相似的指定条件，那么可以针对多个用户信息包括的行动轨迹，进行聚类，从而得到用户类，用户类中包括的用户信息对应的用户的行动轨迹是重叠或者相似的。一种实现方式，可以将用户信息包括的行动轨迹作为预设的聚类算法的输入，以得到聚类算法输出的一组或多组簇，并将一组簇作为一组用户类。另一种实现方式，可以对多个用户信息进行两次聚类，第一次聚类先按照多个用户信息之间本身的相似程度进行区分，以得到至少一组大类，然后再对每组大类按照用户信息包括的行动轨迹进行第二次聚类，以将每组大类分成至少一组小类，并将每组小类作为一组用户类。

步骤102，针对每组用户类，确定该组用户类中包括的每个用户信息的特征图。

示例的，针对步骤101中得到的每组用户类，分别确定该组用户类中包括的每个用户信息的特征图。可以先对该组用户类中包括的每个用户信息进行预处理。例如，用户信息可以包括多个字段，每个字段对应用户的一种特征，可以根据用户信息包括的每个字段的数据类型，对每个字段进行预处理，得到用户信息对应的信息向量，信息向量包括多个元素，一个元素对应一个字段。举个例子，若某个字段(例如：年龄、体温、日期等)的数据类型为数字型，那么该字段可以不用预处理，直接放入用户信息对应的信息向量中。若某个字段(例如：行动轨迹、行为特征、检验结果、症状等)的数据类型为文本型，那么可以将该字段进行预处理，以转换为数字型，其中，预处理可以使用word2vec模型将该字段中的各个词转换为词向量，再将各个词向量进行拼接，得到句子向量。若某个字段(例如：性别等)的数据类型为枚举型，那么可以将该字段进行预处理，以转换为数字型，其中预处理可以是预设的编码规则。

在获取到任一个用户信息对应的信息向量后，可以将对应的信息向量投影到指定的坐标系中，以得到该用户信息的特征图。例如，可以将对应的信息向量包括的多个元素投影到横轴上，再将对应的信息向量包括的多个元素的值投影到纵轴上，然后将各个元素的值的连线，与横轴之间组成的面积图作为该用户信息的特征图。

步骤103，将该组用户类中包括的全部用户信息的特征图作为预先训练的用户识别模型的输入，以获取用户识别模型输出的识别结果，识别结果用于指示该组用户类是否满足指定条件。

示例的，在分别确定了该组用户类中包括的每个用户信息的特征图之后，可以将该用户类中包括的所有用户信息的特征图，作为预先训练的用户识别模型的一组输入，以获取用户识别模型输出的识别结果，即用户识别模型的输入，是以一个用户类为一组的，用户类中包括的用户信息是一个整体，同样的，用户识别模型的输出，针对的是一个用户类，而不是用户类中的某一个用户信息。其中，识别结果可以分为两种：该用户类满足指定条件，和该用户类不满足指定条件。也可以将识别结果理解为识别标签，识别标签为“是”(或者“1”)，表示该用户类满足指定条件，识别标签为“否”(或者“0”)，表示该用户类不满足指定条件。具体的，用户识别模型可以直接对该组用户类进行识别，直接得到识别结果，即综合该组用户类包括的用户信息，确定该组用户类是否满足指定条件。用户识别模型也可以分别对该组用户类中的每个用户信息进行识别，确定每个用户信息是否满足指定条件，并根据满足指定条件的用户信息的数量，得到识别结果，若该组用户类中满足指定条件的用户信息的数量，达到该组用户类包括的用户信息总数量的预设比例(例如：50％)，确定该组用户类满足指定条件，若该组用户类中满足指定条件的用户信息的数量，未达到该组用户类包括的用户信息总数量的预设比例，确定该组用户类不满足指定条件。

一种实现方式，用户识别模型可以是根据预先采集的样本输入集和样本输出集训练好的神经网络，该神经网络能够识别一组输入是否满足指定条件。其中，神经网络例如可以是RNN(英文：Recurrent Neural Network，中文：循环神经网络)、CNN(英文：Convolutional Neural Networks，中文：卷积神经网络)、LSTM(英文：Long Short-TermMemory，中文：长短期记忆网络)等神经网络，也可以是其他类型的神经网络，本公开对此不作具体限定。另一种实现方式中，用户识别模型可以是根据预先采集的大量用户信息建立的特征库，该特征库中包括了大量的目标特征图，每个目标特征图对应一种识别结果，可以将该组用户类中包括的用户信息的特征图依次与每个目标特征图进行对比，以识别该组用户类是否满足指定条件。

其中，指定条件可以理解为一种用户群体共同满足的条件。以应用场景为厂家确定是否存在产品的目标用户来举例，那么指定条件可以为在指定地点(例如：便利店)内有消费行为。或者例如，应用场景为公安机关确定是否存在符合嫌疑的目标用户，那么指定条件可以为在某类场所(例如：网吧等)内有长时间逗留行为。再比如，应用场景为疾控部门确定是否存在流行病在用户群体内传播，那么指定条件可以为是否存在传染病的传播。相应的，在确定该组用户类是否满足指定条件后，还可以根据识别结果输出各种形式(例如：文字、图像、声音等)的第一提示信息。例如，若确定某组用户类存在传染病的传播，那么可以向疾控部门上报疫情预警，若确定某组用户类在指定地点内有消费行为，可以向厂家上报目标用户锁定提示，若确定某组用户类在某类场所内有长时间逗留行为，可以向公安机关上报嫌疑预警。

这样，本公开按照用户信息中包括的行动轨迹进行聚类，得到行动轨迹是重叠或者相似的用户类，然后将用户类中每个用户信息的特征图作为用户识别模型的一组输入，从而识别用户类作为一个整体是否满足指定条件，能够快速、准确地识别区域内聚集的用户群体是否满足指定条件，提高了识别效率。

综上所述，本公开首先根据多个用户信息中，每个用户信息包括的行动轨迹，进行聚类，以得到一个或多个用户类，每个用户类中至少包括一个用户信息，之后获取每个用户类中包括的每个用户信息的特征图，最后，将该组用户类中包括的全部用户信息的特征图，作为预先训练的用户识别模型的一组输入，以得到用户识别模型输出的，用于指示该组用户类是否满足指定条件的识别结果。本公开按照用户信息中包括的行动轨迹进行聚类，得到用户类，然后将用户类中每个用户信息的特征图作为用户识别模型的一组输入，以识别用户类是否满足指定条件，能够快速、准确地识别区域内聚集的用户群体是否满足指定条件，提高了识别效率。

图2是根据一示例性实施例示出的另一种用户的识别方法的流程图，如图2所示，步骤101的实现方式可以包括：

步骤1011，按照多个用户信息中，每两个用户信息之间的距离，对多个用户信息进行第一聚类，以获取至少一组初始类。

举例来说，在对多个用户信息进行聚类时，可以分为两次聚类：第一聚类和第二聚类。第一聚类，是按照每两个用户信息之间的距离进行聚类，得到一组或多组初始类，其中，每组初始类中包括至少一个用户信息。可以理解为，第一聚类是将多个用户信息先进行一次粗粒度的划分，得到的初始类中包括的用户信息之间彼此具有相似性。例如，可以将多个用户信息对应的信息向量、预设的扫描半径和预设的数量阈值作为基于密度的聚类算法的输入参数，以得到聚类算法输出的至少一组初始类。聚类算法例如可以是DBSCAN(英文：Density-Based Spatial Clustering of Applications with Noise，中文：具有噪声的基于密度的聚类方法)算法。还可以通过以下步骤获取初始类：(11)首先在多个用户信息对应的信息向量中，随机选择一个用户信息对应的信息向量作为中心点C₀，指定距离阈值R。(12)计算多个用户信息对应的信息向量与C₀的距离，将距离小于R的信息向量属于α类的概率加1，即P_i∈α＝P_i∈α+1。(13)计算距离小于R的信息向量与C₀的距离均值，包括：L＝[l₁,l₂,l₃,…,l_N]，其中，l_j表示信息向量包括的N个元素中第j个元素距离均值。(14)将C₀沿着L的方向移动，得到新的中心点C₁，即C₁＝C₀+L。(15)重复(12)、(13)、(14)，迭代预设次数(例如：1000次)，选择距离中心点的距离小于R的信息向量的个数最大的中心点，作为α类的中心点。(16)迭代完成后，如果α类的中心点与其他已存在的类的中心点的距离大于分类阈值，则α类为新的一类，如果α类的中心点与其他已存在的β类的中心点的距离小于或等于分类阈值，那么将α类和β类进行合并，得到γ类。重复上述步骤，直至所有的信息向量都被分类，得到的一个或多个类，即为初始类。

步骤1012，针对每组初始类，按照该组初始类中包括的全部用户信息中，每两个用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类。

步骤1013，将每组初始类中包括的每组目标子类作为一组用户类。

示例的，第二聚类是对每组初始类进行细粒度的划分，得到的目标子类中包括的用户信息之间对应的用户的行动轨迹是重叠或者相似的。可以从时间、空间两个维度，确定该组初始类中每两个用户信息包括的行动轨迹的相似程度，然后根据相似程度进行第二聚类，得到至少一组目标子类，其中，每组目标子类中包括至少一个用户信息。最后，将每组初始类中包括的每组目标子类作为一组用户类，例如，步骤1011中得到3组初始类，执行步骤1012后，第一组初始类被分为5组目标子类，第二组初始类被分为2组目标子类，第三组初始类被分为3组目标子类，那么步骤1013中得到的用户类的组数为5+2+3＝10组。

在一种应用场景中，步骤1012可以通过以下步骤来实现：

步骤A)根据第一用户信息包括的行动轨迹、第二用户信息包括的行动轨迹，确定第一用户信息与第二用户信息包括的行动轨迹的相似程度。若第一用户信息与第二用户信息包括的行动轨迹的相似程度大于预设的关联阈值，确定第一用户信息与第二用户信息存在关联关系。

步骤B)将存在关联关系的用户信息作为一组目标子类。

其中，第一用户信息为该组初始类中包括的任一用户信息，第二用户信息为该组初始类中包括除第一用户信息外的任一用户信息。

示例的，可以根据该组初始类中每两个用户信息包括的行动轨迹的相似程度，确定每两个用户信息之间是否存在关联关系，当任意两个用户信息包括的行动轨迹的相似程度大于预设的关联阈值，那么确定这两个用户信息之间存在关联关系。需要说明的是，关联阈值的大小，与这两个用户信息包括的行动轨迹中的轨迹点数量有关。以第一用户信息和第二用户信息来举例，第一用户信息包括的行动轨迹指示了第一数量个轨迹点，第二用户信息包括的行动轨迹指示了第二数量个轨迹点，那么若第一数量与第二数量的比值大于0.5(即第一数量与第二数量比较接近)，关联阈值可以设置为0.5，若第一数量与第二数量的比值小于或等于0.5(即第一数量与第二数量相差较大)，关联阈值可以设置为0.8。

之后，再将存在着关联关系的用户信息作为一组目标子类。其中，关联关系可以传递，例如，X1用户信息与X2用户信息存在关联关系，X2用户信息与X3用户信息存在关联关系，那么可以认为X1用户信息与X3用户信息存在关联关系。这样，可以将彼此存在关联关系的用户信息作为一组目标子类，目标子类中包括的用户信息对应的用户的行动轨迹是重叠或者相似的。

下面针对第一用户信息与第二用户信息包括的行动轨迹的相似程度是如果获得的，进行具体的说明：

首先，确定第一用户信息包括的行动轨迹指示的第一数量个轨迹点，和第二用户信息包括的行动轨迹指示的第二数量个轨迹点，每个轨迹点包括位置和时间。

其次，将第一数量个轨迹点与第二数量个轨迹点进行匹配，以获取第三数量组匹配轨迹点对，每组匹配轨迹点对包括的两个轨迹点之间的位置距离小于或等于第一阈值，且时间距离小于或等于第二阈值。

举例来说，可以先提取第一用户信息包括的行动轨迹指示的第一数量(表示为C_A)个轨迹点，和第二用户信息包括的行动轨迹指示的第二数量(表示为C_B)个轨迹点，其中，每个轨迹点可以包括位置和时间，位置可以是经纬度，例如，轨迹点可以表示为[09：00，(东经30，北纬40)]。之后，依次将C_A个轨迹点与C_B个轨迹点进行匹配，将其中匹配的两个轨迹点，作为一组匹配轨迹点对，从而得到第三数量(表示为C_same)组匹配轨迹点对。匹配的两个轨迹点，之间的位置距离小于或等于第一阈值(例如可以为20米)，且时间距离小于或等于第二阈值(例如可以为10min)，其中，位置距离可以理解为两个轨迹点的位置的差值，时间距离可以理解为两个轨迹点的时间的差值。

最后，根据第一数量、第二数量和第三数量，确定第一用户信息与第二用户信息包括的行动轨迹的相似程度。

示例的，最后可以根据第一数量、第二数量和第三数量，按照预设的相似程度计算公式，来确定第一用户信息与第二用户信息包括的行动轨迹的相似程度(表示为S)。其中，相似程度计算公式的选择，与第一数量、第二数量有关。若第一数量与第二数量的比值大于0.5(即第一数量与第二数量比较接近)，相似程度计算公式可以选择公式一，若第一数量与第二数量的比值小于或等于0.5(即第一数量与第二数量相差较大)，相似程度计算公式可以选择公式二。

其中，公式一可以为：

公式二可以为：

其中，C_min表示C_A和C_B中最小的数量。

以图3所示的三个用户信息包括的轨迹点来举例，图3中包括了第一用户信息对应的6个轨迹点，第二用户信息对应的5个轨迹点，第三用户信息对应的5个轨迹点。第一用户信息对应的6个轨迹点，与第二用户信息对应的5个轨迹点进行匹配，得到4组匹配轨迹点对(图中圈出的每两个轨迹点即为匹配轨迹点对)，那么第一用户信息与第二用户信息包括的行动轨迹的相似程度为

6和5之间的比值大于0.5，那么对应的关联阈值为0.5，0.73大于0.5，那么可以确定第一用户信息与第二用户信息之间存在关联关系。第二用户信息对应的5个轨迹点，与第三用户信息对应的5个轨迹点进行匹配，得到0组匹配轨迹点对，那么第二用户信息与第三用户信息包括的行动轨迹的相似程度为0，第二用户信息与第三用户信息之间不存在关联关系。第一用户信息对应的6个轨迹点，与第三用户信息对应的5个轨迹点进行匹配，得到0组匹配轨迹点对，那么第一用户信息与第三用户信息包括的行动轨迹的相似程度也为0，第一用户信息与第三用户信息之间不存在关联关系。

图4是根据一示例性实施例示出的另一种用户的识别方法的流程图，如图4所示，每个用户信息包括至少一个字段，至少一个字段包括运动轨迹。步骤102可以包括：

步骤1021，将第三用户信息包括的每个字段映射到第一坐标轴，将第三用户信息包括的每个字段的值映射到第二坐标轴，以得到第三用户信息的时域特征图，第三用户信息为该组用户类中的任一用户信息，第一坐标轴与第二坐标轴垂直。

在一种应用场景中，可以先对第三用户信息进行预处理，以得到第三用户信息对应的信息向量。第三用户信息可以包括多个字段，可以根据其中包括的每个字段的数据类型进行预处理，得到第三用户信息对应的信息向量，信息向量中包括与每个字段对应的元素。可以理解为，信息向量为第三用户信息在时域的数值维度的表达。之后，可以将信息向量投影到预设的坐标系中，例如可以是直角坐标系，包括相互垂直的第一坐标轴和第二坐标轴，首先将第三用户信息包括的每个字段对应的元素，映射到第一坐标轴，然后将第三用户信息包括的每个字段对应的元素的值映射到第二坐标轴，最后将各个元素的值的连线，与横轴之间组成的面积图，作为第三用户信息的时域特征图。例如，第三用户信息包括多个字段：检查结果、行动轨迹、年龄、症状、性别、体温、影像结果，对应的元素的值为：200、623、58、119、1、39、378，那么第三用户信息的时域特征图可以如图5中的(a)所示。

步骤1022，对第三用户信息进行离散傅立叶变换，以得到第三用户信息对应的频域信息。

步骤1023，将第三用户信息对应的频域信息包括的每个字段映射到第一坐标轴，将第三用户信息对应的频域信息包括的每个字段的值映射到第二坐标轴，以得到第三用户信息的频域特征图。

之后，可以对第三用户信息对应的信息向量进行离散傅里叶变换，以得到第三用户信息对应的频域信息，可以理解为，频域信息为第三用户信息在频域的数值维度的表达。

例如，可以通过以下公式来获得第三用户信息对应的频域特征：

其中，N表示傅里叶变换的点数，k表示傅里叶变换的第k个频谱，y_k表示频域特征包括的第k个频谱处的值，x_n表示第三用户信息对应的信息向量的第n个元素。

进一步的，再对频域特征进行如下变换，得到第三用户信息对应的频域信息：

其中，z_k表示频域信息包括的第k个频谱处的值，可以理解为频域特征的均方值。

同样的，可以将频域信息包括的每个字段对应的元素，映射到第一坐标轴，将频域信息包括的每个字段对应的元素的值映射到第二坐标轴，然后将各个元素的值的连线，与横轴之间组成的面积图，作为第三用户信息的频域特征图。第三用户信息的频域特征图可以如图5中的(b)所示。

步骤1024，根据第三用户信息的时域特征图和频域特征图，确定第三用户信息的特征图。

最后，可以将第三用户信息的时域特征图和频域特征图组合起来，得到第三用户信息的特征图。例如，为了让时域特征图和频域特征图不产生重叠，可以将频域特征图按照第一坐标轴进行翻转，再将时域特征图和翻转后的频域特征图进行拼接，得到第三用户信息的特征图，可以如图5中的(c)所示。

进一步的，在得到第三用户信息的特征图之后，还可以对特征图进行一定的处理，例如：可以将特征图裁剪成指定大小(例如可以是12*12)，还可以随机调整特征图的亮度，或者随机调整特征图的对比度。本公开对此不作具体限定。

需要说明的是，本公开实施例中所提及的用户识别模型，可以是通过以下步骤训练的：

步骤C)获取样本输入集和样本输出集，样本输入集中的每个样本输入包括一组训练用户类包括的全部训练用户信息的特征图，训练用户类为根据多个训练用户信息中，每个训练用户信息包括的行动轨迹，对多个训练用户信息进行聚类得到的，样本输出集中包括与每个样本输入对应的样本输出，每个样本输出包括对应的训练用户类所标注的识别结果。

步骤D)将样本输入集作为用户识别模型的输入，将样本输出集作为用户识别模型的输出，以训练用户识别模型。

举例来说，用户识别模型可以是预先训练的神经网络，该神经网络中可以包括卷积层、池化层、局部响应归一化层、全连接层、Dropout层和线性层。其中，卷积层用于对输入的特征图进行卷积计算(例如可以使用大小为3*3，步长为1的卷积核)。池化层用于进行最大池化处理，从而压缩特征图(例如可以使用大小为2*2，步长为2的过滤器)。局部响应归一化层用于对局部输入区域进行归一化处理。全连接层用于添加正则化约束，以防止发生过拟合。Dropout层用于随机使部分神经元失效，以防止发生过拟合。线性层用于进行线性变换以输出结果，可以理解为输出层。神经网络中的结构例如可以依次为：卷积层1、池化层1、局部响应归一化层1、卷积层2、池化层2、局部响应归一化层2、全连接层3、Dropout层3、全连接层4、Dropout层4和线性层。上述神经网络的结构用于举例说明，本公开对神经网络的结构不做具体限定。

要得到能够根据不同的用户类，确定对应的识别结果的用户识别模型，可以预先获取样本输入集(可以理解为建立神经网络的样本数据集)和相关联的样本输出集。将样本输入集作为用户识别模型的输入，将样本输出集作为用户识别模型的输出，以训练用户识别模型，以使用户识别模型的输入为样本输入集时，用户识别模型的输出能够与样本输出集匹配。

其中，样本输入集中的每个样本输入，可以是包括一组训练用户类包括的全部训练用户信息的特征图，其中，训练用户类可以理解为根据多个训练用户信息中，每个训练用户信息包括的行动轨迹，对多个训练用户信息进行聚类得到的。相关联的样本输出集中的每个样本输出可以为对应的一组训练用户类所标注的识别结果，即每个样本输出用于指示该组训练用户类是否满足指定条件。

图6是根据一示例性实施例示出的另一种用户的识别方法的流程图，如图6所示，在步骤103之后，该方法还可以包括：

步骤104，若识别结果指示该组用户类满足指定条件，将该组用户类中包括的任一用户信息的特征图，作为预先训练的用户分类模型的输入，以获取用户分类模型输出的分类结果，分类结果用于指示满足指定条件的用户类中包括的任一用户信息对应的类别。

在另一种实现场景中，在确定一组用户类满足指定条件的情况下，即将该组用户类包括的全部用户信息的特征图输入用户识别模型，用户识别模型输出的识别结果指示该组用户类满足指定条件，那么可以进一步判断该组用户类中的任一用户信息的具体类别。例如，可以将该组用户类中包括的任一用户信息的特征图，输入预先训练的用户分类模型，用户分类模型的输出的分类结果，能够指示该用户信息对应的类别。可以将分类结果理解为分类标签，例如，分类标签可以包括标签一、标签二、标签三等，分别用于指示该用户信息对应类别一，类别二，类别三。

在一种实现方式中，用户分类模型可以是根据预先采集的样本输入集和样本输出集训练好的神经网络，该神经网络能够对一个用户信息进行分类。其中，神经网络例如可以是RNN、CNN、LSTM等神经网络，也可以是其他类型的神经网络，本公开对此不作具体限定。在另一种实现方式中，用户分类模型可以是根据预先采集的大量用户信息建立的类别库，该类别库中包括了大量的目标特征图，每个目标特征图对应一种分类结果，可以将该用户信息的特征图依次与每个目标特征图进行对比，以确定该用户信息对应的类别。

其中，用户信息的类别可以理解为，该用户信息所属的用户类满足指定条件，再对该用户信息进行具体的分类。以应用场景为厂家确定是否存在产品的目标用户，指定条件为在便利店内有消费行为，那么用户信息的类别可以为：偏好含糖饮料的用户、偏好无糖饮料的用户、偏好含咖啡因饮料的用户、偏好不含咖啡因饮料的用户等。或者例如，应用场景为公安机关确定是否存在符合嫌疑的目标用户，指定条件可以为在网吧内有长时间逗留行为，那么用户信息的类别可以为：第一类行为嫌疑人、第二类行为嫌疑人、第三类行为嫌疑人等。再比如，应用场景为疾控部门确定是否存在流行病在用户群体内传播，指定条件可以为是否存在传染病的传播，那么用户信息的类别可以为：第一类传染病、第二类传染病、第三类传染病等。相应的，在确定该用户信息的类别之后，还可以根据分类结果输出各种形式(例如：文字、图像、声音等)的第二提示信息。

图7是根据一示例性实施例示出的一种用户的识别装置的框图，如图7所示，该装置200包括：

聚类模块201，用于根据获取到的多个用户信息中，每个用户信息包括的行动轨迹，对多个用户信息进行聚类，以获取至少一组用户类，每组用户类中包括至少一个用户信息。

确定模块202，用于针对每组用户类，确定该组用户类中包括的每个用户信息的特征图。

识别模块203，用于将该组用户类中包括的全部用户信息的特征图作为预先训练的用户识别模型的输入，以获取用户识别模型输出的识别结果，识别结果用于指示该组用户类是否满足指定条件。

图8是根据一示例性实施例示出的另一种用户的识别装置的框图，如图8所示，聚类模块201可以包括：

第一聚类子模块2011，用于按照多个用户信息中，每两个用户信息之间的距离，对多个用户信息进行第一聚类，以获取至少一组初始类。

第二聚类子模块2012，用于针对每组初始类，按照该组初始类中包括的全部用户信息中，每两个用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类。

第二聚类子模块2012，还用于将每组初始类中包括的每组目标子类作为一组用户类。

在一种实现方式中，第二聚类子模块2012可以用于执行以下步骤：

步骤1)根据第一用户信息包括的行动轨迹、第二用户信息包括的行动轨迹，确定第一用户信息与第二用户信息包括的行动轨迹的相似程度。若第一用户信息与第二用户信息包括的行动轨迹的相似程度大于预设的关联阈值，确定第一用户信息与第二用户信息存在关联关系。

步骤2)将存在关联关系的用户信息作为一组目标子类。

下面针对第一用户信息与第二用户信息包括的行动轨迹的相似程度是如果获得的，进行具体的说明：第二聚类子模块2012可以用于：

图9是根据一示例性实施例示出的另一种用户的识别装置的框图，如图9所示，每个用户信息包括至少一个字段，至少一个字段包括运动轨迹。确定模块202包括：

第一确定子模块2021，用于将第三用户信息包括的每个字段映射到第一坐标轴，将第三用户信息包括的每个字段的值映射到第二坐标轴，以得到第三用户信息的时域特征图，第三用户信息为该组用户类中的任一用户信息，第一坐标轴与第二坐标轴垂直。

第二确定子模块2022，用于对第三用户信息进行离散傅立叶变换，以得到第三用户信息对应的频域信息。

第三确定子模块2023，用于将第三用户信息对应的频域信息包括的每个字段映射到第一坐标轴，将第三用户信息对应的频域信息包括的每个字段的值映射到第二坐标轴，以得到第三用户信息的频域特征图。

第三确定子模块2023，还用于根据第三用户信息的时域特征图和频域特征图，确定第三用户信息的特征图。

步骤3)获取样本输入集和样本输出集，样本输入集中的每个样本输入包括一组训练用户类包括的全部训练用户信息的特征图，训练用户类为根据多个训练用户信息中，每个训练用户信息包括的行动轨迹，对多个训练用户信息进行聚类得到的，样本输出集中包括与每个样本输入对应的样本输出，每个样本输出包括对应的训练用户类所标注的识别结果。

步骤4)将样本输入集作为用户识别模型的输入，将样本输出集作为用户识别模型的输出，以训练用户识别模型。

图10是根据一示例性实施例示出的另一种用户的识别装置的框图，如图10所示，该装置200还可以包括：

分类模块204，用于在将该组用户类中包括的全部用户信息的特征图作为预先训练的用户识别模型的输入，以获取用户识别模型输出的识别结果之后，若识别结果指示该组用户类满足指定条件，将该组用户类中包括的任一用户信息的特征图，作为预先训练的用户分类模型的输入，以获取用户分类模型输出的分类结果，分类结果用于指示满足指定条件的用户类中包括的任一用户信息对应的类别。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种电子设备300的框图。如图11所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的用户的识别方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的用户的识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户的识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的用户的识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的用户的识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种用户的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据获取到的多个用户信息中，每个所述用户信息包括的行动轨迹，对所述多个用户信息进行聚类，以获取至少一组用户类，包括：

3.根据权利要求2所述的方法，其特征在于，所述按照该组初始类中包括的全部所述用户信息中，每两个所述用户信息包括的行动轨迹的相似程度，对该组初始类中包括的全部所述用户信息进行第二聚类，以获取该组初始类中包括的至少一组目标子类，包括：

将存在关联关系的所述用户信息作为一组所述目标子类；

其中，所述第一用户信息为该组初始类中包括的任一用户信息，所述第二用户信息为该组初始类中包括的除所述第一用户信息外的任一用户信息。

4.根据权利要求3所述的方法，其特征在于，所述根据第一用户信息包括的行动轨迹、第二用户信息包括的行动轨迹，确定所述第一用户信息与所述第二用户信息包括的行动轨迹的相似程度，包括：

5.根据权利要求1所述的方法，其特征在于，每个所述用户信息包括至少一个字段，所述至少一个字段包括运动轨迹；所述确定该组用户类中包括的每个所述用户信息的特征图，包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述用户识别模型是通过以下步骤训练的：

7.根据权利要求1-5中任一项所述的方法，其特征在于，在所述将该组用户类中包括的全部所述用户信息的特征图作为预先训练的用户识别模型的输入，以获取所述用户识别模型输出的识别结果之后，所述方法还包括：

8.一种用户的识别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。