CN110555451A

CN110555451A - 信息识别方法和装置

Info

Publication number: CN110555451A
Application number: CN201810550227.1A
Authority: CN
Inventors: 崔同; 赫南; 胡景贺
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-12-10

Abstract

本申请实施例公开了信息识别方法和装置。该方法的一具体实施方式包括：获取与待处理用户账号相关联的信息，该信息包括至少一个设备标识和与每个设备标识对应的用户行为信息；对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到识别结果，该识别结果包括该设备标识所指示的设备所归属的用户的指定用户属性的属性值为预设属性值的概率；基于所得的识别结果中的概率，确定至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值是否为预设属性值。该实施方式实现了针对关联有同一用户账号的不同设备标识分别指示的设备所归属的用户的指定用户属性信息的识别。

Description

信息识别方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及信息识别方法和装置。

背景技术

在互联网中，用户通过注册可以获得对应的用户账号。对于某些用户账号，该用户账号所关联的用户信息中可能缺失某些用户属性信息，例如性别、年龄、职业等。

现有的用于识别用户的属性信息的方法，通常是基于用户账号所归属的用户的语音信息或视频信息来识别该用户的性别和/或年龄等。但同一用户账号可能登录在不同的用户设备上，而该不同的用户设备可能归属于不同的用户，因此同一用户账号在不同的用户设备上可能对应不同的购物习惯和购物偏好等。也因此，采用现有的用于识别用户的属性信息的方法所识别出的用户的属性信息通常准确率较低。

发明内容

本申请实施例提出了信息识别方法和装置。

第一方面，本申请实施例提供了一种信息识别方法，该方法包括：获取与待处理用户账号相关联的信息，其中，上述信息包括至少一个设备标识和上述至少一个设备标识分别对应的用户行为信息；对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，上述识别结果包括该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为预设属性值的概率；基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在一些实施例中，上述方法还包括：生成与上述至少一个设备标识中的设备标识对应的标签信息，其中，上述标签信息用于指示所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在一些实施例中，上述基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值，包括：对于上述至少一个设备标识中的每个设备标识，确定该设备标识所对应的识别结果中的概率是否小于概率阈值，若否，则确定该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为上述预设属性值。

在一些实施例中，上述基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值，还包括：将所得的各个识别结果中的概率按数值由大到小的顺序进行排序；从经排序后的概率中的最大值一侧开始，选取出前预置数目个不小于概率阈值的概率，将选取出的概率所在的识别结果所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值确定为上述预设属性值。

在一些实施例中，用户行为信息包括以下至少一项：浏览信息、下单信息，上述浏览信息和上述下单信息分别包括信息序列组，信息序列中的信息为以下中的一项：物品标识、品类标识、品牌标识、店铺标识。

在一些实施例中，上述对每个设备标识所对应的用户行为信息进行特征提取，包括：对于每个设备标识所对应的用户行为信息中的每个信息序列，将该信息序列中的各条信息分别映射为具有指定维度的向量，确定经映射所得的各个向量的平均值，将上述平均值作为提取出的特征信息。

在一些实施例中，上述对每个设备标识所对应的用户行为信息进行特征提取，还包括：对于每个设备标识所对应的用户行为信息中的每个信息序列，确定该信息序列中的信息的数目，将上述数目作为提取出的特征信息。

在一些实施例中，上述识别模型是通过以下训练步骤训练得到的：获取样本集合，其中，样本包括对应有设备标识的用户行为信息和用于指示该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值的数据标记；利用机器学习方法，基于上述样本集合中的样本所包括的用户行为信息和数据标记训练得到识别模型。

在一些实施例中，上述获取样本集合，包括：获取预置的用户账号集合，其中，至少一个用户账号对应有属性值不为空的上述指定用户属性，每个用户账号还对应有至少一个设备标识，设备标识对应有用户行为信息；从上述用户账号集合中选取出满足预设条件的用户账号作为目标用户账号，其中，上述预设条件包括：对应有一个设备标识和属性值不为空的上述指定用户属性；基于与上述目标用户账号对应的设备标识所对应的用户行为信息和上述目标用户账号所对应的上述指定用户属性的属性值，生成上述样本集合。

在一些实施例中，每个用户账号还对应有会员等级和注册时间；以及上述预设条件还包括以下至少一项：所对应的设备标识所指示的设备所归属的用户在第一预设时间段内至少有一次下单行为、所对应的会员等级不低于预设等级、所对应的注册时间在第二预设时间段内。

第二方面，本申请实施例提供了一种信息识别装置，该装置包括：获取单元，配置用于获取与待处理用户账号相关联的信息，其中，上述信息包括至少一个设备标识和上述至少一个设备标识分别对应的用户行为信息；识别单元，配置用于对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，上述识别结果包括该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为预设属性值的概率；确定单元，配置用于基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在一些实施例中，上述装置还包括：生成单元，配置用于生成与上述至少一个设备标识中的设备标识对应的标签信息，其中，上述标签信息用于指示所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在一些实施例中，上述确定单元包括：第一确定子单元，配置用于对于上述至少一个设备标识中的每个设备标识，确定该设备标识所对应的识别结果中的概率是否小于概率阈值，若否，则确定该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为上述预设属性值。

在一些实施例中，上述确定单元还包括：排序子单元，配置用于将所得的各个识别结果中的概率按数值由大到小的顺序进行排序；第二确定子单元，配置用于从经排序后的概率中的最大值一侧开始，选取出前预置数目个不小于概率阈值的概率，将选取出的概率所在的识别结果所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值确定为上述预设属性值。

在一些实施例中，上述识别单元进一步配置用于：对于每个设备标识所对应的用户行为信息中的每个信息序列，将该信息序列中的各条信息分别映射为具有指定维度的向量，确定经映射所得的各个向量的平均值，将上述平均值作为提取出的特征信息。

在一些实施例中，上述识别单元还进一步配置用于：对于每个设备标识所对应的用户行为信息中的每个信息序列，确定该信息序列中的信息的数目，将上述数目作为提取出的特征信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，上述程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的信息识别方法和装置，通过获取与待处理用户账号相关联的、包括至少一个设备标识和该至少一个设备标识分别对应的用户行为信息的信息，以对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果。而后基于所得的识别结果中的概率，可以确定该至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值是否为预设属性值。从而有效利用了对与待处理用户账号对应的至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值为预设属性值的概率的确定，实现了针对关联有同一用户账号的不同设备标识分别指示的设备所归属的用户的指定用户属性信息的识别。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的信息识别方法的一个实施例的流程图；

图3是根据本申请的信息识别方法的一个应用场景的示意图；

图4是根据本申请的样本集合生成方法的一个实施例的流程图；

图5是根据本申请的信息识别装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的信息识别方法或信息识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括信息识别服务器101，网络102和信息存储用服务器103。网络102用以在信息识别服务器101和信息存储用服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

信息识别服务器101可以是提供各种服务的服务器，例如对用户的属性信息进行识别的服务器。信息识别服务器101可以获取与待处理用户账号相关联的信息(例如至少一个设备标识和该至少一个设备标识分别对应的用户行为信息)，并对该信息进行分析等处理。

信息存储用服务器103可以是提供各种服务的服务器，例如对与待处理用户账号相关联的信息进行存储的服务器。

需要说明的是，本申请实施例所提供的信息识别方法一般由信息识别服务器101执行，相应地，信息识别装置一般设置于信息识别服务器101中。

需要指出的是，当与待处理用户账号相关联的信息预先存储在信息识别服务器101本地时，系统架构100可以不包括信息存储用服务器103。

另外，信息识别服务器101可以是硬件，也可以是软件。当信息识别服务器101为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当信息识别服务器101为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的信息识别服务器、网络和信息存储用服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的信息识别服务器、网络和信息存储用服务器。

继续参考图2，示出了根据本申请的信息识别方法的一个实施例的流程200。该信息识别方法的流程200，包括以下步骤：

步骤201，获取与待处理用户账号相关联的信息。

在本实施例中，信息识别方法的执行主体(例如图1所示的信息识别服务器101)可以通过有线连接方式或者无线连接方式，从所连接的信息存储用服务器(例如图1所示的信息存储用服务器103)获取与待处理用户账号相关联的信息。当然，上述执行主体还可以本地获取与待处理用户账号相关联的信息。

其中，用户账号可以关联有用户信息，该用户信息可以包括该用户账号所归属的用户的属性信息，例如年龄、性别、职业、学历、出生日期等等。待处理用户账号可以是所关联的用户信息缺失指定用户属性的属性值的用户账号。与待处理用户账号相关联的信息可以包括至少一个设备标识和该至少一个设备标识分别对应的用户行为信息。

需要说明的是，上述指定用户属性可以是属性值能够通过用户的用户行为信息进行预测的用户属性，例如性别、年龄或购买力等。应该理解，上述指定用户属性是可以根据实际需要进行设置的，本实施例不对此方面内容做任何限定。

对于与待处理用户账号相关联的任意一个设备标识，该设备标识所指示的设备可以是曾登录过该待处理用户账号的设备。与该设备标识对应的用户行为信息可以是在指定时间段内(例如近三个月或半年等)利用该待处理用户账号在该设备上执行浏览、加购(即将物品信息加入购物车)和/或下单等操作所产生的信息。

在本实施例的一些可选的实现方式中，用户行为信息可以包括以下至少一项：浏览信息、下单信息。其中，浏览信息和下单信息可以分别包括信息序列组。信息序列中的信息例如可以为以下中的一项：物品标识、品类标识、品牌标识、店铺标识。另外，对于任意一个信息序列，该信息序列中的信息可以是按浏览时间或下单时间的先后顺序排列的。

步骤202，对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果。

在本实施例中，对于上述至少一个设备标识中的每个设备标识，上述执行主体可以对该设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与上述指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果。其中，识别结果可以包括该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为预设属性值的概率。识别模型可以用于表征特征信息与识别结果之间的对应关系。

作为示例，若上述指定用户属性为性别，则上述预设属性值例如可以为女性、男性或中性等。若上述指定用户属性为年龄，则上述预设属性值例如可以为指定的年龄段，例如18-25或26-35等等。应该理解，上述预设属性值是可以根据实际需要进行设置的，本实施例不对此方面内容做任何限定。

这里，上述执行主体例如可以采用PCA(Principal Components Analysis，主成分分析)、LDA(Latent Dirichlet Allocation，线性判别分析)等降维方法对用户行为信息进行降维，将经降维后所得的信息作为特征信息。其中，PCA方法是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。LDA是分类算法中的一种。LDA一般通过对历史数据进行投影，以保证投影后同一类别的数据尽量靠近，不同类别的数据尽量分开，并生成线性判别模型对新生成的数据进行分离和预测。

需要指出的是，上述识别模型可以是技术人员基于对大量特征信息和识别结果的统计而预先制定的、存储有多个特征信息与识别结果的对应关系的对应关系表。上述识别模型还可以是使用逻辑回归模型、朴素贝叶斯模型、随机森林模型、梯度渐进回归树模型等进行训练得到的。其中，在使用梯度渐进回归树模型时，可以使用LightGBM这一版本。LightGBM是一个梯度boosting框架，使用基于学习算法的决策树。它可以说是分布式的、高效的，有以下优势：更快的训练效率、低内存使用、更高的准确率、支持并行化学习、可处理大规模数据。

在本实施例的一些可选的实现方式中，当上述执行主体为多个服务器组成的分布式服务器集群时，若上述识别模型是通过LightGBM训练得到的模型，则上述识别模型可以是直接运行在该分布式服务器集群上的具有分布式版本的LightGBM。当上述执行主体为单个服务器时，若上述识别模型是通过LightGBM训练得到的模型，则上述执行主体可以采用多进程并行的方式，利用上述识别模型进行相应的预测操作。这样，可以有效地提高识别模型的预测速度。

在本实施例的一些可选的实现方式中，对于上述至少一个设备标识中的每个设备标识，对于该设备标识所对应的用户行为信息中的每个信息序列，上述执行主体可以将该信息序列中的各条信息分别映射为具有指定维度的向量，然后确定出经映射所得的各个向量的平均值，并将该平均值作为提取出的特征信息。另外，上述执行主体还可以确定该信息序列中的信息的数目，将该数目作为提取出的特征信息。

这里，上述执行主体可以利用词向量模型(例如Word2Vec)将信息序列中的各条信息分别映射为具有指定维度的向量。其中，Word2Vec可以基于神经网络训练N-gram模型(有时也称为N元模型)，同时能在训练过程中求出词语所对应的词向量，起到降维的效果并保留其语义信息。对比传统的降维方法，Word2Vec所需的计算资源更少，同时对于语义信息的表示也更加准确。

在本实施例的一些可选的实现方式中，上述识别模型可以是模型训练端(例如上述执行主体或与上述执行主体远程通信连接的服务器)通过执行以下训练步骤训练得到的：

首先，上述模型训练端可以获取样本集合。其中，样本可以包括对应有设备标识的用户行为信息和用于指示该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值的数据标记。这里，数据标记例如可以包括数字0或1。0可以用于表示用户的上述指定用户属性的属性值不是上述预设属性值。1可以用于表示用户的上述指定用户属性的属性值是上述预设属性值。

需要说明的是，样本集合可以是预先生成的，也可以是上述模型训练端通过如图4所示的样本集合生成方法的流程400所生成的，本实施例不对此方面内容做任何限定。

而后，上述模型训练端可以利用机器学习方法，基于样本集合中的样本所包括的用户行为信息和数据标记训练得到识别模型。这里，上述模型训练端可以将上述样本集合划分为训练样本集和测试样本集。利用训练样本集中的样本训练得到识别模型，并利用测试样本集中的样本预测识别模型的准确度。

其中，在训练过程中，对于训练样本集中的每个样本，上述模型训练端可以对该样本中的用户行为信息进行特征提取，将提取出的特征信息输入训练中的识别模型，得到识别结果。上述模型训练端可以利用预设的分类损失函数来确定该识别结果中的概率与该样本中的数据标记之间的差异，上述模型训练端可以根据该差异，采用预设的反向传播算法对该识别模型中的参数进行调整。

需要说明的是，上述分类损失函数可以是各种用于分类的损失函数(例如HingeLoss函数或Softmax Loss函数等)。在训练过程中，训练的目标为使分类损失函数的值最小。因而，训练后得到的识别模型的参数即为分类损失函数的值为最小值时所对应的参数。

另外，上述反向传播算法也可称为误差反向传播算法，或误差逆传播算法。反向传播算法的学习过程由正向传播过程和反向传播过程组成。在前馈网络中，输入信号经输入层输入，通过隐藏层计算，由输出层输出。将输出值与标记值比较，若有误差，将误差反向由输出层向输入层传播，在这个过程中，可以利用梯度下降算法(例如随机梯度下降算法)对神经元权值进行调整。

步骤203，基于所得的识别结果中的概率，确定至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值是否为预设属性值。

在本实施例中，上述执行主体可以基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

作为示例，对于上述至少一个设备标识中的每个设备标识，上述执行主体可以确定该设备标识所对应的识别结果中的概率是否小于概率阈值(例如0.45或0.5等)，若否，则上述执行主体可以确定该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为上述预设属性值。

在本实施例的一些可选的实现方式中，上述执行主体可以先将所得的各个识别结果中的概率按数值由大到小的顺序进行排序。然后，上述执行主体可以从经排序后的概率中的最大值一侧开始，选取出前预置数目(例如5、10或20等)个不小于上述概率阈值的概率，将选取出的概率所在的识别结果所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值确定为上述预设属性值。

需要说明的是，上述概率阈值和上述预置数目是可以根据实际需要进行调整的，本实施例不对此方面内容做任何限定。

需要指出的是，对于与同一用户账号相关联的各个设备标识，通过对该各个设备标识分别指示的设备所归属的用户进行指定属性信息的确定，可以提高所确定的指定用户属性信息的全面性和准确度。而且，可以有助于提高指定用户属性信息在不同应用场景中的有效性。

例如，若对与同一用户账号相关联的不同设备标识均作了相应的性别识别，那么，在女性用品信息推送场景中，可以将待推送的女性用品信息推送至所归属的用户为女性的用户设备，这样可以吸引女性用户对接收到的女性用品信息的关注，可以提高信息推送的有效性。若不对与同一用户账号相关联的各个设备标识分别做相应的性别识别，那么有可能将待推送的女性用品信息推送至所归属的用户为男性的用户设备，这样有可能会降低用户的满意度。

在本实施例的一些可选的实现方式中，上述执行主体可以生成与上述至少一个设备标识中的设备标识对应的标签信息。其中，标签信息可以用于指示所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。作为示例，设上述指定用户属性为性别，上述预设属性值为女性。对于任意一个设备标识，若确定该设备标识所指示的设备所归属的用户的性别为女性，那么针对该设备标识所生成的标签信息可以包括文本“女性”和该用户的性别为女性的概率；否则，该标签信息可以包括文本“非女性”和该用户的性别不是女性的概率。

继续参见图3，图3是根据本实施例的信息识别方法的应用场景的一个示意图。在图3的应用场景中，指定用户属性为性别，预设属性值为女性，概率阈值为0.5。

首先，信息识别服务器301可以从所连接的信息存储用服务器302获取与待处理用户账号相关联的信息。其中，该信息可以包括设备标识A1、A2，设备标识A1所对应的用户行为信息B1和设备标识A2所对应的用户行为信息B2，如标号303所示。

而后，信息识别服务器301可以对用户行为信息B1、B2分别进行特征提取，得到与用户行为信息B1对应的特征信息304和与用户行为信息B2对应的特征信息305。

之后，信息识别服务器301可以分别将特征信息304、305输入与性别相关联的识别模型，得到与特征信息304、305分别对应的识别结果。其中，与特征信息304对应的识别结果可以包括设备标识A1所指示的设备所归属的用户User1的性别为女性的概率0.6，如标号306所示；与特征信息305对应的识别结果可以包括设备标识A2所指示的设备所归属的用户User2的性别为女性的概率0.4，如标号307所示。

最后，信息识别服务器301可以将概率0.6、0.4分别与0.5进行比较，确定概率0.6不低于0.5，以及概率0.4低于0.5。因而，信息识别服务器301可以得出用户User1的性别是女性的确定结果，如标号308所示；以及得出用户User2的性别不是女性的确定结果，如标号309所示。

本申请的上述实施例提供的方法，有效利用了对与待处理用户账号对应的至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值为预设属性值的概率的确定，实现了针对关联有同一用户账号的不同设备标识分别指示的设备所归属的用户的指定用户属性信息的识别。

进一步参考图4，其示出了样本集合生成方法的一个实施例的流程400。该样本集合生成方法的流程400，包括以下步骤：

步骤401，获取预置的用户账号集合。

在本实施例中，样本集合生成方法的执行主体(例如图1所示的信息识别服务器101或与信息识别服务器101远程通信连接的服务器)可以从本地或所连接的信息存储用服务器(例如图1所示的信息存储用服务器103)获取预置的用户账号集合。其中，至少一个用户账号可以对应有属性值不为空的指定用户属性。每个用户账号还可以对应有会员等级、注册时间和至少一个设备标识。设备标识可以对应有用户行为信息。

步骤402，从用户账号集合中选取满足预设条件的用户账号作为目标用户账号。

在本实施例中，上述执行主体可以从上述用户账号集合中选取满足预设条件的用户账号作为目标用户账号。其中，预设条件可以包括对应有一个设备标识和属性值不为空的上述指定用户属性，以及以下至少一项：所对应的设备标识所指示的设备所归属的用户在第一预设时间段(例如近三个月或半年等)内至少有一次下单行为、所对应的会员等级不低于预设等级、所对应的注册时间在第二预设时间段(例如近两年或三年等)内。

其中，用户行为信息可以包括下单信息，下单信息可以包括下单时间。上述执行主体可以根据下单信息中的各个下单时间来确定用户在第一预设时间段内是否有下单行为。

需要说明的是，上述第一预设时间段、上述预设等级和上述第二预设时间段是可以根据实际需要进行调整的，本实施例不对此方面内容做任何限定。

步骤403，基于与目标用户账号对应的设备标识所对应的用户行为信息和目标用户账号所对应的指定用户属性的属性值，生成样本集合。

在本实施例中，上述执行主体可以基于与上述目标用户账号对应的设备标识所对应的用户行为信息和上述目标用户账号所对应的上述指定用户属性的属性值，生成样本集合。

这里，对于每个目标用户账号，上述执行主体可以先基于该目标用户账号所对应的上述指定用户属性的属性值生成数据标记，然后将与该目标用户账号对应的设备标识所对应的用户行为信息和该数据标记生成样本。其中，该数据标记可以用于指示该目标用户账号所对应的上述指定用户属性的属性值是否为预设属性值。最后，上述执行主体可以将针对各个目标用户账号分别生成的样本进行合并，生成样本集合。

本申请的上述实施例提供的样本集合生成方法，有效利用了上述预设条件来筛选出目标用户账号，可以保证筛选出的目标用户账号所归属的用户是比较活跃且忠诚度较高的用户，他们所注册的信息也相对更可信。因而，基于与筛选出的目标用户账号对应的设备标识所对应的用户行为信息和该目标用户账号所对应的指定用户属性的属性值所生成样本集合可以具有较高的有效性。将该样本集合应用于识别模型的训练，可以提高识别模型的预测准确度。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种信息识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的信息识别装置500包括：获取单元501、识别单元502和确定单元503。其中，获取单元501配置用于获取与待处理用户账号相关联的信息，其中，该信息可以包括至少一个设备标识和该至少一个设备标识分别对应的用户行为信息；识别单元502配置用于对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，识别结果可以包括该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为预设属性值的概率；确定单元503配置用于基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在本实施例中，信息识别装置500中：获取单元501、识别单元502和确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202和步骤203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，上述装置500还可以包括：生成单元(图中未示出)，配置用于生成与上述至少一个设备标识中的设备标识对应的标签信息，其中，上述标签信息可以用于指示所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

在本实施例的一些可选的实现方式中，上述确定单元503可以包括：第一确定子单元(图中未示出)，配置用于对于上述至少一个设备标识中的每个设备标识，确定该设备标识所对应的识别结果中的概率是否小于概率阈值，若否，则确定该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为上述预设属性值。

在本实施例的一些可选的实现方式中，上述确定单元503还可以包括：排序子单元(图中未示出)，配置用于将所得的各个识别结果中的概率按数值由大到小的顺序进行排序；第二确定子单元(图中未示出)，配置用于从经排序后的概率中的最大值一侧开始，选取出前预置数目个不小于概率阈值的概率，将选取出的概率所在的识别结果所对应的设备标识所指示的设备所归属的用户的上述指定用户属性的属性值确定为上述预设属性值。

在本实施例的一些可选的实现方式中，用户行为信息可以包括以下至少一项：浏览信息、下单信息，上述浏览信息和上述下单信息可以分别包括信息序列组，信息序列中的信息可以为以下中的一项：物品标识、品类标识、品牌标识、店铺标识。

在本实施例的一些可选的实现方式中，上述识别单元502可以进一步配置用于：对于每个设备标识所对应的用户行为信息中的每个信息序列，将该信息序列中的各条信息分别映射为具有指定维度的向量，确定经映射所得的各个向量的平均值，将上述平均值作为提取出的特征信息。

在本实施例的一些可选的实现方式中，上述识别单元还可以进一步配置用于：对于每个设备标识所对应的用户行为信息中的每个信息序列，确定该信息序列中的信息的数目，将上述数目作为提取出的特征信息。

在本实施例的一些可选的实现方式中，上述识别模型可以是通过以下训练步骤训练得到的：获取样本集合，其中，样本可以包括对应有设备标识的用户行为信息和用于指示该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值的数据标记；利用机器学习方法，基于上述样本集合中的样本所包括的用户行为信息和数据标记训练得到识别模型。

在本实施例的一些可选的实现方式中，上述获取样本集合，可以包括：获取预置的用户账号集合，其中，至少一个用户账号可以对应有属性值不为空的上述指定用户属性，每个用户账号还可以对应有至少一个设备标识，设备标识可以对应有用户行为信息；从上述用户账号集合中选取出满足预设条件的用户账号作为目标用户账号，其中，上述预设条件可以包括：对应有一个设备标识和属性值不为空的上述指定用户属性；基于与上述目标用户账号对应的设备标识所对应的用户行为信息和上述目标用户账号所对应的上述指定用户属性的属性值，生成上述样本集合。

在本实施例的一些可选的实现方式中，每个用户账号还可以对应有会员等级和注册时间；以及上述预设条件还可以包括以下至少一项：所对应的设备标识所指示的设备所归属的用户在第一预设时间段内至少有一次下单行为、所对应的会员等级不低于预设等级、所对应的注册时间在第二预设时间段内。

本申请的上述实施例提供的装置，有效利用了对与待处理用户账号对应的至少一个设备标识分别指示的设备所归属的用户的指定用户属性的属性值为预设属性值的概率的确定，实现了针对关联有同一用户账号的不同设备标识分别指示的设备所归属的用户的指定用户属性信息的识别。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、识别单元和确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取与待处理用户账号相关联的信息的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备包括：获取与待处理用户账号相关联的信息，其中，该信息可以包括至少一个设备标识和该至少一个设备标识分别对应的用户行为信息；对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，该识别结果可以包括该设备标识所指示的设备所归属的用户的上述指定用户属性的属性值为预设属性值的概率；基于所得的识别结果中的概率，确定上述至少一个设备标识分别指示的设备所归属的用户的上述指定用户属性的属性值是否为上述预设属性值。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种信息识别方法，包括：

获取与待处理用户账号相关联的信息，其中，所述信息包括至少一个设备标识和所述至少一个设备标识分别对应的用户行为信息；

对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，所述识别结果包括该设备标识所指示的设备所归属的用户的所述指定用户属性的属性值为预设属性值的概率；

基于所得的识别结果中的概率，确定所述至少一个设备标识分别指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值。

2.根据权利要求1所述的方法，其中，所述方法还包括：

生成与所述至少一个设备标识中的设备标识对应的标签信息，其中，所述标签信息用于指示所对应的设备标识所指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值。

3.根据权利要求1所述的方法，其中，所述基于所得的识别结果中的概率，确定所述至少一个设备标识分别指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值，包括：

对于所述至少一个设备标识中的每个设备标识，确定该设备标识所对应的识别结果中的概率是否小于概率阈值，若否，则确定该设备标识所指示的设备所归属的用户的所述指定用户属性的属性值为所述预设属性值。

4.根据权利要求1所述的方法，其中，所述基于所得的识别结果中的概率，确定所述至少一个设备标识分别指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值，还包括：

将所得的各个识别结果中的概率按数值由大到小的顺序进行排序；

从经排序后的概率中的最大值一侧开始，选取出前预置数目个不小于概率阈值的概率，将选取出的概率所在的识别结果所对应的设备标识所指示的设备所归属的用户的所述指定用户属性的属性值确定为所述预设属性值。

5.根据权利要求1所述的方法，其中，用户行为信息包括以下至少一项：浏览信息、下单信息，所述浏览信息和所述下单信息分别包括信息序列组，信息序列中的信息为以下中的一项：物品标识、品类标识、品牌标识、店铺标识。

6.根据权利要求5所述的方法，其中，所述对每个设备标识所对应的用户行为信息进行特征提取，包括：

对于每个设备标识所对应的用户行为信息中的每个信息序列，将该信息序列中的各条信息分别映射为具有指定维度的向量，确定经映射所得的各个向量的平均值，将所述平均值作为提取出的特征信息。

7.根据权利要求6所述的方法，其中，所述对每个设备标识所对应的用户行为信息进行特征提取，还包括：

对于每个设备标识所对应的用户行为信息中的每个信息序列，确定该信息序列中的信息的数目，将所述数目作为提取出的特征信息。

8.根据权利要求1所述的方法，其中，所述识别模型是通过以下训练步骤训练得到的：

获取样本集合，其中，样本包括对应有设备标识的用户行为信息和用于指示该设备标识所指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值的数据标记；

利用机器学习方法，基于所述样本集合中的样本所包括的用户行为信息和数据标记训练得到识别模型。

9.根据权利要求8所述的方法，其中，所述获取样本集合，包括：

获取预置的用户账号集合，其中，至少一个用户账号对应有属性值不为空的所述指定用户属性，每个用户账号还对应有至少一个设备标识，设备标识对应有用户行为信息；

从所述用户账号集合中选取出满足预设条件的用户账号作为目标用户账号，其中，所述预设条件包括：对应有一个设备标识和属性值不为空的所述指定用户属性；

基于与所述目标用户账号对应的设备标识所对应的用户行为信息和所述目标用户账号所对应的所述指定用户属性的属性值，生成所述样本集合。

10.根据权利要求9所述的方法，其中，每个用户账号还对应有会员等级和注册时间；以及

所述预设条件还包括以下至少一项：所对应的设备标识所指示的设备所归属的用户在第一预设时间段内至少有一次下单行为、所对应的会员等级不低于预设等级、所对应的注册时间在第二预设时间段内。

11.一种信息识别装置，包括：

获取单元，配置用于获取与待处理用户账号相关联的信息，其中，所述信息包括至少一个设备标识和所述至少一个设备标识分别对应的用户行为信息；

识别单元，配置用于对每个设备标识所对应的用户行为信息进行特征提取，将提取出的特征信息输入预先训练的与指定用户属性相关联的识别模型，得到与该设备标识对应的识别结果，其中，所述识别结果包括该设备标识所指示的设备所归属的用户的所述指定用户属性的属性值为预设属性值的概率；

确定单元，配置用于基于所得的识别结果中的概率，确定所述至少一个设备标识分别指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值。

12.根据权利要求11所述的装置，其中，所述装置还包括：

生成单元，配置用于生成与所述至少一个设备标识中的设备标识对应的标签信息，其中，所述标签信息用于指示所对应的设备标识所指示的设备所归属的用户的所述指定用户属性的属性值是否为所述预设属性值。

13.根据权利要求11所述的装置，其中，用户行为信息包括以下至少一项：浏览信息、下单信息，所述浏览信息和所述下单信息分别包括信息序列组，信息序列中的信息为以下中的一项：物品标识、品类标识、品牌标识、店铺标识。

14.根据权利要求13所述的装置，其中，所述识别单元进一步配置用于：

15.根据权利要求14所述的装置，其中，所述识别单元还进一步配置用于：

16.根据权利要求11所述的装置，其中，所述识别模型是通过以下训练步骤训练得到的：

17.根据权利要求16所述的装置，其中，所述获取样本集合，包括：

18.根据权利要求17所述的装置，其中，每个用户账号还对应有会员等级和注册时间；以及

19.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。