CN112396445A

CN112396445A - 用于识别用户身份信息的方法和装置

Info

Publication number: CN112396445A
Application number: CN201910757093.5A
Authority: CN
Inventors: 刘栋; 程建波; 彭南博; 郑爱国
Original assignee: JD Digital Technology Holdings Co Ltd
Current assignee: JD Digital Technology Holdings Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2021-02-23
Anticipated expiration: 2039-08-16

Abstract

本公开的实施例公开了用于识别用户身份信息的方法和装置。该方法的一具体实施方式包括：获取待标注样本；将待标注样本输入身份预测模型，得到待标注样本的预测身份信息，其中身份预测模型是通过以下步骤训练得到的：获取初始标签样本集合；基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。该实施方式实现了提高训练得到的身份预测模型的准确度，从而使得预测的身份信息更加准确。

Description

用于识别用户身份信息的方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及用于识别用户身份信息的方法和装置。

背景技术

半监督学习是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种方法，主要用来处理对大量对象进行识别但有效分类标签不足的问题。

目前有自训练、直推学习、生成式模型等学习方法，由于半监督学习通常伴随大量的先验假设，随着学习的进行，先验信息或者由于信息不足导致的后续噪音会被反复学习，最终导致训练集有严重偏差。

发明内容

本公开的实施例提出了用于识别用户身份信息的方法和装置。

第一方面，本公开的实施例提供了一种用于识别用户身份信息的方法，该方法包括：获取待标注样本，其中，该待标注样本包括用户信息；将待标注样本输入身份预测模型，得到待标注样本的预测身份信息，其中，身份预测模型是通过以下步骤训练得到的：获取初始标签样本集合，其中，初始标签样本包括已标记标签的用户信息；基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

在一些实施例中，基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括以下至少一项：基于初始标签样本的特征信息的数据稳定性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；基于初始标签样本的属性信息的有效性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；基于初始标签样本的数据源的数据混杂程度，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；基于初始标签样本在不同时间段内标记的初始标签，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在一些实施例中，基于初始标签样本的特征信息的数据稳定性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：提取初始标签样本集合中的初始标签样本的特征信息；基于预定时间段内特征信息的数据波动确定特征信息的数据稳定性；响应于初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性，将初始标签样本划分为第一类别的初始标签样本；响应于初始标签样本的特征信息的数据稳定性小于预设稳定性，将初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，基于初始标签样本的属性信息的有效性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：提取初始标签样本集合中的初始标签样本的属性信息，其中，属性信息包括以下至少一项：用户的年龄信息、用户的收入信息；基于属性信息与先验信息的比较，确定属性信息是否存在有效性；响应于确定存在有效性，将与属性信息相匹配的初始标签样本划分为第一类别的初始标签样本；响应于确定不存在有效性，将与属性信息相匹配的初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，基于初始标签样本的数据源的数据混杂程度，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：确定初始标签样本集合中的初始标签样本的数据源；确定数据源的数据混杂程度；基于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在一些实施例中，确定数据源的数据混杂程度，包括：根据计算得到的数据源的以下至少一项：基尼不纯度、信息熵、方差，确定数据源的数据混杂程度。

在一些实施例中，其中，基于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：将数据混杂程度大于预设值的初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本，以及，将数据混杂程度小于或者等于预设值的初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。

在一些实施例中，该方法还包括：确定初始标签样本集合中的初始标签样本的数据源的标签的缺失率；响应于缺失率大于预设缺失率，将初始标签样本集合中的初始标签样本的数据源中置信度最高的数据源对应的初始标签样本作为主标签样本，确定主标签样本对应的标签是否存在；响应于主标签样本对应的标签不存在，将初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本；响应于主标签样本对应的标签存在，将初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。

在一些实施例中，基于初始标签样本在不同时间段内标记的初始标签，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：确定预设时间段内初始标签样本集合中初始标签样本的初始标签是否一致；响应于确定一致，将初始标签样本划分为第一类别的初始标签样本；响应于确定不一致，将初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型，包括：将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息；将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息；将第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值；将第二类别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数，得到第二损失值；基于第一损失值、第二损失值以及惩罚项，确定所有初始标签样本的总损失值；确定总损失值是否在预设阈值范围内；响应于确定总损失值不在预设阈值范围内，调整初始分类器的参数，直至总损失值在预设阈值范围内时停止训练初始分类器，将所得到的当前的分类器作为身份预测模型。

在一些实施例中，第一类别的初始标签样本为数据清洗得到的可学习的样本，第二类别的初始标签样本为数据清洗剔除的不可学习的样本。

第二方面，本公开的实施例提供了一种用于识别用户身份信息的装置，一种用于识别用户身份信息的装置，包括：待标注样本获取单元，被配置成获取待标注样本，其中，待标注样本包括用户信息；预测身份信息确定单元，被配置成将待标注样本输入身份预测模型，得到待标注样本的预测身份信息，其中，身份预测模型是通过以下单元训练得到的：样本集合获取单元，被配置成获取初始标签样本集合，其中，初始标签样本包括已标记标签的用户信息；分类单元，被配置成基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；模型训练单元，被配置成基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

在一些实施例中，分类单元包括以下至少一个模块：第一分类模块，被配置成基于初始标签样本的特征信息的数据稳定性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第二分类模块，被配置成基于初始标签样本的属性信息的有效性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第三分类模型，被配置成基于初始标签样本的数据源的数据混杂程度，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第四分类模块，被配置成基于初始标签样本在不同时间段内标记的初始标签，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在一些实施例中，第一分类模块进一步被配置成提取初始标签样本集合中的初始标签样本的特征信息；基于预定时间段内特征信息的数据波动确定特征信息的数据稳定性；响应于初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性，将初始标签样本划分为第一类别的初始标签样本；响应于初始标签样本的特征信息的数据稳定性小于预设稳定性，将初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，第二分类模块进一步被配置成提取初始标签样本集合中的初始标签样本的属性信息，其中，属性信息包括以下至少一项：用户的年龄信息、用户的收入信息；基于属性信息与先验信息的比较，确定属性信息是否存在有效性；响应于确定存在有效性，将与属性信息相匹配的初始标签样本划分为第一类别的初始标签样本；响应于确定不存在有效性，将与属性信息相匹配的初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，第三分类模块进一步被配置成确定初始标签样本集合中的初始标签样本的数据源；确定数据源的数据混杂程度；基于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在一些实施例中，第四分类模块进一步被配置成确定初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致；响应于确定一致，将初始标签样本划分为第一类别的初始标签样本；响应于确定不一致，将初始标签样本划分为第二类别的初始标签样本。

在一些实施例中，模型训练单元包括：第一标签信息获取模块，被配置成将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息；第二标签信息获取模块，被配置成将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息；第一损失值获取模块，被配置成将第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值；第二损失值获取模块，被配置成将第二类别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数，得到第二损失值；总损失值确定模块，被配置成基于第一损失值、第二损失值以及惩罚项，确定所有初始标签样本的总损失值；判断模块，被配置成确定总损失值是否在预设阈值范围内；身份预测模块训练模块，被配置成响应于确定总损失值不在预设阈值范围内，调整初始分类器的参数，直至总损失值在预设阈值范围内时停止训练初始分类器，将所得到的当前的分类器作为身份预测模型。

第三方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式的方法。

第四方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如第一方面中任一实现方式的方法。

本公开的实施例提供的用于识别用户身份信息的方案，首先，获取待标注样本，其中，待标注样本包括用户信息，然后将该待标注样本输入身份预测模型，得到待标注样本的预测身份信息。这里先获取初始标签样本集合，其中，初始标签样本包括已标记初始标签的用户信息，然后，基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，之后，基于第一类别的初始标签样本和第一损失函数，第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。在本实施例中，在训练身份预测模型时，将所有初始标签样本经过数据清洗分类为第一类别的初始标签样本和第二类别的初始标签样本，然后，结合这两个类别的初始标签样本和对应的损失函数，训练得到身份预测模型，由于训练数据全面，因此会提高训练得到的身份预测模型的预测准确度，从而使得预测的身份信息更加准确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的用于识别用户身份信息的方法的一个实施例的流程图；

图3是根据本公开的实施例的用于识别用户身份信息的方法的应用场景的示意图；

图4是根据本公开的用于识别用户身份信息的方法的另一个实施例的流程图；

图5是根据本公开的用于识别用户身份信息的方法的又一个实施例的流程图；

图6是根据本公开的用于识别用户身份信息的装置的实施例的结构示意图；

图7是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的用于识别用户身份信息的方法的实施例的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、视频类应用、即时通信工具、邮箱客户端、交通信息类应用、阅读类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持与服务器通信的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如可以从终端设备 101、102、103上获取信息的后台服务器。后台服务器可以对获取到的待标注样本进行分析和处理，并将信息处理的结果反馈给终端设备。

服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的用于识别用户身份信息的方法一般由服务器执行，相应地，用于识别用户身份信息的装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的用于识别用户身份信息的方法的一个实施例的流程200。该用于识别用户身份信息的方法，应用于服务器，该用于识别用户身份信息的方法包括以下步骤：

步骤201，获取初始标签样本集合。

在本实施例中，用于识别用户的身份信息的方法的执行主体(如图1所示的服务器105)可以获取初始标签样本集合。这里的初始标签样本包括已标记标签的用户信息。例如，初始标签样本可以是某个用户的消费信息。该用户的标签可以是学生，或者白领。

上述执行主体可以通过有线或者无线连接的方式从第三方设备获取初始标签样本集合。

步骤202，基于该初始标签样本，对该初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例中，若获取到初始标签样本集合，上述执行主体可以结合该初始标签样本集合中的初始标签样本的用户信息，对该初始标签样本集合中的初始标签样本进行数据清洗。

数据清洗是对数据进行重新审查和校验的过程。在本实施例中，数据清洗可以是指对初始标签样本的标签进行数据清洗，以确定第一类别的初始标签样本和第二类别的初始标签样本。

可选的，本实施例中的第一类别的初始标签样本可以为数据清洗得到的可学习的样本，第二类别的初始标签样本可以为数据清洗剔除的不可学习的样本。例如，假设有多个已标记标签的初始标签样本，服务器在结合初始标签样本以及标签信息进行分析之后，发现有的标签是清楚的，可以用于机器学习的；有的标签是可能错误的，有的初始标签样本是无法识别其准确标签的，这些标签可能就不可适用于机器学习，此时，服务器可以将该初始标签样本进行清洗，筛选出可学习的初始标签样本和不可学习的初始标签样本。即，服务器确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，上述执行主体可以基于初始标签样本的特征信息的数据稳定性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，上述执行主体可以基于初始标签样本的属性信息的有效性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，上述执行主体可以基于初始标签样本的数据源的数据混杂程度，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，上述执行主体可以基于初始标签样本在不同时间段内标记的初始标签，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

需要说明的是，本实施例中可以采用上述其中任意一种可选的实现方式中的方法确定第一类别的初始标签样本和第二类别的初始标签样本，也可以采用上述任意两种或者两种以上可选的实现方式中的方法进行组合，共同实现确定第一类别的初始标签样本和第二类别的初始标签样本，本实施例不以此为限制。

通过上述可选的实现方式中的方法确定第一类别的初始标签样本和第二类别的初始标签样本，可以实现对初始标签样本较精确的分类。

步骤203，基于该第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

在本实施例中，若得到了第一类别的初始标签样本和第二类别的初始标签样本，上述执行主体可以结合该第一类别的初始标签样本和第一损失函数，以及第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

例如上述执行主体可以将第一类别的初始标签样本输入初始模型，得到输出结果，然后将该输出结果和期望输出结果通过第一损失函数判断两者的接近程度。将第二类别的初始标签样本输入该初始模型，得到输出结果，然后将该输出结果和期望输出结果通过第二损失函数判断两者的接近程度。服务器可以对第一损失函数和第二损失函数分别设置第一期望损失值和第二期望损失值，不断对初始模型进行训练，直至两个损失函数的输出结果分别达到第一期望损失值和第二期望损失值时，停止对初始模型的训练，此时所得到的模型可以作为身份预测模型。该身份预测模型的输出结果既可以表示用户的准确身份信息，也可以表示用户的无法识别的身份信息，从而提高识别用户身份信息的准确度。

步骤204，获取待标注样本。

在本实施例中，上述执行主体可以获取待标注样本。这里的待标注样本包括用户信息。

这里的用户信息，可以包括某个用户的购物行为信息、注册信息等等，本实施例不以此为限制。

在本实施例中，上述执行主体可以通过有线或者无线方式从第三方终端设备获取待标注样本。

步骤205，将待标注样本输入身份预测模型，得到待标注样本的预测身份信息。

在本实施例中，若获取到待标注样本，上述执行主体可以将该待标注样本输入上述得到的身份预测模型中。该身份预测模型得到的输出结果为待标注样本的预测身份信息。

继续参见图3，图3是根据本公开的实施例的用于识别用户身份信息的方法的应用场景的示意图。在图3的应用场景中，服务器302 从终端设备301获取初始标签样本集合303。其中，这里的初始标签样本3031包括已标记标签的用户信息。

接着，服务器302可以结合初始标签样本3031，对初始标签样本集合303中的初始标签样本进行数据清洗，确定第一类别的初始标签样本304和第二类别的初始标签样本305。

然后，结合第一类别的初始标签样本304和第一损失函数306、第二类别的初始标签样本305和第二损失函数307，训练得到身份预测模型308。

之后，服务器302可以将获取到的待标注样本309输入身份预测模型308，得到待标注样本309的预测身份信息310。

目前，现有技术之一通常是在半监督学习过程中使用大量的先验假设，由于信息不足会使得后续噪音被反复学习，导致训练集有严重偏差，得到的检测结果也不准确。而本公开的上述实施例提供的方法，在训练身份预测模型时，将所有初始标签样本经过数据清洗分类为第一类别的初始标签样本和第二类别的初始标签样本，然后，结合这两个类别的初始标签样本和对应的损失函数，训练得到身份预测模型，由于训练数据全面，因此会提高训练得到的身份预测模型的预测准确度，从而使得预测身份信息更加准确。

进一步参考图4，其示出了用于识别用户身份信息的方法的另一个实施例的流程400。该用于识别用户身份信息的方法的流程400，应用于服务器，包括以下步骤：

步骤401，获取初始标签样本集合。

在本实施例中，上述步骤401可以采用与前述实施例中的步骤201 类似的方式执行，并且，上文针对步骤201的描述也适用于步骤401，此处不再赘述。

步骤402，提取初始标签样本集合中的初始标签样本的特征信息。

在本实施例中，若获取到初始标签样本集合，用于识别用户身份信息的方法的执行主体(如图1所示的服务器105)可以提取初始标签样本集合中的初始标签样本的特征信息。

这里的特征信息，可以是图2所示的实施例中的用户信息。例如，这里的特征信息例如可以包括居住地址信息、消费量信息、用户使用该地址的时长信息等等。服务器可以对获取到的初始标签样本进行特征分析，然后提取特信息。

步骤403，基于预定时间段内该特征信息的数据波动确定该特征信息的数据稳定性。

在本实施例中，若提取到初始标签样本集合中的初始标签样本的特征信息，服务器可以获取预定时间段内该特征信息的数据波动，然后，结合该数据波动，确定该特征信息的稳定性。

例如线上获取的用户信息通常是基于账户信息来表现的，但是账户信息所指示的用户不一定是用户本人，使得现有信息无法真实反映用户信息。因此，在本实施例中，可以采用目标本体识别的方法来确定用户的各种身份信息是否指示的是同一个用户。

例如，如表1所示，服务器可以获取用户的以下特征信息：

表1

变量名	含义	统计周期
			tn<sub>mean</sub>	用户不同地址单量均值	最近一年
cn<sub>mean</sub>	用户不同地址消费量均值	最近一年
			time<sub>mean</sub>	用户不同地址使用时长均值	最近3年
tn<sub>var_mean</sub>	用户不同地址单量方差的均值	最近一年
			cn<sub>var_mean</sub>	用户不同地址消费量方差的均值	最近一年
time<sub>var_mean</sub>	用户不同地址使用时长方差的均值	最近3年
			tn<sub>place_buy</sub>	用户在该地址总单量	最近一年
cn<sub>place_buy</sub>	用户该地址消费总量	最近一年
			time<sub>place_buy</sub>	用户该地址总使用时长	最近3年
tn<sub>place_var</sub>	用户该地址近6个月购买次数的方差	最近6个月
			cn<sub>place_var</sub>	用户该地址近6个月消费的方差	最近6个月
tn<sub>var</sub>	用户不同地址单量方差	最近一年
			cn<sub>var</sub>	用户不同地址消费量方差	最近一年
time<sub>var</sub>	用户不同地址使用时长方差	最近一年

服务器在获取到上述特征信息之后，可以基于以下公式求取特征信息的稳定性：

stable＝base_score*a (3)

其中，base_score为基本得分；a为基本得分的置信度，用户最近几个月的行为信息的数据波动与总体数据波动相比越小置信度就越高； stable为特征信息的数据稳定性。

步骤404，响应于该初始标签样本的特征信息的稳定性大于或者等于预设稳定性，将该初始标签样本划分为第一类别的初始标签样本。

在本实施例中，若得到了特征信息的数据稳定性，若该数据稳定性大于或等于预设稳定性，上述执行主体可以将该初始标签样本划分为第一类别的初始标签样本。

例如可以设置一个稳定性阈值，然后将上述得到的特征信息的稳定性与该稳定性阈值进行比较。若该数据稳定性大于或等于该稳定性阈值，说明该初始标签样本的特征信息的数据波动比较小，数据比较稳定，该初始标签样本属于可学习的标签，服务器可以将其划分为第一类别的初始标签样本。

步骤405，响应于该初始标签样本的特征信息的数据稳定性小于该预设稳定性，将该初始标签样本划分为第二类别的初始标签样本。

在本实施例中，若该初始标签样本的特征信息的数据稳定性小于预设稳定性，则说明该初始标签样本的特征信息的数据波动比较大，数据不稳定，该初始标签样本可能属于不可学习的标签，服务器可以将其划分为第二类别的初始标签样本。

步骤406，基于该第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

步骤407，获取待标注样本。

步骤408，将该待标注样本输入身份预测模型，得到该待标注样本的预测身份信息。

在本实施例中，上述步骤406、步骤407和步骤408可以分别采用与前述实施例中的步骤203、步骤204和步骤205类似的方式执行，并且，上文针对步骤203、步骤204和步骤205的描述也分别适用于步骤406、步骤407和步骤408，此处不再赘述。

与上述步骤402至405所描述的确定第一类别的初始标签样本和第二类别的初始标签样本相对应，在本实施例的一些可选的实现方式中，上述执行主体还可以通过以下步骤确定第一类别的初始标签样本和第二类别的初始标签样本：

第一步，提取初始标签样本集合中的初始标签样本的属性信息。

在本实现方式中，上述执行主体可以提取初始标签样本集合中的初始标签样本的属性信息。这里的属性信息可以包括但不限于以下至少一项：用户的年龄信息、用户的收入信息。

第二步，基于该属性信息与先验信息的比较，确定该属性信息是否存在有效性。

在本实现方式中，若提取到初始标签样本集合中的初始标签样本的属性信息，上述执行主体可以将该属性信息与先验信息进行比较。上述执行主体可以预先获取大量的先验信息，即经验数据，然后，在得到属性信息之后，将该属性信息与预先获取的先验信息进行比较从而确定该属性信息是否存在有效性。

作为示例，例如先验信息是用户必须为成年人才有资格进行某些活动，而这里的初始标签样本中的属性信息为用户年龄为8岁，则显然该属性信息缺乏有效性。

第三步，响应于确定存在有效性，将与该属性信息相匹配的初始标签样本划分为第一类别的初始标签样本。

在本实现方式中，若确定该属性信息存在有效性，则将与该属性信息相匹配的初始标签样本划分为第一类别的初始标签样本。这里的第一类别的初始标签样本可以包括可学习的标签样本。例如标签是正确的样本和标签是错误的样本都可以被称为可学习的标签样本。

第四步，响应于确定不存在有效性，将与该属性信息匹配的初始标签样本划分为第二类别的初始标签样本。

在本实现方式中，若确定该属性信息不存在有效性，则将与该属性信息匹配的初始标签样本划分为第二类别的初始标签样本。这里的第二类别的初始标签样本可以包括不可学习的标签样本。例如标签是无法识别的样本。

需要说明的是，本实现方式可以替代步骤402至405所描述的确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式，也可以是在步骤402至步骤405之前或者之后进行，与上述步骤402 至步骤405进行组合，共同实现确定第一类别的初始标签样本和第二类别的初始标签样本。

通过本实现方式，获取的初始标签样本的属性信息，然后确定该属性信息的有效性，从而根据该有效性对初始标签样本进行分类，提高了初始标签样本分类的精度。

第一步，确定初始标签样本集合中的初始标签样本的数据源。

在本实现方式中，上述执行主体还可以确定初始标签样本集合中的初始标签样本的数据源。例如对于同一批用户信息，若其可以分别来自多个数据源，则在不同数据源该用户的标签信息可能存在不同。这里，可以先确定初始标签样本的数据源。

第二步，确定数据源的数据混杂程度。

在本实现方式中，若确定了初始标签样本的数据源，则服务器可以确定数据源的数据混杂程度。具体地，上述执行主体可以根据计算得到的数据源的基尼不纯度、信息熵或者方差，来确定数据源的数据混杂程度，具体的算法不再赘述。

第三步，基于该数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实现方式中，若确定数据源的数据混杂程度之后，上述执行主体可以结合该数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

作为示例，例如上述执行主体可以通过以下公式计算数据混杂程度：

其中，i表示第i个数据源；n表示数据源个数；conf_i表示第i个数据源的可信度，需要说明的是，该i个数据源的可信度可以是基于预先验证的；

表示n个数据源的可信度之和；pi表示第i个数据源的置信度；chaos_score_j表示第j个初始标签样本的n个数据源的数据混杂程度。

然后，在得到数据混杂程度之后，上述执行主体可以将该数据混杂程度大于预设值的初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本。

即上述执行主体将得到的某个初始标签样本的数据源的数据混杂程度与预设值进行比较。该预设值例如是所有初始标签样本的数据混杂程度的均值。比较之后，若该初始标签样本的数据源的数据混杂程度大于该均值，说明该初始标签样本的标签来源比较混杂，此时可以剔除该初始标签样本的标签，并且，将该初始标签样本划分为第二类别的初始标签样本，即不可学习的初始标签样本集合中。

然后，将数据混杂程度小于或者等于预设值的初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本，即可学习的初始标签样本集合中。

在一些可选的实现方式中，上述执行主体还可以确定初始标签样本集合中的初始标签样本的数据源的标签缺失率。即确定哪些数据源中得到的初始标签样本没有标签，以及计算缺失率。

然后，若该缺失率大于预设缺失率，例如缺失率大于75％，则上述执行主体可以将该初始标签样本集合中的初始标签样本的数据源中置信度最高的数据源对应的初始标签样本作为主标签样本。这里的置信度可以为公式(4)计算得到的数据源的置信度。然后，上述执行主体确定该主标签体对应的标签是否存在。

若该主标签体对应的标签不存在，则上述执行主体可以将该初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本，即划分为不可学习的初始标签样本。若该主标签体对应的标签存在，则上述执行主体可以将该初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本，即可学习的初始标签样本。

可选的，若该主标签体对应的标签不存在，上述执行主体还可以取其他数据源的标签的众数，如果存在多个众数，则将该初始标签样本划分为第二类别的初始标签样本，即划分为不可学习的初始标签样本。

需要说明的是，本实现方式可以替代上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式，也可以在上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式之前或者之后进行，以便与上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式进行组合，共同实现确定第一类别的初始标签样本和第二类别的初始标签样本。

通过本实现方式，确定初始标签样本集合中的初始标签样本的数据源，然后确定数据源的混杂程度，基于该混杂程度对初始标签样本件数据清洗，进而分类，提高了初始标签样本分类的精度。

第一步，确定初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致。

在本实现方式中，上述执行主体可以确定初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致。例如，这里的时间段可以是一个月。上述执行主体可以获取三个月内初始标签样本的初始标签。假设初始标签样本在第一个月的主标签为A，在第二个月的主标签为B，在第三个月的主标签为C，则说明该初始标签样本不稳定。

第二步，响应于确定一致，将该初始标签样本划分为第一类别的初始标签样本。

在本实现方式中，若确定一致，则上述执行主体可以将该初始标签样本划分为第一类别的初始标签样本。即若该初始标签样本的标签稳定，则将该初始标签样本划分至可学习的初始标签样本集合。

第三步，响应于确定不一致，将该初始标签样本划分为第二类别的初始标签样本。

在本实现方式中，若确定不一致，则上述执行主体可以将该初始标签样本划分为第二类初始标签样本。即若该初始标签样本的标签不稳定，则将该初始标签样本划分至不可学习的初始标签样本集合。

需要说明的是，本实现方式可以替代上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式，也可以是在上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式之前或者之后进行，以便与上述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式进行组合，共同实现确定第一类别的初始标签样本和第二类别的初始标签样本。

通过本实现方式，确定初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致，然后根据判断的一致性结果对初始标签样本进行分类，提高了初始标签样本分类的精度。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于识别用户身份信息的方法的流程400体现了提取初始标签样本集合中的初始标签样本的特征信息，基于预定时间段内该特征信息的数据波动确定该特征信息的数据稳定性的步骤，以及若该初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性，将该初始标签样本划分为第一类别的初始标签样本，若该初始标签样本的特征信息的数据稳定性小于预设稳定性，将该初始标签样本划分为第二类别的初始标签样本。由此，本实施例描述的方案可以根据初始标签样本的特征信息的数据稳定性对初始标签样本进行分类，提高了初始标签样本分类的精度。

进一步参考图5，其示出了用于识别用户身份信息的方法的又一个实施例的流程500。该用于识别用户身份信息的方法的流程500，应用于服务器，包括以下步骤：

步骤501，获取初始标签样本集合。

步骤502，基于该初始标签样本，对该初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例中，上述步骤501和步骤502可以分别采用与前述实施例中的步骤201和步骤202类似的方式执行，或者，步骤501可以采用与前述实施例中的步骤401类似的方式执行，步骤502可以采用与前述实施例中的步骤402至步骤405中类似的方式执行，并且，上文针对步骤501和步骤502描述也分别适用于步骤201和步骤202，上述步骤401的描述也可以适用于步骤201，上述步骤402至步骤405 的描述也可以适用于步骤502，此处不再赘述。

步骤503，将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息。

在本实施例中，用于执行用于识别用户身份信息的方法的执行主体(如图1所示的服务器105)可以将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息。

这里的初始分类器可以是未经过训练的分类器。服务器可以将可学习的初始标签样本输入初始分类器。初始分类器会输出第一标签信息。

步骤504，将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息。

在本实施例中，上述执行主体还可以将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息。

这里的初始分类器可以和上述初始分类器相同。服务器可以将不可学习的初始标签样本输入该初始分类器。初始分类器会输出第二标签信息。

步骤505，将第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值。

在本实施例中，若初始分类器输出第一标签信息，则上述执行主体可以将该第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值。

这里的第一损失函数例如可以是softmax损失函数，也可以是其他用于多分类的损失函数，本实施例不以此为限制。

步骤506，将第二类别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数，得到第二损失值。

在本实施例中，若初始分类器输出第二标签信息，则上述执行主体可以将该第二类别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数，得到第二损失值。

这里的第二损失函数也可以是softmax损失函数，或者可以是其他用于多分类的损失函数，本实施例不以此为限制。

步骤507，基于第一损失值、第二损失值以及惩罚项，确定所有初始标签样本的总损失值。

在本实施例中，若得到第一损失值、第二损失值之后，服务器可以将该第一损失值、第二损失值以及惩罚项进行求和，确定所有初始标签样本的总损失值。

需要说明的是，这里的惩罚项也是可以被调整的参数。随着机器学习的不断进行，可以不断调整该惩罚项的参数，使其达到合理的数值范围内。

步骤508，确定该总损失值是否在预设阈值范围内。

在本实施例中，若得到总损失值后，上述执行主体可以判断该总损失值是否在预设阈值范围内。

步骤509，响应于确定该总损失值不在预设阈值范围内，调整初始分类器的参数，直至总损失值在预设阈值范围内时停止训练初始分类器，将所得到的当前的分类器作为身份预测模型。

在本实施例中，若该总损失值不在预设阈值范围内，则服务器可以调整初始分类器的参数，不断进行迭代学习训练，直至该总损失值在预设阈值范围内时停止训练该初始分类器。此时，将所得到的当前的分类器作为身份预测模型。

步骤510，获取待标注样本。

步骤511，将该待标注样本输入身份预测模型，得到待标注样本的预测身份信息。

在本实施例中，上述步骤510和步骤511可以分别采用与前述实施例中的步骤204和步骤205类似的方式执行，并且，上文针对步骤 204和步骤205的描述也分别适用于步骤510和步骤511，此处不再赘述。

作为示例，在本实施例中的进行机器学习训练的损失函数可以表示为如下公式：

其中，L表示总损失值；n表示初始标签样本的总量；i表示第i 个初始标签样本；v_i表示初始标签样本是否进行跳转，这里当初始标签样本为第一类别的初始标签样本(可学习)时，v_i＝1，当初始标签样本为第二类别的初始标签样本(不可学习)时，v_i＝0；y_i表示第i个初始标签样本所标记的标签；x_i表示第i个初始标签样本的特征信息，这里的特征信息可以为用户信息；f(x_i)表示初始分类器f输出的标签信息；loss 表示第一损失函数，loss_others表示第二损失函数；

表示对v_i的惩罚项以防止其跳转的样本过多，a为惩罚力度；C(f(x)表示惩罚项。

这里的初始分类器f可以使用tensorflow模型。作为示例，假设用户的特征信息(用户信息)如表2所示，则服务器可以在tensorflow模型的wide部分输入消费类目风险评分特征库中的特征信息以及用信用评分特征库中非浏览类特征信息，在deep部分输入用户信用评分特征库中的全部特征信息。

表2

经过将上述初始标签样本的用户信息经过本实施例的身份预测模型预测用户的身份信息后，经过验证，假设有A、B、C、D四类初始标签样本，用现有技术中的模型以及本实施例的模型，得到的分类准确率的比较结果如表3所示。

表3

目标分类	A	B	C	D
					不进行标签清洗的半监督模型	24％	30％	51％	64％
进行标签清洗的半监督模型	40％	35％	69％	65％
					本实施例	89％	92％	85％	87％

由表3可以看出，本实施例中的身份预测模型预测用户身份信息的准确率相对于现有技术中的模型有较大的提高。

从图5中可以看出，与图2对应的实施例相比，本实施例中的用于识别用户身份信息的方法的流程500体现了将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息，将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息的步骤，以及将第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值，将第二类别的初始标签样本所标记的标签信息第二标签信息输入第二损失函数，得到第二损失值，基于第一损失值、第二损失值以及惩罚项，确定所有初始标签样本的总损失值，确定该总损失值是否在预设阈值范围内，响应于确定该总损失值不在预设阈值范围内，调整初始分类器的参数，直至总损失值在预设阈值范围内时停止训练初始分类器，将所得到的当前的分类器作为身份预测模型的步骤。由此，本实施例描述的方案可以结合可学习的第一类别初始标签样本和不可学习的第二类别初始标签样本对初始分类器进行训练，得到身份预测模型，提高了身份预测模型的预测准确度。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了用于识别用户身份信息的装置的实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于服务器中。

如图6所示，本实施例提供的用于识别用户身份信息的装置600 包括样本集合获取单元601、分类单元602、模型训练单元603、待标注样本获取单元604和预测身份信息确定单元605。其中，样本集合获取单元601，被配置成获取初始标签样本集合，其中初始标签样本包括已标记标签的用户信息；分类单元602，被配置成基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，其中第一类别的初始标签样本为数据清洗得到的可学习的样本，第二类别的初始标签样本为数据清洗剔除的不可学习的样本；模型训练单元603，被配置成基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型；待标注样本获取单元604，被配置成获取待标注样本，其中待标注样本包括用户信息；预测身份信息确定单元605，被配置成将待标注样本输入身份预测模型，得到待标注样本的预测身份信息。

在本实施例中，用于识别用户身份信息的装置600中：样本集合获取单元601、分类单元602、模型训练单元603、待标注样本获取单元604和预测身份信息确定单元605的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204和步骤205的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，分类单元602可以包括以下至少一个模块：第一分类模块、第二分类模块、第三分类模块和第四分类模块(图中未示出)。其中，第一分类模块可以被配置成基于初始标签样本的特征信息的数据稳定性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第二分类模块可以被配置成基于初始标签样本的属性信息的有效性，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第三分类模型可以被配置成基于初始标签样本的数据源的数据混杂程度，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；第四分类模块可以被配置成基于初始标签样本在不同时间段内标记的初始标签，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，第一分类模块可以进一步被配置成提取初始标签样本集合中的初始标签样本的特征信息；基于预定时间段内特征信息的数据波动确定特征信息的数据稳定性；响应于初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性，将初始标签样本划分为第一类别的初始标签样本；响应于初始标签样本的特征信息的数据稳定性小于预设稳定性，将初始标签样本划分为第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，第二分类模块可以进一步被配置成提取初始标签样本集合中的初始标签样本的属性信息，其中，属性信息包括以下至少一项：用户的年龄信息、用户的收入信息；基于属性信息与先验信息的比较，确定属性信息是否存在有效性；响应于确定存在有效性，将与属性信息相匹配的初始标签样本划分为第一类别的初始标签样本；响应于确定不存在有效性，将与属性信息相匹配的初始标签样本划分为第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，第三分类模块可以进一步被配置成确定初始标签样本集合中的初始标签样本的数据源；确定数据源的数据混杂程度；基于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，第四分类模块可以进一步被配置成确定初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致；响应于确定一致，将初始标签样本划分为第一类别的初始标签样本；响应于确定不一致，将初始标签样本划分为第二类别的初始标签样本。

在本实施例的一些可选的实现方式中，模型训练单元可以包括：第一标签信息获取模块、第二标签信息获取模块、第一损失值获取模块、第二损失值获取模块、总损失值确定模块、判断模块和身份预测模型训练模块(图中未示出)。其中，第一标签信息获取模块可以被配置成将第一类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第一标签信息；第二标签信息获取模块可以被配置成将第二类别的初始标签样本的用户信息输入初始分类器，得到初始分类器输出的第二标签信息；第一损失值获取模块可以被配置成将第一类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失函数，得到第一损失值；第二损失值获取模块可以被配置成将第二类别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数，得到第二损失值；总损失值确定模块可以被配置成基于第一损失值、第二损失值以及惩罚项，确定所有初始标签样本的总损失值；判断模块可以被配置成确定总损失值是否在预设阈值范围内；身份预测模块训练模块可以被配置成响应于确定总损失值不在预设阈值范围内，调整初始分类器的参数，直至总损失值在预设阈值范围内时停止训练初始分类器，将所得到的当前的分类器作为身份预测模型。

本公开的上述实施例的用于识别用户身份信息的装置，服务器通过样本集合获取单元601获取初始标签样本集合，通过距离分类单元 602，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，模型训练单元603 可以基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。由于训练数据全面，因此会提高训练得到的身份预测模型的预测准确度，从而使得预测的身份信息更加准确。

下面参考图7，下面参考图7，其示出了适于用来实现本公开的实施例的电子设备(例如图1中的服务器)700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备 700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线 704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 706；包括例如液晶显示器(LCD，LiquidCrystal Display)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(Radio Frequency，射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：获取待标注样本；将待标注样本输入身份预测模型，得到待标注样本的预测身份信息，其中身份预测模型是通过以下步骤训练得到的：获取初始标签样本集合；基于初始标签样本，对初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于识别用户身份信息的方法，包括：

获取待标注样本，其中，所述待标注样本包括用户信息；

将所述待标注样本输入身份预测模型，得到所述待标注样本的预测身份信息，其中，所述身份预测模型是通过以下步骤训练得到的：

获取初始标签样本集合，其中，初始标签样本包括已标记标签的用户信息；

基于所述初始标签样本，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；

基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

2.根据权利要求1所述的方法，其中，所述基于所述初始标签样本，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括以下至少一项：

基于所述初始标签样本的特征信息的数据稳定性，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；

基于所述初始标签样本的属性信息的有效性，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；

基于所述初始标签样本的数据源的数据混杂程度，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；

基于所述初始标签样本在不同时间段内标记的初始标签，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

3.根据权利要求2所述的方法，其中，所述基于所述初始标签样本的特征信息的数据稳定性，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：

提取所述初始标签样本集合中的所述初始标签样本的特征信息；

基于预定时间段内所述特征信息的数据波动确定所述特征信息的数据稳定性；

响应于所述初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性，将所述初始标签样本划分为第一类别的初始标签样本；

响应于所述初始标签样本的特征信息的数据稳定性小于所述预设稳定性，将所述初始标签样本划分为第二类别的初始标签样本。

4.根据权利要求2所述的方法，其中，所述基于所述初始标签样本的属性信息的有效性，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：

提取所述初始标签样本集合中的初始标签样本的属性信息，其中，所述属性信息包括以下至少一项：用户的年龄信息、用户的收入信息；

基于所述属性信息与先验信息的比较，确定所述属性信息是否存在有效性；

响应于确定存在有效性，将与所述属性信息相匹配的初始标签样本划分为第一类别的初始标签样本；

响应于确定不存在有效性，将与所述属性信息相匹配的初始标签样本划分为第二类别的初始标签样本。

5.根据权利要求2所述的方法，其中，所述基于所述初始标签样本的数据源的数据混杂程度，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：

确定所述初始标签样本集合中的初始标签样本的数据源；

确定所述数据源的数据混杂程度；

基于所述数据混杂程度对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本。

6.根据权利要求5所述的方法，其中，所述确定所述数据源的数据混杂程度，包括：

根据计算得到的所述数据源的以下至少一项：基尼不纯度、信息熵、方差，确定所述数据源的数据混杂程度。

7.根据权利要求5所述的方法，其中，所述基于所述数据混杂程度对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：

将所述数据混杂程度大于预设值的所述初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本，以及，将所述数据混杂程度小于或者等于预设值的所述初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。

8.根据权利要求2至7任一项所述的方法，其中，所述方法还包括：

确定所述初始标签样本集合中的初始标签样本的数据源的标签的缺失率；

响应于所述缺失率大于预设缺失率，将所述初始标签样本集合中的初始标签样本的数据源中置信度最高的数据源对应的初始标签样本作为主标签样本，确定所述主标签样本对应的标签是否存在；

响应于所述主标签样本对应的标签不存在，将所述初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本；

响应于所述主标签样本对应的标签存在，将所述初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。

9.根据权利要求2所述的方法，其中，所述基于所述初始标签样本在不同时间段内标记的初始标签，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本，包括：

确定所述初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致；

响应于确定一致，将所述初始标签样本划分为第一类别的初始标签样本；

响应于确定不一致，将所述初始标签样本划分为第二类别的初始标签样本。

10.根据权利要求1所述的方法，其中，所述基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数，训练得到身份预测模型，包括：

将所述第一类别的初始标签样本的用户信息输入初始分类器，得到所述初始分类器输出的第一标签信息；

将所述第二类别的初始标签样本的用户信息输入所述初始分类器，得到所述初始分类器输出的第二标签信息；

将所述第一类别的初始标签样本所标记的标签信息和所述第一标签信息输入第一损失函数，得到第一损失值；

将所述第二类别的初始标签样本所标记的标签信息和所述第二标签信息输入第二损失函数，得到第二损失值；

基于所述第一损失值、所述第二损失值以及惩罚项，确定所有初始标签样本的总损失值；

确定所述总损失值是否在预设阈值范围内；

响应于确定所述总损失值不在所述预设阈值范围内，调整所述初始分类器的参数，直至所述总损失值在所述预设阈值范围内时停止训练所述初始分类器，将所得到的当前的分类器作为所述身份预测模型。

11.根据权利要求1所述的方法，其中，所述第一类别的初始标签样本为数据清洗得到的可学习的样本，所述第二类别的初始标签样本为数据清洗剔除的不可学习的样本。

12.一种用于识别用户身份信息的装置，包括：

待标注样本获取单元，被配置成获取待标注样本，其中，所述待标注样本包括用户信息；

预测身份信息确定单元，被配置成将所述待标注样本输入身份预测模型，得到所述待标注样本的预测身份信息，其中，所述身份预测模型是通过以下单元训练得到的：

样本集合获取单元，被配置成获取初始标签样本集合，其中，初始标签样本包括已标记标签的用户信息；

分类单元，被配置成基于所述初始标签样本，对所述初始标签样本集合中的初始标签样本进行数据清洗，确定第一类别的初始标签样本和第二类别的初始标签样本；

模型训练单元，被配置成基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数，训练得到身份预测模型。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-11中任一所述的方法。