CN112396445A - 用于识别用户身份信息的方法和装置 - Google Patents

用于识别用户身份信息的方法和装置 Download PDF

Info

Publication number
CN112396445A
CN112396445A CN201910757093.5A CN201910757093A CN112396445A CN 112396445 A CN112396445 A CN 112396445A CN 201910757093 A CN201910757093 A CN 201910757093A CN 112396445 A CN112396445 A CN 112396445A
Authority
CN
China
Prior art keywords
initial label
initial
label
sample
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910757093.5A
Other languages
English (en)
Inventor
刘栋
程建波
彭南博
郑爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201910757093.5A priority Critical patent/CN112396445A/zh
Publication of CN112396445A publication Critical patent/CN112396445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

本公开的实施例公开了用于识别用户身份信息的方法和装置。该方法的一具体实施方式包括:获取待标注样本;将待标注样本输入身份预测模型,得到待标注样本的预测身份信息,其中身份预测模型是通过以下步骤训练得到的:获取初始标签样本集合;基于初始标签样本,对初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,基于第一类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第二损失函数,训练得到身份预测模型。该实施方式实现了提高训练得到的身份预测模型的准确度,从而使得预测的身份信息更加准确。

Description

用于识别用户身份信息的方法和装置
技术领域
本公开的实施例涉及计算机技术领域,具体涉及用于识别用户身 份信息的方法和装置。
背景技术
半监督学习是模式识别和机器学习领域研究的重点问题,是监督 学习与无监督学习相结合的一种方法,主要用来处理对大量对象进行 识别但有效分类标签不足的问题。
目前有自训练、直推学习、生成式模型等学习方法,由于半监督 学习通常伴随大量的先验假设,随着学习的进行,先验信息或者由于 信息不足导致的后续噪音会被反复学习,最终导致训练集有严重偏差。
发明内容
本公开的实施例提出了用于识别用户身份信息的方法和装置。
第一方面,本公开的实施例提供了一种用于识别用户身份信息的 方法,该方法包括:获取待标注样本,其中,该待标注样本包括用户 信息;将待标注样本输入身份预测模型,得到待标注样本的预测身份 信息,其中,身份预测模型是通过以下步骤训练得到的:获取初始标 签样本集合,其中,初始标签样本包括已标记标签的用户信息;基于 初始标签样本,对初始标签样本集合中的初始标签样本进行数据清洗, 确定第一类别的初始标签样本和第二类别的初始标签样本;基于第一 类别的初始标签样本和第一损失函数、第二类别的初始标签样本和第 二损失函数,训练得到身份预测模型。
在一些实施例中,基于初始标签样本,对初始标签样本集合中的 初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类 别的初始标签样本,包括以下至少一项:基于初始标签样本的特征信 息的数据稳定性,对初始标签样本集合中的初始标签样本进行数据清 洗,确定第一类别的初始标签样本和第二类别的初始标签样本;基于 初始标签样本的属性信息的有效性,对初始标签样本集合中的初始标 签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初 始标签样本;基于初始标签样本的数据源的数据混杂程度,对初始标 签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标 签样本和第二类别的初始标签样本;基于初始标签样本在不同时间段 内标记的初始标签,对初始标签样本集合中的初始标签样本进行数据 清洗,确定第一类别的初始标签样本和第二类别的初始标签样本。
在一些实施例中,基于初始标签样本的特征信息的数据稳定性, 对初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别 的初始标签样本和第二类别的初始标签样本,包括:提取初始标签样 本集合中的初始标签样本的特征信息;基于预定时间段内特征信息的 数据波动确定特征信息的数据稳定性;响应于初始标签样本的特征信 息的数据稳定性大于或者等于预设稳定性,将初始标签样本划分为第 一类别的初始标签样本;响应于初始标签样本的特征信息的数据稳定 性小于预设稳定性,将初始标签样本划分为第二类别的初始标签样本。
在一些实施例中,基于初始标签样本的属性信息的有效性,对初 始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初 始标签样本和第二类别的初始标签样本,包括:提取初始标签样本集 合中的初始标签样本的属性信息,其中,属性信息包括以下至少一项: 用户的年龄信息、用户的收入信息;基于属性信息与先验信息的比较, 确定属性信息是否存在有效性;响应于确定存在有效性,将与属性信 息相匹配的初始标签样本划分为第一类别的初始标签样本;响应于确 定不存在有效性,将与属性信息相匹配的初始标签样本划分为第二类 别的初始标签样本。
在一些实施例中,基于初始标签样本的数据源的数据混杂程度, 对初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别 的初始标签样本和第二类别的初始标签样本,包括:确定初始标签样 本集合中的初始标签样本的数据源;确定数据源的数据混杂程度;基 于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗, 确定第一类别的初始标签样本和第二类别的初始标签样本。
在一些实施例中,确定数据源的数据混杂程度,包括:根据计算 得到的数据源的以下至少一项:基尼不纯度、信息熵、方差,确定数 据源的数据混杂程度。
在一些实施例中,其中,基于数据混杂程度对初始标签样本集合 中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第 二类别的初始标签样本,包括:将数据混杂程度大于预设值的初始标 签样本集合中的初始标签样本划分为第二类别的初始标签样本,以及, 将数据混杂程度小于或者等于预设值的初始标签样本集合中的初始标 签样本划分为第一类别的初始标签样本。
在一些实施例中,该方法还包括:确定初始标签样本集合中的初 始标签样本的数据源的标签的缺失率;响应于缺失率大于预设缺失率, 将初始标签样本集合中的初始标签样本的数据源中置信度最高的数据 源对应的初始标签样本作为主标签样本,确定主标签样本对应的标签 是否存在;响应于主标签样本对应的标签不存在,将初始标签样本集 合中的初始标签样本划分为第二类别的初始标签样本;响应于主标签 样本对应的标签存在,将初始标签样本集合中的初始标签样本划分为 第一类别的初始标签样本。
在一些实施例中,基于初始标签样本在不同时间段内标记的初始 标签,对初始标签样本集合中的初始标签样本进行数据清洗,确定第 一类别的初始标签样本和第二类别的初始标签样本,包括:确定预设 时间段内初始标签样本集合中初始标签样本的初始标签是否一致;响 应于确定一致,将初始标签样本划分为第一类别的初始标签样本;响 应于确定不一致,将初始标签样本划分为第二类别的初始标签样本。
在一些实施例中,基于第一类别的初始标签样本和第一损失函数、 第二类别的初始标签样本和第二损失函数,训练得到身份预测模型, 包括:将第一类别的初始标签样本的用户信息输入初始分类器,得到 初始分类器输出的第一标签信息;将第二类别的初始标签样本的用户 信息输入初始分类器,得到初始分类器输出的第二标签信息;将第一 类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失 函数,得到第一损失值;将第二类别的初始标签样本所标记的标签信 息和第二标签信息输入第二损失函数,得到第二损失值;基于第一损 失值、第二损失值以及惩罚项,确定所有初始标签样本的总损失值; 确定总损失值是否在预设阈值范围内;响应于确定总损失值不在预设 阈值范围内,调整初始分类器的参数,直至总损失值在预设阈值范围 内时停止训练初始分类器,将所得到的当前的分类器作为身份预测模 型。
在一些实施例中,第一类别的初始标签样本为数据清洗得到的可 学习的样本,第二类别的初始标签样本为数据清洗剔除的不可学习的 样本。
第二方面,本公开的实施例提供了一种用于识别用户身份信息的 装置,一种用于识别用户身份信息的装置,包括:待标注样本获取单 元,被配置成获取待标注样本,其中,待标注样本包括用户信息;预 测身份信息确定单元,被配置成将待标注样本输入身份预测模型,得 到待标注样本的预测身份信息,其中,身份预测模型是通过以下单元 训练得到的:样本集合获取单元,被配置成获取初始标签样本集合, 其中,初始标签样本包括已标记标签的用户信息;分类单元,被配置 成基于初始标签样本,对初始标签样本集合中的初始标签样本进行数 据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本; 模型训练单元,被配置成基于第一类别的初始标签样本和第一损失函 数、第二类别的初始标签样本和第二损失函数,训练得到身份预测模 型。
在一些实施例中,分类单元包括以下至少一个模块:第一分类模 块,被配置成基于初始标签样本的特征信息的数据稳定性,对初始标 签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标 签样本和第二类别的初始标签样本;第二分类模块,被配置成基于初 始标签样本的属性信息的有效性,对初始标签样本集合中的初始标签 样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始 标签样本;第三分类模型,被配置成基于初始标签样本的数据源的数 据混杂程度,对初始标签样本集合中的初始标签样本进行数据清洗, 确定第一类别的初始标签样本和第二类别的初始标签样本;第四分类 模块,被配置成基于初始标签样本在不同时间段内标记的初始标签, 对初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别 的初始标签样本和第二类别的初始标签样本。
在一些实施例中,第一分类模块进一步被配置成提取初始标签样 本集合中的初始标签样本的特征信息;基于预定时间段内特征信息的 数据波动确定特征信息的数据稳定性;响应于初始标签样本的特征信 息的数据稳定性大于或者等于预设稳定性,将初始标签样本划分为第 一类别的初始标签样本;响应于初始标签样本的特征信息的数据稳定 性小于预设稳定性,将初始标签样本划分为第二类别的初始标签样本。
在一些实施例中,第二分类模块进一步被配置成提取初始标签样 本集合中的初始标签样本的属性信息,其中,属性信息包括以下至少 一项:用户的年龄信息、用户的收入信息;基于属性信息与先验信息 的比较,确定属性信息是否存在有效性;响应于确定存在有效性,将 与属性信息相匹配的初始标签样本划分为第一类别的初始标签样本; 响应于确定不存在有效性,将与属性信息相匹配的初始标签样本划分 为第二类别的初始标签样本。
在一些实施例中,第三分类模块进一步被配置成确定初始标签样 本集合中的初始标签样本的数据源;确定数据源的数据混杂程度;基 于数据混杂程度对初始标签样本集合中的初始标签样本进行数据清洗, 确定第一类别的初始标签样本和第二类别的初始标签样本。
在一些实施例中,第四分类模块进一步被配置成确定初始标签样 本集合中的初始标签样本在不同时间段内标记的初始标签是否一致; 响应于确定一致,将初始标签样本划分为第一类别的初始标签样本; 响应于确定不一致,将初始标签样本划分为第二类别的初始标签样本。
在一些实施例中,模型训练单元包括:第一标签信息获取模块, 被配置成将第一类别的初始标签样本的用户信息输入初始分类器,得 到初始分类器输出的第一标签信息;第二标签信息获取模块,被配置 成将第二类别的初始标签样本的用户信息输入初始分类器,得到初始 分类器输出的第二标签信息;第一损失值获取模块,被配置成将第一 类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失 函数,得到第一损失值;第二损失值获取模块,被配置成将第二类别 的初始标签样本所标记的标签信息和第二标签信息输入第二损失函数, 得到第二损失值;总损失值确定模块,被配置成基于第一损失值、第 二损失值以及惩罚项,确定所有初始标签样本的总损失值;判断模块, 被配置成确定总损失值是否在预设阈值范围内;身份预测模块训练模 块,被配置成响应于确定总损失值不在预设阈值范围内,调整初始分 类器的参数,直至总损失值在预设阈值范围内时停止训练初始分类器, 将所得到的当前的分类器作为身份预测模型。
在一些实施例中,第一类别的初始标签样本为数据清洗得到的可 学习的样本,第二类别的初始标签样本为数据清洗剔除的不可学习的 样本。
第三方面,本公开的实施例提供了一种电子设备,包括:一个或 多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个 程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方 面中任一实现方式的方法。
第四方面,本公开的实施例提供了一种计算机可读介质,其上存 储有计算机程序,其中,该程序被处理器执行时实现如第一方面中任 一实现方式的方法。
本公开的实施例提供的用于识别用户身份信息的方案,首先,获 取待标注样本,其中,待标注样本包括用户信息,然后将该待标注样 本输入身份预测模型,得到待标注样本的预测身份信息。这里先获取 初始标签样本集合,其中,初始标签样本包括已标记初始标签的用户 信息,然后,基于初始标签样本,对初始标签样本集合中的初始标签 样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始 标签样本,之后,基于第一类别的初始标签样本和第一损失函数,第 二类别的初始标签样本和第二损失函数,训练得到身份预测模型。在 本实施例中,在训练身份预测模型时,将所有初始标签样本经过数据 清洗分类为第一类别的初始标签样本和第二类别的初始标签样本,然 后,结合这两个类别的初始标签样本和对应的损失函数,训练得到身 份预测模型,由于训练数据全面,因此会提高训练得到的身份预测模 型的预测准确度,从而使得预测的身份信息更加准确。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本公开的其它特征、目的和优点将会变得更明显:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的用于识别用户身份信息的方法的一个实施例 的流程图;
图3是根据本公开的实施例的用于识别用户身份信息的方法的应 用场景的示意图;
图4是根据本公开的用于识别用户身份信息的方法的另一个实施 例的流程图;
图5是根据本公开的用于识别用户身份信息的方法的又一个实施 例的流程图;
图6是根据本公开的用于识别用户身份信息的装置的实施例的结 构示意图;
图7是适于用来实现本公开的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解 的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发 明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与 有关发明相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例 中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本 公开。
图1示出了可以应用本公开的用于识别用户身份信息的方法的实 施例的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103, 网络104和服务器105。网络104用以在终端设备101、102、103和 服务器105之间提供通信链路的介质。网络104可以包括各种连接类 型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接 收或发送消息等。终端设备101、102、103上可以安装有各种通讯客 户端应用,例如网页浏览器应用、视频类应用、即时通信工具、邮箱 客户端、交通信息类应用、阅读类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设 备101、102、103为硬件时,可以是具有显示屏并且支持与服务器通 信的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读 器、MP3播放器(Moving Picture Experts Group Audio LayerIII,动态 影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV,动态影像专家压缩标准音频层面4)播放器、膝上型 便携计算机和台式计算机等等。当终端设备101、102、103为软件时, 可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件 模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如可以从终端设备 101、102、103上获取信息的后台服务器。后台服务器可以对获取到的 待标注样本进行分析和处理,并将信息处理的结果反馈给终端设备。
服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实 现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。 当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供 分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。 在此不做具体限定。
需要说明的是,本公开的实施例所提供的用于识别用户身份信息 的方法一般由服务器执行,相应地,用于识别用户身份信息的装置一 般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意 性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本公开的用于识别用户身份信息的方 法的一个实施例的流程200。该用于识别用户身份信息的方法,应用 于服务器,该用于识别用户身份信息的方法包括以下步骤:
步骤201,获取初始标签样本集合。
在本实施例中,用于识别用户的身份信息的方法的执行主体(如 图1所示的服务器105)可以获取初始标签样本集合。这里的初始标 签样本包括已标记标签的用户信息。例如,初始标签样本可以是某个 用户的消费信息。该用户的标签可以是学生,或者白领。
上述执行主体可以通过有线或者无线连接的方式从第三方设备获 取初始标签样本集合。
步骤202,基于该初始标签样本,对该初始标签样本集合中的初 始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别 的初始标签样本。
在本实施例中,若获取到初始标签样本集合,上述执行主体可以 结合该初始标签样本集合中的初始标签样本的用户信息,对该初始标 签样本集合中的初始标签样本进行数据清洗。
数据清洗是对数据进行重新审查和校验的过程。在本实施例中, 数据清洗可以是指对初始标签样本的标签进行数据清洗,以确定第一 类别的初始标签样本和第二类别的初始标签样本。
可选的,本实施例中的第一类别的初始标签样本可以为数据清洗 得到的可学习的样本,第二类别的初始标签样本可以为数据清洗剔除 的不可学习的样本。例如,假设有多个已标记标签的初始标签样本, 服务器在结合初始标签样本以及标签信息进行分析之后,发现有的标 签是清楚的,可以用于机器学习的;有的标签是可能错误的,有的初 始标签样本是无法识别其准确标签的,这些标签可能就不可适用于机 器学习,此时,服务器可以将该初始标签样本进行清洗,筛选出可学 习的初始标签样本和不可学习的初始标签样本。即,服务器确定第一 类别的初始标签样本和第二类别的初始标签样本。
在本实施例的一些可选的实现方式中,上述执行主体可以基于初 始标签样本的特征信息的数据稳定性,对初始标签样本集合中的初始 标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的 初始标签样本。
在本实施例的一些可选的实现方式中,上述执行主体可以基于初 始标签样本的属性信息的有效性,对初始标签样本集合中的初始标签 样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始 标签样本。
在本实施例的一些可选的实现方式中,上述执行主体可以基于初 始标签样本的数据源的数据混杂程度,对初始标签样本集合中的初始 标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的 初始标签样本。
在本实施例的一些可选的实现方式中,上述执行主体可以基于初 始标签样本在不同时间段内标记的初始标签,对初始标签样本集合中 的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二 类别的初始标签样本。
需要说明的是,本实施例中可以采用上述其中任意一种可选的实 现方式中的方法确定第一类别的初始标签样本和第二类别的初始标签 样本,也可以采用上述任意两种或者两种以上可选的实现方式中的方 法进行组合,共同实现确定第一类别的初始标签样本和第二类别的初 始标签样本,本实施例不以此为限制。
通过上述可选的实现方式中的方法确定第一类别的初始标签样本 和第二类别的初始标签样本,可以实现对初始标签样本较精确的分类。
步骤203,基于该第一类别的初始标签样本和第一损失函数、第 二类别的初始标签样本和第二损失函数,训练得到身份预测模型。
在本实施例中,若得到了第一类别的初始标签样本和第二类别的 初始标签样本,上述执行主体可以结合该第一类别的初始标签样本和 第一损失函数,以及第二类别的初始标签样本和第二损失函数,训练 得到身份预测模型。
例如上述执行主体可以将第一类别的初始标签样本输入初始模型, 得到输出结果,然后将该输出结果和期望输出结果通过第一损失函数 判断两者的接近程度。将第二类别的初始标签样本输入该初始模型, 得到输出结果,然后将该输出结果和期望输出结果通过第二损失函数 判断两者的接近程度。服务器可以对第一损失函数和第二损失函数分 别设置第一期望损失值和第二期望损失值,不断对初始模型进行训练, 直至两个损失函数的输出结果分别达到第一期望损失值和第二期望损 失值时,停止对初始模型的训练,此时所得到的模型可以作为身份预 测模型。该身份预测模型的输出结果既可以表示用户的准确身份信息, 也可以表示用户的无法识别的身份信息,从而提高识别用户身份信息 的准确度。
步骤204,获取待标注样本。
在本实施例中,上述执行主体可以获取待标注样本。这里的待标 注样本包括用户信息。
这里的用户信息,可以包括某个用户的购物行为信息、注册信息 等等,本实施例不以此为限制。
在本实施例中,上述执行主体可以通过有线或者无线方式从第三 方终端设备获取待标注样本。
步骤205,将待标注样本输入身份预测模型,得到待标注样本的 预测身份信息。
在本实施例中,若获取到待标注样本,上述执行主体可以将该待 标注样本输入上述得到的身份预测模型中。该身份预测模型得到的输 出结果为待标注样本的预测身份信息。
继续参见图3,图3是根据本公开的实施例的用于识别用户身份 信息的方法的应用场景的示意图。在图3的应用场景中,服务器302 从终端设备301获取初始标签样本集合303。其中,这里的初始标签 样本3031包括已标记标签的用户信息。
接着,服务器302可以结合初始标签样本3031,对初始标签样本 集合303中的初始标签样本进行数据清洗,确定第一类别的初始标签 样本304和第二类别的初始标签样本305。
然后,结合第一类别的初始标签样本304和第一损失函数306、 第二类别的初始标签样本305和第二损失函数307,训练得到身份预 测模型308。
之后,服务器302可以将获取到的待标注样本309输入身份预测 模型308,得到待标注样本309的预测身份信息310。
目前,现有技术之一通常是在半监督学习过程中使用大量的先验 假设,由于信息不足会使得后续噪音被反复学习,导致训练集有严重 偏差,得到的检测结果也不准确。而本公开的上述实施例提供的方法, 在训练身份预测模型时,将所有初始标签样本经过数据清洗分类为第 一类别的初始标签样本和第二类别的初始标签样本,然后,结合这两 个类别的初始标签样本和对应的损失函数,训练得到身份预测模型, 由于训练数据全面,因此会提高训练得到的身份预测模型的预测准确 度,从而使得预测身份信息更加准确。
进一步参考图4,其示出了用于识别用户身份信息的方法的另一 个实施例的流程400。该用于识别用户身份信息的方法的流程400,应 用于服务器,包括以下步骤:
步骤401,获取初始标签样本集合。
在本实施例中,上述步骤401可以采用与前述实施例中的步骤201 类似的方式执行,并且,上文针对步骤201的描述也适用于步骤401, 此处不再赘述。
步骤402,提取初始标签样本集合中的初始标签样本的特征信息。
在本实施例中,若获取到初始标签样本集合,用于识别用户身份 信息的方法的执行主体(如图1所示的服务器105)可以提取初始标 签样本集合中的初始标签样本的特征信息。
这里的特征信息,可以是图2所示的实施例中的用户信息。例如, 这里的特征信息例如可以包括居住地址信息、消费量信息、用户使用 该地址的时长信息等等。服务器可以对获取到的初始标签样本进行特 征分析,然后提取特信息。
步骤403,基于预定时间段内该特征信息的数据波动确定该特征 信息的数据稳定性。
在本实施例中,若提取到初始标签样本集合中的初始标签样本的 特征信息,服务器可以获取预定时间段内该特征信息的数据波动,然 后,结合该数据波动,确定该特征信息的稳定性。
例如线上获取的用户信息通常是基于账户信息来表现的,但是账 户信息所指示的用户不一定是用户本人,使得现有信息无法真实反映 用户信息。因此,在本实施例中,可以采用目标本体识别的方法来确 定用户的各种身份信息是否指示的是同一个用户。
例如,如表1所示,服务器可以获取用户的以下特征信息:
表1
变量名 含义 统计周期
tn<sub>mean</sub> 用户不同地址单量均值 最近一年
cn<sub>mean</sub> 用户不同地址消费量均值 最近一年
time<sub>mean</sub> 用户不同地址使用时长均值 最近3年
tn<sub>var_mean</sub> 用户不同地址单量方差的均值 最近一年
cn<sub>var_mean</sub> 用户不同地址消费量方差的均值 最近一年
time<sub>var_mean</sub> 用户不同地址使用时长方差的均值 最近3年
tn<sub>place_buy</sub> 用户在该地址总单量 最近一年
cn<sub>place_buy</sub> 用户该地址消费总量 最近一年
time<sub>place_buy</sub> 用户该地址总使用时长 最近3年
tn<sub>place_var</sub> 用户该地址近6个月购买次数的方差 最近6个月
cn<sub>place_var</sub> 用户该地址近6个月消费的方差 最近6个月
tn<sub>var</sub> 用户不同地址单量方差 最近一年
cn<sub>var</sub> 用户不同地址消费量方差 最近一年
time<sub>var</sub> 用户不同地址使用时长方差 最近一年
服务器在获取到上述特征信息之后,可以基于以下公式求取特征 信息的稳定性:
Figure BDA0002169121440000131
Figure BDA0002169121440000132
stable=base_score*a (3)
其中,base_score为基本得分;a为基本得分的置信度,用户最近 几个月的行为信息的数据波动与总体数据波动相比越小置信度就越高; stable为特征信息的数据稳定性。
步骤404,响应于该初始标签样本的特征信息的稳定性大于或者 等于预设稳定性,将该初始标签样本划分为第一类别的初始标签样本。
在本实施例中,若得到了特征信息的数据稳定性,若该数据稳定 性大于或等于预设稳定性,上述执行主体可以将该初始标签样本划分 为第一类别的初始标签样本。
例如可以设置一个稳定性阈值,然后将上述得到的特征信息的稳 定性与该稳定性阈值进行比较。若该数据稳定性大于或等于该稳定性 阈值,说明该初始标签样本的特征信息的数据波动比较小,数据比较 稳定,该初始标签样本属于可学习的标签,服务器可以将其划分为第 一类别的初始标签样本。
步骤405,响应于该初始标签样本的特征信息的数据稳定性小于 该预设稳定性,将该初始标签样本划分为第二类别的初始标签样本。
在本实施例中,若该初始标签样本的特征信息的数据稳定性小于 预设稳定性,则说明该初始标签样本的特征信息的数据波动比较大, 数据不稳定,该初始标签样本可能属于不可学习的标签,服务器可以 将其划分为第二类别的初始标签样本。
步骤406,基于该第一类别的初始标签样本和第一损失函数、第 二类别的初始标签样本和第二损失函数,训练得到身份预测模型。
步骤407,获取待标注样本。
步骤408,将该待标注样本输入身份预测模型,得到该待标注样 本的预测身份信息。
在本实施例中,上述步骤406、步骤407和步骤408可以分别采 用与前述实施例中的步骤203、步骤204和步骤205类似的方式执行, 并且,上文针对步骤203、步骤204和步骤205的描述也分别适用于 步骤406、步骤407和步骤408,此处不再赘述。
与上述步骤402至405所描述的确定第一类别的初始标签样本和 第二类别的初始标签样本相对应,在本实施例的一些可选的实现方式 中,上述执行主体还可以通过以下步骤确定第一类别的初始标签样本 和第二类别的初始标签样本:
第一步,提取初始标签样本集合中的初始标签样本的属性信息。
在本实现方式中,上述执行主体可以提取初始标签样本集合中的 初始标签样本的属性信息。这里的属性信息可以包括但不限于以下至 少一项:用户的年龄信息、用户的收入信息。
第二步,基于该属性信息与先验信息的比较,确定该属性信息是 否存在有效性。
在本实现方式中,若提取到初始标签样本集合中的初始标签样本 的属性信息,上述执行主体可以将该属性信息与先验信息进行比较。 上述执行主体可以预先获取大量的先验信息,即经验数据,然后,在 得到属性信息之后,将该属性信息与预先获取的先验信息进行比较从 而确定该属性信息是否存在有效性。
作为示例,例如先验信息是用户必须为成年人才有资格进行某些 活动,而这里的初始标签样本中的属性信息为用户年龄为8岁,则显 然该属性信息缺乏有效性。
第三步,响应于确定存在有效性,将与该属性信息相匹配的初始 标签样本划分为第一类别的初始标签样本。
在本实现方式中,若确定该属性信息存在有效性,则将与该属性 信息相匹配的初始标签样本划分为第一类别的初始标签样本。这里的 第一类别的初始标签样本可以包括可学习的标签样本。例如标签是正 确的样本和标签是错误的样本都可以被称为可学习的标签样本。
第四步,响应于确定不存在有效性,将与该属性信息匹配的初始 标签样本划分为第二类别的初始标签样本。
在本实现方式中,若确定该属性信息不存在有效性,则将与该属 性信息匹配的初始标签样本划分为第二类别的初始标签样本。这里的 第二类别的初始标签样本可以包括不可学习的标签样本。例如标签是 无法识别的样本。
需要说明的是,本实现方式可以替代步骤402至405所描述的确 定第一类别的初始标签样本和第二类别的初始标签样本的实现方式, 也可以是在步骤402至步骤405之前或者之后进行,与上述步骤402 至步骤405进行组合,共同实现确定第一类别的初始标签样本和第二 类别的初始标签样本。
通过本实现方式,获取的初始标签样本的属性信息,然后确定该 属性信息的有效性,从而根据该有效性对初始标签样本进行分类,提 高了初始标签样本分类的精度。
与上述步骤402至405所描述的确定第一类别的初始标签样本和 第二类别的初始标签样本相对应,在本实施例的一些可选的实现方式 中,上述执行主体还可以通过以下步骤确定第一类别的初始标签样本 和第二类别的初始标签样本:
第一步,确定初始标签样本集合中的初始标签样本的数据源。
在本实现方式中,上述执行主体还可以确定初始标签样本集合中 的初始标签样本的数据源。例如对于同一批用户信息,若其可以分别 来自多个数据源,则在不同数据源该用户的标签信息可能存在不同。 这里,可以先确定初始标签样本的数据源。
第二步,确定数据源的数据混杂程度。
在本实现方式中,若确定了初始标签样本的数据源,则服务器可 以确定数据源的数据混杂程度。具体地,上述执行主体可以根据计算 得到的数据源的基尼不纯度、信息熵或者方差,来确定数据源的数据 混杂程度,具体的算法不再赘述。
第三步,基于该数据混杂程度对初始标签样本集合中的初始标签 样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始 标签样本。
在本实现方式中,若确定数据源的数据混杂程度之后,上述执行 主体可以结合该数据混杂程度对初始标签样本集合中的初始标签样本 进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签 样本。
作为示例,例如上述执行主体可以通过以下公式计算数据混杂程 度:
Figure BDA0002169121440000161
Figure BDA0002169121440000162
其中,i表示第i个数据源;n表示数据源个数;confi表示第i个数据 源的可信度,需要说明的是,该i个数据源的可信度可以是基于预先验 证的;
Figure BDA0002169121440000171
表示n个数据源的可信度之和;pi表示第i个数据源的置 信度;chaos_scorej表示第j个初始标签样本的n个数据源的数据混杂 程度。
然后,在得到数据混杂程度之后,上述执行主体可以将该数据混 杂程度大于预设值的初始标签样本集合中的初始标签样本划分为第二 类别的初始标签样本。
即上述执行主体将得到的某个初始标签样本的数据源的数据混杂 程度与预设值进行比较。该预设值例如是所有初始标签样本的数据混 杂程度的均值。比较之后,若该初始标签样本的数据源的数据混杂程 度大于该均值,说明该初始标签样本的标签来源比较混杂,此时可以 剔除该初始标签样本的标签,并且,将该初始标签样本划分为第二类 别的初始标签样本,即不可学习的初始标签样本集合中。
然后,将数据混杂程度小于或者等于预设值的初始标签样本集合 中的初始标签样本划分为第一类别的初始标签样本,即可学习的初始 标签样本集合中。
在一些可选的实现方式中,上述执行主体还可以确定初始标签样 本集合中的初始标签样本的数据源的标签缺失率。即确定哪些数据源 中得到的初始标签样本没有标签,以及计算缺失率。
然后,若该缺失率大于预设缺失率,例如缺失率大于75%,则上 述执行主体可以将该初始标签样本集合中的初始标签样本的数据源中 置信度最高的数据源对应的初始标签样本作为主标签样本。这里的置 信度可以为公式(4)计算得到的数据源的置信度。然后,上述执行主 体确定该主标签体对应的标签是否存在。
若该主标签体对应的标签不存在,则上述执行主体可以将该初始 标签样本集合中的初始标签样本划分为第二类别的初始标签样本,即 划分为不可学习的初始标签样本。若该主标签体对应的标签存在,则 上述执行主体可以将该初始标签样本集合中的初始标签样本划分为第 一类别的初始标签样本,即可学习的初始标签样本。
可选的,若该主标签体对应的标签不存在,上述执行主体还可以 取其他数据源的标签的众数,如果存在多个众数,则将该初始标签样 本划分为第二类别的初始标签样本,即划分为不可学习的初始标签样 本。
需要说明的是,本实现方式可以替代上述的实施例或实现方式中 确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式, 也可以在上述的实施例或实现方式中确定第一类别的初始标签样本和 第二类别的初始标签样本的实现方式之前或者之后进行,以便与上述 的实施例或实现方式中确定第一类别的初始标签样本和第二类别的初 始标签样本的实现方式进行组合,共同实现确定第一类别的初始标签 样本和第二类别的初始标签样本。
通过本实现方式,确定初始标签样本集合中的初始标签样本的数 据源,然后确定数据源的混杂程度,基于该混杂程度对初始标签样本 件数据清洗,进而分类,提高了初始标签样本分类的精度。
与上述步骤402至405所描述的确定第一类别的初始标签样本和 第二类别的初始标签样本相对应,在本实施例的一些可选的实现方式 中,上述执行主体还可以通过以下步骤确定第一类别的初始标签样本 和第二类别的初始标签样本:
第一步,确定初始标签样本集合中的初始标签样本在不同时间段 内标记的初始标签是否一致。
在本实现方式中,上述执行主体可以确定初始标签样本集合中的 初始标签样本在不同时间段内标记的初始标签是否一致。例如,这里 的时间段可以是一个月。上述执行主体可以获取三个月内初始标签样 本的初始标签。假设初始标签样本在第一个月的主标签为A,在第二 个月的主标签为B,在第三个月的主标签为C,则说明该初始标签样 本不稳定。
第二步,响应于确定一致,将该初始标签样本划分为第一类别的 初始标签样本。
在本实现方式中,若确定一致,则上述执行主体可以将该初始标 签样本划分为第一类别的初始标签样本。即若该初始标签样本的标签 稳定,则将该初始标签样本划分至可学习的初始标签样本集合。
第三步,响应于确定不一致,将该初始标签样本划分为第二类别 的初始标签样本。
在本实现方式中,若确定不一致,则上述执行主体可以将该初始 标签样本划分为第二类初始标签样本。即若该初始标签样本的标签不 稳定,则将该初始标签样本划分至不可学习的初始标签样本集合。
需要说明的是,本实现方式可以替代上述的实施例或实现方式中 确定第一类别的初始标签样本和第二类别的初始标签样本的实现方式, 也可以是在上述的实施例或实现方式中确定第一类别的初始标签样本 和第二类别的初始标签样本的实现方式之前或者之后进行,以便与上 述的实施例或实现方式中确定第一类别的初始标签样本和第二类别的 初始标签样本的实现方式进行组合,共同实现确定第一类别的初始标 签样本和第二类别的初始标签样本。
通过本实现方式,确定初始标签样本集合中的初始标签样本在不 同时间段内标记的初始标签是否一致,然后根据判断的一致性结果对 初始标签样本进行分类,提高了初始标签样本分类的精度。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用 于识别用户身份信息的方法的流程400体现了提取初始标签样本集合 中的初始标签样本的特征信息,基于预定时间段内该特征信息的数据 波动确定该特征信息的数据稳定性的步骤,以及若该初始标签样本的 特征信息的数据稳定性大于或者等于预设稳定性,将该初始标签样本 划分为第一类别的初始标签样本,若该初始标签样本的特征信息的数 据稳定性小于预设稳定性,将该初始标签样本划分为第二类别的初始 标签样本。由此,本实施例描述的方案可以根据初始标签样本的特征 信息的数据稳定性对初始标签样本进行分类,提高了初始标签样本分 类的精度。
进一步参考图5,其示出了用于识别用户身份信息的方法的又一 个实施例的流程500。该用于识别用户身份信息的方法的流程500,应 用于服务器,包括以下步骤:
步骤501,获取初始标签样本集合。
步骤502,基于该初始标签样本,对该初始标签样本集合中的初 始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别 的初始标签样本。
在本实施例中,上述步骤501和步骤502可以分别采用与前述实 施例中的步骤201和步骤202类似的方式执行,或者,步骤501可以 采用与前述实施例中的步骤401类似的方式执行,步骤502可以采用 与前述实施例中的步骤402至步骤405中类似的方式执行,并且,上 文针对步骤501和步骤502描述也分别适用于步骤201和步骤202, 上述步骤401的描述也可以适用于步骤201,上述步骤402至步骤405 的描述也可以适用于步骤502,此处不再赘述。
步骤503,将第一类别的初始标签样本的用户信息输入初始分类 器,得到初始分类器输出的第一标签信息。
在本实施例中,用于执行用于识别用户身份信息的方法的执行主 体(如图1所示的服务器105)可以将第一类别的初始标签样本的用 户信息输入初始分类器,得到初始分类器输出的第一标签信息。
这里的初始分类器可以是未经过训练的分类器。服务器可以将可 学习的初始标签样本输入初始分类器。初始分类器会输出第一标签信 息。
步骤504,将第二类别的初始标签样本的用户信息输入初始分类 器,得到初始分类器输出的第二标签信息。
在本实施例中,上述执行主体还可以将第二类别的初始标签样本 的用户信息输入初始分类器,得到初始分类器输出的第二标签信息。
这里的初始分类器可以和上述初始分类器相同。服务器可以将不 可学习的初始标签样本输入该初始分类器。初始分类器会输出第二标 签信息。
步骤505,将第一类别的初始标签样本所标记的标签信息和第一 标签信息输入第一损失函数,得到第一损失值。
在本实施例中,若初始分类器输出第一标签信息,则上述执行主 体可以将该第一类别的初始标签样本所标记的标签信息和第一标签信 息输入第一损失函数,得到第一损失值。
这里的第一损失函数例如可以是softmax损失函数,也可以是其 他用于多分类的损失函数,本实施例不以此为限制。
步骤506,将第二类别的初始标签样本所标记的标签信息和第二 标签信息输入第二损失函数,得到第二损失值。
在本实施例中,若初始分类器输出第二标签信息,则上述执行主 体可以将该第二类别的初始标签样本所标记的标签信息和第二标签信 息输入第二损失函数,得到第二损失值。
这里的第二损失函数也可以是softmax损失函数,或者可以是其 他用于多分类的损失函数,本实施例不以此为限制。
步骤507,基于第一损失值、第二损失值以及惩罚项,确定所有初 始标签样本的总损失值。
在本实施例中,若得到第一损失值、第二损失值之后,服务器可 以将该第一损失值、第二损失值以及惩罚项进行求和,确定所有初始 标签样本的总损失值。
需要说明的是,这里的惩罚项也是可以被调整的参数。随着机器 学习的不断进行,可以不断调整该惩罚项的参数,使其达到合理的数 值范围内。
步骤508,确定该总损失值是否在预设阈值范围内。
在本实施例中,若得到总损失值后,上述执行主体可以判断该总 损失值是否在预设阈值范围内。
步骤509,响应于确定该总损失值不在预设阈值范围内,调整初 始分类器的参数,直至总损失值在预设阈值范围内时停止训练初始分 类器,将所得到的当前的分类器作为身份预测模型。
在本实施例中,若该总损失值不在预设阈值范围内,则服务器可 以调整初始分类器的参数,不断进行迭代学习训练,直至该总损失值 在预设阈值范围内时停止训练该初始分类器。此时,将所得到的当前 的分类器作为身份预测模型。
步骤510,获取待标注样本。
步骤511,将该待标注样本输入身份预测模型,得到待标注样本的 预测身份信息。
在本实施例中,上述步骤510和步骤511可以分别采用与前述实 施例中的步骤204和步骤205类似的方式执行,并且,上文针对步骤 204和步骤205的描述也分别适用于步骤510和步骤511,此处不再赘 述。
作为示例,在本实施例中的进行机器学习训练的损失函数可以表 示为如下公式:
Figure BDA0002169121440000221
其中,L表示总损失值;n表示初始标签样本的总量;i表示第i 个初始标签样本;vi表示初始标签样本是否进行跳转,这里当初始标签 样本为第一类别的初始标签样本(可学习)时,vi=1,当初始标签样本为 第二类别的初始标签样本(不可学习)时,vi=0;yi表示第i个初始标签 样本所标记的标签;xi表示第i个初始标签样本的特征信息,这里的特 征信息可以为用户信息;f(xi)表示初始分类器f输出的标签信息;loss 表示第一损失函数,lossothers表示第二损失函数;
Figure BDA0002169121440000222
表示对vi的惩罚项 以防止其跳转的样本过多,a为惩罚力度;C(f(x)表示惩罚项。
这里的初始分类器f可以使用tensorflow模型。作为示例,假设用 户的特征信息(用户信息)如表2所示,则服务器可以在tensorflow模型 的wide部分输入消费类目风险评分特征库中的特征信息以及用信用评分 特征库中非浏览类特征信息,在deep部分输入用户信用评分特征库中的 全部特征信息。
表2
Figure BDA0002169121440000223
Figure BDA0002169121440000231
经过将上述初始标签样本的用户信息经过本实施例的身份预测模 型预测用户的身份信息后,经过验证,假设有A、B、C、D四类初始 标签样本,用现有技术中的模型以及本实施例的模型,得到的分类准 确率的比较结果如表3所示。
表3
目标分类 A B C D
不进行标签清洗的半监督模型 24% 30% 51% 64%
进行标签清洗的半监督模型 40% 35% 69% 65%
本实施例 89% 92% 85% 87%
由表3可以看出,本实施例中的身份预测模型预测用户身份信息 的准确率相对于现有技术中的模型有较大的提高。
从图5中可以看出,与图2对应的实施例相比,本实施例中的用 于识别用户身份信息的方法的流程500体现了将第一类别的初始标签 样本的用户信息输入初始分类器,得到初始分类器输出的第一标签信 息,将第二类别的初始标签样本的用户信息输入初始分类器,得到初 始分类器输出的第二标签信息的步骤,以及将第一类别的初始标签样 本所标记的标签信息和第一标签信息输入第一损失函数,得到第一损 失值,将第二类别的初始标签样本所标记的标签信息第二标签信息输 入第二损失函数,得到第二损失值,基于第一损失值、第二损失值以 及惩罚项,确定所有初始标签样本的总损失值,确定该总损失值是否在预设阈值范围内,响应于确定该总损失值不在预设阈值范围内,调 整初始分类器的参数,直至总损失值在预设阈值范围内时停止训练初 始分类器,将所得到的当前的分类器作为身份预测模型的步骤。由此, 本实施例描述的方案可以结合可学习的第一类别初始标签样本和不可 学习的第二类别初始标签样本对初始分类器进行训练,得到身份预测 模型,提高了身份预测模型的预测准确度。
进一步参考图6,作为对上述各图所示方法的实现,本公开提供 了用于识别用户身份信息的装置的实施例,该装置实施例与图2所示 的方法实施例相对应,该装置具体可以应用于服务器中。
如图6所示,本实施例提供的用于识别用户身份信息的装置600 包括样本集合获取单元601、分类单元602、模型训练单元603、待标 注样本获取单元604和预测身份信息确定单元605。其中,样本集合 获取单元601,被配置成获取初始标签样本集合,其中初始标签样本 包括已标记标签的用户信息;分类单元602,被配置成基于初始标签 样本,对初始标签样本集合中的初始标签样本进行数据清洗,确定第 一类别的初始标签样本和第二类别的初始标签样本,其中第一类别的 初始标签样本为数据清洗得到的可学习的样本,第二类别的初始标签 样本为数据清洗剔除的不可学习的样本;模型训练单元603,被配置 成基于第一类别的初始标签样本和第一损失函数、第二类别的初始标 签样本和第二损失函数,训练得到身份预测模型;待标注样本获取单 元604,被配置成获取待标注样本,其中待标注样本包括用户信息;预 测身份信息确定单元605,被配置成将待标注样本输入身份预测模型,得到待标注样本的预测身份信息。
在本实施例中,用于识别用户身份信息的装置600中:样本集合 获取单元601、分类单元602、模型训练单元603、待标注样本获取单 元604和预测身份信息确定单元605的具体处理及其所带来的技术效 果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步 骤204和步骤205的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,分类单元602可以包括以 下至少一个模块:第一分类模块、第二分类模块、第三分类模块和第 四分类模块(图中未示出)。其中,第一分类模块可以被配置成基于初 始标签样本的特征信息的数据稳定性,对初始标签样本集合中的初始 标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的 初始标签样本;第二分类模块可以被配置成基于初始标签样本的属性 信息的有效性,对初始标签样本集合中的初始标签样本进行数据清洗, 确定第一类别的初始标签样本和第二类别的初始标签样本;第三分类 模型可以被配置成基于初始标签样本的数据源的数据混杂程度,对初 始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初 始标签样本和第二类别的初始标签样本;第四分类模块可以被配置成 基于初始标签样本在不同时间段内标记的初始标签,对初始标签样本 集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本 和第二类别的初始标签样本。
在本实施例的一些可选的实现方式中,第一分类模块可以进一步 被配置成提取初始标签样本集合中的初始标签样本的特征信息;基于 预定时间段内特征信息的数据波动确定特征信息的数据稳定性;响应 于初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性, 将初始标签样本划分为第一类别的初始标签样本;响应于初始标签样本的特征信息的数据稳定性小于预设稳定性,将初始标签样本划分为 第二类别的初始标签样本。
在本实施例的一些可选的实现方式中,第二分类模块可以进一步 被配置成提取初始标签样本集合中的初始标签样本的属性信息,其中, 属性信息包括以下至少一项:用户的年龄信息、用户的收入信息;基 于属性信息与先验信息的比较,确定属性信息是否存在有效性;响应 于确定存在有效性,将与属性信息相匹配的初始标签样本划分为第一 类别的初始标签样本;响应于确定不存在有效性,将与属性信息相匹 配的初始标签样本划分为第二类别的初始标签样本。
在本实施例的一些可选的实现方式中,第三分类模块可以进一步 被配置成确定初始标签样本集合中的初始标签样本的数据源;确定数 据源的数据混杂程度;基于数据混杂程度对初始标签样本集合中的初 始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别 的初始标签样本。
在本实施例的一些可选的实现方式中,第四分类模块可以进一步 被配置成确定初始标签样本集合中的初始标签样本在不同时间段内标 记的初始标签是否一致;响应于确定一致,将初始标签样本划分为第 一类别的初始标签样本;响应于确定不一致,将初始标签样本划分为 第二类别的初始标签样本。
在本实施例的一些可选的实现方式中,模型训练单元可以包括: 第一标签信息获取模块、第二标签信息获取模块、第一损失值获取模 块、第二损失值获取模块、总损失值确定模块、判断模块和身份预测 模型训练模块(图中未示出)。其中,第一标签信息获取模块可以被配 置成将第一类别的初始标签样本的用户信息输入初始分类器,得到初 始分类器输出的第一标签信息;第二标签信息获取模块可以被配置成 将第二类别的初始标签样本的用户信息输入初始分类器,得到初始分 类器输出的第二标签信息;第一损失值获取模块可以被配置成将第一 类别的初始标签样本所标记的标签信息和第一标签信息输入第一损失 函数,得到第一损失值;第二损失值获取模块可以被配置成将第二类 别的初始标签样本所标记的标签信息和第二标签信息输入第二损失函 数,得到第二损失值;总损失值确定模块可以被配置成基于第一损失 值、第二损失值以及惩罚项,确定所有初始标签样本的总损失值;判 断模块可以被配置成确定总损失值是否在预设阈值范围内;身份预测 模块训练模块可以被配置成响应于确定总损失值不在预设阈值范围内, 调整初始分类器的参数,直至总损失值在预设阈值范围内时停止训练 初始分类器,将所得到的当前的分类器作为身份预测模型。
本公开的上述实施例的用于识别用户身份信息的装置,服务器通 过样本集合获取单元601获取初始标签样本集合,通过距离分类单元 602,对初始标签样本集合中的初始标签样本进行数据清洗,确定第一 类别的初始标签样本和第二类别的初始标签样本,模型训练单元603 可以基于第一类别的初始标签样本和第一损失函数、第二类别的初始 标签样本和第二损失函数,训练得到身份预测模型。由于训练数据全 面,因此会提高训练得到的身份预测模型的预测准确度,从而使得预 测的身份信息更加准确。
下面参考图7,下面参考图7,其示出了适于用来实现本公开的实 施例的电子设备(例如图1中的服务器)700的结构示意图。图7示 出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用 范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、 图形处理器等)701,其可以根据存储在只读存储器(ROM)702中的 程序或者从存储装置708加载到随机访问存储器(RAM)703中的程 序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备 700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线 704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸 板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 706;包括例如液晶显示器(LCD,LiquidCrystal Display)、扬声器、 振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以 及通信装置709。通信装置709可以允许电子设备700与其他设备进 行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子 设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可 以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以 代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以 被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程 序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程 序包含用于执行流程图所示的方法的程序代码。在这样的实施例中, 该计算机程序可以通过通信装置709从网络上被下载和安装,或者从 存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处 理装置701执行时,执行本公开的实施例的方法中限定的上述功能。
需要说明的是,本公开的实施例所述的计算机可读介质可以是计 算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组 合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电 磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。 计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或 多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、 光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储 器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可 读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指 令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实 施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分 传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的 任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质 以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播 或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用 的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传 输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等, 或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是 单独存在,而未装配入该服务器中。上述计算机可读介质承载有一个 或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该 服务器:获取待标注样本;将待标注样本输入身份预测模型,得到待 标注样本的预测身份信息,其中身份预测模型是通过以下步骤训练得 到的:获取初始标签样本集合;基于初始标签样本,对初始标签样本 集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本 和第二类别的初始标签样本,基于第一类别的初始标签样本和第一损 失函数、第二类别的初始标签样本和第二损失函数,训练得到身份预测模型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开 的实施例的操作的计算机程序代码,所述程序设计语言包括面向对象 的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程 序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完 全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或 者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中, 远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利 用因特网服务提供商来通过因特网连接)。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。 本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并 不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不 脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意 组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开 的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方 案。

Claims (14)

1.一种用于识别用户身份信息的方法,包括:
获取待标注样本,其中,所述待标注样本包括用户信息;
将所述待标注样本输入身份预测模型,得到所述待标注样本的预测身份信息,其中,所述身份预测模型是通过以下步骤训练得到的:
获取初始标签样本集合,其中,初始标签样本包括已标记标签的用户信息;
基于所述初始标签样本,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本;
基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数,训练得到身份预测模型。
2.根据权利要求1所述的方法,其中,所述基于所述初始标签样本,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括以下至少一项:
基于所述初始标签样本的特征信息的数据稳定性,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本;
基于所述初始标签样本的属性信息的有效性,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本;
基于所述初始标签样本的数据源的数据混杂程度,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本;
基于所述初始标签样本在不同时间段内标记的初始标签,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本。
3.根据权利要求2所述的方法,其中,所述基于所述初始标签样本的特征信息的数据稳定性,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括:
提取所述初始标签样本集合中的所述初始标签样本的特征信息;
基于预定时间段内所述特征信息的数据波动确定所述特征信息的数据稳定性;
响应于所述初始标签样本的特征信息的数据稳定性大于或者等于预设稳定性,将所述初始标签样本划分为第一类别的初始标签样本;
响应于所述初始标签样本的特征信息的数据稳定性小于所述预设稳定性,将所述初始标签样本划分为第二类别的初始标签样本。
4.根据权利要求2所述的方法,其中,所述基于所述初始标签样本的属性信息的有效性,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括:
提取所述初始标签样本集合中的初始标签样本的属性信息,其中,所述属性信息包括以下至少一项:用户的年龄信息、用户的收入信息;
基于所述属性信息与先验信息的比较,确定所述属性信息是否存在有效性;
响应于确定存在有效性,将与所述属性信息相匹配的初始标签样本划分为第一类别的初始标签样本;
响应于确定不存在有效性,将与所述属性信息相匹配的初始标签样本划分为第二类别的初始标签样本。
5.根据权利要求2所述的方法,其中,所述基于所述初始标签样本的数据源的数据混杂程度,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括:
确定所述初始标签样本集合中的初始标签样本的数据源;
确定所述数据源的数据混杂程度;
基于所述数据混杂程度对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本。
6.根据权利要求5所述的方法,其中,所述确定所述数据源的数据混杂程度,包括:
根据计算得到的所述数据源的以下至少一项:基尼不纯度、信息熵、方差,确定所述数据源的数据混杂程度。
7.根据权利要求5所述的方法,其中,所述基于所述数据混杂程度对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括:
将所述数据混杂程度大于预设值的所述初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本,以及,将所述数据混杂程度小于或者等于预设值的所述初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。
8.根据权利要求2至7任一项所述的方法,其中,所述方法还包括:
确定所述初始标签样本集合中的初始标签样本的数据源的标签的缺失率;
响应于所述缺失率大于预设缺失率,将所述初始标签样本集合中的初始标签样本的数据源中置信度最高的数据源对应的初始标签样本作为主标签样本,确定所述主标签样本对应的标签是否存在;
响应于所述主标签样本对应的标签不存在,将所述初始标签样本集合中的初始标签样本划分为第二类别的初始标签样本;
响应于所述主标签样本对应的标签存在,将所述初始标签样本集合中的初始标签样本划分为第一类别的初始标签样本。
9.根据权利要求2所述的方法,其中,所述基于所述初始标签样本在不同时间段内标记的初始标签,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本,包括:
确定所述初始标签样本集合中的初始标签样本在不同时间段内标记的初始标签是否一致;
响应于确定一致,将所述初始标签样本划分为第一类别的初始标签样本;
响应于确定不一致,将所述初始标签样本划分为第二类别的初始标签样本。
10.根据权利要求1所述的方法,其中,所述基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数,训练得到身份预测模型,包括:
将所述第一类别的初始标签样本的用户信息输入初始分类器,得到所述初始分类器输出的第一标签信息;
将所述第二类别的初始标签样本的用户信息输入所述初始分类器,得到所述初始分类器输出的第二标签信息;
将所述第一类别的初始标签样本所标记的标签信息和所述第一标签信息输入第一损失函数,得到第一损失值;
将所述第二类别的初始标签样本所标记的标签信息和所述第二标签信息输入第二损失函数,得到第二损失值;
基于所述第一损失值、所述第二损失值以及惩罚项,确定所有初始标签样本的总损失值;
确定所述总损失值是否在预设阈值范围内;
响应于确定所述总损失值不在所述预设阈值范围内,调整所述初始分类器的参数,直至所述总损失值在所述预设阈值范围内时停止训练所述初始分类器,将所得到的当前的分类器作为所述身份预测模型。
11.根据权利要求1所述的方法,其中,所述第一类别的初始标签样本为数据清洗得到的可学习的样本,所述第二类别的初始标签样本为数据清洗剔除的不可学习的样本。
12.一种用于识别用户身份信息的装置,包括:
待标注样本获取单元,被配置成获取待标注样本,其中,所述待标注样本包括用户信息;
预测身份信息确定单元,被配置成将所述待标注样本输入身份预测模型,得到所述待标注样本的预测身份信息,其中,所述身份预测模型是通过以下单元训练得到的:
样本集合获取单元,被配置成获取初始标签样本集合,其中,初始标签样本包括已标记标签的用户信息;
分类单元,被配置成基于所述初始标签样本,对所述初始标签样本集合中的初始标签样本进行数据清洗,确定第一类别的初始标签样本和第二类别的初始标签样本;
模型训练单元,被配置成基于所述第一类别的初始标签样本和第一损失函数、所述第二类别的初始标签样本和第二损失函数,训练得到身份预测模型。
13.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-11中任一所述的方法。
CN201910757093.5A 2019-08-16 2019-08-16 用于识别用户身份信息的方法和装置 Pending CN112396445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910757093.5A CN112396445A (zh) 2019-08-16 2019-08-16 用于识别用户身份信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757093.5A CN112396445A (zh) 2019-08-16 2019-08-16 用于识别用户身份信息的方法和装置

Publications (1)

Publication Number Publication Date
CN112396445A true CN112396445A (zh) 2021-02-23

Family

ID=74601863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757093.5A Pending CN112396445A (zh) 2019-08-16 2019-08-16 用于识别用户身份信息的方法和装置

Country Status (1)

Country Link
CN (1) CN112396445A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327176A1 (en) * 2008-06-25 2009-12-31 Nec Corporation System and method for learning
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN109242043A (zh) * 2018-09-29 2019-01-18 北京京东金融科技控股有限公司 用于生成信息预测模型的方法和装置
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
WO2019062414A1 (zh) * 2017-09-30 2019-04-04 Oppo广东移动通信有限公司 应用程序管控方法、装置、存储介质及电子设备
CN109816520A (zh) * 2019-01-28 2019-05-28 北京三快在线科技有限公司 职业属性预测方法、装置、设备及存储介质
US20190163742A1 (en) * 2017-11-28 2019-05-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating information
CN109871676A (zh) * 2019-03-14 2019-06-11 重庆邮电大学 基于鼠标行为的三支身份认证方法及系统
US20190197429A1 (en) * 2016-12-12 2019-06-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training classification model, and method and apparatus for classifying data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327176A1 (en) * 2008-06-25 2009-12-31 Nec Corporation System and method for learning
US20190197429A1 (en) * 2016-12-12 2019-06-27 Tencent Technology (Shenzhen) Company Limited Method and apparatus for training classification model, and method and apparatus for classifying data
WO2019062414A1 (zh) * 2017-09-30 2019-04-04 Oppo广东移动通信有限公司 应用程序管控方法、装置、存储介质及电子设备
US20190163742A1 (en) * 2017-11-28 2019-05-30 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for generating information
CN108364192A (zh) * 2018-01-16 2018-08-03 阿里巴巴集团控股有限公司 一种用户挖掘方法、装置以及电子设备
CN108399418A (zh) * 2018-01-23 2018-08-14 北京奇艺世纪科技有限公司 一种用户分类方法及装置
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
CN109242043A (zh) * 2018-09-29 2019-01-18 北京京东金融科技控股有限公司 用于生成信息预测模型的方法和装置
CN109816520A (zh) * 2019-01-28 2019-05-28 北京三快在线科技有限公司 职业属性预测方法、装置、设备及存储介质
CN109871676A (zh) * 2019-03-14 2019-06-11 重庆邮电大学 基于鼠标行为的三支身份认证方法及系统

Similar Documents

Publication Publication Date Title
CN110163647B (zh) 一种数据处理方法及装置
CN108416310B (zh) 用于生成信息的方法和装置
CN106874314B (zh) 信息推荐的方法和装置
CN115002200B (zh) 基于用户画像的消息推送方法、装置、设备及存储介质
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN110795584B (zh) 一种用户标识生成方法、装置及终端设备
CN111783039B (zh) 风险确定方法、装置、计算机系统和存储介质
CN112348321A (zh) 风险用户的识别方法、装置及电子设备
CN113780329A (zh) 用于识别数据异常的方法、装置、服务器和介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN115222433A (zh) 一种信息推荐方法、装置及存储介质
CN111768218A (zh) 用于处理用户交互信息的方法和装置
CN115860835A (zh) 基于人工智能的广告推荐方法、装置、设备及存储介质
CN111325372A (zh) 预测模型的建立方法、预测方法、装置、介质及设备
CN112084408B (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN112396445A (zh) 用于识别用户身份信息的方法和装置
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN112348615A (zh) 用于审核信息的方法和装置
CN112200602B (zh) 用于广告推荐的神经网络模型训练方法及装置
CN118013128A (zh) 基于人工智能的素材推荐方法、装置、设备及存储介质
CN116308468A (zh) 客户对象分类方法、装置、计算机设备及存储介质
CN116542779A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN117197599A (zh) 媒体信息处理方法、装置、设备及存储介质
CN116720692A (zh) 客服派工方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing, 100176

Applicant after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Daxing Economic and Technological Development Zone, Beijing, 100176

Applicant before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination