CN106529110A

CN106529110A - 一种用户数据分类的方法和设备

Info

Publication number: CN106529110A
Application number: CN201510571182.2A
Authority: CN
Inventors: 白松; 李禹�; 武凯; 潘静
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-09-09
Filing date: 2015-09-09
Publication date: 2017-03-22
Also published as: WO2017041651A1

Abstract

本申请的目的是提供一种用户数据的分类方法，通过获取若干用户数据，并基于所述用户数据生成若干样本；基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；接着，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本；随后，基于所述相同类样本和不同类样本，对所述用户数据进行分类。从而更准确地根据用户数据的特征信息对用户数据进行关联识别，更好的对用户数据分类至相应用户的记录，打通用户多次的综合描述特征信息，以供为用户服务。

Description

一种用户数据分类的方法和设备

技术领域

本申请涉及计算机领域，尤其涉及一种用户数据分类的技术。

背景技术

随着云时代的来临，大数据(Big data)也吸引了越来越多的关注。互联网和移动的快速发展也使大数据的概念远不止大量的数据(TB级别数据)和处理大量数据的技术，或者所谓的"4个V"(Volume、Variety、Value和Velocity)的简单概念，大数据也在各个领域不断增加应用，也越来越面向个人应用，将用户在生活中方方面面个人信息收集整理，为用户提供切身服务。

因此，不仅在电信行业、互联网行业等易产生大量用户数据的行业，教育，采矿，电力等行业，尤其是医疗领域等传统行业，如何在获取用户的众多数据后，根据用户数据的特征信息对用户数据进行关联识别，依据用户数据所对应的用户，对用户数据进行有效分类，以供为用户服务成为广泛关注的问题。

发明内容

本申请的目的是提供一种用户数据分类的方法与设备，以解决对用户数据进行有效分类的问题。

根据本申请的一个方面，提供了一种用户数据的分类方法，包括：

获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；

基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；

利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；

基于所述相同类样本和不同类样本，对所述用户数据进行分类。

进一步地，所述用户数据为用户的医疗记录数据，所述区别特征信息包括所述用户的身份特征信息，所述综合描述特征信息包括用户的医疗记录特征信息。

进一步地，所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。

其中，所述基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本包括：

当所述样本中两个用户数据均具有唯一识别区别特征信息时，基于所述唯一识别区别特征信息的比较信息，将所述分为相同类样本或不同类样本；

当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时，基于所述不唯一识别区别特征信息的比较信息，将所述样本分为不同类样本或待确定类样本；

当所述样本中两个用户数据至少一个不具有区别特征信息时，则将所述样本分为待确定类样本；

进一步地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。

进一步地，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：

创建逻辑回归模型，所述逻辑回归模型为关于所述样本中两个用户数据的若干综合描述特征信息的差别信息与所述样本的分类信息的关系模型；

获取所述相同类样本和所述不同类样本中的两个用户数据的若干综合描述特征信息的差别信息及相应样本的分类信息；

基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练，以获得逻辑回归模型中各综合描述特征信息的差别信息的权重信息。

进一步地，获得所述预测分类模型的过程还包括：

利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。

其中，所述利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本包括：

获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息；

将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；

基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

进一步地，所述机器学习法包括随机森林法。

根据本申请的另一方面，还提供了一种用户数据的分类设备，包括：

获取装置，用于获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；

比较装置，用于基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；

训练装置，用于利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；

分类装置，用于基于所述相同类样本和不同类样本，对所述用户数据进行分类。

其中，所述比较装置用于：

当所述样本中两个用户数据至少一个不具有区别特征信息时，则将所述样本分为待确定类样本。

进一步地，获得所述预测分类模型的过程还包括：

其中，所述训练装置包括：

获取单元，用于获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息；

输入单元，用于将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；

样本单元，用于基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

进一步地，所述机器学习法包括随机森林法。

与现有技术相比，本申请通过获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；接着，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；基于所述相同类样本和不同类样本，对所述用户数据进行分类。从而更准确地根据用户数据的特征信息对用户数据进行关联识别，更好的对用户数据分类至相应用户的记录，打通用户多次的综合描述特征信息，以供为用户服务。

进一步地，本申请可应用于医疗领域，例如应用于对用户的体检记录的关联识别等，所述用户数据为用户的医疗记录数据，例如用户的体检记录等。本申请通过获取若干用户医疗记录数据，并基于所述用户医疗记录数据生成若干样本，每一所述样本包括具有相同姓名的两个用户医疗记录数据；基于所述样本中两个用户医疗记录数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；接着，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的医疗综合描述特征信息进行训练所获得的；基于所述相同类样本和不同类样本，对所述用户医疗记录数据进行分类。从而得到医疗机构中每个用户对应的一系列体检记录，打通用户连续多年的体检记录。进一步地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户医疗记录数据的综合描述特征信息进行训练所获得的，能够识别到全部的体检记录，且准确率高，同时，更好地开发和利用体检机构积累的海量用户数据，对用户个人、医疗机构和社会产生巨大的价值。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用户数据的分类设备的结构示意图；

图2示出根据本申请一个方面的一个优选实施例的具体场景的流程示意图；

图3示出根据本申请一个方面的一个优选实施例的训练装置13的结构示意图；

图4示出根据本申请又一个方面的一种用户数据的分类方法流程示意图；

图5示出根据本申请又一个方面的一个优选实施例的步骤S13的方法流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

图1示出根据本申请一个方面的一种用户数据的分类设备的结构示意图，该设备1包括获取装置11、比较装置12、训练装置13和分类装置14。

其中，获取装置11，获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；比较装置12，基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；训练装置13，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；分类装置14，基于所述相同类样本和不同类样本，对所述用户数据进行分类。

在此，所述设备1包括但不限于用户设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品，例如智能手机、PDA等，所述移动电子产品可以采用任意操作系统，如android操作系统、iOS操作系统等。其中，所述网络设备包括一种能够按照事先设定或存储的指令，自动进行数值计算和信息处理的电子设备，其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地，转出用户设备1还可以是运行于所述用户设备、或用户设备与网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然，本领域技术人员应能理解上述设备1仅为举例，其他现有的或今后可能出现的设备1如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，例如所述获取装置11持续获取若干用户数据，并基于所述用户数据生成若干样本；所述比较装置12持续基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；训练装置13持续利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本；分类装置14持续基于所述相同类样本和不同类样本，对所述用户数据进行分类，直至所述设备1完成解锁工作或停止工作。

在此，所述标识特征信息为能够将用户数据分为多个不同子集的特征信息，例如：人的姓名、商家的品牌名等；所述区别特征信息为能够用于判定是否属于相同的用户的特征信息，例如人的身份证号码、人的手机号、商家的组织机构代码等；所述综合描述特征信息为无法直接关联识别用户数据，但通过所述综合描述特征信息的综合描述，也能够建立用户数据对应的用户的“画像”，间接地判定是否属于相同的用户的特征信息，例如人的生理信息(包括身高、体重、血压等)、商家的经营领域或宣传等。

具体地，所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。在此，所述唯一识别区别特征信息为：能够直接判定样本中两个用户数据是相同类或不同类，进而确定样本为相同类样本或不同类样本的特征信息，例如人的身份证号码、商家的组织机构代码等；所述不唯一识别区别特征信息为：当样本中两个用户数据的对应的不唯一识别区别特征信息不同时，则能够直接确定两个用户数据是不同类，进而确定样本为不同类样本，但当对应的不唯一识别区别特征信息相同时，则不能够直接确定两个用户数据是相同类或不同类，进而确定样本为相同类样本的特征信息，例如人的性别、民族、国际、商家的经营领域等。

具体地，比较装置12用于：当所述样本中两个用户数据均具有唯一识别区别特征信息时，基于所述唯一识别区别特征信息的比较信息，将所述分为相同类样本或不同类样本；当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时，基于所述不唯一识别区别特征信息的比较信息，将所述样本分为不同类样本或待确定类样本；当所述样本中两个用户数据至少一个不具有区别特征信息时，则将所述样本分为待确定类样本。

具体地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。

具体地，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：创建逻辑回归模型，所述逻辑回归模型为关于所述样本中两个用户数据的若干综合描述特征信息的差别信息与所述样本的分类信息的关系模型；获取所述相同类样本和所述不同类样本中的两个用户数据的若干综合描述特征信息的差别信息及相应样本的分类信息；基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练，以获得逻辑回归模型中各综合描述特征信息的差别信息的权重信息。

具体地，获得所述预测分类模型的过程还包括：利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。

具体地，所述训练装置13包括：获取单元131获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息；输入单元132将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；样本单元133基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

具体地，所述机器学习法包括随机森林法。

本申请所述设备1用于用户数据的分类，首先通过所述标识特征信息为能够将用户数据分为多个不同子集，并在子集中两两组成样本，对每一样本进行比较，比较过程中利用所述区别特征信息对样本进行比较，获取相同类样本、不同类样本及由于所述区别特征信息缺失或由区别特征信息不能直接确定的待确定样本，利用相同类样本和不同类样本中的用户数据的综合描述特征信息训练获得的训练模型，即用户数据的“画像”，再利用训练模型对待确定样本进行进一步比较，再根据相同类样本和不同类样本对用户数据进行子集下的分类，从而能够更准确地根据用户数据的特征信息对用户数据进行关联识别和分类，进而为用户提供个性化服务打下基础。

优选的，本申请所述设备1优选地应用于医疗领域，所述用户数据优选为用户医疗记录数据，例如：历次体检记录数据、历次医院检查记录数据等，用户医疗记录数据通常包括用户的姓名信息和与用户的生理状况、身体状况相关的医疗综合描述特征信息，还可能包括不同的用户区别特征信息，例如身份证号码、性别、出生日期、血型、民族等。

目前，医疗机构采用姓名+身份证(或者手机号)来识别用户连续多年的体检数据，由于常见的重名情况，同一用户的姓名可能实际对应不同的用户，而用户的身份证号码、手机号等区别特征信息也常常出现缺失，医疗机构只能根据用户的当前体检结果来诊断，而且本次体检过后不会再提供后续服务，导致医疗机构未能打通每个用户多年的体检记录，不能观察到每个用户连续多年身体各项指标的变化情况，进而无法为用户提供更好地个性化服务。

因此，可利用本申请所述设备1对用户医疗记录数据中可能具有的用户区别特征信息和医疗综合描述特征信息对具有相同的用户的姓名的用户数据进行分类，从而得到医疗机构中每个用户对应的一系列医疗服务，包括体检记录，打通用户连续多年的医疗记录，提高用户数据关联识别的准确率，同时，更好地开发和利用医疗机构积累的海量用户数据，对用户个人、医疗机构和社会产生巨大的价值。

我们将在实施例中以对用户的体检记录进行关联识别的分类为例，对本申请所述设备1应用于医疗领域进行具体说明。本领域技术人员应能理解，除体检记录外，本申请还可以应用于医疗领域其他用户数据的分类，例如用户的医疗诊断记录、大病记录、健康随访记录等。其中，所述区别特征信息优选地为用户的身份特征信息，例如民族、性别、年龄等，所述综合描述特征信息优选地为用户的医疗记录特征信息，例如体检记录中的生理数据、过往病史记录等。

具体地，获取装置11，获取若干用户医疗记录数据，并基于所述用户医疗记录数据生成若干样本，每一所述样本包括具有相同用户姓名信息的两个用户医疗记录数据。

在此，在体检机构中，用户医疗记录数据包括体检记录数据，按照体检用户的姓名将所有的体检记录划分为多个子集，每个子集包含一条或者多条体检记录，每个子集中可能是多个人的体检记录集合。如果一个子集中只有一条体检记录，即此人未与他人重名且只体检过一次，则此体检记录唯一的属于此人；如果一个子集中不少于两条体检记录时，将每个子集中的任意两条体检记录作为一个样本，即获取若干样本。

具体地，比较装置12，基于所述样本中两个用户医疗记录数据的身份特征信息及所述身份特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本。

在此，所述用户的身份特征信息可以是关于用户身份的信息，例如包括但不限于姓名、性别、身份证、手机号、婚姻状况、国籍、在职情况、总工龄等，从用户的身份信息中特征选取身份特征信息，该信息包括身份证号、社保卡号、性别、出生日期、血型和民族，当然，特征选取的身份特征信息不限于上述所列举的内容。

根据所在同一个样本中的两个用户医疗记录数据的身份特征信息及所述身份特征信息的比较信息，将样本按照设定的方法进行分类，例如，当所述样本中两个用户医疗记录数据均具有唯一识别身份特征信息身份证号时，比较两个身份证号，若相同，则将比较的两个用户医疗记录数据所在的样本分为相同类样本，若不同，则将比较的两个用户医疗记录数据所在的样本分为不同类样本；当所述样本中两个用户医疗记录数据至少一个缺失身份证号时，进行比较两个用户的不唯一识别身份特征信息，进行比较性别、出生日期、血型和民族，若其中有一项不同则将所述样本分为不同类样本，若比较的不唯一识别身份特征信息都相同，则将所述样本分为待确定类样本；当所述样本中两个用户医疗记录数据至少一个不具有身份特征信息时，即至少有一个用户的身份证号、出生日期、性别、血型和民族等这些代表用户身份的信息缺失时，则将所述样本分为待确定类样本。

本领域技术人员应能理解，上述样本的分类方法仅为举例，其他现有的或今后可能出现的样本的分类方法如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

具体地，训练装置13，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户医疗记录数据的记录特征信息进行训练所获得的。

在一具体场景中，所述记录特征信息包括医疗记录特征信息，例如，用户的体检记录信息，包括但不限于身高、体重、脉搏、血糖、收缩压、舒张压、血红蛋白、谷丙转氨酶、体检间隔天数等。计算每个相同类样本和不同类样本中两条体检记录中记录特征信息的相差值，采用机器学习中的逻辑回归或随机森林方法建立用户关联和识别模型；对所建立的模型利用相同类样本和不同类样本进行训练，以获得模型中各记录特征信息的差别信息的权重信息。采用训练好的模型对待确定类样本进行预测分类，即判定待确定类样本中每个样本是否属于同一个人。

本领域技术人员应能理解，上述预测分类仅为举例，其他现有的或今后可能出现的预测分类如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

具体地，分类装置14，基于所述相同类样本和不同类样本，对所述用户数据进行分类。在此，确定每个样本为相同类样本或不同样本后，得到一系列两条体检记录属于同一个人的关系对，可以采用ODPS或Hadoop对结果进行汇总，将每一个用户数据(即体检记录)分类到一个用户中，进而得到每个用户对应的一系列体检记录。

在此，所述ODPS(Open Data Processing Service)是指开放数据处理服务，海量数据处理和分析的服务平台，提供针对TB/PB级数据、实时性要求不高的分布式处理能力，应用于数据分析、海量数据统计、机器学习、数据挖掘等领域。所述Hadoop是一个能够对大量数据进行分布式处理的软件框架，用户可以在Hadoop上开发和运行处理海量数据的应用程序。本领域技术人员应能理解，并不限于采用ODPS或Hadoop对用户数据的分类方法，今后可能出现的能够使用与用户数据的分类方法的，也可以包括在本申请的思想范围之内。

优选地，所述身份特征信息包括唯一识别身份特征信息和不唯一识别身份特征信息。在此，唯一识别身份证信息是指代表每个用户身份具有唯一性的信息，能够判定两个用户医疗记录数据是否属于同一个人，同时具有肯定和否定的作用，例如身份证号、社保卡号，一旦有后不可更改，两个用户医疗记录数据对应的身份证号相同，则说明这两个用户医疗记录数据属于同一个人，反之，则说明两个用户医疗记录数据不属于同一个人；不唯一识别身份特征信息是指能够体现用户的身份特征信息，包含用户不变的信息，但具有不唯一性，只能判定两个用户医疗记录数据不是属于同一个人，即只具有否定作用，例如性别、出生日期、血型和民族，两个用户医疗记录数据对应的性别不同，则这两个用户医疗记录数据肯定不属于同一个人，反之，不能说明两个用户医疗记录数据属于同一个人。

更优选地，所述比较装置12用于：当所述样本中两个用户医疗记录数据均具有唯一识别身份特征信息时，基于所述唯一识别身份特征信息的比较信息，将所述分为相同类样本或不同类样本；当所述样本中两个用户医疗记录数据至少一个不具有唯一识别身份特征信息时，基于所述不唯一识别身份特征信息的比较信息，将所述样本分为不同类样本或待确定类样本；当所述样本中两个用户医疗记录数据至少一个不具有身份特征信息时，则将所述样本分为待确定类样本。

在一具体场景中，例如，将用户的体检数据进行选取和分级，分为等级A，等级B和等级C，其中，等级A为唯一识别身份特征信息，包括：身份证号、社保卡号；等级B为不唯一识别身份特征信息，包括：性别、出生日期、血型和民族；等级C为记录特征信息，包括：身高、体重、脉搏、血糖、收缩压、舒张压、血红蛋白、谷丙转氨酶和体检间隔天数。如图2示出具体场景的流程示意图，由于大部分用户的身份证号、社保卡号信息缺失，因此，第一步要判断两条体检记录中的等级A信息是否存在。如果两条体检记录都包含身份证号或者社保卡号，则需要进一步判断身份证号或者社保卡号是否相同，若身份证号或者社保卡号相同，则这两条体检记录属于同一个人，若身份证或者社保卡均不同，则判定这两条体检记录属于不同的人。如果这两条体检记录中至少有一条的身份证号和社保卡号信息均缺失，则需要通过等级B继续判定。如果两条体检记录中包含等级B的信息，若性别、出生日期、血型和民族中只要有一项不相同，则能直接判定这两条记录属于不同的人。如果两条体检记录不包含等级B的信息或者等级B中的信息经过比较后均相同，则不能判定这两条体检记录是否属于同一个人，需要进一步通过等级C进行判定。通过上述等级A和等级B的判定，如果两条体检记录属于同一个人，则把这两条体检记录分为相同类样本，可记为正样本；如果两条体检记录属于不同的人，则把这两条体检记录分为不同类样本，可记为负样本；如果通过等级A和等级B比较还不能判定，则将这两条体检记录所在的样本分为待确定类样本；如果两条体检记录中至少有一条不包含等级A和等级B中的信息时，即缺失等级A和等级B中的信息，则将其所在的样本分为待确定类样本。

本领域技术人员应能理解，上述分类样本的方法仅为举例，其他现有的或今后可能出现的分类样本的方法如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

优选地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的医疗记录特征信息进行训练所获得的。

在此，预测分类即判定待确定类样本中两个用户医疗记录数据是否属于同一个人，接上述具体场景，通过利用机器学习法创建关于正负样本中两个用户医疗记录数据的若干体检记录信息的差别信息与正负样本的分类信息的逻辑回归模型，将正负样本中的两个用户医疗记录数据的若干体检记录信息的差别信息及相应样本的分类信息输入所创建的模型中；接着，基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练，即训练正负样本以获得逻辑回归模型中各体检记录信息的差别信息的权重信息。

更优选地，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：创建逻辑回归模型，所述逻辑回归模型为关于所述样本中两个用户医疗记录数据的若干医疗记录特征信息的差别信息与所述样本的分类信息的关系模型；获取所述相同类样本和所述不同类样本中的两个用户医疗记录数据的若干医疗记录特征信息的差别信息及相应样本的分类信息；基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练，以获得逻辑回归模型中各医疗记录特征信息的差别信息的权重信息。

继续接前例，相同类样本记为正样本，不同类样本记为负样本，计算正样本和负样本中两条体检记录中等级C的特征信息的相差值，得到如下形式集合：{身高差，体重差，脉搏差，血糖差，收缩压差，舒张压差，血红蛋白差，谷丙转氨酶差，体检间隔天数}，接着，将得到的集合按照8:2的比例分为训练集和测试集，其中，训练集和测试集中正负样本比例均为1:1，利用逻辑回归法创建逻辑回归的模型形式如下：

Y＝C₀+C₁*身高差+C₂*体重差+C₃*脉搏差+C₄*血糖差+C₅*收缩压差+C₆*舒张压差+C₇*血红蛋白差+C₈*谷丙转氨酶差+C₉*体检间隔天数

式中，C₀、C₁、C₂……C₉表示权重系数，Y表示分类结果，当Y大于等于0.5时，表示这两条体检记录属于同一个人，当Y小于0.5时，则表示这两条体检记录属于不同的人。

接着，用训练集中正负样本对创建的逻辑回归模型进行训练，得到权重系数C₀、C₁、C₂……C₉的值，权重系数的大小表明对应的特征信息对分类结果的影响大小。

更优选地，获得所述预测分类模型的过程还包括：利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。接上例，用训练集中正负样本对创建的逻辑回归模型进行训练得到权重系数后，将测试集中的正负样本对该模型进行测试，计算该模型的准确率和AUC(曲线下面积)值。

本领域技术人员应能理解，上述预测分类模型的方法仅为举例，其他现有的或今后可能出现的预测分类模型的方法如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

图3示出根据本申请一个方面的一个优选实施例的训练装置13的结构示意图。该装置包括获取单元131、输入单元132和样本单元133。

其中，获取单元131，获取所述待确定类样本中两个用户医疗记录数据的若干医疗记录特征信息的差别信息；输入单元132，将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；样本单元133，基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

优选地，获取单元131，获取所述待确定类样本中两个用户医疗记录数据的若干医疗记录特征信息的差别信息。在此，差别信息是指待确定样本中两个用户医疗记录数据的相应的身高差、体重差、脉搏差、血糖差、收缩压差、舒张压差、血红蛋白差、谷丙转氨酶差和体检间隔天数的信息，计算所述的差别信息。

本领域技术人员应能理解，上述差别信息仅为举例，其他现有的或今后可能出现的差别信息如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

接着，输入单元132，将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息。再继续接前例，基于得到逻辑回归模型的权重系数，将计算得到的差别信息输入所得逻辑回归模型，获取所述样本的分类信息即计算出分类结果值Y，得到Y的信息。

随后，样本单元133，基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。根据计算出的Y值，判定所述待确定类样本，当Y大于等于0.5时，表示待确定类样本为相同类样本，即样本中的两条体检记录属于同一个人；当Y小于0.5时，表示待确定类样本为不同类样本，即样本中的两条体检记录不属于同一个人。

优选地，所述机器学习法包括随机森林法。在此，基于相同类样本和不同类样本及其中用户医疗记录信息数据的记录特征信息进行训练获得预测分类模型，用N来表示训练的相同类样本和不同类样本的个数，M表示变量的数目。m为已知，被用来决定当在一个节点上做决定时，会使用到多少变量，其中，m小于M；从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集(即bootstrap取样)，并使用这棵树来对待确定类样本预测其类别，即判定待确定类样本中每个样本是否属于同一个人，并评估其误差。对于每一个节点，随机选择m个基于此点上的变量，根据m个变量，计算其最佳的分割方式；每棵树都会完整成长而不会剪枝(Pruning)。

图4示出根据本申请又一个方面的一种用户数据的分类方法流程示意图，该方法包括步骤S11、步骤S12、步骤S13和步骤S14。

其中，在步骤S11中，获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；在步骤S12中，基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；在步骤S13中，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；在步骤S14中，基于所述相同类样本和不同类样本，对所述用户数据进行分类。

具体地，在步骤S12中：当所述样本中两个用户数据均具有唯一识别区别特征信息时，基于所述唯一识别区别特征信息的比较信息，将所述分为相同类样本或不同类样本；当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时，基于所述不唯一识别区别特征信息的比较信息，将所述样本分为不同类样本或待确定类样本；当所述样本中两个用户数据至少一个不具有区别特征信息时，则将所述样本分为待确定类样本。

具体地，步骤S13包括：步骤S131，获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息；步骤S132，将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；步骤S133，基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

具体地，所述机器学习法包括随机森林法。

本申请所述方法用于用户数据的分类，首先通过所述标识特征信息为能够将用户数据分为多个不同子集，并在子集中两两组成样本，对每一样本进行比较，比较过程中利用所述区别特征信息对样本进行比较，获取相同类样本、不同类样本及由于所述区别特征信息缺失或由区别特征信息不能直接确定的待确定样本，利用相同类样本和不同类样本中的用户数据的综合描述特征信息训练获得的训练模型，即用户数据的“画像”，再利用训练模型对待确定样本进行进一步比较，再根据相同类样本和不同类样本对用户数据进行子集下的分类，从而能够更准确地根据用户数据的特征信息对用户数据进行关联识别和分类，进而为用户提供个性化服务打下基础。

因此，可利用本申请所述方法对用户医疗记录数据中可能具有的用户区别特征信息和医疗综合描述特征信息对具有相同的用户的姓名的用户数据进行分类，从而得到医疗机构中每个用户对应的一系列医疗服务，包括体检记录，打通用户连续多年的医疗记录，提高用户数据关联识别的准确率，同时，更好地开发和利用医疗机构积累的海量用户数据，对用户个人、医疗机构和社会产生巨大的价值。

我们将在实施例中以对用户的体检记录进行关联识别的分类为例，对本申请所述方法应用于医疗领域进行具体说明。本领域技术人员应能理解，除体检记录外，本申请还可以应用于医疗领域其他用户数据的分类，例如用户的医疗诊断记录、大病记录、健康随访记录等。其中，所述区别特征信息优选地为用户的身份特征信息，例如民族、性别、年龄等，所述综合描述特征信息优选地为用户的医疗记录特征信息，例如体检记录中的生理数据、过往病史记录等。

具体地，在步骤S11中，获取若干用户医疗记录数据，并基于所述用户医疗记录数据生成若干样本，每一所述样本包括具有相同用户姓名信息的两个用户医疗记录数据。

具体地，在步骤S12中，基于所述样本中两个用户医疗记录数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本。

在此，所述用户的身份特征信息可以是关于用户身份的信息，例如包括但不限于姓名、性别、身份证、手机号、婚姻状况、国籍、在职情况、总工龄等，从用户的身份信息中特征选取区别特征信息，该信息包括身份证号、社保卡号、性别、出生日期、血型和民族，当然，特征选取的区别特征信息不限于上述所列举的内容。

根据所在同一个样本中的两个用户医疗记录数据的区别特征信息及所述区别特征信息的比较信息，将样本按照设定的方法进行分类，例如，当所述样本中两个用户医疗记录数据均具有唯一识别区别特征信息身份证号时，比较两个身份证号，若相同，则将比较的两个用户医疗记录数据所在的样本分为相同类样本，若不同，则将比较的两个用户医疗记录数据所在的样本分为不同类样本；当所述样本中两个用户医疗记录数据至少一个缺失身份证号时，进行比较两个用户的不唯一识别区别特征信息，进行比较性别、出生日期、血型和民族，若其中有一项不同则将所述样本分为不同类样本，若比较的不唯一识别区别特征信息都相同，则将所述样本分为待确定类样本；当所述样本中两个用户医疗记录数据至少一个不具有区别特征信息时，即至少有一个用户的身份证号、出生日期、性别、血型和民族等这些代表用户身份的信息缺失时，则将所述样本分为待确定类样本。

具体地，在步骤S13中，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户医疗记录数据的综合描述特征信息进行训练所获得的。

在一具体场景中，综合描述特征信息包括医疗综合描述特征信息，例如，用户的体检记录信息，包括身高、体重、脉搏、血糖、收缩压、舒张压、血红蛋白、谷丙转氨酶、体检间隔天数。计算每个相同类样本和不同类样本中两条体检记录中综合描述特征信息的相差值，采用机器学习中的逻辑回归或随机森林方法建立用户关联和识别模型；对所建立的模型利用相同类样本和不同类样本进行训练，以获得模型中各综合描述特征信息的差别信息的权重信息。采用训练好的模型对待确定类样本进行预测分类，即判定待确定类样本中每个样本是否属于同一个人。

具体地，在步骤S14中，基于所述相同类样本和不同类样本，对所述用户数据进行分类。在此，确定每个样本为相同类样本或不同样本后，得到一系列两条体检记录属于同一个人的关系对，可以采用ODPS或Hadoop对结果进行汇总，将每一个用户数据(即体检记录)分类到一个用户中，进而得到每个用户对应的一系列体检记录。

优选地，所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。在此，唯一识别身份证信息是指代表每个用户身份具有唯一性的信息，能够判定两个用户医疗记录数据是否属于同一个人，同时具有肯定和否定的作用，例如身份证号、社保卡号，一旦有后不可更改，两个用户医疗记录数据对应的身份证号相同，则说明这两个用户医疗记录数据属于同一个人，反之，则说明两个用户医疗记录数据不属于同一个人；不唯一识别区别特征信息是指能够体现用户的区别特征信息，包含用户不变的信息，但具有不唯一性，只能判定两个用户医疗记录数据不是属于同一个人，即只具有否定作用，例如性别、出生日期、血型和民族，两个用户医疗记录数据对应的性别不同，则这两个用户医疗记录数据肯定不属于同一个人，反之，不能说明两个用户医疗记录数据属于同一个人。

更优选地，在步骤S12中，当所述样本中两个用户医疗记录数据均具有唯一识别区别特征信息时，基于所述唯一识别区别特征信息的比较信息，将所述分为相同类样本或不同类样本；当所述样本中两个用户医疗记录数据至少一个不具有唯一识别区别特征信息时，基于所述不唯一识别区别特征信息的比较信息，将所述样本分为不同类样本或待确定类样本；当所述样本中两个用户医疗记录数据至少一个不具有区别特征信息时，则将所述样本分为待确定类样本。

在一具体场景中，例如，将用户的体检数据进行选取和分级，分为等级A，等级B和等级C，其中，等级A为唯一识别区别特征信息，包括：身份证号、社保卡号；等级B为不唯一识别区别特征信息，包括：性别、出生日期、血型和民族；等级C为综合描述特征信息，包括：身高、体重、脉搏、血糖、收缩压、舒张压、血红蛋白、谷丙转氨酶和体检间隔天数。如图2示出具体场景的流程示意图，由于大部分用户的身份证号、社保卡号信息缺失，因此，第一步要判断两条体检记录中的等级A信息是否存在。如果两条体检记录都包含身份证号或者社保卡号，则需要进一步判断身份证号或者社保卡号是否相同，若身份证号或者社保卡号相同，则这两条体检记录属于同一个人，若身份证或者社保卡均不同，则判定这两条体检记录属于不同的人。如果这两条体检记录中至少有一条的身份证号和社保卡号信息均缺失，则需要通过等级B继续判定。如果两条体检记录中包含等级B的信息，若性别、出生日期、血型和民族中只要有一项不相同，则能直接判定这两条记录属于不同的人。如果两条体检记录不包含等级B的信息或者等级B中的信息经过比较后均相同，则不能判定这两条体检记录是否属于同一个人，需要进一步通过等级C进行判定。通过上述等级A和等级B的判定，如果两条体检记录属于同一个人，则把这两条体检记录分为相同类样本，可记为正样本；如果两条体检记录属于不同的人，则把这两条体检记录分为不同类样本，可记为负样本；如果通过等级A和等级B比较还不能判定，则将这两条体检记录所在的样本分为待确定类样本；如果两条体检记录中至少有一条不包含等级A和等级B中的信息时，即缺失等级A和等级B中的信息，则将其所在的样本分为待确定类样本。

优选地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的医疗综合描述特征信息进行训练所获得的。

更优选地，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：创建逻辑回归模型，所述逻辑回归模型为关于所述样本中两个用户医疗记录数据的若干医疗综合描述特征信息的差别信息与所述样本的分类信息的关系模型；获取所述相同类样本和所述不同类样本中的两个用户医疗记录数据的若干医疗综合描述特征信息的差别信息及相应样本的分类信息；基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练，以获得逻辑回归模型中各医疗综合描述特征信息的差别信息的权重信息。

图5示出根据本申请又一个方面的一个优选实施例的步骤S13的方法流程示意图。步骤S13包括步骤S131、步骤S132和步骤S133。

其中，在步骤S131中，获取所述待确定类样本中两个用户医疗记录数据的若干医疗综合描述特征信息的差别信息；在步骤S132中，将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息；在步骤S133中，基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。

优选地，在步骤S131中，获取所述待确定类样本中两个用户医疗记录数据的若干医疗综合描述特征信息的差别信息。在此，差别信息是指待确定样本中两个用户医疗记录数据的相应的身高差、体重差、脉搏差、血糖差、收缩压差、舒张压差、血红蛋白差、谷丙转氨酶差和体检间隔天数的信息，计算所述的差别信息。

接着，在步骤S132中，将所述差别信息输入所述逻辑回归模型，获得所述样本的分类信息。再继续接前例，基于得到逻辑回归模型的权重系数，将计算得到的差别信息输入所得逻辑回归模型，获取所述样本的分类信息即计算出分类结果值Y，得到Y的信息。

随后，在步骤S133中，基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。根据计算出的Y值，判定所述待确定类样本，当Y大于等于0.5时，表示待确定类样本为相同类样本，即样本中的两条体检记录属于同一个人；当Y小于0.5时，表示待确定类样本为不同类样本，即样本中的两条体检记录不属于同一个人。

优选地，所述机器学习法包括随机森林法。在此，基于相同类样本和不同类样本及其中用户医疗记录信息数据的综合描述特征信息进行训练获得预测分类模型，用N来表示训练的相同类样本和不同类样本的个数，M表示变量的数目。m为已知，被用来决定当在一个节点上做决定时，会使用到多少变量，其中，m小于M；从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集(即bootstrap取样)，并使用这棵树来对待确定类样本预测其类别，即判定待确定类样本中每个样本是否属于同一个人，并评估其误差。对于每一个节点，随机选择m个基于此点上的变量，根据m个变量，计算其最佳的分割方式；每棵树都会完整成长而不会剪枝(Pruning)。

本申请所述用于用户数据的分类方法和设备，通过获取若干用户数据，并基于所述用户数据生成若干样本，每一所述样本包括具有相同标识特征信息的两个用户数据；基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；接着，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的；基于所述相同类样本和不同类样本，对所述用户数据进行分类。从而更准确地根据用户数据的特征信息对用户数据进行关联识别，更好的对用户数据分类至相应用户的记录，打通用户多次的综合描述特征信息，以供为用户服务。

进一步地，本申请可应用于医疗领域，例如应用于对用户的体检记录的关联识别等，所述用户数据为用户的医疗记录数据，例如用户的体检记录等。本申请通过获取若干用户的医疗记录数据，并基于所述用户的医疗记录数据生成若干样本，每一所述样本包括具有相同姓名的两个用户医疗记录数据；基于所述样本中两个用户医疗记录数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本；接着，利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本，其中，所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的医疗综合描述特征信息进行训练所获得的；基于所述相同类样本和不同类样本，对所述用户医疗记录数据进行分类。从而得到医疗机构中每个用户对应的一系列体检记录，打通用户连续多年的体检记录。进一步地，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户医疗记录数据的综合描述特征信息进行训练所获得的，能够识别到全部的体检记录，且准确率高，同时，更好地开发和利用体检机构积累的海量用户医疗记录数据，对用户个人、医疗机构和社会产生巨大的价值。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用户数据的分类方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述用户数据为用户的医疗记录数据，所述区别特征信息包括所述用户的身份特征信息，所述综合描述特征信息包括用户的医疗记录特征信息。

3.根据权利要求1或2所述的方法，其中，所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。

4.根据权利要求3所述的方法，其中，所述基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息，将所述样本分为相同类样本、不同类样本或待确定类样本包括：

5.根据权利要求1至4中任一项所述的方法，其中，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。

6.根据权利要求5所述的方法，其中，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：

7.根据权利要求6所述的方法，其中，获得所述预测分类模型的过程还包括：

8.根据权利要求5至7中任一项所述的方法，其中，所述利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本包括：

9.根据权利要求8所述的方法，其中，所述机器学习法包括随机森林法。

10.一种用户数据的分类设备，其中，所述设备包括：

11.根据权利要求10所述的设备，其中，所述用户数据为用户的医疗记录数据，所述区别特征信息包括所述用户的身份特征信息，所述综合描述特征信息包括用户的医疗记录特征信息。

12.根据权利要求10或11所述的设备，其中，所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。

13.根据权利要求12所述的设备，其中，所述比较装置用于：

14.根据权利要求10至13中任一项所述的设备，其中，所述预测分类模型为利用机器学习法，基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。

15.根据权利要求14所述的设备，其中，所述机器学习法包括逻辑回归法，获得所述预测分类模型的过程包括：

16.根据权利要求15所述的设备，其中，获得所述预测分类模型的过程还包括：

17.根据权利要求14至16中任一项所述的设备，其中，所述训练装置包括：

18.根据权利要求17所述的设备，其中，所述机器学习法包括随机森林法。