CN107741932B

CN107741932B - 用户数据融合方法及系统

Info

Publication number: CN107741932B
Application number: CN201610475792.7A
Authority: CN
Inventors: 于秋林; 陈尧
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2021-02-26
Anticipated expiration: 2036-06-24
Also published as: CN107741932A

Abstract

本发明公开了一种用户数据融合方法及系统，该方法包括：通过当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中；若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。本发明可以提高数据的完整性及正确率。

Description

用户数据融合方法及系统

技术领域

本发明涉及用户数据处理的技术领域，尤其涉及一种用户数据融合方法及系统。

背景技术

目前，针对各种系统的不同虚拟用户，业内通常使用主要身份标识信息(例如，身份证号、手机号等)关联到线下真实的用户身上。通过分析系统里大量的用户数据，可总结出许多有价值的规律或可依据规律制定相应的策略；然后做大数据分析时，所述的用户数据可能出现以下缺点：1、数据大量缺失，很多原始数据如腾讯微博，并没有主要身份标识信息；2、当联系方式变更时，例如手机更换号码带来错误，导致用户手机号匹配的正确率很低。因此，用户数据的准确性已经成为一种亟待解决的技术问题。

发明内容

本发明提供一种用户数据融合方法及系统，以解决现有保险理财产品的推荐事件无法及时管控的问题。

第一方面，本发明实施例提供了一种用户数据融合方法，包括：

S10：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；

S11:从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人；

S12：若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。

第二方面，本发明提供了一种用户数据融合系统，包括：

个人特征信息获取模块，用于当用户的个人特征信息中的预设类型特征信息缺失或错误时，从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；

匹配模块，用于从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人；及

融合模块，用于若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。

本发明提供了一种用户数据融合方法及系统，该方法包括：通过当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人；若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。本发明实施例的技术方案可以在用户的个人特征信息缺失或错误时自动从数据库中获取相应的个人特征信息，当识别到与该用户属于同一人的个人特征信息时，将用户的个人特征信息补入缺失的预设类型特征信息或将错误的预设类型特征信息替换为正确的预设类型特征信息，因此自动将用户数据进行融合，从而提高数据的完整性及正确率。

附图说明

图1为本发明实施例一提供的一种用户数据融合方法的流程示意图；

图2为本发明实施例二提供的一种用户数据融合方法的流程示意图；

图3为本发明实施例三提供的一种用户数据融合方法的流程示意图；

图4为本发明实施例四提供的一种用户数据融合方法的流程示意图；及

图5为本发明实施五提供的一种用户数据融合系统的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种用户数据融合方法流程示意图，该方法可以由用户数据融合系统执行，其中该用户数据融合系统可由软件和/或硬件实现，一般可集成在服务器中。

参见图1，本实施例的方法包括如下步骤：

S10：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息。

具体的，所述服务器可以与多个数据库连接，所述服务器可以从多个数据库中获取用户的个人特征信息。

所述预设类型特征信息缺失，可以是，例如，手机号或者身份证号缺失。所述预设类型特征信息错误，可以是，例如，带有错误标识。所述基本特征信息具体是指的是除预设类型特征信息以外的特征信息，例如，姓名、工作单位信息、家庭成员信息、教育经历信息等。

S11：从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人。

优选地，所述预先训练生成的识别模型为支持向量机模型(SVM)，所述预先训练生成的识别模型的生成过程包括：获取预设数量(例如，10万)的样本用户的个人特征信息；逐一从多个预设的数据库获取与各个样本用户至少有一项基本特征信息相同的用户的个人特征信息作为待匹配样本数据；将各个样本用户对应的属于同一样本用户的待匹配样本信息作为该样本用户的匹配样本信息集合分入第一文件夹，并将各个样本用户对应的不属于同一样本用户的待匹配样本信息作为该样本用户的不匹配样本信息集合分入第二文件夹；从第一文件夹和第二文件夹下各提取第一预设比例(例如，70％)的匹配样本信息集合和不匹配样本信息集合作为训练数据，以进行支持向量机(SVM)模型的训练，第一文件夹和第二文件夹下各剩下的第二预设比例(例如，30％)的匹配样本信息集合和不匹配样本信息集合作为测试数据，用以评估模型的分类识别效果；利用提取的第一预设比例的匹配样本信息集合和不匹配样本信息集合进行SVM模型训练以生成对应的SVM模型，利用剩下的第二预设比例的匹配样本信息集合和不匹配样本信息集合对生成的SVM模型进行准确性验证；若训练得到的SVM模型识别准确率小于预设准确率(例如，95％)，则通过增加样本用户的数量来增加的第一文件夹的匹配样本信息集合数量和和第二文件夹下的不匹配样本信息集合的数量，重复上述SVM模型的生成过程，直到生成的SVM模型准确率大于等于预设准确率(例如，95％)。

具体的，当将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，识别出代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人时，则将用户的个人特征信息补入缺失的预设类型特征信息或将错误的预设类型特征信息替换为正确的预设类型特征信息。

本发明实施例的技术方案，通过当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人；若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。本发明实施例的技术方案可以在用户的个人特征信息缺失或错误时自动从数据库中获取相应的个人特征信息，当识别到与该用户属于同一人的个人特征信息时，将用户的个人特征信息补入缺失的预设类型特征信息或将错误的预设类型特征信息替换为正确的预设类型特征信息，因此自动将用户数据进行融合，从而提高数据的完整性及正确率。

实施例二

图2是为本发明实施例二提供的一种用户数据融合方法流程示意图。以实施例一为基础，将预设的匹配规则作进一步优化，以提高将用户数据融合的效率。

S20：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息。

S21：从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人。

S22：若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，且若与该用户的个人特征信息同属于同一人的待匹配信息只有一个，则将与该用户的个人特征信息同属于同一人的待匹配信息作为选定的匹配信息，将选定的匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为选定的匹配信息中的预设类型特征信息。

实施例三

图3是为本发明实施例三提供的一种用户数据融合方法流程示意图。以实施例一为基础，将预设的匹配规则作进一步优化，以提高将用户数据融合的效率。

S30：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息。

S31：从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人。

S32：若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，且若与该用户的个人特征信息同属于同一人的待匹配信息有多个，则根据数据库与可信权重的关联数据，确定出对应最高可信权重的数据库的待匹配信息作为选定的匹配信息，若选定的匹配信息只有一个，则将选定的匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为选定的匹配信息中的预设类型特征信息。

实施例四

图4是为本发明实施例四提供的一种用户数据融合方法流程示意图。以实施例一为基础，将预设的匹配规则作进一步优化，以提高将用户数据融合的效率。

S40：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息。

S41：从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人。

S42：若与该用户的个人特征信息同属于同一人的待匹配信息有多个，则根据预设的数据库与可信权重的关联数据，确定出对应最高可信权重的数据库的待匹配信息作为选定的匹配信息，若选定的匹配信息有多个，则将多个选定的匹配信息发送给预设的终端，以供人工确定唯一的匹配信息，并将确定的唯一匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为确定的唯一匹配信息中的预设类型特征信息。

实施例五

图5为本发明实施例五提供的一种用户数据融合系统的结构示意图。所述用户数据融合系统应用于服务器中以进行用户数据的融合。

本实施例的系统具体包括：个人特征信息获取模块50、匹配模块51及融合模块52。

所述个人特征信息获取模块50，用于当用户的个人特征信息中的预设类型特征信息缺失或错误时，从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息。

所述匹配模块51，用于从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人。

所述融合模块52，用于若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息

进一步的，所述融合模块52具体用于：

若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，且若与该用户的个人特征信息同属于同一人的待匹配信息只有一个，则将与该用户的个人特征信息同属于同一人的待匹配信息作为选定的匹配信息，将选定的匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为选定的匹配信息中的预设类型特征信息；或

若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，且若与该用户的个人特征信息同属于同一人的待匹配信息有多个，则根据数据库与可信权重的关联数据，确定出对应最高可信权重的数据库的待匹配信息作为选定的匹配信息，若选定的匹配信息只有一个，则将选定的匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为选定的匹配信息中的预设类型特征信息；或

若与该用户的个人特征信息同属于同一人的待匹配信息有多个，则根据预设的数据库与可信权重的关联数据，确定出对应最高可信权重的数据库的待匹配信息作为选定的匹配信息，若选定的匹配信息有多个，则将多个选定的匹配信息发送给预设的终端，以供人工确定唯一的匹配信息，并将确定的唯一匹配信息中的预设类型特征信息补入该用户的个人特征信息中，或将该用户的个人特征信息中的错误预设类型特征信息替换为确定的唯一匹配信息中的预设类型特征信息。

本实施例的技术方案提供的用户数据融合系统，通过利用个人特征信息获取模块50当用户的个人特征信息中的预设类型特征信息缺失或错误时，从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；利用匹配模块51从获取的个人特征信息中查找出包括有所述预设类型特征信息的个人特征信息作为待匹配信息，并逐个将待匹配信息与该用户的个人特征信息代入预先训练生成的识别模型中，以识别出每一个代入所述识别模型中的待匹配信息是否与该用户的个人特征信息同属于同一人；利用融合模块52若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息。本发明实施例的技术方案可以在用户的个人特征信息缺失或错误时自动从多个数据库中获取相应的个人特征信息，当识别到与该用户属于同一人的个人特征信息时，将用户的个人特征信息补入缺失的预设类型特征信息或将错误的预设类型特征信息替换为正确的预设类型特征信息，因此自动将用户数据进行融合，从而提高数据的完整性及正确率。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用户数据融合方法，其特征在于，包括：

S10：当用户的个人特征信息中的预设类型特征信息缺失或错误时，服务器从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；所述预设类型特征信息是指手机号或者身份证号；所述基本特征信息是指姓名、工作单位信息、家庭成员信息、教育经历信息中的任一种或几种组合；

S12：若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息；

所述预先训练生成的识别模型为支持向量机模型，所述预先训练生成的识别模型的生成过程包括：获取预设数量的样本用户的个人特征信息；逐一从多个预设的数据库获取与各个样本用户至少有一项基本特征信息相同的用户的个人特征信息作为待匹配样本数据；将各个样本用户对应的属于同一样本用户的待匹配样本信息作为该样本用户的匹配样本信息集合分入第一文件夹，并将各个样本用户对应的不属于同一样本用户的待匹配样本信息作为该样本用户的不匹配样本信息集合分入第二文件夹；从第一文件夹和第二文件夹下各提取第一预设比例的匹配样本信息集合和不匹配样本信息集合作为训练数据，以进行支持向量机模型的训练，第一文件夹和第二文件夹下各剩下的第二预设比例的匹配样本信息集合和不匹配样本信息集合作为测试数据，用以评估模型的分类识别效果；利用提取的第一预设比例的匹配样本信息集合和不匹配样本信息集合进行支持向量机模型训练以生成对应的支持向量机模型，利用剩下的第二预设比例的匹配样本信息集合和不匹配样本信息集合对生成的支持向量机模型进行准确性验证；若训练得到的支持向量机模型识别准确率小于预设准确率，则通过增加样本用户的数量来增加第一文件夹的匹配样本信息集合数量和第二文件夹下的不匹配样本信息集合的数量，重复上述支持向量机模型的生成过程，直到生成的支持向量机模型准确率大于等于预设准确率。

2.根据权利要求1所述的方法，其特征在于，步骤S12具体包括：

3.一种用户数据融合系统，其配置于服务器中，其特征在于，包括：

个人特征信息获取模块，用于当用户的个人特征信息中的预设类型特征信息缺失或错误时，从多个数据库中获取与该用户至少有一项基本特征信息相同的用户的个人特征信息；所述预设类型特征信息是指手机号或者身份证号；所述基本特征信息是指姓名、工作单位信息、家庭成员信息、教育经历信息中的任一种或几种组合；

融合模块，用于若有代入所述识别模型中的待匹配信息与该用户的个人特征信息同属于同一人，则所述服务器将该用户的个人特征信息补入缺失的预设类型特征信息，或将错误的预设类型特征信息替换为正确的预设类型特征信息；

4.根据权利要求3所述的系统，其特征在于，所述融合模块具体用于：