CN110457590A

CN110457590A - 基于小数据输入的智能用户画像方法

Info

Publication number: CN110457590A
Application number: CN201910554801.5A
Authority: CN
Inventors: 徐清
Original assignee: Huayuan Data Technology (shanghai) Co Ltd
Current assignee: Huayuan Data Technology (shanghai) Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-11-15
Anticipated expiration: 2039-06-25
Also published as: CN110457590B

Abstract

本发明公开了一种基于小数据输入的智能用户画像方法，其中，包括：创建用户基本信息模型、行为纬度模型，输入用户对应数据，生成基本信息行为数据；对基本信息行为数据进行深度学习，获取用户行为高阶信息数据；通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中，获取隐性内驱力数据；创建用户跨领域行为模型数据；将隐性内驱力数据与用户跨领域行为模型数据匹配，生成用户画像。本发明在完成前期的数据收集处理后，将隐性内驱力数据与用户跨领域行为模型数据匹配，生成用户画像。采用了隐性内驱力(BFI)技术，大大减弱了对数据的依赖量，支持小数据冷启动；输出维度丰富，支持跨领域预测；削弱了马太效应。

Description

基于小数据输入的智能用户画像方法

技术领域

本发明涉及一种用户画像方法，尤其涉及一种基于小数据输入的智能用户画像方法。

背景技术

现有技术中的用户画像技术，是一种通过挖掘用户的行为数据给用户打上标签的技术，在兴趣挖掘、广告推荐、异常检测等方面有着诸多应用。

传统的用户画像技术主要基于协同过滤算法，该算法的训练过程中需要用到大量的、多维度的行为数据，当用户行为数据稀疏或者维度稀少时，对用户画像的描述准确性较差，不仅会影响商用，同时会带来诸多的误导。

另外传统的用户画像技术具有很强的马太效应，对长尾挖掘性能很低。因此，支持小数据冷启动、具有跨领域预测一直是用户画像领域的难点和关键点。

中国专利公开号CN107330271A公开了一种基于云端大数据物联网和智能画像技术的医疗体检方法及其装置，该方案包括体检一体机，体检一体机包括体检软件和信息采集设备；体检软件包括信息接收模块，云端数据同步模块，数据分析模块、智能画像模块和诊疗建议反馈模块；信息接收模块，用于接收信息采集设备所采集的体检信息；云端数据同步模块，用于将采集到的体检信息同步到云端；数据分析模块，用于对采集到的体检信息进行大数据分析；智能画像模块，用于通过智能画像技术得到诊疗建议；诊疗建议反馈模块，用于将诊疗建议反馈给体检者；信息采集设备，包括医疗设备和读卡器。其公开的技术方案结合了物联网、大数据、智能画像技术，可以给予体检者专业的诊疗建议，但是，其采集体检人员的各种信息用到了大量的用户数据来构建用户画像，无法解决小数据冷启动问题。

鉴于上述问题，本发明致力于提供一种可以有效解决小数据冷启动的问题，并且实现跨领域推荐应用的基于小数据的用户画像方法。

发明内容

本发明的上述目的是通过以下技术方案实现的：

一种基于小数据输入的智能用户画像方法，其中，包括：

创建用户基本信息模型、行为纬度模型，输入用户对应数据，生成基本信息行为数据；

对基本信息行为数据进行深度学习，获取用户行为高阶信息数据；

通过前馈神经网络将用户行为高阶信息数据映射到隐性内驱力模型中，获取隐性内驱力数据；

创建用户跨领域行为模型数据；

将隐性内驱力数据与用户跨领域行为模型数据匹配，生成用户画像。

如上所述的基于小数据输入的智能用户画像方法，其中，基本信息模型包括：人口统计学信息、征信信息、税务信息。

如上所述的基于小数据输入的智能用户画像方法，其中，行为纬度模型包括：经济行为、网络行为、个人爱好、购物记录。

如上所述的基于小数据输入的智能用户画像方法，其中，将用户对应数据入数据库得出基本信息行为数据。

如上所述的基于小数据输入的智能用户画像方法，其中，将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据，高阶信息数据包括静态数据和动态数据。

如上所述的基于小数据输入的智能用户画像方法，其中，在python中利用Tensorflow搭建前馈神经网络，将提取出来的静态特征和动态特征映射到隐性内驱力，并存入数据库。

如上所述的基于小数据输入的智能用户画像方法，其中，隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。

如上所述的基于小数据输入的智能用户画像方法，其中，创建用户跨领域行为模型数据包括：将数据映射到隐性内驱力，将不同来源的稀疏数据整合。

如上所述的基于小数据输入的智能用户画像方法，其中，数据匹配包括：利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。

如上所述的基于小数据输入的智能用户画像方法，其中，跨领域行为模型数据包括：音乐偏好、消费偏好、理财偏好、价值观。

综上所述，由于采用了上述技术方案，本发明在完成前期的数据收集处理后，将隐性内驱力数据与用户跨领域行为模型数据匹配，生成用户画像。采用了隐性内驱力(BFI)技术，大大减弱了对数据的依赖量，支持小数据冷启动；输出维度丰富，支持跨领域预测；削弱了马太效应。本发明通过引入人格内核和深度学习相融合的方式，可以有效解决小数据冷启动的问题，实现跨领域推荐。特别针对电商、券商、品牌商等商户当只有用户少量信息时也可以进行有效用户画像的构建。

具体实施方式

下面对本发明做进一步描述：

本发明公开了一种基于小数据输入的智能用户画像方法，其中，包括：

创建用户跨领域行为模型数据；

具体的，将用户基本信息输入用户基本信息模型，将用户行为数据输入行为纬度模型。

进一步的，基本信息模型包括：人口统计学信息、征信信息、税务信息。基本信息还可以包括其它官方披露信息。

具体的，人口统计学信息包括：性别、年龄、地区等。

进一步的，行为纬度模型包括：经济行为、网络行为、个人爱好、购物记录。

进一步的，将对用户对应数据输入数据库得出基本信息行为数据。本发明的数据库为Hive数据库，基本信息行为数据是通过输入Hive数据库中而得到的。

具体的，将输入的用户基本信息、用户行为数据

进一步的，将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据，高阶信息数据包括静态数据和动态数据。利用这种方法提取的静态和动态特征是用户行为的高阶信息，有利于降低数据维度并且更好的利用数据。

进一步的，在python中利用Tensorflow搭建前馈神经网络，将提取出来的静态特征和动态特征映射到隐性内驱力，并存入数据库。这里的数据库同样是Hive数据库。

进一步的，隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。

进一步的，创建用户跨领域行为模型数据包括：将数据映射到隐性内驱力，将不同来源的稀疏数据整合。并且，通过以上的操作，完成了数据的降维，同时加深了对数据的理解，可以有效实现小数据冷启动和跨领域预测。

进一步的，数据匹配包括：利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。这样就给出了从输入特征到输出特征的方法，该方法主要通过公共内核(BFI)结合深度学习方法有效利用用户的稀疏小数据，完成用户画像。

Wasserstein度量的计算公式如下：

进一步的，跨领域行为模型数据包括：音乐偏好、消费偏好、理财偏好、价值观。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员或是一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员或是一般模型爱好者依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于小数据输入的智能用户画像方法，其特征在于，包括：

创建用户基本信息模型、维度模型，生成基本信息行为数据；

创建用户跨领域行为模型数据；

2.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，基本信息模型包括：人口统计学信息、征信信息、税务信息。

3.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，维度模型包括：经济行为、网络行为、个人爱好、购物记录。

4.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，将基本信息模型、维度模型输入数据库得出基本信息行为数据。

5.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，将基本信息行为数据导入python中利用深度学习框架Keras搭建自编码神经网络获取高阶信息数据，高阶信息数据包括静态数据和动态数据。

6.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，在python中利用Tensorflow搭建前馈神经网络，将提取出来的静态特征和动态特征映射到隐性内驱力，并存入数据库。

7.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，隐性内驱力包括想象力、责任心、活跃性、利他性、神经质这5个维度。

8.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，创建用户跨领域行为模型数据包括：将数据映射到隐性内驱力，将不同来源的稀疏数据整合。

9.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，数据匹配包括：利用Wasserstein度量将隐性内驱力数据与用户跨领域行为模型数据匹配。

10.根据权利要求1所述的基于小数据输入的智能用户画像方法，其特征在于，跨领域行为模型数据包括：音乐偏好、消费偏好、理财偏好、价值观。