CN111310052A

CN111310052A - 用户画像构建方法、装置及计算机可读存储介质

Info

Publication number: CN111310052A
Application number: CN202010135043.6A
Authority: CN
Inventors: 余玉霞; 陆园丽; 卢清明
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-06-19

Abstract

本发明涉及数据分析技术，包括一种用户画像构建方法、装置及计算机可读存储介质，所述方法包括：收集埋点数据，并利用Spark平台和SparkSQL提炼出用户活跃数据和用户学习行为数据；根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出目标模型需要统计的指标值；计算每个周期内的指标值；基于所述Spark平台的z‑score方法对每个周期内的指标值进行标准化；利用均方差法分别计算同周期不同指标的权重；对每个周期内的指标值和对应指标的权重进行加权计算得出对应周期的周期模型值；利用遗忘算法对不同周期进行权重计算；对周期模型值和利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值。

Description

用户画像构建方法、装置及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种用户画像构建方法、装置及计算机可读存储介质。

背景技术

用户画像是用于勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像中模型标签的计算方法基本都是用这种方法，如常用的用户兴趣、活跃程度、用户价值、贡献度模型等等，无法根据单个指标准确计算模型值的需求都只能用用户画像构建方法来计算，这种方法中涉及到多个指标，需要指标值综合计算才能得出模型的最终值。

目前业内针对用户画像的计算主要是根据指标设计权重，继而进行加权计算，没有考虑随着时间的流失，最初设定的权重还能不能适应指标值的变化，只能一段时间后再优化模型，调整权重；其次就是同等考虑当前时期的指标值和一段时间前的指标值对模型产生的影响，对指标的当前值和一段时间前的值对模型的作用不作区分，这样的计算方法对模型存在一定的误差，也不具有完善的说服力，无法体现时间对模型产生的影响。且现有设计的权重一成不变，若某个指标的值出现问题或者异常数据，无法及时的发现，因此这样造成构建的用户画像缺乏精准度。

发明内容

本发明提供一种用户画像构建方法、装置及计算机可读存储介质，其主要目的在于既解决了指标间权重的设定，又对不同时期用户的学习行为指标也赋予了不同的权重，完好的区分了用户在不同时期的学习行为，为平台用户区分度提供了参考，提高了用户画像的精准度。

为实现上述目的，本发明提供一种用户画像构建方法，所述用户画像构建方法包括：

收集埋点数据，并利用Spark平台和SparkSQL提炼出用户活跃数据和用户学习行为数据；

根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值；

计算每个周期内的指标值；

基于所述Spark平台的z-score方法对所述每个周期内的指标值进行标准化；

利用均方差法分别计算同周期不同指标的权重；

对所述每个周期内的指标值和所述对应指标的权重进行加权计算得出对应周期的周期模型值；

利用遗忘算法对不同周期进行权重计算；

对所述周期模型值和所述利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值；

根据所述模型指标值构建用户画像。

可选地，所述收集埋点数据，并利用spark平台和sparkSQL提炼出用户活跃数据和用户学习行为数据的步骤包括：

收集所述埋点数据；

将提炼出的用户活跃数据和用户学习行为数据存储于Hdfs存储介质；

利用Sqoop技术将Oracle数据库中用户的学习记录同步到所述hdfs存储介质。

可选地，所述根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值的步骤包括：

根据收集到的用户活跃数据、学习行为数据及学习记录确定用于评价目标模型的多指标；

利用Python语言分析指标数据，得出所述目标模型需要统计哪些周期的指标值。

可选地，所述计算每个周期内的指标值的步骤包括：

使用所述Spark平台、所述SparkSQL，并基于Hadoop平台分别计算每个周期内的指标值，使用Python语言对所述指标值进行清洗和预处理，保存为Hive数据表。

可选地，所述对所述周期模型值和所述利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值的步骤包括：

将所述最终的模型指标值保存在所述Hadoop平台的Hive数据表中。

本发明还提供一种电子装置，所述电子装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的多指标综合评价程序，所述多指标综合评价程序被所述处理器执行时实现如下步骤：

计算每个周期内的指标值；

利用均方差法分别计算同周期不同指标的权重；

利用遗忘算法对不同周期进行权重计算；

根据所述模型指标值构建用户画像。

收集所述埋点数据；

可选地，所述计算每个周期内的指标值的步骤包括：

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用户画像构建程序，所述用户画像构建程序可被一个或者多个处理器执行，以实现上述的用户画像构建方法的步骤。

本发明提供的用户画像构建方法、装置及计算机可读存储介质利用均方差法对同周期的指标计算权重，能随着数据的变化实时的修改对应指标的权重，避免设计的权重一成不变，若某个指标的值出现问题或者异常数据也能根据计算出的权重及时的发现，同时避免决策者主观看法给予的权重带有片面性和不持久性；改进后的遗忘算法能较好的拟合人的遗忘程度，对于不同周期的数据赋予不同的权重，离当前越近的周期，用户的行为越具有参考价值，越具有说服力，应当给予越大的权重；将均方差法和遗忘算法同时引入同一个方法中，并将这两种算法进行完美的融合，从而提高了用户画像的精准度。

附图说明

图1为本发明一实施例提供的用户画像构建方法的流程示意图；

图2为本发明一实施例提供的电子装置的内部结构示意图；

图3为本发明一实施例提供的电子装置中基于用户画像构建程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种用户画像构建方法。参照图1所示，为本发明一实施例提供的用户画像构建方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现，本实施例中，所述装置为智能终端。

在本实施例中，所述用户画像构建方法包括：

S101，收集埋点数据，并利用Spark平台和SparkSQL提炼出用户活跃数据和用户学习行为数据；

S102，根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值；

S103，计算每个周期内的指标值；

S104，基于所述Spark平台的z-score方法对所述每个周期内的指标值进行标准化；

S105，利用均方差法分别计算同周期不同指标的权重；

S106，对所述每个周期内的指标值和所述对应指标的权重进行加权计算得出对应周期的周期模型值；

S107，利用遗忘算法对不同周期进行权重计算；

S108，对所述周期模型值和所述利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值；

S109，根据所述模型指标值构建用户画像。

其中，Spark是一种基于内存计算的分布式大数据并行处理平台，它集批处理、实时流处理、交互式查询与图计算于一体，避免了各种运算场景下需要部署不同集群所带来的资源浪费。

Spark是专为大规模数据处理而设计的快速通用的计算引擎。在海量数据检索应用中，分布式检索框架SparkSQL作为一种优秀的大数据检索方法被广泛的使用。Hive是基于Hadoop的一个数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询，所有Hive的数据都存储在Hadoop兼容的文件系统(例如，Amazon S3、HDFS)中。SparkSQL提供了同Hive的HiveQL接口，具有较高的效率及可用性。

对于多指标模型中，不同指标的值可能是不同的量纲甚至不同的数量级，指标之间不具有可比性，所以需要先进行标准化，转化到同一个量级上。本实施例采用的是Spark平台的z-score方法得到每个指标的值Zij，z-score方法的优点是受异常值的影响较小，对数据的分布改变较小，而且计算简单。

收集所述埋点数据；

其中，Hadoop分布式文件系统(Hdfs)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。Hdfs是一个高度容错性的系统，适合部署在廉价的机器上。Hdfs能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库(例如：MySQL,Oracle,Postgres等)中的数据导进到Hadoop的Hdfs中，也可以将Hdfs的数据导进到关系型数据库中。

可选地，所述计算每个周期内的指标值的步骤包括：

其中，Python是一种计算机程序设计语言，是一种面向对象的动态类型语言。

所述利用均方差法分别计算同周期不同指标的权重的步骤如下：

先求每个指标的均值：

接着计算每个指标的方差：

再计算对应指标的方差占所有方差和的比例：

将此计算结果作为对应指标的权重；其中，n为指标数，j为指标项数，j＝1,2…n。

所述均方差法的原理如下：

指标的权重大小与该指标数据值的离散程度有关，若指标的离散程度越大，该权重也就越大，若指标的数据值离散程度为0，则该指标的权重也为0，即若每条数据的该指标的值一样，则该指标不计入计算。

所述均方差法能根据数据实时的计算当天每个指标的权重，动态的根据数据调整权重，避免权重一成不变无法适应指标值的变化。

所述方法还包括：

所述对所述每个周期内的指标值和所述对应指标的权重进行加权计算得出对应周期的周期模型值的计算公式为：

所述利用遗忘算法对不同周期进行权重计算的步骤包括：

利用Python语言对用户数据进行数据模拟，利用数据模拟结果对算法公式进行改进优化，改进后的遗忘算法函数为:

其中t为自变量周期个数，t₀＝0.0025,c＝0.025；

利用改进后的遗忘算法对不同周期进行权重计算，将周期值代入上述改进后的遗忘算法函数，得出对应周期的权重F_t。

按照人的遗忘规律，周期越大，权重越小；改进后的遗忘算法能更好的模拟人的遗忘，引入人的遗忘特性能更好的的描述用户的模型值，而遗忘特性对于用户的所有行为指标几乎都是有效的。

本实施例提出的用户画像构建方法利用均方差法对同周期的指标计算权重，能随着数据的变化实时的修改对应指标的权重，避免设计的权重一成不变，若某个指标的值出现问题或者异常数据也能根据计算出的权重及时的发现，同时避免决策者主观看法给予的权重带有片面性和不持久性；改进后的遗忘算法能较好的拟合人的遗忘程度，对于不同周期的数据赋予不同的权重，离当前越近的周期，用户的行为越具有参考价值，越具有说服力，应当给予越大的权重；将均方差法和遗忘算法同时引入同一个方法中，并将这两种算法进行完美的融合，从而提高了用户画像的精准度。

本发明还提供一种电子装置1。参照图2所示，为本发明一实施例提供的电子装置的内部结构示意图。

在本实施例中，电子装置1可以是电脑、智能终端或服务器。所述电子装置1至少包括存储器11、处理器13，通信总线15，以及网络接口17。在本实施例中，所述电子装置1为智能终端。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是电子装置的内部存储单元，例如所述电子装置的硬盘。存储器11在另一些实施例中也可以是电子装置的外部存储设备，例如电子装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。进一步地，存储器11还可以既包括电子装置的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于电子装置1的应用软件及各类数据，例如用户画像构建程序111的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器13在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据。

通信总线15用于实现这些组件之间的连接通信。

网络接口17可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在电子装置1与其他电子设备之间建立通信连接。

可选地，电子装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子装置中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11～17的电子装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子装置的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的电子装置1的实施例中，存储器11中存储有用户画像构建程序111；处理器13执行存储器11中存储的用户画像构建程序111时实现如下步骤：

计算每个周期内的指标值；

利用均方差法分别计算同周期不同指标的权重；

利用遗忘算法对不同周期进行权重计算；

根据所述模型指标值构建用户画像。

收集所述埋点数据；

可选地，所述计算每个周期内的指标值的步骤包括：

先求每个指标的均值：

接着计算每个指标的方差：

再计算对应指标的方差占所有方差和的比例：

所述均方差法的原理如下：

所述方法还包括：

所述利用遗忘算法对不同周期进行权重计算的步骤包括：

其中t为自变量周期个数，t₀＝0.0025,c＝0.025；

本实施例提出的电子装置利用均方差法对同周期的指标计算权重，能随着数据的变化实时的修改对应指标的权重，避免设计的权重一成不变，若某个指标的值出现问题或者异常数据也能根据计算出的权重及时的发现，同时避免决策者主观看法给予的权重带有片面性和不持久性；改进后的遗忘算法能较好的拟合人的遗忘程度，对于不同周期的数据赋予不同的权重，离当前越近的周期，用户的行为越具有参考价值，越具有说服力，应当给予越大的权重；将均方差法和遗忘算法同时引入同一个方法中，并将这两种算法进行完美的融合，从而提高了用户画像的精准度。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有用户画像构建程序111，所述用户画像构建程序111可被一个或多个处理器执行，以实现如下操作：

计算每个周期内的指标值，基于所述Spark平台的z-score方法对所述每个周期内的指标值进行标准化；

利用均方差法分别计算同周期不同指标的权重；

利用遗忘算法对不同周期进行权重计算；

根据所述模型指标值构建用户画像。

本发明计算机可读存储介质具体实施方式与上述电子装置和方法各实施例基本相同，在此不作累述。

可选地，在其他实施例中，所述用户画像构建程序111还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器13)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述用户画像构建程序在电子装置中的执行过程。

例如，参照图3所示，为本发明电子装置一实施例中的用户画像构建程序111的程序模块示意图，该实施例中，用户画像构建程序111可以被分割为收集模块10、设计模块20、计算模块30、标准化模块40及构建模块50，示例性地：

所述收集模块10，用于收集埋点数据，并利用Spark平台和SparkSQL提炼出用户活跃数据和用户学习行为数据；

所述设计模块20，用于根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值；

所述计算模块30，用于计算每个周期内的指标值；利用均方差法分别计算同周期不同指标的权重；对所述每个周期内的指标值和所述对应指标的权重进行加权计算得出对应周期的周期模型值；利用遗忘算法对不同周期进行权重计算；以及对所述周期模型值和所述利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值；

所述标准化模块40，用于基于所述Spark平台的z-score方法对所述每个周期内的指标值进行标准化；

所述构建模块50用于根据所述模型指标值构建用户画像。

所述收集模块10、设计模块20、计算模块30、标准化模块40及构建模块50等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用户画像构建方法，所述用户画像构建方法包括：

计算每个周期内的指标值；

利用均方差法分别计算同周期不同指标的权重；

利用遗忘算法对不同周期进行权重计算；

根据所述模型指标值构建用户画像。

2.如权利要求1所述的用户画像构建方法，其特征在于，所述收集埋点数据，并利用spark平台和sparkSQL提炼出用户活跃数据和用户学习行为数据的步骤包括：

收集所述埋点数据；

3.如权利要求2所述的用户画像构建方法，其特征在于，所述根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值的步骤包括：

根据收集到的用户活跃数据、用户学习行为数据及学习记录确定用于评价目标模型的多指标；

利用Python语言分析所述多指标的指标数据，得出所述目标模型需要统计哪些周期的指标值。

4.如权利要求3所述的用户画像构建方法，其特征在于，所述计算每个周期内的指标值的步骤包括：

5.如权利要求4所述的用户画像构建方法，其特征在于，所述对所述周期模型值和所述利用遗忘算法计算出的周期权重进行加权计算，得出最终的模型指标值的步骤之后，所述方法还包括：

6.一种电子装置，其特征在于，所述电子装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的多指标综合评价程序，所述多指标综合评价程序被所述处理器执行时实现如下步骤：

计算每个周期内的指标值；

利用均方差法分别计算同周期不同指标的权重；

利用遗忘算法对不同周期进行权重计算；

根据所述模型指标值构建用户画像。

7.如权利要求6所述的电子装置，其特征在于，所述收集埋点数据，并利用spark平台和sparkSQL提炼出用户活跃数据和用户学习行为数据的步骤包括：

收集所述埋点数据；

8.如权利要求7所述的电子装置，其特征在于，所述根据收集到的用户活跃数据和用户学习行为数据确定用于评价目标模型的多指标，得出所述目标模型需要统计的指标值的步骤包括：

9.如权利要求8所述的电子装置，其特征在于，所述计算每个周期内的指标值的步骤包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用户画像构建程序，所述用户画像构建程序可被一个或者多个处理器执行，以实现如权利要求1至5中任一项所述的用户画像构建方法的步骤。