CN116523545B

CN116523545B - 基于大数据的用户画像构建方法

Info

Publication number: CN116523545B
Application number: CN202310772232.8A
Authority: CN
Inventors: 付胜龙; 王钰; 贺金生; 宋军; 袁彬; 肖朝斌; 潘宜鹏
Original assignee: Dahan E Commerce Co ltd
Current assignee: Dahan E Commerce Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-15
Anticipated expiration: 2043-06-28
Also published as: CN116523545A

Abstract

本发明涉及大数据分析技术领域，尤其涉及一种基于大数据的用户画像构建方法，本发明通过每隔预设采集周期采集用户端触发的若干条件特征，计算画像标签对应的条件特征参量，以判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中，以及确定用户画像集合中的画像标签的标签类型，在用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值时，确定各模糊画像标签与标准画像标签的关联性，对用户画像集合中的模糊画像标签进行优化，在连续存入重复画像标签的数量大于预设存储阈值时，对预设采集周期进行调整，提高了对用户端构建画像标签的效率和准确性。

Description

基于大数据的用户画像构建方法

本发明涉及大数据分析技术领域，尤其涉及一种基于大数据的用户画像构建方法。

背景技术

构建用户画像是指通过对用户的属性、行为、需求和偏好等方面的分析，综合得出用户的全面和深刻的描述，帮助企业更好地了解用户的需求和行为习惯，为产品设计、营销和服务策略提供依据，同时，用户画像也可以帮助企业进行市场细分，精准地定位用户群体，提高市场营销的效果和效率。

中国专利公开号：CN112487199A，公开了如下内容，该发明公开了一种基于用户购买行为的用户特征预测方法，该方法包括：采集目标用户特征信息、历史订单信息以及订单商品信息，并利用订单商品信息从公开知识图谱获取商品相关的三元组知识，构建知识子图，利用图卷积神经网络聚合实体近邻局部特征，充分学习实体的表示向量；在用户特征预测模型中根据不同的商品特征以及不同的具有相似购买行为用户的特征学习到目标用户与不同商品以及相似购买行为用户的相似度，充分根据用户间以及用户实体间的相似度学习其特征向量，满足用户的个性化需求。该发明提高了用户特征预测的准确性，从而可以更准确地预测用户特征，构造更完整的用户画像。

但是，现有技术中，还存在以下问题：

在现有技术中，根据用户端的行为对用户端所构建的用户画像中存在一定的误差，进而导致对用户端的需求判断不准确，现有的构建用户画像的方法未考虑上述因素，对所构建出的用户画像进行优化，提高对用户端所构建的用户画像的准确性。

发明内容

为解决上述问题，本发明提供一种基于大数据的用户画像构建方法，其包括：

步骤S1、构建若干画像标签与条件特征的关联关系，各所述画像标签能与多个条件特征构建关联关系，所述条件特征包括用户端可被采集的行为数据；

步骤S2、每隔预设采集周期采集用户端触发的若干条件特征，基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量，并基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中；

步骤S3、基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型，所述标签类型包括模糊类型以及标准类型；

步骤S4、在第一条件下，确定各模糊画像标签与标准画像标签的关联性，对所述用户画像集合中的模糊画像标签进行优化，包括，将第一类模糊画像标签删除，或/和将第二类模糊画像标签修正；

所述第一类模糊画像标签为与标准画像标签无关联的模糊画像标签，所述第二类模糊画像标签为与标准画像标签存在关联的模糊画像标签；

在第二条件下，对所述预设采集周期进行调整；

所述第一条件为所述用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值，所述第二条件为连续存入重复画像标签的数量大于预设存储阈值，所述重复画像标签为存储时已经存在于用户画像集合中的画像标签。

进一步地，在所述步骤S2中，基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量，其中，

按照公式（1）计算画像标签对应的条件特征参量C，

，

公式（1）中，n表示所述用户端触发的与所述画像标签存在关联关系的条件特征的数量，N表示与所述画像标签存在关联关系的条件特征的总数量。

进一步地，在所述步骤S2中，基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中，其中，

将所述条件特征参量与预设的第一特征对比阈值进行对比，

若对比结果满足第一参量条件，判定将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中；

其中，所述第一参量条件为所述条件特征参量大于等于所述第一特征对比阈值。

进一步地，在所述步骤S3中，基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型，其中，

将所述用户画像集合中的画像标签对应的条件特征参量与预设的第二特征对比阈值进行对比，所述第二特征对比阈值大于所述第一特征对比阈值，

若对比结果满足第二参量条件，判定所述画像标签的标签类型为模糊类型；

若对比结果满足第三参量条件，判定所述画像标签的标签类型为标准类型；

其中，所述第二参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第一特征对比阈值且所述用户画像集合中的画像标签对应的条件特征参量小于所述第二特征对比阈值，所述第三参量条件为所述用户画像集合中的画像标签对应的条件特征参量大于等于所述第二特征对比阈值。

进一步地，在所述步骤S4中，还包括，确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量，所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。

进一步地，在所述步骤S4中，确定各模糊画像标签与标准画像标签的关联性，其中，

将标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量与预设的第一数量对比阈值进行对比，

在预设数量对比条件下，判定所述模糊画像标签与所述标准画像标签存在关联性；

其中，所述预设数量对比条件为所述数量大于等于所述第一数量对比阈值。

进一步地，在所述步骤S4中，对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。

进一步地，在所述步骤S4中，对所述预设采集周期进行调整，其中，

增大采集用户端的条件特征的预设采集周期。

进一步地，所述步骤S2中，设置存储数量上限，单个用户画像集合中存储的画像标签需低于所述存储数量上限。

进一步地，各所述用户画像集合需预先建立，建立时单个用户端对应单个用户画像集合。

与现有技术相比，本发明通过每隔预设采集周期采集用户端触发的若干条件特征，计算画像标签对应的条件特征参量，以判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中，以及确定用户画像集合中的画像标签的标签类型，在用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值时，确定各模糊画像标签与标准画像标签的关联性，对用户画像集合中的模糊画像标签进行优化，在连续存入重复画像标签的数量大于预设存储阈值时，对预设采集周期进行调整，提高了对用户端构建画像标签的效率和准确性。

尤其，本发明中，基于画像标签对应的条件特征参量的大小判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中，条件特征参量由用户端触发的与画像标签存在关联关系的条件特征在与画像标签存在关联关系的全部条件特征的占比计算所得，表征了用户端的行为与画像标签的匹配程度，在实际情况中，条件特征参量越大，则表明用户端的行为与画像标签越匹配，若画像标签与用户端的行为的匹配程度高于预设的第一特征对比阈值，则表明画像标签与用户端较符合，将与用户端的行为的匹配程度高于预设的第一特征对比阈值的画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中，便于后续针对用户画像集合中的画像标签进行数据处理。

尤其，本发明中，基于用户画像集合中的画像标签对应的条件特征参量确定画像标签的标签类型，在实际情况中，条件特征参量越大，则表明用户端的行为与画像标签越匹配，基于条件特征参量的大小对存储至用户画像集合中的画像标签进行分类，便于后续针对不同标签类型的画像标签进行对应的处理，提高了对用户端构建画像标签的效率和准确性。

尤其，本发明中，在第一条件下，对用户画像集合中的模糊画像标签进行优化，用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值的第一条件下，表明用户画像集合中模糊画像标签较多，而模糊画像标签较多会造成对标准画像标签的掩盖，导致对用户端的描述不准确，若模糊画像标签与标准画像标签存在关联性，表明模糊画像标签与用户端的行为有较好的匹配性，因此，将模糊画像标签的标签类型更改为标准类型，若模糊画像标签与标准画像标签无关联性，则表明模糊画像标签与用户端的行为较不匹配，可能是个别条件特征被采集，则将模糊画像标签删除，以消除其对标准画像标签的掩盖，同时在保证对用户端条件特征采集敏感度的前提下提高了对用户端构建画像标签的准确性。

尤其，本发明中，在第二条件下，对预设采集周期进行调整，即在连续存入重复画像标签的数量大于预设存储阈值的第二条件下，对预设采集周期进行调整，在实际情况中，当已存在于用户画像集合中的画像标签在后续存储的过程中连续多次出现，则表明用户端触发的条件特征对应的画像标签较稳定，因此增大预设采集周期，减小系统的数据运算量，提高了对用户端构建画像标签的效率。

附图说明

图1为发明实施例的基于大数据的用户画像构建方法步骤示意图；

图2为发明实施例的在用户画像集合中存储画像标签以及用户端触发的若干条件特征的控制流程图；

图3为发明实施例的对模糊画像标签进行优化的控制流程图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1、图2以及图3所示，其为本发明实施例的基于大数据的用户画像构建方法步骤示意图、在用户画像集合中存储画像标签以及用户端触发的若干条件特征的控制流程图以及对模糊画像标签进行优化的控制流程图，本发明的基于大数据的用户画像构建方法包括：

在第二条件下，对所述预设采集周期进行调整；

具体而言，本发明中，在第一条件下，对用户画像集合中的模糊画像标签进行优化，用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值的第一条件下，表明用户画像集合中模糊画像标签较多，而模糊画像标签较多会造成对标准画像标签的掩盖，导致对用户端的描述不准确，若模糊画像标签与标准画像标签存在关联性，表明模糊画像标签与用户端的行为有较好的匹配性，因此，将模糊画像标签的标签类型更改为标准类型，若模糊画像标签与标准画像标签无关联性，则表明模糊画像标签与用户端的行为较不匹配，可能是个别条件特征被采集，则将模糊画像标签删除，以消除其对标准画像标签的掩盖，同时在保证对用户端条件特征采集敏感度的前提下提高了对用户端构建画像标签的准确性。

具体而言，预设采集周期应当在合理区间内，避免周期过短或过长不具备数据表征性，在本实施例中预设采集周期可以在区间[0，24]内进行设定，区间单位为小时。

具体而言，预设的比值对比阈值为应当在合理区间内，为避免模糊画像标签太多影响用户画像集合的表征性，在本实施例中，本领域技术人员可以将预设的比值对比阈值的值从区间[0.3，0.6]内选定。

具体而言，在本实施例中，为避免预设存储阈值的值过大降低系统数据处理效率，本领域技术人员可以将预设存储阈值的值从区间[5，10]内选定，区间单位为个。

具体而言，本发明对用户画像集合的具体形式不做限定，其可以是数据库的形式，也可以是其他形式，只需能存储画像标签即可，画像标签的构建形式可以是多样的，对本申请技术方案不构成影响，本领域技术人员可根据具体需要选取画像标签的构建方式，不再赘述。

具体而言，本发明对画像标签与条件特征建立关联关系的具体方式不做限定，本领域技术人员应当明白，数据建立关联关系的方式可以有多种，为现有成熟技术，此处不再赘述。

具体而言，本发明对采集用户端触发的条件特征的具体实现方式不做限定，采集时需获取用户端的授权，可以是通过分析用户操作日志，获取用户端触发的条件特征,也可以是其他形式，此处不再赘述。

具体而言，在本实施例中条件特征为用户端进行的操作行为，操作行为类型本领域技术人员可根据具体应用场景进行限定，此处不再赘述。

具体而言，在所述步骤S2中，基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量，其中，

按照公式（1）计算画像标签对应的条件特征参量C，

，

具体而言，请继续参阅图2所示，在所述步骤S2中，基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中，其中，

将所述条件特征参量与预设的第一特征对比阈值进行对比，

具体而言，本发明中，基于画像标签对应的条件特征参量的大小判定是否将画像标签以及用户端触发的若干条件特征存储至用户端对应的用户画像集合中，条件特征参量由用户端触发的与画像标签存在关联关系的条件特征在与画像标签存在关联关系的全部条件特征的占比计算所得，表征了用户端的行为与画像标签的匹配程度，在实际情况中，条件特征参量越大，则表明用户端的行为与画像标签越匹配，若画像标签与用户端的行为的匹配程度高于预设的第一特征对比阈值，则表明画像标签与用户端较符合，将与用户端的行为的匹配程度高于预设的第一特征对比阈值的画像标签存储至用户端对应的用户画像集合中，便于后续针对用户画像集合中的画像标签进行数据处理。

具体而言，在所述步骤S3中，基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型，其中，

具体而言，预设的第一特征对比阈值C1以及第二特征对比阈值C2为预先基于多个采集周期画像标签对应的条件特征参量的平均值C0计算所得，设定，其中，Ci表示第i个采集周期画像标签对应的条件特征参量，nc表示采集周期的个数，50≤nc≤200，i表示大于0的整数，设定C1=β1C0，C2=β2C0，β1表示第一比例系数，β2表示第二比例系数，0.3≤β1＜β2≤0.8。

具体而言，在本实施例中，采集周期的个数nc应在合理区间内，避免个数过小不具备数据表征性，本领域技术人员可以将采集周期的个数从区间[50，200]内选定，区间单位为个。

具体而言，在本实施例中，本领域技术人员可以将第一比例系数β1以及第二比例系数β2的值从区间[0.3，0.8]内选定，设定时系数差异比Fx需控制在0.3内，保证区分的情况下避免差异过大，设定Fx=（β2-β1）/β1。

具体而言，本发明中，基于用户画像集合中的画像标签对应的条件特征参量确定画像标签的标签类型，在实际情况中，条件特征参量越大，则表明用户端的行为与画像标签越匹配，基于条件特征参量的大小对存储至用户画像集合中的画像标签进行分类，便于后续针对不同标签类型的画像标签进行对应的处理，提高了对用户端构建画像标签的效率和准确性。

具体而言，在所述步骤S4中，还包括，确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量，所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。

具体而言，在所述步骤S4中，确定各模糊画像标签与标准画像标签的关联性，其中，

具体而言，在本实施例中，预设的第一数量对比阈值基于触发条件特征总数量确定，应当在合理区间内，在本实施例中设定第一数量对比阈值为触发条件特征总数量的20%。

具体而言，在所述步骤S4中，对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。

具体而言，在所述步骤S4中，对所述预设采集周期进行调整，其中，

增大采集用户端的条件特征的预设采集周期。

具体而言，在本实施例中，调整预设采集周期时的增大量应当在合理区间内，为避免增大量过大且有调整效果，本领域技术人员可以将增大量设定为原采集周期的三分之一。

具体而言，本发明中，在第二条件下，对预设采集周期进行调整，即在连续存入重复画像标签的数量大于预设存储阈值的第二条件下，对预设采集周期进行调整，在实际情况中，当已存在于用户画像集合中的画像标签在后续存储的过程中连续多次出现，则表明用户端触发的条件特征对应的画像标签较稳定，因此增大预设采集周期，减小系统的数据运算量，提高了对用户端构建画像标签的效率。

具体而言，所述步骤S2中，设置存储数量上限，单个用户画像集合中存储的画像标签需低于所述存储数量上限。

具体而言，本领域技术人员可以将存储数量上限在区间[0,50]内选定，区间单位为个，避免存储数量上限过大导致用户标签太多无法做出准确判定。

具体而言，各所述用户画像集合需预先建立，建立时单个用户端对应单个用户画像集合。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于大数据的用户画像构建方法，其特征在于，包括：

在第二条件下，对所述预设采集周期进行调整；

所述第一条件为所述用户画像集合中模糊画像标签与标准画像标签的数量比值高于预设的比值对比阈值，所述第二条件为连续存入重复画像标签的数量大于预设存储阈值，所述重复画像标签为存储时已经存在于用户画像集合中的画像标签；

在所述步骤S2中，基于与画像标签存在关联关系的条件特征的数量计算画像标签对应的条件特征参量，其中，

按照公式（1）计算画像标签对应的条件特征参量C，

，

公式（1）中，n表示所述用户端触发的与所述画像标签存在关联关系的条件特征的数量，N表示与所述画像标签存在关联关系的条件特征的总数量；

在所述步骤S2中，基于画像标签对应的条件特征参量的大小判定是否将所述画像标签以及用户端触发的若干条件特征存储至所述用户端对应的用户画像集合中，其中，

将所述条件特征参量与预设的第一特征对比阈值进行对比，

其中，所述第一参量条件为所述条件特征参量大于等于所述第一特征对比阈值；

在所述步骤S3中，基于所述用户画像集合中的画像标签对应的条件特征参量确定所述画像标签的标签类型，其中，

2.根据权利要求1所述的基于大数据的用户画像构建方法，其特征在于，在所述步骤S4中，还包括，确定标准画像标签关联的全部条件特征中与模糊画像标签的触发条件特征相同的条件特征的数量，所述触发条件特征为与所述模糊画像标签一同存入所述用户画像集合中的若干被用户端触发的条件特征。

3.根据权利要求2所述的基于大数据的用户画像构建方法，其特征在于，在所述步骤S4中，确定各模糊画像标签与标准画像标签的关联性，其中，

4.根据权利要求1所述的基于大数据的用户画像构建方法，其特征在于，在所述步骤S4中，对所述模糊画像标签进行修正时包括将所述模糊画像标签的标签类型更改为标准类型。

5.根据权利要求1所述的基于大数据的用户画像构建方法，其特征在于，在所述步骤S4中，对所述预设采集周期进行调整，其中，

增大采集用户端的条件特征的预设采集周期。

6.根据权利要求1所述的基于大数据的用户画像构建方法，其特征在于，所述步骤S2中，设置存储数量上限，单个用户画像集合中存储的画像标签需低于所述存储数量上限。

7.根据权利要求1所述的基于大数据的用户画像构建方法，其特征在于，各所述用户画像集合需预先建立，建立时单个用户端对应单个用户画像集合。