CN111737588A

CN111737588A - 用户画像知识相似度计算方法

Info

Publication number: CN111737588A
Application number: CN202010856930.2A
Authority: CN
Inventors: 曹保龙; 彭天颖; 王磊; 卢浩然; 周苏霞
Original assignee: Nanjing Guorui Xinwei Software Co ltd
Current assignee: Nanjing Guorui Xinwei Software Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2020-10-02
Anticipated expiration: 2040-08-24
Also published as: CN111737588B

Abstract

本发明公开了用户画像知识相似度计算方法，属于智能分析技术领域，首先，规定用户的重要行为及个人基础属性选取个数及以及具体行为操作和属性内容。其次，对每项用户行为及用户属性的进行参数赋权，决定用户行为和用户属性在整体知识相似度计算中的比重值。抽取用户的行为记录和属性，统计用户行为访问过知识关联的标签，并对标签一一赋权。最后，汇集用户知识标签的总体权重值，根据权重高低排序，得出用户知识画像。本发明基于用户行为操作及个人基础属性的参数权重计算知识相似度，通过用户的具体行为操作绘制用户画像，并相应地返回适配的相似知识。该方法的知识推荐准确度高，推荐比例可以动态调整，操作便捷。

Description

用户画像知识相似度计算方法

技术领域

本发明涉及一种用户画像知识相似度计算方法，属于智能分析技术领域。

背景技术

当今是一个海量数据的时代，用户在各网站都能接收到大量信息。这其中有很大一部分都是无效、重复、或者用户不感兴趣的垃圾流量。用户在查询知识时需要花费大量的时间、精力来遍历搜索结果，或在茫茫知识库中打捞。为了向用户精准投放符合用户行为习惯及个人特征的相似知识，需要一种能够动态调整权重比例，并按照单篇知识的标签进行统计，得出用户知识画像和个人知识标签，进行动态知识相似推荐。

发明内容

为了解决上述技术问题，本发明提供一种用户画像知识相似度计算方法，其具体技术方案如下：

用户画像知识相似度计算方法，其特征在于：包括以下步骤

步骤一：统计影响用户画像的标准行为及基础属性，所述标准行为包括查看、点赞、分享、收藏、下载、评论和提问，所述基础属性包括部门、岗位、角色和专业；

步骤二：给标准行为及基础属性分配权重，设定每个参数的权重

，并记为

，具体为：

所述标准行为选取下载、提问、收藏、分享、评论5种行为操作，所述基础属性选取部门和岗位，合计7个参数；

每个参数的权重

可表示为

；

标签矩阵具体可表示为：

、

、

、

、

、

、

；

加权矩阵具体为：

，

，

，

，

，

，

；

步骤三：抽取标准行为记录及基础属性标签，记录用户行为日志表，记录用户标准行为所关联的行为标签，记录用户基础属性关联的属性标签，行为标签和属性标签合并称为知识标签；

步骤四：根据知识标签，整理成标签矩阵，标准行为依次用大写字母表示，得到标签矩阵

、

、

、

，其中n表示标准行为的对象个数，m表示设定的选取关联标签的个数；

标签矩阵

的具体获得过程为：

用户的标准行为A的对象有

个，每个对象有

个标签，得到一个知识相关联的标签矩阵：

，将其记为矩阵

(

)，其中，

为标准行为A的第

个对象的第

个标签；

取每个对象最多关联5个标签，即

，当对象

的标签数小于5时，则超过对象

标签数的

为空值；

步骤五：对标签矩阵内的每个标签赋权，得到加权矩阵

、

、

、

，

其中每一项标签都可以表现为

；

步骤六：汇集知识标签，分析并合并所有加权矩阵，统一标签计量维度，得到用户画像并推荐相似知识，具体过程为：

步骤a:记录标签

为对象

，记录标签

为对象

，

，记录标签

为对象

，当遇到重复标签时，仅增加对象权重，不新增标签对象，

统计矩阵

内的标签权重，矩阵

内最多有

个标签，其中对象

出现

次，对象

出现

次，……，对象

出现

次，推算出对象

的权重为

，整个矩阵

内所有标签的权重之和为

，保证权重的总和始终是对该操作预设的权重值，标准行为A对应的标签数组

对应权重

，这是一个1

的矩阵，其和为

；

步骤b:计算所有标准行为下，所有标签的权重，得到7个1

的矩阵，将其组合成一个7

的权重矩阵

；

步骤c：对照标签矩阵，整理重复标签，若

代表的标签与

和

相同，被记为对象

，那么该标签的总权重就为

，原

化为0，

也化为0，空标签不记录；

步骤d：对权重矩阵

进行矩阵化简，得到一个最简行阶梯型矩阵：

，并排列大小，整理对应的标签；

步骤e：按照

的大小，从高到低，梳理对应标签，组成向量组：

得到一系列按照权重高低排列的标签数组，标签数组就是用户行为及基础信息综合权重得到的用户画像标签。

本发明的有益效果是：

本发明通过对用户的行为操作及个人属性进行分析，记录操作相关知识的标签，并动态赋权，得到实时更新的用户知识画像。通过用户画像知识相似度的计算方法，量化用户对知识的关注度，明确用户的知识标签占比，为精准投放符合用户行为习惯及个人特征的相似知识提供了方法论。

附图说明

图1是本发明的流程图。

具体实施方式

如图1所示，本发明的用户画像知识相似度计算方法，包括以下步骤：

步骤一：统计影响用户画像的标准行为及基础属性，标准行为包括查看、点赞、分享、收藏、下载、评论、提问，所述基础属性包括部门、岗位、角色、专业；本发明选取了用户的下载、提问、收藏、分享、评论5种标准行为（行为操作）及部门、岗位两种用户基础属性，合计7个参数。

，并记为

，本发明共有7项计算值，取

。

、

、

、

，其中n表示标准行为的对象个数，m表示设定的选取关联标签的个数。

以用户的标准行为（行为操作）A为例（下载操作），用户行为操作A的对象有

个（下载

篇知识），每篇知识有

个标签，那么可以得到一个知识相关联的标签矩阵：

，将其记为矩阵

(

)（每项知识最多关联5个标签）。其中，

为操作A的第

篇知识的第

个标签。如果知识

只有3个标签，则

，

都为空值。

步骤五：对矩阵内的每个标签赋权，得到加权矩阵

，

其中每一项标签都可以表现为

。

对余下的4个操作及两种基础信息做同样的赋权工作，一共得到7个加权矩阵：

，

，

，

，

，

，

。

步骤六：汇集知识标签，分析并合并所有加权矩阵，统一标签计量维度，得到用户画像并推荐相似知识：

步骤a:记录标签

为对象

，记录标签

对象

,以此类推。当遇到重复标签时，仅增加对象权重，不新增标签对象。首先统计矩阵

内的标签权重。矩阵

内最多有

个标签，其中标签

出现

次，标签

出现

次……我们可以推算出，标签

的权重为

。整个矩阵

内所有标签的权重之和为

。保证权重的总和始终是对该操作预设的权重值。操作A对应的标签数组

对应权重

，这是一个1

的矩阵，其和为

。

步骤b:计算所有操作下，所有标签的权重，得到7个1

的矩阵。将其组合成一个7

的权重矩阵

。

步骤c：对照标签矩阵，整理重复标签。例如：

代表的标签与

和

相同，被记为对象

，那么该标签的总权重就为

。原

化为0，

也化为0。空标签不记录。

步骤d：对矩阵

进行矩阵化简，得到一个最简行阶梯型矩阵：

，并排列大小，整理对应的标签。

步骤e：按照

的大小，从高到低，梳理对应标签，组成向量组：

,

,…(

)，得到一系列按照权重高低排列的标签数组。这组标签数组就是用户行为及基础信息综合权重得到的用户画像标签。

下面以用户张三为例：

用户张三在管理员设定的30天里。

下载了文档中含有标签

5次，

6次，

2次，

2次，

1次，

1次。下载的权重设为5，

那么下载相关标签中，

的权重为：

，

的权重为

，

的权重为

，

的权重为

，

的权重为

，

的权重为

。

提问中含有标签

3次，提问的权重为4，

那么提问相关标签中，

的权重为

，

…

部门标签中，权重为10，

含有标签

、

，标签

权重为5，

权重为5

下载重点标签

和提问的标签

重复，计算为一个标签，总权重为

,；部门标签中

与

重复，总权重为

；部门标签中

与

重复，总权重为

。

用户张三的个人标签，权重由高到低排列为：

、

，

，

，

，

……。

根据得出的标签权重，系统进行赋权搜索，得出基于用户画像的知识相似推荐。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.用户画像知识相似度计算方法，其特征在于：包括以下步骤

，并记为

，具体为：

每个参数的权重

可表示为

；

标签矩阵具体可表示为：

、

、

、

、

、

、

；

加权矩阵具体为：

，

，

，

，

，

，

；

、

、

、

标签矩阵

的具体获得过程为：

用户的标准行为A的对象有

个，每个对象有

个标签，得到一个知识相关联的标签矩阵：

，将其记为矩阵

(

)，其中，

为标准行为A的第

个对象的第

个标签；

取每个对象最多关联5个标签，即

，当对象

的标签数小于5时，则超过对象

标签数的

为空值；

步骤五：对标签矩阵内的每个标签赋权，得到加权矩阵

、

、

、

，

其中每一项标签都可以表现为

；

步骤a:记录标签

为对象

，记录标签

为对象

，

，记录标签

为对象

，当遇到重复标签时，仅增加对象权重，不新增标签对象，

统计矩阵

内的标签权重，矩阵

内最多有

个标签，其中对象

出现

次，对象

出现

次，……，对象

出现

次，推算出对象

的权重为

，整个矩阵

内所有标签的权重之和为

对应权重

，这是一个1

的矩阵，其和为

；

步骤b:计算所有标准行为下，所有标签的权重，得到7个1

的矩阵，将其组合成一个7

的权重矩阵

；

步骤c：对照标签矩阵，整理重复标签，若

代表的标签与

和

相同，被记为对象

，那么该标签的总权重就为

，原

化为0，

也化为0，空标签不记录；

步骤d：对权重矩阵

进行矩阵化简，得到一个最简行阶梯型矩阵：

，并排列大小，整理对应的标签；

步骤e：按照

的大小，从高到低，梳理对应标签，组成向量组：