CN107578292B

CN107578292B - 一种用户画像构建系统

Info

Publication number: CN107578292B
Application number: CN201710844118.6A
Authority: CN
Inventors: 刘建国; 郭强; 李梦杰; 韩景倜; 梁贺君
Original assignee: Shanghai university of finance and economics
Current assignee: Shanghai university of finance and economics
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2020-10-16
Anticipated expiration: 2037-09-19
Also published as: CN107578292A

Abstract

本发明公开了一种用户画像构建系统及方法，通过获取描述文档的主题词，形成对应的文档主题分布矩阵，基于文档主题分布矩阵对描述文档进行聚类并采用树图形成模块形成了以课程为叶子节点、簇主题词为各层父节点的二叉树图，能够基于主题发现形成反映课程之间主题关联性的树图，并进一步根据用户购买的课程得到包含多个以聚类簇主题词作为标签的用户画像，该用户画像能够有效地反映出用户对于在线课程的需求，让用户能够了解在线教育系统中有哪些符合自己需求的课程，也让运营方能够对用户进行针对性推广。

Description

一种用户画像构建系统

技术领域

本发明涉及数据处理领域，具体涉及一种用于在线教育领域的用户画像构建系统及方法。

背景技术

在各种网络服务系统中，用户的描述及定位是精准服务和推广的关键。目前，描述用户特征的方法有多种，其中一种就是构建用户画像。用户画像中包含多个可以体现用户需求特征的标签，当用户浏览网站或购买服务时，即可通过可视化显示的标签进一步了解自身的需求。构建用户画像时，通常的方法是收集用户的个人资料、访问记录、操作历史等信息，通过统计和机器学习的方式得出用户在多个维度上的特征，进行综合从而得出用户画像。

在线教育系统是一种较为特殊的网络服务系统，其提供的服务是各种各样的在线课程。一般情况下，每个在线课程都有对应的课程介绍，其主要为描述该在线课程特色的短文。由于在线教育系统中，能够反映用户兴趣的操作主要为购买课程的过程，而访问记录和用户资料等信息则难以反映出用户对于课程的真正兴趣，因此传统的用户画像构建方法难以适用于在线教育系统。

现有技术中，针对上述在线教育系统建立的用户画像主要基于用户的学习统计数据来建立。例如，中国专利CN106528656A提出了一种用户画像构建方法，其基于学习历史、实时学习状态的统计数据建立学习历史直方图以及学习状态直方图，并将二者联立形成学员特征直方图，再运用分类算法进行比较，从而确定课程推荐目标的标准学员的画像模型。这样的用户画像是与课程相对应的，其能够反映对某个课程有需求的用户的整体特征，因而便于该课程的推广。例如，需要推广某一个课程时，运营方可进行相应的设定，向符合标准学员画像模型的用户发送该课程的推广信息。

但是，上述用户画像无法反映用户对课程的需求。当用户需要了解在线教育系统中有哪些符合自己需求的课程，或运营方需要对某个用户进行针对性推广时，这样的用户画像是无法提供帮助的。另外，上述用户画像主要依据用户的学习情况统计得出，其统计过程几乎不考虑课程本身的主题，因此难以反映课程之间的主题关联性，使得运营方无法根据其进行关联课程的推广。

发明内容

针对现有技术的不足，本发明旨在提供一种用户画像构建系统及方法，能够反映课程主题之间关联性，并且能够反映用户需求。

为了实现上述目的，本发明采用如下技术方案：

一种用户画像构建系统，包括：

文档获取模块：用于从在线教育系统中获取课程的描述信息并整理形成与课程分别对应的描述文档；

主题词获取模块：用于将全部的描述文档作为文档群，对该文档群进行主题建模从而获取多个反映描述文档群整体主题的主题词；

主题矩阵生成模块：用于根据主题建模的结果对描述文档进行训练，得到主题词在描述文档中的分布并形成对应的文档主题分布矩阵；

文档聚类模块：用于根据文档主题分布矩阵得到各个描述文档之间的距离，并基于该距离对描述文档进行多次聚类，直到所有的描述文档均被聚为一类；

树图形成模块：根据文档聚类模块每次聚类的结果进行关键词提取，将提取出的关键词作为对应聚类簇的聚类簇主题词，形成以课程为叶子节点并且以每次聚类得到的聚类簇主题词为父节点的二叉树图；

画像形成模块：在二叉树图上分别以用户购买的课程为起点进行追溯，得到该用户购买的每个课程至二叉树图根节点之间的路径上所包含的全部聚类簇主题词，并以得到的聚类簇主题词作为标签，形成与用户对应的用户画像。

进一步地，还包括有文档预处理模块用于对描述文档进行预处理；所述文档预处理模块包括：

预处理词库存储单元：用于存储待替换词以及其对应的替换后词；

预处理替换单元：用于根据预处理词库存储单元从描述文档中查找待替换词并将其替换为对应的替换后词。

更进一步地，文档预处理模块还包括无效字符删除单元，用于根据预设的正则表达式删除描述文档中的包括HTML标记和URL链接字符在内的无效字符；文档预处理模块还包括文档清洗单元，用于清洗描述字段少于设定数量的描述文档。

进一步地，所述主题词获取模块包括：

分词词库存储单元：用于存储预设的分词词库；

分词单元：用于根据分词词库存储单元对描述文档进行划分，将该描述文档分为多个分词；

特征词筛选单元：用于基于TF-IDF法对描述文档中的分词依次进行权重评价并根据分词在描述文档中的权重值进行排序，进一步选取权重值从大到小排名靠前的设定数量的分词作为特征词；

主题词获取单元：利用筛选后的特征词，采用LDA主题识别模型对描述文档群进行建模，识别文档群众的主题分布，并基于困惑度指标对建模得到的主题词的最佳主题数量进行评估，得到描述文档群的主题个数。

更进一步地，所述分词词库存储单元还用于存储停用词库以及自定义词库，分词单元对描述文档进行划分时，停用词库、自定义词库的优先级高于分词词库。

利用上述用户画像构建系统进行用户画像构建的方法，包括如下步骤：

S1文档获取模块从在线教育系统中获取课程的描述信息并整理形成与课程分别对应的描述文档；

S2主题词获取模块将全部的描述文档作为文档群，对该文档群进行主题建模从而获取多个反映描述文档群整体主题的主题词；

S3主题矩阵生成模块根据主题建模的结果对描述文档进行训练，得到主题词在描述文档中的分布并形成对应的文档主题分布矩阵；

S4文档聚类模块根据文档主题分布矩阵得到各个描述文档之间的距离，并基于该距离对描述文档进行多次聚类，直到所有的描述文档均被聚为一类；

S5树图形成模块根据文档聚类模块每次聚类的结果进行关键词提取，将提取出的关键词作为对应聚类簇的聚类簇主题词，形成以课程为叶子节点并且以每次聚类得到的聚类簇主题词为父节点的二叉树图；

S6画像形成模块在二叉树图上分别以用户购买的课程为起点进行追溯，得到该用户购买的每个课程至二叉树图根节点之间的路径上所包含的全部聚类簇主题词，并以得到的聚类簇主题词作为标签，形成与用户对应的用户画像；所述聚类簇主题词为从该聚类簇中全部描述文档的主题词中进行关键词提取而得到的主题词。

需要说明的是，在步骤S1之后、步骤S2之前，还包括有描述文档预处理步骤：预处理词库存储单元中存储有待替换词以及其对应的替换后词，预处理替换单元根据文档预处理模块的预处理词库存储单元从描述文档中查找待替换词并将其替换为对应的替换后词；待替换词包括网络俚语、英语词语、缩写及简称，替换后词为与待替换词相对应的标准用词。

进一步需要说明的是，在描述文档预处理步骤中，还包括无效字符删除单元根据预设的正则表达式删除描述文档中的包括HTML标记和URL链接字符在内的无效字符，以及文档清洗单元清洗描述字段少于设定数量的描述文档。

需要说明的是，步骤S2具体为：

2.1)分词词库存储单元存储有预设的分词词库，分词单元根据分词词库存储单元对描述文档进行划分，将该描述文档分为多个分词；所述分词词库存储单元还存储有停用词库以及自定义词库，分词单元对描述文档进行划分时，停用词库和自定义词库的优先级高于分词词库；

2.2)特征词筛选单元基于TF-IDF法对描述文档中的分词依次进行权重评价并根据分词在描述文档中的权重值进行排序，进一步选取权重值从大到小排名靠前的设定数量的分词作为特征词；

2.3)主题词获取单元利用筛选得到的特征词，采用LDA主题模型对描述文档群进行建模，并基于困惑度指标对建模得到的主题词的最佳数量进行评估，得到描述文档群的主题词。

需要说明的是，在步骤S6，所述画像形成模块形成的用户画像中，标签分别具有一定的标签权重值，该标签权重值为画像形成模块根据聚类簇主题词在二叉树图中的层次而设定，并且由叶子节点至根节点依次递减，当用户画像中具有聚类簇主题词相同的标签时，画像形成模块将该聚类簇主题词相同的标签合并为同一个，并将标签权重值相加作为合并后的标签权重值。

本发明的有益效果在于：通过获取描述文档的主题词，形成对应的文档主题分布矩阵，基于文档主题分布矩阵对描述文档进行聚类并采用树图形成模块形成了以课程为叶子节点、簇主题词为各层父节点的二叉树图，能够基于主题发现形成反映课程之间主题关联性的树图，并进一步根据用户购买的课程得到包含多个以聚类簇主题词作为标签的用户画像，该用户画像能够有效地反映出用户对于在线课程的需求，让用户能够了解在线教育系统中有哪些符合自己需求的课程，也让运营方能够对用户进行针对性推广。

附图说明

图1是本发明实施例的用户画像构建系统的构成示意图；

图2为本发明实施例的树图形成模块所形成的二叉树图示意图；

图3为本发明实施例的用户画像构建方法流程图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，以下实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1是本发明实施例的用户画像构建系统的构成示意图。

如图1所示，用户画像构建系统100包括文档获取模块1、文档预处理模块2、主题词获取模块3、主题矩阵生成模块4、文档聚类模块5、树图形成模块6、画像形成模块7、通信模块8、暂存模块9和控制模块10。

本实施例的用户画像构建系统100可以设于在线教育系统中，也可以不设置于在线教育系统中而是与其通信连接。

通信模块8用于进行用户画像构建系统100中的各个组成部分以及用户画像构建系统100与在线教育系统之间的数据信息交换，暂存模块9用于对各个组成部分中产生的临时性数据信息进行暂存，控制模块10用于控制用户画像构建系统100中的各个组成部分的工作。

文档获取模块1用于从在线教育系统中获取课程的描述信息，整理形成与课程分别对应的描述文档，在本实施例中，获取的描述文档暂存至暂存模块9。文档获取模块1的获取过程可以采用自主爬虫采集器，也可以采用其他采集器。

文档预处理模块2用于对文档获取模块1获取到的描述文档进行预处理，包括文档清洗单元21、预处理词库存储单元22、预处理替换单元23以及无效字符删除单元24。

文档清洗单元21依次对描述文档的内容字段进行判断，当描述文档的字段低于预定数量时，直接将该描述文档删除。

预处理词库存储单元22存储有待替换词以及其对应的替换后词，预处理替换单元23根据预处理词库存储单元22中从描述文档中查找待替换词并将其替换为对应的替换后词。其中，待替换词包括网络俚语、英语词语、缩写及简称，替换后词为与待替换词相对应的标准用词。

无效字符删除单元24用于根据预设的正则表达式，删除描述文档中与正则表达式匹配的无效字符，包括HTML标记和URL链接字符等。

主题词获取模块3将全部的描述文档作为文档群，对该文档群进行主题建模从而获取多个反映描述文档群整体主题的主题词。

本实施例中，主题词获取模块3主要采用分词、特征词筛选和建立主题模型的方式来获取描述文档的主题词，包括分词词库存储单元31、分词单元32、特征词筛选单元33以及主题词获取单元34。

分词词库存储单元31存储有预设的分词词库、停用词库和自定义词库，分词单元32根据分词词库存储单元31所存储的词库依次对描述文档进行划分，将各个描述文档分为多个分词。

其中，分词词库可以采用现有的公开词库，例如结巴分词包；停用词库和自定义字库可以由在线教育系统的运营方工作人员根据实际情况设定，在划分时，停用词库和自定义词库的优先级高于分词词库。例如，停用词库可以设置“我们、在、的、是、太”等出现频率太高却没有太大意义或者类别色彩不强的词，让分词单元32在划分时直接去掉这些词；自定义词库可以设置“商务英语”这类不宜被划分开的词，减少误划分。

特征词筛选单元33基于TF-IDF法，对描述文档中的分词依次进行权重评价并根据分词在描述文档中的权重值进行排序，进一步选取权重值排名靠前的预定数量的分词作为特征词。其具体方法是，首先采用空间向量模型对描述文档中的分词进行数值化表示，提取特征词后采用TF-IDF给每个向量的特征词计算权重值，然后选择权重值排名靠前，也就是权重值较大的一定数量的词作为特征词来表示一个描述文档。在本实施例中，该特征词的数量为20个。例如，经过特征词筛选单元33处理后，描述文档j以向量形式表示为dj＝(w_1j,w_2j,…,w_20j)。

主题词获取单元34，利用筛选后的特征词，采用LDA主题模型对描述文档群进行建模，并基于困惑度指标对建模得到的主题词的最佳数量进行评估，得到描述文档群的主题词。

主题矩阵生成模块4用于根据主题词获取模块3的主题建模结果对描述文档进行训练，得到主题词在描述文档中的分布，并形成对应的文档主题分布矩阵。其中，主题词的分布可以采用吉布斯采样来获取。

文档聚类模块5用于根据文档主题分布矩阵得到各个描述文档之间的距离，并基于该距离对描述文档进行多次聚类，直到所有的描述文档均被聚为一类；树图形成模块6根据描述文档聚类模块5每次聚类的结果进行关键词提取，将提取出的关键词作为对应聚类簇的聚类簇主题词，形成以课程为叶子节点并且以每次聚类得到的聚类簇主题词为父节点的二叉树图。

即，文档聚类模块5基于文档主题分布矩阵，采用JSD距离算法得到各个描述文档之间的距离，并根据得到的距离进行凝聚层次聚类，每次聚类均可得到一定数量的聚类簇；树图形成模块6在每次聚类后，将每个聚类簇所包含的描述文档作为整体来进行关键词提取，提取出的关键词作为该聚类簇的聚类簇主题词，并以课程为叶子节点、聚类得到的各聚类簇主题词依次作为上层父节点，形成一个二叉树图。

图2为本发明实施例的树图形成单元所形成的二叉树图示意图。

如图2所示，第一次聚类时，描述文档j和描述文档i被归为同一个聚类簇C_1-1，对描述文档j和描述文档i进行关键词提取，其提取出的关键词X_1-1就是聚类簇C_1-1的簇主题词；第二次聚类时，聚类簇C_1-1和聚类簇C_1-2(其包含描述文档k和l)被归为同一个聚类簇C_2-1，则对描述文档j、i、k和l进行关键词提取得到的关键词是聚类簇C_2-1的簇主题词X_2-1。在最终形成的二叉树图中，与描述文档j、描述文档i分别对应的课程J和课程I就是两个叶子节点，该两个叶子节点的共同父节点就是C_1-1的簇主题词，而再上一层的父节点则是聚类簇C_2-1的簇主题词。

画像形成模块7用于在二叉树图上分别以用户购买的课程为起点进行追溯，得到该用户购买的每个课程至二叉树图根节点之间的路径上所包含的全部聚类簇主题词，并以得到的聚类簇主题词作为标签，形成与用户对应的用户画像。

其中，用户画像中的每个标签均具有一定的标签权重值，当画像形成模块7获取聚类簇主题词作为标签时，根据获取时该聚类簇主题词在二叉树图中所在的层次而给予一个标签权重值，并且该标签权重值由叶子节点至根节点依次递减。

例如，如图2所示，当用户购买了课程J时，画像形成模块7就从课程J所在的叶子节点开始，沿路径F进行追溯至根节点，其过程中得到的各个节点所对应的聚类簇主题词X_1-1、X_2-1、……X_n-1即为该次追溯所得到的全部标签。本实施例中，不同层次聚类簇主题词所对应的权重值按如下规则计算：

设树状图共有N层，自上而下分别是第1，2，…，M，…，N层，则第M层的簇主题词对应的权重值为M/(1+2+……+M+……+N)。

如果用户还购买了课程K，则画像形成模块7采用上述追溯方式，以课程K所在的叶子节点为起点追溯至根节点。

对用户购买的所有课程均追溯结束后，画像形成模块7将其中重复的标签(即不同课程追溯时经过的同一节点，其表现为簇主题词相同的标签)合并为同一个，并将重复标签的标签权重值相加作为合并后标签的标签权重值。

图3为本发明实施例的用户画像构建流程图。

如图3所示，采用本实施例的用户画像构建装置100进行用户画像构建的方法包括如下步骤：

步骤S1，文档获取部1从在线教育系统中获取课程的描述信息，整理形成与课程分别对应的描述文档，然后进入步骤S2。

步骤S2，文档预处理部2对获取到的描述文档进行预处理，然后进入步骤S3。

步骤S3，主题词获取模块3将全部的描述文档作为文档群，进行主题建模从而获得描述文档群的主题词，然后进入步骤S4。

步骤S4，主题矩阵生成模块4根据主题建模结果得到主题词在描述文档中的分布，并形成对应的文档主题分布矩阵，然后进入步骤S5。

步骤S5，文档聚类模块5基于文档主题分布矩阵得到各个描述文档之间的距离并进行凝聚层次聚类，然后进入步骤S6。

步骤S6，树图形成模块6根据文档聚类模块5的聚类结果形成以课程为叶子节点、簇主题词作为父节点的二叉树图，然后进入步骤S7。

步骤S7，画像形成模块7在二叉树图上以用户购买的课程为起点进行追溯，并将追溯路径上的簇主题词作为标签，形成对应的用户画像，然后进入步骤S8。

步骤S8，通信模块8对用户画像进行输出，然后进入结束状态。

输出的用户画像可以返回在线教育系统中，以可视化图形的方式显示在用户界面中。例如，在用户界面的特定区域显示全部标签，并按标签权重值从大到小依次排列，或按标签权重值较大的采用大字体、标签权重值较大较小的采用小字体的方式进行显示。如此，用户可以很直观地了解自己需求的侧重点。另外，输出的用户画像也可以作为用户个人资料的一部分存储，让在线教育系统可以根据该用户画像进行推荐，使得其推荐服务有更明确的方向。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种用户画像构建系统，其特征在于，包括：

2.根据权利要求1所述的用户画像构建系统，其特征在于，还包括有文档预处理模块用于对描述文档进行预处理；所述文档预处理模块包括：

3.根据权利要求2所述的用户画像构建系统，其特征在于，文档预处理模块还包括无效字符删除单元，用于根据预设的正则表达式删除描述文档中的包括HTML标记和URL链接字符在内的无效字符；文档预处理模块还包括文档清洗单元，用于清洗描述字段少于设定数量的描述文档。

4.根据权利要求1所述的用户画像构建系统，其特征在于，所述主题词获取模块包括：

分词词库存储单元：用于存储预设的分词词库；

5.根据权利要求4所述的用户画像构建系统，其特征在于，所述分词词库存储单元还用于存储停用词库以及自定义词库，分词单元对描述文档进行划分时，停用词库、自定义词库的优先级高于分词词库。

6.利用权利要求1-5任一所述的用户画像构建系统进行用户画像构建的方法，其特征在于，包括如下步骤：

7.根据权利要求6所述的方法，其特征在于，在步骤S1之后、步骤S2之前，还包括有描述文档预处理步骤：预处理词库存储单元中存储有待替换词以及其对应的替换后词，预处理替换单元根据文档预处理模块的预处理词库存储单元从描述文档中查找待替换词并将其替换为对应的替换后词；待替换词包括网络俚语、英语词语、缩写及简称，替换后词为与待替换词相对应的标准用词。

8.根据权利要求7所述的方法，其特征在于，在描述文档预处理步骤中，还包括无效字符删除单元根据预设的正则表达式删除描述文档中的包括HTML标记和URL链接字符在内的无效字符，以及文档清洗单元清洗描述字段少于设定数量的描述文档。

9.根据权利要求6所述的方法，其特征在于，步骤S2具体为：

10.根据权利要求6所述的方法，其特征在于，在步骤S6，所述画像形成模块形成的用户画像中，标签分别具有一定的标签权重值，该标签权重值为画像形成模块根据聚类簇主题词在二叉树图中的层次而设定，并且由叶子节点至根节点依次递减，当用户画像中具有聚类簇主题词相同的标签时，画像形成模块将该聚类簇主题词相同的标签合并为同一个，并将标签权重值相加作为合并后的标签权重值。