CN109783615B

CN109783615B - 基于词语对狄利克雷过程的用户画像方法和系统

Info

Publication number: CN109783615B
Application number: CN201910104306.4A
Authority: CN
Inventors: 王小军; 席耀一; 唐永旺; 王波; 郭克坤; 徐东; 毛二松; 陈诚; 李福昌
Original assignee: Song Laiwei
Current assignee: Beijing Junchuang Shengan Technology Co ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-08-11
Anticipated expiration: 2039-01-25
Also published as: CN109783615A

Abstract

本发明公开了一种基于词语对狄利克雷过程的用户画像方法和系统，涉及数据挖掘技术领域，提取用户数据中的短文档，利用词语对狄利克雷过程获取短文档的关键词，该关键词用于建立用户画像。能够充分挖掘微博类数据生产平台产生用户数据中的碎片化内容信息，有效提升利用该类用户数据进行用户画像的准确率。本发明提供的词语对狄利克雷过程并不直接得到文档‑主题分布，而是打破文档之间的边界限制，从整个文档集中统计词语的共现信息，避免了单一文档如果是短文本时，其词语共现信息严重不足的问题。根据整个文档集的词语共现信息可以得到主题‑词语分布，然后可以利用贝叶斯公式得到每篇文档的文档‑主题分布。

Description

基于词语对狄利克雷过程的用户画像方法和系统

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种通过用户数据中的短文档进行用户画像的方法及系统。

背景技术

用户画像(即User Profile或者Personas)又称用户角色，是一种通过用户数据勾画目标用户、联系用户需求与实际产品设计方向的工具性建模方法，用户画像方法产生的数字化模型也称为用户画像。微博是一种拥有海量用户的互联网社交工具，也是一种用户数据的数据生产平台，其用户每天可以产生大量的用户数据，微博等数据生产平台的用户数据可通过用户画像方法进行数字化建模，并用于把握用户群体核心诉求，分析用户群体情感喜好，提升个性化信息推荐性能和辅助决策等信息生产目标。

用户数据一般携带显式信息和隐含信息。以微博为例，其用户数据包括体现用户客观属性的账户信息、标记用户喜好的标签信息、用户日常发布或更新的内容信息等，其中账户信息、标签信息和内容信息的直接意思表达即为显式信息，如账户信息中的性别为“男”即标识该用户性别为“男”，在性别这个聚类维度上，该用户信息的坐标为“男”，显式信息不能直接标识但可以通过显式信息推导出的其他信息为隐含信息，如某用户的显式信息中未体现的该用户情绪、性格、喜好等。

现有技术中，利用用户数据进行用户画像方法有两种：1、直接提取用户数据显式信息中的词汇，对具体用户进行基于这些词汇的用户画像，如提取某个微博用户的账户信息和标签信息并进行聚合，直接将该聚合作为用户画像；2、通过提取用户数据显式信息中的词汇或者通过语义分析提取用户数据中隐含信息，对用户数据设定多个聚类维度，然后通过聚类算法对全部用户进行聚类，形成多个用户簇，以用户簇中心的虚拟用户的位置为其所在的用户簇进行用户画像，如使用微博用户账户信息中的地域、年龄、性别、在外就餐的频率等聚类维度对用户进行聚类分类。使用上述方法对微博类数据生产平台的用户数据进行用户画像至少存在以下问题：(1)可用的显式信息少，存在大量匿名用户、标签信息不全面等问题，如标签信息虽然反应了用户喜好，但是并不全面，也不能反应用户喜好的变化，用户画像的准确性差；(2)碎片化显式信息难以提取隐含信息，如微博中用户发布的内容信息虽然准确及时地捕捉用户的兴趣和变化，但其每条内容信息的文本局限于140字，难以通过常规语义分析建立合适的聚类维度进行聚类分类，无法用于用户画像。基于以上原因，微博类数据生产平台的用户数据在用户画像技术领域的应用效果很不理想。

在语义分析领域，以隐含狄利克雷分布(Latent Dirichlet Allocation，即LDA)为代表的的传统主题模型能够从语义层面提取文档中的关键词，主题模型是一种生成模型，认为每篇文档都对应有一个隐含主题分布，是若干隐含主题按一定比例的混合，而文档中的每个词语都是由相应的隐含主题抽样生成的。通过提取隐含主题分布中占比较大的隐含主题，即可从语义层面对文档进行分析。然后从隐含主题中提取占比较大的词语，即可认为是从语义层面提取关键词。在主题模型理论中，一般假设所有文档的隐含主题分布均具有一个共同的基分布的先验，通过后验推理可以得到每篇文档的隐含主题分布。以经典的主题模型LDA为例，LDA假设所有文档的主题分布的先验均满足相同的狄利克雷分布，而狄利克雷分布需要预先指定主题数目，当指定数目与实际数目相差较远时，传统主题模型的性能会受到较大影响。同时，对于某一文档集，利用传统的主题模型提取关键词时，一般先要抽样生成文档集的文档-主题分布，然后得到每一个文档的主题-词语分布。两类分布都是依赖于词语共现信息得到，当每篇文档的文本长度较短时，词语共现信息不足，影响了该类方法的性能。

发明内容

本发明的目的是提供基于词语对狄利克雷过程的用户画像方法，能够充分挖掘微博类数据生产平台产生用户数据中的碎片化内容信息，有效提升利用该类用户数据进行用户画像的准确率。

本发明提供了如下技术方案：

一种基于词语对狄利克雷过程的用户画像方法，提取用户数据中的短文档，利用词语对狄利克雷过程获取短文档的关键词，该关键词用于建立用户画像。

本发明的一个方法实施例中，利用词语对狄利克雷过程获取短文档的关键词的方法包括：获取用户数据中的所有短文档，并组成短文档集；利用词语对狄利克雷过程建立该短文档集的短文档集模型，短文档集模型中包括文档-主题分布矩阵和主题-词汇分布矩阵；将全部文档-主题分布矩阵求和获得用户-主题分布矩阵；将用户-主题分布矩阵与主题-词汇矩阵相乘获得用户-词汇分布矩阵；选取用户-词汇分布矩阵中的元素对应的词汇作为关键词。

本发明的一个方法实施例中，关键词只包含名词和/或形容词。

本发明的一个优选方法实施例中，通过关键词建立用户画像的方法包含：提取并使用用户数据中的标签信息对关键词进行数据清洗。

本发明的一个优选方法实施例中，设置用户画像中标签信息的信度大于关键词。

本发明的一个方法实施例中，选取的狄利克雷过程的基分布为对称狄利克雷分布。

本发明的一个方法实施例中，后验推演选取的采样方法为吉布斯抽样方法。

本发明还提供了一种基于词语对狄利克雷过程的用户画像系统，其特征在于：用于用户画像系统的输入数据或者中间数据由本发明提供的方法得到或者间接得到，数据包括本发明的方法得到的关健词。

本发明的一个方面带来的有益效果是：相较狄利克雷分布，本发明提供的词语对狄利克雷过程(Biterm Dirichlet Process，即BDP)能够自动从文档中推断隐含主题的数目。

本发明的一个方面带来的有益效果是：本发明提供的词语对狄利克雷过程并不直接得到文档-主题分布，而是打破文档之间的边界限制，从整个文档集中统计词语的共现信息，避免了单一文档如果是短文本时，其词语共现信息严重不足的问题。根据整个文档集的词语共现信息可以得到主题-词语分布，然后可以利用贝叶斯公式得到每篇文档的文档-主题分布。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个方法实施例中词语对狄利克雷过程的示意图；

图2为本发明一个方法实施例的流程图；

图3为本发明一个方法实施例中部分用户数据的示意图；

图4为本发明一个方法实施例中利用词语对狄利克雷过程获取短文档的关键词的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

首先应当说明的是，狄利克雷过程(DP)是一种无限混合模型，其认为一组数据是由一个混合模型(mixture model)抽样产生的。该模型包含多个混合成分(mixturecomponents)，每个数据都与一个混合成分相关。其基本原理可以通过如下的中国餐馆过程(CRP)简单阐述：假设一个中国餐馆有无限的桌子，第一个顾客到来之后坐在第一张桌子上。第二个顾客来到可以选择坐在第一张桌子上，也可以选择坐在一张新的桌子上，假设第n+1个顾客到来的时候，已经有k张桌子上有顾客了，分别坐了n₁,n₂,...,n_k个顾客，n_i为第i张桌子上的顾客数，那么第n+1个顾客可以以一个概率坐在第i张桌子上，同时也可以以一个概率选取一张新的桌子坐下。那么在n个顾客坐定之后，很显然CRP把这n个顾客分为了K个堆，即K个簇(clusters)，该过程(CRP)就是一个狄利克雷过程。该过程的一个限定是每张桌子上只能有同一个菜，同时该桌顾客均喜欢吃该道菜。对于有有限顾客的中国餐馆过程，可以得到一种桌子数量的确定方法，一张桌子相当于一个隐含主题，而每篇文档都对应有一个隐含主题的分布。狄利克雷过程具有两个特点：1)簇的个数的增长是比元素的个数的增长要缓慢得多的；2)该聚类过程存在马太效应，对于包含元素更多的簇，有更大概率加入新的数据。

本发明提供的词语对狄利克雷过程，将上述中国餐馆过程中的桌子视为隐含主题，将文档中的词语作为顾客，文档是若干隐含主题按一定比例的混合，文档中的每个词语都是由相应的隐含主题抽样生成的，通过提取占比较大的隐含主题，即可从语义层面对文档进行分析，即从隐含主题中提取占比较大的词语，可从语义层面提取关键词，并可以以下述方法处理由多个短文档组成的短文档集：

如图1所示，将由多个短文档组成的短文档集视为一组文档数据，假设该组文档数据的隐含主题先验分布服从狄利克雷过程G～DP(α,G₀)，其中G表示该组文档数据的全局测度，G₀为全局基测度，α是聚焦参数，|B|为文档集中的词语对数目。同时，对该组文档数据中的每一个词语对(biterm)标记为b_j，对每个b_j，可以从G中抽取隐含主题θ_j，使得可以由θ_j生成b_j所包含的两个词语w_j1和w_j2；采用Gibbs Sampling方法对上述狄利克雷过程进行后验推理，通过Gibbs Sampling方法的迭代式由式1表达，第j个词语对与隐含主题z相关的条件概率分布为：

其中，上标中的^-表示不包含相应变量的计数，例如表示由主题z生成的词语对(biterm)的数目(不包括第j个biterm)，B表示所有词语对组成的词语对集合；

假设每一隐含主题在该组文档数据中均服从对称狄利克雷分布Dir(β)，β为主题-词语分布的狄利克雷先验参数，则对式1中有如下式2计算：

其中，V为特征数目，即词典大小，表示由主题z生成的特征v的数目(不包含词语w_ji)，/>表示由主题z生成的特征数目(不包含词语w_ji)；

通过模型推理，可以得到文档中的K个主题z₁,z₂,…,z_K。并且每一隐含主题z_k的词语概率分布(又记为p(w|z_k))的计算方法如式3所示：

其中，为由隐含主题z生成的特征w的数目；

每一隐含主题z_k在文档集内的概率分布p(z_k)的计算方法如式4所示：

其中，为由隐含主题z_k生成的词语对数目；

每一隐含主题z_k在一个短文档s内的概率分布p(z_k|s)的计算方法为如式5所示：

其中，|B|_s表示短文档s包含的词语对数目，式中p(z_k|b)和p(b|s)采用式6和式7的方法计算得到：

其中，w_i和w_j为每一词语对b包含的词语，m_s(b)为词语对b在短文档s中出现的次数。

通过上述描述可知，对于由短文档组成的短文档集，经过词语对狄利克雷过程的后验推理，可以得到词汇在一个指定的隐含主题z_k中的概率分布p(w|z_k)、隐含主题z_k在组成短文档集的一个指定短文档s内的概率分布p(z_k|s)、隐含主题的数量K以及隐含主题z₁,z₂,…,z_K。

下面结合实施例进一步说明通过词语对狄利克雷过程实现用户画像的具体方案。

实施例一

如图2所示，本实施例提供了一种基于词语对狄利克雷过程的用户画像方法，用于通过提取的新浪微博中的用户数据对用户进行画像。该方法可以包含以下步骤：

S101，提取用户数据中的短文档。

具体实施时，如图3所示的一个新浪微博用户的信息面板，提供了该用户包括基本信息、工作信息、教育信息的账户信息以及通过网络社交活动被自己或其他人标识的标签信息，这些信息都是用户数据的一部分。本实施例中，该用户的用户数据还包括用户日常发布或更新的微博和公开留言等内容信息，每一条微博或者公开留言均为一篇短文档。建立一个包括所有短文档的数据表，数据表的字段至少包括一个与短文档对应的短文档id和短文档的文本信息。该数据表可以被视为一个短文档集，可以通过检索词语定位其所在短文档的位置。在本发明中的其他实施例中也可以加入其它字段，如发布日期、发布地点等以增加更多的分析条件。

S102，利用词语对狄利克雷过程获取短文档的关键词。

根据本发明采用的词语对狄利克雷过程，具体实施时，可以按照如图4所示的以下步骤实现：

S201，选取隐含主题在短文档集中可能的先验分布作为基分布，该先验分布满足狄利克雷过程的条件；本实施例中认为先验分布为对称狄利克雷分布Dir(β)，其中β为该先验分布的先验参数。在本发明的其他实施例中，也可以选用其它符合狄利克雷过程要求的先验分布作为基分布；

S202，选取一个基于词语对的采样方法对基分布进行后验推理(词语对是包含两个以上短文档集中的不同词语的集合)，得到每一个隐含主题z_k中的词语概率分布p(w|z_k)、每一个隐含主题在一个具体的短文档内的概率分布p(z_k|s)；可以从各个短文档中通过分词算法，得到整个短文档集的分词数据，分词数据包括一个词语id、一个词语字段和一个用于定位其所在短文本的外链字段，词语字段的文本w可以为本实施例的词语；本实施例中采样方法选用吉布斯抽样方法(Gibbs Sampling)，词语对b_j为根据隐含主题θ_j生成的、包含两个词语w_j1和w_j2的集合，基于词语对b_j以及吉布斯抽样方法的迭代式的，每个隐含主题的条件概率分布满足式1，又根据先验分布为对称狄利克雷分布Dir(β)，式1中的算子满足式2，因此可以推导出短文档集的隐含主题的数目K和通过式3得到的一个隐含主题z_k的词语概率分布p(w|z_k)。进一步的，通过式4得到每一隐含主题z_k在文档集内的概率分布p(z_k)，p(z_k)也可以用于表示隐含主题z_k，同时，通过式5得到每一隐含主题z_k在一个短文档s内的概率分布p(z_k|s)；

S203，建立该短文档集的短文档集模型，短文档集模型中包括文档-主题分布矩阵和主题-词汇分布矩阵；具体实施时，可以将所有的p(z_k|s)组成D行K列的文档-主题分布矩阵D*K，其中D为短文档的个数，K为上述得到的隐含主题的个数，将所有的p(w|z_k)组成K行V列的主题-词语分布矩阵K*V，其中V为不同词语的个数；

S204，将所有短文档对应的文档-主题分布p(z_k|s)求和，得到用户-主题分布矩阵1*K；具体实施时，假设经过后验推理得到了K个子话题z₁,z₂,...,z_K，通过对文档-主题分布矩阵每列元素求和，并组成新的1行K列用户-主题分布矩阵1*K；

S205.将用户-主题分布矩阵和主题-词语分布矩阵进行相乘，得到用户-词语矩阵，并从用户-词语矩阵选择关健词；具体实施时，用户-主题分布矩阵和主题-词语分布矩阵进行相乘后，得到一个1行V列的用户-词语矩阵，该矩阵中数值最大的元素对应的词语，可以认为与该用户的关联程度越大，越能代表用户的特征，应该优先选择，本实施例中选取最大的二十个数值所对应的词语作为该用户的关键词。

S103，提取并使用用户数据中的标签信息对关键词进行数据清洗。具体实施时，通过上述方法获取指定用户的关键词，有些并不适合用于用户画像，而且有些词语与用户已有标签信息存在重复；考虑到用户画像的标签以名词和形容词为主，本发明仅保留关键词中的名词和形容词，然后抽取用户数据原有的标签信息中的词语，并删除用户关键词中与这些信息中的词语重复的词语；

S104，设置用户画像中标签信息的信度大于关键词；本实施例按照先标签，然后关键词的顺序进行排序，并将排序结果直接作为用户最终画像；在本发明的其他实施例中，可以结合具体关健词对应的概率分布的权重，转换为信度，进行数值化的用户画像。

实施例二

本实施例提供了一种基于词语对狄利克雷过程的用户画像方法，用于通过提取新浪微博中的用户数据对用户进行画像。本实施例与实施例一的区别在于，将用户数据中提取的短文档，按照时间轴分段，每一段作为一个短文档集提取关键词，根据关健词概率分布的变化，进行用户画像，如发现关键词“美食”的数值变低，可以判断用户处于节食的状态。

实施例三

对应本申请的所有方法实施例，本实施例提供了一种基于词语对狄利克雷过程的用户画像系统。该系统用于产生用户画像的数据全部或者部分来自通过本申请的方法获取的关键词或者来自在本方法实施过程中获取的任何过程数据。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要，选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的基于词语对狄利克雷过程的用户画像方法及系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于词语对狄利克雷过程的用户画像方法，其特征在于：提取用户数据中的短文档，利用词语对狄利克雷过程获取短文档的关键词，该关键词用于建立用户画像；

其中，利用词语对狄利克雷过程获取短文档的关键词的步骤包括：

将所述用户数据中的多个短文档组成一短文档集，选取一个对称狄利克雷分布Dir(β)作为一隐含主题z在该短文档集中的基分布；

标记该组文档数据中的若干词语对，其中，每一个词语对标记为b_j，对每个b_j，从该组文档数据的全局测度G中抽取隐含主题θ_j，使得由θ_j生成b_j所包含的两个词语w_j1和w_j2；通过Gibbs Sampling方法迭代获得第j个词语对b_j与隐含主题z相关的条件概率分布以及该组文档数据在该词语对标记方式下的隐含主题的数目K，所述各条件概率分布由下式(1)迭代获得，

其中，上标中的表示不包含相应变量的计数，表示由隐含主题z生成的不包括第j个词语对的其他全部词语对的数目，α是基分布的聚焦参数，B表示所有词语对组成的词语对集合，/>由如下式2迭代获得，

其中，V为不同词语的个数即特征数目，即词语词典大小，表示由隐含主题z生成的不包含词语w_ji的特征v的数目，/>表示由隐含主题z生成的不包含词语w_ji的特征数目，β为满足对称狄利克雷分布的主题-词语分布的狄利克雷先验参数，|B|为文档集中的词语对数目；

根据下式(3)获得每一隐含主题z_k中各词语概率分布p(w|z_k)，

其中，k∈K，为由隐含主题z生成的特征w的数目；

根据下式(4)(5)(6)(7)获得每一隐含主题z_k在该短文档集一个短文档s内的概率分布p(z_k|s)，

其中，为由隐含主题z_k生成的词语对数目，|B|_s表示短文档s包含的词语对数目，w_i和w_j为每一词语对b包含的词语，m_s(b)为词语对b在短文档s中出现的次数；

将词语词典中V个不同词语在K个隐含主题中的概率分布p(w|z_k)组成K行V列的主题-词语分布矩阵K*V，将K个隐含主题在该短文档集各短文档中的概率分布p(z_k|s)分别求和并组成1行K列的用户-主题分布矩阵1*K，将用户-主题分布矩阵和主题-词语分布矩阵进行相乘后，得到一个1行V列的用户-词语矩阵；根据该用户-词语矩阵中元素值的大小选择对应的词语作为该用户的关键词。

2.根据权利要求1所述的基于词语对狄利克雷过程的用户画像方法，其特征在于，利用词语对狄利克雷过程获取短文档的关键词的方法包括：获取用户数据中的所有短文档，并组成短文档集；利用词语对狄利克雷过程建立该短文档集的短文档集模型，短文档集模型中包括文档-主题分布矩阵和主题-词汇分布矩阵；将全部文档-主题分布矩阵求和获得用户-主题分布矩阵；将用户-主题分布矩阵与主题-词汇矩阵相乘获得用户-词汇分布矩阵；选取用户-词汇分布矩阵中的元素对应的词汇作为关键词。

3.根根据权利要求2所述的基于词语对狄利克雷过程的用户画像方法，其特征在于，关键词只包含名词和/或形容词。

4.根据权利要求1至3任一项所述的基于词语对狄利克雷过程的用户画像方法，其特征在于，通过关键词建立用户画像的方法包含：提取并使用用户数据中的标签信息对关键词进行数据清洗。

5.根据权利要求4所述的基于词语对狄利克雷过程的用户画像方法，其特征在于，设置用户画像中标签信息的信度大于关键词。

6.一种基于词语对狄利克雷过程的用户画像系统，其特征在于：用于用户画像系统的数据，由权利要求1至5任一项的方法得到，数据包括关健词。