CN108763400B

CN108763400B - 基于对象行为和主题偏好的对象划分方法及装置

Info

Publication number: CN108763400B
Application number: CN201810496356.7A
Authority: CN
Inventors: 刘业政; 朱婷婷; 杜非; 姜元春; 孙见山
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2021-09-14
Anticipated expiration: 2038-05-22
Also published as: CN108763400A

Abstract

本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置。所述方法包括：获取第一数量个目标对象的初始文档集合；利用潜在狄利克雷分布模型获取到所述每个目标对象的主题偏好向量；标准化所述每个目标对象的行为向量；利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合；基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组；分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值得到所述每个类别组的特征向量。本发明实施例可以实现对多种不同特征进行建模，有利于确定各目标对象的分类，提高对象划分结果。

Description

基于对象行为和主题偏好的对象划分方法及装置

技术领域

本发明涉及文本数据处理技术领域，尤其涉及一种基于对象行为和主题偏好的对象划分方法及装置。

背景技术

随着在线社交媒体和电子商务网站等的发展，基于目标对象制造内容(UGC)的平台已经变成人们日常生活中不可缺少的部分。基于UGC的平台的发展，为企业带来了巨大的商业机会，可以帮助企业发现需求、研发产品以及进行客户管理等。

相关技术中对上述内容进行处理的过程中，通常会采用主题建模的方式，然后利用主题模型发现上述内容中主题，进而对各目标对象进行分组。然而，目标对象对应多个特征，由于多个特征之间并无相关关系，导致无法对其建立模型，进而导致各目标对象划分组后结果不太准确。

发明内容

针对现有技术中的缺陷，本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置，用于解决相关技术中目标对象划分组的结果不准确的技术问题。

第一方面，本发明实施例提供了一种基于对象行为和主题偏好的对象划分方法，所述方法包括：

获取第一数量个目标对象的初始文档集合；所述初始文档集合包括文本集合和行为向量；

利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取，得到所述每个目标对象的主题偏好向量；同时将所述每个目标对象的行为向量标准化为标准行为向量；

利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合，得到每个目标对象的更新文档集合；

基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组；

分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。

可选地，将所述每个目标对象的行为向量标准化为标准行为向量包括：

对于所述行为向量中任一个行为特征，找出所有目标对象中所述任一个行为特征的最大特征V_v ^(max)和最小特征V_v ^(min)；

针对每个目标对象，获取所述任一个行为特征的标准值，公式为：

其中，V_v ^(max)，V_v ^(min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。

可选地，所述潜在狄利克雷混合模型包括：

获取每个目标对象的所有特征的联合概率分布，公式为：

获取每个目标对象的角色，公式为：

式中，u是指当前目标对象，r_u表示目标对象u的角色，r_-u表示除了目标对象u以外其他对象的角色，U_-u是指除了目标对象u以外的其他对象，α是指目标对象角色分布的超参数，f_existing是指目标对象属于已存在角色的条件概率，f_new是指目标对象属于新类别的条件概率

其中，f_existing和f_new的计算方法分别如下：

f_existing(u|*)＝∫p(Θ,V',R,π,ρ,η,α₁,α₂,α₃)/p(R,π,ρ,η,α₁,α₂,α₃)d*

f_new(u|*)＝∫p(Θ,V',R,π,ρ,η,α₁,α₂,α₃)d*；

其中，Θ是指所有的主题偏好向量的集合，V’是指所有目标对象行为向量的集合，R是所有角色的集合，π是关于不同目标对象角色的多项式概率分布，ρ是目标对象行为特征的先验分布，η是主题偏好的先验分布，α₁,α₂,α₃是本模型的超参数。

第二方面，本发明实施例提供了一种基于对象行为和主题偏好的对象划分装置，所述装置包括：

初始集合获取模块，用于获取第一数量个目标对象的初始文档集合；所述初始文档集合包括文本集合和行为向量；

向量获取模块，用于利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取，得到所述每个目标对象的主题偏好向量；同时将所述每个目标对象的行为向量标准化为标准行为向量；

更新集合获取模块，用于利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合，得到每个目标对象的更新文档集合；

类别组获取模块，用于基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组；

特征向量获取模块，用于分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。

可选地，所述向量获取模块包括：

最值特征获取单元，用于对于所述行为向量中任一个行为特征，找出所有目标对象中所述任一个行为特征的最大特征V_v ^(max)和最小特征V_v ^(min)；

标准值获取单元，用于针对每个目标对象，获取所述任一个行为特征的标准值，公式为：

可选地，潜在狄利克雷混合模型包括：

概率分布获取单元，用于获取每个目标对象的所有特征的联合概率分布，公式为：

对象角色获取单元，用于获取每个目标对象的角色，公式为：

式中，u是指当前目标对象，r_u表示目标对象u的角色，r_-u表示除了目标对象u以外其他对象的角色，U_-u是指除了目标对象u以外的其他对象，α是指目标对象角色分布的超参数，f_existing是指目标对象属于已存在角色的条件概率，f_new是指目标对象属于新类别的条件概率；

其中，f_existing和f_new的计算方法分别如下：

f_new(u|*)＝∫p(Θ,V',R,π,ρ,η,α₁,α₂,α₃)d*；

由上述技术方案可知，本发明实施例通过利用潜在狄利克雷混合模型获取每个目标对象的主题偏好向量和标准行为特征的联合分布，从而可以实现对多种不同特征进行建模，有利于确定各目标对象的分类，提高对象划分结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的基于对象行为和主题偏好的对象划分方法的流程示意图；

图2为本发明一实施例中划分结果的示意图；

图3～图5为本发明一实施例提供的对象划分装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

鉴于相关技术中对UGC内容采用主题建模的过程中，由于目标对象对应多个特征，并且多个特征之间并无相关关系，导致无法对目标建立模型，进而导致各目标对象划分组后结果不准确的问题。

为解决上述技术问题，本发明实施例提供了一种基于对象行为和主题偏好的对象划分方法。图1为本发明一实施例提供的基于对象行为和主题偏好的对象划分方法的流程示意图。参见图1，一种基于对象行为和主题偏好的对象划分方法包括：

101，获取第一数量个目标对象的初始文档集合；所述初始文档集合包括文本集合和行为向量；

102，利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取，得到所述每个目标对象的主题偏好向量；同时将所述每个目标对象的行为向量标准化为标准行为向量；

103，利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合，得到每个目标对象的更新文档集合；

104，基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组；

105，分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。

下面结合附图和实施例对基于对象行为和主题偏好的对象划分方法的各步骤作详细描述。

首先，介绍101，获取第一数量个目标对象的初始文档集合的步骤。

本实施例中，从服务器、移动终端或者第三方提供商获取初始文档集合D＝(D₁,...,d_d,...,D_|D|)。其中，|D|表示文档数量，D_d表示第d篇文档。假设文档D_d的词语集合是w＝{w₁,...,w_w,...,w_|W|}。所有文档的所有词语集合是w＝{w₁,...,w_i,...,w_N}，其中，N表示所有词语数量。

本实施例中，用U＝(u₁,...,u_u,...,u_|U|)代表目标对象的集合。所述目标对象集合中，|U|表示目标对象数量，u_u表示第u个目标对象。每一个目标对象采用一组文本集合D和一个行为向量V表示。

其次，介绍102，利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取，得到所述每个目标对象的主题偏好向量；同时将所述每个目标对象的行为向量标准化为标准行为向量的步骤。

本实施例中利用潜在狄利克雷分布模型对初始文档集合进行主题抽取。首先，将每个目标对象中的一组文本集合合并为一个文本集合，然后使用潜在狄利克雷分布模型对该文本集合进行主题提取。以提取K个主题为例，提取K次后，得到一个K维向量θ；即该目标对象的主题偏好向量。

由于每个初始文档包括不同的主题，每个主题由不同的词语组成，因此本实施例中使用吉布斯抽样方法可得到每个初始文档中每个词语所属的主题，然后根据这些词语的主题得到初始文档的主题分布，即为用户的主题偏好向量。

每个目标对象还包括一个行为向量，V_u＝{V_u1,...,V_uv,...,V_u|V|}。在一实施例中，对该行为向量进行标准化处理，从而得到该目标对象的标准化向量V_u'＝{V_u1',...,V_uv',...,V_u|V|'}，步骤包括：

(1)对于所有目标对象，从其对应的行为向量中指出第v个行为特征V_v的最大特征V_v ^(max)和最小特征V_v ^(min)；

(2)对每个目标对象的第v个行为特征V_v的按照标准化公式计算标准行为特征；

(3)所有行为特征都标准化后，即可得到标准行为特征V’。

再次，介绍103，利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合，得到每个目标对象的更新文档集合的步骤。

本实施例中，对于每个目标对象，使用主题偏好向量和标准行为向量更新该每个目标对象的初始文档集合，这样可以得到其更新文档集合U_u＝{θ_u,V_u'}。

第四，介绍104，基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组的步骤。

本实施例中，利用组合式的潜在狄利克雷混合模型计算每个目标对象的类别组，包括：

(1)计算所有目标对象的所有行为特征的联合概率分布，即任意两个行为特征之间的联合概率分布：

式中，u是指当前目标对象，r_u表示目标对象u的角色，r_-u表示除了目标对象u以外其他对象的角色，U_-u是指除了目标对象u以外的其他对象，α是指目标对象角色分布的超参数，f_existing是指目标对象属于已存在角色的条件概率，f_new是指目标对象属于新类别的条件概率。

(2)对于每个目标对象，获取其角色：

其中，f_existing和f_new的计算方法分别如下：

f_new(u|*)＝∫p(Θ,V',R,π,ρ,η,α₁,α₂,α₃)d*。

其中，Θ是指所有的主题偏好向量的集合，V’是指所有目标对象行为向量的集合，R是所有角色的集合，π是关于不同目标对象角色的多项式概率分布，ρ是目标对象行为特征的先验分布，η是主题偏好的先验分布，α₁,α₂,α₃是本模型的超参数；

其中角色是指一类行为相似的目标对象的总称，或者目标对象属于同一个聚类的类别组名称。

第五，介绍105，分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量的步骤。

本实施例中，计算每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，利用主题偏好向量的平均值和标准行为向量的平均值构成每个类别组的特征向量。

可知，本发明实施例通过利用潜在狄利克雷混合模型获取每个目标对象的主题偏好向量和标准行为特征的联合分布，从而可以实现对多种不同特征进行建模，有利于确定各目标对象的分类，提高对象划分结果。

为验证本发明实施例提供的一种基于对象行为和主题偏好的对象划分方法的有效性和优越性，本发明一实施例以微博数据为例进行说明。

本实施例中，收集12553个微博用户的35200179条微博数据，根据上述对象划分方法共获得47种不同的角色。本实施例中，删除用户数量小于等于100个用户的角色，最终可以得到14种角色。最后基于不同角色的用户做影响力营销，方法如下：

策略1(影响优先–IP策略)。首先，获取多个影响力指标，如追随者人数，从而选择出具有高度影响力的角色。然后，根据有高度影响力的角色选择主题偏好最接近目标主题的角色。

策略2(偏好优先-PP策略)。首先，选择主题偏好与目标主题最接近的三个角色。之后，选择其中最有影响力的角色。例如，本实施例中选择美妆、衣服、世界新闻和游戏作为试图推广的目标主题，最终影响力营销效果如图2所示，其中M1是DPMM方法，M2是将所有用户都当做统一的特征的结果。

图3为本发明一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图3，本发明实施例还提供了一种基于对象行为和主题偏好的对象划分装置，所述装置包括：

初始集合获取模块301，用于获取第一数量个目标对象的初始文档集合；所述初始文档集合包括文本集合和行为向量；

向量获取模块302，用于利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取，得到所述每个目标对象的主题偏好向量；同时将所述每个目标对象的行为向量标准化为标准行为向量；

更新集合获取模块303，用于利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合，得到每个目标对象的更新文档集合；

类别组获取模块304，用于基于所述每个目标对象的更新文档集合，利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组；

特征向量获取模块305，用于分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值，将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。

图4为本发明另一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图4，在图3所示对象划分装置的基础上，所述向量获取模块305包括：

最值特征获取单元401，用于对于所述行为向量中任一个行为特征，找出所有目标对象中所述任一个行为特征的最大特征V_v ^(max)和最小特征V_v ^(min)；

标准值获取单元402，用于针对每个目标对象，获取所述任一个行为特征的标准值，公式为：

图5为本发明另一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图5，在图3所示对象划分装置的基础上，潜在狄利克雷混合模型304包括：

概率分布获取单元401，用于获取每个目标对象的所有特征的联合概率分布，公式为：

对象角色获取单元402，用于获取每个目标对象的角色，公式为：

其中，f_existing和f_new的计算方法分别如下：

f_new(u|*)＝∫p(Θ,V',R,π,ρ,η,α₁,α₂,α₃)d*；

需要说明的是，本发明实施例提供的基于对象行为和主题偏好的对象划分装置与上述方法是一一对应的关系，上述方法的实施细节同样适用于上述装置，本发明实施例不再对上述系统进行详细说明。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。