CN108763400B - 基于对象行为和主题偏好的对象划分方法及装置 - Google Patents

基于对象行为和主题偏好的对象划分方法及装置 Download PDF

Info

Publication number
CN108763400B
CN108763400B CN201810496356.7A CN201810496356A CN108763400B CN 108763400 B CN108763400 B CN 108763400B CN 201810496356 A CN201810496356 A CN 201810496356A CN 108763400 B CN108763400 B CN 108763400B
Authority
CN
China
Prior art keywords
target object
behavior
vector
theme
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810496356.7A
Other languages
English (en)
Other versions
CN108763400A (zh
Inventor
刘业政
朱婷婷
杜非
姜元春
孙见山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810496356.7A priority Critical patent/CN108763400B/zh
Publication of CN108763400A publication Critical patent/CN108763400A/zh
Application granted granted Critical
Publication of CN108763400B publication Critical patent/CN108763400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置。所述方法包括:获取第一数量个目标对象的初始文档集合;利用潜在狄利克雷分布模型获取到所述每个目标对象的主题偏好向量;标准化所述每个目标对象的行为向量;利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合;基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值得到所述每个类别组的特征向量。本发明实施例可以实现对多种不同特征进行建模,有利于确定各目标对象的分类,提高对象划分结果。

Description

基于对象行为和主题偏好的对象划分方法及装置
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种基于对象行为和主题偏好的对象划分方法及装置。
背景技术
随着在线社交媒体和电子商务网站等的发展,基于目标对象制造内容(UGC)的平台已经变成人们日常生活中不可缺少的部分。基于UGC的平台的发展,为企业带来了巨大的商业机会,可以帮助企业发现需求、研发产品以及进行客户管理等。
相关技术中对上述内容进行处理的过程中,通常会采用主题建模的方式,然后利用主题模型发现上述内容中主题,进而对各目标对象进行分组。然而,目标对象对应多个特征,由于多个特征之间并无相关关系,导致无法对其建立模型,进而导致各目标对象划分组后结果不太准确。
发明内容
针对现有技术中的缺陷,本发明提供了一种基于对象行为和主题偏好的对象划分方法及装置,用于解决相关技术中目标对象划分组的结果不准确的技术问题。
第一方面,本发明实施例提供了一种基于对象行为和主题偏好的对象划分方法,所述方法包括:
获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。
可选地,将所述每个目标对象的行为向量标准化为标准行为向量包括:
对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv (max)和最小特征Vv (min)
针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
Figure GDA0003125959180000021
其中,Vv (max),Vv (min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
可选地,所述潜在狄利克雷混合模型包括:
获取每个目标对象的所有特征的联合概率分布,公式为:
Figure GDA0003125959180000031
获取每个目标对象的角色,公式为:
Figure GDA0003125959180000032
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*;
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数。
第二方面,本发明实施例提供了一种基于对象行为和主题偏好的对象划分装置,所述装置包括:
初始集合获取模块,用于获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
向量获取模块,用于利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
更新集合获取模块,用于利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
类别组获取模块,用于基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
特征向量获取模块,用于分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。
可选地,所述向量获取模块包括:
最值特征获取单元,用于对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv (max)和最小特征Vv (min)
标准值获取单元,用于针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
Figure GDA0003125959180000041
其中,Vv (max),Vv (min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
可选地,潜在狄利克雷混合模型包括:
概率分布获取单元,用于获取每个目标对象的所有特征的联合概率分布,公式为:
Figure GDA0003125959180000051
对象角色获取单元,用于获取每个目标对象的角色,公式为:
Figure GDA0003125959180000052
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率;
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*;
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数。
由上述技术方案可知,本发明实施例通过利用潜在狄利克雷混合模型获取每个目标对象的主题偏好向量和标准行为特征的联合分布,从而可以实现对多种不同特征进行建模,有利于确定各目标对象的分类,提高对象划分结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的基于对象行为和主题偏好的对象划分方法的流程示意图;
图2为本发明一实施例中划分结果的示意图;
图3~图5为本发明一实施例提供的对象划分装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
鉴于相关技术中对UGC内容采用主题建模的过程中,由于目标对象对应多个特征,并且多个特征之间并无相关关系,导致无法对目标建立模型,进而导致各目标对象划分组后结果不准确的问题。
为解决上述技术问题,本发明实施例提供了一种基于对象行为和主题偏好的对象划分方法。图1为本发明一实施例提供的基于对象行为和主题偏好的对象划分方法的流程示意图。参见图1,一种基于对象行为和主题偏好的对象划分方法包括:
101,获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
102,利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
103,利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
104,基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
105,分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。
下面结合附图和实施例对基于对象行为和主题偏好的对象划分方法的各步骤作详细描述。
首先,介绍101,获取第一数量个目标对象的初始文档集合的步骤。
本实施例中,从服务器、移动终端或者第三方提供商获取初始文档集合D=(D1,...,dd,...,D|D|)。其中,|D|表示文档数量,Dd表示第d篇文档。假设文档Dd的词语集合是w={w1,...,ww,...,w|W|}。所有文档的所有词语集合是w={w1,...,wi,...,wN},其中,N表示所有词语数量。
本实施例中,用U=(u1,...,uu,...,u|U|)代表目标对象的集合。所述目标对象集合中,|U|表示目标对象数量,uu表示第u个目标对象。每一个目标对象采用一组文本集合D和一个行为向量V表示。
其次,介绍102,利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量的步骤。
本实施例中利用潜在狄利克雷分布模型对初始文档集合进行主题抽取。首先,将每个目标对象中的一组文本集合合并为一个文本集合,然后使用潜在狄利克雷分布模型对该文本集合进行主题提取。以提取K个主题为例,提取K次后,得到一个K维向量θ;即该目标对象的主题偏好向量。
由于每个初始文档包括不同的主题,每个主题由不同的词语组成,因此本实施例中使用吉布斯抽样方法可得到每个初始文档中每个词语所属的主题,然后根据这些词语的主题得到初始文档的主题分布,即为用户的主题偏好向量。
每个目标对象还包括一个行为向量,Vu={Vu1,...,Vuv,...,Vu|V|}。在一实施例中,对该行为向量进行标准化处理,从而得到该目标对象的标准化向量Vu'={Vu1',...,Vuv',...,Vu|V|'},步骤包括:
(1)对于所有目标对象,从其对应的行为向量中指出第v个行为特征Vv的最大特征Vv (max)和最小特征Vv (min)
(2)对每个目标对象的第v个行为特征Vv的按照标准化公式计算标准行为特征;
Figure GDA0003125959180000081
(3)所有行为特征都标准化后,即可得到标准行为特征V’。
再次,介绍103,利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合的步骤。
本实施例中,对于每个目标对象,使用主题偏好向量和标准行为向量更新该每个目标对象的初始文档集合,这样可以得到其更新文档集合Uu={θu,Vu'}。
第四,介绍104,基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组的步骤。
本实施例中,利用组合式的潜在狄利克雷混合模型计算每个目标对象的类别组,包括:
(1)计算所有目标对象的所有行为特征的联合概率分布,即任意两个行为特征之间的联合概率分布:
Figure GDA0003125959180000091
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率。
(2)对于每个目标对象,获取其角色:
Figure GDA0003125959180000092
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*。
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数;
其中角色是指一类行为相似的目标对象的总称,或者目标对象属于同一个聚类的类别组名称。
第五,介绍105,分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量的步骤。
本实施例中,计算每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,利用主题偏好向量的平均值和标准行为向量的平均值构成每个类别组的特征向量。
可知,本发明实施例通过利用潜在狄利克雷混合模型获取每个目标对象的主题偏好向量和标准行为特征的联合分布,从而可以实现对多种不同特征进行建模,有利于确定各目标对象的分类,提高对象划分结果。
为验证本发明实施例提供的一种基于对象行为和主题偏好的对象划分方法的有效性和优越性,本发明一实施例以微博数据为例进行说明。
本实施例中,收集12553个微博用户的35200179条微博数据,根据上述对象划分方法共获得47种不同的角色。本实施例中,删除用户数量小于等于100个用户的角色,最终可以得到14种角色。最后基于不同角色的用户做影响力营销,方法如下:
策略1(影响优先–IP策略)。首先,获取多个影响力指标,如追随者人数,从而选择出具有高度影响力的角色。然后,根据有高度影响力的角色选择主题偏好最接近目标主题的角色。
策略2(偏好优先-PP策略)。首先,选择主题偏好与目标主题最接近的三个角色。之后,选择其中最有影响力的角色。例如,本实施例中选择美妆、衣服、世界新闻和游戏作为试图推广的目标主题,最终影响力营销效果如图2所示,其中M1是DPMM方法,M2是将所有用户都当做统一的特征的结果。
图3为本发明一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图3,本发明实施例还提供了一种基于对象行为和主题偏好的对象划分装置,所述装置包括:
初始集合获取模块301,用于获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
向量获取模块302,用于利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
更新集合获取模块303,用于利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
类别组获取模块304,用于基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
特征向量获取模块305,用于分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量。
图4为本发明另一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图4,在图3所示对象划分装置的基础上,所述向量获取模块305包括:
最值特征获取单元401,用于对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv (max)和最小特征Vv (min)
标准值获取单元402,用于针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
Figure GDA0003125959180000121
其中,Vv (max),Vv (min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
图5为本发明另一实施例提供的基于对象行为和主题偏好的对象划分装置。参见图5,在图3所示对象划分装置的基础上,潜在狄利克雷混合模型304包括:
概率分布获取单元401,用于获取每个目标对象的所有特征的联合概率分布,公式为:
Figure GDA0003125959180000131
对象角色获取单元402,用于获取每个目标对象的角色,公式为:
Figure GDA0003125959180000132
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率。
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*;
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数。
需要说明的是,本发明实施例提供的基于对象行为和主题偏好的对象划分装置与上述方法是一一对应的关系,上述方法的实施细节同样适用于上述装置,本发明实施例不再对上述系统进行详细说明。
本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (4)

1.一种基于对象行为和主题偏好的对象划分方法,其特征在于,所述方法包括:
获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量;
其中,所述潜在狄利克雷混合模型包括:
获取每个目标对象的所有特征的联合概率分布,公式为:
Figure FDA0003125959170000011
获取每个目标对象的角色,公式为:
Figure FDA0003125959170000012
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率;
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*;
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数。
2.根据权利要求1所述的对象划分方法,其特征在于,将所述每个目标对象的行为向量标准化为标准行为向量包括:
对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv (max)和最小特征Vv (min)
针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
Figure FDA0003125959170000021
其中,Vv (max),Vv (min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
3.一种基于对象行为和主题偏好的对象划分装置,其特征在于,所述装置包括:
初始集合获取模块,用于获取第一数量个目标对象的初始文档集合;所述初始文档集合包括文本集合和行为向量;
向量获取模块,用于利用潜在狄利克雷分布模型对每个目标对象的文本集合进行主题提取,得到所述每个目标对象的主题偏好向量;同时将所述每个目标对象的行为向量标准化为标准行为向量;
更新集合获取模块,用于利用所述主题偏好向量和所述标准行为向量更新所述初始文档集合,得到每个目标对象的更新文档集合;
类别组获取模块,用于基于所述每个目标对象的更新文档集合,利用潜在狄利克雷混合模型计算所述每个目标对象所属的类别组;
特征向量获取模块,用于分别获取所述每个类别组内所有目标对象的主题偏好向量的平均值和标准行为向量的平均值,将所述主题偏好向量的平均值和所述标准行为向量的平均值构成所述每个类别组的特征向量;
其中,潜在狄利克雷混合模型包括:
概率分布获取单元,用于获取每个目标对象的所有特征的联合概率分布,公式为:
Figure FDA0003125959170000031
对象角色获取单元,用于获取每个目标对象的角色,公式为:
Figure FDA0003125959170000032
式中,u是指当前目标对象,ru表示目标对象u的角色,r-u表示除了目标对象u以外其他对象的角色,U-u是指除了目标对象u以外的其他对象,α是指目标对象角色分布的超参数,fexisting是指目标对象属于已存在角色的条件概率,fnew是指目标对象属于新类别的条件概率;
其中,fexisting和fnew的计算方法分别如下:
fexisting(u|*)=∫p(Θ,V',R,π,ρ,η,α123)/p(R,π,ρ,η,α123)d*
fnew(u|*)=∫p(Θ,V',R,π,ρ,η,α123)d*;
其中,Θ是指所有的主题偏好向量的集合,V’是指所有目标对象行为向量的集合,R是所有角色的集合,π是关于不同目标对象角色的多项式概率分布,ρ是目标对象行为特征的先验分布,η是主题偏好的先验分布,α123是本模型的超参数。
4.根据权利要求3所述的对象划分装置,其特征在于,所述向量获取模块包括:
最值特征获取单元,用于对于所述行为向量中任一个行为特征,找出所有目标对象中所述任一个行为特征的最大特征Vv (max)和最小特征Vv (min)
标准值获取单元,用于针对每个目标对象,获取所述任一个行为特征的标准值,公式为:
Figure FDA0003125959170000041
其中,Vv (max),Vv (min)分别所有目标对象的行为向量中第v个行为特征的最大特征和最小特征。
CN201810496356.7A 2018-05-22 2018-05-22 基于对象行为和主题偏好的对象划分方法及装置 Active CN108763400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810496356.7A CN108763400B (zh) 2018-05-22 2018-05-22 基于对象行为和主题偏好的对象划分方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810496356.7A CN108763400B (zh) 2018-05-22 2018-05-22 基于对象行为和主题偏好的对象划分方法及装置

Publications (2)

Publication Number Publication Date
CN108763400A CN108763400A (zh) 2018-11-06
CN108763400B true CN108763400B (zh) 2021-09-14

Family

ID=64007539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810496356.7A Active CN108763400B (zh) 2018-05-22 2018-05-22 基于对象行为和主题偏好的对象划分方法及装置

Country Status (1)

Country Link
CN (1) CN108763400B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667298B (zh) * 2020-04-15 2022-09-30 合肥工业大学 用户个性化需求预测方法和系统
CN112508059A (zh) * 2020-11-18 2021-03-16 粤开证券股份有限公司 一种对象聚类方法、装置及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
CN106682770A (zh) * 2016-12-14 2017-05-17 重庆邮电大学 一种基于好友圈子的动态微博转发行为预测系统及方法
CN107665208A (zh) * 2016-07-28 2018-02-06 北京国双科技有限公司 用户偏好度量方法及装置
CN107766449A (zh) * 2017-09-26 2018-03-06 杭州云赢网络科技有限公司 热点挖掘方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542477B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591917A (zh) * 2011-12-16 2012-07-18 华为技术有限公司 一种数据处理方法、系统及相关装置
CN102929928A (zh) * 2012-09-21 2013-02-13 北京格致璞科技有限公司 基于多维相似度的个性化新闻推荐方法
CN104933622A (zh) * 2015-03-12 2015-09-23 中国科学院计算技术研究所 一种基于用户和微博主题的微博流行度预测方法及系统
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN107665208A (zh) * 2016-07-28 2018-02-06 北京国双科技有限公司 用户偏好度量方法及装置
CN106682770A (zh) * 2016-12-14 2017-05-17 重庆邮电大学 一种基于好友圈子的动态微博转发行为预测系统及方法
CN107766449A (zh) * 2017-09-26 2018-03-06 杭州云赢网络科技有限公司 热点挖掘方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
User Role Analysis in Online Social Networks Based on Dirichlet Process Mixture Models;Fei Du等;《2016 International Conference on Advanced Cloud and Big Data》;20170116;第172-177页 *
基于社会选择和社会影响的社交网络社群分类与群推荐策略研究;何军等;《现代情报》;20180131;第38卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108763400A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
US11860976B2 (en) Data processing method and device, classifier training method and system, and storage medium
CN106528693B (zh) 面向个性化学习的教育资源推荐方法及系统
US9720901B2 (en) Automated text-evaluation of user generated text
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN106168953B (zh) 面向弱关系社交网络的博文推荐方法
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
US20170235726A1 (en) Information identification and extraction
CN103678670A (zh) 一种微博热词与热点话题挖掘系统及方法
CN109471978B (zh) 一种电子资源推荐方法及装置
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN108269122B (zh) 广告的相似度处理方法和装置
CN108959329B (zh) 一种文本分类方法、装置、介质及设备
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN105740342A (zh) 一种基于社会关系主题模型的社交网络朋友推荐方法
CN109783805B (zh) 一种网络社区用户识别方法、装置和可读存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN109766435A (zh) 弹幕类别识别方法、装置、设备及存储介质
CN103218368B (zh) 一种挖掘热词的方法与装置
CN108763400B (zh) 基于对象行为和主题偏好的对象划分方法及装置
CN111666379B (zh) 一种事件元素提取方法和装置
CN108509545B (zh) 一种文章的评论处理方法及系统
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN106844743B (zh) 维吾尔语文本的情感分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant