CN112905740A

CN112905740A - 一种竞品层次的主题偏好挖掘方法

Info

Publication number: CN112905740A
Application number: CN202110166426.4A
Authority: CN
Inventors: 钱洋; 周凡; 姜元春; 刘业政; 孙见山; 柴一栋; 梁瑞成; 井二康; 陶守正; 周永行
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-04
Anticipated expiration: 2041-02-04
Also published as: CN112905740B

Abstract

本发明公开了一种竞品层次的主题偏好挖掘方法，包括：1构建用户数据集合并表示，2建模竞争子市场、与竞争相关的主题以及背景主题，3建模用户的有限注意，4构建有参贝叶斯模型，5利用坍塌式吉布斯采样算法进行参数推断。本发明在应对大规模的用户生成内容时，能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题，有助于企业快速识别竞争对手，洞察用户对竞争性产品关注的焦点话题。

Description

一种竞品层次的主题偏好挖掘方法

技术领域

本发明涉及竞争子市场识别以及竞争子市场对应的主题挖掘技术领域，具体涉及一种竞品层次的主题偏好挖掘方法。

背景技术

近些年来随着在线网络的普及，论坛、博客、搜索引擎和其他社交媒体等平台已成为与现实世界建立联系的重要方式，并从许多方面记录了用户创建的数据，其中包含各种比较信息。公司希望从用户生成的内容中进行竞争情报分析，从而确定可能对其品牌或产品构成威胁的潜在竞争对手，同时也能从更细粒度的角度洞悉用户对竞争性产品关注的焦点主题。

近些年来，从在线用户生成的内容中进行竞争情报分析的研究越来越多。例如，文献[Using Favorite Data to Analyze Asymmetric Competition:Machine LearningModels,2020]提出了两种机器学习方法来获得对非对称竞争的见解；文献[Mine your ownbusiness:Market-structure surveillance through text mining,2012]提出使用在线产品评论来挖掘产品之间的竞争关系；文献[ANovel Bipartite Graph BasedCompetitiveness Degree Analysis from Query Logs,2016]提出了一种二部图模型，用于从大规模查询日志中测量品牌之间的竞争程度。但是，这些研究仅使用共现模式来建立产品或品牌之间的关系，而忽略了用户产生的有价值的文本内容。因此，发掘的竞争关系没有办法揭示用户对竞争产品的关注。

通过分析用户对竞争性产品关注的焦点主题，可以从用户的角度对竞争维度进行细粒度的了解。最近，少数研究集中在用户偏好的主题层面的竞争者分析上，例如，文献[Competitor mining with the web,2008]提出了一种名为CoMiner的算法，该算法可自动挖掘包括竞争者及其相应竞争话题在内的竞争信息。但是，这项工作必须事先确定实体名称，用户指定的域和预定义的竞争模式。文献[Topic analysis ofonline reviews fortwo competitive products using latent Dirichlet allocation,2018]提出通过潜在狄利克雷分配的文本挖掘方法从竞争产品的在线评论中提取关键主题。但是，此工作仅提供了主题中两个竞争产品的比较，而不能扩展到多组竞争产品。此外，现有的方法通过吉布斯采样算法来学习模型参数，但是在大规模的在线用户生成数据中，由于需要成千上万次的迭代导致挖掘关键主题的速度慢，效率低。

发明内容

本发明为了克服现有技术存在的不足之处，提出了一种竞品层次的主题挖掘方法，以期能在应对大规模的用户生成内容时，能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题，从而提升挖掘速率和准确性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种竞品层次的主题偏好挖掘方法的特点是按如下步骤进行：

步骤1、构建用户数据集合；

步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集，记为E＝{e₁,e₂,...,e_m,...,e_M}，其中，e_m表示第m个用户评论过的产品集，并有：

表示第m个用户评论过的产品集中第j个产品，L_m表示第m个用户评论过的产品集中的产品数量；M表示用户数量；

步骤1.2、构建所有用户评论产品的评论文本集合，记为W＝{w₁,w₂,...,w_m,...,w_M}，其中，w_m表示第m个用户的评论文本集合，并有：

表示第m个用户的评论文本集合中第i个词，N_m表示第m个用户的评论文本集合中的单词数量；

步骤2、建模竞争子市场、与竞争相关的主题以及背景主题；

步骤2.1、将产品集中的所有产品划分成K个竞争子市场，其中，任意一个竞争子市场的编号为k∈{1,2,...,K}，令第k个竞争子市场下产品的概率分布

服从参数为β₁的狄利克雷分布，且

其中，

表示第e个产品被分配到第k个竞争子市场的产品分布，E表示产品集中不重复的产品总数；

步骤2.2、针对第k个竞争子市场，定义用户讨论的K个与竞争相关的主题，其中，任意一个与竞争相关的主题的编号为k∈{1,2,...,K}，令第k个与竞争相关的主题下的词分布φ_k服从参数为β₀的狄利克雷分布，且

其中，

表示第v个单词被分配给第k个与竞争相关主题下的词分布；V表示评论文本集合中不重复的单词总数；

定义背景主题下的词分布φ′服从参数为β₂的狄利克雷分布，且φ′＝(φ′₁,φ′₂,...,φ′_v,...,φ′_V)，其中，φ′_v表示第v个单词被分配给背景主题下的词分布；

步骤3、建模用户的有限注意；

定义用户是否关注竞争子市场的二元指示变量c＝(c₁,c₂,...,c_m,...,c_M)，其中，c_m表示第m个用户的竞争子市场关注情况，并有：

其中，

表示第m个用户对第k个竞争子市场的关注情况，且服从伯努利分布；若

表示第m个用户关注第k个竞争子市场；若

表示第m个用户未关注第k个竞争子市场；

定义第m个用户关注某一竞争子市场的概率为π_m，且π_m服从参数为p,q的Beta分布；π_m与c_m构成Beta分布与多项式分布的共轭；

定义所有用户的主题分布

其中，θ_m表示第m个用户的主题分布，且服从参数为

的狄利克雷分布，并有

表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布，γ₀和γ₁为两个分布的超参数，且γ₀≤γ₁，

是维度为K且每个元素均为1的向量；

步骤4、构建有参贝叶斯模型；

步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为

其中

表示第m个用户的产品集中的第j个产品所属的竞争子市场编号，且服从参数为

的多项式分布，

与

构成狄利克雷分布与多项式分布的共轭；定义第m个用户产品集中的第j个产品

服从参数为

的多项式分布，其中，

表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布；

步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b＝(b₁,b₂,...,b_m,...,b_M)，其中，b_m表示第m个用户的评论文本集合中所有单词的主题所属情况，并有

表示第m个用户的评论文本集合中的第i个词的主题所属情况，且服从伯努利分布；

若

表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题，则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为

其中，

表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号，且服从参数为

的多项式分布，

与

构成狄利克雷分布与多项式分布的共轭；定义第m个用户评论文本集合中的第i个单词

服从参数为

的多项式分布，其中

表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布；

若

表示第m个用户的评论文本集合中的第i个词属于背景主题；定义第m个用户评论文本集合中的第i个单词

服从参数为φ′的多项式分布；

定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μ_m，且μ_m服从参数为r,s的Beta分布；μ_m与b_m构成Beta分布与多项式分布的共轭；

步骤5、对竞争子市场下的产品分布

竞争相关主题下的词分布

背景主题下的词分布φ′_v以及第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布

进行参数推断；

步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L：

步骤5.2、计算四个隐变量的条件后验分布：

步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况c_m和第m个用户关注某一竞争子市场的概率π_m的联合概率分布p(c_m,π_m|rest)：

式(2)中，∝表示正比于，Γ表示伽马函数，I[·]是指示函数，A_m表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合，并有：

式(3)中，：表示条件判断；

表示第m个用户的产品集中属于第k个竞争子市场的产品数量，

表示第m个用户的评论文本集合中属于第k个竞争相关主题的单词数量；

步骤5.2.1、利用式(4)计算第m个用户对第k个竞争子市场的关注情况

的条件后验分布

式(4)中，

表示二元指示变量c与第m个用户关联的总次数；

步骤5.2.2、利用式(5)计算第m个用户的产品集中的第j个产品所属的竞争子市场编号

的条件后验分布

式(5)中，

表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号，z表示用户的评论文本集合中的所有单词所属主题的主题编号，

表示除第m个用户的产品集中的第j个产品之外的所有产品，

表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量，

表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数，

表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数；

步骤5.2.3、利用式(6)计算第m个用户的评论文本集合中第i个单词的主题所属情况

的条件后验分布

式(6)中，

表示除第m个用户的评论文本集合中的第i个词之外的所有单词，

表示除第m个用户的评论文本集合中的第i个词

之外的所有单词相关的二元变量，若b＝1，

表示用户m的评论文本集合中属于竞争相关主题的单词总数，

表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数，

表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数，若b＝0，

表示用户m的评论文本集合中属于背景主题的单词总数，

表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数，

表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数；

步骤5.2.4、确定评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b后，利用式(7)计算第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号

的条件后验分布

式(7)中，

表示除第m个用户评论文本中的第i个单词之外的所有单词的主题编号，f表示用户考虑集中的所有产品所属竞争子市场的编号；

步骤5.3、重复执行步骤5.2.1-步骤5.2.4，利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况

第m个用户的产品集中的第j个产品所属的竞争子市场编号

第m个用户的评论文本集合中第i个单词的主题所属情况

以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号

进行参数推断，直至所有参数均收敛；

步骤6、根据步骤5迭代得到的收敛结果，利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布

第k个与竞争相关的主题下的词分布

背景主题下的词分布

和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布

从而得到第m个用户的主题分布

进而得到所有用户的主题分布θ＝{θ₁,θ₂,...,θ_m,...,θ_M}：

式(8)-式(11)中，

表示产品e被分配给第k个竞争子市场的次数，

表示产品集中被分配给第k个竞争子市场的产品总数，

表示单词v被分配给第k个竞争相关的主题的次数，

表示评论文本集合中被分配给第k个竞争相关的主题的单词总数；

步骤7、利用所述主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。

与现有技术相比，本发明的有益效果在于：

1.本发明联合建模在线网络两方面用户数据信息:用户评论的文本内容和评论的产品集。侧重联合解释，可以共同捕获多个细分的竞争子市场及其对应的主题，不同的主题揭示用户对竞争产品的不同看法和观点，从而能够有效挖掘与竞争有关的主题，从而有助于分析用户的需求，并明确产品的竞争优势和劣势。

2.本发明考虑到借助“有限注意”来更准确地推断用户的主题偏好，不同于以往只是基于单个数据、对信息广泛关注等推断用户的主题偏好，更加符合由于关注度有限，用户通常只关注信息和产品可用的一部分，而忽略其他信息和产品的实际情况，能够更准确地发现用户对竞争产品的观点。

3.本发明定义了两种主题，即与竞争有关的主题和背景主题，并通过引入伯努利混合机制来区分这两种主题。背景主题主要由一系列常用词和噪音词组成，用于筛选评论文本内容中与竞争无关的信息，从而能够更有效地推断用户对与竞争有关的主题的偏好。

4.本发明设计了坍塌式吉布斯采样方法，使得方法地可扩展性更高效、更准确、更容易扩展到大数据。在应对大规模的用户生成内容时，能够更快速地挖掘用户对竞争性产品关注的焦点话题，有助于企业快速识别竞争对手。

附图说明

图1为本发明提出的竞品层次的主题偏好挖掘方法的模型图。

具体实施方式

本实施例中，一种竞品层次的主题偏好挖掘方法，融合了用户评论的文本内容和评论的产品集设计一种竞品层次的主题偏好挖掘方法，考虑了用户对信息和产品的有限注意，引入伯努利混合机制来区分与竞争相关的主题和背景主题，采用坍塌式吉布斯采样方法对模型进行近似估计，适用于发现潜在的竞争细分子市场及其对应的主题，从而挖掘挖掘用户对竞争性产品关注的焦点话题。具体的说是按如下步骤进行：

步骤1、构建用户数据集合；

步骤2、建模竞争子市场、与竞争相关的主题以及背景主题；

服从参数为β₁的狄利克雷分布，且

其中，

步骤2.2、针对第k个竞争子市场，定义用户讨论的K个与竞争相关的主题，例如，用户会对越野车这一竞争子市场，讨论发动机性能相关的主题。其中，任意一个与竞争相关的主题的编号为k∈{1,2,...,K}，令第k个与竞争相关的主题下的词分布φ_k服从参数为β₀的狄利克雷分布，且

其中，

由于用户的评论文本中包含大量的噪声信息，所以为了更有效地推断步骤2.2中与竞争相关的主题，还定义了一个背景主题，用于过滤文本中的噪音单词。定义背景主题下的词分布φ′服从参数为β₂的狄利克雷分布，且φ′＝(φ′₁,φ′₂,...,φ′_v,...,φ′_V)，其中，φ′_v表示第v个单词被分配给背景主题下的词分布；

步骤3、建模用户的有限注意；

依据用户通常只关注信息和产品可用的一部分，而忽略其他信息和产品的实际情况，定义用户是否关注竞争子市场的二元指示变量c＝(c₁,c₂,...,c_m,...,c_M)，其中，c_m表示第m个用户的竞争子市场关注情况，并有：

其中，

表示第m个用户关注第k个竞争子市场；若

表示第m个用户未关注第k个竞争子市场；

定义所有用户的主题分布

其中，θ_m表示第m个用户的主题分布，且服从参数为

的狄利克雷分布，并有

是维度为K且每个元素均为1的向量；

步骤4、图1为本发明提出的用户评论文本与评论产品集的生成过程图，该图描绘了本发明提出的有参贝叶斯模型，对用户评论的产品集的评论文本内容进行联合建模，从而推断出竞争子市场以及竞争子市场对应的主题；

其中

的多项式分布，

与

服从参数为

的多项式分布，其中，

若

其中，

的多项式分布，

与

服从参数为

的多项式分布，其中

若

服从参数为φ′的多项式分布；

步骤5、对竞争子市场下的产品分布

竞争相关主题下的词分布

进行参数推断；

步骤5.2、计算四个隐变量的条件后验分布：

式(3)中，

表示第m个用户的评论文本集合中属于第k个竞争相关主题的单词数量；：表示符合条件的判断，若满足后面的条件

则A_m中包含k；

的条件后验分布

式(4)中，

表示二元指示变量c与第m个用户关联的总次数；

的条件后验分布

式(5)中，

表示除第m个用户的产品集中的第j个产品之外的所有产品，

的条件后验分布

式(6)中，

表示除第m个用户的评论文本集合中的第i个词

之外的所有单词相关的二元变量，若b＝1，

表示用户m的评论文本集合中属于竞争相关主题的单词总数，

表示用户m的评论文本集合中属于背景主题的单词总数，

的条件后验分布

式(7)中，

第m个用户的产品集中的第j个产品所属的竞争子市场编号

第m个用户的评论文本集合中第i个单词的主题所属情况

进行参数推断，直至所有参数均收敛；

第k个与竞争相关的主题下的词分布

背景主题下的词分布

从而得到第m个用户的主题分布

进而得到所有用户的主题分布θ＝{θ₁,θ₂,...,θ_m,...,θ_M}：

式(8)-式(11)中，

表示产品e被分配给第k个竞争子市场的次数，

表示产品集中被分配给第k个竞争子市场的产品总数，

表示单词v被分配给第k个竞争相关的主题的次数，

步骤7、利用主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。