CN112905740A - 一种竞品层次的主题偏好挖掘方法 - Google Patents
一种竞品层次的主题偏好挖掘方法 Download PDFInfo
- Publication number
- CN112905740A CN112905740A CN202110166426.4A CN202110166426A CN112905740A CN 112905740 A CN112905740 A CN 112905740A CN 202110166426 A CN202110166426 A CN 202110166426A CN 112905740 A CN112905740 A CN 112905740A
- Authority
- CN
- China
- Prior art keywords
- user
- distribution
- product
- market
- competitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种竞品层次的主题偏好挖掘方法,包括:1构建用户数据集合并表示,2建模竞争子市场、与竞争相关的主题以及背景主题,3建模用户的有限注意,4构建有参贝叶斯模型,5利用坍塌式吉布斯采样算法进行参数推断。本发明在应对大规模的用户生成内容时,能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题,有助于企业快速识别竞争对手,洞察用户对竞争性产品关注的焦点话题。
Description
技术领域
本发明涉及竞争子市场识别以及竞争子市场对应的主题挖掘技术领域,具体涉及一种竞品层次的主题偏好挖掘方法。
背景技术
近些年来随着在线网络的普及,论坛、博客、搜索引擎和其他社交媒体等平台已成为与现实世界建立联系的重要方式,并从许多方面记录了用户创建的数据,其中包含各种比较信息。公司希望从用户生成的内容中进行竞争情报分析,从而确定可能对其品牌或产品构成威胁的潜在竞争对手,同时也能从更细粒度的角度洞悉用户对竞争性产品关注的焦点主题。
近些年来,从在线用户生成的内容中进行竞争情报分析的研究越来越多。例如,文献[Using Favorite Data to Analyze Asymmetric Competition:Machine LearningModels,2020]提出了两种机器学习方法来获得对非对称竞争的见解;文献[Mine your ownbusiness:Market-structure surveillance through text mining,2012]提出使用在线产品评论来挖掘产品之间的竞争关系;文献[ANovel Bipartite Graph BasedCompetitiveness Degree Analysis from Query Logs,2016]提出了一种二部图模型,用于从大规模查询日志中测量品牌之间的竞争程度。但是,这些研究仅使用共现模式来建立产品或品牌之间的关系,而忽略了用户产生的有价值的文本内容。因此,发掘的竞争关系没有办法揭示用户对竞争产品的关注。
通过分析用户对竞争性产品关注的焦点主题,可以从用户的角度对竞争维度进行细粒度的了解。最近,少数研究集中在用户偏好的主题层面的竞争者分析上,例如,文献[Competitor mining with the web,2008]提出了一种名为CoMiner的算法,该算法可自动挖掘包括竞争者及其相应竞争话题在内的竞争信息。但是,这项工作必须事先确定实体名称,用户指定的域和预定义的竞争模式。文献[Topic analysis ofonline reviews fortwo competitive products using latent Dirichlet allocation,2018]提出通过潜在狄利克雷分配的文本挖掘方法从竞争产品的在线评论中提取关键主题。但是,此工作仅提供了主题中两个竞争产品的比较,而不能扩展到多组竞争产品。此外,现有的方法通过吉布斯采样算法来学习模型参数,但是在大规模的在线用户生成数据中,由于需要成千上万次的迭代导致挖掘关键主题的速度慢,效率低。
发明内容
本发明为了克服现有技术存在的不足之处,提出了一种竞品层次的主题挖掘方法,以期能在应对大规模的用户生成内容时,能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题,从而提升挖掘速率和准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种竞品层次的主题偏好挖掘方法的特点是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有: 表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有: 表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布服从参数为β1的狄利克雷分布,且其中,表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且其中,表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:其中,表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若表示第m个用户关注第k个竞争子市场;若表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布其中,θm表示第m个用户的主题分布,且服从参数为的狄利克雷分布,并有 表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1,是维度为K且每个元素均为1的向量;
步骤4、构建有参贝叶斯模型;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为其中表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品服从参数为的多项式分布,其中,表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有 表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
若表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为其中,表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词服从参数为的多项式分布,其中表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cm,πm|rest):
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
式(5)中,表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,表示除第m个用户的产品集中的第j个产品之外的所有产品,表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
式(6)中,表示除第m个用户的评论文本集合中的第i个词之外的所有单词,表示除第m个用户的评论文本集合中的第i个词之外的所有单词相关的二元变量,若b=1,表示用户m的评论文本集合中属于竞争相关主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,表示用户m的评论文本集合中属于背景主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况第m个用户的产品集中的第j个产品所属的竞争子市场编号第m个用户的评论文本集合中第i个单词的主题所属情况以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布第k个与竞争相关的主题下的词分布背景主题下的词分布和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布从而得到第m个用户的主题分布进而得到所有用户的主题分布θ={θ1,θ2,...,θm,...,θM}:
式(8)-式(11)中,表示产品e被分配给第k个竞争子市场的次数,表示产品集中被分配给第k个竞争子市场的产品总数,表示单词v被分配给第k个竞争相关的主题的次数,表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用所述主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。
与现有技术相比,本发明的有益效果在于:
1.本发明联合建模在线网络两方面用户数据信息:用户评论的文本内容和评论的产品集。侧重联合解释,可以共同捕获多个细分的竞争子市场及其对应的主题,不同的主题揭示用户对竞争产品的不同看法和观点,从而能够有效挖掘与竞争有关的主题,从而有助于分析用户的需求,并明确产品的竞争优势和劣势。
2.本发明考虑到借助“有限注意”来更准确地推断用户的主题偏好,不同于以往只是基于单个数据、对信息广泛关注等推断用户的主题偏好,更加符合由于关注度有限,用户通常只关注信息和产品可用的一部分,而忽略其他信息和产品的实际情况,能够更准确地发现用户对竞争产品的观点。
3.本发明定义了两种主题,即与竞争有关的主题和背景主题,并通过引入伯努利混合机制来区分这两种主题。背景主题主要由一系列常用词和噪音词组成,用于筛选评论文本内容中与竞争无关的信息,从而能够更有效地推断用户对与竞争有关的主题的偏好。
4.本发明设计了坍塌式吉布斯采样方法,使得方法地可扩展性更高效、更准确、更容易扩展到大数据。在应对大规模的用户生成内容时,能够更快速地挖掘用户对竞争性产品关注的焦点话题,有助于企业快速识别竞争对手。
附图说明
图1为本发明提出的竞品层次的主题偏好挖掘方法的模型图。
具体实施方式
本实施例中,一种竞品层次的主题偏好挖掘方法,融合了用户评论的文本内容和评论的产品集设计一种竞品层次的主题偏好挖掘方法,考虑了用户对信息和产品的有限注意,引入伯努利混合机制来区分与竞争相关的主题和背景主题,采用坍塌式吉布斯采样方法对模型进行近似估计,适用于发现潜在的竞争细分子市场及其对应的主题,从而挖掘挖掘用户对竞争性产品关注的焦点话题。具体的说是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有: 表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有: 表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布服从参数为β1的狄利克雷分布,且其中,表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,例如,用户会对越野车这一竞争子市场,讨论发动机性能相关的主题。其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且其中,表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
由于用户的评论文本中包含大量的噪声信息,所以为了更有效地推断步骤2.2中与竞争相关的主题,还定义了一个背景主题,用于过滤文本中的噪音单词。定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
依据用户通常只关注信息和产品可用的一部分,而忽略其他信息和产品的实际情况,定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:其中,表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若表示第m个用户关注第k个竞争子市场;若表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布其中,θm表示第m个用户的主题分布,且服从参数为的狄利克雷分布,并有 表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1,是维度为K且每个元素均为1的向量;
步骤4、图1为本发明提出的用户评论文本与评论产品集的生成过程图,该图描绘了本发明提出的有参贝叶斯模型,对用户评论的产品集的评论文本内容进行联合建模,从而推断出竞争子市场以及竞争子市场对应的主题;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为其中表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品服从参数为的多项式分布,其中,表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有 表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
若表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为其中,表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词服从参数为的多项式分布,其中表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cm,πm|rest):
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
式(5)中,表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,表示除第m个用户的产品集中的第j个产品之外的所有产品,表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
式(6)中,表示除第m个用户的评论文本集合中的第i个词之外的所有单词,表示除第m个用户的评论文本集合中的第i个词之外的所有单词相关的二元变量,若b=1,表示用户m的评论文本集合中属于竞争相关主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,表示用户m的评论文本集合中属于背景主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况第m个用户的产品集中的第j个产品所属的竞争子市场编号第m个用户的评论文本集合中第i个单词的主题所属情况以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布第k个与竞争相关的主题下的词分布背景主题下的词分布和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布从而得到第m个用户的主题分布进而得到所有用户的主题分布θ={θ1,θ2,...,θm,...,θM}:
式(8)-式(11)中,表示产品e被分配给第k个竞争子市场的次数,表示产品集中被分配给第k个竞争子市场的产品总数,表示单词v被分配给第k个竞争相关的主题的次数,表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。
Claims (1)
1.一种竞品层次的主题偏好挖掘方法,其特征是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有: 表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有: 表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布服从参数为β1的狄利克雷分布,且其中,表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且其中,表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:其中,表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若表示第m个用户关注第k个竞争子市场;若表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布其中,θm表示第m个用户的主题分布,且服从参数为的狄利克雷分布,并有 表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1,是维度为K且每个元素均为1的向量;
步骤4、构建有参贝叶斯模型;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为其中表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品服从参数为的多项式分布,其中,表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有 表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
若表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为其中,表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为的多项式分布,与构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词服从参数为的多项式分布,其中表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cm,πm|rest):
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
式(5)中,表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,表示除第m个用户的产品集中的第j个产品之外的所有产品,表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
式(6)中,表示除第m个用户的评论文本集合中的第i个词之外的所有单词,表示除第m个用户的评论文本集合中的第i个词之外的所有单词相关的二元变量,若b=1,表示用户m的评论文本集合中属于竞争相关主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,表示用户m的评论文本集合中属于背景主题的单词总数,表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况第m个用户的产品集中的第j个产品所属的竞争子市场编号第m个用户的评论文本集合中第i个单词的主题所属情况以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布第k个与竞争相关的主题下的词分布背景主题下的词分布和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布从而得到第m个用户的主题分布进而得到所有用户的主题分布θ={θ1,θ2,...,θm,...,θM}:
式(8)-式(11)中,表示产品e被分配给第k个竞争子市场的次数,表示产品集中被分配给第k个竞争子市场的产品总数,表示单词v被分配给第k个竞争相关的主题的次数,表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用所述主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110166426.4A CN112905740B (zh) | 2021-02-04 | 2021-02-04 | 一种竞品层次的主题偏好挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110166426.4A CN112905740B (zh) | 2021-02-04 | 2021-02-04 | 一种竞品层次的主题偏好挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905740A true CN112905740A (zh) | 2021-06-04 |
CN112905740B CN112905740B (zh) | 2022-08-30 |
Family
ID=76123539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110166426.4A Active CN112905740B (zh) | 2021-02-04 | 2021-02-04 | 一种竞品层次的主题偏好挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905740B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704404A (zh) * | 2021-08-27 | 2021-11-26 | 合肥工业大学 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070166691A1 (en) * | 2005-12-23 | 2007-07-19 | Allen Epstein | Method for teaching |
US20080195567A1 (en) * | 2007-02-13 | 2008-08-14 | International Business Machines Corporation | Information mining using domain specific conceptual structures |
CN103389998A (zh) * | 2012-05-11 | 2013-11-13 | 安徽华贞信息科技有限公司 | 一种基于云服务的新型互联网商业情报语义分析技术 |
CN107613520A (zh) * | 2017-08-29 | 2018-01-19 | 重庆邮电大学 | 一种基于lda主题模型的电信用户相似度发现方法 |
CN110019796A (zh) * | 2017-11-10 | 2019-07-16 | 北京信息科技大学 | 一种用户文本信息分析方法及装置 |
CN110110013A (zh) * | 2019-05-10 | 2019-08-09 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN110415071A (zh) * | 2019-07-03 | 2019-11-05 | 西南交通大学 | 一种基于观点挖掘分析的汽车竞品对比方法 |
CN110443290A (zh) * | 2019-07-23 | 2019-11-12 | 广东数鼎科技有限公司 | 一种基于大数据的产品竞争关系量化生成方法及装置 |
CN110543547A (zh) * | 2019-08-13 | 2019-12-06 | 广东数鼎科技有限公司 | 一种汽车口碑语义情感分析系统 |
CN110674206A (zh) * | 2019-09-30 | 2020-01-10 | 广东鼎义互联科技股份有限公司 | 一种应用于企业知识共享平台 |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及系统 |
-
2021
- 2021-02-04 CN CN202110166426.4A patent/CN112905740B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070166691A1 (en) * | 2005-12-23 | 2007-07-19 | Allen Epstein | Method for teaching |
US20080195567A1 (en) * | 2007-02-13 | 2008-08-14 | International Business Machines Corporation | Information mining using domain specific conceptual structures |
CN103389998A (zh) * | 2012-05-11 | 2013-11-13 | 安徽华贞信息科技有限公司 | 一种基于云服务的新型互联网商业情报语义分析技术 |
CN107613520A (zh) * | 2017-08-29 | 2018-01-19 | 重庆邮电大学 | 一种基于lda主题模型的电信用户相似度发现方法 |
CN110019796A (zh) * | 2017-11-10 | 2019-07-16 | 北京信息科技大学 | 一种用户文本信息分析方法及装置 |
CN110110013A (zh) * | 2019-05-10 | 2019-08-09 | 成都信息工程大学 | 一种基于时空属性的实体竞争关系数据挖掘方法 |
CN110415071A (zh) * | 2019-07-03 | 2019-11-05 | 西南交通大学 | 一种基于观点挖掘分析的汽车竞品对比方法 |
CN110443290A (zh) * | 2019-07-23 | 2019-11-12 | 广东数鼎科技有限公司 | 一种基于大数据的产品竞争关系量化生成方法及装置 |
CN110543547A (zh) * | 2019-08-13 | 2019-12-06 | 广东数鼎科技有限公司 | 一种汽车口碑语义情感分析系统 |
CN110674206A (zh) * | 2019-09-30 | 2020-01-10 | 广东鼎义互联科技股份有限公司 | 一种应用于企业知识共享平台 |
CN110929123A (zh) * | 2019-10-12 | 2020-03-27 | 中国农业大学 | 一种电商产品竞争分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
PANPAN XU: "Visual Analysis of Topic Competition on Social Media", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 * |
张鑫: "基于投资者偏好的财经资讯智能推送", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704404A (zh) * | 2021-08-27 | 2021-11-26 | 合肥工业大学 | 一种基于专业生成内容的产品替代性信息抽取方法 |
CN113704404B (zh) * | 2021-08-27 | 2024-03-05 | 合肥工业大学 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112905740B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarica et al. | Stopwords in technical language processing | |
CN112214610A (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN110287292B (zh) | 一种裁判量刑偏离度预测方法及装置 | |
Han et al. | Crowd worker strategies in relevance judgment tasks | |
JP2009193584A (ja) | ワードセットに関係するワードの決定 | |
Stanisz et al. | Linguistic data mining with complex networks: A stylometric-oriented approach | |
CN110347701B (zh) | 一种面向实体检索查询的目标类型标识方法 | |
KR102135074B1 (ko) | 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템 | |
Dumitrache et al. | Empirical methodology for crowdsourcing ground truth | |
Strüder et al. | Feature-oriented defect prediction | |
Simidjievski et al. | Modeling dynamic systems with efficient ensembles of process-based models | |
Madhavan | Mastering python for data science | |
CN110134799A (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
Syed et al. | Exploring symmetrical and asymmetrical Dirichlet priors for latent Dirichlet allocation | |
Ullah et al. | Analyzing interdisciplinary research using co-authorship networks | |
Aralikatte et al. | Fault in your stars: an analysis of android app reviews | |
Shah et al. | A Framework for Micro-Influencer Selection in Pet Product Marketing Using Social Media Performance Metrics and Natural Language Processing | |
CN112905740B (zh) | 一种竞品层次的主题偏好挖掘方法 | |
Nielek et al. | Spiral of hatred: social effects in internet auctions. between informativity and emotion | |
Zhang et al. | Research on technology prospect risk of high-tech projects based on patent analysis | |
Mosinzova et al. | Fake news, conspiracies and myth debunking in social media-a literature survey across disciplines | |
Wang et al. | Evaluation of the survival of Yangtze finless porpoise under probabilistic hesitant fuzzy environment | |
CN102270204A (zh) | 一种基于矩阵分解对在线论坛用户影响力进行计算的方法 | |
Zhang et al. | Community detection in attributed collaboration network for statisticians | |
CN104572623A (zh) | 一种在线lda模型的高效数据总结分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |