CN112905740A - 一种竞品层次的主题偏好挖掘方法 - Google Patents

一种竞品层次的主题偏好挖掘方法 Download PDF

Info

Publication number
CN112905740A
CN112905740A CN202110166426.4A CN202110166426A CN112905740A CN 112905740 A CN112905740 A CN 112905740A CN 202110166426 A CN202110166426 A CN 202110166426A CN 112905740 A CN112905740 A CN 112905740A
Authority
CN
China
Prior art keywords
user
distribution
product
market
competitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110166426.4A
Other languages
English (en)
Other versions
CN112905740B (zh
Inventor
钱洋
周凡
姜元春
刘业政
孙见山
柴一栋
梁瑞成
井二康
陶守正
周永行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110166426.4A priority Critical patent/CN112905740B/zh
Publication of CN112905740A publication Critical patent/CN112905740A/zh
Application granted granted Critical
Publication of CN112905740B publication Critical patent/CN112905740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种竞品层次的主题偏好挖掘方法,包括:1构建用户数据集合并表示,2建模竞争子市场、与竞争相关的主题以及背景主题,3建模用户的有限注意,4构建有参贝叶斯模型,5利用坍塌式吉布斯采样算法进行参数推断。本发明在应对大规模的用户生成内容时,能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题,有助于企业快速识别竞争对手,洞察用户对竞争性产品关注的焦点话题。

Description

一种竞品层次的主题偏好挖掘方法
技术领域
本发明涉及竞争子市场识别以及竞争子市场对应的主题挖掘技术领域,具体涉及一种竞品层次的主题偏好挖掘方法。
背景技术
近些年来随着在线网络的普及,论坛、博客、搜索引擎和其他社交媒体等平台已成为与现实世界建立联系的重要方式,并从许多方面记录了用户创建的数据,其中包含各种比较信息。公司希望从用户生成的内容中进行竞争情报分析,从而确定可能对其品牌或产品构成威胁的潜在竞争对手,同时也能从更细粒度的角度洞悉用户对竞争性产品关注的焦点主题。
近些年来,从在线用户生成的内容中进行竞争情报分析的研究越来越多。例如,文献[Using Favorite Data to Analyze Asymmetric Competition:Machine LearningModels,2020]提出了两种机器学习方法来获得对非对称竞争的见解;文献[Mine your ownbusiness:Market-structure surveillance through text mining,2012]提出使用在线产品评论来挖掘产品之间的竞争关系;文献[ANovel Bipartite Graph BasedCompetitiveness Degree Analysis from Query Logs,2016]提出了一种二部图模型,用于从大规模查询日志中测量品牌之间的竞争程度。但是,这些研究仅使用共现模式来建立产品或品牌之间的关系,而忽略了用户产生的有价值的文本内容。因此,发掘的竞争关系没有办法揭示用户对竞争产品的关注。
通过分析用户对竞争性产品关注的焦点主题,可以从用户的角度对竞争维度进行细粒度的了解。最近,少数研究集中在用户偏好的主题层面的竞争者分析上,例如,文献[Competitor mining with the web,2008]提出了一种名为CoMiner的算法,该算法可自动挖掘包括竞争者及其相应竞争话题在内的竞争信息。但是,这项工作必须事先确定实体名称,用户指定的域和预定义的竞争模式。文献[Topic analysis ofonline reviews fortwo competitive products using latent Dirichlet allocation,2018]提出通过潜在狄利克雷分配的文本挖掘方法从竞争产品的在线评论中提取关键主题。但是,此工作仅提供了主题中两个竞争产品的比较,而不能扩展到多组竞争产品。此外,现有的方法通过吉布斯采样算法来学习模型参数,但是在大规模的在线用户生成数据中,由于需要成千上万次的迭代导致挖掘关键主题的速度慢,效率低。
发明内容
本发明为了克服现有技术存在的不足之处,提出了一种竞品层次的主题挖掘方法,以期能在应对大规模的用户生成内容时,能够有效、快速、准确地识别竞争子市场以及竞争子市场对应的主题,从而提升挖掘速率和准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种竞品层次的主题偏好挖掘方法的特点是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有:
Figure BDA0002933944640000021
Figure BDA0002933944640000022
表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有:
Figure BDA0002933944640000023
Figure BDA0002933944640000024
表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布
Figure BDA0002933944640000025
服从参数为β1的狄利克雷分布,且
Figure BDA0002933944640000026
其中,
Figure BDA0002933944640000027
表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且
Figure BDA0002933944640000028
其中,
Figure BDA0002933944640000029
表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:
Figure BDA00029339446400000210
其中,
Figure BDA00029339446400000211
表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若
Figure BDA00029339446400000212
表示第m个用户关注第k个竞争子市场;若
Figure BDA0002933944640000031
表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布
Figure BDA0002933944640000032
其中,θm表示第m个用户的主题分布,且服从参数为
Figure BDA0002933944640000033
的狄利克雷分布,并有
Figure BDA0002933944640000034
Figure BDA0002933944640000035
表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1
Figure BDA0002933944640000036
是维度为K且每个元素均为1的向量;
步骤4、构建有参贝叶斯模型;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为
Figure BDA0002933944640000037
其中
Figure BDA0002933944640000038
表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为
Figure BDA0002933944640000039
的多项式分布,
Figure BDA00029339446400000310
Figure BDA00029339446400000311
构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品
Figure BDA00029339446400000312
服从参数为
Figure BDA00029339446400000313
的多项式分布,其中,
Figure BDA00029339446400000314
表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有
Figure BDA00029339446400000315
Figure BDA00029339446400000316
表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
Figure BDA00029339446400000317
表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为
Figure BDA00029339446400000318
其中,
Figure BDA00029339446400000319
表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为
Figure BDA00029339446400000320
的多项式分布,
Figure BDA00029339446400000321
Figure BDA00029339446400000322
构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词
Figure BDA00029339446400000323
服从参数为
Figure BDA00029339446400000324
的多项式分布,其中
Figure BDA00029339446400000325
表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
Figure BDA0002933944640000041
表示第m个用户的评论文本集合中的第i个词属于背景主题;定义第m个用户评论文本集合中的第i个单词
Figure BDA0002933944640000042
服从参数为φ′的多项式分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5、对竞争子市场下的产品分布
Figure BDA0002933944640000043
竞争相关主题下的词分布
Figure BDA0002933944640000044
背景主题下的词分布φ′v以及第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure BDA0002933944640000045
进行参数推断;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
Figure BDA0002933944640000046
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cmm|rest):
Figure BDA0002933944640000047
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
Figure BDA0002933944640000048
式(3)中,:表示条件判断;
Figure BDA0002933944640000049
表示第m个用户的产品集中属于第k个竞争子市场的产品数量,
Figure BDA00029339446400000410
表示第m个用户的评论文本集合中属于第k个竞争相关主题的单词数量;
步骤5.2.1、利用式(4)计算第m个用户对第k个竞争子市场的关注情况
Figure BDA00029339446400000411
的条件后验分布
Figure BDA00029339446400000412
Figure BDA0002933944640000051
式(4)中,
Figure BDA0002933944640000052
表示二元指示变量c与第m个用户关联的总次数;
步骤5.2.2、利用式(5)计算第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure BDA0002933944640000053
的条件后验分布
Figure BDA0002933944640000054
式(5)中,
Figure BDA0002933944640000055
表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,
Figure BDA0002933944640000056
表示除第m个用户的产品集中的第j个产品之外的所有产品,
Figure BDA0002933944640000057
表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,
Figure BDA0002933944640000058
表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,
Figure BDA0002933944640000059
表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
步骤5.2.3、利用式(6)计算第m个用户的评论文本集合中第i个单词的主题所属情况
Figure BDA00029339446400000510
的条件后验分布
Figure BDA00029339446400000511
Figure BDA00029339446400000512
式(6)中,
Figure BDA00029339446400000513
表示除第m个用户的评论文本集合中的第i个词之外的所有单词,
Figure BDA00029339446400000514
表示除第m个用户的评论文本集合中的第i个词
Figure BDA00029339446400000515
之外的所有单词相关的二元变量,若b=1,
Figure BDA0002933944640000061
表示用户m的评论文本集合中属于竞争相关主题的单词总数,
Figure BDA0002933944640000062
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,
Figure BDA0002933944640000063
表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,
Figure BDA0002933944640000064
表示用户m的评论文本集合中属于背景主题的单词总数,
Figure BDA0002933944640000065
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,
Figure BDA0002933944640000066
表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.2.4、确定评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b后,利用式(7)计算第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure BDA0002933944640000067
的条件后验分布
Figure BDA0002933944640000068
式(7)中,
Figure BDA0002933944640000069
表示除第m个用户评论文本中的第i个单词之外的所有单词的主题编号,f表示用户考虑集中的所有产品所属竞争子市场的编号;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况
Figure BDA00029339446400000610
第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure BDA00029339446400000611
第m个用户的评论文本集合中第i个单词的主题所属情况
Figure BDA00029339446400000612
以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure BDA00029339446400000613
进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布
Figure BDA00029339446400000614
第k个与竞争相关的主题下的词分布
Figure BDA00029339446400000615
背景主题下的词分布
Figure BDA00029339446400000616
和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure BDA00029339446400000617
从而得到第m个用户的主题分布
Figure BDA00029339446400000618
进而得到所有用户的主题分布θ={θ12,...,θm,...,θM}:
Figure BDA00029339446400000619
Figure BDA0002933944640000071
Figure BDA0002933944640000072
Figure BDA0002933944640000073
式(8)-式(11)中,
Figure BDA0002933944640000074
表示产品e被分配给第k个竞争子市场的次数,
Figure BDA0002933944640000075
表示产品集中被分配给第k个竞争子市场的产品总数,
Figure BDA0002933944640000076
表示单词v被分配给第k个竞争相关的主题的次数,
Figure BDA0002933944640000077
表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用所述主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。
与现有技术相比,本发明的有益效果在于:
1.本发明联合建模在线网络两方面用户数据信息:用户评论的文本内容和评论的产品集。侧重联合解释,可以共同捕获多个细分的竞争子市场及其对应的主题,不同的主题揭示用户对竞争产品的不同看法和观点,从而能够有效挖掘与竞争有关的主题,从而有助于分析用户的需求,并明确产品的竞争优势和劣势。
2.本发明考虑到借助“有限注意”来更准确地推断用户的主题偏好,不同于以往只是基于单个数据、对信息广泛关注等推断用户的主题偏好,更加符合由于关注度有限,用户通常只关注信息和产品可用的一部分,而忽略其他信息和产品的实际情况,能够更准确地发现用户对竞争产品的观点。
3.本发明定义了两种主题,即与竞争有关的主题和背景主题,并通过引入伯努利混合机制来区分这两种主题。背景主题主要由一系列常用词和噪音词组成,用于筛选评论文本内容中与竞争无关的信息,从而能够更有效地推断用户对与竞争有关的主题的偏好。
4.本发明设计了坍塌式吉布斯采样方法,使得方法地可扩展性更高效、更准确、更容易扩展到大数据。在应对大规模的用户生成内容时,能够更快速地挖掘用户对竞争性产品关注的焦点话题,有助于企业快速识别竞争对手。
附图说明
图1为本发明提出的竞品层次的主题偏好挖掘方法的模型图。
具体实施方式
本实施例中,一种竞品层次的主题偏好挖掘方法,融合了用户评论的文本内容和评论的产品集设计一种竞品层次的主题偏好挖掘方法,考虑了用户对信息和产品的有限注意,引入伯努利混合机制来区分与竞争相关的主题和背景主题,采用坍塌式吉布斯采样方法对模型进行近似估计,适用于发现潜在的竞争细分子市场及其对应的主题,从而挖掘挖掘用户对竞争性产品关注的焦点话题。具体的说是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有:
Figure BDA0002933944640000081
Figure BDA0002933944640000082
表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有:
Figure BDA0002933944640000083
Figure BDA0002933944640000084
表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布
Figure BDA0002933944640000085
服从参数为β1的狄利克雷分布,且
Figure BDA0002933944640000086
其中,
Figure BDA0002933944640000087
表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,例如,用户会对越野车这一竞争子市场,讨论发动机性能相关的主题。其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且
Figure BDA0002933944640000088
其中,
Figure BDA0002933944640000089
表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
由于用户的评论文本中包含大量的噪声信息,所以为了更有效地推断步骤2.2中与竞争相关的主题,还定义了一个背景主题,用于过滤文本中的噪音单词。定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
依据用户通常只关注信息和产品可用的一部分,而忽略其他信息和产品的实际情况,定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:
Figure BDA0002933944640000091
其中,
Figure BDA0002933944640000092
表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若
Figure BDA0002933944640000093
表示第m个用户关注第k个竞争子市场;若
Figure BDA0002933944640000094
表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布
Figure BDA0002933944640000095
其中,θm表示第m个用户的主题分布,且服从参数为
Figure BDA0002933944640000096
的狄利克雷分布,并有
Figure BDA0002933944640000097
Figure BDA0002933944640000098
表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1
Figure BDA0002933944640000099
是维度为K且每个元素均为1的向量;
步骤4、图1为本发明提出的用户评论文本与评论产品集的生成过程图,该图描绘了本发明提出的有参贝叶斯模型,对用户评论的产品集的评论文本内容进行联合建模,从而推断出竞争子市场以及竞争子市场对应的主题;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为
Figure BDA00029339446400000910
其中
Figure BDA00029339446400000911
表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为
Figure BDA00029339446400000912
的多项式分布,
Figure BDA00029339446400000913
Figure BDA00029339446400000914
构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品
Figure BDA00029339446400000915
服从参数为
Figure BDA00029339446400000916
的多项式分布,其中,
Figure BDA00029339446400000917
表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有
Figure BDA00029339446400000918
Figure BDA00029339446400000919
表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
Figure BDA0002933944640000101
表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为
Figure BDA0002933944640000102
其中,
Figure BDA0002933944640000103
表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为
Figure BDA0002933944640000104
的多项式分布,
Figure BDA0002933944640000105
Figure BDA0002933944640000106
构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词
Figure BDA0002933944640000107
服从参数为
Figure BDA0002933944640000108
的多项式分布,其中
Figure BDA0002933944640000109
表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
Figure BDA00029339446400001010
表示第m个用户的评论文本集合中的第i个词属于背景主题;定义第m个用户评论文本集合中的第i个单词
Figure BDA00029339446400001011
服从参数为φ′的多项式分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5、对竞争子市场下的产品分布
Figure BDA00029339446400001012
竞争相关主题下的词分布
Figure BDA00029339446400001013
背景主题下的词分布φ′v以及第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure BDA00029339446400001016
进行参数推断;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
Figure BDA00029339446400001014
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cmm|rest):
Figure BDA00029339446400001015
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
Figure BDA0002933944640000111
式(3)中,
Figure BDA0002933944640000112
表示第m个用户的产品集中属于第k个竞争子市场的产品数量,
Figure BDA0002933944640000113
表示第m个用户的评论文本集合中属于第k个竞争相关主题的单词数量;:表示符合条件的判断,若满足后面的条件
Figure BDA0002933944640000114
则Am中包含k;
步骤5.2.1、利用式(4)计算第m个用户对第k个竞争子市场的关注情况
Figure BDA0002933944640000115
的条件后验分布
Figure BDA0002933944640000116
Figure BDA0002933944640000117
式(4)中,
Figure BDA0002933944640000118
表示二元指示变量c与第m个用户关联的总次数;
步骤5.2.2、利用式(5)计算第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure BDA0002933944640000119
的条件后验分布
Figure BDA00029339446400001110
式(5)中,
Figure BDA00029339446400001111
表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,
Figure BDA00029339446400001112
表示除第m个用户的产品集中的第j个产品之外的所有产品,
Figure BDA00029339446400001113
表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,
Figure BDA00029339446400001114
表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,
Figure BDA00029339446400001115
表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
步骤5.2.3、利用式(6)计算第m个用户的评论文本集合中第i个单词的主题所属情况
Figure BDA00029339446400001117
的条件后验分布
Figure BDA00029339446400001116
Figure BDA0002933944640000121
式(6)中,
Figure BDA0002933944640000122
表示除第m个用户的评论文本集合中的第i个词之外的所有单词,
Figure BDA0002933944640000123
表示除第m个用户的评论文本集合中的第i个词
Figure BDA0002933944640000124
之外的所有单词相关的二元变量,若b=1,
Figure BDA0002933944640000125
表示用户m的评论文本集合中属于竞争相关主题的单词总数,
Figure BDA0002933944640000126
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,
Figure BDA0002933944640000127
表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,
Figure BDA0002933944640000128
表示用户m的评论文本集合中属于背景主题的单词总数,
Figure BDA0002933944640000129
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,
Figure BDA00029339446400001210
表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.2.4、确定评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b后,利用式(7)计算第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure BDA00029339446400001211
的条件后验分布
Figure BDA00029339446400001212
式(7)中,
Figure BDA00029339446400001213
表示除第m个用户评论文本中的第i个单词之外的所有单词的主题编号,f表示用户考虑集中的所有产品所属竞争子市场的编号;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况
Figure BDA00029339446400001214
第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure BDA00029339446400001215
第m个用户的评论文本集合中第i个单词的主题所属情况
Figure BDA00029339446400001216
以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure BDA00029339446400001217
进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布
Figure BDA0002933944640000131
第k个与竞争相关的主题下的词分布
Figure BDA0002933944640000132
背景主题下的词分布
Figure BDA0002933944640000133
和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure BDA0002933944640000134
从而得到第m个用户的主题分布
Figure BDA0002933944640000135
进而得到所有用户的主题分布θ={θ12,...,θm,...,θM}:
Figure BDA0002933944640000136
Figure BDA0002933944640000137
Figure BDA0002933944640000138
Figure BDA0002933944640000139
式(8)-式(11)中,
Figure BDA00029339446400001310
表示产品e被分配给第k个竞争子市场的次数,
Figure BDA00029339446400001311
表示产品集中被分配给第k个竞争子市场的产品总数,
Figure BDA00029339446400001312
表示单词v被分配给第k个竞争相关的主题的次数,
Figure BDA00029339446400001313
表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。

Claims (1)

1.一种竞品层次的主题偏好挖掘方法,其特征是按如下步骤进行:
步骤1、构建用户数据集合;
步骤1.1、构建所有用户评论过的E个不同产品所构成的产品集,记为E={e1,e2,...,em,...,eM},其中,em表示第m个用户评论过的产品集,并有:
Figure FDA0002933944630000011
Figure FDA0002933944630000012
表示第m个用户评论过的产品集中第j个产品,Lm表示第m个用户评论过的产品集中的产品数量;M表示用户数量;
步骤1.2、构建所有用户评论产品的评论文本集合,记为W={w1,w2,...,wm,...,wM},其中,wm表示第m个用户的评论文本集合,并有:
Figure FDA0002933944630000013
Figure FDA0002933944630000014
表示第m个用户的评论文本集合中第i个词,Nm表示第m个用户的评论文本集合中的单词数量;
步骤2、建模竞争子市场、与竞争相关的主题以及背景主题;
步骤2.1、将产品集中的所有产品划分成K个竞争子市场,其中,任意一个竞争子市场的编号为k∈{1,2,...,K},令第k个竞争子市场下产品的概率分布
Figure FDA0002933944630000015
服从参数为β1的狄利克雷分布,且
Figure FDA0002933944630000016
其中,
Figure FDA0002933944630000017
表示第e个产品被分配到第k个竞争子市场的产品分布,E表示产品集中不重复的产品总数;
步骤2.2、针对第k个竞争子市场,定义用户讨论的K个与竞争相关的主题,其中,任意一个与竞争相关的主题的编号为k∈{1,2,...,K},令第k个与竞争相关的主题下的词分布φk服从参数为β0的狄利克雷分布,且
Figure FDA0002933944630000018
其中,
Figure FDA0002933944630000019
表示第v个单词被分配给第k个与竞争相关主题下的词分布;V表示评论文本集合中不重复的单词总数;
定义背景主题下的词分布φ′服从参数为β2的狄利克雷分布,且φ′=(φ′1,φ′2,...,φ′v,...,φ′V),其中,φ′v表示第v个单词被分配给背景主题下的词分布;
步骤3、建模用户的有限注意;
定义用户是否关注竞争子市场的二元指示变量c=(c1,c2,...,cm,...,cM),其中,cm表示第m个用户的竞争子市场关注情况,并有:
Figure FDA00029339446300000110
其中,
Figure FDA00029339446300000111
表示第m个用户对第k个竞争子市场的关注情况,且服从伯努利分布;若
Figure FDA00029339446300000112
表示第m个用户关注第k个竞争子市场;若
Figure FDA00029339446300000113
表示第m个用户未关注第k个竞争子市场;
定义第m个用户关注某一竞争子市场的概率为πm,且πm服从参数为p,q的Beta分布;πm与cm构成Beta分布与多项式分布的共轭;
定义所有用户的主题分布
Figure FDA0002933944630000021
其中,θm表示第m个用户的主题分布,且服从参数为
Figure FDA0002933944630000022
的狄利克雷分布,并有
Figure FDA0002933944630000023
Figure FDA0002933944630000024
表示第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布,γ0和γ1为两个分布的超参数,且γ0≤γ1
Figure FDA0002933944630000025
是维度为K且每个元素均为1的向量;
步骤4、构建有参贝叶斯模型;
步骤4.1、定义第m个用户的产品集中的所有产品对应的竞争子市场编号为
Figure FDA0002933944630000026
其中
Figure FDA0002933944630000027
表示第m个用户的产品集中的第j个产品所属的竞争子市场编号,且服从参数为
Figure FDA0002933944630000028
的多项式分布,
Figure FDA0002933944630000029
Figure FDA00029339446300000210
构成狄利克雷分布与多项式分布的共轭;定义第m个用户产品集中的第j个产品
Figure FDA00029339446300000211
服从参数为
Figure FDA00029339446300000212
的多项式分布,其中,
Figure FDA00029339446300000213
表示第m个用户的产品集中的第j个产品所属的竞争子市场下的产品概率分布;
步骤4.2、定义评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b=(b1,b2,...,bm,...,bM),其中,bm表示第m个用户的评论文本集合中所有单词的主题所属情况,并有
Figure FDA00029339446300000214
Figure FDA00029339446300000215
表示第m个用户的评论文本集合中的第i个词的主题所属情况,且服从伯努利分布;
Figure FDA00029339446300000216
表示第m个用户的评论文本集合中的第i个词属于与竞争相关的主题,则定义第m个用户的评论文本集合中的所有单词的与竞争相关的主题编号记为
Figure FDA00029339446300000217
其中,
Figure FDA00029339446300000218
表示第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号,且服从参数为
Figure FDA00029339446300000219
的多项式分布,
Figure FDA00029339446300000220
Figure FDA00029339446300000221
构成狄利克雷分布与多项式分布的共轭;定义第m个用户评论文本集合中的第i个单词
Figure FDA00029339446300000222
服从参数为
Figure FDA00029339446300000223
的多项式分布,其中
Figure FDA00029339446300000224
表示第m个用户的评论文本集合中的第i个单词所属的与竞争相关的主题下的产品概率分布;
Figure FDA00029339446300000225
表示第m个用户的评论文本集合中的第i个词属于背景主题;定义第m个用户评论文本集合中的第i个单词
Figure FDA00029339446300000226
服从参数为φ′的多项式分布;
定义第m个用户的评论文本中的单词属于竞争相关的主题的概率为μm,且μm服从参数为r,s的Beta分布;μm与bm构成Beta分布与多项式分布的共轭;
步骤5、对竞争子市场下的产品分布
Figure FDA0002933944630000031
竞争相关主题下的词分布
Figure FDA0002933944630000032
背景主题下的词分布φ′v以及第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure FDA0002933944630000033
进行参数推断;
步骤5.1、利用式(1)构建产品集E和评论文本集合W的完全条件似然函数L:
Figure FDA0002933944630000034
步骤5.2、计算四个隐变量的条件后验分布:
步骤5.2.0、利用式(2)计算第m个用户的竞争子市场关注情况cm和第m个用户关注某一竞争子市场的概率πm的联合概率分布p(cmm|rest):
Figure FDA0002933944630000035
式(2)中,∝表示正比于,Γ表示伽马函数,I[·]是指示函数,Am表示第m个用户的产品集和评论文本集合在K个竞争子市场和K个竞争相关主题下的分配情况的集合,并有:
Figure FDA0002933944630000036
式(3)中,:表示条件判断;
Figure FDA0002933944630000037
表示第m个用户的产品集中属于第k个竞争子市场的产品数量,
Figure FDA0002933944630000038
表示第m个用户的评论文本集合中属于第k个竞争相关主题的单词数量;
步骤5.2.1、利用式(4)计算第m个用户对第k个竞争子市场的关注情况
Figure FDA0002933944630000039
的条件后验分布
Figure FDA00029339446300000310
Figure FDA00029339446300000311
式(4)中,
Figure FDA00029339446300000312
表示二元指示变量c与第m个用户关联的总次数;
步骤5.2.2、利用式(5)计算第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure FDA0002933944630000041
的条件后验分布
Figure FDA0002933944630000042
Figure FDA0002933944630000043
式(5)中,
Figure FDA0002933944630000044
表示除第m个用户的产品集的第j个产品之外的所有产品的竞争子市场编号,z表示用户的评论文本集合中的所有单词所属主题的主题编号,
Figure FDA0002933944630000045
表示除第m个用户的产品集中的第j个产品之外的所有产品,
Figure FDA0002933944630000046
表示第m个用户的产品集中除第j个产品之外的所有产品属于第k个竞争子市场的产品数量,
Figure FDA0002933944630000047
表示除第m个用户的产品集中的第j个产品之外的所有产品被分配给竞争子市场k的次数,
Figure FDA0002933944630000048
表示除第m个用户的产品集中的第j个产品之外的被分配给第k个竞争子市场的产品总数;
步骤5.2.3、利用式(6)计算第m个用户的评论文本集合中第i个单词的主题所属情况
Figure FDA0002933944630000049
的条件后验分布
Figure FDA00029339446300000410
Figure FDA00029339446300000411
式(6)中,
Figure FDA00029339446300000412
表示除第m个用户的评论文本集合中的第i个词之外的所有单词,
Figure FDA00029339446300000413
表示除第m个用户的评论文本集合中的第i个词
Figure FDA00029339446300000414
之外的所有单词相关的二元变量,若b=1,
Figure FDA00029339446300000415
表示用户m的评论文本集合中属于竞争相关主题的单词总数,
Figure FDA00029339446300000416
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给与竞争相关的主题k的次数,
Figure FDA00029339446300000417
表示除第m个用户的评论文本集合中的第i个词之外的分配给竞争相关的主题k的单词总数,若b=0,
Figure FDA00029339446300000418
表示用户m的评论文本集合中属于背景主题的单词总数,
Figure FDA00029339446300000419
表示除第m个用户的评论文本集合中的第i个词之外的单词v分配给背景主题的次数,
Figure FDA00029339446300000420
表示除第m个用户的评论文本集合中的第i个词之外的分配给背景主题的单词总数;
步骤5.2.4、确定评论文本集合中单词属于竞争相关的主题或背景主题的二元指示变量b后,利用式(7)计算第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure FDA0002933944630000051
的条件后验分布
Figure FDA0002933944630000052
Figure FDA0002933944630000053
式(7)中,
Figure FDA0002933944630000054
表示除第m个用户评论文本中的第i个单词之外的所有单词的主题编号,f表示用户考虑集中的所有产品所属竞争子市场的编号;
步骤5.3、重复执行步骤5.2.1-步骤5.2.4,利用坍塌式吉布斯采样算法对第m个用户对第k个竞争子市场的关注情况
Figure FDA0002933944630000055
第m个用户的产品集中的第j个产品所属的竞争子市场编号
Figure FDA0002933944630000056
第m个用户的评论文本集合中第i个单词的主题所属情况
Figure FDA0002933944630000057
以及第m个用户的评论文本集合中的第i个词的与竞争相关的主题编号
Figure FDA0002933944630000058
进行参数推断,直至所有参数均收敛;
步骤6、根据步骤5迭代得到的收敛结果,利用式(8)、式(9)、式(10)、式(11)估计第k个竞争子市场下的产品分布
Figure FDA0002933944630000059
第k个与竞争相关的主题下的词分布
Figure FDA00029339446300000510
背景主题下的词分布
Figure FDA00029339446300000511
和第m个用户对第k个竞争子市场或第k个竞争相关的主题的关注度分布
Figure FDA00029339446300000512
从而得到第m个用户的主题分布
Figure FDA00029339446300000513
进而得到所有用户的主题分布θ={θ12,...,θm,...,θM}:
Figure FDA00029339446300000514
Figure FDA00029339446300000515
Figure FDA00029339446300000516
Figure FDA00029339446300000517
式(8)-式(11)中,
Figure FDA00029339446300000518
表示产品e被分配给第k个竞争子市场的次数,
Figure FDA00029339446300000519
表示产品集中被分配给第k个竞争子市场的产品总数,
Figure FDA0002933944630000061
表示单词v被分配给第k个竞争相关的主题的次数,
Figure FDA0002933944630000062
表示评论文本集合中被分配给第k个竞争相关的主题的单词总数;
步骤7、利用所述主题分布θ、竞争子市场下的产品分布和竞争相关的主题下的特征词分布挖掘用户对竞争性产品的主题偏好。
CN202110166426.4A 2021-02-04 2021-02-04 一种竞品层次的主题偏好挖掘方法 Active CN112905740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110166426.4A CN112905740B (zh) 2021-02-04 2021-02-04 一种竞品层次的主题偏好挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110166426.4A CN112905740B (zh) 2021-02-04 2021-02-04 一种竞品层次的主题偏好挖掘方法

Publications (2)

Publication Number Publication Date
CN112905740A true CN112905740A (zh) 2021-06-04
CN112905740B CN112905740B (zh) 2022-08-30

Family

ID=76123539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110166426.4A Active CN112905740B (zh) 2021-02-04 2021-02-04 一种竞品层次的主题偏好挖掘方法

Country Status (1)

Country Link
CN (1) CN112905740B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704404A (zh) * 2021-08-27 2021-11-26 合肥工业大学 一种基于专业生成内容的产品替代性信息抽取方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070166691A1 (en) * 2005-12-23 2007-07-19 Allen Epstein Method for teaching
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN107613520A (zh) * 2017-08-29 2018-01-19 重庆邮电大学 一种基于lda主题模型的电信用户相似度发现方法
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN110110013A (zh) * 2019-05-10 2019-08-09 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法
CN110415071A (zh) * 2019-07-03 2019-11-05 西南交通大学 一种基于观点挖掘分析的汽车竞品对比方法
CN110443290A (zh) * 2019-07-23 2019-11-12 广东数鼎科技有限公司 一种基于大数据的产品竞争关系量化生成方法及装置
CN110543547A (zh) * 2019-08-13 2019-12-06 广东数鼎科技有限公司 一种汽车口碑语义情感分析系统
CN110674206A (zh) * 2019-09-30 2020-01-10 广东鼎义互联科技股份有限公司 一种应用于企业知识共享平台
CN110929123A (zh) * 2019-10-12 2020-03-27 中国农业大学 一种电商产品竞争分析方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070166691A1 (en) * 2005-12-23 2007-07-19 Allen Epstein Method for teaching
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
CN103389998A (zh) * 2012-05-11 2013-11-13 安徽华贞信息科技有限公司 一种基于云服务的新型互联网商业情报语义分析技术
CN107613520A (zh) * 2017-08-29 2018-01-19 重庆邮电大学 一种基于lda主题模型的电信用户相似度发现方法
CN110019796A (zh) * 2017-11-10 2019-07-16 北京信息科技大学 一种用户文本信息分析方法及装置
CN110110013A (zh) * 2019-05-10 2019-08-09 成都信息工程大学 一种基于时空属性的实体竞争关系数据挖掘方法
CN110415071A (zh) * 2019-07-03 2019-11-05 西南交通大学 一种基于观点挖掘分析的汽车竞品对比方法
CN110443290A (zh) * 2019-07-23 2019-11-12 广东数鼎科技有限公司 一种基于大数据的产品竞争关系量化生成方法及装置
CN110543547A (zh) * 2019-08-13 2019-12-06 广东数鼎科技有限公司 一种汽车口碑语义情感分析系统
CN110674206A (zh) * 2019-09-30 2020-01-10 广东鼎义互联科技股份有限公司 一种应用于企业知识共享平台
CN110929123A (zh) * 2019-10-12 2020-03-27 中国农业大学 一种电商产品竞争分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PANPAN XU: "Visual Analysis of Topic Competition on Social Media", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
张鑫: "基于投资者偏好的财经资讯智能推送", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704404A (zh) * 2021-08-27 2021-11-26 合肥工业大学 一种基于专业生成内容的产品替代性信息抽取方法
CN113704404B (zh) * 2021-08-27 2024-03-05 合肥工业大学 一种基于专业生成内容的产品替代性信息抽取方法

Also Published As

Publication number Publication date
CN112905740B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
Sarica et al. Stopwords in technical language processing
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
Han et al. Crowd worker strategies in relevance judgment tasks
JP2009193584A (ja) ワードセットに関係するワードの決定
Stanisz et al. Linguistic data mining with complex networks: A stylometric-oriented approach
CN110347701B (zh) 一种面向实体检索查询的目标类型标识方法
KR102135074B1 (ko) 인공지능 기반의 팩트 체크 가이드라인을 이용한 가짜 뉴스 판별 시스템
Dumitrache et al. Empirical methodology for crowdsourcing ground truth
Strüder et al. Feature-oriented defect prediction
Simidjievski et al. Modeling dynamic systems with efficient ensembles of process-based models
Madhavan Mastering python for data science
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Syed et al. Exploring symmetrical and asymmetrical Dirichlet priors for latent Dirichlet allocation
Ullah et al. Analyzing interdisciplinary research using co-authorship networks
Aralikatte et al. Fault in your stars: an analysis of android app reviews
Shah et al. A Framework for Micro-Influencer Selection in Pet Product Marketing Using Social Media Performance Metrics and Natural Language Processing
CN112905740B (zh) 一种竞品层次的主题偏好挖掘方法
Nielek et al. Spiral of hatred: social effects in internet auctions. between informativity and emotion
Zhang et al. Research on technology prospect risk of high-tech projects based on patent analysis
Mosinzova et al. Fake news, conspiracies and myth debunking in social media-a literature survey across disciplines
Wang et al. Evaluation of the survival of Yangtze finless porpoise under probabilistic hesitant fuzzy environment
CN102270204A (zh) 一种基于矩阵分解对在线论坛用户影响力进行计算的方法
Zhang et al. Community detection in attributed collaboration network for statisticians
CN104572623A (zh) 一种在线lda模型的高效数据总结分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant