CN113704404A - 一种基于专业生成内容的产品替代性信息抽取方法 - Google Patents

一种基于专业生成内容的产品替代性信息抽取方法 Download PDF

Info

Publication number
CN113704404A
CN113704404A CN202110995578.5A CN202110995578A CN113704404A CN 113704404 A CN113704404 A CN 113704404A CN 202110995578 A CN202110995578 A CN 202110995578A CN 113704404 A CN113704404 A CN 113704404A
Authority
CN
China
Prior art keywords
market
product
sub
distribution
generated content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110995578.5A
Other languages
English (en)
Other versions
CN113704404B (zh
Inventor
凌海峰
孟祥睿
钱洋
姜元春
刘业政
柴一栋
孙见山
袁昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202110995578.5A priority Critical patent/CN113704404B/zh
Publication of CN113704404A publication Critical patent/CN113704404A/zh
Application granted granted Critical
Publication of CN113704404B publication Critical patent/CN113704404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于专业生成内容的产品替代性信息抽取方法,包括:1构建专业生成内容数据集合并表示,2建模市场竞争结构,获得市场环境下与产品相关的竞争信息和替代性关系,3构建有参贝叶斯模型,4整合变分推理和坍塌式吉布斯抽样,使用坍塌式变分贝叶斯推断算法进行参数推断。本发明在应对社交媒体中的大规模的专业生成内容时,能够有效、快速、准确地发现专业生成内容中的产品竞争关系,抽取出市场中产品间的替代性信息,帮助企业发现市场中产品间的替代性关系,有助于企业识别直接或间接竞争对手,为企业提供重要的竞争情报。

Description

一种基于专业生成内容的产品替代性信息抽取方法
技术领域
本发明涉及发现专业生成内容中产品替代性关系相关的主题挖掘技术领域,具体涉及一种基于专业生成内容的产品替代性信息抽取方法。
背景技术
竞争情报是营销和商业战略中的一个重要研究领域,并在文献中引起了相当大的关注。为了促进公司的的健康成长,公司试图设计有效的方法获取大量可用数据来挖掘竞争信息。显然,将关键数据转化为竞争情报是帮助企业增强竞争力、塑造竞争优势的核心任务。
近年来社交媒体平台(如Twitter)的快速发展使营销人员和消费者能够产生和传播大量有价值的信息。这些信息包含一系列与公司品牌和产品高度相关的有价值的数据。挖掘这些数据为市场研究人员提供了独特的视角来了解市场竞争,并得出有意义的品牌营销和传播见解。关于如何使用用户生成内容(UGC)进行竞争分析的研究被越来越多的研究人员关注。例如,Liu等通过挖掘论坛帖子,从客户的角度使用情感分析来衡量产品竞争优势。Jaeger和
Figure BDA0003233975660000011
利用社交媒体上的口碑数据,用共现现象来检测食品零售行业的非对称竞争。这些研究大多是从普通消费者的角度来理解竞争,而对于某些产品,大量普通的消费者的见解可能不如部分专业知识丰富的专家的看法更有影响。在传统的产品竞争替代关系研究领域中,研究人员通常基于调查数据、扫描面板数据和品牌选择数据,使用多维标度法、潜类别模型和聚类方法推断竞争关系。尽管这些研究提供了独特且有用的见解,但这些研究也受到一些与数据可用性相关的限制。例如,调查很费时、无法及时的跟踪消费者的行为等问题,而且有限的调查数量通常会导致竞争偏见,因为调查可能会引入不确定性,消费者可以迅速召回所有他们想要购买的产品。此外,现有的主题模型方法使用吉布斯采样算法学习模型参数,但是在大量的专业生成内容数据中,由于需要经过上千次迭代导致挖掘主题的速度很慢,效率低下。
发明内容
本发明为了克服现有技术存在的不足之处,提出了一种基于专业生成内容的产品替代性信息抽取方法,以期能在应对大规模的专业生成内容时,能够有效、快速、准确地发现市场中竞争性产品间的替代关系,从专业的角度构建更准确的市场结构,以获得更精确的产品间竞争替代关系,从而帮助企业识别直接或间接竞争对手。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于专业生成内容的产品替代性信息抽取方法的特点是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为
Figure BDA0003233975660000021
wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为
Figure BDA0003233975660000022
其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,且β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
Figure BDA0003233975660000023
表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且
Figure BDA0003233975660000025
服从参数为γ的狄利克雷分布的概率分布,且γ是一个V维向量;
Figure BDA0003233975660000024
表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1d2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,且α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为
Figure BDA0003233975660000031
的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为
Figure BDA0003233975660000032
的多项式分布;
步骤5、基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布
Figure BDA0003233975660000033
以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
Figure BDA0003233975660000034
式(8)中,
Figure BDA0003233975660000035
表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,
Figure BDA0003233975660000036
表示
Figure BDA0003233975660000037
的多项式分布的变分参数,
Figure BDA0003233975660000038
表示子市场编号为x和y的概率分布,
Figure BDA0003233975660000039
表示子市场编号为x和y所对应的参数为θ,σ,
Figure BDA00032339756600000310
的后验概率分布,
Figure BDA00032339756600000311
表示参数为θ,σ,
Figure BDA00032339756600000312
的条件下子市场编号为x和y的联合概率分布,
Figure BDA00032339756600000313
表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,
Figure BDA00032339756600000314
表示
Figure BDA00032339756600000315
的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
Figure BDA00032339756600000316
Figure BDA0003233975660000041
式(9)中,
Figure BDA0003233975660000042
表示联合概率密度的后验期望,
Figure BDA0003233975660000043
表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布
Figure BDA0003233975660000044
的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
Figure BDA0003233975660000045
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk
Figure BDA0003233975660000046
和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
Figure BDA0003233975660000047
式(11)中,
Figure BDA0003233975660000048
表示所有的产品分配到第k个产品子市场中的数量,且
Figure BDA0003233975660000049
Figure BDA00032339756600000410
表示第l个产品分配到第k个产品竞争子市场的数量;
Figure BDA00032339756600000411
表示所有的词分配到第k个主题子市场中的数量,且
Figure BDA00032339756600000412
Figure BDA00032339756600000413
表示文本内容中第v个词分配到第k个产品竞争子市场的数量;
Figure BDA00032339756600000414
表示所有的产品分配到第d篇专业生成内容中的数量,且
Figure BDA00032339756600000415
Figure BDA00032339756600000416
表示第l个产品分配到第d篇专业生成内容中的数量;
Figure BDA00032339756600000417
表示所有的词分配到第d篇专业生成内容中的数量,且
Figure BDA00032339756600000418
Figure BDA00032339756600000419
表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:
Figure BDA00032339756600000420
其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数
Figure BDA00032339756600000421
Figure BDA00032339756600000422
Figure BDA0003233975660000051
Figure BDA0003233975660000052
式(12)和式(13)中,
Figure BDA0003233975660000053
Figure BDA0003233975660000054
表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,
Figure BDA0003233975660000055
Figure BDA0003233975660000056
表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,
Figure BDA0003233975660000057
Figure BDA0003233975660000058
表示除去tdj和wdi外的产品名称或主题词的期望数,
Figure BDA0003233975660000059
表示第d篇文档的产品名称中属于第k个竞争子市场的数量;
Figure BDA00032339756600000510
表示第d篇文档的词中属于第k个主题子市场的数量;
Figure BDA00032339756600000511
表示第l个产品在第k个产品竞争子市场中出现次数的期望;
Figure BDA00032339756600000512
表示第i个词在第k个主题子市场中出现次数的期望;
Figure BDA00032339756600000513
表示第k个产品竞争子市场中所有产品名称出现的次数的期望,
Figure BDA00032339756600000514
表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给
Figure BDA00032339756600000515
Figure BDA00032339756600000516
并返回步骤5.1顺序执行,直至产品分布σkl、词分布
Figure BDA00032339756600000517
和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布
Figure BDA00032339756600000518
和产品分布σ′kl;从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布
Figure BDA00032339756600000519
Figure BDA00032339756600000520
Figure BDA00032339756600000521
Figure BDA00032339756600000522
式(14)、式(15)、式(16)中,
Figure BDA00032339756600000523
分别为迭代更新后的
Figure BDA00032339756600000524
Figure BDA0003233975660000061
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布
Figure BDA0003233975660000062
从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。
与现有技术相比,本发明的有益效果在于:
1.本发明联合建模社交媒体中PGC两方面的数据:产品名称和文本内容。建模过程中注重联合解释产品和文本间的关系,建模结果可以同时得到产品的竞争子市场和与该子市场对应的相关主题子市场,不同主题下的主题词能体现出对应子市场的特点,同时因为PGC的专业性,会使建模结果中的产品替代性信息更具有专业性,说服力更强,能够有效挖掘市场中产品间替代性关系与替代性信息,进而有助于分析专业视角下的产品的市场环境与竞争结构,为分析者提供更为专业的竞争情报。
2.本发明在分析市场环境时将竞争市场分为了两个竞争子市场,即与产品相关的产品竞争子市场和与该子市场对应的相关主题子市场,通过本发明提出的关联主题模型Link-LDA(Link latent Dirichlet allocation)模型,有效结合PGC的产品名称数据文本生成内容,成功得到两个竞争子市场,从而能够全面地刻画出在PGC中市场环境的特征,相较于已有的研究得到更加专业精准的产品间替代性关系。
3.本发明设计了坍塌式变分贝叶斯推断方法,使得方法的可扩展性更高,在挖掘文档主题分布时更高效、更准确、更容易扩展到大数据。在应对大规模的专业生成内容时,能够更快速地挖掘专业生成内容中对市场中竞争性产品的关注度分布的市场中产品相关的焦点话题,帮助企业快速识别竞争对手。
附图说明
图1为本发明一种基于专业生成内容的产品替代性信息抽取方法的模型图。
具体实施方式
本实施例中,一种基于专业生成内容(professional-generated content,PGC)的产品替代性信息抽取方法,融合了专业生成内容中的产品名称和文本内容数据,考虑了内容生成者对产品市场的注意力分布、产品名称与描述性文本间的相关性,采用坍塌式变分贝叶斯推断进行近似估计,适用于发现潜在的产品竞争子市场即对应的相关主题,抽取出市场中产品间的替代性信息。具体的说是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为
Figure BDA0003233975660000071
wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为
Figure BDA0003233975660000072
,其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,每个竞争子市场中的产品之间存在着竞争关系,相同市场中的产品彼此具有替代关系;再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、针对市场中的K个竞争子市场,专业生成内容中的文本内容数据集合关注K个与竞争子市场对应的主题;在对产品进行市场划分时,不同的市场会有不同的相关主题,例如,新能源汽车市场会关注新能源、纯电动汽车等相关主题,这些主题中的主题词包含产品间的替代性信息;
专业生成内容的文本内容中会包含大量的噪声信息,所以为了更有效地推断与竞争子市场相关的主题,会根据研究问题定义一个背景主题,基于此来过滤文本内容中的噪音单词;对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
Figure BDA0003233975660000081
表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且
Figure BDA0003233975660000082
服从参数为γ的狄利克雷分布的概率分布,γ是一个V维向量;
Figure BDA0003233975660000083
表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
专业生成内容的生成者通常只会对一个或几个子市场中的产品发表见解,而忽略其他市场中的产品的信息。定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1d2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为
Figure BDA0003233975660000084
的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为
Figure BDA0003233975660000085
的多项式分布;
步骤5、图1为本发明所提出的产品名称集合与文本内容集合的生成过程图,该图描绘了本发明提出的有参贝叶斯模型,对专业生成内容的产品名称集合与文本内容进行联合建模,从而推断产品竞争子市场和相关主题子市场对应的主题;
基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布
Figure BDA0003233975660000086
以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
Figure BDA0003233975660000087
式(8)中,
Figure BDA0003233975660000091
表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,
Figure BDA0003233975660000092
表示
Figure BDA0003233975660000093
的多项式分布的变分参数,
Figure BDA0003233975660000094
表示子市场编号为x和y的概率分布,
Figure BDA0003233975660000095
表示子市场编号为x和y所对应的参数为θ,σ,
Figure BDA0003233975660000096
的后验概率分布,
Figure BDA0003233975660000097
表示参数为θ,σ,
Figure BDA0003233975660000098
的条件下子市场编号为x和y的联合概率分布,
Figure BDA0003233975660000099
表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,
Figure BDA00032339756600000910
表示
Figure BDA00032339756600000911
的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
Figure BDA00032339756600000912
Figure BDA00032339756600000913
式(9)中,
Figure BDA00032339756600000914
表示联合概率密度的后验期望,
Figure BDA00032339756600000915
表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布
Figure BDA00032339756600000916
的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
Figure BDA00032339756600000917
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk
Figure BDA00032339756600000918
和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
Figure BDA00032339756600000919
式(11)中,
Figure BDA00032339756600000920
表示所有的产品分配到第k个产品子市场中的数量,且
Figure BDA00032339756600000921
Figure BDA00032339756600000922
表示第l个产品分配到第k个产品竞争子市场的数量;
Figure BDA00032339756600000923
表示所有的词分配到第k个主题子市场中的数量,且
Figure BDA00032339756600000924
Figure BDA00032339756600000925
表示文本内容中第v个词分配到第k个产品竞争子市场的数量;
Figure BDA00032339756600000926
表示所有的产品分配到第d篇专业生成内容中的数量,且
Figure BDA00032339756600000927
Figure BDA00032339756600000928
表示第l个产品分配到第d篇专业生成内容中的数量;
Figure BDA00032339756600000929
表示所有的词分配到第d篇专业生成内容中的数量,且
Figure BDA0003233975660000101
Figure BDA0003233975660000102
表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:
Figure BDA0003233975660000103
其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数
Figure BDA0003233975660000104
Figure BDA0003233975660000105
Figure BDA0003233975660000106
Figure BDA0003233975660000107
式(12)和式(13)中,
Figure BDA0003233975660000108
Figure BDA0003233975660000109
表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,
Figure BDA00032339756600001010
Figure BDA00032339756600001011
表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,
Figure BDA00032339756600001012
Figure BDA00032339756600001013
表示除去tdj和wdi外的产品名称或主题词的期望数,
Figure BDA00032339756600001014
表示第d篇文档的产品名称中属于第k个竞争子市场的数量;
Figure BDA00032339756600001015
表示第d篇文档的词中属于第k个主题子市场的数量;
Figure BDA00032339756600001016
表示第l个产品在第k个产品竞争子市场中出现次数的期望;
Figure BDA00032339756600001017
表示第i个词在第k个主题子市场中出现次数的期望;
Figure BDA00032339756600001018
表示第k个产品竞争子市场中所有产品名称出现的次数的期望,
Figure BDA00032339756600001019
表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给
Figure BDA00032339756600001020
Figure BDA00032339756600001021
并返回步骤5.1顺序执行,直至产品分布σkl、词分布
Figure BDA00032339756600001022
和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布
Figure BDA00032339756600001023
和产品分布σ′kl
Figure BDA00032339756600001024
Figure BDA0003233975660000111
Figure BDA0003233975660000112
式(14)、式(15)、式(16)中,
Figure BDA0003233975660000113
分别为迭代更新后的
Figure BDA0003233975660000114
Figure BDA0003233975660000115
步骤5.6、从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布
Figure BDA0003233975660000116
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布
Figure BDA0003233975660000117
从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。

Claims (1)

1.一种基于专业生成内容的产品替代性信息抽取方法,其特征是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为
Figure FDA0003233975650000011
wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为
Figure FDA0003233975650000012
其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,且β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
Figure FDA0003233975650000013
表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且
Figure FDA0003233975650000014
服从参数为γ的狄利克雷分布的概率分布,且γ是一个V维向量;
Figure FDA0003233975650000015
表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1d2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,且α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为
Figure FDA0003233975650000021
的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为
Figure FDA0003233975650000022
的多项式分布;
步骤5、基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布
Figure FDA0003233975650000023
以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
Figure FDA0003233975650000024
式(8)中,
Figure FDA0003233975650000025
表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,
Figure FDA0003233975650000026
表示
Figure FDA0003233975650000027
的多项式分布的变分参数,
Figure FDA0003233975650000028
表示子市场编号为x和y的概率分布,
Figure FDA0003233975650000029
表示子市场编号为x和y所对应的参数为θ,σ,
Figure FDA00032339756500000210
的后验概率分布,
Figure FDA00032339756500000211
表示参数为θ,σ,
Figure FDA00032339756500000214
的条件下子市场编号为x和y的联合概率分布,
Figure FDA00032339756500000212
表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,
Figure FDA00032339756500000213
表示
Figure FDA0003233975650000031
的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
Figure FDA0003233975650000032
Figure FDA0003233975650000033
式(9)中,
Figure FDA0003233975650000034
表示联合概率密度的后验期望,
Figure FDA0003233975650000035
表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布
Figure FDA0003233975650000036
的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
Figure FDA0003233975650000037
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk
Figure FDA0003233975650000038
和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
Figure FDA0003233975650000039
式(11)中,
Figure FDA00032339756500000310
表示所有的产品分配到第k个产品子市场中的数量,且
Figure FDA00032339756500000311
Figure FDA00032339756500000312
表示第l个产品分配到第k个产品竞争子市场的数量;
Figure FDA00032339756500000313
表示所有的词分配到第k个主题子市场中的数量,且
Figure FDA00032339756500000314
Figure FDA00032339756500000315
表示文本内容中第v个词分配到第k个产品竞争子市场的数量;
Figure FDA00032339756500000316
表示所有的产品分配到第d篇专业生成内容中的数量,且
Figure FDA00032339756500000317
Figure FDA00032339756500000318
表示第l个产品分配到第d篇专业生成内容中的数量;
Figure FDA00032339756500000319
表示所有的词分配到第d篇专业生成内容中的数量,且
Figure FDA00032339756500000320
Figure FDA00032339756500000321
表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:
Figure FDA00032339756500000322
其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数
Figure FDA0003233975650000041
Figure FDA0003233975650000042
Figure FDA0003233975650000043
Figure FDA0003233975650000044
式(12)和式(13)中,
Figure FDA0003233975650000045
Figure FDA0003233975650000046
表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,
Figure FDA0003233975650000047
Figure FDA0003233975650000048
表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,
Figure FDA0003233975650000049
Figure FDA00032339756500000410
表示除去tdj和wdi外的产品名称或主题词的期望数,
Figure FDA00032339756500000411
表示第d篇文档的产品名称中属于第k个竞争子市场的数量;
Figure FDA00032339756500000412
表示第d篇文档的词中属于第k个主题子市场的数量;
Figure FDA00032339756500000413
表示第l个产品在第k个产品竞争子市场中出现次数的期望;
Figure FDA00032339756500000414
表示第i个词在第k个主题子市场中出现次数的期望;
Figure FDA00032339756500000415
表示第k个产品竞争子市场中所有产品名称出现的次数的期望,
Figure FDA00032339756500000416
表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给
Figure FDA00032339756500000417
Figure FDA00032339756500000418
并返回步骤5.1顺序执行,直至产品分布σkl、词分布
Figure FDA00032339756500000419
和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布
Figure FDA00032339756500000420
和产品分布σ′kl;从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布
Figure FDA00032339756500000421
Figure FDA00032339756500000422
Figure FDA00032339756500000423
Figure FDA00032339756500000424
式(14)、式(15)、式(16)中,
Figure FDA0003233975650000051
分别为迭代更新后的
Figure FDA0003233975650000052
Figure FDA0003233975650000053
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布
Figure FDA0003233975650000054
从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。
CN202110995578.5A 2021-08-27 2021-08-27 一种基于专业生成内容的产品替代性信息抽取方法 Active CN113704404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110995578.5A CN113704404B (zh) 2021-08-27 2021-08-27 一种基于专业生成内容的产品替代性信息抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110995578.5A CN113704404B (zh) 2021-08-27 2021-08-27 一种基于专业生成内容的产品替代性信息抽取方法

Publications (2)

Publication Number Publication Date
CN113704404A true CN113704404A (zh) 2021-11-26
CN113704404B CN113704404B (zh) 2024-03-05

Family

ID=78655981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110995578.5A Active CN113704404B (zh) 2021-08-27 2021-08-27 一种基于专业生成内容的产品替代性信息抽取方法

Country Status (1)

Country Link
CN (1) CN113704404B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316917A1 (en) * 2011-06-13 2012-12-13 University Of Southern California Extracting dimensions of quality from online user-generated content
CN110209962A (zh) * 2019-06-12 2019-09-06 合肥工业大学 主题层次高影响力用户的获取方法和系统
CN111090995A (zh) * 2019-11-15 2020-05-01 合肥工业大学 短文本主题识别方法和系统
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316917A1 (en) * 2011-06-13 2012-12-13 University Of Southern California Extracting dimensions of quality from online user-generated content
CN110209962A (zh) * 2019-06-12 2019-09-06 合肥工业大学 主题层次高影响力用户的获取方法和系统
CN111090995A (zh) * 2019-11-15 2020-05-01 合肥工业大学 短文本主题识别方法和系统
CN112905740A (zh) * 2021-02-04 2021-06-04 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任金;: "面向共现关系和情感分析的品牌竞争优势研究", 图书情报导刊, no. 05, 25 May 2019 (2019-05-25) *
王树义;廖桦涛;吴查科;: "基于情感分类的竞争企业新闻文本主题挖掘", 数据分析与知识发现, no. 03, 25 March 2018 (2018-03-25) *

Also Published As

Publication number Publication date
CN113704404B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
Archambault et al. Towards a multilingual, comprehensive and open scientific journal ontology
CN110321291A (zh) 测试案例智能提取系统及方法
CN101887460A (zh) 一种文献质量评估方法及应用
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
Zuo Sentiment analysis of steam review datasets using naive bayes and decision tree classifier
Ge et al. CORE: A knowledge graph entity type prediction method via complex space regression and embedding
CN112950276B (zh) 一种基于多阶特征组合的种子人群拓展方法
CN107391577B (zh) 一种基于表示向量的作品标签推荐方法和系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN104572982A (zh) 基于问题引导的个性化推荐方法及系统
Li A study on the influence of non-intelligence factors on college students’ English learning achievement based on C4. 5 algorithm of decision tree
Grivolla et al. A hybrid recommender combining user, item and interaction data
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN113704404B (zh) 一种基于专业生成内容的产品替代性信息抽取方法
Aliyanto et al. Supervised probabilistic latent semantic analysis (sPLSA) for estimating technology readiness level
CN112905740B (zh) 一种竞品层次的主题偏好挖掘方法
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
Mengle et al. Mastering machine learning on Aws: advanced machine learning in Python using SageMaker, Apache Spark, and TensorFlow
Kalyanakrishnan et al. On building decision trees from large-scale data in applications of on-line advertising
CN103164806A (zh) 用于从社会内容获得市场情报的方法和设备
CN109299381B (zh) 一种基于语义概念的软件缺陷检索和分析系统及方法
Ding et al. Short text processing for analyzing user portraits: a dynamic combination
Bilgram et al. Crowdfunding data as a source of innovation
Righi et al. Integration of survey data and big data for finite population inference in official statistics: statistical challenges and practical applications
Jatain Performance Optimization of an Enterprise using Data-Driven Strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant