CN113704404B - 一种基于专业生成内容的产品替代性信息抽取方法 - Google Patents
一种基于专业生成内容的产品替代性信息抽取方法 Download PDFInfo
- Publication number
- CN113704404B CN113704404B CN202110995578.5A CN202110995578A CN113704404B CN 113704404 B CN113704404 B CN 113704404B CN 202110995578 A CN202110995578 A CN 202110995578A CN 113704404 B CN113704404 B CN 113704404B
- Authority
- CN
- China
- Prior art keywords
- market
- sub
- product
- distribution
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006467 substitution reaction Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 230000002860 competitive effect Effects 0.000 claims description 63
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 claims description 9
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于专业生成内容的产品替代性信息抽取方法,包括:1构建专业生成内容数据集合并表示,2建模市场竞争结构,获得市场环境下与产品相关的竞争信息和替代性关系,3构建有参贝叶斯模型,4整合变分推理和坍塌式吉布斯抽样,使用坍塌式变分贝叶斯推断算法进行参数推断。本发明在应对社交媒体中的大规模的专业生成内容时,能够有效、快速、准确地发现专业生成内容中的产品竞争关系,抽取出市场中产品间的替代性信息,帮助企业发现市场中产品间的替代性关系,有助于企业识别直接或间接竞争对手,为企业提供重要的竞争情报。
Description
技术领域
本发明涉及发现专业生成内容中产品替代性关系相关的主题挖掘技术领域,具体涉及一种基于专业生成内容的产品替代性信息抽取方法。
背景技术
竞争情报是营销和商业战略中的一个重要研究领域,并在文献中引起了相当大的关注。为了促进公司的的健康成长,公司试图设计有效的方法获取大量可用数据来挖掘竞争信息。显然,将关键数据转化为竞争情报是帮助企业增强竞争力、塑造竞争优势的核心任务。
近年来社交媒体平台(如Twitter)的快速发展使营销人员和消费者能够产生和传播大量有价值的信息。这些信息包含一系列与公司品牌和产品高度相关的有价值的数据。挖掘这些数据为市场研究人员提供了独特的视角来了解市场竞争,并得出有意义的品牌营销和传播见解。关于如何使用用户生成内容(UGC)进行竞争分析的研究被越来越多的研究人员关注。例如,Liu等通过挖掘论坛帖子,从客户的角度使用情感分析来衡量产品竞争优势。Jaeger和利用社交媒体上的口碑数据,用共现现象来检测食品零售行业的非对称竞争。这些研究大多是从普通消费者的角度来理解竞争,而对于某些产品,大量普通的消费者的见解可能不如部分专业知识丰富的专家的看法更有影响。在传统的产品竞争替代关系研究领域中,研究人员通常基于调查数据、扫描面板数据和品牌选择数据,使用多维标度法、潜类别模型和聚类方法推断竞争关系。尽管这些研究提供了独特且有用的见解,但这些研究也受到一些与数据可用性相关的限制。例如,调查很费时、无法及时的跟踪消费者的行为等问题,而且有限的调查数量通常会导致竞争偏见,因为调查可能会引入不确定性,消费者可以迅速召回所有他们想要购买的产品。此外,现有的主题模型方法使用吉布斯采样算法学习模型参数,但是在大量的专业生成内容数据中,由于需要经过上千次迭代导致挖掘主题的速度很慢,效率低下。
发明内容
本发明为了克服现有技术存在的不足之处,提出了一种基于专业生成内容的产品替代性信息抽取方法,以期能在应对大规模的专业生成内容时,能够有效、快速、准确地发现市场中竞争性产品间的替代关系,从专业的角度构建更准确的市场结构,以获得更精确的产品间竞争替代关系,从而帮助企业识别直接或间接竞争对手。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于专业生成内容的产品替代性信息抽取方法的特点是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,且β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
令表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且/>服从参数为γ的狄利克雷分布的概率分布,且γ是一个V维向量;/>表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1,θd2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,且α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为的多项式分布;
步骤5、基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
式(8)中,表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,/>表示/>的多项式分布的变分参数,/>表示子市场编号为x和y的概率分布,/>表示子市场编号为x和y所对应的参数为θ,σ,/>的后验概率分布,/>表示参数为θ,σ,/>的条件下子市场编号为x和y的联合概率分布,表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,/>表示的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
式(9)中,表示联合概率密度的后验期望,/>表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk、和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
式(11)中,表示所有的产品分配到第k个产品子市场中的数量,且/> 表示第l个产品分配到第k个产品竞争子市场的数量;/>表示所有的词分配到第k个主题子市场中的数量,且/> 表示文本内容中第v个词分配到第k个产品竞争子市场的数量;表示所有的产品分配到第d篇专业生成内容中的数量,且/> 表示第l个产品分配到第d篇专业生成内容中的数量;/>表示所有的词分配到第d篇专业生成内容中的数量,且 表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:/>其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数和/>
式(12)和式(13)中, 表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,/> 表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,/>和/>表示除去tdj和wdi外的产品名称或主题词的期望数,表示第d篇文档的产品名称中属于第k个竞争子市场的数量;/>表示第d篇文档的词中属于第k个主题子市场的数量;/>表示第l个产品在第k个产品竞争子市场中出现次数的期望;/>表示第i个词在第k个主题子市场中出现次数的期望;/>表示第k个产品竞争子市场中所有产品名称出现的次数的期望,/>表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给和/>并返回步骤5.1顺序执行,直至产品分布σkl、词分布/>和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布和产品分布σ′kl;从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布/>
式(14)、式(15)、式(16)中,分别为迭代更新后的
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。
与现有技术相比,本发明的有益效果在于:
1.本发明联合建模社交媒体中PGC两方面的数据:产品名称和文本内容。建模过程中注重联合解释产品和文本间的关系,建模结果可以同时得到产品的竞争子市场和与该子市场对应的相关主题子市场,不同主题下的主题词能体现出对应子市场的特点,同时因为PGC的专业性,会使建模结果中的产品替代性信息更具有专业性,说服力更强,能够有效挖掘市场中产品间替代性关系与替代性信息,进而有助于分析专业视角下的产品的市场环境与竞争结构,为分析者提供更为专业的竞争情报。
2.本发明在分析市场环境时将竞争市场分为了两个竞争子市场,即与产品相关的产品竞争子市场和与该子市场对应的相关主题子市场,通过本发明提出的关联主题模型Link-LDA(Link latent Dirichlet allocation)模型,有效结合PGC的产品名称数据文本生成内容,成功得到两个竞争子市场,从而能够全面地刻画出在PGC中市场环境的特征,相较于已有的研究得到更加专业精准的产品间替代性关系。
3.本发明设计了坍塌式变分贝叶斯推断方法,使得方法的可扩展性更高,在挖掘文档主题分布时更高效、更准确、更容易扩展到大数据。在应对大规模的专业生成内容时,能够更快速地挖掘专业生成内容中对市场中竞争性产品的关注度分布的市场中产品相关的焦点话题,帮助企业快速识别竞争对手。
附图说明
图1为本发明一种基于专业生成内容的产品替代性信息抽取方法的模型图。
具体实施方式
本实施例中,一种基于专业生成内容(professional-generated content,PGC)的产品替代性信息抽取方法,融合了专业生成内容中的产品名称和文本内容数据,考虑了内容生成者对产品市场的注意力分布、产品名称与描述性文本间的相关性,采用坍塌式变分贝叶斯推断进行近似估计,适用于发现潜在的产品竞争子市场即对应的相关主题,抽取出市场中产品间的替代性信息。具体的说是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为,其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,每个竞争子市场中的产品之间存在着竞争关系,相同市场中的产品彼此具有替代关系;再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、针对市场中的K个竞争子市场,专业生成内容中的文本内容数据集合关注K个与竞争子市场对应的主题;在对产品进行市场划分时,不同的市场会有不同的相关主题,例如,新能源汽车市场会关注新能源、纯电动汽车等相关主题,这些主题中的主题词包含产品间的替代性信息;
专业生成内容的文本内容中会包含大量的噪声信息,所以为了更有效地推断与竞争子市场相关的主题,会根据研究问题定义一个背景主题,基于此来过滤文本内容中的噪音单词;对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
令表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且/>服从参数为γ的狄利克雷分布的概率分布,γ是一个V维向量;/>表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
专业生成内容的生成者通常只会对一个或几个子市场中的产品发表见解,而忽略其他市场中的产品的信息。定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1,θd2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为的多项式分布;
步骤5、图1为本发明所提出的产品名称集合与文本内容集合的生成过程图,该图描绘了本发明提出的有参贝叶斯模型,对专业生成内容的产品名称集合与文本内容进行联合建模,从而推断产品竞争子市场和相关主题子市场对应的主题;
基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
式(8)中,表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,/>表示/>的多项式分布的变分参数,/>表示子市场编号为x和y的概率分布,/>表示子市场编号为x和y所对应的参数为θ,σ,/>的后验概率分布,/>表示参数为θ,σ,/>的条件下子市场编号为x和y的联合概率分布,表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,/>表示的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
式(9)中,表示联合概率密度的后验期望,/>表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk、和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
式(11)中,表示所有的产品分配到第k个产品子市场中的数量,且/> 表示第l个产品分配到第k个产品竞争子市场的数量;/>表示所有的词分配到第k个主题子市场中的数量,且/> 表示文本内容中第v个词分配到第k个产品竞争子市场的数量;/>表示所有的产品分配到第d篇专业生成内容中的数量,且/> 表示第l个产品分配到第d篇专业生成内容中的数量;/>表示所有的词分配到第d篇专业生成内容中的数量,且 表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:/>其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数和/>
式(12)和式(13)中, 表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,/> 表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,/>和/>表示除去tdj和wdi外的产品名称或主题词的期望数,/>表示第d篇文档的产品名称中属于第k个竞争子市场的数量;/>表示第d篇文档的词中属于第k个主题子市场的数量;/>表示第l个产品在第k个产品竞争子市场中出现次数的期望;/>表示第i个词在第k个主题子市场中出现次数的期望;/>表示第k个产品竞争子市场中所有产品名称出现的次数的期望,/>表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给和/>并返回步骤5.1顺序执行,直至产品分布σkl、词分布/>和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布和产品分布σ′kl:
式(14)、式(15)、式(16)中,分别为迭代更新后的
步骤5.6、从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。
Claims (1)
1.一种基于专业生成内容的产品替代性信息抽取方法,其特征是按如下步骤进行:
步骤1、数据集合的获取;
步骤1.1、获取社交媒体中专业生成内容的数据集合,并将所述数据集合的索引标记d={1,2,…,D},D表示专业生成内容的总篇数;对于任意第d篇专业生成内容有(wd,td),其中,wd表示第d篇专业生成内容中的文本集合,td表示第d篇专业生成内容中的产品名称集合;
步骤1.2、构建社交媒体中专业生成内容的文本内容集合:
对所述数据集合中所有的文本集合去除所有停用词后得到专业生成内容的文本内容集合,其中,第d篇专业生成内容的文本内容集合表示为wdi表示第d篇专业生成内容的文本内容中第i个单词,Nd表示第d篇文本内容中的单词数;
步骤1.3、构建专业生成内容的产品名称集合:
对于第d篇专业生成内容的产品名称集合记为其中,tdj表示第d篇专业生成内容中的第j个产品名称,Ld表示第d篇专业生成内容中的产品名称数量;
步骤2、构建竞争子市场、产品竞争子市场以及相关主题子市场;
步骤2.1、将产品市场中的所有产品划分为K个竞争子市场,再按照所述数据集合中的产品名称和文本内容,得到第k个产品竞争子市场及其相关的第k个相关主题子市场,从而构成第k个竞争子市场;k∈{1,2,…,K};
步骤2.2、对K个竞争子市场中的产品编号有l={1,2,…,L},L表示专业生成内容的产品名称集合中不重复的产品总数;
令σk表示产品竞争子市场的产品名称在第k个竞争子市场下的产品分布,且σk服从参数为β的狄利克雷分布的概率分布,且β是一个L维向量;σkl表示第l个产品被划分为第k个竞争子市场中的概率;
步骤2.3、对K个竞争子市场中相关主题的词编号有v={1,2,…,V},V表示专业生成内容的文本内容集合中不重复的词总数;
令表示相关主题子市场的相关主题在第k个竞争子市场下的词分布,且/>服从参数为γ的狄利克雷分布的概率分布,且γ是一个V维向量;/>表示第v个词被划分到第k个竞争子市场中的概率;
步骤3、构建专业生成内容中的偏好分布;
定义第d篇专业生成内容对K个竞争子市场的偏好分布表示为θd={θd1,θd2,…,θdk,…,θdK},且θd服从参数为α的狄利克雷分布的概率分布,且α是一个K维向量,其中,θdk表示第d篇专业生成内容对第k个竞争子市场的偏好分布;
步骤4、设计有参贝叶斯模型,分析专业生成内容中的产品名称和文本内容信息,并生成产品名称对应的产品竞争子市场和文本对应的相关主题子市场;
步骤4.1、定义xdj∈{1,2,…,K}为第d篇专业生成内容中第j个产品名称tdj所代表的产品所归属的竞争子市场编号;且xdj服从参数为θd的多项式分布,第j个产品名称tdj在编号为xdj的产品子市场下服从参数为的多项式分布;
步骤4.2、定义ydi∈{1,2,…,K}为第d篇专业生成内容中第i个单词wdi所代表的主题所归属的竞争子市场的编号;且ydi服从参数为θd的多项式分布,第i个单词wdi所代表的主题在编号为ydi的相关主题子市场下服从参数为的多项式分布;
步骤5、基于所述专业生成内容的数据集合,利用每篇专业生成内容中产品名称和文本内容间的关联关系,对第k个竞争子市场下的产品分布σkl、相关主题在第k个竞争子市场下的词分布以及第d篇专业生成内容对竞争子市场的偏好分布θdk进行参数推断;
步骤5.1、利用坍塌式变分贝叶斯推断算法对产品名称和文本内容的生成过程进行后验推断,从而得到如式(8)所示的变分后验推断结果:
式(8)中,表示第j个产品名称tdj所代表的产品在编号为xdj的产品子市场下分配的近似后验概率,/>表示/>的多项式分布的变分参数,/>表示子市场编号为x和y的概率分布,/>表示子市场编号为x和y所对应的参数为θ,σ,/>的后验概率分布,/>表示参数为θ,σ,/>的条件下子市场编号为x和y的联合概率分布,/>表示第i个词wdi在编号为ydi的相关主题子市场下分配的近似后验概率,/>表示/>的多项式分布的变分参数;
步骤5.2、由变分推断确定如式(9)所示的证据下界
式(9)中,表示联合概率密度的后验期望,/>表示信息熵;t1:D表示专业生成内容集合中的所有产品名称,w1:D表示专业生成内容集合中的所有的词;
在变分推断过程中,根据文档偏好分布θ、产品子市场分布σ和主题词分布的边缘似然,得到如式(10)所示的坍塌式变分自由能结果:
步骤5.3、基于专业生成内容的数据集合中的产品名称集合和文本内容,设计采样方法,推断潜在变量σk、和θd的条件后验分布:
步骤5.3.1、利用式(11)所示的贝叶斯法则和共轭先验,得到联合概率分布p(x,y|α,β,γ):
式(11)中,表示所有的产品分配到第k个产品子市场中的数量,且/> 表示第l个产品分配到第k个产品竞争子市场的数量;/>表示所有的词分配到第k个主题子市场中的数量,且/> 表示文本内容中第v个词分配到第k个产品竞争子市场的数量;表示所有的产品分配到第d篇专业生成内容中的数量,且/> 表示第l个产品分配到第d篇专业生成内容中的数量;/>表示所有的词分配到第d篇专业生成内容中的数量,且/> 表示文本内容中第v个词分配到第d篇专业生成内容中的数量;Δ(α)、Δ(β)、Δ(γ)是三个归一化因子,并有:/>其中,Γ表示伽马函数,αk表示α中的第k个向量,βl表示β中的第l个向量,γv表示γ中的第v个向量;
步骤5.3.2、利用中心极限定理,对式(10)和式(11)进行高斯近似,得到如式(12)和式(13)所示的更新公式,并分别用于更新变分参数和/>
式(12)和式(13)中, 表示第d篇专业生成内容中第j个产品名称分配到第k个子市场中的概率,/> 表示第d篇专业生成内容中第i个词分配到第k个子市场中的概率,/>和/>表示除去tdj和wdi外的产品名称或主题词的期望数,/>表示第d篇文档的产品名称中属于第k个竞争子市场的数量;/>表示第d篇文档的词中属于第k个主题子市场的数量;/>表示第l个产品在第k个产品竞争子市场中出现次数的期望;/>表示第i个词在第k个主题子市场中出现次数的期望;/>表示第k个产品竞争子市场中所有产品名称出现的次数的期望,/>表示第k个主题子市场中所有词出现的次数的期望;
步骤5.4、将更新后的变分参数赋值给和/>并返回步骤5.1顺序执行,直至产品分布σkl、词分布/>和偏好分布θdk收敛为止;
步骤5.5、利用式(14)、式(15)、式(16)分别得到收敛后的偏好分布θ′dk、词分布和产品分布σ′kl;从而得到第d篇文档对总的竞争市场的偏好分布θ′d={θ′d1,θ′d2,…,θ′dk,…,θ′dK},同理得到第k个产品竞争子市场下的产品分布σ′k={σ′k1,σ′k2,…,σ′kl,…,σ′kL},相关主题在第k个竞争子市场下的词分布/>
式(14)、式(15)、式(16)中,分别为迭代更新后的/>
步骤6、利用文档主题分布θ′d、竞争子市场下的产品分布σ′k和相关主题下的主题词分布从专业生成内容的数据集合中发现市场竞争结构并抽取产品替代性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995578.5A CN113704404B (zh) | 2021-08-27 | 2021-08-27 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110995578.5A CN113704404B (zh) | 2021-08-27 | 2021-08-27 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113704404A CN113704404A (zh) | 2021-11-26 |
CN113704404B true CN113704404B (zh) | 2024-03-05 |
Family
ID=78655981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110995578.5A Active CN113704404B (zh) | 2021-08-27 | 2021-08-27 | 一种基于专业生成内容的产品替代性信息抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704404B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209962A (zh) * | 2019-06-12 | 2019-09-06 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
CN111090995A (zh) * | 2019-11-15 | 2020-05-01 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN112905740A (zh) * | 2021-02-04 | 2021-06-04 | 合肥工业大学 | 一种竞品层次的主题偏好挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744896B2 (en) * | 2011-06-13 | 2014-06-03 | University Of Southern California | Extracting dimensions of quality from online user-generated content |
-
2021
- 2021-08-27 CN CN202110995578.5A patent/CN113704404B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209962A (zh) * | 2019-06-12 | 2019-09-06 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
CN111090995A (zh) * | 2019-11-15 | 2020-05-01 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN112905740A (zh) * | 2021-02-04 | 2021-06-04 | 合肥工业大学 | 一种竞品层次的主题偏好挖掘方法 |
Non-Patent Citations (2)
Title |
---|
基于情感分类的竞争企业新闻文本主题挖掘;王树义;廖桦涛;吴查科;;数据分析与知识发现;20180325(第03期);全文 * |
面向共现关系和情感分析的品牌竞争优势研究;任金;;图书情报导刊;20190525(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113704404A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Identifying core topics in technology and innovation management studies: A topic model approach | |
Sarstedt et al. | Treating unobserved heterogeneity in PLS-SEM: A multi-method approach | |
Provost et al. | Data Science for Business: What you need to know about data mining and data-analytic thinking | |
Ur-Rahman et al. | Textual data mining for industrial knowledge management and text classification: A business oriented approach | |
Jiang et al. | Capturing helpful reviews from social media for product quality improvement: a multi-class classification approach | |
Bhonde et al. | Sentiment analysis based on dictionary approach | |
CN106919619A (zh) | 一种商品聚类方法、装置及电子设备 | |
Hutchison et al. | Application of latent semantic analysis in AIS academic research | |
Chen et al. | From quality control to TQM, service quality and service sciences: a 30-year review of TQM literature | |
Chiarello et al. | A text mining based map of engineering design: Topics and their trajectories over time | |
Magdum et al. | Mining online reviews and tweets for predicting sales performance and success of movies | |
CN116882414B (zh) | 基于大规模语言模型的评语自动生成方法及相关装置 | |
Rossetti et al. | Forecasting success via early adoptions analysis: A data-driven study | |
Mejia et al. | Assessing the sentiment of social expectations of robotic technologies | |
CN113704404B (zh) | 一种基于专业生成内容的产品替代性信息抽取方法 | |
JP5018313B2 (ja) | 情報構造化装置、情報構造化方法、及びプログラム | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
JP2009053983A (ja) | 情報構造化装置、情報構造化方法、及びプログラム | |
CN103164806A (zh) | 用于从社会内容获得市场情报的方法和设备 | |
Shmueli et al. | The challenge of prediction in information systems research | |
Kalyanakrishnan et al. | On building decision trees from large-scale data in applications of on-line advertising | |
Ostrowski | Semantic filtering in social media for trend modeling | |
Jatain | Performance Optimization of an Enterprise using Data-Driven Strategy | |
Bilgram et al. | Crowdfunding data as a source of innovation | |
Evert et al. | A distributional approach to open questions in market research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |