CN115630644A - 基于lda主题模型的直播用户弹幕的话题挖掘方法 - Google Patents

基于lda主题模型的直播用户弹幕的话题挖掘方法 Download PDF

Info

Publication number
CN115630644A
CN115630644A CN202211400727.XA CN202211400727A CN115630644A CN 115630644 A CN115630644 A CN 115630644A CN 202211400727 A CN202211400727 A CN 202211400727A CN 115630644 A CN115630644 A CN 115630644A
Authority
CN
China
Prior art keywords
topic
live broadcast
lda
theme
live
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211400727.XA
Other languages
English (en)
Inventor
吴少辉
王洪珑
谢晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211400727.XA priority Critical patent/CN115630644A/zh
Publication of CN115630644A publication Critical patent/CN115630644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于LDA主题模型的直播用户弹幕的话题挖掘方法,涉及数据分析技术领域。本发明利用LDA主题模型挖掘直播用户弹幕互动的不同主题分布,包括以下步骤:S1、获取每场直播的弹幕信息,得到原始数据集;S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;S3、根据初始数据集,构建LDA主题模型;S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。本发明的方法可以广泛运用在各种直播弹幕中,了解观众的互动内容与用户兴趣。

Description

基于LDA主题模型的直播用户弹幕的话题挖掘方法
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于LDA主题模型的直播用户弹幕的话题挖掘方法。
背景技术
直播弹幕是指在当前直播购物环境中,消费者通过直播购物平台提供的在线评论发送系统,分享其关于商家、产品或服务的消费感受与观点。随着信息技术和电子商务的飞速发展,越来越多的人观看直播并通过弹幕与主播互动,主播们也通过自身独特的风格来引领互动,最终促进直播效果。直播中观众通过弹幕表达自身观点并与主播互动已成为潮流和趋势,直播电商领域越来越激烈的竞争也让主播们使用各种互动方法、谈论各种话题来吸引观众。而从关系营销的角度来说,观众如何看待直播,是更偏向于和主播进行情感交流还是更偏向于在直播中更高效的完成购买,或是在这两者之间,观众都会探讨什么主题和信息,也不得而知。目前对此问题的研究更多使用实验法和定性的研究方法,无法对大量的文本数据进行深入的研究。且利用自然语言处理弹幕并研究直播效果的文献相对较少,数据采集的样本也偏少,对文本内容的挖掘也不够充分,令主播难以真实快速地了解到观众互动的重点内容,并对观众的互动的兴趣点无法深入探究。
通过自然语言处理和机器学习,针对大量文本数据(直播弹幕)迅速提炼核心内容,提炼主播和观众的互动主题,研究主播和观众的互动内容,迅速挖掘直播中存在的互动内容与观众的话题兴趣点,对实现主播与观众的最佳互动,提升沟通效率和直播的沉浸体验,具有显著意义。除了对直播总体互动情况的一般性分析,针对特定直播、特定观众,特征性信息提取和互动内容分析也同样重要。基于每个主播的具体情况,精细的探究该主播和其观众的互动内容,得到独特主题,把握观众兴趣,也是每个主播所渴望进行的,却难以高效深入探究的问题。
发明内容
本发明为解决现有技术存在的上述问题,提供一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,能够对直播互动内容和效果进行分析评价。
实现上述目的,本发明采取的技术方案如下:
基于LDA主题模型的直播用户弹幕的话题挖掘方法,利用LDA主题模型得到不同主题分布,了解直播用户的互动内容,所述方法包括以下步骤:
S1、获取每场直播的弹幕信息,得到原始数据集;
S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。
进一步的是,所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理的具体步骤如下:
S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
进一步的是,所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型的主题数,采用困惑度评价法求得最优主题数K的范围,困惑度计算公式为:
Figure BDA0003934817270000021
其中,M为直播场次,Ni为第i场直播中出现的词语总数,wi为构成第i场直播弹幕的词语,p(wi)表示wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为主题数K上限,以主题数K=1为下限;
得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型;
S32、在先验参数为α和β的狄利克雷分布中,抽样生成每场直播的主题分布θ和所有直播的主题词分布
Figure BDA0003934817270000022
α具体表示为每场直播在主题上的分布的狄利克雷先验参数;
β具体表示为所有直播的主题词分布的狄利克雷先验参数;
S33、从每场直播的主题分布θ中,抽样生成每场直播的主题Z,LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的,反映了每场直播的独特的主题,组合比例服从多项式分布,表示为:
Z|θ=Multinomial(θ)
从所有直播的主题词分布
Figure BDA0003934817270000023
中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:
Figure BDA0003934817270000031
其中,第i场直播中计算词语wi概率分布的计算公式为:
Figure BDA0003934817270000032
P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i场直播中第s个主题的概率,K为主题数;
S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型。
进一步的是,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词,以及每场直播的主题分布,分析不同主题数K下,每个主题k的前10个高频词,依据关系营销理论对每个主题k进行定义与解释;若某个主题数K中每个主题k都可依据关系营销理论,从情感或产品的角度进行解释和定义,则该主题数K为最佳主题数,选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果,并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。
与现有技术相比,本发明的有益效果是:本发明提出了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,其首先运用LDA模型挖掘直播用户的弹幕,即互动内容,以此为语料库展开分析,并提取出高频特征词。该方法使用的LDA主题模型是一种无监督模型,仅需要弹幕数据作为语料并且指定主题数量,无须标签即可完成训练,易于实现;依据关系营销理论分析相关的结果,本方法能明确主播和观众间的互动模式:交易型互动和关系型互动,弥补了现有基于关系营销的分析方法的不足,可以快速、高效、精确的对两类互动内容展开分析;本发明中,LDA模型能够依据弹幕将以往每场直播匹配到最相关的主题,即在每场直播中的互动模式的概率分布,依据该场直播的效果每位主播可以了解观众的互动偏好,深入理解直播电商与观众社会互动的内在模式,并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础,为直播间的主播提供有效的支撑服务。本发明具有识别速度快、准确率高且易于实现等特点,成功为直播弹幕的语义解析提供了可靠的保障,可广泛用于直播效果分析从而为主播提供建议。本发明的方法解决了现有对于文本分类的方法忽略文本信息的上下文关系的问题,通过将弹幕和每场直播匹配,提高了分类的准确率,也充分考虑到了每场直播的异质性。这种分析方法可以广泛运用在直播的弹幕中,并适用于各类直播。
附图说明
图1为本发明的基于LDA主题模型的直播用户弹幕的话题挖掘方法实施例1的流程框图;
图2为LDA主题模型的简易示意图。
图2中,α和β均为狄利克雷(Dirichlet)先验参数,其中:α具体表示为每场直播(即每篇文档)在主题上的分布的狄利克雷先验参数;β具体表示为所有直播的主题词分布的狄利克雷先验参数;θ表示每场直播的主题分布;
Figure BDA0003934817270000041
表示所有直播的主题词分布;M表示文档数,即数据中的直播的次数;N表示文档(即一场直播)中的词汇数;Z是指抽样生成每场直播的主题;W表示抽样生成主题词。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施方式一:本实施方式披露了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,利用LDA主题模型得到不同主题分布,了解直播用户的互动内容,所述方法包括以下步骤:
S1、获取每场直播的弹幕信息,得到原始数据集;
S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。
具体实施方式二:本实施方式是对具体实施方式一作出的进一步说明,所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理的具体步骤如下:
S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
具体实施方式三:本实施方式是对具体实施方式一或二作出的进一步说明,所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型(为现有技术)的主题数,采用困惑度评价法求得最优主题数K的范围(不同主题数K运算得出的困惑度是不同的,困惑度越低,对应K值下的主题模型的泛化能力就越强),困惑度计算公式为:
Figure BDA0003934817270000051
其中,M为直播场次,Ni为第i场直播中出现的词语总数,wi为构成第i场直播弹幕的词语,p(wi)表示wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为主题数K上限,以主题数K=1为下限;
得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型;
S32、在先验参数为α和β的狄利克雷(Dirichlet)分布中,抽样生成每场直播的主题分布θ和所有直播的主题词分布
Figure BDA0003934817270000052
α具体表示为每场直播在主题上的分布的狄利克雷先验参数;
β具体表示为所有直播的主题词分布的狄利克雷先验参数;
S33、从每场直播的主题分布θ中,抽样生成每场直播的主题Z,LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的,反映了每场直播的独特的主题,组合比例服从多项式(Multinomial)分布,表示为:
Z|θ=Multinomial(θ)
从所有直播的主题词分布
Figure BDA0003934817270000053
中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式(Multinomial)分布,表示为:
Figure BDA0003934817270000054
其中,第i场直播中计算词语wi概率分布的计算公式为:
Figure BDA0003934817270000055
P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i场直播中第s个主题的概率,K为主题数;
S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型。
具体实施方式四:本实施方式是对具体实施方式三作出的进一步说明,所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词,以及每场直播的主题分布,分析不同主题数K下,每个主题k的前10个高频词,依据关系营销理论(即从关系和交易的角度)对每个主题k进行定义与解释;若某个主题数K中每个主题k都可依据关系营销理论,从情感(关系)或产品(交易)的角度进行解释和定义,则该主题数K为最佳主题数,选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果,并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。
实施例1:
本实施例披露了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,该方法采用LDA模型挖掘弹幕评论数据中的主题词并进行分类提取,旨在挖掘消费者互动内容要素,深入理解直播电商与观众社会互动的内在模式,并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础,指导主播在直播中与观众进行更有效的互动。
一、研究数据与方法
1、研究数据
随着移动互联网技术的发展,直播也越来越受到观众的喜爱,观众也在直播中非常积极地与主播互动。本实施例选取了抖音平台上1994位主播举办的117538场直播,获取每场直播的弹幕,探究消费者的互动内容。直播中,较多的直播和服装类相关。
2、研究方法
随着时代科技的发展,直播凭借其便捷性,沉浸性,极大地丰富了观众的生活,观众也越来越依赖直播购物。在消费者观看直播,冲动购买时,与主播的互动和直播间滚动的弹幕也成为决定观看者是否冲动购买的重要刺激。弹幕作为主播与观众的重要沟通载体,既是消费者对主播互动行为的反馈,也反映了此时直播间的氛围,极大的影响了观众的冲动购买。因此,本发明提出一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,通过对实时的弹幕进行数据挖掘,分析该场直播的互动内容,了解观众的兴趣点。具体步骤如下(如图1所示):
(1)数据预处理:通过设计Python爬虫程序获取抖音的主播和每场直播的相关数据,对初始数据集进行数据预处理,主要包括数据清洗、Jieba分词和去停用词处理。
(2)主题模型分析:采用LDA模型识别在线弹幕语料中潜藏的用户互动模式,挖掘主题及对应高频词,根据要素特点将互动特征进行类别划分,并生成每场直播不同互动模式的概率分布,归纳互动内容。
二、实验与分析
1、数据来源及预处理
通过第三方平台知瓜选取了抖音平台上2021年5月至10月期间的全部带货直播,获取每场直播的弹幕,去除掉弹幕数为0的直播后,累计1994位主播共举办了117538场直播,直播中,较多的直播和服装类相关。
由于观众在直播间中发送弹幕较为随意,因此,获得原始数据后,通常需要进行数据预处理,提高数据的可靠性,具体过程为:
(1)通过Excel筛选掉含有缺失值、弹幕量为0的直播;
(2)通过利用Jieba分词软件包,在Python程序中进行文本分词;
(3)收集停用词库,制作停用词表,并利用Python程序去除停用词;
2、主题模型分析
在直播过程中,不同的主播有不同的互动风格。有的主播会将沟通重点放在产品上,详细的介绍产品的产地,质量等信息,以交易为导向;而有的主播会和观众聊天,卖家将客户视为朋友,和他们进行情感交流,以关系为导向。本发明采用LDA主题模型在线评论进行主题挖掘,通过聚类映射观众的互动内容,得到互动内容的特征词,基于买卖双方关系(即关系营销理论)将互动分为不同的模式,并得到交易导向和关系导向的互动模式在每场直播中的概率分布(即主题分布)。
2.1、确定LDA主题模型最优主题数范围;本发明采用困惑度算法确定最优主题数范围。
困惑度算法
LDA主题模型需要提前设置文本的主题数K,主题数K要最优才能做出合理分类,主题数K偏大会导致部分主题的语义信息不明显,主题数K偏小会导致主题颗粒度过粗。选择合适的主题数K一直是一个开放的问题。本发明采用困惑度算法和LDA主题模型结果中的主题的可解释性,两者结合确定最优主题数,困惑度(Perplexity)表示文档(即每场直播)所属主题的不确定性,它与聚类效果成反比,困惑度越小,主题数越优。计算公式如下:
Figure BDA0003934817270000071
其中,M为直播场次,Ni为第i场直播中出现的词语总数,wi为构成第i场直播弹幕的词语,p(wi)表示wi产生的概率;
较小的困惑度表明,经过训练的主题对测试文档中的单词的误读程度较低。同时,除了较小的困惑度代表着统计意义的最佳选择集。
为了保证聚类效果,得出主题数K在10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点K=7作为主题数上限,以主题数K=1为下限。由此得出主题数K范围为1至7。
得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型。
2.2、LDA主题模型
本实施例采用LDA主题模型对在线评论进行主题挖掘,这是一种文档主题生成模型,共包含词、主题、文档(即直播)三层结构,具体如图2所示;该模型采用概率推断算法处理文本,建模前不需要人工干预标注初始文档,可识别文档中隐含的主题信息,更好地保留文档内部关系,在文本语义分析、信息检索等方面取得了良好的实践效果。
LDA主题模型生成过程如下:
(1)通过困惑度算法确定LDA模型主题数范围;
(2)在先验参数为α和β的狄利克雷(Dirichlet)分布中,抽样生成每篇文档(即每场直播)的主题分布θ和主题词分布
Figure BDA0003934817270000081
(3)从主题分布θ中,抽样生成文档(即每场直播)的主题Z。LDA模型假设每场直播的弹幕都是由不同比例的词语组合组成的,反映了一个独特的主题。组合比例服从多项式(Multinomial)分布,表示为:
Z|θ=Multinomial(θ)
从主题词分布
Figure BDA0003934817270000084
中,抽样生成主题词W。每个主题都是由弹幕中的词汇组成的,组合比例也服从多项式(Multinomial)分布,表示为:
Figure BDA0003934817270000082
其中,第i场直播中计算词语wi概率分布的计算公式为:
Figure BDA0003934817270000083
P(wi|z=k)表示词语wi属于第k个主题的概率;P(z=k|i)表示一场直播i中第k个主题的概率,K为主题数。
(4)依据主题数K的范围,在每个主题数K下,重复具体实施方式一中的S32至S33的步骤,构建LDA主题模型。
2.3主题结果分析
除了利用困惑度算法确定主题数选择范围,LDA模型结果的可解释性也非常重要。我们采用Python程序进行LDA中sklearn包进行主题建模。较多的主题数量可能会影响聚类的效果,结合困惑度算法较小点的结果,排除困惑度算法较高的主题数为1的情况后,我们进一步分析了困惑度较为接近的、主题数K在2到7范围内的分类效果。当主题数K定位某一个具体的数值的,遍历其每个主题下的前10个高频词,如果该主题无法定义,则重新选择主题数K。发现在主题数K为2时,不仅困惑度得到了极大的改善,模型也具有极佳的可解释性。由此,将主题数K确定为2。
主题数K=2下结果的部分示例如表1,列出了每个主题中出现频率最高的20个词汇及其出现的概率,显示了弹幕中两个主题的部分词语分布。在主题1中,主要词是衣服、黑色、颜色、身上、白色等。这些词都是特定于产品或特定于交易的。因此,我们将这种弹幕分布的社会互动称为交易导向型。在此主题下,观众往往关注产品的直观属性,会较多的讨论产品的表面特质,如黑色、颜色、白色等,同时会探讨到观众自己的特征,如身上、身高、后面。而相对而言,物流相关的信息,如运费等也占有一定的重要性。但产品的质量信息,如质量、面料等,观众则关注的相对较少。相比之下,主题2中弹幕的主要词汇包括喜欢、想要、不是、流泪、不能等。结果表明,这一类别的社会互动是非交易性的,更倾向于是朋友之间的情感交流,关系在这一主题中起着重要作用。表明在直播中,观众也会较多的表示出对事物或者主播的偏好情绪。在关系营销理论中,关系导向的买家与卖家之间的沟通更倾向于像朋友之间的交流,而不是仅仅聚焦于产品或交易。以此,主题2中的情感词比例较高,将主题2中弹幕分布的社会互动归类为直播中的关系导向型社会互动。
表1
Figure BDA0003934817270000091
Figure BDA0003934817270000101
在此基础上,得到了不同主题在每场直播中的分布,即不同互动模式在每场直播中的概率占比。部分示例如表2,主播可以了解到每场直播的主题分布,了解到不同场次直播的风格与氛围。并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础,即根据每位主播自身的往期直播效果,根据每个主题对应概率分布(即主题分布),探寻最适合自己的互动方式,以及自己粉丝的独特互动偏好与兴趣点。
表2
Figure BDA0003934817270000102
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:利用LDA主题模型得到不同主题分布,了解直播用户的互动内容,所述方法包括以下步骤:
S1、获取每场直播的弹幕信息,得到原始数据集;
S2、对原始数据集中的弹幕文本进行数据预处理,得到初始数据集;
S3、根据初始数据集,构建LDA主题模型;
S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布,确定主题数,归纳互动内容。
2.根据权利要求1所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:所述步骤S2中,对原始数据集中的弹幕文本进行数据预处理的具体步骤如下:
S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播;
S22、在步骤S21基础上,对原始数据集进行文本分词,得到分词词汇集;
S23、根据停用词表收集停用词,去除分词词汇集中的停用词,得到初始数据集。
3.根据权利要求1或2所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:所述步骤S3中,构建LDA主题模型的具体步骤如下:
S31、根据初始数据集,确定LDA主题模型的主题数,采用困惑度评价法求得最优主题数K的范围,困惑度计算公式为:
Figure FDA0003934817260000011
其中,M为直播场次,Ni为第i场直播中出现的词语总数,wi为构成第i场直播弹幕的词语,p(wi)表示wi产生的概率;
为了保证聚类效果,得出主题数K为10以内的所有主题数K的困惑度;并依据手肘法,选择困惑度的拐点作为主题数K上限,以主题数K=1为下限;
得到主题数K的范围后,选取最小的主题数K=1,开始构建LDA主题模型;
S32、在先验参数为α和β的狄利克雷分布中,抽样生成每场直播的主题分布θ和所有直播的主题词分布
Figure FDA0003934817260000012
α具体表示为每场直播在主题上的分布的狄利克雷先验参数;
β具体表示为所有直播的主题词分布的狄利克雷先验参数;
S33、从每场直播的主题分布θ中,抽样生成每场直播的主题Z,LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的,反映了每场直播的独特的主题,组合比例服从多项式分布,表示为:
Z|θ=Multinomial(θ)
从所有直播的主题词分布
Figure FDA0003934817260000021
中,抽样生成主题词W,每个主题都是由弹幕中的词语组成的,组合比例也服从多项式分布,表示为:
Figure FDA0003934817260000022
其中,第i场直播中计算词语wi概率分布的计算公式为:
Figure FDA0003934817260000023
P(wi|z=s)表示词语wi属于第s个主题的概率;P(z=s|i)表示第i场直播中第s个主题的概率,K为主题数;
S34、依据主题数K的范围,在每个主题数K下,重复S32至S33的步骤,构建LDA主题模型。
4.根据权利要求3所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法,其特征在于:所述步骤S4中,通过LDA主题模型从初始数据集中挖掘出主题高频词,具体步骤是:
S41、LDA主题模型结果含有每个主题k下的高频词,以及每场直播的主题分布,分析不同主题数K下,每个主题k的前10个高频词,依据关系营销理论对每个主题k进行定义与解释;若某个主题数K中每个主题k都可依据关系营销理论,从情感或产品的角度进行解释和定义,则该主题数K为最佳主题数,选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果,并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。
CN202211400727.XA 2022-11-09 2022-11-09 基于lda主题模型的直播用户弹幕的话题挖掘方法 Pending CN115630644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211400727.XA CN115630644A (zh) 2022-11-09 2022-11-09 基于lda主题模型的直播用户弹幕的话题挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211400727.XA CN115630644A (zh) 2022-11-09 2022-11-09 基于lda主题模型的直播用户弹幕的话题挖掘方法

Publications (1)

Publication Number Publication Date
CN115630644A true CN115630644A (zh) 2023-01-20

Family

ID=84907671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211400727.XA Pending CN115630644A (zh) 2022-11-09 2022-11-09 基于lda主题模型的直播用户弹幕的话题挖掘方法

Country Status (1)

Country Link
CN (1) CN115630644A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127074A (zh) * 2023-02-23 2023-05-16 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法
CN116303893A (zh) * 2023-02-23 2023-06-23 哈尔滨工业大学 基于lda主题模型的主播形象分类与关键特质分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法
WO2019051777A1 (zh) * 2017-09-15 2019-03-21 深圳传音通讯有限公司 一种基于智能终端的提醒方法和提醒系统
KR20220105792A (ko) * 2021-01-21 2022-07-28 인하대학교 산학협력단 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960042A (zh) * 2017-03-29 2017-07-18 中国科学技术大学苏州研究院 基于弹幕语义分析的网络直播监督方法
WO2019051777A1 (zh) * 2017-09-15 2019-03-21 深圳传音通讯有限公司 一种基于智能终端的提醒方法和提醒系统
KR20220105792A (ko) * 2021-01-21 2022-07-28 인하대학교 산학협력단 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
萧勋灿等: "B站优质线上教育视频播放量影响因子的多维度分析", 新媒体研究, vol. 8, no. 15, pages 38 - 41 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127074A (zh) * 2023-02-23 2023-05-16 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法
CN116303893A (zh) * 2023-02-23 2023-06-23 哈尔滨工业大学 基于lda主题模型的主播形象分类与关键特质分析方法
CN116303893B (zh) * 2023-02-23 2024-01-30 哈尔滨工业大学 基于lda主题模型的主播形象分类与关键特质分析方法
CN116127074B (zh) * 2023-02-23 2024-03-01 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法

Similar Documents

Publication Publication Date Title
Wu et al. Ai-generated content (aigc): A survey
Wu et al. OpinionSeer: interactive visualization of hotel customer feedback
CN107515873B (zh) 一种垃圾信息识别方法及设备
US20180249193A1 (en) Method and apparatus for generating video data using textual data
US7822701B2 (en) Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
CN115630644A (zh) 基于lda主题模型的直播用户弹幕的话题挖掘方法
WO2021190174A1 (zh) 信息确定方法、装置、计算机设备及存储介质
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN107861972A (zh) 一种用户录入商品信息后显示商品全结果的方法及设备
CN109783539A (zh) 用户挖掘及其模型构建方法、装置及计算机设备
CN115619041B (zh) 基于lda主题模型与固定效应模型的直播效果的预测方法
CN114372414B (zh) 多模态模型构建方法、装置和计算机设备
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
Cao et al. Online reviews sentiment analysis and product feature improvement with deep learning
He et al. Research on the influencing factors of film consumption and box office forecast in the digital era: based on the perspective of machine learning and model integration
Du et al. Research on application of artificial intelligence in movie industry
Liu et al. Ai-empowered persuasive video generation: A survey
Jing et al. Layout generation for various scenarios in mobile shopping applications
Gupta et al. Machine learning enabled models for YouTube ranking mechanism and views prediction
WO2024061073A1 (zh) 一种多媒体信息的生成方法及装置、计算机可读存储介质
CN116010711A (zh) 一种融合用户信息及兴趣变化的kgcn模型电影推荐方法
CN116205687A (zh) 基于多源数据融合的智能推荐方法
Yang et al. A novel customer-oriented recommendation system for paid knowledge products
CN115269771A (zh) 一种基于语义的大数据分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230120