CN115630644A

CN115630644A - 基于lda主题模型的直播用户弹幕的话题挖掘方法

Info

Publication number: CN115630644A
Application number: CN202211400727.XA
Authority: CN
Inventors: 吴少辉; 王洪珑; 谢晓东
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-20

Abstract

基于LDA主题模型的直播用户弹幕的话题挖掘方法，涉及数据分析技术领域。本发明利用LDA主题模型挖掘直播用户弹幕互动的不同主题分布，包括以下步骤：S1、获取每场直播的弹幕信息，得到原始数据集；S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；S3、根据初始数据集，构建LDA主题模型；S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布，确定主题数，归纳互动内容。本发明的方法可以广泛运用在各种直播弹幕中，了解观众的互动内容与用户兴趣。

Description

基于LDA主题模型的直播用户弹幕的话题挖掘方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种基于LDA主题模型的直播用户弹幕的话题挖掘方法。

背景技术

直播弹幕是指在当前直播购物环境中，消费者通过直播购物平台提供的在线评论发送系统，分享其关于商家、产品或服务的消费感受与观点。随着信息技术和电子商务的飞速发展，越来越多的人观看直播并通过弹幕与主播互动，主播们也通过自身独特的风格来引领互动，最终促进直播效果。直播中观众通过弹幕表达自身观点并与主播互动已成为潮流和趋势，直播电商领域越来越激烈的竞争也让主播们使用各种互动方法、谈论各种话题来吸引观众。而从关系营销的角度来说，观众如何看待直播，是更偏向于和主播进行情感交流还是更偏向于在直播中更高效的完成购买，或是在这两者之间，观众都会探讨什么主题和信息，也不得而知。目前对此问题的研究更多使用实验法和定性的研究方法，无法对大量的文本数据进行深入的研究。且利用自然语言处理弹幕并研究直播效果的文献相对较少，数据采集的样本也偏少，对文本内容的挖掘也不够充分，令主播难以真实快速地了解到观众互动的重点内容，并对观众的互动的兴趣点无法深入探究。

通过自然语言处理和机器学习，针对大量文本数据(直播弹幕)迅速提炼核心内容，提炼主播和观众的互动主题，研究主播和观众的互动内容，迅速挖掘直播中存在的互动内容与观众的话题兴趣点，对实现主播与观众的最佳互动，提升沟通效率和直播的沉浸体验，具有显著意义。除了对直播总体互动情况的一般性分析，针对特定直播、特定观众，特征性信息提取和互动内容分析也同样重要。基于每个主播的具体情况，精细的探究该主播和其观众的互动内容，得到独特主题，把握观众兴趣，也是每个主播所渴望进行的，却难以高效深入探究的问题。

发明内容

本发明为解决现有技术存在的上述问题，提供一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，能够对直播互动内容和效果进行分析评价。

实现上述目的，本发明采取的技术方案如下：

基于LDA主题模型的直播用户弹幕的话题挖掘方法，利用LDA主题模型得到不同主题分布，了解直播用户的互动内容，所述方法包括以下步骤：

S1、获取每场直播的弹幕信息，得到原始数据集；

S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；

S3、根据初始数据集，构建LDA主题模型；

S4、通过LDA主题模型从初始数据集中挖掘出主题高频词和每场直播的主题分布，确定主题数，归纳互动内容。

进一步的是，所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理的具体步骤如下：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

S22、在步骤S21基础上，对原始数据集进行文本分词，得到分词词汇集；

S23、根据停用词表收集停用词，去除分词词汇集中的停用词，得到初始数据集。

进一步的是，所述步骤S3中，构建LDA主题模型的具体步骤如下：

S31、根据初始数据集，确定LDA主题模型的主题数，采用困惑度评价法求得最优主题数K的范围，困惑度计算公式为：

其中，M为直播场次，N_i为第i场直播中出现的词语总数，w_i为构成第i场直播弹幕的词语，p(w_i)表示w_i产生的概率；

为了保证聚类效果，得出主题数K为10以内的所有主题数K的困惑度；并依据手肘法，选择困惑度的拐点作为主题数K上限，以主题数K＝1为下限；

得到主题数K的范围后，选取最小的主题数K＝1，开始构建LDA主题模型；

S32、在先验参数为α和β的狄利克雷分布中，抽样生成每场直播的主题分布θ和所有直播的主题词分布

α具体表示为每场直播在主题上的分布的狄利克雷先验参数；

β具体表示为所有直播的主题词分布的狄利克雷先验参数；

S33、从每场直播的主题分布θ中，抽样生成每场直播的主题Z，LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的，反映了每场直播的独特的主题，组合比例服从多项式分布，表示为：

Z|θ＝Multinomial(θ)

从所有直播的主题词分布

中，抽样生成主题词W，每个主题都是由弹幕中的词语组成的，组合比例也服从多项式分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

P(w_i|z＝s)表示词语w_i属于第s个主题的概率；P(z＝s|i)表示第i场直播中第s个主题的概率，K为主题数；

S34、依据主题数K的范围，在每个主题数K下，重复S32至S33的步骤，构建LDA主题模型。

进一步的是，所述步骤S4中，通过LDA主题模型从初始数据集中挖掘出主题高频词，具体步骤是：

S41、LDA主题模型结果含有每个主题k下的高频词，以及每场直播的主题分布，分析不同主题数K下，每个主题k的前10个高频词，依据关系营销理论对每个主题k进行定义与解释；若某个主题数K中每个主题k都可依据关系营销理论，从情感或产品的角度进行解释和定义，则该主题数K为最佳主题数，选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果，并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。

与现有技术相比，本发明的有益效果是：本发明提出了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，其首先运用LDA模型挖掘直播用户的弹幕，即互动内容，以此为语料库展开分析，并提取出高频特征词。该方法使用的LDA主题模型是一种无监督模型，仅需要弹幕数据作为语料并且指定主题数量，无须标签即可完成训练，易于实现；依据关系营销理论分析相关的结果，本方法能明确主播和观众间的互动模式：交易型互动和关系型互动，弥补了现有基于关系营销的分析方法的不足，可以快速、高效、精确的对两类互动内容展开分析；本发明中，LDA模型能够依据弹幕将以往每场直播匹配到最相关的主题，即在每场直播中的互动模式的概率分布，依据该场直播的效果每位主播可以了解观众的互动偏好，深入理解直播电商与观众社会互动的内在模式，并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础，为直播间的主播提供有效的支撑服务。本发明具有识别速度快、准确率高且易于实现等特点，成功为直播弹幕的语义解析提供了可靠的保障，可广泛用于直播效果分析从而为主播提供建议。本发明的方法解决了现有对于文本分类的方法忽略文本信息的上下文关系的问题，通过将弹幕和每场直播匹配，提高了分类的准确率，也充分考虑到了每场直播的异质性。这种分析方法可以广泛运用在直播的弹幕中，并适用于各类直播。

附图说明

图1为本发明的基于LDA主题模型的直播用户弹幕的话题挖掘方法实施例1的流程框图；

图2为LDA主题模型的简易示意图。

图2中，α和β均为狄利克雷(Dirichlet)先验参数，其中：α具体表示为每场直播(即每篇文档)在主题上的分布的狄利克雷先验参数；β具体表示为所有直播的主题词分布的狄利克雷先验参数；θ表示每场直播的主题分布；

表示所有直播的主题词分布；M表示文档数，即数据中的直播的次数；N表示文档(即一场直播)中的词汇数；Z是指抽样生成每场直播的主题；W表示抽样生成主题词。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施方式一：本实施方式披露了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，利用LDA主题模型得到不同主题分布，了解直播用户的互动内容，所述方法包括以下步骤：

S1、获取每场直播的弹幕信息，得到原始数据集；

S3、根据初始数据集，构建LDA主题模型；

具体实施方式二：本实施方式是对具体实施方式一作出的进一步说明，所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理的具体步骤如下：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

具体实施方式三：本实施方式是对具体实施方式一或二作出的进一步说明，所述步骤S3中，构建LDA主题模型的具体步骤如下：

S31、根据初始数据集，确定LDA主题模型(为现有技术)的主题数，采用困惑度评价法求得最优主题数K的范围(不同主题数K运算得出的困惑度是不同的，困惑度越低，对应K值下的主题模型的泛化能力就越强)，困惑度计算公式为：

S32、在先验参数为α和β的狄利克雷(Dirichlet)分布中，抽样生成每场直播的主题分布θ和所有直播的主题词分布

β具体表示为所有直播的主题词分布的狄利克雷先验参数；

S33、从每场直播的主题分布θ中，抽样生成每场直播的主题Z，LDA主题模型假设每场直播的弹幕都是由不同比例的词语组合组成的，反映了每场直播的独特的主题，组合比例服从多项式(Multinomial)分布，表示为：

Z|θ＝Multinomial(θ)

从所有直播的主题词分布

中，抽样生成主题词W，每个主题都是由弹幕中的词语组成的，组合比例也服从多项式(Multinomial)分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

具体实施方式四：本实施方式是对具体实施方式三作出的进一步说明，所述步骤S4中，通过LDA主题模型从初始数据集中挖掘出主题高频词，具体步骤是：

S41、LDA主题模型结果含有每个主题k下的高频词，以及每场直播的主题分布，分析不同主题数K下，每个主题k的前10个高频词，依据关系营销理论(即从关系和交易的角度)对每个主题k进行定义与解释；若某个主题数K中每个主题k都可依据关系营销理论，从情感(关系)或产品(交易)的角度进行解释和定义，则该主题数K为最佳主题数，选定该主题下的高频词和每场直播的主题分布的结果作为LDA主题模型分析的最终结果，并依据主题的分类及每个主题k下的主题词进行观众的偏好分析。

实施例1：

本实施例披露了一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，该方法采用LDA模型挖掘弹幕评论数据中的主题词并进行分类提取，旨在挖掘消费者互动内容要素，深入理解直播电商与观众社会互动的内在模式，并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础，指导主播在直播中与观众进行更有效的互动。

一、研究数据与方法

1、研究数据

随着移动互联网技术的发展，直播也越来越受到观众的喜爱，观众也在直播中非常积极地与主播互动。本实施例选取了抖音平台上1994位主播举办的117538场直播，获取每场直播的弹幕，探究消费者的互动内容。直播中，较多的直播和服装类相关。

2、研究方法

随着时代科技的发展，直播凭借其便捷性，沉浸性，极大地丰富了观众的生活，观众也越来越依赖直播购物。在消费者观看直播，冲动购买时，与主播的互动和直播间滚动的弹幕也成为决定观看者是否冲动购买的重要刺激。弹幕作为主播与观众的重要沟通载体，既是消费者对主播互动行为的反馈，也反映了此时直播间的氛围，极大的影响了观众的冲动购买。因此，本发明提出一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，通过对实时的弹幕进行数据挖掘，分析该场直播的互动内容，了解观众的兴趣点。具体步骤如下(如图1所示)：

(1)数据预处理：通过设计Python爬虫程序获取抖音的主播和每场直播的相关数据，对初始数据集进行数据预处理，主要包括数据清洗、Jieba分词和去停用词处理。

(2)主题模型分析：采用LDA模型识别在线弹幕语料中潜藏的用户互动模式，挖掘主题及对应高频词，根据要素特点将互动特征进行类别划分，并生成每场直播不同互动模式的概率分布，归纳互动内容。

二、实验与分析

1、数据来源及预处理

通过第三方平台知瓜选取了抖音平台上2021年5月至10月期间的全部带货直播，获取每场直播的弹幕，去除掉弹幕数为0的直播后，累计1994位主播共举办了117538场直播，直播中，较多的直播和服装类相关。

由于观众在直播间中发送弹幕较为随意，因此，获得原始数据后，通常需要进行数据预处理，提高数据的可靠性，具体过程为：

(1)通过Excel筛选掉含有缺失值、弹幕量为0的直播；

(2)通过利用Jieba分词软件包，在Python程序中进行文本分词；

(3)收集停用词库，制作停用词表，并利用Python程序去除停用词；

2、主题模型分析

在直播过程中，不同的主播有不同的互动风格。有的主播会将沟通重点放在产品上，详细的介绍产品的产地，质量等信息，以交易为导向；而有的主播会和观众聊天，卖家将客户视为朋友，和他们进行情感交流，以关系为导向。本发明采用LDA主题模型在线评论进行主题挖掘，通过聚类映射观众的互动内容，得到互动内容的特征词，基于买卖双方关系(即关系营销理论)将互动分为不同的模式，并得到交易导向和关系导向的互动模式在每场直播中的概率分布(即主题分布)。

2.1、确定LDA主题模型最优主题数范围；本发明采用困惑度算法确定最优主题数范围。

困惑度算法

LDA主题模型需要提前设置文本的主题数K，主题数K要最优才能做出合理分类，主题数K偏大会导致部分主题的语义信息不明显，主题数K偏小会导致主题颗粒度过粗。选择合适的主题数K一直是一个开放的问题。本发明采用困惑度算法和LDA主题模型结果中的主题的可解释性，两者结合确定最优主题数，困惑度(Perplexity)表示文档(即每场直播)所属主题的不确定性，它与聚类效果成反比，困惑度越小，主题数越优。计算公式如下：

较小的困惑度表明，经过训练的主题对测试文档中的单词的误读程度较低。同时，除了较小的困惑度代表着统计意义的最佳选择集。

为了保证聚类效果，得出主题数K在10以内的所有主题数K的困惑度；并依据手肘法，选择困惑度的拐点K＝7作为主题数上限，以主题数K＝1为下限。由此得出主题数K范围为1至7。

得到主题数K的范围后，选取最小的主题数K＝1，开始构建LDA主题模型。

2.2、LDA主题模型

本实施例采用LDA主题模型对在线评论进行主题挖掘，这是一种文档主题生成模型，共包含词、主题、文档(即直播)三层结构，具体如图2所示；该模型采用概率推断算法处理文本，建模前不需要人工干预标注初始文档，可识别文档中隐含的主题信息，更好地保留文档内部关系，在文本语义分析、信息检索等方面取得了良好的实践效果。

LDA主题模型生成过程如下：

(1)通过困惑度算法确定LDA模型主题数范围；

(2)在先验参数为α和β的狄利克雷(Dirichlet)分布中，抽样生成每篇文档(即每场直播)的主题分布θ和主题词分布

(3)从主题分布θ中，抽样生成文档(即每场直播)的主题Z。LDA模型假设每场直播的弹幕都是由不同比例的词语组合组成的，反映了一个独特的主题。组合比例服从多项式(Multinomial)分布，表示为：

Z|θ＝Multinomial(θ)

从主题词分布

中，抽样生成主题词W。每个主题都是由弹幕中的词汇组成的，组合比例也服从多项式(Multinomial)分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

P(w_i|z＝k)表示词语w_i属于第k个主题的概率；P(z＝k|i)表示一场直播i中第k个主题的概率，K为主题数。

(4)依据主题数K的范围，在每个主题数K下，重复具体实施方式一中的S32至S33的步骤，构建LDA主题模型。

2.3主题结果分析

除了利用困惑度算法确定主题数选择范围，LDA模型结果的可解释性也非常重要。我们采用Python程序进行LDA中sklearn包进行主题建模。较多的主题数量可能会影响聚类的效果，结合困惑度算法较小点的结果，排除困惑度算法较高的主题数为1的情况后，我们进一步分析了困惑度较为接近的、主题数K在2到7范围内的分类效果。当主题数K定位某一个具体的数值的，遍历其每个主题下的前10个高频词，如果该主题无法定义，则重新选择主题数K。发现在主题数K为2时，不仅困惑度得到了极大的改善，模型也具有极佳的可解释性。由此，将主题数K确定为2。

主题数K＝2下结果的部分示例如表1，列出了每个主题中出现频率最高的20个词汇及其出现的概率，显示了弹幕中两个主题的部分词语分布。在主题1中，主要词是衣服、黑色、颜色、身上、白色等。这些词都是特定于产品或特定于交易的。因此，我们将这种弹幕分布的社会互动称为交易导向型。在此主题下，观众往往关注产品的直观属性，会较多的讨论产品的表面特质，如黑色、颜色、白色等，同时会探讨到观众自己的特征，如身上、身高、后面。而相对而言，物流相关的信息，如运费等也占有一定的重要性。但产品的质量信息，如质量、面料等，观众则关注的相对较少。相比之下，主题2中弹幕的主要词汇包括喜欢、想要、不是、流泪、不能等。结果表明，这一类别的社会互动是非交易性的，更倾向于是朋友之间的情感交流，关系在这一主题中起着重要作用。表明在直播中，观众也会较多的表示出对事物或者主播的偏好情绪。在关系营销理论中，关系导向的买家与卖家之间的沟通更倾向于像朋友之间的交流，而不是仅仅聚焦于产品或交易。以此，主题2中的情感词比例较高，将主题2中弹幕分布的社会互动归类为直播中的关系导向型社会互动。

表1

在此基础上，得到了不同主题在每场直播中的分布，即不同互动模式在每场直播中的概率占比。部分示例如表2，主播可以了解到每场直播的主题分布，了解到不同场次直播的风格与氛围。并为进一步地探索不同模式下的社会互动对于主播直播业绩的影响打好基础，即根据每位主播自身的往期直播效果，根据每个主题对应概率分布(即主题分布)，探寻最适合自己的互动方式，以及自己粉丝的独特互动偏好与兴趣点。

表2

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：利用LDA主题模型得到不同主题分布，了解直播用户的互动内容，所述方法包括以下步骤：

S1、获取每场直播的弹幕信息，得到原始数据集；

S3、根据初始数据集，构建LDA主题模型；

2.根据权利要求1所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理的具体步骤如下：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

3.根据权利要求1或2所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：所述步骤S3中，构建LDA主题模型的具体步骤如下：

β具体表示为所有直播的主题词分布的狄利克雷先验参数；

Z|θ＝Multinomial(θ)

从所有直播的主题词分布

其中，第i场直播中计算词语w_i概率分布的计算公式为：

4.根据权利要求3所述的基于LDA主题模型的直播用户弹幕的话题挖掘方法，其特征在于：所述步骤S4中，通过LDA主题模型从初始数据集中挖掘出主题高频词，具体步骤是：