CN115619041B

CN115619041B - 基于lda主题模型与固定效应模型的直播效果的预测方法

Info

Publication number: CN115619041B
Application number: CN202211400723.1A
Authority: CN
Inventors: 吴少辉; 王洪珑; 谢晓东; 李国鑫
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-11-21
Anticipated expiration: 2042-11-09
Also published as: CN115619041A

Abstract

基于LDA主题模型与固定效应模型的直播效果的预测方法，属于数据分析技术领域。方法是：获取主播和每场直播的信息，得到原始数据集；对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；根据初始数据集，构建LDA主题模型，并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题概率分布；依据每场直播互动模式的概率分布及其二次项，并分别加入直播时长、粉丝数量、该场直播的访问量及直播效果构建固定效应模型，从而探究多个自变量对直播效果的影响关系，并得到固定效应模型系数和残差项；根据二次项固定效应模型系数，探求该主播群体固定效应模型的极值点，探究针对直播的最佳互动模式。本发明用于直播效果的预测、分析与提升。

Description

基于LDA主题模型与固定效应模型的直播效果的预测方法

技术领域

本发明属于数据分析技术领域，具体涉及一种基于LDA主题模型与固定效应模型的直播效果的预测方法。

背景技术

直播能更好的呈现商品，并让观众与主播能够实时互动，极大的促进观众的冲动消费。作为当下的重要网络购物购买渠道，主播新增数量也十分的巨大，导致的主播市场竞争加剧。每位主播和品牌方也都采取各种措施来提升自己直播间的销售量。同时，由于观众在直播间的购物往往属于冲动购买，学界关于直播的属性以及冲动购买影响因素的研究也取得了较为丰富的成果。然而，关于影响直播销售量的研究还有较大的增长空间，目前的研究更多使用实验法和问卷法，利用自然语言处理和计量经济模型来进行直播效果分析的文献相对较少，且数据采集的样本偏少，对文本内容的挖掘也不够充分，令主播难以真实了解到互动风格等多种要素对销售量的影响，平台方和品牌方也难以较好的预测主播的带货效果。而且，基于关系营销，关系型互动(聚焦于情感)和交易型(聚焦于产品和信息)互动在直播带货场景下的重要性并没有得到全面的探讨，较少有学者能从实证数据的角度来进行全面完整的分析和探索，因此，有必要研究一种可以将直播的多方因素纳入考虑，尤其将直播间的互动内容和其他多方要素同时纳入考量，构建对直播效果进行预测的模型，来探究对直播带货效果造成影响的要素的全面分析。同时，每位主播也有自己的独特情况和粉丝偏好，依据自身的直播互动特征、风格定位、粉丝偏好等往期情况，基于数据构建属于自己的直播带货影响因素模型也同样重要。依据分析模型结果，对自身带货的情况和风格做出调整，以达到最佳的直播效果。但此类模型目前并未在直播场景下，依据直播的特性进行充分的研究构建。

发明内容

本发明为解决现有技术存在的上述问题，提供一种基于LDA主题模型与固定效应模型的直播效果的预测方法。

实现上述目的，本发明采取的技术方案如下：

基于LDA主题模型与固定效应模型的直播效果的预测方法，利用LDA主题模型得到不同主题分布，利用固定效应模型探究直播的多种因素对直播销量的影响，并得出主播的最佳互动模式，所述方法包括以下步骤：

S1、获取主播和每场直播的信息，得到原始数据集；

S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；

S3、根据初始数据集，构建LDA主题模型，并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题分布，即每场直播互动模式的概率分布；

S4、依据每场直播互动模式的概率分布及其二次项，并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型，从而探究多个自变量对直播效果的影响关系，并得到二次项固定效应模型系数和残差项；

S5、根据二次项固定效应模型系数，探求该主播群体固定效应模型的极值点，探究针对直播的最佳互动模式。

进一步的是，所述步骤S1中，获取主播和每场直播的信息，包括弹幕和销量信息。

进一步的是，所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理，得到初始数据集的具体步骤如下：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

S22、在步骤S21基础上，对原始数据集进行文本分词，得到分词词汇集；

S23、根据停用词表收集停用词，去除分词词汇集中的停用词，得到初始数据集。

进一步的是，所述步骤S3中，构建LDA主题模型的具体步骤如下：

S31、根据初始数据集，确定LDA主题模型的主题数范围，为了保证合理的聚类效果，保证结果的解释度，将主题数范围定为K＝2至K＝10；

S32、在先验参数为α和β的狄利克雷分布中，抽样生成的每篇文档的主题分布θ和所有直播的主题词分布每篇文档也即每场直播；

α具体表示为每场直播中的主题分布的先验参数，每场直播的主题分布θ服从参数α的狄利克雷分布；

β具体表示为每个主题中的词分布的先验参数，所有直播的主题词分布服从参数β的狄利克雷分布；

S33、从主题分布θ中，抽样生成直播主题Z，LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的，反映了每场直播的一个独特的主题，组合比例服从多项式分布，表示为：

Z|θ＝Multinomial(θ) (1)

从所有直播的主题词分布中，抽样生成主题词W，每个主题都是由弹幕中的词语组成的，组合比例也服从多项式分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

P(w_i|z＝k)表示词语w_i属于第k个主题的概率；P(z＝k|i)表示一场直播i中第k个主题的概率，K为主题数；

S34、依据主题数K的范围，在每个主题数K下，重复S32至S33的步骤，构建LDA主题模型，并得到相应主题数K下不同主题k的主题词和每场直播的主题分布；

S35、计算主题强度；主题强度是指LDA主题模型构建后的每个主题k在语料库中占的相对分量，计算结果能够反映直播观众对某些领域的重视程度，主题强度高代表该领域为互动的重点内容；

主题强度计算公式为：

其中：P_k代表第k个主题的强度，能够体现主题的宏观均值；N表示直播的个数；θ_ki表示第k个主题在第i场直播中的概率；

S36、根据主题强度的计算结果，以及主题的可解释性，确定最终主题数K及对应结果。

进一步的是，所述步骤S4中构建固定效应模型的具体步骤如下：

S41、依据关系营销理论和LDA主题模型分析得出的关于每场直播不同互动类型的概率分布，直播的互动内容分为情感型和交易型，同时两类互动在主题分析结果中存在共线性关系，将其中关系导向互动的概率分布作为自变量纳入固定效应模型中，进而全面探讨两类互动对直播效果的影响；

S42、除了关系导向互动的概率分布作为自变量纳入固定效应模型，也将直播时长、粉丝数量、该场直播的访问量作为自变量纳入固定效应模型，主播的固定效应和时间效应作为控制变量纳入固定效应模型分析；时间效应考虑以下两个部分，第一部分为该场直播是在星期几，构建虚拟变量进而作为控制变量纳入分析；第二部分依据直播是在上午、下午还是晚上，构建虚拟变量进而作为控制变量纳入分析；

S43、基于步骤S42提到的所有变量，构建固定效应模型：

y_ie＝g_ie·Topic_kie+X_ie+c_e+d_i+ε_ie (5)

其中：因变量y_ie表示在一场直播i中主播e经过log转换的直播效果；自变量Topic_kie表示属于主播e在直播i中的主题k的概率分布，即每场直播中关系导向互动的概率；g_ie为固定效应模型中Topic_kie的系数；变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量的变量、以及对应主播e的粉丝数量的变量；

S44、基于S43中的固定效应模型和主播e在每场直播中i对应的变量的实际数据，计算固定效应模型系数和残差项，得出主播e的特征以及其在直播i的特征对直播效果的影响；

S45、由于不同互动类型可能会对直播效果产生非线性影响，进一步添加自变量Topic_kie的二次项，表示属于主播e在直播i中的主题k的概率分布的二次项，以探究互动模式和对应直播效果j_ie的非曲线关系；在二次项固定效应中，q_ie为自变量系数；r_ie为二次项固定效应模型中自变量Topic_kie的系数，变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量的变量、以及对应主播e的粉丝数量的变量；二次项固定效应模型如下：

以探讨社会互动对观众购买的曲线效应，并依据实际数据计算新的二次项固定效应模型的系数和残差项。

进一步的是，步骤S5的具体步骤如下：

S51、依据步骤S45中的二次项固定效应模型系数q_ie和r_ie，具体探究主播群体的最佳互动类型的比例，即模型的极值点，得出对于该主播群体的最佳互动模式，从而使直播的效果达到最大化；

最佳互动模式的计算公式如下：

其中，topic_ie为主播e在直播i中的关系型互动的最佳比例，q_ie为步骤S45中的二次项固定效应模型中自变量的系数，r_ie为二次项固定效应模型中自变量Topic_kie的系数。

与现有技术相比，本发明的有益效果是：本发明提出了一种基于LDA主题模型与固定效应模型的直播效果的预测方法。其首先运用LDA模型挖掘直播用户的互动内容，并提取出高频(频率前五)的主题词，以及在每场直播中的主题概率分布，将其作为变量纳入固定效应模型，分析不同互动模式下的带货效果，并探究直播节目持续时间、累计流量和直播节目中主播的关注者数量对直播效果影响，基于此得出主播与观众的最佳互动模式。本发明的预测方法在直播带货领域，将关系营销的相关理论纳入考虑，探究两种不同的互动模式对销量的影响。同时，基于直播场景下，主播以及其直播间的特点，将互动模式，粉丝量，直播时间，主播的特质，访问量，直播时长等要素全面的纳入考量，构建固定效应模型，探究对直播直播效果的影响关系，使得品牌方和主播能完整的了解影响因素的权重，并针对可以改进的地方来做出努力。其次，本发明的预测方法可以根据每个主播或者某类主播的独特特征进行考量，依据特定主播的数据构建属于特定主播(或主播群体)自己的固定效应模型，指导其达到销量最大化的最佳方式。最后也极为重要的，本发明的预测方法中的LDA主题模型也可以大量分析弹幕文本数据，对直播间的互动内容进行全面的、高效的、准确率高的且易于实现的挖掘和分析。

附图说明

图1为本发明的预测方法的流程框图；

图2为LDA主题模型的简易示意图；

图3为实施例1中主题数为2的LDA结果可视化图一；PC1为横轴，PC2为纵轴，不同的圆代表不同的主题。通过两维度分析，以主题间距离来衡量主题间相似性；

图4为实施例1中主题数为2的LDA结果可视化图二；PC1为横轴，PC2为纵轴，不同的圆代表不同的主题，通过两维度分析，以主题间距离来衡量主题间相似性。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体实施方式一：本实施方式披露了一种基于LDA主题模型与固定效应模型的直播效果的预测方法，利用LDA主题模型得到不同主题分布，利用固定效应模型探究直播的多种因素(如主播的互动模式，粉丝量等)对直播销量的影响，并得出主播的最佳互动模式，所述方法包括以下步骤：

S1、获取主播和每场直播的信息，得到原始数据集；

S4、依据每场直播互动模式的概率分布及其二次项，并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型(固定效应包括主播的固定效应和时间效应)，从而探究多个自变量对直播效果的影响关系，并得到二次项固定效应模型系数和残差项；

具体实施方式二：本实施方式是对具体实施方式一作出的进一步说明，所述步骤S1中，获取主播和每场直播的信息，包括弹幕和销量信息。

具体实施方式三：本实施方式是对具体实施方式一或二作出的进一步说明，所述步骤S2中，对原始数据集中的弹幕文本进行数据预处理，得到初始数据集的具体步骤如下：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

具体实施方式四：本实施方式是对具体实施方式一作出的进一步说明，所述步骤S3中，构建LDA主题模型的具体步骤如下：

S32、在先验参数为α和β的狄利克雷(Dirichlet)分布中，抽样生成的每篇文档的主题分布θ和所有直播的主题词分布每篇文档也即每场直播；

α具体表示为每场直播中的主题分布的先验参数，每场直播的主题分布θ服从参数α的狄利克雷(Dirichlet)分布；

β具体表示为每个主题中的词分布的先验参数，所有直播的主题词分布服从参数β的狄利克雷(Dirichlet)分布；

S33、从主题分布θ中，抽样生成直播主题Z，LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的，反映了每场直播的一个独特的主题，组合比例服从多项式(Multinomial)分布，表示为：

Z|θ＝Multinomial(θ) (1)

从所有直播的主题词分布中，抽样生成主题词W，每个主题都是由弹幕中的词语组成的，组合比例也服从多项式(Multinomial)分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

主题强度计算公式为：

使用可视化工具(如pyLDA-Vis)对比2-10主题数K下的结果及主题强度；主题数K选择的参考标准如下：

1.主题内容差距大；即在可视化图中不同主题对应的圆并无重叠；

2.主题强度差距小；即不会出现主题强度为1％以下的圆；

3.每个主题可以得到很好的解释；依据关系营销理论(即从买卖双方关系和交易的角度)对每个主题k进行定义与解释，每个主题k的前5个高频词(即频率较高的主题词)如果属于情感(关系)方面的词，则该主题即可定义为情感型互动；若某主题k前5个高频词(即频率较高的主题词)属于产品(交易)类别的词，则该主题即可定义为交易型互动。

依据以上原则，从主题数K＝2开始，到主题数K＝10的范围中，确定主题数。选定该主题数中主题k下的主题词和每场直播不同互动类型的概率分布(即主题分布)结果作为LDA主题模型分析的最终结果，同时，依据主题词将主题k定义为社交型互动或情感型互动。

具体实施方式五：本实施方式是对具体实施方式一作出的进一步说明，所述步骤S4中构建固定效应模型的具体步骤如下：

S41、依据关系营销理论和LDA主题模型分析得出的关于每场直播不同互动类型的概率分布(主题分布)，直播的互动内容分为情感型和交易型，同时两类互动在主题分析结果中存在共线性关系(两类互动下，不同主题k的分布概率累加为1)，将其中关系导向互动的概率分布作为自变量纳入固定效应模型中，进而全面探讨两类互动对直播效果的影响；

S43、基于步骤S42提到的所有变量，构建固定效应模型：

y_ie＝gie·Topic_kie+X_ie+c_e+d_i+ε_ie (5)

其中：因变量y_ie表示在一场直播i中主播e经过log转换的直播效果(如观众总购买金额，GMV，点赞数等)；自变量Topic_kie表示属于主播e在直播i中的主题(互动类型)k的概率分布，即每场直播中关系导向互动的概率；g_ie为固定效应模型中Topic_kie的系数；变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量的变量、以及对应主播e的粉丝数量的变量；

S44、基于S43中的固定效应模型和主播e在每场直播中i对应的变量的实际数据，计算固定效应模型系数和残差项，得出主播e的特征(包括粉丝数量)以及其在直播i的特征(访问量、互动模式等)对直播效果的影响；

S45、由于不同互动类型可能会对直播效果产生非线性影响，进一步添加自变量Topic_kie的二次项，表示属于主播e在直播i中的主题(互动类型)k的概率分布的二次项，以探究互动模式和对应直播效果j_ie的非曲线关系；在二次项固定效应中，q_ie为自变量系数；r_ie为二次项固定效应模型中自变量Topic_kie的系数，变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量的变量、以及对应主播e的粉丝数量的变量；二次项固定效应模型如下：

具体实施方式六：本实施方式是对具体实施方式五作出的进一步说明，步骤S5的具体步骤如下：

S51、依据步骤S45中的二次项固定效应模型系数q_ie和r_ie，具体探究主播群体的最佳互动类型的比例，即模型的极值点，得出对于该主播群体的最佳互动模式，从而使直播的效果(如购买量、点赞数等)达到最大化；

最佳互动模式的计算公式如下：

其中，topic_ie为主播e在直播i中的关系型互动的最佳比例(即最佳互动模式)，q_ie为步骤S45中的二次项固定效应模型中自变量的系数(即关系型互动二次项的系数)，r_ie为二次项固定效应模型中自变量Topic_kie的系数(即关系型互动的系数)。

实施例1：

本实施例披露了一种基于LDA主题模型与固定效应模型的直播效果的预测方法，其采用LDA主题模型挖掘弹幕评论数据中的主题词并进行分类提取，最后通过固定效应模型分析直播不同影响因素的影响关系，旨在更好的预测直播效果，探究多种直播相关因素对直播效果的影响，指导主播在直播中与观众进行更有效的互动。

一、研究数据与方法

1、研究数据

随着移动互联网技术的发展，直播也越来越受到观众的喜爱，观众也在直播中非常积极地与主播互动。本发明选取了抖音平台上1994位主播举办的117538场直播，获取主播相关信息(性别，粉丝数)和每场直播的信息(包括弹幕，GMV，访问量，直播时长等)，探究消费者的互动内容，以及对不同类型的互动对直播销量的影响。

2、研究方法

随着时代科技的发展，直播凭借其便捷性，沉浸性，极大地丰富了观众的生活，观众也越来越依赖直播购物。在消费者观看直播，冲动购买时，与主播的互动和直播间滚动的弹幕也成为决定观看者是否冲动购买的重要刺激。弹幕作为主播与观众的重要沟通载体，既是消费者对主播互动行为的反馈，也反映了此时直播间的氛围，极大的影响了观众的冲动购买。因此，本发明提出一种基于LDA主题模型与固定效应模型的直播效果(如带货量，销售量，礼物数，点赞)的预测方法，通过对实时的弹幕进行数据挖掘，分析该场直播的互动方式并利用固定效应模型探究直播的多种因素对销售额的影响，同时针对不同主播探究其最佳的互动模式。如图1所示，本发明的方法包括以下步骤：

(1)数据来源；获取主播和每场直播的信息(包括弹幕和销量信息)，得到原始数据集；

(2)数据预处理；通过设计Python爬虫程序获取抖音的主播和每场直播的相关数据，对初始数据集进行数据预处理，主要包括数据清洗、Jieba分词和去停用词处理。

(3)主题模型分析；采用LDA主题模型识别在线弹幕语料中潜藏的用户互动模式，挖掘主题及对应主题词，根据要素特点将互动特征进行类别划分，并生成每场直播不同互动模式的主题分布。

(4)固定效应模型分析：依据每场直播的互动模式的概率分布及其二次项，并将直播时长、粉丝数量、该场直播的访问量纳入分析，将主播的固定效应和时间效应进行控制，构建固定效应模型，该模型因变量直播效果以直播总销量(GMV)为例探究影响关系，通过分析得到固定效应模型的系数和残差项；以抖音带货主播为例，探究该群体的模型系数，得出自变量主题概率分布的最佳取值比例，探究对于抖音主播的最佳互动模式。

二、实验与分析

1、数据来源及预处理

通过第三方平台知瓜选取了抖音平台上2021年5月至10月期间的全部带货直播，获取主播相关信息(性别，粉丝数)和每场直播的信息(包括弹幕，GMV，访问量，直播时长等)，去除掉销售额为0，弹幕数为0的直播后，累计1994位主播共举办了117538场直播，本实施例以此类抖音主播群体的实际直播数据进行分析。

由于观众在直播间中发送弹幕较为随意，因此，获得原始数据后，通常需要进行数据预处理，提高数据的可靠性，具体过程为：

(1)、通过Excel筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

(2)、通过利用Jieba分词软件包，在Python程序中进行文本分词；

(3)、收集停用词库，制作停用词表，并利用Python程序去除停用词；

2、主题模型分析

在直播过程中，不同的主播有不同的互动风格。有的主播会将沟通重点放在产品上，详细的介绍产品的产地，质量等信息，以交易为导向；而有的主播会和观众聊天，卖家将客户视为朋友，和他们进行情感交流，以关系为导向。本发明采用LDA主题模型对在线评论进行主题挖掘，通过聚类映射观众的互动内容，得到互动内容的主题词，并基于买卖双方关系将互动分为不同的模式，得到交易导向和关系导向的互动模式在每场直播中的概率分布(即主题分布)。

2.1、利用LDA主题模型对主题进行挖掘

LDA主题模型

本发明采用LDA主题模型对在线评论进行主题挖掘，这是一种文档主题生成模型，共包含词、主题、文档(即直播)三层结构，具体如图2所示；该模型采用概率推断算法处理文本，建模前不需要人工干预标注初始文档，可识别文档中隐含的主题信息，更好地保留文档内部关系，在文本语义分析、信息检索等方面取得了良好的实践效果。

图2中，α和β均为狄利克雷(Dirichlet)先验参数；

其中：

α具体表示为每场直播中的主题分布的先验参数；

β具体表示为每个主题中的词分布的先验参数；

θ表示为生成的每篇文档(即每场直播)的主题分布；

φ表示所有直播的主题词分布；

Z是指抽样生成文档(即每场直播)的主题；

W表示生成主题词；

M表示文档数，即数据中的直播的总次数；

N表示文档(即一场直播)中的词汇数；

LDA主题模型生成过程如下：

(1)确定LDA主题模型的主题数范围。为了保证合理的聚类效果，保证结果的解释度，分别获取主题k＝2到主题k＝10的结果。

(2)在先验参数为α和β的狄利克雷(Dirichlet)分布中，抽样生成每篇文档的主题分布θ和主题词分布φ；

(3)从主题分布θ中，抽样生成每场直播的主题Z。LDA主题模型假设每场直播的弹幕都是由不同社会互动类型的比例组合组成的，反映了每场直播的一个独特的主题。组合比率服从多项式(Multinomial)分布，表示为：

Z|θ＝Multinomial(θ) (1)

(4)从主题词分布φ中，抽样生成主题词W。每个话题都是由弹幕中的词汇组成的，组合比例也服从多项式(Multinomial)分布，表示为：

其中，第i场直播中计算词语w_i概率分布的计算公式为：

计算主题强度；主题强度是指LDA主题模型构建后的每个主题k在语料库中占的相对分量，计算结果能够反映直播观众对某些领域的重视程度，主题强度高代表该领域为互动的重点内容；

主题强度计算公式为：

在公式(4)中：P_k代表第k个主题的强度，能够体现主题的宏观均值；N表示直播的个数；θ_ki表示第k个主题在第i场直播中的概率；

主题数确定

LDA主题模型需要提前设置文本的主题数，主题数要最优才能做出合理分类，主题数偏大会导致部分主题的语义信息不明显，主题数偏小会导致主题颗粒度过粗。选择合适的主题数一直是一个开放的问题。本发明采用主题间的区别度和结果的可解释性(基于关系营销理论)，两者结合确定最优主题数量，通过可视化工具pyLDA-Vis确定LDA主题模型的主题数。

4.为了保证合理的聚类效果，分别获取主题k＝2到主题k＝10的结果，并使用可视化工具pyLDA-Vis对比结果。选取主题内容差距大(即在可视化图中不同主题对应的圆并无重叠)、主题强度差距小(即不会出现主题强度为1％以下的圆)、每个主题可以得到很好的解释下的主题数，主题解释方面，依据关系营销理论(即从买卖双方关系和交易的角度)对每个主题k进行定义与解释。每个主题k的前5个高频词(即频率较高的主题词)如果属于情感(关系)方面的词，则该主题即可定义为关系型互动；若某主题k前5个高频词(即频率较高的主题词)属于产品(交易)类别的词，则该主题即可定义为交易型互动。

本发明采用Python程序进行LDA主题模型中sklearn包进行主题建模，用pyLDA-Vis可视化工具呈现结果，并对比了主题数量2到10范围内的分类效果，发现在主题数为2时，主题间差距较大，主题内高频词也可以最好的解释该主题。如图3和图4所示，圆形大小表示主题的强度，即出现的频率。各圆形圆心之间的距离远近表示主题之间的接近度(即相似度)。由图3和图4可知，主题数K＝2时主题间差异极大，同时主题内的高频词能很好地描述该主题的内容，而主题间的强度差异也较小。

主题分析结果

主题数K＝2下结果的部分示例如表1，显示了弹幕中两个主题的词语分布。在主题1中，主要词是衣服、黑色、颜色、身上、白色等。这些词都是特定于产品或特定于交易的。因此，依据前五个高频的主题词我们将这种弹幕分布的社会互动称为交易导向型。相比之下，主题2中弹幕的主要词汇包括喜欢、想要、不是、流泪、不能等。结果表明，这一类别的社会互动是非交易性的，更倾向于是观众和主播之间的情感交流，关系在这一主题中起着重要作用。在关系营销理论中，关系导向与交易导向的购买相比，其客户更将卖家视为朋友，而不仅仅是卖家。根据关系营销理论，主题2中的情感词比例较高，依据前五个高频的主题词我们将主题2中弹幕分布的社会互动归类为直播中的关系导向型社会互动。

在此基础上，我们得到了不同主题在每场直播中的分布，即不同互动模式在每场直播中的概率占比。

表1

3、固定效应模型分析

依据每场直播的互动模式的概率分布及其二次项，并将直播时长、粉丝数量、该场直播的访问量作为自变量，将主播的固定效应和时间效应进行控制，构建固定效应模型，探究影响关系，计算得到固定效应模型的系数和残差项。研究发现，直播中情感导向的互动模式会比交易导向的互动模式带来更大的商品销量，即直播的效果更好。直播时长、粉丝数量、该场直播的访问量也会对销量产生显著的影响。同时探究了不同互动模式与销量的非线性关系。根据此类直播群体的数据，主播的最佳互动占比应为0.6417，即主播应引导大约65％以关系为导向的社会互动，以实现最大观众购买量。

3.1构建模型

依据LDA主题模型分析得出的关于每场直播不同互动类型的概率分布，将其中关系导向的互动的概率分布作为自变量纳入固定效应模型。

将直播时长、粉丝数量、该场直播的访问量(累计访问量)作为自变量，主播的固定效应和时间效应作为控制变量，时间效应包括该场直播位于在星期几(位于周的时间)，构建虚拟变量；第二部分依据直播是在上午、下午还是晚上(所在日的时间)，构建虚拟变量。

根据该场直播是在星期几，以周六为参照构建虚拟变量；

根据该场直播是在上午、下午还是晚上，以上午为参照构建虚拟变量；

根据该场直播的主播者，构建虚拟变量；

基于以上的变量，构建固定效应模型：

y_ie＝g_ie·Topic_kie+X_ie+c_e+d_i+ε_ie (5)

3.2计算模型系数和残差项

本实施例中，使用python软件运行上述固定效应模型，得到输出结果如表2所示。可以看出，在直播时长、粉丝数量、累计访问量分别作为自变量进行分析后，关系导向的互动(关系-导向)在模型1和模型2中，都会对观众购买量产生显著的影响。对于模型1而言，将关系导向的主题分布、直播时长、粉丝数量、个体固定效应、时间固定效应纳入分析，构建模型。结果发现，与交易导向的社会互动策略相比，广播公司采用这种关系导向的社会互动策略可以提高25.36％的销售额。在模型2中，将关系导向的主题分布、直播时长、粉丝数量、累计访问量、个体固定效应、时间固定效应纳入分析，构建模型。结果发现，关系导向的互动策略结果依旧是稳健的。我们发现，模型2中面向的交互系数为0.2902，表明在将观众流量纳入分析后，与直播中交易导向的社会互动相比，面向关系导向的交互策略仍然可以显著增加观众购买量。同时，互动方式，直播时长，粉丝数量，累计访问量等将显著影响带货量30％的变化，其中，粉丝数量是影响最大的因素。同时，模型1和模型2的R²都为0.30左右，表示我们的所有自变量可以解释因变量(此处为log-GMV)30％左右的变化。

表2

注：因变量是log-GMV.p用来衡量模型系数的显著性水平:*p<0.1,**p<0.05,***p<0.01，为了简洁起见，省略了残差项系数。

为了充分理解社会互动对观众购买的影响，并为主播确定明确的社会互动营销策略，本实施例中，我们通过在固定效应模型中引入关系-导向的二次项，进一步检验社会互动的曲线影响。

自变量Topic_kie的二次项表示属于主播e在直播i中的主题(关系型互动)k的概率分布的二次项，以探究互动模式和对应直播效果j_ie的非曲线关系，q_ie为自变量系数；r_ie为二次项固定效应模型中自变量Topic_kie的系数。新加入二次项的固定效应模型如下：

如表3所示，模型3中，将关系导向的主题分布及其二次方、直播时长、粉丝数量、个体固定效应、时间固定效应纳入分析，构建模型。结果发现，关系-导向和关系-导向的平方的估计值分别为1.0464和-0.8865。这一结果表明，关系导向的社会互动与观众购买之间存在倒U关系。换句话说，随着关系导向的增加，观众的购买量最初会增加。在某一点上，购买金额将开始减少。模型4中，将关系导向的主题分布及其二次方、直播时长、粉丝数量、观众累计访问量、个体固定效应、时间固定效应纳入分析，构建模型。结果发现，关系-导向和关系-导向的平方的系数分别为1.2269和-1.0461，证明关系导向型社会互动和观众购买的倒U模式的稳健性。同时，互动方式，直播时长，粉丝数量，累计访问量等依旧将显著影响带货量30％的变化，其中，粉丝数量是影响最大的因素。

表3

依据二次项固定效应模型，具体探究主播群体的最佳互动类型的比例(即模型的极值点)，得出对于该主播群体的最佳互动模式，从而使直播的效果达到最大化。

最佳互动模式的计算公式如下：

其中，topic_ie为主播e在直播i中的关系型互动的最佳比例(即最佳互动模式)，q_ie为步骤S45中的二次项固定效应模型中的系数(即关系型互动二次项的系数)，r_ie为二次项固定效应模型中自变量Topic_kie的系数(即关系型互动的系数)。

根据此类直播群体的实际数据，此类主播群体的最佳关系型互动占比应为0.6417，即主播应引导大约65％以关系为导向的社会互动，以实现最大观众购买量。

Claims

1.一种基于LDA主题模型与固定效应模型的直播效果的预测方法，其特征在于：利用LDA主题模型得到不同主题分布，利用固定效应模型探究直播的多种因素对直播销量的影响，并得出主播的最佳互动模式，所述方法包括以下步骤：

S1、获取主播和每场直播的信息，包括弹幕和销量信息，得到原始数据集；

S2、对原始数据集中的弹幕文本进行数据预处理，得到初始数据集；其具体步骤为：

S21、筛选掉含有缺失值、销售量为0、弹幕量为0的直播；

S23、根据停用词表收集停用词，去除分词词汇集中的停用词，得到初始数据集；

S3、根据初始数据集，构建LDA主题模型，并通过LDA主题模型从初始数据集中挖掘出主题词和每场直播的主题分布，即每场直播互动模式的概率分布；所述构建LDA主题模型的具体步骤如下：

Z|θ＝Multinomial(θ) (1)

其中，第i场直播中计算词语w_i概率分布的计算公式为：

主题强度计算公式为：

S36、根据主题强度的计算结果，以及主题的可解释性，确定最终主题数K及对应结果；

S4、依据每场直播互动模式的概率分布及其二次项，并分别加入直播时长、粉丝数量、该场直播的访问量及该场直播的效果构建固定效应模型，从而探究多个自变量对直播效果的影响关系，并得到二次项固定效应模型系数和残差项；所述构建固定效应模型的具体步骤如下：

S43、基于步骤S42提到的所有变量，构建固定效应模型：

y_ie＝g_ie·Topic_kie+X_ie+c_e+d_i+ε_ie (5)

其中：因变量y_ie表示在一场直播i中主播e经过log转换的直播效果；自变量Topic_kie表示属于主播e在直播i中的主题k的概率分布，即每场直播中关系导向互动的概率；

g_ie为固定效应模型中Topic_kie的系数；变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量、以及对应主播e的粉丝数量的变量；

S44、基于S43中的固定效应模型和主播e在每场直播i中对应的变量的实际数据，计算固定效应模型系数和残差项，得出主播e的特征以及其在直播i的特征对直播效果的影响；

S45、由于不同互动类型会对直播效果产生非线性影响，进一步添加自变量Topic_kie的二次项，表示属于主播e在直播i中的主题k的概率分布的二次项，以探究互动模式和对应直播效果j_ie的非曲线关系；在二次项固定效应中，q_ie为自变量系数；r_ie为二次项固定效应模型中自变量Topic_kie的系数，变量c_e表示主播e的固定效应以及时间效应；d_i表示该场直播i位于星期几和一天中所处的时间；ε_ie表示标准误差；X_ie表示为一个包含了该场直播i的直播时长、该场直播i的访问量、以及对应主播e的粉丝数量的变量；二次项固定效应模型如下：

以探讨社会互动对观众购买的曲线效应，并依据实际数据计算新的二次项固定效应模型的系数和残差项；

S5、根据二次项固定效应模型系数，探求主播群体固定效应模型的极值点，探究针对直播的最佳互动模式；其具体步骤为：

最佳互动模式的计算公式如下：