CN113379447B

CN113379447B - 一种电视剧单日收视率的预测方法

Info

Publication number: CN113379447B
Application number: CN202110590869.6A
Authority: CN
Inventors: 孙利军
Original assignee: Xi'an Film & Television Data Evaluation Center Co ltd
Current assignee: Xi'an Film & Television Data Evaluation Center Co ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-05-31
Anticipated expiration: 2041-05-28
Also published as: CN113379447A

Abstract

本发明公开一种电视剧单日收视率的预测方法，包括如下步骤：获取目标电视剧相关的基本结构化信息和社交平台舆情数据；对电视剧的基本结构化信息进行预处理，生成电视剧的结构化训练数据；利用自然语言处理技术对社交平台舆情数据进行处理，获得电视剧的舆情语料训练数据；利用社交网络分析技术对基本结构化信息中的演职员列表建立社交网络，并基于社交网络确定电视剧中各演职员的社交网络重要度；基于电视剧的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据，利用GBM算法构建回归预测模型；利用回归预测模型对目标电视剧进行预测，获得目标电视剧的单日收视率。本发明可以提高电视剧的单日收视率预测准确度。

Description

一种电视剧单日收视率的预测方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种电视剧单日收视率的预测方法。

背景技术

电视剧作为一种特殊的商业产品，出品方在其上映之前就展开了密集的宣传工作，在其上映后同样需要根据具体情况进行口碑营销，各类播放平台如电视台、视频网站等也希望在电视剧开播前预测其收视水平，以实现价值评估的目的，因此，对于电视剧的收视率进行精准预测具有较强的现实意义。由于电视剧项目涉及制作团队的商业和艺术水平、大众心理、趋势热点等因素，是一项复杂的系统工程，一直以来缺乏对电视剧收视率预测的有效方法。

目前业内的普遍做法的是基于目标电视剧的同类型其他电视剧或主创团队其他作品的市场表现、同期电视剧市场热度、观众期待市场调查等因素，由行业专家凭借经验给出大致的收视率区间，这种做法考虑因素较少，且更依赖于专家的个人经验和主观判断，导致判断结果不够精确，无法更好的进行电视剧的舆情预测或营销推广等应用。

发明内容

为了解决上述技术问题，本发明提出一种电视剧单日收视率的预测方法。

为了达到上述目的，本发明的技术方案如下：

一种电视剧单日收视率的预测方法，包括如下步骤：

获取目标电视剧相关的基本结构化信息和社交平台舆情数据；

对电视剧的基本结构化信息进行预处理，生成电视剧的结构化训练数据；利用自然语言处理技术对社交平台舆情数据进行处理，获得电视剧的舆情语料训练数据；

利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络，并基于社交网络确定电视剧中各演职员的社交网络重要度；

基于电视剧的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据，利用GBM算法构建回归预测模型；

利用回归预测模型对目标电视剧进行预测，获得目标电视剧的单日收视率。

优选地，还包括如下步骤：通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据。

优选地，所述基本结构化信息包括播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表和电视剧在特定平台的单日收视率等。

优选地，所述预处理为对基本结构化信息中的数值型特征进行标准化处理，对因子型特征进行规范化并生成哑变量矩阵。

优选地，所述利用自然语言处理技术对社交平台舆情数据进行处理，获得电视剧的舆情语料训练数据，具体包括如下步骤：

对获取的社交平台舆情数据进行初步清洗；

对初步清洗后数据信息进行新词发现以及确定；

利用分词工具对确定的新词进行分词处理并去除无意义项，获得分词结果；

在所得分词结果中统计电视剧中演职员提及数、好评差评比、单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数等数据，作为舆情语料训练数据。

优选地，所述新词发现以及确定，包括如下步骤：

基于预设的候选词的长度上限，根据长度上限从初步清洗后数据信息中穷举所有可能的新词组合，构成待考察的候选词集合；

统计集合中所有候选词的词频；

计算集合中所有候选词的互信息度；

以互信息度大于0为条件在候选词集合中做筛选，并对筛选结果按左右侧邻字信息熵降序排列，取排其头部预设数量的候选词作为新词。

优选地，利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络，并基于社交网络确定电视剧中各演职员的社交网络重要度，具体包括如下步骤：

提取训练数据中所有开播日期早于预设日期的所有电视剧中所有演职员构成，以演职员为节点，演职员之间的合作关系为边，构建以两个节点所有合作电视剧收视率之和为权重的无向社交网络；

计算无向社交网络中所有节点的特征向量中心性，以节点的特征向量中心性作为在无向社交网络中的重要度表示；

提取电视剧中演职员在无向社交网络中的社交网络重要度。

优选地，还包括如下步骤：利用GBM算法进行建模过程中，采用十折交叉验证。

优选地，还包括如下步骤：性能测试中，使用均方根误差和拟合优度两种指标作为性能指标，对回归预测模型进行验证。

基于上述技术方案，本发明的有益效果是：本发明基于电视剧的基础结构化信息，结合了反映电视剧宣发工作成效的舆情数据，并利用电视剧的演职员列表和历史收视率衍生出了如加权社交网络重要度的新特征属性，进而构建了机器学习模型，对电视剧在开播前预测其单日收视率数据。舆情数据直接反映了市场对目标电视剧的期待与认知水平，而使用历史收视率作为权重的演职员加权社交网络重要度则从内在体现了电视剧制作团队的业务水平，特别是采用了特征向量中心性这一指标作为重要度的度量，能够挖掘并非“明星”的重要角色成员在项目中所起到的作用。正因为以上优点，该方法对于电视剧的单日收视率预测效果较好。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1：本发明一种电视剧单日收视率的预测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，本发明的一种电视剧单日收视率的预测方法，包括如下步骤：

1.通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据作为训练数据，训练数据具体包括：

1-1电视剧的基本结构化信息如播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表、电视剧在特定平台的单日收视率；

1-2电视剧上映前14天的相关的网络舆情如舆情语料内容、发布时间、发布者唯一id；

2.对电视剧相关的基本结构化信息进行预处理，生成电视剧的结构化训练数据，具体包括如下步骤：

2-1统计训练数据中电视剧类型的占比，保留前90％的类型，其余类型统一转换为“other”类型，生成电视剧类型哑变量矩阵，记作d_genre(假设保留类型有a、b、c、d、other五类，某电视剧类型涉及a和b两类，则其对应a和b属性的值为1，对应c、d和other的值为0，代表该电视剧类型的向量即为(1,1,0,0,0)，对所有训练数据都进行此类转换并将所有向量按行合并，即得到哑变量矩阵，如下表所示)；

2-2按步骤2-1的方法得到电视剧制片国家哑变量矩阵d_country、播放平台哑变量矩阵d_station和语言的哑变量矩阵d_lang；

2-3从所有训练数据的播放日期中提取上映的年份、月份、季度、周数、星期数、农历月份，将这些新的时间特征统一记作f_date；

2-4从所有训练数据的演职员列表中提取各电视剧开播前导演和演员的个人平均历史收视率，将新的个人收视率特征统一记作f_rating；

2-5从所有训练数据的制片公司列表中提取各电视剧对应的制片公司数量，记作f_company；

2-6从所有训练数据的IMDB号特征中提取各电视剧是否有IMDB号，1代表有，0代表没有，记作f_imdb；

2-7从所有训练数据的官方网站特征中提取各电视剧是否有官方网站，1代表有，0代表没有，记作f_homepage；

2-8从所有训练数据的预告片列表中提取各电视剧对应的预告片数量，记作f_trailer；

3.利用自然语言处理技术对社交平台舆情数据进行处理，获得电视剧的舆情语料训练数据，具体包括如下步骤：

3-1对原始舆情语料进行初步清洗，去除包括http链接、话题标识、特殊符号等项；

3-2使用经步骤3-1处理后的语料进行新词发现，该环节对于后续的文本处理和指标提取有重要作用，特别是对于电视剧舆情中可能含有较多电视剧相关专有名词以及演职员姓名的场景，新词发现过程能够有效提高文本分词质量，尽可能避免错分、漏分的问题。新词发现的过程包括有：

a.确定发现新词的长度上限，根据长度上限从语料中穷举所有可能的新词组合，构成待考察的候选词集合S，如“abc”三个字符的可能组合为a、b、c、ab、bc和abc；

b.统计集合S中所有候选词的词频，候选词“ab”的词频记作P_ab；

c.计算集合S中所有候选词的互信息度PMI，候选词“ab”PMI的计算方法是：候选词“abc”的PMI则是/>和/>中的较大者，即候选词的PMI是该词词频与其所有子候选词词频乘积的比值的对数，取其中最大值，写作公式：

其中w[1:i]表示候选词w的第1至第i位子候选词，n为候选词w的长度；

d.计算集合S中所有候选词的左右邻字信息熵，候选词w的左邻字信息熵的计算方法是统计其在语料中所有左侧邻字，形成临时集合S_left，计算集合S_left的信息熵，计算公式：

其中p_i表示S_left中第i个不重复字在S_left中的计数占比，同理可得w的右邻字信息熵，取两者的较小者作为w的左右邻字信息熵；

e.以PMI值大于0为条件在候选词集合中做筛选，并对筛选结果按左右邻字信息熵降序排列，取其头部一定数量如前200个词语，这些词语可以看作是从舆情语料中新发现的固定词语组合即新词；

3-3结合步骤3-2中所得新词，利用分词工具对步骤3-1所得语料进行分词处理，并去除停止词等无意义项；

3-4基于电视剧的基本结构化信息，在步骤3-3所得分词结果中统计该电视剧演职员词条出现频次，作为演职员提及数；

3-5基于情感词典，对步骤3-3所得分词结果进行文本情感分析，得到训练数据中各电视剧对应舆情语料的好评数量与差评数量的比值，其中好评语料是预测为情感正向类型的语料，差评语料是预测为情感负向类型的语料；

3-6对原始舆情语料中的单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数进行统计；

3-7将步骤3-4、3-5和3-6得到的关于舆情语料的所有特征统一记作f_opinion；

4.利用社交网络分析技术对基本结构化信息中的演职员列表进行处理，基于演职员合作关系建立社交网络，并基于社交网络确定电视剧中各演职员的社交网络重要度，具体包括如下步骤：

4-1统计训练数据中所有不重复的开播日期t_i，为开播日期t_i构建该时刻演职员社交网络G_i，具体方法是在训练数据中筛选所有开播日期早于t_i的电视剧，以这些电视剧的所有演职员为节点，以合作关系为边(两个演职员共同参与过同一部电视剧则认为存在边关系)，以两个节点所有合作电视剧收视率之和为权重构建无向社交网络G_i；

4-2计算G_i中所有节点的特征向量中心性，加权网络节点的特征向量中心性的计算方法是：

其中x_v和x_t分别为节点v和t的特征向量中心性值，c为常数，M(v)为节点v的相邻节点集合，w_v,t为节点v和t之间边的权重，经过多次迭代后各节点的中心性值将达到稳态，以节点的特征向量中心性作为节点在网络中重要度的表示，对于有相同连接数的节点，相邻节点特征向量中心性值更高的节点的得分也更高，特征向量得分较高意味着该节点与许多自身得分较高的节点相连接；

4-3针对训练数据中所有样本，根据其开播日期选择对应的社交网络G_i，并根据其演职员列表获取其在G_i中的社交网络重要度，分别按导演和演员计算各自平均社交网络重要度，统一记作f_eigen；

5.基于步骤1至4得到的电视剧类型哑变量矩阵d_genre、制片国家哑变量矩阵d_country、播放平台哑变量矩阵d_station、语言哑变量矩阵d_lang、时间特征f_date，个人收视率特征f_rating，制片公司数量特征f_company，是否存在IMDB号特征f_imdb，是否存在官网特征f_homepage，预告片数量特征f_trailer，舆情特征f_opinion，社交网络重要度特征f_eigen，以及未处理的电视剧集数和单集时长，将这些特征属性按列合并形成新的训练数据Data_all，并基于此数据搭建回归预测模型，利用GBM算法构建回归预测模型，具体包括如下步骤：

5-1通过随机采样将Data_all拆分成训练数据Data_train和测试数据Data_test，分别占比75％和25％；

5-2对Data_train的各特征中的数值型数据的缺失值采用中位数x_median填补、对因子型数据的缺失值采用众数x_mode填补；

5-3对Data_train的各特征的值进行统计，删除最高占比超过95％的特征；

5-4对Data_train的各特征的相关系数进行计算，对于相关系数超过0.9的特征，随机保留其中一个特征，删除其他特征；

5-5对Data_train的各特征的多重共线性进行计算，删除具有多重共线性的特征；

5-6对Data_train中的数值型特征做标准化处理，对特征x的处理方法为：

其中μ表示特征x所有取值的均值，σ表示特征x所有取值的标准差；

5-7基于步骤5-1至5-6对Data_train的数据预处理，使用十折交叉验证的GBM算法建模同时进行参数搜索，将经过数据预处理的Data_train随机分成十份，每次利用其中九份进行建立模型Model_i，使用剩余一份作为测试集对Model_i进行测试，获得指标Metric_i，因此针对任一参数组合其对应的模型性能是十次建模并测试得到的指标均值，完成所有参数组合的建模与测试，选取性能指标最好的参数组合，记作Param_best，在实践中所得最佳参数组合为代表树的深度的interaction_depth＝9，代表树的数目的n_trees＝700，代表学习速率的shrinkage＝0.1，代表最小叶节点的n_minobsinnode＝5；

5-8在步骤5-7中进行的模型性能测试中，使用均方根误差RMSE和拟合优度R²作为性能指标，RMSE的计算方法是：

其中pred代表模型的预测值，obs代表实际观测值，拟合优度R²的计算方法是：

其中为实际观测值均值；

5-9利用步骤5-7所得最佳参数组合Param_best对完整的Data_train训练数据集进行建模，对所得模型在测试集Data_test上进行性能测试，测试集需要使用步骤5-2至5-6完成同样的数据预处理，获取指标以检测是否出现过拟合情况，在实践中所得训练集RMSE＝0.115，R²＝0.957，测试集RMSE＝0.113，R²＝0.957，并未出现明显过拟合；

5-10在完成步骤5-9的性能测试确认没有明显过拟合之后，利用GBM算法在完整数据集Data_all上以步骤5-7所得最佳参数组合Param_best进行训练，得到回归预测模型；

6.对于需要被预测的目标电视剧，按照步骤1至4收集数据并进行数据处理(步骤5-3至5-5中已删除的特征不需要再收集相关数据，被预测电视剧各演职员社交网络重要度可按步骤4-3方法从早于且距离其播放日期最近的网络G_i中提取)，按步骤5-2对缺失数据进行填补(数值型缺失值应填补x_median，因子型缺失值应填补x_mode)，按步骤5-6对数值型特征进行标准化处理，其中所使用的均值应为各特征在训练数据中对应的μ，所使用的标准差应为训练数据中对应的σ，再利用步骤5-10所得的回归模型进行预测即得到目标电视剧的单日收视率预测数据。

本方法基于电视剧的基础结构化信息，结合了反映电视剧宣发工作成效的舆情数据，并利用电视剧的演职员列表和历史收视率衍生出了如加权社交网络重要度的新特征属性，进而构建了机器学习模型，对电视剧在开播前预测其单日收视率数据。舆情数据直接反映了市场对目标电视剧的期待与认知水平，而使用历史收视率作为权重的演职员加权社交网络重要度则从内在体现了电视剧制作团队的业务水平，特别是采用了特征向量中心性这一指标作为重要度的度量，能够挖掘并非“明星”的重要角色成员在项目中所起到的作用。正因为以上优点，该方法对于电视剧的单日收视率预测效果较好。

以上所述仅为本发明所公开的一种电视剧单日收视率的预测方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种电视剧单日收视率的预测方法，其特征在于，包括如下步骤：

对电视剧的基本结构化信息进行预处理，生成电视剧的结构化训练数据，所述基本结构化信息包括播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表和电视剧在特定平台的单日收视率，所述预处理为对基本结构化信息中的数值型特征进行标准化处理，对因子型特征进行规范化并生成哑变量矩阵；

利用自然语言处理技术对社交平台舆情数据进行处理，获得电视剧的舆情语料训练数据，具体包括如下步骤：

对获取的社交平台舆情数据进行初步清洗；

对初步清洗后数据信息进行新词发现以及确定；

利用分词工具对确定的新词进行分词处理并去除无意义项，获得分词结果；在所得分词结果中统计电视剧中演职员提及数、好评差评比、单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数数据，作为舆情语料训练数据；

2.根据权利要求1所述的一种电视剧单日收视率的预测方法，其特征在于，还包括如下步骤：通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据。

3.根据权利要求1所述的一种电视剧单日收视率的预测方法，其特征在于，所述新词发现以及确定，包括如下步骤：

统计集合中所有候选词的词频；

计算集合中所有候选词的互信息度；

4.根据权利要求1所述的一种电视剧单日收视率的预测方法，其特征在于，利用社交网络分析技术对基本结构化信息中的演职员列表建立社交网络，并基于社交网络确定电视剧中各演职员的社交网络重要度，具体包括如下步骤：

提取电视剧中演职员在无向社交网络中的社交网络重要度。

5.根据权利要求1所述的一种电视剧单日收视率的预测方法，其特征在于，还包括如下步骤：利用GBM算法进行建模过程中，采用十折交叉验证。

6.根据权利要求5所述的一种电视剧单日收视率的预测方法，其特征在于，还包括如下步骤：性能测试中，使用均方根误差和拟合优度两种指标作为性能指标，对回归预测模型进行验证。