CN113379447B - 一种电视剧单日收视率的预测方法 - Google Patents
一种电视剧单日收视率的预测方法 Download PDFInfo
- Publication number
- CN113379447B CN113379447B CN202110590869.6A CN202110590869A CN113379447B CN 113379447 B CN113379447 B CN 113379447B CN 202110590869 A CN202110590869 A CN 202110590869A CN 113379447 B CN113379447 B CN 113379447B
- Authority
- CN
- China
- Prior art keywords
- television
- social network
- public opinion
- data
- staff
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000003012 network analysis Methods 0.000 claims abstract description 6
- 238000003058 natural language processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000011056 performance test Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000019771 cognition Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000013065 commercial product Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种电视剧单日收视率的预测方法,包括如下步骤:获取目标电视剧相关的基本结构化信息和社交平台舆情数据;对电视剧的基本结构化信息进行预处理,生成电视剧的结构化训练数据;利用自然语言处理技术对社交平台舆情数据进行处理,获得电视剧的舆情语料训练数据;利用社交网络分析技术对基本结构化信息中的演职员列表建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度;基于电视剧的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据,利用GBM算法构建回归预测模型;利用回归预测模型对目标电视剧进行预测,获得目标电视剧的单日收视率。本发明可以提高电视剧的单日收视率预测准确度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种电视剧单日收视率的预测方法。
背景技术
电视剧作为一种特殊的商业产品,出品方在其上映之前就展开了密集的宣传工作,在其上映后同样需要根据具体情况进行口碑营销,各类播放平台如电视台、视频网站等也希望在电视剧开播前预测其收视水平,以实现价值评估的目的,因此,对于电视剧的收视率进行精准预测具有较强的现实意义。由于电视剧项目涉及制作团队的商业和艺术水平、大众心理、趋势热点等因素,是一项复杂的系统工程,一直以来缺乏对电视剧收视率预测的有效方法。
目前业内的普遍做法的是基于目标电视剧的同类型其他电视剧或主创团队其他作品的市场表现、同期电视剧市场热度、观众期待市场调查等因素,由行业专家凭借经验给出大致的收视率区间,这种做法考虑因素较少,且更依赖于专家的个人经验和主观判断,导致判断结果不够精确,无法更好的进行电视剧的舆情预测或营销推广等应用。
发明内容
为了解决上述技术问题,本发明提出一种电视剧单日收视率的预测方法。
为了达到上述目的,本发明的技术方案如下:
一种电视剧单日收视率的预测方法,包括如下步骤:
获取目标电视剧相关的基本结构化信息和社交平台舆情数据;
对电视剧的基本结构化信息进行预处理,生成电视剧的结构化训练数据;利用自然语言处理技术对社交平台舆情数据进行处理,获得电视剧的舆情语料训练数据;
利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度;
基于电视剧的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据,利用GBM算法构建回归预测模型;
利用回归预测模型对目标电视剧进行预测,获得目标电视剧的单日收视率。
优选地,还包括如下步骤:通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据。
优选地,所述基本结构化信息包括播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表和电视剧在特定平台的单日收视率等。
优选地,所述预处理为对基本结构化信息中的数值型特征进行标准化处理,对因子型特征进行规范化并生成哑变量矩阵。
优选地,所述利用自然语言处理技术对社交平台舆情数据进行处理,获得电视剧的舆情语料训练数据,具体包括如下步骤:
对获取的社交平台舆情数据进行初步清洗;
对初步清洗后数据信息进行新词发现以及确定;
利用分词工具对确定的新词进行分词处理并去除无意义项,获得分词结果;
在所得分词结果中统计电视剧中演职员提及数、好评差评比、单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数等数据,作为舆情语料训练数据。
优选地,所述新词发现以及确定,包括如下步骤:
基于预设的候选词的长度上限,根据长度上限从初步清洗后数据信息中穷举所有可能的新词组合,构成待考察的候选词集合;
统计集合中所有候选词的词频;
计算集合中所有候选词的互信息度;
以互信息度大于0为条件在候选词集合中做筛选,并对筛选结果按左右侧邻字信息熵降序排列,取排其头部预设数量的候选词作为新词。
优选地,利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度,具体包括如下步骤:
提取训练数据中所有开播日期早于预设日期的所有电视剧中所有演职员构成,以演职员为节点,演职员之间的合作关系为边,构建以两个节点所有合作电视剧收视率之和为权重的无向社交网络;
计算无向社交网络中所有节点的特征向量中心性,以节点的特征向量中心性作为在无向社交网络中的重要度表示;
提取电视剧中演职员在无向社交网络中的社交网络重要度。
优选地,还包括如下步骤:利用GBM算法进行建模过程中,采用十折交叉验证。
优选地,还包括如下步骤:性能测试中,使用均方根误差和拟合优度两种指标作为性能指标,对回归预测模型进行验证。
基于上述技术方案,本发明的有益效果是:本发明基于电视剧的基础结构化信息,结合了反映电视剧宣发工作成效的舆情数据,并利用电视剧的演职员列表和历史收视率衍生出了如加权社交网络重要度的新特征属性,进而构建了机器学习模型,对电视剧在开播前预测其单日收视率数据。舆情数据直接反映了市场对目标电视剧的期待与认知水平,而使用历史收视率作为权重的演职员加权社交网络重要度则从内在体现了电视剧制作团队的业务水平,特别是采用了特征向量中心性这一指标作为重要度的度量,能够挖掘并非“明星”的重要角色成员在项目中所起到的作用。正因为以上优点,该方法对于电视剧的单日收视率预测效果较好。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1:本发明一种电视剧单日收视率的预测方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明的一种电视剧单日收视率的预测方法,包括如下步骤:
1.通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据作为训练数据,训练数据具体包括:
1-1电视剧的基本结构化信息如播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表、电视剧在特定平台的单日收视率;
1-2电视剧上映前14天的相关的网络舆情如舆情语料内容、发布时间、发布者唯一id;
2.对电视剧相关的基本结构化信息进行预处理,生成电视剧的结构化训练数据,具体包括如下步骤:
2-1统计训练数据中电视剧类型的占比,保留前90%的类型,其余类型统一转换为“other”类型,生成电视剧类型哑变量矩阵,记作dgenre(假设保留类型有a、b、c、d、other五类,某电视剧类型涉及a和b两类,则其对应a和b属性的值为1,对应c、d和other的值为0,代表该电视剧类型的向量即为(1,1,0,0,0),对所有训练数据都进行此类转换并将所有向量按行合并,即得到哑变量矩阵,如下表所示);
2-2按步骤2-1的方法得到电视剧制片国家哑变量矩阵dcountry、播放平台哑变量矩阵dstation和语言的哑变量矩阵dlang;
2-3从所有训练数据的播放日期中提取上映的年份、月份、季度、周数、星期数、农历月份,将这些新的时间特征统一记作fdate;
2-4从所有训练数据的演职员列表中提取各电视剧开播前导演和演员的个人平均历史收视率,将新的个人收视率特征统一记作frating;
2-5从所有训练数据的制片公司列表中提取各电视剧对应的制片公司数量,记作fcompany;
2-6从所有训练数据的IMDB号特征中提取各电视剧是否有IMDB号,1代表有,0代表没有,记作fimdb;
2-7从所有训练数据的官方网站特征中提取各电视剧是否有官方网站,1代表有,0代表没有,记作fhomepage;
2-8从所有训练数据的预告片列表中提取各电视剧对应的预告片数量,记作ftrailer;
3.利用自然语言处理技术对社交平台舆情数据进行处理,获得电视剧的舆情语料训练数据,具体包括如下步骤:
3-1对原始舆情语料进行初步清洗,去除包括http链接、话题标识、特殊符号等项;
3-2使用经步骤3-1处理后的语料进行新词发现,该环节对于后续的文本处理和指标提取有重要作用,特别是对于电视剧舆情中可能含有较多电视剧相关专有名词以及演职员姓名的场景,新词发现过程能够有效提高文本分词质量,尽可能避免错分、漏分的问题。新词发现的过程包括有:
a.确定发现新词的长度上限,根据长度上限从语料中穷举所有可能的新词组合,构成待考察的候选词集合S,如“abc”三个字符的可能组合为a、b、c、ab、bc和abc;
b.统计集合S中所有候选词的词频,候选词“ab”的词频记作Pab;
c.计算集合S中所有候选词的互信息度PMI,候选词“ab”PMI的计算方法是:候选词“abc”的PMI则是/>和/>中的较大者,即候选词的PMI是该词词频与其所有子候选词词频乘积的比值的对数,取其中最大值,写作公式:
其中w[1:i]表示候选词w的第1至第i位子候选词,n为候选词w的长度;
d.计算集合S中所有候选词的左右邻字信息熵,候选词w的左邻字信息熵的计算方法是统计其在语料中所有左侧邻字,形成临时集合Sleft,计算集合Sleft的信息熵,计算公式:
其中pi表示Sleft中第i个不重复字在Sleft中的计数占比,同理可得w的右邻字信息熵,取两者的较小者作为w的左右邻字信息熵;
e.以PMI值大于0为条件在候选词集合中做筛选,并对筛选结果按左右邻字信息熵降序排列,取其头部一定数量如前200个词语,这些词语可以看作是从舆情语料中新发现的固定词语组合即新词;
3-3结合步骤3-2中所得新词,利用分词工具对步骤3-1所得语料进行分词处理,并去除停止词等无意义项;
3-4基于电视剧的基本结构化信息,在步骤3-3所得分词结果中统计该电视剧演职员词条出现频次,作为演职员提及数;
3-5基于情感词典,对步骤3-3所得分词结果进行文本情感分析,得到训练数据中各电视剧对应舆情语料的好评数量与差评数量的比值,其中好评语料是预测为情感正向类型的语料,差评语料是预测为情感负向类型的语料;
3-6对原始舆情语料中的单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数进行统计;
3-7将步骤3-4、3-5和3-6得到的关于舆情语料的所有特征统一记作fopinion;
4.利用社交网络分析技术对基本结构化信息中的演职员列表进行处理,基于演职员合作关系建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度,具体包括如下步骤:
4-1统计训练数据中所有不重复的开播日期ti,为开播日期ti构建该时刻演职员社交网络Gi,具体方法是在训练数据中筛选所有开播日期早于ti的电视剧,以这些电视剧的所有演职员为节点,以合作关系为边(两个演职员共同参与过同一部电视剧则认为存在边关系),以两个节点所有合作电视剧收视率之和为权重构建无向社交网络Gi;
4-2计算Gi中所有节点的特征向量中心性,加权网络节点的特征向量中心性的计算方法是:
其中xv和xt分别为节点v和t的特征向量中心性值,c为常数,M(v)为节点v的相邻节点集合,wv,t为节点v和t之间边的权重,经过多次迭代后各节点的中心性值将达到稳态,以节点的特征向量中心性作为节点在网络中重要度的表示,对于有相同连接数的节点,相邻节点特征向量中心性值更高的节点的得分也更高,特征向量得分较高意味着该节点与许多自身得分较高的节点相连接;
4-3针对训练数据中所有样本,根据其开播日期选择对应的社交网络Gi,并根据其演职员列表获取其在Gi中的社交网络重要度,分别按导演和演员计算各自平均社交网络重要度,统一记作feigen;
5.基于步骤1至4得到的电视剧类型哑变量矩阵dgenre、制片国家哑变量矩阵dcountry、播放平台哑变量矩阵dstation、语言哑变量矩阵dlang、时间特征fdate,个人收视率特征frating,制片公司数量特征fcompany,是否存在IMDB号特征fimdb,是否存在官网特征fhomepage,预告片数量特征ftrailer,舆情特征fopinion,社交网络重要度特征feigen,以及未处理的电视剧集数和单集时长,将这些特征属性按列合并形成新的训练数据Dataall,并基于此数据搭建回归预测模型,利用GBM算法构建回归预测模型,具体包括如下步骤:
5-1通过随机采样将Dataall拆分成训练数据Datatrain和测试数据Datatest,分别占比75%和25%;
5-2对Datatrain的各特征中的数值型数据的缺失值采用中位数xmedian填补、对因子型数据的缺失值采用众数xmode填补;
5-3对Datatrain的各特征的值进行统计,删除最高占比超过95%的特征;
5-4对Datatrain的各特征的相关系数进行计算,对于相关系数超过0.9的特征,随机保留其中一个特征,删除其他特征;
5-5对Datatrain的各特征的多重共线性进行计算,删除具有多重共线性的特征;
5-6对Datatrain中的数值型特征做标准化处理,对特征x的处理方法为:
其中μ表示特征x所有取值的均值,σ表示特征x所有取值的标准差;
5-7基于步骤5-1至5-6对Datatrain的数据预处理,使用十折交叉验证的GBM算法建模同时进行参数搜索,将经过数据预处理的Datatrain随机分成十份,每次利用其中九份进行建立模型Modeli,使用剩余一份作为测试集对Modeli进行测试,获得指标Metrici,因此针对任一参数组合其对应的模型性能是十次建模并测试得到的指标均值,完成所有参数组合的建模与测试,选取性能指标最好的参数组合,记作Parambest,在实践中所得最佳参数组合为代表树的深度的interaction_depth=9,代表树的数目的n_trees=700,代表学习速率的shrinkage=0.1,代表最小叶节点的n_minobsinnode=5;
5-8在步骤5-7中进行的模型性能测试中,使用均方根误差RMSE和拟合优度R2作为性能指标,RMSE的计算方法是:
其中pred代表模型的预测值,obs代表实际观测值,拟合优度R2的计算方法是:
其中为实际观测值均值;
5-9利用步骤5-7所得最佳参数组合Parambest对完整的Datatrain训练数据集进行建模,对所得模型在测试集Datatest上进行性能测试,测试集需要使用步骤5-2至5-6完成同样的数据预处理,获取指标以检测是否出现过拟合情况,在实践中所得训练集RMSE=0.115,R2=0.957,测试集RMSE=0.113,R2=0.957,并未出现明显过拟合;
5-10在完成步骤5-9的性能测试确认没有明显过拟合之后,利用GBM算法在完整数据集Dataall上以步骤5-7所得最佳参数组合Parambest进行训练,得到回归预测模型;
6.对于需要被预测的目标电视剧,按照步骤1至4收集数据并进行数据处理(步骤5-3至5-5中已删除的特征不需要再收集相关数据,被预测电视剧各演职员社交网络重要度可按步骤4-3方法从早于且距离其播放日期最近的网络Gi中提取),按步骤5-2对缺失数据进行填补(数值型缺失值应填补xmedian,因子型缺失值应填补xmode),按步骤5-6对数值型特征进行标准化处理,其中所使用的均值应为各特征在训练数据中对应的μ,所使用的标准差应为训练数据中对应的σ,再利用步骤5-10所得的回归模型进行预测即得到目标电视剧的单日收视率预测数据。
本方法基于电视剧的基础结构化信息,结合了反映电视剧宣发工作成效的舆情数据,并利用电视剧的演职员列表和历史收视率衍生出了如加权社交网络重要度的新特征属性,进而构建了机器学习模型,对电视剧在开播前预测其单日收视率数据。舆情数据直接反映了市场对目标电视剧的期待与认知水平,而使用历史收视率作为权重的演职员加权社交网络重要度则从内在体现了电视剧制作团队的业务水平,特别是采用了特征向量中心性这一指标作为重要度的度量,能够挖掘并非“明星”的重要角色成员在项目中所起到的作用。正因为以上优点,该方法对于电视剧的单日收视率预测效果较好。
以上所述仅为本发明所公开的一种电视剧单日收视率的预测方法的优选实施方式,并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书实施例中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (6)
1.一种电视剧单日收视率的预测方法,其特征在于,包括如下步骤:
获取目标电视剧相关的基本结构化信息和社交平台舆情数据;
对电视剧的基本结构化信息进行预处理,生成电视剧的结构化训练数据,所述基本结构化信息包括播放日期、集数、单集时长、制片国家、类型、语言、制片公司列表、演职员列表、IMDB号、官方网站、预告片列表和电视剧在特定平台的单日收视率,所述预处理为对基本结构化信息中的数值型特征进行标准化处理,对因子型特征进行规范化并生成哑变量矩阵;
利用自然语言处理技术对社交平台舆情数据进行处理,获得电视剧的舆情语料训练数据,具体包括如下步骤:
对获取的社交平台舆情数据进行初步清洗;
对初步清洗后数据信息进行新词发现以及确定;
利用分词工具对确定的新词进行分词处理并去除无意义项,获得分词结果;在所得分词结果中统计电视剧中演职员提及数、好评差评比、单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数数据,作为舆情语料训练数据;
利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度;
基于电视剧的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据,利用GBM算法构建回归预测模型;
利用回归预测模型对目标电视剧进行预测,获得目标电视剧的单日收视率。
2.根据权利要求1所述的一种电视剧单日收视率的预测方法,其特征在于,还包括如下步骤:通过网络爬虫和人工标注的方式获取目标电视剧相关的基本结构化信息和社交平台舆情数据。
3.根据权利要求1所述的一种电视剧单日收视率的预测方法,其特征在于,所述新词发现以及确定,包括如下步骤:
基于预设的候选词的长度上限,根据长度上限从初步清洗后数据信息中穷举所有可能的新词组合,构成待考察的候选词集合;
统计集合中所有候选词的词频;
计算集合中所有候选词的互信息度;
以互信息度大于0为条件在候选词集合中做筛选,并对筛选结果按左右侧邻字信息熵降序排列,取排其头部预设数量的候选词作为新词。
4.根据权利要求1所述的一种电视剧单日收视率的预测方法,其特征在于,利用社交网络分析技术对基本结构化信息中的演职员列表建立社交网络,并基于社交网络确定电视剧中各演职员的社交网络重要度,具体包括如下步骤:
提取训练数据中所有开播日期早于预设日期的所有电视剧中所有演职员构成,以演职员为节点,演职员之间的合作关系为边,构建以两个节点所有合作电视剧收视率之和为权重的无向社交网络;
计算无向社交网络中所有节点的特征向量中心性,以节点的特征向量中心性作为在无向社交网络中的重要度表示;
提取电视剧中演职员在无向社交网络中的社交网络重要度。
5.根据权利要求1所述的一种电视剧单日收视率的预测方法,其特征在于,还包括如下步骤:利用GBM算法进行建模过程中,采用十折交叉验证。
6.根据权利要求5所述的一种电视剧单日收视率的预测方法,其特征在于,还包括如下步骤:性能测试中,使用均方根误差和拟合优度两种指标作为性能指标,对回归预测模型进行验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110590869.6A CN113379447B (zh) | 2021-05-28 | 2021-05-28 | 一种电视剧单日收视率的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110590869.6A CN113379447B (zh) | 2021-05-28 | 2021-05-28 | 一种电视剧单日收视率的预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379447A CN113379447A (zh) | 2021-09-10 |
CN113379447B true CN113379447B (zh) | 2024-05-31 |
Family
ID=77574825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110590869.6A Active CN113379447B (zh) | 2021-05-28 | 2021-05-28 | 一种电视剧单日收视率的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379447B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035994A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 一种基于网络数据的电视剧点播量预测方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109451352A (zh) * | 2018-12-11 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种视频播放流量预测方法及装置 |
CN112183881A (zh) * | 2020-10-19 | 2021-01-05 | 中国人民解放军国防科技大学 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
CN112511901A (zh) * | 2020-12-07 | 2021-03-16 | 北京秒针人工智能科技有限公司 | 综艺剧目播放量预测方法、系统、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016086075A1 (en) * | 2014-11-24 | 2016-06-02 | The Nielsen Company (Us), Llc | Methods and apparatus to predict time-shifted exposure to media |
-
2021
- 2021-05-28 CN CN202110590869.6A patent/CN113379447B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035994A (zh) * | 2014-06-11 | 2014-09-10 | 华东师范大学 | 一种基于网络数据的电视剧点播量预测方法 |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109451352A (zh) * | 2018-12-11 | 2019-03-08 | 北京奇艺世纪科技有限公司 | 一种视频播放流量预测方法及装置 |
CN112183881A (zh) * | 2020-10-19 | 2021-01-05 | 中国人民解放军国防科技大学 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
CN112511901A (zh) * | 2020-12-07 | 2021-03-16 | 北京秒针人工智能科技有限公司 | 综艺剧目播放量预测方法、系统、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113379447A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509534B (zh) | 基于深度学习的个性化音乐推荐系统及其实现方法 | |
US9223775B2 (en) | User question processing method and system | |
CN106844530A (zh) | 一种问答对分类模型的训练方法和装置 | |
CN103049440A (zh) | 一种相关文章的推荐处理方法和处理系统 | |
CN108345640A (zh) | 一种基于神经网络语义分析的问答语料库构建方法 | |
CN109726275B (zh) | 应用于法律咨询服务的法律知识智能查询方法 | |
CN109389423A (zh) | 一种基于大数据融合商业的营销使用方法 | |
JP5910316B2 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
CN110196941B (zh) | 一种资讯推荐方法、装置、服务器与存储介质 | |
CN114186983B (zh) | 视频面试多维评分方法、系统、计算机设备及存储介质 | |
CN114048389B (zh) | 一种面向工程机械行业的内容推荐方法及系统 | |
CN117709795B (zh) | 一种远程质量体系认证审核系统及方法 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN113379447B (zh) | 一种电视剧单日收视率的预测方法 | |
CN109874032A (zh) | 智能电视的节目专题个性化推荐系统与方法 | |
CN116992009A (zh) | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 | |
CN115630173B (zh) | 一种基于兴趣度分析的用户数据管理方法 | |
CN116342074A (zh) | 一种工程项目咨询专家库人才匹配服务系统 | |
CN115510202A (zh) | 一种基于电网设备知识图谱的智能问答系统 | |
Hwang et al. | Analyzing box-office hit factors using big data: Focusing on Korean films for the last 5 years | |
CN113657766A (zh) | 一种基于游客多元数据的旅游景区欢乐指数的计量方法 | |
CN113379448A (zh) | 一种电影票房的映前预测方法 | |
CN112749841A (zh) | 一种基于自训练学习的用户口碑预测方法及系统 | |
KR102643159B1 (ko) | 인공지능 매칭 알고리즘을 이용한 온라인 영화 제작 플랫폼 | |
CN112417256B (zh) | 一种基于互联网的自然保护地认知评价系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |