CN107506461A

CN107506461A - 一种关于影视剧本的智能分析与风险评估的方法

Info

Publication number: CN107506461A
Application number: CN201710758622.4A
Authority: CN
Inventors: 沈家云; 王松
Original assignee: Beijing Non Dipper Data Technology Development Co Ltd
Current assignee: Beijing Non Dipper Data Technology Development Co Ltd
Priority date: 2017-08-30
Filing date: 2017-08-30
Publication date: 2017-12-22

Abstract

本发明公开了一种关于影视剧本的智能分析与风险的评估方法，可以应用于剧作者、专家和评估机构，其特征在于采用文本扫描技术，根据对成功剧本的识别特征建立数学模型，构建电视剧本投资风险评估体系。分为如下步骤：步骤一、影视剧文本扫描；步骤二、电视剧特征向量提取；步骤三、电视剧成功模式算法；步骤四、影视剧智能风险评估体系。

Description

一种关于影视剧本的智能分析与风险评估的方法

技术领域

本发明涉及专门适用于监督或预测影视剧目的数据处理系统或方法技术领域，特别是涉及一种电视剧本成功模式的识别算法及风险评估方法。

背景技术

当前，对电视剧本的评审手段主要是头脑风暴法，即由影视行业内专业人员根据主观经验对电视剧本进行定性评估，受人的主观臆断影响较大，使剧本评估结果具有较大的不确定性。因此，建立一套定量化评估指标体系，有利于更加客观、准确的评估电视剧本质量，有利于实现经济效益与社会效益双赢。大数据时代，数据挖掘的方法可以高效地发现数据中存在的关系和规则，并能预测未来的发展趋势。数据挖掘是一种新的信息处理技术，主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理，从中提取辅助决策的关键性数据。

采用数据挖掘方法可从大量数据中发现潜在规律、提取有用知识，它是将高级智能计算技术应用于大量数据中，让计算机在有人或无人指导的情况下从海量数据中发现潜在的、有用的模式。目前，数据挖掘技术是数据分析科学的热点之一，应用范围广泛，但主要集中于商业、电信、银行、网络电商等主要领域，影视行业是其应用空白。因此，若将数据挖掘技术引入电视剧本前期评审不仅是对电视剧本评审手段的创新，而且填补了国内数据挖掘应用领域的空白，具有极大的技术发展价值、市场应用价值及潜在的经济效益。

发明内容

本发明的目的是为了克服目前电视剧本评审手段因主观因素导致评估结果较大不确定性的缺点，提供了一种关于影视剧本的智能分析与风险的评估方法。

通过建设电视剧本库，利用数据挖掘技术建立一套电视剧本成功模式的识别算法及风险评估方法。该系统能够大幅度地提升剧本成功率的预判准确率，为投资方判断剧本的投资价值提供决策支持，在影视剧投产之前进行风险预判，有效规避影视剧投资风险。

为了实现上述目的，本发明采用的分析方法可分为四个步骤：

步骤一、影视剧文本扫描；

步骤二、电视剧特征向量提取；

步骤三、电视剧成功模式算法；

步骤四、影视剧智能风险评估体系。

本发明的优点在于：

1.本发明建立了一套定量化评估指标体系，有利于更加客观、准确的评估电视剧本质量，有利于实现经济效益与社会效益双赢。

2.本发明将数据挖掘方法应用于电视剧本定量化评估，建立成功电视剧本模式的数学模型，实现剧本特征向量智能识别，进行定量风险评估。

3.本发明实现了可为电视剧本评审提供客观的标准和量化依据，提升电视剧行业制作的规范化程度，提高电视剧制作水平，有效规避电视剧投资风险和降低雷人剧产出量。

附图说明

图1是本发明的整体技术路线示意图；

图2是本发明总结的关于文本挖掘技术定义的说明图；

图3是本发明适用于影视剧本的客观评估流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本发明提供的一种电视剧本成功模式的识别算法及风险评估方法，系统框图如图1所示，具体包括步骤如下：

步骤一、影视剧文本扫描。对文本进行预处理建立语料库,主要内容包括文本断句、词性分布、词性标注、特征添加。使用GENIA Tagger对语料进行断句和词性标注处理，GENIA Project上提供的语料库GENIA Corpus可以作为主要数据集，再使用隐马尔可夫模型、最大熵马尔可夫模型和条件随机域对语料库中的语句标注词性，再根据词性序列识别语句，这样可以最大限度的保证断句及其词性标注的准确性，断句和词性标注的准确性对之后的文本结构化特征提取非常重要，准确的断句以及词性标注才能提取出正确的特征向量，使得系统对于未知质量的剧本评估准确度(即分类准确率)提高。

步骤二、电视剧特征向量提取。利用文本挖掘技术对剧本进行结构化解析，方法示意图如图2所示，将散乱的文本进行结构化处理，通过结构化的文本自动获取剧本的特征向量，对于特征向量的提取，需要做的是从整形和规范化的结构化文本中抽取反映字符本身的有用信息，供识别部分进行识别，也就是待评估的剧本的特征向量与训练集剧本的特征向量进行匹配，作为特征提取的内容是比较多的，可以是几何特征，如语句的某些肯定词汇以及否定词汇出现的频率等。识别判断部分则是根据抽取的特征，运用一定的识别原理，对文字进行分类，确定其属性，达到识别的目的，实际上判断部分就是一个分离器。

在本发明中根据影视行业专家建立好的特征向量库，其中既包含从100部已播出剧本中提取出来的特征向量，也包含从100部劣质剧本中提取出来的特征向量，对前期建立的语料库进行机器学习，规范化特征向量，进而抽取出专家建议的特征向量，将从待评估的剧本中提取出来的特征向量与之前100部已播出剧本中提取出来的特征向量和100部劣质剧本中提取出来的特征向量进行匹配，如果待评估的剧本中提取的特征向量与质量好的剧本的特征向量匹配度高，那么我们认为该剧本属于质量较好的剧本，投入拍摄后可能会取得较好的收视效果，故而适合进行投资；反之，如果待评估的剧本中提取的特征向量与质量不好的剧本的特征向量匹配度高，那么我们认为该剧本属于质量不好的剧本，投入拍摄后可能收视效果会一般或比较差，故而不适合进行投资。机器识别后的文本再根据事先已经建立好的抽取规则进行模式匹配，最后输出由CRF模板和规则判定成功的实体。

步骤三、电视剧成功模式算法。将成功与失败电剧本的特征向量进行对比，采用机器学习算法甄别可以准确预测因变量状态的自变量及其模式。在本环节主要采用模式识别的算法完成发明目标。模式识别指将表征事物的各种形式的信息和特征进行处理和分析后，对成功电视剧模式的特征提取，即对成功电视剧固有的、本质的及重要的特征或属性进行测量并将结果数值化，形成特征适量的过程。其步骤为：

(1).特征提取。通过变换将高维特征空间降到低维空间，在变换过程中要尽可能多地保留对分类和表示有利的信息。

(2).特征选择。从上面得到的一组特征中，挑选最有效的特征进一步减少特征空间的维数，得到一个有效的子集。

(3).分类决策。对样本特征分量按判别函数的计算结果进行分类，该部分主要方法是计算待识别特征的属性，分析它是否满足是成功电视剧的条件。

步骤四、影视剧智能风险评估体系。在电视剧成功模式算法的基础上，结合影响电视成功的其它因素，如演职员阵容、社会流行文化、导演曾经作品、投拍公司实力等，建立定性评估与定量评估相结合的风险评估体系。评估体系结构图如图3所示，评估体系构建遵循重要性、系统性、实用性、灵活性原则，在科学分析风险产生过程的基础上，选取决定风险产生的关键因素，令评估体系可作为一个整体全面反映影响电视剧成功各要素的特征，使评价目标与指标有机联系为一个层次分明的整体，并且指标体系运行过程中具有很强的可操作性和可比性，可以用定量指标，也可以用定性指标，并可根据评估和使用者的不同对指标体系进行相应调整。其步骤为：

(1).指标属性的量化。指标属性的量化是为了解决指标间的不可公度问题。评价指标分为定性指标和定量指标2定性指标需要量化，定量指标需要无量纲化和归一化。

(2).定性指标的量化。定性指标由于缺乏明确的测度方法,至今还没有一个公认的量化模式，一般采用专家评分，通常分为5个等级，即将危险性由低到高划分为无危险、低度危险、中度危险、高度危险和极高危险，依次取量化值为0、1、2、3和4。

(3).定量指标的量化。定量评价指标可以分为成本型、效益型、固定型和区间型4种类型。成本型指标是指属性值越小越好的指标；效益型指标是指属性值越大越好的指标；固定型指标是指属性值既不太大、又不太小为最佳的指标；区间型指标是属性值以落在某个固定区间内为最佳的指标。根据评价指标的类型，可构建相应的无量纲化标准函数。

(4).指标权重的设置。依据评价对象各指标数据,按照数学上的计算准则得出各评价指标权重，为了避免过度依赖数学模型，产生权重不合理现象，在数学计算的基础上另参照专家意见，使权重设置更为合理。

(5).指标间关系的建立。外来物种风险评估指标之间的关系和作用是不同的，根据其贡献可以分为累加关系、连乘关系和替代关系。

(6).风险综合评估数学模型。采用的数学模型，主要包含各类分类、聚类和预测算法，例如KNN、Kmeans、朴素贝叶斯、卡尔曼、SVM、LVQ、BP、RBF等等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，均同理包括在本发明的专利保护范围内。

Claims

1.本发明的目的是为了克服目前电视剧本评审手段因主观因素导致评估结果较大不确定性的缺点，提供了一种关于影视剧本的智能分析与风险的评估方法。本发明采用的分析方法可分为四个步骤：

步骤一、影视剧文本扫描；

步骤二、电视剧特征向量提取；

步骤三、电视剧成功模式算法；

步骤四、影视剧智能风险评估体系。

2.根据权利要求1所述的方法，其特征在于：在步骤二中，电视剧特征向量提取。利用文本挖掘技术对剧本进行结构化解析，方法示意图如图2所示，将散乱的文本进行结构化处理，通过结构化的文本自动获取剧本的特征向量，对于特征向量的提取，需要做的是从整形和规范化的结构化文本中抽取反映字符本身的有用信息，供识别部分进行识别，也就是待评估的剧本的特征向量与训练集剧本的特征向量进行匹配，作为特征提取的内容是比较多的，可以是几何特征，如语句的某些肯定词汇以及否定词汇出现的频率等。识别判断部分则是根据抽取的特征，运用一定的识别原理，对文字进行分类，确定其属性，达到识别的目的，实际上判断部分就是一个分离器。

3.根据权利要求1所述的方法，其特征在于：在步骤四中，影视剧智能风险评估体系。在电视剧成功模式算法的基础上，结合影响电视成功的其它因素，如演职员阵容、社会流行文化、导演曾经作品、投拍公司实力等，建立定性评估与定量评估相结合的风险评估体系。评估体系结构图如图3所示，评估体系构建遵循重要性、系统性、实用性、灵活性原则，在科学分析风险产生过程的基础上，选取决定风险产生的关键因素，令评估体系可作为一个整体全面反映影响电视剧成功各要素的特征，使评价目标与指标有机联系为一个层次分明的整体，并且指标体系运行过程中具有很强的可操作性和可比性，可以用定量指标，也可以用定性指标，并可根据评估和使用者的不同对指标体系进行相应调整。其步骤为：