CN107577672B

CN107577672B - 基于舆情设定剧本的方法和装置

Info

Publication number: CN107577672B
Application number: CN201710856841.6A
Authority: CN
Inventors: 莫倩; 张晶晶; 巴达日胡; 王升
Original assignee: Wiseweb Technology Group Co ltd
Current assignee: Wiseweb Technology Group Co ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2021-07-06
Anticipated expiration: 2037-09-19
Also published as: CN107577672A

Abstract

本发明提供了基于舆情设定剧本的方法和装置，包括建立标签库；对创意基点进行分析，并形成原始场景库和相似场景库；以原始场景库为目标，采集并过滤大众舆情数据得到第一舆情数据；对原始场景库和第一舆情数据进行标签化聚类得到原始场景标签和舆情标签；对原始场景标签进行相似度分析；对原始场景库和相似场景库的舆情标签进行交叉分析得到评论分布情况，并选定设定场景；根据设定场景生成相关特征关系；根据相关特征关系和第一舆情数据生成推荐的场景走向关系。本发明可以有效为各类舆情大数据带来更好的定制化流程处理能力、分析能力，避免剧情单一、易被猜测的问题，从而设计出符合大众口味，且剧情安排得当有新意的剧本。

Description

基于舆情设定剧本的方法和装置

技术领域

本发明涉及信息技术领域，尤其是涉及基于舆情设定剧本的方法和装置。

背景技术

目前，随着国家提出的文化产业改革推进，市场上的各种影视剧数目繁多，呈现出欣欣向荣的景象。

对于影视剧来说，好的剧本在一定程度上决定了作品的成败。然而，虽然当今影视剧种类和内容都在不断地扩展更新，也通过明星加盟和推广宣传的方式获得了一定的票房和收视率，但观众仍在一定程度反应出对电影整体剧情设计的质疑，从很多网络平台和社交平台上频频可见观众吐槽的身影，究其原因，主要则是由于剧本剧情的单一，且剧情结构、结果容易被观众猜测到，在剧情设计上缺乏好的方法和创意导致的。

观众对影视剧的审美也在不断提高，因此如何能设计出符合大众口味，且剧情安排得当有新意的剧本成为亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供基于舆情设定剧本的方法和装置，可以有效为各类舆情大数据带来更好的定制化流程处理能力、分析能力，避免剧情单一、易被猜测的问题，从而设计出符合大众口味，且剧情安排得当有新意的剧本。

第一方面，本发明实施例提供了基于舆情设定剧本的方法，包括：

建立标签库；

对选定的创意基点进行分析，并形成原始场景库和相似场景库；

以所述原始场景库为目标，采集大众舆情数据，并利用所述标签库对所述大众舆情数据进行过滤，得到第一舆情数据；

对所述原始场景库和所述第一舆情数据进行标签化聚类得到原始场景标签和舆情标签；

对所述原始场景标签进行相似度分析，得到相似度分析结果；

对所述原始场景库的所述舆情标签和所述相似场景库的所述舆情标签进行交叉分析得到评论分布情况，并根据所述评论分布情况和所述相似度分析结果选定设定场景；

将各个选定的所述设定场景串接生成相关特征关系；

根据所述相关特征关系和所述第一舆情数据生成推荐的场景走向关系。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对选定的创意基点进行分析，并形成原始场景库和相似场景库包括：

利用自然语言处理技术，对所述创意基点进行语义分析和情感分析，形成含有标识符ID与场景描述的所述原始场景库；

根据所述创意基点形成所述相似场景库。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述大众舆情数据包括评论、人物关系和剧情走向，所述以所述原始场景库为目标采集并过滤大众舆情数据得到第一舆情数据包括：

以所述原始场景库为目标，利用垂直搜索引擎技术对所述相似场景库中同类影视剧的所述评论、所述人物关系和所述剧情走向进行采集；

根据所述标签库对采集后的所述评论、所述人物关系和所述剧情走向利用AC算法进行数据过滤。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述对聚类后的所述原始场景标签进行相似度分析包括：

利用相似度算法计算出所述原始场景库和相似场景库的标签集合向量；

利用距离算法比较所述标签集合向量在线性空间中的相似度。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述对所述原始场景库的舆情标签和所述相似场景库的舆情标签进行交叉分析得到评论分布情况包括：

对所述原始场景标签和对应的所述相似场景库的标签进行计算相似度权重，并将所述相似度权重由高到低排列；

根据排列结果取前N个相似场景，并根据所述相似场景库和评论标签库，分析与场景相关的评论标签和剧情走向标签；

通过聚类算法，分析出所述相似场景共有的所述评论标签的分布，并根据各个所述相似场景评论标签的占比，分析得到评论标签分布；

根据占比较高的评论标签，分析对应剧情走向标签库，形成剧情走向关联关系。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述设定场景为筛选出的所述原始场景库中的剧情场景，所述相关特征关系为触发所述剧情场景走向的叶子节点，所述场景走向关系为根据交叉分析结果形成的剧情推荐树。

第二方面，本发明实施例提供了基于舆情设定剧本的装置，包括：

建立单元，用于建立标签库；

场景库形成单元，用于对选定的创意基点进行分析，并形成原始场景库和相似场景库；

采集过滤单元，用于以所述原始场景库为目标，采集大众舆情数据，并利用所述标签库对所述大众舆情数据进行过滤，得到第一舆情数据；

聚类单元，用于对所述原始场景库和所述第一舆情数据进行标签化聚类得到原始场景标签和舆情标签；

第一分析单元，用于对所述原始场景标签进行相似度分析，得到相似度分析结果；

第二分析单元，用于对所述原始场景库的所述舆情标签和所述相似场景库的所述舆情标签进行交叉分析得到评论分布情况，并根据所述评论分布情况和所述相似度分析结果选定设定场景；

第一生成单元，用于根据各个选定的所述设定场景对应的链接生成相关特征关系；

第二生成单元，用于根据所述相关特征关系和所述第一舆情数据生成推荐的场景走向关系。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述场景库形成单元包括：

第一场景库形成单元，用于利用自然语言处理技术，对所述创意基点进行语义分析和情感分析，形成含有标识符ID与场景描述的所述原始场景库；

第二场景库形成单元，用于根据所述创意基点形成所述相似场景库。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述大众舆情数据包括评论、人物关系和剧情走向，所述采集过滤单元包括：

采集单元，用于以所述原始场景库为目标，利用垂直搜索引擎技术对所述相似场景库中同类影视剧的所述评论、所述人物关系和所述剧情走向进行采集；

过滤单元，用于根据所述标签库对采集后的所述评论、所述人物关系和所述剧情走向利用AC算法进行数据过滤。

结合第二方面，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述第一分析单元包括：

计算单元，用于利用相似度算法计算出所述原始场景库和相似场景库的标签集合向量；

比较单元，用于利用距离算法比较所述标签集合向量在线性空间中的相似度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于舆情设定剧本的方法流程图；

图2为本发明实施例提供的步骤S102方法流程图；

图3为本发明实施例提供的步骤S103方法流程图；

图4为本发明实施例提供的步骤S105方法流程图；

图5为本发明实施例提供的步骤S106方法流程图；

图6为本发明实施例提供的基于舆情设定剧本的装置示意图。

图标：10-建立单元；20-场景库形成单元；30-采集过滤单元；40-聚类单元；50-第一分析单元；60-第二分析单元；70-第一生成单元；80-第二生成单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，虽然当今影视剧种类和内容都在不断地扩展更新，也通过明星加盟和推广宣传的方式获得了一定的票房和收视率，但观众仍在一定程度反应出对电影整体剧情设计的质疑，从很多网络平台和社交平台上频频可见观众吐槽的身影，究其原因，主要则是由于剧本剧情的单一，且剧情结构、结果容易被观众猜测到，在剧情设计上缺乏好的方法和创意导致的。观众对影视剧的审美也在不断提高，因此如何能设计出符合大众口味，且剧情安排得当有新意的剧本成为亟待解决的问题。基于此，本发明实施例提供的基于舆情设定剧本的方法和装置，可以有效为各类舆情大数据带来更好的定制化流程处理能力、分析能力，避免剧情单一、易被猜测的问题，从而设计出符合大众口味，且剧情安排得当有新意的剧本。

实施例一：

图1为本发明实施例提供的基于舆情设定剧本的方法流程图。

参照图1，基于舆情设定剧本的方法包括：

步骤S101，建立标签库；

步骤S102，对选定的创意基点进行分析，并形成原始场景库和相似场景库；

步骤S103，以原始场景库为目标，采集大众舆情数据，并利用标签库对大众舆情数据进行过滤，得到第一舆情数据；

步骤S104，对原始场景库和第一舆情数据进行标签化聚类得到原始场景标签和舆情标签；

步骤S105，对原始场景标签进行相似度分析，得到相似度分析结果；

步骤S106，对原始场景库的舆情标签和相似场景库的舆情标签进行交叉分析得到评论分布情况，并根据评论分布情况和相似度分析结果选定设定场景；

步骤S107，根据各个选定的设定场景串接生成相关特征关系；

步骤S108，根据相关特征关系和第一舆情数据生成推荐的场景走向关系。

具体地，循环执行S101至S106的步骤得到若干相关的设定场景，将若干设定场景串接起来形成相关特征关系，并将各个相关特征关系进行连接，最终连接成为完整的场景走向关系，以该场景走向关系为框架设计出的剧情，可以避免剧情没新意，易被观众猜想的问题，从而利用已有的大众舆情数据设计出更加符合大众口味，并且剧情安排合理，引人入胜的情节。

进一步地，参照图2，步骤S102包括：

步骤S201，利用自然语言处理技术，对所述创意基点进行语义分析和情感分析，形成含有标识符ID与场景描述的所述原始场景库；

步骤S202，根据所述创意基点形成所述相似场景库。

具体地，自然语言处理（NLP，Neuro-Linguistic Programming）包括句法语义分析、信息抽取和文本挖掘等方面的内容。其中，句法语义分析用于对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧的操作；信息抽取，用于从给定文本中抽取重要的信息，比如，时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果，涉及到实体识别、时间抽取、因果关系抽取等关键技术；文本挖掘，用于进行文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。

创意基点可以为已有影视著作的某一个切入设计点，也可以是编剧构思出的原创设计点。同时，对创意基点进行情感倾向分析，即倾向性分析，是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。分析要素包括时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果。涉及到实体识别、时间抽取、因果关系抽取。

进一步地，大众舆情数据包括评论、人物关系和剧情走向，参照图3，步骤S103包括：

步骤S301，以原始场景库为目标，利用垂直搜索引擎技术对相似场景库中同类影视剧的评论、人物关系和剧情走向进行采集；

步骤S302，根据标签库对采集后的评论、人物关系和剧情走向利用AC算法进行数据过滤。

具体地，数据采集方法是利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取，并按照一定规则和筛选标准进行数据归类，并形成数据库文件。并且，过滤方法采取敏感词过滤方法。

需要说明的是，步骤S104的原始场景标签化是通过自然语言处理技术，对场景进行语义分析，将原始场景转化为一组有分析要素组成的词组标签的方法；并且，评论、人物关系、剧情走向标签化是指通过自然语言处理技术，对场景进行语义分析，情感倾向分析，将评论，人物关系，剧情走向处理成由一组分析要素组成的词组标签的方法。这里，聚类算法包括划分法、层次法、基于网络的方法和基于模型的方法。

进一步地，参照图4，步骤S105包括：

步骤S401，利用相似度算法计算出原始场景库和相似场景库的标签集合向量；

步骤S402，利用距离算法比较标签集合向量在线性空间中的相似度。

具体地，使用TF-IDF计算出文本中词的词频集合，把该集合作一个向量，比较不同集合向量在线性空间中的相似度。这里，可设定通过概率分布距离（K-L距离）进行计算比较。

进一步地，参照图5，步骤S106包括：

步骤S501，对原始场景标签和对应的相似场景库的标签进行计算相似度权重，并将相似度权重由高到低排列；

步骤S502，根据排列结果取前N个相似场景，并根据相似场景库和评论标签库，分析与场景相关的评论标签和剧情走向标签；

步骤S503，通过聚类算法，分析出相似场景共有的评论标签的分布，并根据各个相似场景评论标签的占比，分析得到评论标签分布；

步骤S504，根据占比较高的评论标签，分析对应剧情走向标签库，形成剧情走向关联关系。

进一步地，设定场景为筛选出的原始场景库中的剧情场景，相关特征关系为触发剧情场景走向的叶子节点，场景走向关系为根据交叉分析结果形成的剧情推荐树。

实施例二：

为能更好地阐述本发明实施例提供的基于舆情设定剧本的方法，在本实施例将以某特定原始场景为例进行描述。

首先，建立并分析标签，将其分为几类，据此不符合规定的大众舆情信息：

其次，人工选定创意基点，原始场景进行标签化得到原始场景标签；

之后，根据形成的相似场景库，抓取相似剧情数据和评论数据。

接着，将相似场景库进行标签化。

然后，对评论信息进行标签化。

之后，进行相似度分析得到相似度分析结果。

最后，将形成场景走向关系图，完成对剧情的设计。

根据本发明实施例提供的基于舆情设定剧本的方法，可以看到从原始场景库中筛选出的一系列场景标签，通过相似分析法避开与现有影视剧类似的剧情设定，并通过交叉分析法，利用大众舆情数据中的评论数据避开观众对剧情反响较差的剧情设定。每个场景标签是一个叶子节点，通过本发明实施例的方法连接各个节点形成分支，最终连接分支形成剧情树。

实施例三：

图6为本发明实施例提供的基于舆情设定剧本的装置示意图。

参照图6，基于舆情设定剧本的装置包括：

建立单元10，用于建立标签库；

场景库形成单元20，用于对选定的创意基点进行分析，并形成原始场景库和相似场景库；

采集过滤单元30，用于以原始场景库为目标，采集大众舆情数据，并利用标签库对大众舆情数据进行过滤，得到第一舆情数据；

聚类单元40，用于对原始场景库和第一舆情数据进行标签化聚类得到原始场景标签和舆情标签；

第一分析单元50，用于对原始场景标签进行相似度分析，得到相似度分析结果；

第二分析单元60，用于对原始场景库的舆情标签和相似场景库的舆情标签进行交叉分析得到评论分布情况，并根据评论分布情况和相似度分析结果选定设定场景；

第一生成单元70，用于根据各个选定的设定场景对应的链接生成相关特征关系；

第二生成单元80，用于根据相关特征关系和第一舆情数据生成推荐的场景走向关系。

进一步地，场景库形成单元20包括：

第一场景库形成单元（未示出），用于利用自然语言处理技术，对创意基点进行语义分析和情感分析，形成含有标识符ID与场景描述的原始场景库；

这里，标识符ID可以为唯一ID，即一个场景对应一个ID。

第二场景库形成单元（未示出），用于根据创意基点形成相似场景库。

进一步地，大众舆情数据包括评论、人物关系和剧情走向，采集过滤单元30包括：

采集单元（未示出），用于以原始场景库为目标，利用垂直搜索引擎技术对相似场景库中同类影视剧的评论、人物关系和剧情走向进行采集；

过滤单元（未示出），用于根据标签库对采集后的评论、人物关系和剧情走向利用AC算法进行数据过滤。

进一步地，第一分析单元50包括：

计算单元（未示出），用于利用相似度算法计算出原始场景库和相似场景库的标签集合向量；

比较单元（未示出），用于利用距离算法比较标签集合向量在线性空间中的相似度。

本发明实施例提供的基于舆情设定剧本的装置，与上述实施例提供的基于舆情设定剧本的方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的基于舆情设定剧本的方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于舆情设定剧本的方法，其特征在于，包括：

建立标签库；

将各个选定的所述设定场景串接生成相关特征关系；

根据所述相关特征关系和所述第一舆情数据生成推荐的场景走向关系，所述设定场景为筛选出的所述原始场景库中的剧情场景，所述场景走向关系为根据交叉分析结果形成的剧情推荐树；

所述大众舆情数据包括评论、人物关系和剧情走向，所述以所述原始场景库为目标，采集大众舆情数据，并利用所述标签库对所述大众舆情数据进行过滤，得到第一舆情数据包括：

2.根据权利要求1所述的基于舆情设定剧本的方法，其特征在于，所述对选定的创意基点进行分析，并形成原始场景库和相似场景库包括：

根据所述创意基点形成所述相似场景库。

3.根据权利要求1所述的基于舆情设定剧本的方法，其特征在于，所述对所述原始场景标签进行相似度分析，得到相似度分析结果包括：

4.根据权利要求1所述的基于舆情设定剧本的方法，其特征在于，所述对所述原始场景库的所述舆情标签和所述相似场景库的所述舆情标签进行交叉分析得到评论分布情况包括：

5.一种基于舆情设定剧本的装置，其特征在于，包括：

建立单元，用于建立标签库；

第二生成单元，用于根据所述相关特征关系和所述第一舆情数据生成推荐的场景走向关系，所述设定场景为筛选出的所述原始场景库中的剧情场景，所述场景走向关系为根据交叉分析结果形成的剧情推荐树；

所述大众舆情数据包括评论、人物关系和剧情走向，所述采集过滤单元包括：

6.根据权利要求5所述的基于舆情设定剧本的装置，其特征在于，所述场景库形成单元包括：

7.根据权利要求5所述的基于舆情设定剧本的装置，其特征在于，所述第一分析单元包括：