CN113641859B

CN113641859B - 脚本生成方法、系统、计算机存储介质及计算机程序产品

Info

Publication number: CN113641859B
Application number: CN202111207374.7A
Authority: CN
Inventors: 何永继
Original assignee: Alibaba Cloud Computing Ltd; Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-04-19
Anticipated expiration: 2041-10-18
Also published as: CN113641859A

Abstract

本申请实施例提供了一种脚本生成方法、系统、计算机存储介质及计算机程序产品，其中，脚本生成方法包括：根据待处理视频的分镜信息对待处理视频进行切分，获得至少一个视频切片；获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成至少一个视频切片对应的文本序列，其中，语义标签用于表征文本信息的语义，形式标签用于表征文本的文本表达方式；对文本序列进行段落分割，并为分割后的段落生成结构标签；根据文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架。

Description

脚本生成方法、系统、计算机存储介质及计算机程序产品

技术领域

本申请实施例涉及视频技术领域，尤其涉及一种脚本生成方法、脚本生成系统、计算机存储介质及计算机程序产品。

背景技术

随着新媒体技术的发展，越来越多的用户通过视频传播各种内容，例如，商品宣传内容、个人生活内容、娱乐节目内容等等，以进行基于新媒体的宣传和交互。

视频的创作依赖于视频脚本，目前，多由用户自己创作视频脚本进而基于该脚本完成视频的创作。但是，一方面，大部分用户缺乏创作的专业知识，导致创作耗费大量的时间和精力，且创作出的视频的被接受程度不高；另一方面，即使具备专业知识的用户在进行创作时，同样也需要耗费大量的时间和精力进行创意，开发脚本，以期生产出较受欢迎的视频。

可见，不管是上述哪种方式，都费时费力，存在着创作成本高，且创作效率低的问题。

发明内容

有鉴于此，本申请实施例提供一种脚本生成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种脚本生成方法，包括：根据待处理视频的分镜信息对所述待处理视频进行切分，获得至少一个视频切片；获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成所述至少一个视频切片对应的文本序列，其中，所述语义标签用于表征所述文本信息的语义，所述形式标签用于表征所述文本的文本表达方式；对所述文本序列进行段落分割，并为分割后的段落生成结构标签；根据所述文本信息、所述语义标签、所述形式标签、分割后的所述段落和所述结构标签，生成所述待处理视频对应的脚本框架。

根据本申请实施例的第二方面，提供了一种脚本生成系统，包括：脚本生成服务端；所述脚本生成服务端，用于根据待处理视频的分镜信息对所述待处理视频进行切分，获得至少一个视频切片；获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成所述至少一个视频切片对应的文本序列，其中，所述语义标签用于表征所述文本信息的语义，所述形式标签用于表征所述文本信息的文本表达方式；对所述文本序列进行段落分割，并为分割后的段落生成结构标签；根据所述文本信息、所述语义标签、所述形式标签、分割后的所述段落和所述结构标签，生成所述待处理视频对应的脚本框架并基于所述脚本框架生成脚本框架界面。

根据本申请实施例的第三方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的脚本生成方法。

根据本申请实施例的第四方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的脚本生成方法对应的操作。

根据本申请实施例提供的脚本生成方案，基于对大量视频的分析和处理，生成多种可用于脚本生成的脚本框架，以使用户可以基于这些脚本框架进行后续视频的脚本生成。针对每个用于生成脚本框架的待处理视频的处理包括：按照视频的分镜信息对待处理视频进行切分，形成一个或多个视频切片，以此方便后续处理；进而，获取每个视频切片对应的文本信息，并为该文本信息生成相应的语义标签和形式标签，此外，还为每个视频切片标注开始时间，以基于该开始时间生成与切分的视频切片对应的文本序列；在此基础上，对生成的文本序列进行段落分割并为分割后的段落生成结构标签；最后，再基于文本信息、语义标签、形式标签、段落及结构标签来生成脚本框架。由此，通过文本信息可获得视频的脚本文本的文本内容，通过语义标签可以获得视频的脚本文本想要表达的含义，通过形式标签可以获得视频在表达其所要表达的含义时所使用的方式，通过结构标签可以有效了解视频的脚本文本所使用的结构方式。基于这些信息即可从多个维度、较为全面地表征待处理视频所使用的脚本的特点和架构，当视频创作者使用由此生成的脚本框架时，即可生成与该视频的脚本特点和架构相类似的视频脚本，有效辅助视频创作者创作视频，大大提高了视频创作者的创作和生产效率，降低了创作成本，同时也为视频创作者提供了创作灵感，提升了创作体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为一种适用于本申请实施例的脚本生成方法的系统的示意图；

图2A为根据本申请实施例一的一种脚本生成方法的步骤流程图；

图2B为图2A所示实施例中的一种场景示例的示意图；

图2C为图2A所示实施例中的一种脚本框架的示意图；

图3为根据本申请实施例二的一种脚本生成方法的步骤流程图；

图4为根据本申请实施例三的一种脚本生成方法的步骤流程图；

图5为根据本申请实施例四的一种脚本生成方法的步骤流程图；

图6为根据本申请实施例五的一种脚本生成方法的步骤流程图；

图7A为根据本申请实施例六的一种脚本生成方法的步骤流程图；

图7B为图7A所示实施例中的一种可视化生成界面的示意图；

图8为根据本申请实施例七的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

图1示出了一种适用本申请实施例的脚本生成方法的示例性系统。如图1所示，该系统100可以包括脚本生成服务端102、通信网络104和/或一个或多个脚本生成客户端106，图1中示例为多个脚本生成客户端。

脚本生成服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，脚本生成服务端102可以执行任何适当的功能。例如，在一些实施例中，脚本生成服务端102可以用于生成脚本框架。作为可选的示例，在一些实施例中，脚本生成服务端102可以被用于通过对大量视频进行分析和处理，生成对应的脚本框架。例如，脚本生成服务端102可以于根据待处理视频的分镜信息对待处理视频进行切分，获得至少一个视频切片；获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成所述至少一个视频切片对应的文本序列，其中，语义标签用于表征文本信息的语义，形式标签用于表征文本信息的文本表达方式；对文本序列进行段落分割，并为分割后的段落生成结构标签；根据文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架并基于脚本框架生成脚本框架界面。

作为另一示例，在一些实施例中，脚本生成服务端102可以根据脚本生成客户端106的请求，将脚本框架发送到脚本生成客户端106供视频创作者使用。

作为可选的示例，在一些实施例中，脚本生成客户端106用于提供可视化生成界面，该可视化生成界面中包含有用于生成视频脚本的脚本生成选项栏位和视频模板推荐栏位；并接收用户针对脚本生成选项栏位或者视频模板推荐栏位的选择输入操作；以及，用于响应于选择输入操作，从脚本生成服务端102获取与选择输入操作所选择的选项所对应的脚本框架界面并展示脚本框架界面，脚本框架界面中至少展示有脚本框架信息以及针对脚本框架信息的操作选项。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。脚本生成客户端106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到脚本生成服务端102。通信链路可以是适合于在脚本生成客户端106和脚本生成服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

脚本生成客户端106可以包括可下载脚本框架或通过适当形式呈现与视频脚本生成相关的界面，以供视频创作者使用和操作的任何一个或多个客户端。在一些实施例中，脚本生成客户端106可以包括任何合适类型的设备。例如，在一些实施例中，脚本生成客户端106可以包括移动设备、平板计算机、膝上型计算机、台式计算机和/或任何其他合适类型的客户端设备。

尽管将脚本生成服务端102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由脚本生成服务端102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由脚本生成服务端102执行的功能。或者，可使用云服务实现脚本生成服务端102的功能。

基于上述系统，本申请实施例提供了一种脚本生成方法，以下通过多个实施例进行说明。

实施例一

参照图2A，示出了为根据本申请实施例一的一种脚本生成方法的步骤流程图。

本实施例的脚本生成方法可在脚本生成服务端执行，该脚本生成方法包括以下步骤：

步骤S202：根据待处理视频的分镜信息对所述待处理视频进行切分，获得至少一个视频切片。

视频（如电影、电视、短视频等）中的分镜是将连续画面以一次运镜为单位作分解，划分出来的视频单位，划分获得的分镜通常具有运镜方式、时间长度、对白、包括的视频帧或者分镜在视频中的开始时间和结束时间的信息等。在视频本身即携带分镜信息的情况下，可直接获得该分镜信息。而若视频本身未携带分镜信息，则可通过适当的分镜算法来对视频进行分镜分解，获得分镜信息，因一个镜头里的环境是不变的，对象的外形呈现例如人物的妆容的服装等也是一样的。基于此，可以基于图像相似度来进行分镜分解，获得分镜信息。但不限于此，也可以根据声音所对应的文本之间的语义相似度来进行分镜分解等，本实施例中对获得分镜的具体实现方式不作限制。

在针对待处理视频获得了其分镜信息的情况下，即可对其进行切分，获得一个或多个视频切片。

需要说明的是，本申请实施例中的待处理视频可以是短视频（时长在30分钟以内的视频，很多短视频可能只有几分钟），也可以是常规视频。但为了提高脚本框架生成的效率和样本的多样性，可选使用短视频。待处理视频的获取可由本领域技术人员采用适当方式获取，包括但不限于从网站收集、通过第三方购买等。此外，本申请实施例中，若无特殊说明，“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。

步骤S204：获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间。

视频中通常都包含有字幕、背景字、对白、旁白等信息，本申请实施例中，在获得了视频切片后，还获得每个视频切片对应的文本信息，该文本信息包括但不限于上述字幕、背景字、对白和旁白等语音转换后的文本，这些文本均可作为视频的脚本信息，以为后续生成脚本框架提供依据。

此外，在获得了视频切片后还为视频切片至少标注开始时间，根据各个视频切片的开始时间，即可确定各个视频切片之间的时序及先后关系，以为后续确定各个视频切片对应的文本信息之间的先后关系提供依据。

步骤S206：为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成至少一个视频切片对应的文本序列。

其中，语义标签用于表征文本信息的语义，形式标签用于表征文本的文本表达方式。

语义标签以句子为维度，用于描述该句子所表征的语义。例如，可以对一个完整语义的句子的描述对象进行标注，以便了解该句子的语义。如，针对脚本中描述的某一商品的内容，可以标注商品属性，如成分、口感、外观等。又例如，针对脚本中的某一段对白，对其进行语义分析和标注，如可以标注关键词或该句文本表达的主要含义字词等。

形式标签也以句子为维度，用于描述该句子的文本表达方式。例如，可以对一个完整语义的句子的叙述手法进行标注，以视频中描述的某一商品为例，不论是否是商品内容，都可标注，如设置悬念，逻辑转折等。

除为每个视频切片对应的文本信息生成语义标签和形式标签之外，本步骤中，还按照文本信息对应的视频切片的开始时间，生成视频切片对应的文本序列。例如，待处理视频被切分为3个视频切片，被标注的开始时间分别为相对于视频开始的相对时间，如视频切片A的开始时间为3分10秒，其对应的文本信息为“天天盯着电脑，眼睛累”；视频切片B的开始时间为4分20秒，其对应的文本信息为“各种眼药水铺天盖地，不知道哪个好”；视频切片C的开始时间为5分，其对应的文本信息为“试试XXX眼药水”。可见，根据视频切片的开始时间，即可将上述文本信息组合成一个文本序列，如“天天盯着电脑，眼睛累；各种眼药水铺天盖地，不知道哪个好；试试XXX眼药水”。

步骤S208：对文本序列进行段落分割，并为分割后的段落生成结构标签。

对文本序列的段落分割可由本领域技术人员根据实际情况采用适当算法实现，包括但不限于用于段落分割的神经网络模型，针对文本的split算法或函数等，本申请实施例对此不作限制。

在对文本序列进行分割获得一个或多个段落后，还需要为这些段落生成结构标签。其中，结构标签是一种对段落进行的标注，用于描述段落的作用，比如封面、转场、引入悬念等等。通过结构标签，可以便于了解脚本的段落架构信息，以为后续生成脚本框架提供依据。

步骤S210：根据视频切片对应的文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架。

通过文本信息可获得视频的脚本文本的文本内容，通过语义标签可以获得视频的脚本文本想要表达的含义，通过形式标签可以获得视频在表达其所要表达的含义时所使用的方式，通过结构标签可以有效了解视频的脚本文本所使用的结构方式。基于这些信息即可从多个维度、较为全面地表征待处理视频所使用的脚本的特点和架构，并由此生成脚本框架。

以下，以一个场景示例对上述过程进行示例性说明，如图2B所示。

图2B中，设定待处理视频为短视频X，其包含三个分镜头，根据这三个分镜头的信息，对短视频X进行切分，获得视频切片A、B和C。

进而，针对视频切片A、B和C，分别获取它们的文本信息（如根据其字幕文本获取、或者根据对白台词获取等）。假设，视频切片A的文本信息为“天天盯着电脑，眼睛累”、视频切片B的文本信息为“各种眼药水铺天盖地，不知道哪个好”、视频切片C的文本信息为“试试XXX眼药水”。且，相应地，分别为视频切片A、B、C标注相对于短视频X的相对开始时间，设定视频切片A的开始时间为3分10秒、视频切片B的开始时间为4分20秒、视频切片C的开始时间为5分。

接着，分别为视频切片A、B和C生成语义标签和形式标签。本示例中，假设对视频切片A、B、C对应的文本信息分别进行语义分析，获得视频切片A对应的语义标签为“问题引入”、获得视频切片B对应的语义标签为“同理共情”、获得视频切片C对应的语义标签为“产品介绍”。此外，还会对视频切片A、B和C对应的文本信息分别进行基于文本表达方式的分析，获得对应的形式标签，例如，获得视频切片A对应的形式标签为“场景描写”、获得视频切片B对应的形式标签为“设置悬念”、获得视频切片C对应的形式标签为“结局呈现”。此外，还会根据各个视频切片的开始时间，将视频切片对应的文本信息整合生成文本序列，如“天天盯着电脑，眼睛累；各种眼药水铺天盖地，不知道哪个好；试试XXX眼药水”。

然后，对上述文本序列“天天盯着电脑，眼睛累；各种眼药水铺天盖地，不知道哪个好；试试XXX眼药水”进行段落分割，本示例中，设定分割后的段落与每个视频切片相对应，即分割后获得三个段落，分别为“天天盯着电脑，眼睛累”、“各种眼药水铺天盖地，不知道哪个好”、“试试XXX眼药水”，并生成对应的段落的结构标签，例如，“入场”、“引入悬念”、“给出答案”。但本领域技术人员应当明了的是，因本示例中的文本序列较为简单，因此段落划分后与各个视频切片对应的文本信息相同，但在实际应用中，一个段落可能包括多个视频切片对应的文本信息，也可能包括一个视频切片中文本信息中的部分文本信息，还可能包括多个视频切片对应的文本信息中的部分信息，例如，在某个段落中，包含视频切片B中的部分文本和视频切片C中的部分文本，等等。也即，段落划分与视频切片不必然具有对应关系。

接着，基于之前获得的文本信息、语义标签、形式标签、各个段落及结构标签，生成短视频X对应的脚本框架。

一种示例性的脚本框架如图2C所示，由图2C中可见，在界面中展示的脚本框架有各个段落的指示，如图中所示，在“段落”下为各个段落的信息，本示例中为段落1、2和3，但在实际应用中，每个段落还可以具有段落标题，这样，在界面中将显示每个段落对应的标题。在界面中间的主体部分，以段落为单位展示有包括各个段落对应的文本、因段落对应的文本由视频切片对应的文本信息组成，因此，每个段落下的文本又以视频切片为单位进行了划分，每个视频切片对应的文本信息标示有语义标签、形式标签。此外，还展示有各个段落对应的结构标签，具体如图2C中间部分所示。此外，本示例的脚本框架中，界面右铡还设置有可选项，示意为“贴纸文案”，用于视频创作者在基于该脚本框架生成的视频中，在相应的脚本位置以AR（增强现实）形式形成二维图像贴纸，以增加生成的视频的趣味性，并可重点突出某些信息。但不限于此，在实际应用中，本领域技术人员可根据实际需要，基于前述脚本框架进行其它可选项设置。

可见，通过本实施例，基于对大量视频的分析和处理，生成多种可用于脚本生成的脚本框架，以使用户可以基于这些脚本框架进行后续视频的脚本生成。针对每个用于生成脚本框架的待处理视频的处理包括：按照视频的分镜信息对待处理视频进行切分，形成一个或多个视频切片，以此方便后续处理；进而，获取每个视频切片对应的文本信息，并为该文本信息生成相应的语义标签和形式标签，此外，还为每个视频切片标注开始时间，以基于该开始时间生成与切分的视频切片对应的文本序列；在此基础上，对生成的文本序列进行段落分割并为分割后的段落生成结构标签；最后，再基于文本信息、语义标签、形式标签、段落及结构标签来生成脚本框架。由此，通过文本信息可获得视频的脚本文本的文本内容，通过语义标签可以获得视频的脚本文本想要表达的含义，通过形式标签可以获得视频在表达其所要表达的含义时所使用的方式，通过结构标签可以有效了解视频的脚本文本所使用的结构方式。基于这些信息即可从多个维度、较为全面地表征待处理视频所使用的脚本的特点和架构，当视频创作者使用由此生成的脚本框架时，即可生成与该视频的脚本特点和架构相类似的视频脚本，有效辅助视频创作者创作视频，大大提高了视频创作者的创作和生产效率，降低了创作成本，同时也为视频创作者提供了创作灵感，提升了创作体验。

实施例二

参照图3，示出了根据本申请实施例二的一种脚本生成方法的步骤流程图。

本实施例中，重点对待处理视频的获得进行说明。本实施例的脚本生成方法可在脚本生成服务端执行，该脚本生成方法包括以下步骤：

步骤S302：获取热度满足热度阈值的热门视频。

本步骤中，针对大量的视频，先进行初步筛选，获得具有一定热度阈值的视频，作为本申请实施例中的热门视频。

其中，所述热度阈值可由本领域技术人员根据实际情况适当设定，因是初步筛选，该热度阈值可设定的稍为宽松，能获得一定数量、具有一定受众的视频即可。例如，可以是视频网站或APP中排名靠前的N个视频；或者是视频网站或APP中受欢迎的N个视频板块中的视频；或者是视频网站或APP中受欢迎的N个话题下的视频；或者是某些受欢迎的热门博主的视频（如KOL(Key Opinion Leader，关键意见领导)博主的视频等），等等。

步骤S304：基于热门视频，确定候选视频集合。

本步骤中，对步骤S304初步筛选获得的热门视频进行再次筛选，以获得候选视频集合。

例如，可以从热门视频中，获得热度指标满足预设热度标准的热门视频，其中，热度指标包括以下至少之一：视频的浏览量、点赞量、转发量和评论量、视频生产者的被浏览量、被关注量、被评论量、被转发量、被关注度排名；根据满足预设热度标准的热门视频，确定候选视频集合。通过视频的浏览量、点赞量、转发量和评论量，可以有效评估视频的受欢迎程度；通过视频生产者的被浏览量、被关注量、被评论量、被转发量、被关注度排名可以有效评估视频生产者的受欢迎程度。受欢迎程度越高，视频的可借鉴性就越强，可作为生成视频脚本的视频候选。其中，视频的评论量可以包括直接评论（直接针对视频的评论）和附评论（基于已有评论进行的再次评论）的总评论数量，也可以仅包括直接评论的数量。类似地，视频生产者的被评论量也可以包括直接评论和附评论的总评论数量，也可以仅包括直接评论的数量。此外，在一种可行方式中，还可以对评论进行预筛选，从中筛选出正向倾向性意见的评论，以该类评论的数量作为视频的评论量或视频生产者的被评论量。从而，为筛选出更符合要求的视频提供依据。

热度标准可根据各个指标单独设置，也可综合考量。在一种可行方式中，可以针对热门视频中的每个视频，基于各热度指标及各热度指标对应的权重进行加权平均处理；将加权平均结果超过预设阈值的视频，确定为热度指标满足预设热度标准的热门视频。其中，所述预设阈值由本领域技术人员根据实际需求适当设置，例如，可根据所需的候选视频集合中的视频的数量来进行设置等，本申请实施例对此不作限制。通过加权平均的方式，可以较为全面和客观地评论视频的热度，即受欢迎程度。

基于该种方式，在更进一步的可选方案中，还可以根据热门视频的数量，对各热度指标对应的权重和/或预设阈值进行动态调整，以使调整后的权重和阈值更符合筛选需求，也使视频筛选具有更好的灵活性。例如，在同一应用场景下，可以根据该应用场景的视频体量动态调整所述权重和阈值，或者，根据历史的视频筛选数据作为依据来调整所述权重和阈值。

通过上述过程，可筛选出多种不同风格或应用场景或行业的候选视频集合。

需要说明的是，在初始冷启动阶段，可以批量获得热门视频；在后续的增量更新阶段，则可以周期性如每周更新相应的视频数据(新增的视频以及存量视频的点赞，收藏数)，以减轻数据处理负担，提高数据处理效率。

此外，在某些情况下，脚本框架的后续使用者如视频创作者通常更为关心与其自身更相关的视频，或者与其需要在视频中展现的对象（如商品等）更相关的视频。为满足后期使用脚本框架的视频创作者的上述需求，在一种可行方式中，还可以在根据满足预设热度标准的热门视频，确定候选视频集合时：确定满足预设热度标准的热门视频分别与预设应用场景的相关度，获得相关度满足预设相关度标准的热门视频；根据相关度满足预设相关度标准的热门视频，确定候选视频集合。其中的预设应用场景即视频创作者可能需要使用的应用场景，包括但不限于：电子商务、节目推广、活动组织等等。例如，针对商品进行介绍或售卖的电子商务类应用场景。并且，还可进一步对相关场景进行细分，比如，保健品类电子商务应用场景、服装类电子商务应用场景，等等。通过确定热门视频与预设应用场景的相关度的方式，一方面可对视频进行基于应用场景的分类，另一方面，也可从中高效筛选出满足视频创作者实际需求的视频，提升视频筛选效率，进而提升后续的脚本框架生成的效率。

在确定热门视频与预设应用场景相关度时，可以根据预设应用场景对应的场景关键词和满足预设热度标准的热门视频对应的标题的相似度，获得相关度满足预设相关度标准的热门视频。场景关键词可有效表征场景特性，而视频标题可有效表征视频内容，通过比较二者的相似度，可以提高确定热门视频与预设应用场景相关度的效率。

在一种具体确定方式中，可以将预设应用场景对应的场景关键词转换为关键词向量组；将满足预设热度标准的热门视频对应的标题转换为句向量；根据热门视频中，句向量与关键词向量组中的任一向量的相似度满足相似度阈值的视频，获得相关度满足预设相关度标准的热门视频。基于场景关键词生成的关键词向量可以携带场景的语义信息，以更有效地表征场景。例如，对于“苹果”一词，单从该词上很难判断出其表征的是水果还是手机，但如果其场景为手机，则在该场景下的“苹果”意即表征“苹果”牌手机，由此，该场景下的场景关键词转换成的关键词向量即携带有其场景手机的信息。可见，通过将场景关键词转换为关键词向量可更准确地表征关键词所针对的对象，更高效地匹配到合适的视频，提高匹配效率和准确度。

而针对热门视频的标题转换为句向量，可以对满足预设热度标准的热门视频对应的标题进行切词，从切词后获得的标题词中去除停用词，将去除了停用词之后的标题词转化为对应的词向量；根据标题词对应的词向量，生成标题对应的句向量。由此，去除影响标题表意的停用词，可以仅针对有用的标题词进行处理，以获得更能有效表征标题的含义的句向量。

由上可见，通过上述多种方式，即可高效获得满足预设热度标准的热门视频。但在某些应用场景中，为了使筛选出的视频与应用场景的符合度更高，还会对上述筛选出的视频进行再次筛选。例如，获得针对热门视频与预设应用场景的相关度满足预设相关度标准的热门视频的应用筛选反馈，根据反馈结果确定最终的候选视频集合。其中的应用筛选反馈可通过人工筛选实现，也可通过神经网络模型或算法等筛选实现。

步骤S306：从候选视频集合中，获取待处理视频。

在候选视频集合生成后，可对其中的视频进行用于脚本框架生成的处理，处理时，每次可按照一定规则（如随机选取、顺序选取等等，本申请实施例不作限制）从中选取一个视频，即为待处理视频。

在一个上述过程的具体示例中，可以先从多个视频平台收集一些具有一定受欢迎程度（满足热度阈值）的视频；然后，根据这些视频的点赞量、转发量和评论量进行加权平均处理，确定加权平均处理的结果是否高于设定的阈值，保留高于阈值的那些视频；进而，通过Word2vec将所有预先提供的应用场景关键词转化为关键词向量 W_w2v，得到一个关键词向量组{W_w2v}；将保留的视频的标题切词，去掉停用词，将得到的所有标题词转化为词向量，并将所有的标题词的词向量加和得到句向量S_w2v；接着，对{W_w2v}中的每一个W_w2v，分别和S_w2v求相似度，如果相似度高于某个阈值则保留，否则进行下一相似度计算和阈值比较；将预先获得的KOL视频保留（也可与从平台上收集的视频一样进行前述筛选处理），并和相似度高于阈值的视频合并，得到一个视频集合；进而，将该视频集合中的视频随机分发给不同的用户，通过用户人工的反馈来确定视频集合中可以保留下来的视频，或者，通过视频字幕、视频配音、视频帧图像等与预设的字幕或配音或图像进行相似度计算，根据计算结果进行再次筛选。但不限于此，其它再次筛选的方式也同样适用本实施例。

步骤S308：根据待处理视频的分镜信息对待处理视频进行切分，获得至少一个视频切片。

例如，可以对待处理视频进行分镜头分析，获得对应的分镜信息，该分镜信息包括分镜对应的视频帧信息，或者，分镜对应的时间戳；根据分镜信息，确定待处理视频对应的各个分镜的视频帧边界；基于确定的视频帧边界，对待处理视频进行切分，获得至少一个视频切片。其中，分镜头分析包括但不限于视频帧图像分析方式、字幕分析方式、台词语音分析方式等。通过分镜头分析获得分镜的视频帧信息或时间戳，由此进行分镜，可以使得分镜准确度更高，更便于后续处理。但其它分镜方式也同样适用本实施例。

步骤S310：获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间。

步骤S312：为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成至少一个视频切片对应的文本序列。

步骤S314：对文本序列进行段落分割，并为分割后的段落生成结构标签。

步骤S316：根据文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架。

上述步骤S310-S316的执行均可参照前述实施例一中相关部分的描述，在此不再赘述。

通过本实施例，基于不同方式对视频进行多轮筛选，以获得较为受欢迎的仆街视频集合，并从中选择待处理视频进行处理，为脚本框架的生成提供了有效的视频基础，使得后续基于生成的脚本框架进行视频脚本创作乃至视频创作获得的产品的可能受欢迎程度更高。并且，基于对大量视频的分析和处理，生成多种可用于脚本生成的脚本框架，以使用户可以基于这些脚本框架进行后续视频的脚本生成。针对每个用于生成脚本框架的待处理视频的处理包括：按照视频的分镜信息对待处理视频进行切分，形成一个或多个视频切片，以此方便后续处理；进而，获取每个视频切片对应的文本信息，并为该文本信息生成相应的语义标签和形式标签，此外，还为每个视频切片标注开始时间，以基于该开始时间生成与切分的视频切片对应的文本序列；在此基础上，对生成的文本序列进行段落分割并为分割后的段落生成结构标签；最后，再基于文本信息、语义标签、形式标签、段落及结构标签来生成脚本框架。由此，通过文本信息可获得视频的脚本文本的文本内容，通过语义标签可以获得视频的脚本文本想要表达的含义，通过形式标签可以获得视频在表达其所要表达的含义时所使用的方式，通过结构标签可以有效了解视频的脚本文本所使用的结构方式。基于这些信息即可从多个维度、较为全面地表征待处理视频所使用的脚本的特点和架构，当视频创作者使用由此生成的脚本框架时，即可生成与该视频的脚本特点和架构相类似的视频脚本，有效辅助视频创作者创作视频，大大提高了视频创作者的创作和生产效率，降低了创作成本，同时也为视频创作者提供了创作灵感，提升了创作体验。

实施例三

参照图4，示出了根据本申请实施例三的一种脚本生成方法的步骤流程图。

本实施例中，以对视频切片对应的文本信息的处理为重点，对本申请实施例的脚本生成方法进行说明。

步骤S402：根据待处理视频的分镜信息对待处理视频进行切分，获得至少一个视频切片。

本步骤可参照前述实施例一或二中相关部分的描述，在此不再赘述。

步骤S404：获取每个视频切片对应的文本信息，并为每个视频切片标注开始时间和时长。

本申请实施例中，文本信息可以来自于视频中的字幕文本、剧本台词文本、对白语音对应的文本、旁白语音对应的文本等。基于此，在一种可行方式中，可以先获取每个视频切片对应的参考文本。具体地，可以获取每个视频切片中的字幕文本、旁白语音、对白语音、台词文本中的至少一种；根据字幕文本、旁白语音对应的旁白文本、对白语音对应的对白文本、台词文本中的至少一种，生成每个视频切片对应的参考文本。这些不同来源的文本均可从一定程度上反映视频切片内容和含义，通过上述不同来源的文本获得视频切片对应的参考文本，可有效提高参考文本获取的灵活性和有效性。

进一步地，针对获得的每个视频切片对应的参考文本，还可以对该参考文本进行预设字词过滤，根据过滤后的参考文本生成每个视频切片对应的文本信息。其中，预设字词可有本领域技术人员根据实际需求设置，通常可为实体词、停用词等，以使进行过预设字词过滤后的参考文本能够更有效表征相应的含义及特征。

此外，本实施例中，与前述实施例不同的是，本步骤中为每个视频切片除标注开始时间外，还标注视频切片的时长，以为后续进行段落分割提供依据，提高分割效率。

例如，在一个具体示例中，在根据分镜信息将待处理视频切片后，每个视频切片记为： V_split；将每个视频切片V_split中的旁白、对白等人声语音信息转译为文本T_s2t，并将得到的文本作为参考字幕；对于上述过程生成的文本T_s2t过滤掉部分实体词，如平台名或网站名，IP名和品牌名等；标注每个视频切片的时长 T_cnt 和开始时间 T_start 作为后续参考。

步骤S406：为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成所述至少一个视频切片对应的文本序列。

步骤S408：对文本序列进行段落分割，并为分割后的段落生成结构标签。

对文本序列的段落分割可由本领域技术人员根据实际情况采用适当算法实现，包括但不限于用于段落分割的神经网络模型，针对文本的split算法或函数等，本申请实施例对此不作限制。在前述步骤S404为每个视频切片标注了时长的情况下，还可以根据文本序列中的每个文本信息对应的视频切片的时长，对文本序列进行基于段落主题的段落分割。这种方式更为简单宜用，实现复杂度和实现成本都较低。

步骤S410：根据文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架。

本步骤的具体实现可参照前述实施例一中相关部分的描述，在此不再赘述。

继续沿用前述步骤S404中的示例，在标注了每个视频切片的时长 T_cnt 和开始时间 T_start 作为后续参考后，可以将上述生成的文本T_s2t自动标注,生成语义标签SEM_tag 和形式标签 FORM_tag；按照文本T_s2t 对应的T_start 将文本排序，得到一个文本序列 SEQ_text，并标注组成该文本序列的每段文本的T_cnt，该文本的T_cnt根据文本与视频切片的对应关系及视频切片的T_cnt确定，两者数值相同。再按照时间，根据主题进行段落分割，将SEQ_text 切分为一个个文本段，成为一个段落 SECT_text，并对段落标注，生成结构标签 STRT_tag；按照时间，将得到T_s2t、SEM_tag 、FORM_tag、SECT_text和STRT_tag 组合，并可根据需求增加相应的说明，以生成脚本（结构从大到小可以依次为：脚本-段落-分段）。进而，基于该脚本生成脚本框架。

实施例四

参照图5，示出根据本申请实施例四的一种脚本生成方法的步骤流程图。

本实施例中，以基于脚本框架的展示和操作为重点，对本申请实施例的脚本生成方法进行说明。本实施例的脚本生成方法可在脚本生成服务端执行，该脚本生成方法包括以下步骤：

步骤S502：根据待处理视频的分镜信息对所述待处理视频进行切分，获得至少一个视频切片。

步骤S504：获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间。

步骤S506：为每个视频切片对应的文本信息生成语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，生成至少一个视频切片对应的文本序列。

步骤S508：对文本序列进行段落分割，并为分割后的段落生成结构标签。

步骤S510：根据文本信息、语义标签、形式标签、分割后的段落和结构标签，生成待处理视频对应的脚本框架。

上述步骤S502-S510的具体实现可参照前述实施例一至三中相关部分的描述，在此不再赘述。

步骤S512：获取用户输入的基于脚本框架的脚本编辑操作，根据脚本编辑操作生成视频脚本。

生成的脚本框架主要用于后续为视频创作者提供服务，以使视频创作者可基于该脚本框高效、快速地生成视频脚本，进而可生成视频。通常情况下，该脚本框架会通过一定的方式展示给用户（包括视频创作者），以方便用户操作。

为此，在一种可行方式中，可以按照预设展示规则，通过展示界面展示脚本框架，以及展示基于脚本框架进行脚本编辑的编辑输入设置；其中，编辑输入设置至少包括以下之一：用于对文本信息进行编辑的输入设置、用于基于文本信息在待生成的视频中进行增强现实图像编辑的输入设置、用于输入配音的输入设置、用于输入视频或图像的输入设置。其中，用于对文本信息进行编辑的输入设置包括但不限于对文本信息中的部分或全部文字进行修改、基于这些文字进行增加或删除等操作；用于基于文本信息在待生成的视频中进行增强现实图像编辑的输入设置包括但不限于在视频中展示文本信息时，以展示的文本信息为基础，采用增强现实AR技术在视频帧中以二维文本图像或三维文本图像方式展示独立于文本信息的其它文字；用于输入配音的输入设置包括但不限于根据文本信息进行配音等；用于输入视频或图像的输入设置包括但不限于输入用于生成视频的视频素材或图像素材的设置等。通过上述方式，可以灵活地对展示的脚本框架中的内容进行编辑，以实现视频创作者的创作目的，满足视频创作者的创作需求。

在一种可选的具体展示方式中，可以按照段落和结构标签，在展示界面中将分割后的段落分别展示在对应结构标签下的展示区域中；在段落的展示区域中，对应展示段落所包含的文本信息及文本信息对应的语义标签和形式标签。由此，即可实现对脚本框架的规范性展示，又方便了对展示内容的管理。

可选地，在段落的展示区域中，还可以对应展示段落所包含的文本信息对应的视频切片的时长，以方便视频创作者了解视频切片及其对应的文本部分的展示时长，便于后续创作控制。

一种脚本框架的展示界面的示例如图2C所示。

基于展示的脚本框架，即可接收用户的脚本编辑操作，根据脚本编辑操作生成视频脚本。例如，在一种可行方式中，接收用户根据语义标签所指示的语义，对展示的文本信息进行基于所述语义的修改，其中，修改后的文本信息的语义和修改前的文本信息的语义相近；接收用户按照形式标签所指示的文本表达方式，对修改后的文本信息进行表达调整；根据表达调整的结果，形成并展示文本信息形成的新的段落脚本。也即，用户基于脚本框架的脚本编辑操作后形成的成果与原脚本框架的相似程度较高，以使生成的视频脚本也与原视频脚本的风格相似，既可使视频创作者对生成的视频脚本预先就具有了解和认知，又提高其创作效率。

此外，在另一种可行方式中，还可以对用户使用的脚本框架进行统计，获得用户偏好脚本框架及生成用户偏好脚本框架所使用的待处理视频的类型信息；根据该类型信息更新用户的用户偏好信息。对于某用户来说，其创作的视频的主要针对对象可能是相对固定的，因此，其使用的脚本框架的类型也相对固定，形成偏好脚本框架。但随着脚本框架使用的增多，或者创作的视频针对的对象发生了变化，均可能导致其偏好使用脚本框架发生变化。基于此，本方式中，会定期或不定期对用户使用的脚本框架进行统计，以确定用户一定时期内偏好使用的脚本框架及对应的生成这些脚本框架的待处理视频的类型信息，进而基于此对用户的偏好信息进行更新，例如，将用户的原偏好食品更新为新偏好服装等，以适应用户的变化，提高用户体验。

可见，通过本实施例，可以使得用户基于生成的视频脚本框架，进行高效、灵活的视频脚本创作，极大地提升了视频脚本创作的效率，进而提升了视频创作的效率，有效满足了用户需求，提升了用户体验。

实施例五

参照图6，示出了根据本申请实施例五的一种脚本生成方法的步骤流程图。

本实施例的脚本生成方法可在脚本生成客户端执行，该脚本生成方式包括以下步骤：

步骤S602：展示用于视频脚本生成的可视化生成界面。

其中，可视化生成界面中包含有用于生成视频脚本的脚本生成选项栏位和视频模板推荐栏位。脚本生成选项栏位提供了多项可选的可展示脚本框架的选项，选项不同对应的脚本框架也不同，以方便视频创作者根据需求选择使用。视频模板推荐栏位展示有多个视频模板，每个视频模板都对应有已生成的相应脚本框架，用户可以根据展示，从推荐的多个视频模板中选择喜好的模板，进而使用该模板对应的脚本框架，由此，使得用户对待使用的脚本框架及由该脚本框架生成的视频脚本及可能的视频具有更直观的了解和认知。

步骤S604：接收用户针对脚本生成选项栏位或者视频模板推荐栏位的选择输入操作。

选择输入操作可具体方式可灵活设置，方便用户使用和操作即可。

步骤S606：根据选择输入操作，展示选择输入操作对应的选项的脚本框架界面，以通过脚本框架界面展示对应的脚本框架信息以及针对脚本框架信息的操作选项。

其中，脚本框架信息至少包括：一或多个段落、各段落的文本。其中，该脚本框架及其中的内容均可通过前述多个实施例中描述的脚本生成方法生成。

通过本实施例，对用户提供了可视化生成界面，以通过该界面展示脚本生成选项栏位和视频模板推荐栏位，以便于用户根据需求选择。并且，可以根据用户选择展示对应的脚本框架界面，以使用户可基于该脚本框架界面进行高效的视频脚本生成及后续的视频生成，极大地方便了用户使用，提升了用户使用体验。

实施例六

参照图7A，示出了根据本申请实施例六的一种脚本生成方法的步骤流程图。

本实施例的脚本生成方法可在脚本生成客户端执行，该脚本生成方法包括以下步骤：

步骤S702：展示用于视频脚本生成的可视化生成界面。

其中，可视化生成界面中包含有用于生成视频脚本的脚本生成选项栏位和视频模板推荐栏位。

在一种可行方式中，脚本生成选项栏位包括以下至少之一：脚本类型选项、脚本适用行业选项、脚本时长选项、脚本文本长度选项、脚本中所包含的关键字的选项、智能脚本生成的选项、视频解析生成脚本框架的选项、脚本分镜内容编辑的选项。

一种示例性的可视化生成界面如图7B所示，从图7B中可以看到，其仅示出了“脚本类型”选择项、“适用行业”选择项、“时长”选择项、“智能脚本”（生成）的选择项、“视频脚本解析”（以生成脚本框架）的选择项、“定制脚本”（以编辑脚本分镜内容）的选择项，用户可根据需求灵活选择。

而对于视频模板推荐栏位，可选地，视频模板推荐栏位包括以下至少之一：基于推荐的视频进行视频脚本生成的选项；其中，推荐的视频为向用户推荐的热门视频、根据用户的视频浏览偏好向用户推荐的视频、根据用户使用的视频脚本框架的偏好向用户推荐的视频、根据待生成的视频所针对的视频对象所属的领域向用户推荐的视频中的至少一种。

在图7B所示的示例界面中，展示有四个视频模板推荐栏位，每个栏位一个视频模板，每个视频模板对应有“开始创作”选项，通过该选项，可直接使用该视频模板对应的脚本框架进行创作。此外，每个视频模板还具有视频标题及视频针对对象的属性信息，此外，每个视频模板还被标注了视频类型如“知识带货”、“科普知识”等，以及视频模板针对的对象的类型，如“茶”、“保健品”、“餐饮具”、“美容护肤/美体/精油”等，以便于用户对视频模板的类型及内容有更清楚的了解，方便选择。

步骤S704：接收用户针对脚本生成选项栏位或者视频模板推荐栏位的选择输入操作。

例如，针对所述脚本生成选项栏位的选择输入操作包括以下至少之一：针对展示的多个脚本类型的点选操作、语音输入操作、手势输入操作、文本输入操作中的一种；针对展示的多个脚本适用行业的点选操作、语音输入操作、手势输入操作、文本输入操作中的一种；针对展示的多个脚本时长的点选操作、语音输入操作、手势输入操作、文本输入操作中的一种；针对展示的多个脚本文本长度的点选操作、语音输入操作、手势输入操作、文本输入操作，以及自定义文本长度的文本输入操作中的一种；针对展示的多个脚本中所包含的关键字的点选操作、语音输入操作、手势输入操作、文本输入操作，以及自定义关键字的文本输入操作中的一种；基于待生成视频所针对的视频对象，进行智能脚本一键触发生成的输入操作；针对用户上传的视频进行解析，并生成对应的脚本框架的输入操作；用于接收用户输入的针对脚本分镜内容的编辑操作。

针对视频模板推荐栏位的所述选择输入操作包括以下至少之一：针对所述选项的点选操作、针对所述选项的语音输入选择操作、针对所述选项的手势输入选择操作，等等。

由此，可使用户可以灵活地进行相应的选择输入操作。

步骤S706：根据选择输入操作，展示选择输入操作对应的选项的脚本框架界面。

一种示例性的脚本框架界面如图2C所示，在此不再赘述。

步骤S708：通过脚本框架界面展示对应的脚本框架信息以及针对脚本框架信息的操作选项。

其中，脚本框架信息至少包括：一或多个段落、各段落的文本。本实施例中，可选地，脚本框架信息还包括：段落对应的作用信息、段落的段落主题、文本的语义信息、和文本的文本表达方式信息。其中，文本的语义信息为用于表征文本的语义的语义标签，文本的文本表达方式信息为用于表征文本的文本表达方式的形式标签，段落的结构信息为用于表征段落的作用的结构标签。其中，语义标签、形式标签、结构标签的生成均可参照前述多个实施例中相应部分的描述，在此不再赘述。

基于此，针对脚本框架信息的操作选项至少包括：针对文本的编辑选项，如图2C中每个文本下对应的编辑框，在该编辑框中展示有对应的文本，且为可编辑格式，用户可基于这些文本直接进行编辑，如增、删、改等。

此外，针对脚本框架信息的操作选项还可以包括以下至少之一：用于基于文本在待生成的视频中进行增强现实图像编辑的操作选项（如图2C中文本编辑框右侧的“贴纸文案”下面的“+”符号）、用于编辑与文本对应的语音的操作选项（如图2C中的“配音：自动合成”选项）、用于编辑与文本对应的视频或图像的操作选项（如图2C中的“添加素材”选项）、用于对段落进行编辑的操作选项（如图2C中的“段落编辑”选项）、用于批量导入脚本创作素材的操作选项（如图2C中的“批量导入素材”选项）。

进一步可选地，针对脚本框架信息的操作选项还包括以下至少之一：根据文本进行脚本创作素材的智能匹配的操作选项（如图2C中的“素材智能匹配”选项）、基于对脚本框架信息进行被用户选择的操作选项所指示的操作的结果自动生成视频的操作选项（如图2C中的“一键出片”选项）。

此外，在脚本框架还具有相应的语义标签、形式标签和结构标签的情况下，还可以在脚本框架界面中，将结构标签对应的段落展示在结构标签下的段落展示区域中；并且，在段落展示区域中，对应展示段落所包含的文本及该文本对应的语义标签和形式标签，其中，语义标签用于表征所述文本的语义，形式标签用于表征文本的文本表达方式。

通过上述多种选项，用户可实现多样化的视频脚本生成选择和操作，极大地提升了用户进行视频脚本创作的灵活性。

步骤S710：接收对操作选项的触发操作，根据触发操作对脚本框架界面中展示的脚本框架信息执行操作选项所指示的操作。

由此，脚本框架信息将随着操作选项所指示的操作而发生变化，以满足视频创作者的实际创作需求，生成视频创作者所需要的视频脚本。

需要说明的是，本实施例中所述的脚本框架均可通过如前多个实施例中所述的方法生成。

通过本实施例，对用户提供了可视化生成界面，以通过该界面展示脚本生成选项栏位和视频模板推荐栏位，以便于用户根据需求选择。并且，可以根据用户选择展示对应的脚本框架界面，以使用户可基于该脚本框架界面中相应的选项对脚本框架信息进行编辑操作，由此进行高效的视频脚本生成及后续的视频生成，极大地方便了用户使用，提升了用户使用体验。

实施例七

参照图8，示出了根据本申请实施例七的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它电子设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行上述脚本生成方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行前述多个方法实施例中任一所描述的脚本生成方法。

程序810中各步骤的具体实现可以参见上述脚本生成方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，并具有相对应的有益效果，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一脚本生成方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的脚本生成方法方法。此外，当通用计算机访问用于实现在此示出的脚本生成方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的脚本生成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种脚本生成方法，包括：

根据待处理视频的分镜信息对所述待处理视频进行切分，获得多个视频切片；

获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；

为每个视频切片对应的文本信息进行自然语言处理，以生成所述文本信息对应的语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，对所述文本信息进行拼接，以生成所述多个视频切片对应的文本序列，其中，所述语义标签用于表征所述文本信息的语义，所述形式标签用于表征所述文本信息的文本表达方式；

对所述文本序列进行段落分割，并为分割后的段落生成结构标签；

根据所述文本信息、所述语义标签、所述形式标签、分割后的所述段落和所述结构标签，生成所述待处理视频对应的脚本框架；

按照预设展示规则，展示所述脚本框架的展示界面；

在所述展示界面中，按照所述结构标签，在展示界面中将分割后的所述段落分别展示在对应结构标签下的展示区域中；

在所述段落的展示区域中，对应展示所述段落所包含的文本信息及所述文本信息对应的语义标签和形式标签。

2.根据权利要求1所述的方法，其中，

所述获取每个视频切片对应的文本信息，包括：获取每个视频切片对应的参考文本；对所述参考文本进行预设字词过滤，根据过滤后的参考文本生成所述每个视频切片对应的文本信息；

所述为每个视频切片标注至少开始时间，包括：为每个视频切片标注开始时间和时长；

所述对所述文本序列进行段落分割，包括：根据所述文本序列中的每个文本信息对应的视频切片的时长，对所述文本序列进行基于段落主题的段落分割。

3.根据权利要求2所述的方法，其中，所述获取每个视频切片对应的参考文本，包括：

获取每个视频切片中的字幕文本、旁白语音、对白语音、台词文本中的至少一种；

根据所述字幕文本、所述旁白语音对应的旁白文本、所述对白语音对应的对白文本、所述台词文本中的至少一种，生成每个视频切片对应的参考文本。

4.根据权利要求1-3任一项所述的方法，其中，在所述根据待处理视频的分镜信息对所述待处理视频进行切分，获得多个视频切片之前，所述方法还包括：

获取热度满足热度阈值的热门视频；

基于所述热门视频，确定候选视频集合；

从所述候选视频集合中，获取所述待处理视频;

其中，所述基于所述热门视频，确定候选视频集合，包括：从所述热门视频中，获得热度指标满足预设热度标准的热门视频，其中，所述热度指标包括以下至少之一：视频的浏览量、点赞量、转发量和评论量、视频生产者的被浏览量、被关注量、被评论量、被转发量、被关注度排名；根据满足预设热度标准的热门视频，确定候选视频集合。

5.根据权利要求4所述的方法，其中，所述根据满足预设热度标准的热门视频，确定候选视频集合，包括：

确定满足预设热度标准的热门视频分别与预设应用场景的相关度，获得相关度满足预设相关度标准的热门视频；

根据相关度满足预设相关度标准的热门视频，确定候选视频集合。

6.根据权利要求4所述的方法，其中，所述从所述热门视频中，获得热度指标满足预设热度标准的热门视频，包括：

针对所述热门视频中的每个视频，基于各热度指标及各热度指标对应的权重进行加权平均处理；将加权平均结果超过预设阈值的视频，确定为热度指标满足预设热度标准的热门视频。

7.根据权利要求1所述的方法，其中，所述方法还包括：

获取用户输入的基于所述脚本框架的脚本编辑操作，根据所述脚本编辑操作生成视频脚本;

对所述用户使用的脚本框架进行统计，获得用户偏好脚本框架及生成所述用户偏好脚本框架所使用的所述待处理视频的类型信息；

根据所述类型信息更新所述用户的用户偏好信息。

8.根据权利要求1所述的方法，其中，在所述生成所述待处理视频对应的脚本框架之后，所述方法还包括：

展示基于所述脚本框架进行脚本编辑的编辑输入设置；

其中，所述编辑输入设置至少包括以下之一：用于对所述文本信息进行编辑的输入设置、用于基于所述文本信息在待生成的视频中进行增强现实图像编辑的输入设置、用于输入配音的输入设置、用于输入视频或图像的输入设置。

9.根据权利要求8所述的方法，其中，所述方法还包括：

在所述段落的展示区域中，对应展示所述段落所包含的文本信息对应的视频切片的时长。

10.根据权利要求9所述的方法，其中，所述方法还包括：

接收用户根据所述语义标签所指示的语义，对展示的所述文本信息进行基于所述语义的修改，其中，修改后的文本信息的语义和修改前的文本信息的语义相近；

接收所述用户按照所述形式标签所指示的文本表达方式，对修改后的文本信息进行表达调整；

根据表达调整的结果，形成并展示所述文本信息形成的新的段落脚本。

11.根据权利要求1所述的方法，其中，所述根据待处理视频的分镜信息对所述待处理视频进行切分，获得多个视频切片，包括：

对所述待处理视频进行分镜头分析，获得对应的分镜信息，所述分镜信息包括分镜对应的视频帧信息，或者，分镜对应的时间戳；

根据所述分镜信息，确定所述待处理视频对应的各个分镜的视频帧边界；

基于确定的视频帧边界，对所述待处理视频进行切分，获得多个视频切片。

12.一种脚本生成系统，包括：脚本生成服务端；

所述脚本生成服务端，用于根据待处理视频的分镜信息对所述待处理视频进行切分，获得多个视频切片；获取每个视频切片对应的文本信息，并为每个视频切片标注至少开始时间；为每个视频切片对应的文本信息进行自然语言处理，以生成所述文本信息对应的语义标签和形式标签，并按照文本信息对应的视频切片的开始时间，对所述文本信息进行拼接，以生成所述多个视频切片对应的文本序列，其中，所述语义标签用于表征所述文本信息的语义，所述形式标签用于表征所述文本信息的文本表达方式；对所述文本序列进行段落分割，并为分割后的段落生成结构标签；根据所述文本信息、所述语义标签、所述形式标签、分割后的所述段落和所述结构标签，生成所述待处理视频对应的脚本框架；按照预设展示规则，展示所述脚本框架的展示界面；在所述展示界面中，按照所述结构标签，在展示界面中将分割后的所述段落分别展示在对应结构标签下的展示区域中；在所述段落的展示区域中，对应展示所述段落所包含的文本信息及所述文本信息对应的语义标签和形式标签。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11中任一项所述的脚本生成方法。