CN113709551B

CN113709551B - 基于剧本的视频展示方法、装置和存储介质

Info

Publication number: CN113709551B
Application number: CN202111266764.1A
Authority: CN
Inventors: 王贺青; 孙林; 郑开雨
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-04
Anticipated expiration: 2041-10-29
Also published as: CN113709551A

Abstract

本公开实施例公开了一种基于剧本的视频展示方法、装置和存储介质，其中，方法包括：获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；从至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；基于至少一个目标视频片段对应的视频时长确定至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于至少一个目标动作对应的设定时长确定至少一个目标动作对应的第二起始时间点和第二结束时间点；得到展示目标对应所述用户的目标剧本；基于目标剧本中的至少一个第一起始时间点和第一结束时间点连接至少一个目标视频片段，得到展示目标对应用户的展示视频。

Description

基于剧本的视频展示方法、装置和存储介质

技术领域

本公开涉及数据处理技术，尤其是一种基于剧本的视频展示方法、装置和存储介质。

背景技术

随着互联网技术的不断发展，越来越多的用户在需要购买房子或者租赁房子的时候，倾向于在网上查找房源。经纪人会通过房源平台发布房源信息，用户根据需求寻找满意的房源，然而目前现有的房源平台中对于房源信息的展示仅能展示部分内容，无法使用户更全面的了解房源的更多信息。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种基于剧本的视频展示方法、装置和存储介质。

根据本公开实施例的一个方面，提供了一种基于剧本的视频展示方法，包括：

获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；

基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；其中，所述目标动作对应设定时长的动作展示图像和/或动作展示动画；

基于所述至少一个目标视频片段对应的视频时长确定所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于所述至少一个目标动作对应的设定时长确定所述至少一个目标动作对应的第二起始时间点和第二结束时间点；得到所述展示目标对应所述用户的目标剧本；

基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频。

可选地，还包括：

基于所述展示目标的至少一个讲点信息，确定至少一个音频片段；其中，所述音频片段对应一个所述讲点信息，所述讲点信息对应至少一个所述音频片段；

基于所述至少一个音频片段驱动目标经纪人对应的图像，得到至少一个所述目标经纪人对应的视频片段。

可选地，所述基于所述展示目标的至少一个讲点信息，确定至少一个音频片段，包括：

利用自然语言生成技术将所述展示目标对应的至少一个讲点信息对应的不同表达方式进行组合，得到至少一个讲稿；其中，所述讲稿包括至少一个讲点信息；

利用语音合成技术对所述至少一个讲稿进行处理，得到至少一个音频片段。

可选地，在基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作之前，还包括：

基于所述用户的历史行为信息和基本信息，确定所述用户画像。

可选地，所述基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作，包括：

基于所述用户画像对所述展示目标对应的至少一个讲点信息进行筛选，得到至少一个目标讲点信息；

基于所述目标讲点信息对所述至少一个视频片段进行筛选，确定所述目标讲点信息对应的至少一个目标视频片段；

基于所述目标讲点信息对所述至少一个动作展示图像和/或至少一个动作展示动画进行筛选，确定所述目标讲点信息对应的至少一个动作展示图像和/或至少一个动作展示动画；

为筛选得到的至少一个动作展示图像和/或至少一个动作展示动画确定对应的展示时长，并将对应相同的所述目标讲点信息的动作展示图像和/或动作展示动画进行组合，得到至少一个所述目标动作。

可选地，在基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频之前，还包括：

基于所述目标剧本中包括的所述至少一个目标视频片段和所述至少一个目标动作，确定至少一个连接条件信息；其中，所述连接条件信息包括是否静默和静默时长；

基于所述目标剧本中存储的所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，所述至少一个目标动作对应的第二起始时间点和第二结束时间点，以及所述连接条件信息，确定所述展示目标对应的目标剧本中的时间信息。

可选地，所述基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频，包括：

基于所述时间信息中的所述至少一个连接条件信息对所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点进行调整，得到调整后的第三起始时间点和第三结束时间点；

基于所述时间信息中的所述至少一个连接条件信息对所述至少一个目标动作对应的第二起始时间点和第二结束时间点进行调整，得到调整后的第四起始时间点和第四结束时间点；

基于所述第三起始时间点和第三结束时间点连接所述至少一个目标视频片段，基于所述第四起始时间点和第四结束时间点插入所述至少一个目标动作，得到展示视频。

可选地，还包括：响应于接收所述用户输入的跳转请求，将所述展示视频跳转到所述跳转请求对应的目标视频片段或目标动作的起始时间点，以所述起始时间点开始播放所述展示视频。

根据本公开实施例的另一方面，提供了一种基于剧本的视频展示装置，包括：

视频动作获取模块，用于获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；

画像筛选模块，用于基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；其中，所述目标动作对应设定时长的动作展示图像和/或动作展示动画；

剧本确定模块，用于基于所述至少一个目标视频片段对应的视频时长确定所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于所述至少一个目标动作对应的设定时长确定所述至少一个目标动作对应的第二起始时间点和第二结束时间点；得到所述展示目标对应所述用户的目标剧本；

视频展示模块，用于基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频。

可选地，所述装置还包括：

视频片段确定模块，用于基于所述展示目标的至少一个讲点信息，确定至少一个音频片段；其中，所述音频片段对应一个所述讲点信息，所述讲点信息对应至少一个所述音频片段；基于所述至少一个音频片段驱动目标经纪人对应的图像，得到至少一个所述目标经纪人对应的视频片段。

可选地，所述视频片段确定模块在基于展示目标的至少一个讲点信息，确定至少一个音频片段时，用于利用自然语言生成技术将所述展示目标对应的至少一个讲点信息对应的不同表达方式进行组合，得到至少一个讲稿；其中，所述讲稿包括至少一个讲点信息；利用语音合成技术对所述至少一个讲稿进行处理，得到至少一个音频片段。

可选地，所述装置还包括：

用户画像模块，用于基于所述用户的历史行为信息和基本信息，确定所述用户画像。

可选地，所述画像筛选模块，具体用于基于所述用户画像对所述展示目标对应的至少一个讲点信息进行筛选，得到至少一个目标讲点信息；基于所述目标讲点信息对所述至少一个视频片段进行筛选，确定所述目标讲点信息对应的至少一个目标视频片段；基于所述目标讲点信息对所述至少一个动作展示图像和/或至少一个动作展示动画进行筛选，确定所述目标讲点信息对应的至少一个动作展示图像和/或至少一个动作展示动画；为筛选得到的至少一个动作展示图像和/或至少一个动作展示动画确定对应的展示时长，并将对应相同的所述目标讲点信息的动作展示图像和/或动作展示动画进行组合，得到至少一个所述目标动作。

可选地，所述装置还包括：

连接条件确定模块，用于基于所述目标剧本中包括的所述至少一个目标视频片段和所述至少一个目标动作，确定至少一个连接条件信息；其中，所述连接条件信息包括是否静默和静默时长；

时间信息确定模块，用于基于所述目标剧本中存储的所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，所述至少一个目标动作对应的第二起始时间点和第二结束时间点，以及所述连接条件信息，确定所述展示目标对应的目标剧本中的时间信息。

可选地，所述视频展示模块，具体用于基于所述时间信息中的所述至少一个连接条件信息对所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点进行调整，得到调整后的第三起始时间点和第三结束时间点；基于所述时间信息中的所述至少一个连接条件信息对所述至少一个目标动作对应的第二起始时间点和第二结束时间点进行调整，得到调整后的第四起始时间点和第四结束时间点；基于所述第三起始时间点和第三结束时间点连接所述至少一个目标视频片段，基于所述第四起始时间点和第四结束时间点插入所述至少一个目标动作，得到展示视频。

可选地，所述装置还包括：

交互模块，用于响应于接收所述用户输入的跳转请求，将所述展示视频跳转到所述跳转请求对应的目标视频片段或目标动作的起始时间点，以所述起始时间点开始播放所述展示视频。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的基于剧本的视频展示方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的基于剧本的视频展示方法。

基于本公开上述实施例提供的一种基于剧本的视频展示方法、装置和存储介质，获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；其中，每个所述目标动作对应设定时长的动作展示图像和/或动作展示动画；基于所述至少一个目标视频片段对应的视频时长确定所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于所述至少一个目标动作对应的设定时长确定所述至少一个目标动作对应的第二起始时间点和第二结束时间点；得到所述展示目标对应所述用户的目标剧本；基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频；本实施例提供了基于用户画像确定的目标剧本，进行房源的视频展示，并在视频中结合了目标动作的展示，实现了个性化的目标展示，并且每个视频片段以及目标动作分别对应起始时间点和结束时间点，实现按照目标剧本即可获得展示视频，提高了展示视频的生成效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的基于剧本的视频展示方法的流程示意图；

图2是本公开图1所示的实施例中步骤102的一个流程示意图；

图3是本公开另一示例性实施例提供的基于剧本的视频展示方法的流程示意图；

图4是本公开一示例性实施例提供的基于剧本的视频展示方法的一个示例中目标剧本的示意图；

图5是本公开一示例性实施例提供的基于剧本的视频展示装置的结构示意图；

图6是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。本公开中所指数据可以包括文本、图像、视频等非结构化数据，也可以是结构化数据。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本公开一示例性实施例提供的基于剧本的视频展示方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画。

可选地，每个视频片段对应一个讲点信息，每个讲点信息对应至少一个视频片段；动作展示图像可包括对展示目标的特色进行展示的图像，动作展示动画是在以动作展示图像无法清除的对展示目标的特色进行表达时，通过制作动画特效对该特色进行展示；例如，当展示目标是房源时，通过动作展示图像展示房源的位置特征、朝向特征、户型特征等；通过动作展示动画展示房源的南北通透（以动画效果表达从北到南的风等）、动静分离（以动画效果突出表达动静区域的分隔）等等。

可选地，展示目标可以是需要被展示的房源等具有多个讲点的目标，其中，讲点可以是展示目标对应的至少一个模块化内容，例如，对于房源可包括：开场白、周边介绍、户型介绍、结束语等讲点。

步骤104，基于用户对应的用户画像和从至少一个视频片段中确定至少一个目标视频片段，从至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作。

其中，目标动作对应设定时长的动作展示图像和/或动作展示动画，例如，每个标动作对应设定时长的动作展示图像和/或动作展示动画。

可选地，用户画像可以基于用户的行为习惯和/或基本信息（例如，学历，年龄等信息）等确定，通过用户画像对至少一个讲点信息进行筛选，确定至少一个目标讲点信息，以至少一个目标讲点信息确定对应的至少一个目标视频片段；目标动作是通过对动作展示图像确定了展示时间或确定了动作展示图像和/或动作展示动画之间的连接关系之后得到的，例如，一个目标动作是对房源的位置特征图像展示2秒等等。

步骤106，基于至少一个目标视频片段对应的视频时长确定至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于至少一个目标动作对应的设定时长确定至少一个目标动作对应的第二起始时间点和第二结束时间点；得到展示目标对应用户的目标剧本。

其中，目标剧本中包括至少一个目标视频片段、每个目标视频片段对应的视频时长、每个目标视频片段对应的第一起始时间点和第一结束时间点、至少一个目标动作、每个目标动作对应的设定时长和每个目标动作对应的第二起始时间点和第二结束时间点。

在一实施例中，本实施例中的目标剧本可以实现控制何时展示、展示多久以及展示什么；可选地，通过目标剧本中包括的至少一个目标视频片段确定了展示什么，通过至少一个目标视频片段对应的视频时长确定了展示多久，通过每个目标视频片段对应的起始时间点和结束时间点确定了何时展示以及展示顺序。

可选地，视频片段、动作展示图像和动作展示动画可以预先存储在离线服务器中，当需要对某一用户进行展示时，通过基于该用户的用户画像从离线服务器中调用相应的视频片段、动作展示图像和动作展示动画。

步骤108，基于目标剧本中的至少一个第一起始时间点和第一结束时间点连接至少一个目标视频片段，并且基于至少一个第二起始时间点和第二结束时间点插入至少一个目标动作，得到展示目标对应用户的展示视频。

可选地，由于目标剧本确定了何时展示、展示多久以及展示什么，在对用户进行展示时，只需按照目标剧本中的时间信息连接至少一个目标视频片段，即可获得完整视频；本实施例中的目标动作的展示与完整视频不冲突，可以在视频展示的同时对目标动作进行展示，只需按照目标动作的第二起始时间点和第二结束时间点将相应的目标动作插入到完整视频中的相应位置即可，得到展示视频。

本公开上述实施例提供的一种基于剧本的视频展示方法，获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；其中，所述目标动作对应设定时长的动作展示图像和/或动作展示动画；基于所述至少一个目标视频片段对应的视频时长确定所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于所述至少一个目标动作对应的设定时长确定所述至少一个目标动作对应的第二起始时间点和第二结束时间点；得到所述展示目标对应所述用户的目标剧本；基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频；本实施例提供了基于用户画像确定的目标剧本，进行房源的视频展示，并在视频中结合了目标动作的展示，实现了个性化的目标展示，并且每个视频片段以及目标动作分别对应起始时间点和结束时间点，实现按照目标剧本即可获得展示视频，提高了展示视频的生成效率。

图2是本公开另一示例性实施例提供的基于剧本的视频展示方法的流程示意图。如图2所示，本实施例提供的方法，在执行步骤102之前，还包括：

步骤201，基于展示目标的至少一个讲点信息，确定至少一个音频片段。

其中，音频片段对应一个讲点信息，讲点信息对应至少一个音频片段，例如，每个音频片段对应一个讲点信息，每个讲点信息对应至少一个音频片段。

可选地，利用自然语言生成技术将展示目标对应的至少一个讲点信息对应的不同表达方式进行组合，得到至少一个讲稿；其中，讲稿包括至少一个讲点信息，例如，每个讲稿包括至少一个讲点信息；利用语音合成技术对至少一个讲稿进行处理，得到至少一个音频片段。

本实施例中，基于自然语言生成（NLG）技术将知识图谱（保存有多个语句的标准字段，根据多个标准字段的组合可得到至少一个讲点对应的标准文字段落）、表达库（保存有通过各种不同表达对相同信息的描述，在获取时，可随机获取或根据用户画像获取）、模板库（保存有每个讲点中多个知识点的不同组合方式）组装成所有可能的文本形式的表达讲稿（每个表达讲稿对应一个讲点信息），然后将讲稿转换为音频片段；可选地，音频转换可采用TTS技术等现有任一可实现文本转换音频的技术手段；其中，TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

步骤202，基于至少一个音频片段驱动目标经纪人对应的图像，得到至少一个目标经纪人对应的视频片段。

可选地，基于音频片段和目标经纪人的图像（例如，人脸图像）得到视频片段的过程可包括：基于目标经纪人的第一人脸图像，得到第一三维人头模型。

其中，第一三维人头模型包括多个顶点和顶点之间的连接关系。

可选地，本实施例中的第一三维人头模型可以三维网格模型，例如，三角网格或多边形网格等，第一三维人头模型通过顶点和顶点之间的连接关系对目标经纪人的人头在三维空间中的结构进行描述；第一人脸图像中至少包括目标经纪人的完整人脸。

基于音频片段改变第一三维人头模型中n个顶点的位置，得到多帧视频图像。

其中，n为大于等于0的整数。

在一实施例中，改变三维人头模型中的部分顶点的位置即可改变该三维人头模型对应的人物的面部表情和面部动作，例如，改变嘴部顶点的位置，对应的人脸上会出现不同的嘴部动作；本实施例基于音频片段对第一三维人头模型进行驱动，使得到的视频图像中的嘴部动作对应该音频片段，并且，由于音频片段是一段话，对应的嘴部动作必然包括多个，因此，由多帧视频图像进行表示。

基于多帧视频图像，得到目标经纪人讲述音频片段的视频片段。

可选地，按照多帧视频图像对应音频片段的顺序进行连接，即可得到视频片段，例如，音频片段是一段讲房语音，目标经纪人为一个经纪人A，经过本实施例提供的方法，将得到该经纪人A讲述该讲房语音的视频片段。基于目标经纪人的单帧人脸图像和音频片段即可得到目标经纪人讲述音频片段的目标视频，输入数据少，处理效率高，且由于加入了三维人头模型的驱动，获得的视频片段动作更真实。

可选地，在上述实施例执行步骤104之前，还可以包括：

基于用户的历史行为信息和基本信息，确定用户画像。

可选地，本实施例为了实现为用户展示该用户感兴趣的内容，而非千篇一律的内容，实现个性化服务，以提高用户体验；可通过用户的历史行为信息（例如，浏览、询问过的信息等）和基本信息确定用户的用户画像。

如图3所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

步骤1041，基于用户画像对展示目标对应的至少一个讲点信息进行筛选，得到至少一个目标讲点信息。

每个展示目标都对应多个讲点信息，但是用户并不是对所有讲点信息都感兴趣，本实施例通过用户画像对讲点信息进行筛选，使获得的目标讲点信息中不包括用户不感兴趣的讲点信息，而仅针对用户感兴趣的目标讲点信息进行展示，提高了用户的感兴趣程度。

步骤1042，基于目标讲点信息对至少一个视频片段进行筛选，确定目标讲点信息对应的至少一个目标视频片段。

通过用户画像的筛选实现了有针对性的对用户展示用户感兴趣的目标视频片段。

步骤1043，基于目标讲点信息对至少一个动作展示图像和/或至少一个动作展示动画进行筛选，确定目标讲点信息对应的至少一个动作展示图像和/或至少一个动作展示动画。

本实施例中构成目标动作的动作展示图像和/或动作展示动画都是对应目标讲点信息的，当用户画像体现用户对某些讲点不感兴趣时，对应该用户的剧本中，不包括这些讲点对应的动作展示图像和动作展示动画，避免用户重复查看已知信息或不感兴趣的信息。

步骤1044，为筛选得到的至少一个动作展示图像和/或至少一个动作展示动画确定对应的展示时长，并将对应相同的目标讲点信息的动作展示图像和/或动作展示动画进行组合，得到至少一个目标动作。

本实施例通过筛选，实现了对动作视频的个性化展示，使目标剧本中的动作视频都符合用户的兴趣，而不会展示用户不感兴趣的动作视频。

在基于用户画像确定了目标视频片段和目标动作的排列顺序，其中，排列时可将目标视频片段和目标动作视频按照用户感兴趣度进行排列，将用户更感兴趣的内容排列在前，当然，将打招呼、问候等讲点需排列在前，结束语排列在后，根据确定的排列顺序和视频时长以及动作时长，即可确定每个目标视频片段对应的第一起始时间点和第一结束时间点，以及每个目标动作对应的第二起始时间点和第二结束时间点，按照时间点顺序连接，即可得到展示视频；可选地，本实施例中的目标动作可以与目标视频片段的展示时间重合，即，在展示目标视频片段的同时，以贴片等方式将目标动作展示在前端。

本实施例中的目标剧本中不仅包括至少一个目标视频片段、每个目标视频片段对应的视频时长以及第一起始时间点和第一结束时间点，还包括目标动作、每个目标动作对应的动作时长以及第二起始时间点和第二结束时间点。

可选地，在上述实施例的基础上，在步骤308之前，还可以包括：

基于目标剧本中包括的至少一个目标视频片段和至少一个目标动作，确定至少一个连接条件信息。

其中，连接条件信息包括是否静默和静默时长。

基于目标剧本中存储的至少一个目标视频片段对应的第一起始时间点和第一结束时间点，至少一个目标动作对应的第二起始时间点和第二结束时间点，以及连接条件信息，确定展示目标对应的目标剧本中的时间信息。

本实施例中，针对真实经纪人讲述展示目标时，在不同讲点之间会存在一些停顿，因此，本实施例为了实现更接近真人讲述的视频，在目标剧本中增加的连续条件信息可以包括以下至少之一：目标视频片段之间、目标动作之间、以及目标视频片段与目标动作之间的连接条件信息；该连接条件信息可以包括是否静默以及静默的时长，不静默可以理解为静默时长为0秒，通过设置视频（包括：目标视频片段和/或目标动作）之间的连接条件信息，可达到更真实的展示目标讲述。在一个可选示例中，如图4所示，目标剧本中包括三部分：video（视频）：存放生成的长视频链接（对应图中url，表示目标视频片段的存储地址）、开始及结束时间（对应图中start end）、以及视频时长（对应图中duration）；keyframes（关键帧）：存每个目标动作的起始时间（对应图中start end）、动作类型（对应图中action:{type data }）、及附带的数据（data）；lrc（讲稿）：存每个讲稿片段（一个讲稿中的一部分，例如，讲稿中的一句话等）的起始时间、是否静默（对应图中is_silence）、静默时长（对应图中silence_len text start end）、以及对应形象视频的动作类型（对应图中action_type）。

可选地，步骤108可以包括：

基于时间信息中的至少一个连接条件信息对至少一个目标视频片段对应的第一起始时间点和第一结束时间点进行调整，得到调整后的第三起始时间点和第三结束时间点；

基于时间信息中的至少一个连接条件信息对至少一个目标动作对应的第二起始时间点和第二结束时间点进行调整，得到调整后的第四起始时间点和第四结束时间点；

基于第三起始时间点和第三结束时间点连接至少一个目标视频片段，基于第四起始时间点和第四结束时间点插入至少一个目标动作，得到展示视频。

本实施例中，目标剧本实现了目标视频片段、目标动作以及连接条件信息的设置，只需按照该目标剧本中的时间信息对目标视频片段和目标动作视频进行展示，即可获得展示视频。

在一些可选的实施例中，还包括：响应于接收用户输入的跳转请求，将展示视频跳转到跳转请求对应的目标视频片段或目标动作的起始时间点，以起始时间点开始播放展示视频。

本实施例中为了实现展示的视频内更符合用户的需求，还可以在视频展示时接收用户的跳转请求，用户可根据需要直接跳转到相应的目标视频片段或目标动作的起始时间点开始查看展示视频，避免了完全按照展示视频的顺序播放时，用户无法自主选择而导致的浪费不必要的时间来查看用户不关注的讲点内容，进一步提高了视频的针对性和用户体验。

本公开实施例提供的任一种基于剧本的视频展示方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种基于剧本的视频展示方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种基于剧本的视频展示方法。下文不再赘述。

示例性装置

图5是本公开一示例性实施例提供的基于剧本的视频展示装置的结构示意图。如图5所示，本公开实施例包括：

视频动作获取模块51，用于获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画。

画像筛选模块52，用于基于用户对应的用户画像从至少一个视频片段中确定至少一个目标视频片段，从至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作。

其中，目标动作对应设定时长的动作展示图像和/或动作展示动画。

剧本确定模块53，用于基于至少一个目标视频片段对应的视频时长确定至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于至少一个目标动作对应的设定时长确定至少一个目标动作对应的第二起始时间点和第二结束时间点；得到展示目标对应用户的目标剧本。

视频展示模块54，用于基于目标剧本中的至少一个第一起始时间点和第一结束时间点连接至少一个目标视频片段，并且基于至少一个第二起始时间点和第二结束时间点插入至少一个目标动作，得到展示目标对应用户的展示视频。

本公开上述实施例提供的一种基于剧本的视频展示装置，获得展示目标的至少一个视频片段，以及至少一个动作展示图像和/或至少一个动作展示动画；基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作；其中，每个所述目标动作对应设定时长的动作展示图像和/或动作展示动画；基于所述至少一个目标视频片段对应的视频时长确定所述至少一个目标视频片段对应的第一起始时间点和第一结束时间点，基于所述至少一个目标动作对应的设定时长确定所述至少一个目标动作对应的第二起始时间点和第二结束时间点；得到所述展示目标对应所述用户的目标剧本；基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频；本实施例提供了基于用户画像确定的目标剧本，进行房源的视频展示，并在视频中结合了目标动作的展示，实现了个性化的目标展示，并且每个视频片段以及目标动作分别对应起始时间点和结束时间点，实现按照目标剧本即可获得展示视频，提高了展示视频的生成效率。

可选地，本实施例提供的装置还包括：

视频片段确定模块，用于基于展示目标的至少一个讲点信息，确定至少一个音频片段；其中，音频片段对应一个讲点信息，讲点信息对应至少一个音频片段；基于至少一个音频片段驱动目标经纪人对应的图像，得到至少一个目标经纪人对应的视频片段。

可选地，视频片段确定模块在基于展示目标的至少一个讲点信息，确定至少一个音频片段时，用于利用自然语言生成技术将展示目标对应的至少一个讲点信息对应的不同表达方式进行组合，得到至少一个讲稿；其中，讲稿包括至少一个讲点信息；利用语音合成技术对至少一个讲稿进行处理，得到至少一个音频片段。

可选地，本实施例提供的装置还包括：

用户画像模块，用于基于用户的历史行为信息和基本信息，确定用户画像。

可选地，画像筛选模块52，具体用于基于用户画像对展示目标对应的至少一个讲点信息进行筛选，得到至少一个目标讲点信息；基于目标讲点信息对至少一个视频片段进行筛选，确定目标讲点信息对应的至少一个目标视频片段；基于目标讲点信息对至少一个动作展示图像和/或至少一个动作展示动画进行筛选，确定目标讲点信息对应的至少一个动作展示图像和/或至少一个动作展示动画；为筛选得到的至少一个动作展示图像和/或至少一个动作展示动画确定对应的展示时长，并将对应相同的目标讲点信息的动作展示图像和/或动作展示动画进行组合，得到至少一个目标动作。

可选地，本实施例提供的装置还包括：

连接条件确定模块，用于基于目标剧本中包括的至少一个目标视频片段和至少一个目标动作，确定至少一个连接条件信息；其中，连接条件信息包括是否静默和静默时长；

时间信息确定模块，用于基于目标剧本中存储的至少一个目标视频片段对应的第一起始时间点和第一结束时间点，至少一个目标动作对应的第二起始时间点和第二结束时间点，以及连接条件信息，确定展示目标对应的目标剧本中的时间信息。

可选地，视频展示模块54，具体用于基于时间信息中的至少一个连接条件信息对至少一个目标视频片段对应的第一起始时间点和第一结束时间点进行调整，得到调整后的第三起始时间点和第三结束时间点；基于时间信息中的至少一个连接条件信息对至少一个目标动作对应的第二起始时间点和第二结束时间点进行调整，得到调整后的第四起始时间点和第四结束时间点；基于第三起始时间点和第三结束时间点连接至少一个目标视频片段，基于第四起始时间点和第四结束时间点插入至少一个目标动作，得到展示视频。

可选地，本实施例提供的装置还包括：

交互模块，用于响应于接收用户输入的跳转请求，将展示视频跳转到跳转请求对应的目标视频片段或目标动作的起始时间点，以起始时间点开始播放展示视频。

示例性电子设备

下面，参考图6来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图6图示了根据本公开实施例的电子设备的框图。

如图6所示，电子设备60包括一个或多个处理器61和存储器62。

处理器61可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备60中的其他组件以执行期望的功能。

存储器62可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器61可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于剧本的视频展示方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备60还可以包括：输入装置63和输出装置64，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置63可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置63可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置63还可以包括例如键盘、鼠标等等。

该输出装置64可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备60中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备60还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于剧本的视频展示方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于剧本的视频展示方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于剧本的视频展示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述展示目标的至少一个讲点信息，确定至少一个音频片段，包括：

4.根据权利要求1所述的方法，其特征在于，在基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作之前，还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述基于用户对应的用户画像从所述至少一个视频片段中确定至少一个目标视频片段，从所述至少一个动作展示图像和/或至少一个动作展示动画中确定至少一个目标动作，包括：

6.根据权利要求1-4任一所述的方法，其特征在于，在基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频之前，还包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标剧本中的至少一个所述第一起始时间点和所述第一结束时间点连接所述至少一个目标视频片段，并且基于至少一个所述第二起始时间点和所述第二结束时间点插入所述至少一个目标动作，得到所述展示目标对应所述用户的展示视频，包括：

8.根据权利要求1-4任一所述的方法，其特征在于，还包括：响应于接收所述用户输入的跳转请求，将所述展示视频跳转到所述跳转请求对应的目标视频片段或目标动作的起始时间点，以所述起始时间点开始播放所述展示视频。

9.一种基于剧本的视频展示装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的基于剧本的视频展示方法。