CN114257862B

CN114257862B - 一种视频生成方法、装置、设备及存储介质

Info

Publication number: CN114257862B
Application number: CN202011018030.7A
Authority: CN
Inventors: 马广亮; 杨靖; 周航; 贺伟
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2024-05-14
Anticipated expiration: 2040-09-24
Also published as: CN114257862A

Abstract

本公开提供了一种视频生成方法、装置、设备及存储介质，所述方法包括：在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对该语音数据进行语音识别，得到语音识别结果。基于该语音识别结果，确定该语音数据对应的目标视频片段，然后将目标视频片段合成到当前录制的视频中的目标视频帧中，并在接收到视频录制结果的触发操作时，生成合成有目标视频片段的目标视频。本公开实施例生成的目标视频中，合成有与检测到的语音数据相关的目标视频片段，与仅基于目前的视频录制功能得到的视频不同，因此，本公开实施例丰富了视频录制类软件的功能，提高了用户的使用体验。

Description

一种视频生成方法、装置、设备及存储介质

技术领域

本公开涉及数据处理领域，尤其涉及一种视频生成方法、装置、设备及存储介质。

背景技术

目前，视频录制已经逐渐成为人们日常娱乐的方式，越来越多的视频录制类软件正在兴起。

但是，目前视频录制的功能比较单一，如何丰富视频录制类软件的功能，得到能使更多用户感兴趣的视频，是当前亟需解决的技术问题。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种视频生成方法、装置、设备及存储介质，能够得到合成有视频片段的目标视频，丰富了视频录制的功能，提高了用户的使用体验。

第一方面，本公开提供了一种视频生成方法，所述方法包括：

在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果；

基于所述语音识别结果，获取所述语音数据对应的目标视频片段；

将所述目标视频片段合成到当前录制的视频中的目标视频帧中；

响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

一种可选的实施方式中，所述基于所述语音识别结果，获取所述语音数据对应的视频片段，包括：

将所述语音识别结果发送至第一设备；所述第一设备用于根据所述语音识别结果确定视频片段；

接收所述视频片段，并将所述视频片段确定为所述语音数据对应的目标视频片段。

一种可选的实施方式中，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中之前，还包括：

根据所述语音数据在当前录制的视频中的位置，将当前录制的视频中位于所述位置之后的多帧连续视频帧确定为目标视频帧。

一种可选的实施方式中，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中，包括：

以画中画形式，将所述目标视频片段合成到当前录制的视频中的目标视频帧中。

一种可选的实施方式中，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中之后，还包括：

根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；

相应的，所述响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频，包括：

响应于视频录制结束的触发操作，生成合成有所述目标动画或所述目标图像以及所述目标视频片段的目标视频。

一种可选的实施方式中，所述语音数据包含问题内容，所述目标视频片段包含所述问题内容对应的答案内容。

一种可选的实施方式中，所述目标视频片段为影视片段或短视频。

第二方面，本公开还提供了一种视频生成方法，所述方法包括：

接收来自第二设备的语音识别结果；所述语音识别结果为所述第二设备在视频录制的过程中对检测到的语音数据进行语音识别后得到的；

确定所述语音识别结果对应的视频片段；

将所述视频片段返回至所述第二设备；所述视频片段用于合成到所述第二设备当前录制的视频中生成目标视频。

一种可选的实施方式中，所述确定所述语音识别结果对应的视频片段之前，还包括：

收集视频片段，并识别所述视频片段的字幕内容；

构建所述视频片段与所述字幕内容的对应关系；

相应的，所述确定所述语音识别结果对应的视频片段，包括：

基于对所述语音识别结果的语义分析，确定与所述语音识别结果对应的字幕内容；

基于所述视频片段与所述字幕内容的对应关系，确定与所述字幕内容对应的视频片段，作为所述语音识别结果对应的视频片段。

基于收集到的视频片段的字幕内容，构建字幕库；

基于对所述语音识别结果的语义分析，从所述字幕库中确定与所述语音识别结果对应的字幕内容；

在线搜索与所述字幕内容匹配的视频片段，作为所述语音识别结果对应的视频片段。

第三方面，本公开提供了一种视频生成装置，所述装置包括：

语音识别模块，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果；

获取模块，用于基于所述语音识别结果，获取所述语音数据对应的目标视频片段；

第一合成模块，用于将所述目标视频片段合成到当前录制的视频中的目标视频帧中；

生成模块，用于响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

第四方面，本公开提供了一种视频生成装置，所述装置包括：

接收模块，用于接收来自第二设备的语音识别结果；所述语音识别结果为所述第二设备在视频录制的过程中对检测到的语音数据进行语音识别后得到的；

确定模块，用于确定所述语音识别结果对应的视频片段；

返回模块，用于将所述视频片段返回至所述第二设备；所述视频片段用于合成到所述第二设备当前录制的视频中生成目标视频。

第五方面，本公开提供了一种视频生成系统，所述系统包括第一设备和第二设备；

所述第二设备，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果，并将所述语音识别结果发送至所述第一设备；

所述第一设备，用于接收所述语音识别结果，确定所述语音识别结果对应的视频片段，并将所述视频片段返回至所述第二设备；

所述第二设备，还用于将所述视频片段确定为所述语音数据对应的目标视频片段，将所述目标视频片段合成到当前录制的视频中的目标视频帧中，并响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

第六方面，本公开提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的方法。

第七方面，本公开提供了一种设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种视频生成方法，在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对该语音数据进行语音识别，得到语音识别结果。基于该语音识别结果，确定该语音数据对应的目标视频片段，然后将目标视频片段合成到当前录制的视频中的目标视频帧中，并在接收到视频录制结果的触发操作时，生成合成有目标视频片段的目标视频。本公开实施例生成的目标视频中，合成有与检测到的语音数据相关的目标视频片段，与仅基于目前的视频录制功能得到的视频不同，因此，本公开实施例丰富了视频录制类软件的功能，提高了用户的使用体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种视频生成方法的流程图；

图2为本公开实施例提供的一种视频录制界面的示意图；

图3为本公开实施例提供的另一种视频生成方法的数据交互图；

图4为本公开实施例提供的一种视频生成系统的结构示意图；

图5为本公开实施例提供的一种视频生成装置的结构示意图；

图6为本公开实施例提供的另一种视频生成装置的结构示意图；

图7为本公开实施例提供的一种视频生成设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前，视频录制类软件的功能越来越受到人们的关注，如何提高录制视频过程中的趣味性，以及如何录制内容足够吸引用户的视频等，已经成为各类视频录制软件研究的方向。

为此，本公开提供了一种视频生成方法，在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对该语音数据进行语音识别，得到语音识别结果。基于该语音识别结果，确定该语音数据对应的目标视频片段，然后将目标视频片段合成到当前录制的视频中的目标视频帧中，并在接收到视频录制结果的触发操作时，生成合成有目标视频片段的目标视频。

可见，本公开提供的视频生成方法中，用户可以在视频录制的过程中，通过输入语音数据触发将目标视频片段合成到当前录制的视频中，最终得到合成有目标视频片段的目标视频，提高了用户在录制视频过程中的趣味性。

另外，由于本公开生成的目标视频中包含有用户输入的语音数据与目标视频片段之间的互动关系，是目前的视频录制功能不能实现的，因此，本公开生成的目标视频能够吸引更多的用户。

基于此，本公开实施例提供了一种视频生成方法，参考图1，为本公开实施例提供的一种视频生成方法的流程图，该方法包括：

S101：在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果。

本公开实施例可以应用于视频录制设备，以下称为第二设备，具体的，第二设备可以为具有视频录制功能的各种类型设备，如智能手机、电脑、智能手表、智能相机等设备。

本公开实施例中，在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对该语音数据进行语音识别，得到该语音数据对应的语音识别结果。其中，本公开实施例不限定对语音数据进行语音识别的具体技术。

一种可选的实施方式中，语音数据可以包含问题内容，具体的，在视频录制的过程中用户可以通过语音提出例如“我帅不帅？”的问题，在第二设备检测到该问题之后，对其进行语音识别，得到语音识别结果，其中，语音识别结果具体为文本形式的“我帅不帅？”。

另一种可选的实施方式中，语音数据还可以包含陈述内容，具体的，在视频录制的过程中用户可以说出例如“请评价一下我的长相”的陈述类型的内容。在第二设备检测到该问题之后，对其进行语音识别，得到语音识别结果，其中，语音识别结果具体为文本形式的“请评价一下我的长相”。

值得注意的是，本公开实施例中的语音数据通常具有交互意图，例如，用户提出“我帅不帅？”是期待对方给出回复；用户说出“请评价一下我的长相”也是期待对方给出具体评价。

S102：基于所述语音识别结果，获取所述语音数据对应的目标视频片段。

本公开实施例中，在确定语音数据对应的语音识别结果后，根据该语音识别结果，确定该语音数据对应的目标视频片段。

一种可选的实施方式中，第二设备可以在本地预先存储关键字与视频片段的对应关系，在对语音识别结果进行语义分析，并确定该语音识别结果中的关键字之后，在本地查询与该关键字具有对应关系的视频片段，作为该语音数据对应的目标视频片段。其中，预先存储的关键字可以为从视频片段的字幕内容中提取到的关键字。

另一种可选的实施方式中，第二设备也可以在对语音识别结果进行语义分析，并确定该语音识别结果中的关键字之后，基于该关键字在线搜索视频片段，并从搜索到的视频片段中确定出一个视频片段，作为该语音数据对应的目标视频片段。具体的，基于关键字在线搜索视频片段，可以为首先基于关键字在线搜索视频片段的字幕内容，然后基于字幕内容在线搜索对应的视频片段。

又一种可选的实施方式中，第二设备还可以在确定语音数据对应的语音识别结果后，将该语音识别结果发送至其他设备，以下称为第一设备，由第一设备根据该语音识别结果确定视频片段，并将确定的视频片段返回给第二设备，作为该语音数据对应的目标视频片段。具体的实现方式在后续实施例中进行介绍。

S103：将所述目标视频片段合成到当前录制的视频中的目标视频帧中。

一种可选的实施方式中，在获取到语音数据对应的目标视频片段时，将该目标视频片段合成到以当前正在录制的视频帧为起始帧的多个连续帧中。其中，本公开实施例中的目标视频帧是指，以获取到目标视频片段时的当前正在录制的视频帧为起始帧的多个连续帧。

另一种可选的实施方式中，目标视频帧可以是基于语音数据在当前录制的视频中的位置确定。具体的，在检测到当前录制的视频中存在语音数据之后，确定该语音数据在当前录制的视频中的位置，具体可以为该语音数据在当前录制的视频中对应的时间段，例如，该语音数据的位置可以为当前录制的视频中的5分3秒到5分5秒的时间段。本公开实施例中，可以将语音数据对应的时间段之后的多帧连续视频帧确定为目标视频帧，例如，将当前录制的视频中的5分6秒到5分10秒的时间段对应的连续视频帧作为目标视频帧。在确定目标视频帧之后，将获取到的目标视频片段合成到目标视频帧。

一种可选的实施方式中，可以以画中画形式，将目标视频片段合成到当前录制的视频中的目标视频帧中，用于与检测到的语音数据形成交互。如图2所示，为本公开实施例提供的一种视频录制界面的示意图，其中，视频画面201中的人提出“我帅不帅？”的问题时，视频界面上以画中画形式显示目标视频片段，其中，图2中的画中画窗口202中显示的目标视频片段的字幕内容为“你快点回火星吧，地球是很危险滴”的电影片段作为回答。具体的，目标视频片段的音频数据也可以作为附属音频轨道的数据在当前录制的视频中播放，形成录制视频画面中的人与画中画视频画面中的人之间问答交互的效果。

S104：响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

本公开实施例中，在用户触发视频录制结束的操作时，得到合成有目标视频片段的目标视频，即合成有目标视频片段的录制视频。例如，目标视频为合成有电影片段或短视频的录制视频。

一种可选的实施方式中，为了提高交互的效果，可以将目标视频片段合成到目标视频帧的同时，将目标动画或目标图像合成到目标视频帧中，如图2所示，在以画中画形式合成到目标视频帧的目标视频片段的左侧，合成有狗狗图像，得到录制的视频画面中的人与狗狗之间问答交互的效果，如视频画面中的人问：“我帅不帅？”时，狗狗以电影片段的字幕内容作为回答：“你快点回火星吧，地球是很危险滴”。通过上述方式，能够增加生成的目标视频的趣味性和娱乐性。

实际应用中，可以根据目标视频片段在目标视频帧的画面上的显示位置，将目标动画或目标图像合成到目标视频中。通常，目标动画或目标图像合成到目标视频片段的显示位置的左侧。

本公开实施例中，在用户触发视频录制结束的操作时，可以得到合成有目标视频片段和目标动画(也可以是目标图像)的目标视频。

本公开实施例提供的视频生成方法中，在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对该语音数据进行语音识别，得到语音识别结果。基于该语音识别结果，确定该语音数据对应的目标视频片段，然后将目标视频片段合成到当前录制的视频中的目标视频帧中，并在接收到视频录制结果的触发操作时，生成合成有目标视频片段的目标视频。可见，本公开实施例提供的视频生成方法中，用户可以在视频录制的过程中，通过输入语音数据触发将目标视频片段合成到当前录制的视频中，最终得到合成有目标视频片段的目标视频，提高了用户在录制视频过程中的趣味性。

另外，由于本公开实施例生成的目标视频中包含有用户输入的语音数据与目标视频片段之间的互动关系，是目前的视频录制功能不能实现的，因此，本公开实施例生成的目标视频能够吸引更多的用户。

一种应用场景中，确定目标视频片段可以由第一设备实现，通过第一设备和第二设备的数据交互，最终生成目标视频。其中，本公开实施例中的第一设备可以是服务器，第二设备可以是具有视频录制功能的各种类型设备，如智能手机、电脑、智能手表、智能相机等设备。

为此，本公开实施例提供了另一种视频生成方法，参考图3，为本公开实施例提供的另一种视频生成方法的数据交互图。该方法包括：

S301：第二设备在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果。

本公开实施例中的S301可参照上述实施例中对S101描述进行理解，在此不再赘述。

S302：第二设备将所述语音识别结果发送至第一设备。

本公开实施例中，第二设备在将语音数据转换为文本数据后，得到语音识别结果，并将该语音识别结果发送至第一设备。

S303：第一设备确定所述语音识别结果对应的视频片段。

本公开实施例中，第一设备在接收到语音识别结果后，对语音识别结果进行语义分析，然后基于语义分析结果确定对应的视频片段。

一种可选的实施方式中，第一设备预先收集视频片段，具体的，可以从电影、短视频中截取关键片段，作为视频片段，然后，识别各个视频片段的字幕内容，并构建视频片段与字幕内容的对应关系。在对语音识别结果进行语义分析后，基于语义分析的结果，确定与语音识别结果对应的字幕内容，然后基于视频片段与字幕内容的对应关系，确定与该字幕内容对应的视频片段，作为该语音识别结果对应的视频片段。

另一种可选的实施方式中，第一设备还可以基于收集到的视频片段的字幕内容，构建字幕库，然后，基于对语音识别结果的语义分析，从字幕库中确定与该语音识别结果对应的字幕内容，最终在线搜索与该字幕内容匹配的视频片段，作为该语音识别结果对应的视频片段。

实际应用中，基于字幕内容在线搜索匹配的电影、短视频等，然后从搜索到的电影、短视频中提取与该字幕片段匹配的视频片段，作为该语音识别结果对应的视频片段。

S304：第一设备将所述视频片段返回至所述第二设备。

本公开实施例中，第一设备在获取到语音识别结果对应的视频片段后，将该视频片段发送至第二设备。

S305：第二设备接收所述视频片段，并将所述视频片段确定为所述语音数据对应的目标视频片段。

实际应用中，第二设备接收到语音识别结果对应的视频片段后，将该视频片段作为语音识别结果对应的语音数据的目标视频片段。

S306：第二设备将所述目标视频片段合成到当前录制的视频中的目标视频帧中。

S307：第二设备响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

本公开实施例中的S306和S307可参照上述实施例中对S103和S104的描述进行理解，在此不再赘述。

本公开实施例提供的视频生成方法中，用户可以在视频录制的过程中，通过输入语音数据触发将目标视频片段合成到当前录制的视频中，最终得到合成有目标视频片段的目标视频，提高了用户在录制视频过程中的趣味性。

基于上述方法实施例，本公开提供了一种视频生成系统，参考图4，为本公开实施例提供的一种视频生成系统的结构示意图，其中，所述系统400包括第一设备401和第二设备402；

所述第二设备402，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果，并将所述语音识别结果发送至所述第一设备；

所述第一设备401，用于接收所述语音识别结果，确定所述语音识别结果对应的视频片段，并将所述视频片段返回至所述第二设备；

所述第二设备402，还用于将所述视频片段确定为所述语音数据对应的目标视频片段，将所述目标视频片段合成到当前录制的视频中的目标视频帧中，并响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

一种可选的实施方式中，所述第二设备402，具体用于将所述语音识别结果发送至第一设备；所述第一设备用于根据所述语音识别结果确定视频片段；接收所述视频片段，并将所述视频片段确定为所述语音数据对应的目标视频片段。

一种可选的实施方式中，所述第二设备402，具体用于根据所述语音数据在当前录制的视频中的位置，将当前录制的视频中位于所述位置之后的多帧连续视频帧确定为目标视频帧。

一种可选的实施方式中，所述第二设备402，具体用于以画中画形式，将所述目标视频片段合成到当前录制的视频中的目标视频帧中。

一种可选的实施方式中，所述第二设备402，具体用于根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；响应于视频录制结束的触发操作，生成合成有所述目标动画或所述目标图像以及所述目标视频片段的目标视频。

所述语音数据包含问题内容，所述目标视频片段包含所述问题内容对应的答案内容；所述目标视频片段为影视片段或短视频。

一种可选的实施方式中，所述第一设备401，具体用于：

收集视频片段，并识别所述视频片段的字幕内容；

构建所述视频片段与所述字幕内容的对应关系；

一种可选的实施方式中，所述第一设备401，具体用于：

基于收集到的视频片段的字幕内容，构建字幕库；

本公开实施例提供的视频生成系统中，用户可以在视频录制的过程中，通过输入语音数据触发将目标视频片段合成到当前录制的视频中，最终得到合成有目标视频片段的目标视频，提高了用户在录制视频过程中的趣味性。

与上述方法、系统实施例基于同一个发明构思，本公开还提供了一种视频生成装置，参考图5，为本公开实施例提供的一种视频生成装置，所述装置包括：

语音识别模块501，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果；

获取模块502，用于基于所述语音识别结果，获取所述语音数据对应的目标视频片段；

第一合成模块503，用于将所述目标视频片段合成到当前录制的视频中的目标视频帧中；

生成模块504，用于响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频。

一种可选的实施方式中，所述获取模块502，包括：

发送子模块，用于将所述语音识别结果发送至第一设备；所述第一设备用于根据所述语音识别结果确定视频片段；

接收子模块，用于接收所述视频片段，并将所述视频片段确定为所述语音数据对应的目标视频片段。

一种可选的实施方式中，所述装置还包括：

目标帧确定模块，用于根据所述语音数据在当前录制的视频中的位置，将当前录制的视频中位于所述位置之后的多帧连续视频帧确定为目标视频帧。

一种可选的实施方式中，所述生成模块504，具体用于：

一种可选的实施方式中，所述装置还包括：

第二合成模块，用于根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；

相应的，所述生成模块，具体用于：

与上述方法、系统实施例基于同一个发明构思，本公开还提供了一种视频生成装置，参考图6，为本公开实施例提供的另一种视频生成装置，所述装置包括：

接收模块601，用于接收来自第二设备的语音识别结果；所述语音识别结果为所述第二设备在视频录制的过程中对检测到的语音数据进行语音识别后得到的；

确定模块602，用于确定所述语音识别结果对应的视频片段；

返回模块603，用于将所述视频片段返回至所述第二设备；所述视频片段用于合成到所述第二设备当前录制的视频中生成目标视频。

一种可选的实施方式中，所述装置还包括：

收集模块，用于收集视频片段，并识别所述视频片段的字幕内容；

第一构建模块，用于构建所述视频片段与所述字幕内容的对应关系；

相应的，所述确定模块，包括：

第一确定子模块，用于基于对所述语音识别结果的语义分析，确定与所述语音识别结果对应的字幕内容；

第二确定子模块，用于基于所述视频片段与所述字幕内容的对应关系，确定与所述字幕内容对应的视频片段，作为所述语音识别结果对应的视频片段。

一种可选的实施方式中，所述装置还包括：

第二构建模块，用于基于收集到的视频片段的字幕内容，构建字幕库；

相应的，所述确定模块，包括：

第三确定子模块，用于基于对所述语音识别结果的语义分析，从所述字幕库中确定与所述语音识别结果对应的字幕内容；

搜索子模块，用于在线搜索与所述字幕内容匹配的视频片段，作为所述语音识别结果对应的视频片段。

本公开实施例提供的视频生成装置中，用户可以在视频录制的过程中，通过输入语音数据触发将目标视频片段合成到当前录制的视频中，最终得到合成有目标视频片段的目标视频，提高了用户在录制视频过程中的趣味性。

另外，本公开实施例还提供了一种视频生成设备，参见图7所示，可以包括：

处理器701、存储器702、输入装置703和输出装置704。视频生成设备中的处理器701的数量可以一个或多个，图7中以一个处理器为例。在本公开的一些实施例中，处理器701、存储器702、输入装置703和输出装置704可通过总线或其它方式连接，其中，图7中以通过总线连接为例。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行视频生成设备的各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置703可用于接收输入的数字或字符信息，以及产生与视频生成设备的用户设置以及功能控制有关的信号输入。

具体在本实施例中，处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现上述视频生成设备的各种功能。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果；所述语音识别结果对应的语音数据具有交互意图；

基于所述语音识别结果，获取所述语音数据对应的目标视频片段；所述目标视频片段与所述语音数据之间具有互动关系；

将所述目标视频片段合成到当前录制的视频中的目标视频帧中，以及，根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；所述目标视频帧包括所述当前录制的视频中位于所述语音数据位置之后的多个连续帧；所述目标动画或目标图像用于基于所述目标视频片段中的字幕内容与所述语音数据形成问答交互效果；

响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频；所述目标视频中包括所述目标动画或所述目标图像。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语音识别结果，获取所述语音数据对应的视频片段，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述目标视频片段合成到当前录制的视频中的目标视频帧中之后，还包括：

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述语音数据包含问题内容，所述目标视频片段包含所述问题内容对应的答案内容。

7.根据权利要求6所述的方法，其特征在于，所述目标视频片段为影视片段或短视频。

8.一种视频生成方法，其特征在于，所述方法包括：

接收来自第二设备的语音识别结果；所述语音识别结果为所述第二设备在视频录制的过程中对检测到的语音数据进行语音识别后得到的；所述语音识别结果对应的语音数据具有交互意图；

确定所述语音识别结果对应的视频片段；所述视频片段与所述语音数据之间具有互动关系；

将所述视频片段返回至所述第二设备；所述视频片段用于合成到所述第二设备当前录制的视频中的目标视频帧中生成目标视频；所述目标视频帧包括所述当前录制的视频中位于所述语音数据位置之后的多个连续帧，所述目标视频中包括目标动画或目标图像，所述目标动画或所述目标图像为根据所述视频片段在所述目标视频帧的画面上的显示位置合成到所述目标视频帧中，所述目标动画或目标图像用于基于所述视频片段中的字幕内容与所述语音数据形成问答交互效果。

9.根据权利要求8所述的方法，其特征在于，所述确定所述语音识别结果对应的视频片段之前，还包括：

收集视频片段，并识别所述视频片段的字幕内容；

构建所述视频片段与所述字幕内容的对应关系；

10.根据权利要求8所述的方法，其特征在于，所述确定所述语音识别结果对应的视频片段之前，还包括：

基于收集到的视频片段的字幕内容，构建字幕库；

11.一种视频生成装置，其特征在于，所述装置包括：

语音识别模块，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果；所述语音识别结果对应的语音数据具有交互意图；

获取模块，用于基于所述语音识别结果，获取所述语音数据对应的目标视频片段；所述目标视频片段与所述语音数据之间具有互动关系；

第一合成模块，用于将所述目标视频片段合成到当前录制的视频中的目标视频帧中，以及，根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；所述目标视频帧包括所述当前录制的视频中位于所述语音数据位置之后的多个连续帧；所述目标动画或目标图像用于基于所述目标视频片段中的字幕内容与所述语音数据形成问答交互效果；

生成模块，用于响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频；所述目标视频中包括所述目标动画或所述目标图像。

12.一种视频生成装置，其特征在于，所述装置包括：

接收模块，用于接收来自第二设备的语音识别结果；所述语音识别结果为所述第二设备在视频录制的过程中对检测到的语音数据进行语音识别后得到的；所述语音识别结果对应的语音数据具有交互意图；

确定模块，用于确定所述语音识别结果对应的视频片段；所述视频片段与所述语音数据之间具有互动关系；

返回模块，用于将所述视频片段返回至所述第二设备；所述视频片段用于合成到所述第二设备当前录制的视频中的目标视频帧中生成目标视频；所述目标视频帧包括所述当前录制的视频中位于所述语音数据位置之后的多个连续帧，所述目标视频中包括目标动画或目标图像，所述目标动画或所述目标图像为根据所述视频片段在所述目标视频帧的画面上的显示位置合成到所述目标视频帧中，所述目标动画或目标图像用于基于所述视频片段中的字幕内容与所述语音数据形成问答交互效果。

13.一种视频生成系统，其特征在于，所述系统包括第一设备和第二设备；

所述第二设备，用于在视频录制的过程中，如果检测到当前录制的视频中存在语音数据，则对所述语音数据进行语音识别，得到语音识别结果，并将所述语音识别结果发送至所述第一设备；所述语音识别结果对应的语音数据具有交互意图；

所述第一设备，用于接收所述语音识别结果，确定所述语音识别结果对应的视频片段，并将所述视频片段返回至所述第二设备；所述视频片段与所述语音数据之间具有互动关系；

所述第二设备，还用于将所述视频片段确定为所述语音数据对应的目标视频片段，所述目标视频片段与所述语音数据之间具有互动关系；将所述目标视频片段合成到当前录制的视频中的目标视频帧中，以及，根据所述目标视频片段在所述目标视频帧的画面上的显示位置，将目标动画或目标图像合成到所述目标视频帧中；并响应于视频录制结束的触发操作，生成合成有所述目标视频片段的目标视频；所述目标视频中包括所述目标动画或所述目标图像；所述目标视频帧包括所述当前录制的视频中位于所述语音数据位置之后的多个连续帧。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-10任一项所述的方法。

15.一种设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-10任一项所述的方法。