CN114286169B

CN114286169B - 视频生成方法、装置、终端、服务器及存储介质

Info

Publication number: CN114286169B
Application number: CN202111013239.9A
Authority: CN
Inventors: 康洪文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-06-20
Anticipated expiration: 2041-08-31
Also published as: WO2023029984A1; CN114286169A; US20230259253A1

Abstract

本申请公开了一种视频生成方法、装置、终端、服务器及存储介质，涉及视频处理技术领域。该方法包括：响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，关键词选择界面中包含至少一个推荐关键词，推荐关键词通过对初始音频进行音频识别得到；响应于对关键词选择界面中推荐关键词的编辑操作，确定至少一个目标关键词；响应于关键词选择界面内的视频合成操作，显示视频展示界面，视频展示界面中包含有目标视频，目标视频基于目标视频片段合成得到，目标视频片段基于目标关键词匹配得到。实现在视频生成场景中，用户可以通过输入一段语音，得到与语音相关的视频，提高了视频生成效率。

Description

视频生成方法、装置、终端、服务器及存储介质

技术领域

本申请实施例涉及视频处理技术领域，特别涉及一种视频生成方法、装置、终端、服务器及存储介质。

背景技术

随着互联网技术的发展，创作者通过在平台上发布音视频，来吸引流量和关注。

相关技术中，若需要生成可以发布的音视频，可能需要人工录制音视频，进而对录制得到的音视频进行裁剪编辑后，得到可用于发布的音视频；或通过搜集现有视频素材，通过剪辑拼接，生成需要发布的音视频。

显然，该音视频生成方式均需要人工参与，视频生成效率较低，从而影响视频发布的及时性。

发明内容

本申请实施例提供了一种视频生成方法、装置、终端、服务器及存储介质，可以提高视频生成效率。所述技术方案如下：

根据本申请的一方面，提供了一种视频生成方法，所述方法包括：

响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，所述关键词选择界面中包含至少一个推荐关键词，所述推荐关键词通过对所述初始音频进行音频识别得到；

响应于对所述关键词选择界面中所述推荐关键词的编辑操作，确定至少一个目标关键词；

响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，所述视频展示界面中包含有目标视频，所述目标视频基于目标视频片段合成得到，所述目标视频片段基于所述目标关键词匹配得到。

根据本申请的另一方面，提供了一种视频生成方法，所述方法包括：

响应于接收到初始音频，对所述初始音频进行音频识别，确定至少一个推荐关键词；

响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，所述目标关键词由对关键词选择界面的编辑操作确定，所述关键词选择界面中包含所述推荐关键词；

基于所述目标视频片段，生成所述目标视频。

根据本申请的另一方面，提供了一种视频生成装置，所述装置包括：

第一显示模块，用于响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，所述关键词选择界面中包含至少一个推荐关键词，所述推荐关键词通过对所述初始音频进行音频识别得到；

第一确定模块，用于响应于对所述关键词选择界面中所述推荐关键词的编辑操作，确定至少一个目标关键词；

第二显示模块，用于响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，所述视频展示界面中包含有目标视频，所述目标视频基于目标视频片段合成得到，所述目标视频片段基于所述目标关键词匹配得到。

第二确定模块，用于响应于接收到初始音频，对所述初始音频进行音频识别，确定至少一个推荐关键词；

第三确定模块，用于响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，所述目标关键词由对关键词选择界面的编辑操作确定，所述关键词选择界面中包含所述推荐关键词；

第一生成模块，用于基于所述目标视频片段，生成所述目标视频。

根据本申请的另一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上方面所述的视频生成方法。

根据本申请的另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上方面所述的视频生成方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如上方面所述的视频生成方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的导航视频生成方法，或实现如上述可选实现方式中提供的视频生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过对用户输入的初始音频进行音频识别，确定推荐关键词，进而基于推荐关键词进行视频片段匹配，并基于匹配到的目标视频片段生成目标视频，使得可以实现由音频到相关视频的转换，实现在视频生成场景中，用户可以通过输入一段语音，即可得到与语音相关的视频，提高了视频生成效率，进而提高了视频发布效率；此外，还提供有关键词选择界面，使得用户可以人为调整推荐关键词，进而使得生成的目标视频更符合用户需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例示出的实施环境示意图；

图2示出了本申请一个示例性实施例提供的视频生成方法的流程图；

图3示出了本申请一个示例性实施例示出的视频生成过程的示意图；

图4示出了本申请另一个示例性实施例提供的视频生成方法的流程图；

图5示出了本申请一个示例性实施例示出的初始音频的获取过程示意图；

图6示出了本申请另一个示例性实施例示出的初始音频的获取过程示意图；

图7示出了本申请一个示例性实施例示出的对关键词选择界面的编辑过程示意图；

图8示出了本申请另一个示例性实施例示出的视频生成过程的示意图；

图9示出了本申请一个示例性实施例提供的视频生成方法的流程图；

图10示出了本申请另一个示例性实施例提供的视频生成方法的流程图；

图11示出了本申请一个示例性实施例示出的视频生成方法的流程图；

图12是本申请一个示例性实施例提供的视频生成装置的结构框图；

图13是本申请一个示例性实施例提供的视频生成装置的结构框图；

图14示出了本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种音频转视频的方法，请参考图1，其示出了本申请一个示例性实施例示出的实施环境示意图，该实施环境中包含：终端110和服务器120。

终端110是运行有视频类应用程序的设备。视频类应用程序可以是：视频剪辑应用程序、视频发布应用程序、视频播放应用程序等。本申请实施例中，终端110提供有音频转视频功能，当用户输入一段初始音频后，可以基于初始音频获取到推荐关键词，由用户选择需要进行视频合成的目标关键词，并向服务器120发起视频合成请求；可选的，终端110也可以将初始音频上传至服务器120，由服务器120将提取到的推荐关键词反馈至终端110。

可选的，终端110包括但不限于智能手机、电脑、智能语音交互设备、智能家电、车载终端等。

终端110与服务器120通过有线或无线通信方式进行直接或间接地连接。

服务器120是云技术领域中的云计算资源池，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器120可以是视频类应用程序的后台服务器，其可以接收终端110发送的视频合成请求，基于视频合成请求中包含的目标关键词匹配得到目标视频片段，进而基于目标视频片段合成得到目标视频，并将目标视频反馈至终端110；可选的，服务器120也可以接收终端110发送的初始音频，对初始音频进行音频识别，确定出推荐关键词，并将确定的推荐关键词反馈至终端110，以便用户可以基于推荐关键词选择目标关键词。

请参考图2，其示出了本申请一个示例性实施例提供的视频生成方法的流程图。本申请实施例以该方法应用于图1所示的终端为例进行说明，该方法包括：

步骤201，响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，关键词选择界面中包含至少一个推荐关键词，推荐关键词通过对初始音频进行音频识别得到。

为了提高视频生成效率，无需人工拍摄视频和裁剪视频，本申请实施例提供有直接基于用户输入的音频自动生成相关视频的方式，在一种可能的实施方式中，终端提供有音频输入界面，用户可以在该音频输入界面输入初始音频，对应终端接收到对音频输入界面的音频输入操作，获取初始音频，用于执行后续音频转视频过程。

可选的，该音频转视频功能可以集成为视频类应用程序中的特定功能，比如，在视频剪辑应用程序(视频剪辑平台)中，用户点击音频转视频控件，对应可以进入音频输入界面，输入需要转为相关视频的初始音频。

可选的，在音频输入界面中可以显示有音频录入控件，用户可以点击该音频录入控件，对应终端接收到对该音频录入控件的触发操作，通过麦克风采集声音信号，并将采集到的声音信号确定为初始音频。

可选的，在音频输入界面中还可以显示有文件上传控件，用户可以点击该文件上传控件，对应终端接收到对该文件上传控件的触发操作，可以上传指定音频文件，对应终端获取到初始音频。

为了实现音频转视频功能，在一种可能的实施方式中，终端可以对获取到的初始音频进行音频识别，得到初始音频所对应的初始文本内容，进而对初始文本内容进行关键词提取，得到可用于生成后续视频的推荐关键词，并将该推荐关键词显示在关键词选择界面中，以便由用户确认该推荐关键词是否符合用户需求，或确认该推荐关键词是否识别准确。

如图3所示，其示出了本申请一个示例性实施例示出的视频生成过程的示意图。音频输入界面301中显示有音频录入控件302，当用户点击音频录入控件302后，终端接收到对音频输入界面301的音频输入操作，获取初始音频；当基于初始音频的推荐关键词确定完成后，显示关键词选择界面303，该关键词选择界面303中显示有多个推荐关键词304。

可选的，为了降低终端功耗，在一种可能的实施方式中，也可以由服务器执行推荐关键词的获取过程，也即终端在获取到初始音频后，会将初始音频上传至服务器，由服务器对初始音频进行音频识别，得到至少一个推荐关键词，并将得到的推荐关键词反馈至终端，使得终端可以在关键词选择界面中显示该推荐关键词。

可选的，推荐关键词可以是由初始音频提取到的，也即仅将初始音频中包含的推荐关键词显示在关键词选择界面中。

为了丰富推荐关键词的数量，进而便于后续生成信息更丰富的目标视频，在一种可能的实施方式中，当从初始音频对应的初始文本内容中提取出候选关键词后，还可以基于该候选关键词进行关联推荐，也即获取该候选关键词相关的热词，并将热词和候选关键词共同作为推荐关键词。

步骤202，响应于对关键词选择界面中推荐关键词的编辑操作，确定至少一个目标关键词。

由于音频识别可能存在误差，或者用户可能存在初始音频录入不准确，可能导致推荐关键词不符合用户期望，在一种可能的实施方式中，关键词选择界面中提供有对推荐关键词的编辑功能，用户可以手动修改识别错误的推荐关键词、删除多余的推荐关键词，以及添加之前初始音频中未录入的推荐关键词等，当用户修改完毕后，终端可以将关键词选择界面中展示的最终推荐关键词，确定为目标关键词。

步骤203，响应于关键词选择界面内的视频合成操作，显示视频展示界面，视频展示界面中包含有目标视频，目标视频基于目标视频片段合成得到，目标视频片段基于目标关键词匹配得到。

在一种可能的实施方式中，若用户对关键词选择界面中的推荐关键词编辑完成后，可以点击关键词选择界面内的视频合成控件，对应终端接收到关键词选择界面内的视频合成操作，可以显示视频展示界面，该视频展示界面中展示有目标视频。

如图3所示，当用户对关键词选择界面303内推荐关键词编辑完成后，可以点击合成控件305，对应终端接收到关键词选择界面内的视频合成操作，可以进行后续视频合成操作，并将合成的目标视频307展示在视频展示界面306中。可选的，视频展示界面306中还可以包含发布控件308，当用户点击发布控件308，对应终端接收到对目标视频307的发布操作，可以将目标视频307发布至目标展示平台上。

针对生成目标视频的方式，可以基于目标关键词进行视频片段匹配，得到与目标关键词相符合的热点视频片段(目标视频片段)，进而基于目标视频片段合成，与目标关键词相符合的目标视频。

可选的，基于目标视频片段合成目标视频的情况可以包括：若目标关键词为一个，则匹配到一个目标视频片段，可以基于目标视频片段、目标字幕以及目标配音合成目标视频；可选的，若目标关键词为两个以上，则匹配到多个目标视频片段，则可以将多个目标视频片段进行拼接合成，得到目标视频，目标视频中的配音和字幕均可以采用原有目标视频片段中的原有字幕和原有配音；或，可以将多个目标视频片段拼接，并与目标字幕和目标配音共同合成目标视频，目标字幕和目标配音均是基于目标关键词重新生成的。

可选的，目标视频中包含的目标字幕可以由目标关键词和初始音频对应的初始文本生成，目标配音则基于目标字幕进行语音合成，得到音频流，进而基于目标字幕、音频流和视频进行视频渲染，得到最终显示在视频展示界面内的目标视频。

可选的，生成目标视频的过程可以由服务器执行，对应终端将目标关键词发送给服务器，服务器基于接收到的目标关键词进行匹配，得到目标视频片段，并基于目标视频片段合成目标视频，将合成的目标视频反馈至终端；对应终端将接收到的目标视频显示在视频展示界面中。

综上所述，本申请实施例中，通过对用户输入的初始音频进行音频识别，得到推荐关键词，进而基于推荐关键词进行视频片段匹配，并基于匹配到的目标视频片段生成目标视频，使得可以实现由音频到相关视频的转换，实现在视频生成场景中，用户可以通过输入一段语音，即可得到与语音相关的视频，提高了视频生成效率，进而提高了视频发布效率；此外，还提供有关键词选择界面，使得用户可以人为调整推荐关键词，进而使得生成的目标视频更符合用户需求。

为了提高基于推荐关键词生成目标视频的准确性，避免由于语音识别存在误差而导致推荐关键词有误，或由于用户输入初始音频有误而导致用户需要重复进行音频输入，在一种可能的实施方式中，终端将推荐关键词显示在关键词选择界面中，并提供对关键词选择界面的编辑功能，使得用户可以人工修改推荐关键词，进而提高了后续生成目标视频的准确性。

在一个示例性的例子中，如图4所示，其示出了本申请另一个示例性实施例提供的视频生成方法的流程图。本申请实施例以该方法应用于图1所示的终端为例进行说明，该方法包括：

步骤401，响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，关键词选择界面中包含至少一个推荐关键词，推荐关键词通过对初始音频进行音频识别得到。

可选的，音频转视频过程中所使用的初始音频，可以由用户及时进行音频录制得到，也可以是预先录制好的音频文件，在一个示例性的例子中，终端获取初始音频的过程可以包括步骤一和步骤二。

一、响应于对音频输入界面中音频录入控件的触发操作，通过麦克风采集初始音频。

为了满足用户对音频转视频的及时性需求，在一种可能的实施方式中，音频输入界面中显示有音频录入控件，用户可以通过音频录入控件及时录入初始音频，对应终端接收到音频输入界面中音频录入控件的触发操作，通过麦克风采集初始音频。

可选的，对音频录入控件的触发操作可以是对音频录入控件的点击操作，即用户第一次点击音频录入控件，开始采集初始音频，当用户再次点击音频录入控件时，停止采集初始音频，将两次点击过程中采集到的音频确定为初始音频；或，对音频录入控件的触发操作也可以是对音频录入控件的长按操作，也即用户长按音频录入控件，开始采集初始音频，当用户停止长按音频录入控件，停止采集初始音频，并将用户长按音频录入控件过程中采集到的音频确定为初始音频。

可选的，为了避免过长的音频录入过程而导致后续视频生成过程的繁杂性，在一种可能的实施方式中，设置有音频录入时长，当用户开始录入初始音频时，会显示时长倒计时，当倒计时结束后，即使用户未停止录入音频，也会自动停止录入音频。示意性的，音频录入时长可以是30s。可选的，音频录入时长也可以由用户自定义。

如图5所示，其示出了本申请一个示例性实施例示出的初始音频的获取过程示意图。其中，音频输入界面501中显示有音频录入控件502，当用户点击音频录入控件502后，终端接收到对音频录入控件502的点击操作，通过麦克风采集初始音频，当用户停止点击音频录入控件502，则音频输入界面501中可以显示提示信息503“上传中”，以提示用户终端获取到初始音频。

二、响应于对音频输入界面中音频上传控件的触发操作，获取初始音频对应的音频文件。

可选的，若终端中提前存储有用户需要进行音频转视频的初始音频，为了避免需要用户重复执行音频录入操作，在一种可能的实施方式中，音频输入界面中包含音频上传控件，当用户点击音频上传控件后，对应终端可以接收到对音频输入界面中音频上传控件的触发操作，由用户选择需要进行音频转视频的音频文件，进而使得终端可以获取到该初始音频对应的音频文件。

可选的，触发操作可以是点击操作、双击操作、长按操作中的任意一种，本申请实施例对此不构成限定。

如图6所示，其示出了本申请另一个示例性实施例示出的初始音频的获取过程示意图。其中，音频输入界面601中显示有音频上传控件602，当用户点击音频上传控件602后，终端接收到对音频上传控件602的点击操作，调用文件夹，由用户从文件夹中选择音频文件，当接收到对音频文件的上传操作后，则音频输入界面601中可以显示提示信息603“上传中”，以提示用户终端获取到初始音频对应的音频文件。

可选的，对初始音频进行音频识别的过程由服务器执行，在一个示例性的例子中，步骤401可以包括步骤401A和步骤401B。

步骤401A，响应于对音频输入界面的音频输入操作，向服务器发送获取到的初始音频，服务器用于对初始音频进行音频识别，确定至少一个推荐关键词。

在一种可能的实施方式中，当终端接收到对音频输入界面的音频输入操作后，可以将获取到的初始音频发送至服务器，由服务器对初始音频进行音频识别，并将确定出的推荐关键词反馈给终端。

可选的，服务器在对初始音频进行音频识别后，可以得到初始音频对应的初始文本内容，进而可以从该初始文本内容中提取到推荐关键词。

其中，服务器对初始音频进行音频识别和关键词提取的过程可以参考下文实施例，本实施例在此不做赘述。

步骤401B，基于服务器发送的推荐关键词，显示关键词选择界面。

对应终端接收到服务器发送的推荐关键词，可以将该推荐关键词显示在关键词选择界面中。

可选的，在显示推荐关键词时，可以按照推荐关键词在初始音频对应初始文本内容中的顺序依次显示。

步骤402，响应于对关键词选择界面中添加控件的触发操作，在关键词选择界面中新增推荐关键词。

可选的，关键词选择界面的编辑功能至少包括：推荐关键词添加功能，推荐关键词删除功能以及推荐关键词修改功能中的至少一种。

由于推荐关键词仅是初始音频对应初始文本内容中的一些词语，而不是初始文本内容的全部，可能存在初始音频中包含某些关键词，而关键词选择界面中并未显示该关键词；或者用户在录完初始音频后，发现忘记录入包含某些重要关键词的音频，为了避免用户重复录制音频而增加音频转视频的成本，在一种可能的实施方式中，关键词选择界面中提供有添加控件，以便用户可以通过该添加控件添加所需要的推荐关键词；对应终端接收到对添加控件的触发操作，可以在关键词选择界面中新增推荐关键词。

如图7所示，其示出了本申请一个示例性实施例示出的对关键词选择界面的编辑过程示意图。其中，关键词选择界面701中包含有添加控件702，且每个推荐关键词均对应有删除控件703。当用户点击添加控件702，对应终端接收到对关键词选择界面中添加控件702的触发操作，在关键词选择界面701中新增推荐关键词705。

由于后续需要基于推荐关键词匹配的目标视频片段进行视频合成，为了提高目标视频的流畅性，避免存在突兀的视频片段，或情节不连续的视频片段，当用户在关键词选择界面中新增推荐关键词时，可以通过比较新增关键词与其他推荐关键词的关联度，来确定是否直接在关键词选择界面中新增关键词。在一个示例性的例子中，步骤402可以包括步骤402A～步骤402C。

步骤402A，响应于对关键词选择界面中添加控件的触发操作，获取新增关键词。

在一种可能的实施方式中，当终端接收到对关键词选择界面中添加控件的触发操作后，可以获取新增关键词，进而通过比较新增关键词与其他推荐关键词之间的关联度，来确定是否直接新增推荐关键词。

步骤402B，确定新增关键词与各个推荐关键词之间的关联度。

由于推荐关键词需要具备一定关联度，才可以使得后续基于推荐关键词确定出的目标视频片段具备一定关联度，从而有利于后续目标视频的流畅度，因此，在一种可能的实施方式中，当获取到新增关键词后，可以确定新增关键词与各个推荐关键词之间的关联度，用于判断是否直接新增该推荐关键词。

可选的，若新增关键词为初始音频对应初始文本内容中的词语，对应的，可以无需判断关联度，直接将新增关键词显示在关键词选择界面中。

步骤402C，响应于存在关联度大于关联度阈值，在关键词选择界面中新增推荐关键词。

在一种可能的实施方式中，若新增关键词与某个推荐关键词之间的关联度较高，且高于关联度阈值，则表示新增关键词有利于后续合成目标视频，对应的可以直接在关键词选择界面中新增推荐关键词。

示意性的，关联度阈值可以由开发人员预先设置，关联度阈值关联度阈值可以是85％。

可选的，若新增关键词与任意推荐关键词之间的关联度均小于关联度阈值，可能会导致基于该新增关键词确定出的目标视频片段与其他目标视频片段的关联性较小，可能会影响后续目标视频的连贯性，为了提醒用户该情况，在一种可能的实施方式中，可以显示第二提示信息，第二提示信息用于提示关联度信息，由用户确定是否仍然将该新增关键词显示在关键词选择界面。

步骤403，响应于对关键词选择界面中目标删除控件的触发操作，删除关键词选择界面中目标删除控件对应的推荐关键词。

由于关键词选择界面中不仅显示有基于用户初始音频提取到的关键词，还显示有基于该关键词推荐的其他热词，以便用户从中选择出所需要的推荐关键词，因此，在一种可能的实施方式中，关键词选择界面中包含有目标删除控件，可以通过对目标删除控件的触发操作，删除关键词选择界面中目标删除控件对应的推荐关键词。

如图7所示，当用户需要删除推荐关键词704，可以点击推荐关键词704对应的删除控件703，对应终端接收到对该删除控件703的触发操作，删除关键词选择界面701中的推荐关键词704。

更多推荐关键词可以提高生成目标视频的丰富度，以及匹配出的目标视频片段的准确性，因此，为了避免用户剩余推荐关键词数量较低而影响后续目标视频的生成，设置有数量阈值，以便在低于数量阈值时及时提醒用户。在一个示例性的例子中，步骤403可以包括步骤403A和步骤403B。

步骤403A，响应于对关键词选择界面中目标删除控件的触发操作，获取剩余推荐关键词的关键词数量。

在一种可能的实施方式中，当接收到对关键词选择界面中目标删除控件的触发操作后，可以获取剩余推荐关键词的关键词数量，以便后续判断剩余推荐关键词是否足够生成目标视频。

步骤403B，响应于关键词数量高于数量阈值，删除关键词选择界面中目标删除控件对应的推荐关键词。

当确定出关键词数量高于数量阈值，则表示剩余推荐关键词足够生成信息丰富的目标视频，则直接删除关键词选择界面中目标删除控件对应的推荐关键词。

可选的，若关键词数量低于数量阈值，则表示剩余推荐关键词可能不足以生成信息丰富的目标视频，需要进一步提醒用户是否仍然要删除该推荐关键词，对应终端显示第一提示信息，第一提示信息用于提示剩余关键词数量。

示意性的，数量阈值可以由开发人员设置，数量阈值可以是5个。

步骤404，响应于对关键词选择界面中推荐关键词的修改操作，在关键词选择界面中显示修改后的推荐关键词。

当初始音频识别有误时，可能会导致推荐关键词与用户想要的推荐关键词存在误差，为了避免用户需要重复录入初始音频，重复进行关键词提取，在一种可能的实施方式中，关键词选择界面中提供有对推荐关键词的修改操作，用户可以长按需要修改的推荐关键词，并输入修改后的推荐关键词，对应终端将修改后的推荐关键词显示在关键词选择界面中。

如图7所示，当用户需要修改推荐关键词704，可以长按推荐关键词704，输入修改后的推荐关键词，对应将修改后的推荐关键词706显示在关键词选择界面701中。

步骤405，响应于对关键词选择界面中视频合成控件的触发操作，将关键词选择界面中展示的推荐关键词确定为目标关键词。

为了使得终端确定用户推荐关键词编辑完成，在一种可能的实施方式中，关键词选择界面中显示有视频合成控件，当终端接收到对关键词选择界面中视频合成控件的触发操作后，确定推荐关键词编辑完成，并将关键词选择界面中最终展示的推荐关键词确定为目标关键词。

步骤406，响应于关键词选择界面内的视频合成操作，显示视频展示界面，视频展示界面中包含有目标视频，目标视频基于目标视频片段合成得到，目标视频片段基于目标关键词匹配得到。

可选的，视频合成过程由服务器执行，在一个示例性的例子中，步骤406可以包括步骤406A和步骤406B。

步骤406A，响应于对关键词选择界面中视频合成控件的触发操作，向服务器发送目标关键词，服务器用于基于目标关键词进行视频片段匹配，得到至少一个目标视频片段，并基于目标视频片段合成目标视频。

在一种可能的实施方式中，当终端接收到对关键词选择界面中视频合成控件的触发操作后，可以基于关键词选择界面中最终展示的推荐关键词确定出目标关键词，进而基于目标关键词向服务器发送视频合成请求，该视频合成请求中包含该目标关键词，对应服务器在接收到该视频合成请求后，即可以基于目标关键词进行视频片段匹配，匹配出至少一个目标视频片段，进而基于目标视频片段合成目标视频。

步骤406B，基于服务器发送的目标视频，显示视频展示界面。

可选的，服务器将合成后的目标视频反馈给终端，对应终端基于服务器发送的目标视频，显示视频展示界面。

如图8所示，其示出了本申请另一个示例性实施例示出的视频生成过程的示意图。当用户点击音频输入界面801中的音频输入控件802，对应终端接收到对音频输入界面801的音频输入操作，获取初始音频；将基于初始音频进行音频识别得到的推荐关键词804显示在关键词选择界面803中；当用户点击关键词选择界面803中的合成控件805时，对应终端接收到关键词选择界面803内的视频合成操作，向服务器发送视频合成请求；终端基于服务器反馈的目标视频，在视频展示界面806中显示目标视频807。

步骤407，响应于对视频展示界面中目标视频的播放操作，播放目标视频，目标视频中包含目标字幕，目标字幕中包含目标关键词。

可选的，目标视频中不仅由目标视频片段拼接完成，还可以包含目标字幕和配音，而由于目标视频是由目标关键词间接生成的，对应的，目标视频中包含的目标字幕也应该包含目标关键词。

其中，生成目标字幕、配音的过程可以参考下文实施例，本实施例在此不做赘述。

步骤408，响应于对视频展示界面中重新合成控件的触发操作，显示关键词选择界面。

可选的，视频展示界面中显示有重新合成控件。

若目标视频不符合用户期望，为了避免用户需要重新录入音频，重复进行音频转视频的操作，在一种可能的实施方式中，用户可以点击视频展示界面中的重新合成控件，可以重新返回关键词选择界面，由用户重新编辑推荐关键词，重新进行视频合成。

如图8所示，当用户点击视频展示界面806中的重新合成控件809后，可以显示关键词选择界面803，重新进行推荐关键词编辑操作。可选的，视频展示界面806中还显示有发布控件808和重新输入控件810，发布控件808用于将目标视频807发布至其他视频平台，而重新输入控件810用于返回音频输入界面801，重新进行音频输入操作。

本实施例中，通过关键词选择界面提供的推荐关键词编辑功能，使得用户可以对推荐关键词进行修改、删除和添加，使得最终确定的目标关键词更符合用户期望，从而避免重复进行音频转视频的操作，提高高质量视频的生成效率，进而可以提高视频发布效率。

上文实施例中主要描述了终端侧的视频生成过程，而视频生成过程是由终端和服务器侧交互完成的，本实施例则着重描述服务器侧的视频生成过程。

请参考图9，其示出了本申请一个示例性实施例提供的视频生成方法的流程图。本申请实施例以该方法应用于图1所示的服务器为例进行说明，该方法包括：

步骤901，响应于接收到初始音频，对初始音频进行音频识别，确定至少一个推荐关键词。

需要说明的是，本实施例中，对初始音频进行音频识别的过程，以及视频合成过程均由服务器侧执行。

在一种可能的实施方式中，当终端获取到初始音频后，可以向服务器发送初始音频，对应服务器接收到初始音频，对初始音频进行音频识别，确定出至少一个推荐关键词。

可选的，服务器在确定出推荐关键词后，不会直接基于推荐关键词进行视频片段匹配和后续视频合成，而是需要将推荐关键词反馈至终端，进而将推荐关键词反馈至终端，使得终端可以基于接收到的推荐关键词显示关键词选择界面。

步骤902，响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，目标关键词由对关键词选择界面的编辑操作确定，关键词选择界面中包含推荐关键词。

为了提高后续视频生成的准确性，需要保证目标关键词(推荐关键词)的准确性，因此，在一种可能的实施方式中，当用户在终端的关键词选择界面对推荐关键词进行编辑操作后，由终端将用户确认的目标关键词发送给服务器，进而服务器可以基于该目标关键词，执行后续视频生成过程。

可选的，当服务器接收到视频合成请求后，可以从该视频合成请求中获取到目标关键词，进而基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段。

针对基于目标关键词进行视频片段匹配的过程，在一种可能的实施方式中，可以比较目标关键词与候选热点视频对应视频标签之间的相似度，若相似度高于相似度阈值，则将该候选热点视频确定为目标关键词对应的目标视频片段。示意性的，相似度阈值可以是85％。

可选的，可以将候选热点视频输入视频理解模型中，由视频理解模型提取候选热点视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出候选热点视频的场景信息、对象信息、人物表情、运动信息，作为候选热点视频的视频标签。

可选的，计算目标关键词和视频标签之间的相似度时，可以将目标关键词和视频标签转换为特征向量，进而比较两个特征向量之间的相似度。

步骤903，基于目标视频片段，生成目标视频。

在一种可能的实施方式中，服务器对目标视频片段进行合成，得到目标视频；并将目标视频反馈给终端，由终端显示在视频展示界面中。

可选的，服务器在基于目标视频片段合成目标视频时，若存在多个目标关键词，对应匹配到两个以及两个以上的目标视频片段，则可以通过对多个目标视频片段进行拼接以合成目标视频，该目标视频中的配音和字幕可以使用目标视频片段中的原有配音和原有字幕；或，服务器可以基于目标关键词，生成新的目标配音和目标字幕，进而将多个目标视频片段进行拼接，并与目标配音和目标字幕进行合成，得到目标视频；可选的，若仅包含单个目标关键词，对应匹配到单个目标视频片段，可以基于目标视频片段、目标配音和目标字幕合成目标视频。

当匹配到多个目标视频片段时，需要对目标视频片段进行拼接合成，视频拼接顺序会影响到生成目标视频的流畅度，在一种可能的实施方式中，可以由初始音频为目标视频片段的拼接顺序提供参考依据。

请参考图10，其示出了本申请另一个示例性实施例提供的视频生成方法的流程图。本申请实施例以该方法应用于图1所示的服务器为例进行说明，该方法包括：

步骤1001，响应于接收到初始音频，对初始音频进行音频识别，得到初始文本内容。

在一种可能的实施方式中，当服务器接收到终端发送的初始音频，首先对初始音频进行音频识别，将音频转换为初始文本内容。

将初始音频转换为初始文本内容可以采用语音识别(音频识别)方式，比如，基于动态时间规整的算法、基于参数模型的隐马尔可夫模型、基于非参数模型的矢量量化方法以及基于人工神经网络的算法等，本申请实施例负语音识别方法不构成限定。

步骤1002，对初始文本内容进行关键词提取，确定至少一个推荐关键词。

当服务器获取到初始文本内容后，可以对初始文本内容进行关键词提取，从中提取出至少一个推荐关键词。

可选的，关键词提取的方式可以采用人工智能自然语言处理技术，将初始文本内容输入关键词提取模型中，由关键词提取模型输出关键词序列。该关键词提取模型由嵌入(Embedding)层、双向长短期记忆网络(Long Short-Term Memory，LSTM)以及归一化指数(SoftMax)隐藏层、条件随机场(Conditional Random Field，CRF)监督层构成。

可选的，当服务器获取到初始文本内容后，可以删除初始文本内容中无意义的文字片段，比如，语气词等，进而将删除无意义文字片段的初始文本内容输入关键词提取模型中进行关键词提取，可以提高关键词提取效率。

步骤1003，响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，目标关键词由对关键词选择界面的编辑操作确定，关键词选择界面中包含推荐关键词。

可选的，视频合成请求是终端在接收到对关键词选择界面的视频合成操作后发送的，在一个示例性的例子中，步骤1003可以包括步骤1003A和步骤1003B。

步骤1003A，基于终端发送的视频合成请求，获取目标关键词，视频合成请求是终端在接收到关键词选择界面内的视频合成操作后发送的。

在一种可能的实施方式中，当终端在接收到对关键词选择界面中视频合成控件的触发操作时，确定接收到关键词选择界面内的视频合成操作，向服务器发送视频合成请求，该视频合成请求中包含目标关键词，以便服务器可以基于目标关键词进行后续视频合成操作。

步骤1003B，基于目标关键词进行视频片段匹配，得到至少一个目标视频片段。

可选的，在基于目标关键词进行视频片段匹配时，可以仅基于单个目标关键词确定一个目标视频片段，后续基于各个关键词对应的目标视频片段，合成一个目标视频。

可选的，也可以基于单个目标关键词匹配两个或两个以上的目标视频片段，则后续可以考虑不同目标视频片段的组合，生成多个目标视频，推送给终端，以便用户可以从多个目标视频中选择效果更好的目标视频进行视频发布。

步骤1004，基于目标关键词和初始文本内容，生成目标文本内容。

由于目标关键词中可能不仅包含初始文本内容中的推荐关键词，可能还包含用户新增关键词，因此，在一种可能的实施方式中，还需要基于目标关键词对初始文本内容进行修改，以生成目标文本内容。

在一个示例性的例子中，步骤1004可以包括步骤1004A～步骤1004C。

步骤1004A，响应于目标关键词属于初始文本内容，基于初始文本内容生成目标文本内容。

当用户仅删除了推荐关键词中的部分推荐关键词，也即初始文本内容中的部分文本内容与目标关键词无关，因此，在一种可能的实施方式中，基于目标关键词对初始文本内容进行删减，也即删除不包含目标关键词的文本内容，进而将删减后的文本内容确定为目标文本内容。

可选的，若初始文本内容中包含全部目标关键词，且不存在无关文本内容，则可以直接将初始文本内容确定为目标文本内容。

步骤1004B，响应于存在目标关键词不属于初始文本内容，基于目标关键词，生成目标关键词对应的目标描述文本。

在一种可能的实施方式中，若目标关键词为新增推荐关键词，且初始文本内容中不包含该目标关键词，则为了使得生成的目标文本内容中可以包含目标关键词，就需要基于目标关键词和初始文本内容的上下文语义，生成目标关键词所对应的目标描述文本，进而将该目标描述文本添加至初始文本内容中，以得到最终的目标文本内容。

可选的，由于目标最终文本内容用于确定目标视频中的目标字幕信息，在其他可能的实施方式中，也可以基于目标关键词对应的目标视频片段，生成其对应的目标描述文本，在一个示例性的例子中，步骤1004B还包括步骤三和步骤四。

三、获取目标关键词对应的目标视频片段。

可选的，若初始文本内容中不包含该目标关键词，则可以先获取目标关键词对应的目标视频片段，进而基于目标视频片段，生成与该目标关键词相关的目标描述文本。

四、基于目标视频片段，确定目标关键词对应的目标描述文本。

可选的，可以基于目标视频片段原有的字幕信息，生成与目标关键词相关的目标描述文本。

步骤1004C，基于初始文本内容和目标描述文本，生成目标文本内容。

基于初始文本内容的上下文语义，将目标描述文本增加至初始文本内容中，进而生成目标文本内容。

可选的，当生成目标文本内容后，可以基于目标文本内容生成对应的目标字幕，以便后续添加至目标视频中。

可选的，在生成目标字幕后，可以通过语音合成技术，将目标字幕转换为语音(配音)，以便后续添加至目标视频中。

可选的，可以采用用户自身声音进行配音，对应从初始音频中提取出用户的声纹特征，进而基于该声纹特征进行语音合成，从而生成具有用户自己声音的配音。

步骤1005，基于目标关键词在目标文本内容中的关键词顺序，对各个目标视频片段进行拼接合成，生成目标视频。

为了使得最终生成的目标视频符合用户说话习惯(与初始音频符合)，在一种可能的实施方式中，可以基于目标关键词在目标文本内容中的关键词顺序，对各个目标视频片段进行拼接合成，进而生成目标视频。

可选的，还可以在目标视频中添加目标字幕、配音合并渲染，得到最终反馈给终端的目标视频(推荐视频)。

步骤1006，向终端发送目标视频，终端用于将目标视频显示在视频展示界面中。

在一种可能的实施方式中，当服务器生成目标视频后，即可以将目标视频反馈给终端，以便终端将目标视频显示在视频展示界面中。

本实施例中，通过获取目标关键词在目标文本内容中的关键词顺序，对目标视频片段进行拼接，可以使得生成的目标视频更符合用户说话习惯，进而可以提高目标视频的准确性。

请参考图11，其示出了本申请一个示例性实施例示出的视频生成方法的流程图。该方法包括以下步骤：

步骤1101，用户录入一段初始音频。

步骤1102，通过语音识别技术，将初始音频转为初步文本内容，并删除无意义的文字片段。

步骤1103，对语音识别出的初步文本内容进行关键词识别和提取。

步骤1104，用户增加挑选关键字。

步骤1105，根据关键字，对初始文本内容进行增增减，生成最终文本内容。

步骤1106，利用语音合成技术将最终文本内容合成为语音。

步骤1107，将最终文本信息生成为字幕信息。

步骤1108，基于视频内容，利用深度学习技术对视频自动打标签。

步骤1109，根据关键字，在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据。

步骤1110，将匹配的视频、字幕、音频进行合成，生成推荐视频。

以下为本申请的装置实施例，对于装置实施例中未详细描述的细节，可参考上述方法实施例。

图12是本申请一个示例性实施例提供的视频生成装置的结构框图。该装置包括：

第一显示模块1201，用于响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，所述关键词选择界面中包含至少一个推荐关键词，所述推荐关键词通过对所述初始音频进行音频识别得到；

第一确定模块1202，用于响应于对所述关键词选择界面中所述推荐关键词的编辑操作，确定至少一个目标关键词；

第二显示模块1203，用于响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，所述视频展示界面中包含有目标视频，所述目标视频基于目标视频片段合成得到，所述目标视频片段基于所述目标关键词匹配得到。

可选的，所述第一确定模块1202，包括：

添加单元，用于响应于对所述关键词选择界面中添加控件的触发操作，在所述关键词选择界面中新增推荐关键词；

删除单元，用于响应于对所述关键词选择界面中目标删除控件的触发操作，删除所述关键词选择界面中所述目标删除控件对应的推荐关键词；

修改单元，用于响应于对所述关键词选择界面中所述推荐关键词的修改操作，在所述关键词选择界面中显示修改后的推荐关键词；

第一确定单元，用于响应于对所述关键词选择界面中视频合成控件的触发操作，将所述关键词选择界面中展示的推荐关键词确定为所述目标关键词。

可选的，所述删除单元，还用于：

响应于对所述关键词选择界面中所述目标删除控件的触发操作，获取剩余推荐关键词的关键词数量；

响应于所述关键词数量高于数量阈值，删除所述关键词选择界面中所述目标删除控件对应的推荐关键词；

所述装置还包括：

第三显示模块，用于响应于所述关键词数量低于所述数量阈值，显示第一提示信息，所述第一提示信息用于提示剩余关键词数量。

可选的，所述添加单元，还用于：

响应于对所述关键词选择界面中所述添加控件的触发操作，获取新增关键词；

确定所述新增关键词与各个所述推荐关键词之间的关联度；

响应于存在所述关联度大于关联度阈值，在所述关键词选择界面中新增推荐关键词；

所述装置还包括：

第四显示模块，用于响应于所述关联度小于所述关联度阈值，显示第二提示信息，所述第二提示信息用于提示关联度信息。

可选的，所述视频展示界面中显示有重新合成控件；

所述装置还包括：

第五显示模块，用于响应于对所述视频展示界面中所述重新合成控件的触发操作，显示所述关键词选择界面。

可选的，所述第一显示模块1201，包括：

第一获取单元，用于响应于对所述音频输入界面中音频录入控件的触发操作，通过麦克风采集所述初始音频；

或，

第二获取单元，用于响应于对所述音频输入界面中音频上传控件的触发操作，获取所述初始音频对应的音频文件。

可选的，所述装置还包括：

播放模块，用于响应于对所述视频展示界面中所述目标视频的播放操作，播放所述目标视频，所述目标视频中包含目标字幕，所述目标字幕中包含所述目标关键词。

可选的，所述第一显示模块1201，包括：

第一发送单元，用于响应于对所述音频输入界面的音频输入操作，向服务器发送获取到的所述初始音频，所述服务器用于对所述初始音频进行音频识别，确定至少一个所述推荐关键词；

第一显示单元，用于基于所述服务器发送的所述推荐关键词，显示所述关键词选择界面。

可选的，所述第二显示模块1203，包括：

第二发送单元，用于响应于对所述关键词选择界面中视频合成控件的触发操作，向服务器发送所述目标关键词，所述服务器用于基于所述目标关键词进行视频片段匹配，得到至少一个目标视频片段，并基于所述目标视频片段合成所述目标视频；

第二显示单元，用于基于所述服务器发送的所述目标视频，显示所述视频展示界面。

图13是本申请一个示例性实施例提供的视频生成装置的结构框图。该装置包括：

第二确定模块1301，用于响应于接收到初始音频，对所述初始音频进行音频识别，确定至少一个推荐关键词；

第三确定模块1302，用于响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，所述目标关键词由对关键词选择界面的编辑操作确定，所述关键词选择界面中包含所述推荐关键词；

第一生成模块1303，用于基于所述目标视频片段，生成所述目标视频。

可选的，所述第二确定模块1301，包括：

识别单元，用于对所述初始音频进行音频识别，得到初始文本内容；

第二确定单元，用于对所述初始文本内容进行关键词提取，确定至少一个所述推荐关键词；

所述装置还包括：

第二生成模块，用于基于所述目标关键词和所述初始文本内容，生成目标文本内容；

所述第一生成模块，包括：

第一生成单元，用于基于所述目标关键词在所述目标文本内容中的关键词顺序，对各个所述目标视频片段进行拼接合成，生成所述目标视频。

可选的，所述第二生成模块，包括：

第二生成单元，用于响应于所述目标关键词属于所述初始文本内容，基于所述初始文本内容生成所述目标文本内容；

或，

第三生成单元，用于响应于存在目标关键词不属于所述初始文本内容，基于所述目标关键词，生成所述目标关键词对应的目标描述文本；

第四生成单元，用于基于所述初始文本内容和所述目标描述文本，生成所述目标文本内容。

可选的，所述第三生成单元，还用于：

获取所述目标关键词对应的所述目标视频片段；

基于所述目标视频片段，确定所述目标关键词对应的所述目标描述文本。

可选的，所述第三确定模块1302，包括：

第三获取单元，用于基于终端发送的所述视频合成请求，获取所述目标关键词，所述视频合成请求是所述终端在接收到所述关键词选择界面内的视频合成操作后发送的；

第三确定单元，用于基于所述目标关键词进行视频片段匹配，得到至少一个所述目标视频片段；

所述基于所述目标视频片段，生成所述目标视频之后，所述方法还包括：

发送模块，用于向所述终端发送所述目标视频，所述终端用于将所述目标视频显示在视频展示界面中。

本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一段程序，至少一段程序由该处理器加载并执行以实现如上述可选实施方式中提供的视频生成方法。可选的，计算机设备可以是终端，也可以是服务器。

当计算机设备是终端时，该终端可用于执行上述可选实施方式中终端侧的视频生成方法；当计算机设备是服务器时，该服务器可用于执行上述可选实施方式中服务器侧的视频生成方法。

请参考图14，其示出了本申请一个实施例提供的计算机设备的结构示意图。所述计算机设备1400包括中央处理单元(CPU，Central Processing unit)1401、包括随机存取存储器(RAM，Random Access Memory)1402和只读存储器(ROM，Read-Only Memory)1403的系统存储器1404，以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O，Input/Output)1406，和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。

所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入/输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入/输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机可读介质为计算机设备1400提供非易失性存储。也就是说，所述大容量存储设备1407可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，带电可擦除可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1411连接到网络1412，或者说，也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上中央处理单元1401执行。

本申请还提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任意示例性实施例所提供的视频生成方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述可选实现方式中提供的视频生成方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，所述关键词选择界面中包含至少一个推荐关键词，所述推荐关键词是通过对所述初始音频进行音频识别得到初始文本内容，并对所述初始文本内容进行关键词提取得到的；

响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，所述视频展示界面中包含有目标视频，所述目标视频基于目标视频片段、目标配音以及目标字幕合成得到，所述目标视频片段基于所述目标关键词匹配得到，所述目标视频基于所述目标关键词在目标文本内容中的关键词顺序，对所述目标视频片段拼接合成得到，所述目标配音以及所述目标字幕基于所述目标文本内容生成，其中，在所述目标关键词属于所述初始文本内容的情况下，所述目标文本内容基于所述初始文本内容生成；在存在目标关键词不属于所述初始文本内容的情况下，所述目标文本内容基于所述初始文本内容和目标描述文本生成，所述目标描述文本对应所述目标关键词，并基于所述目标视频片段确定得到。

2.根据权利要求1所述的方法，其特征在于，所述响应于对所述关键词选择界面中所述推荐关键词的编辑操作，确定至少一个目标关键词，包括：

响应于对所述关键词选择界面中添加控件的触发操作，在所述关键词选择界面中新增推荐关键词；

响应于对所述关键词选择界面中目标删除控件的触发操作，删除所述关键词选择界面中所述目标删除控件对应的推荐关键词；

响应于对所述关键词选择界面中所述推荐关键词的修改操作，在所述关键词选择界面中显示修改后的推荐关键词；

响应于对所述关键词选择界面中视频合成控件的触发操作，将所述关键词选择界面中展示的推荐关键词确定为所述目标关键词。

3.根据权利要求2所述的方法，其特征在于，所述响应于对所述关键词选择界面中目标删除控件的触发操作，删除所述关键词选择界面中所述目标删除控件对应的推荐关键词，包括：

所述方法还包括：

响应于所述关键词数量低于所述数量阈值，显示第一提示信息，所述第一提示信息用于提示剩余关键词数量。

4.根据权利要求2所述的方法，其特征在于，所述响应于对所述关键词选择界面中添加控件的触发操作，在所述关键词选择界面中新增推荐关键词，包括：

确定所述新增关键词与各个所述推荐关键词之间的关联度；

所述方法还包括：

响应于所述关联度小于所述关联度阈值，显示第二提示信息，所述第二提示信息用于提示关联度信息。

5.根据权利要求1至4任一所述的方法，其特征在于，所述视频展示界面中显示有重新合成控件；

所述响应于所述关键词选择界面内的视频合成操作，显示视频展示界面之后，所述方法还包括：

响应于对所述视频展示界面中所述重新合成控件的触发操作，显示所述关键词选择界面。

6.根据权利要求1至4任一所述的方法，其特征在于，所述响应于对音频输入界面的音频输入操作，包括：

响应于对所述音频输入界面中音频录入控件的触发操作，通过麦克风采集所述初始音频；

或，

响应于对所述音频输入界面中音频上传控件的触发操作，获取所述初始音频对应的音频文件。

7.根据权利要求1至4任一所述的方法，其特征在于，所述响应于所述关键词选择界面内的视频合成操作，显示视频展示界面之后，所述方法还包括：

响应于对所述视频展示界面中所述目标视频的播放操作，播放所述目标视频，所述目标视频中包含目标字幕，所述目标字幕中包含所述目标关键词。

8.根据权利要求1至4任一所述的方法，其特征在于，所述响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，包括：

响应于对所述音频输入界面的音频输入操作，向服务器发送获取到的所述初始音频，所述服务器用于对所述初始音频进行音频识别，确定至少一个所述推荐关键词；

基于所述服务器发送的所述推荐关键词，显示所述关键词选择界面。

9.根据权利要求1至4任一所述的方法，其特征在于，所述响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，包括：

响应于对所述关键词选择界面中视频合成控件的触发操作，向服务器发送所述目标关键词，所述服务器用于基于所述目标关键词进行视频片段匹配，得到至少一个目标视频片段，并基于所述目标视频片段合成所述目标视频；

基于所述服务器发送的所述目标视频，显示所述视频展示界面。

10.一种视频生成方法，其特征在于，所述方法包括：

响应于接收到初始音频，对所述初始音频进行音频识别，得到初始文本内容；对所述初始文本内容进行关键词提取，确定至少一个推荐关键词；

在所述目标关键词属于所述初始文本内容的情况下，基于所述初始文本内容生成目标文本内容；在存在目标关键词不属于所述初始文本内容的情况下，获取所述目标关键词对应的所述目标视频片段；基于所述目标视频片段，确定所述目标关键词对应的目标描述文本；基于所述初始文本内容和所述目标描述文本，生成所述目标文本内容；

基于所述目标关键词在所述目标文本内容中的关键词顺序，对各个所述目标视频片段进行拼接合成，生成目标视频；

基于所述目标文本内容生成目标字幕以及目标配音，并将所述目标字幕以及所述目标配音添加至所述目标视频。

11.根据权利要求10所述的方法，其特征在于，所述响应于视频合成请求，基于获取到的目标关键词进行视频片段匹配，得到至少一个目标视频片段，包括：

基于终端发送的所述视频合成请求，获取所述目标关键词，所述视频合成请求是所述终端在接收到所述关键词选择界面内的视频合成操作后发送的；

基于所述目标关键词进行视频片段匹配，得到至少一个所述目标视频片段；

向所述终端发送所述目标视频，所述终端用于将所述目标视频显示在视频展示界面中。

12.一种视频生成装置，其特征在于，所述装置包括：

第一显示模块，用于响应于对音频输入界面的音频输入操作，基于获取到的初始音频，显示关键词选择界面，所述关键词选择界面中包含至少一个推荐关键词，所述推荐关键词是通过对所述初始音频进行音频识别得到初始文本内容，并对所述初始文本内容进行关键词提取得到的；

第二显示模块，用于响应于所述关键词选择界面内的视频合成操作，显示视频展示界面，所述视频展示界面中包含有目标视频，所述目标视频基于目标视频片段、目标配音以及目标字幕合成得到，所述目标视频片段基于所述目标关键词匹配得到，所述目标视频基于所述目标关键词在目标文本内容中的关键词顺序，对所述目标视频片段拼接合成得到，所述目标配音以及所述目标字幕基于所述目标文本内容生成，其中，在所述目标关键词属于所述初始文本内容的情况下，所述目标文本内容基于所述初始文本内容生成；在存在目标关键词不属于所述初始文本内容的情况下，所述目标文本内容基于所述初始文本内容和目标描述文本生成，所述目标描述文本对应所述目标关键词，并基于所述目标视频片段确定得到。

13.一种视频生成装置，其特征在于，所述装置包括：

第二确定模块，用于响应于接收到初始音频，对所述初始音频进行音频识别，得到初始文本内容；对所述初始文本内容进行关键词提取，确定至少一个推荐关键词；

第二生成模块，用于在所述目标关键词属于所述初始文本内容的情况下，基于所述初始文本内容生成目标文本内容；在存在目标关键词不属于所述初始文本内容的情况下，获取所述目标关键词对应的所述目标视频片段；基于所述目标视频片段，确定所述目标关键词对应的目标描述文本；基于所述初始文本内容和所述目标描述文本，生成所述目标文本内容；

第一生成模块，用于基于所述目标关键词在所述目标文本内容中的关键词顺序，对各个所述目标视频片段进行拼接合成，生成目标视频；基于所述目标文本内容生成目标字幕以及目标配音，并将所述目标字幕以及所述目标配音添加至所述目标视频。

14.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至9任一所述的视频生成方法。

15.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求10至11任一所述的视频生成方法。

16.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至9任一所述的视频生成方法，或，实现如权利要求10至11任一所述的视频生成方法。