CN113132780A

CN113132780A - 一种视频合成的方法、装置、电子设备及可读存储介质

Info

Publication number: CN113132780A
Application number: CN202110433323.XA
Authority: CN
Inventors: 张晓宇; 孙世文
Original assignee: Beijing Lexuebang Network Technology Co ltd
Current assignee: Beijing Lexuebang Network Technology Co ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-16

Abstract

本申请属于通信技术领域，公开了一种视频合成的方法、装置、电子设备及可读存储介质，该方法包括，响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本；获取采集的音频文件；若确定音频文件的语音识别文本与参考文本相匹配，则根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频；将音频文件和背景视频进行合成，获得合成后的目标视频，这样，根据音频文件的音频有效时长以及目标图片，生成背景视频，对音频有效时长没有限制，提高了视频合成的灵活性。

Description

一种视频合成的方法、装置、电子设备及可读存储介质

技术领域

本申请涉及通信技术领域，具体而言，涉及一种视频合成的方法、装置、电子设备及可读存储介质。

背景技术

随着多媒体技术的发展，多媒体制作的应用也越来越普及。实际应用中，用户通常需要进行音频的采集以及视频的合成，如，采集用户朗诵的古诗词朗诵，并将采集的音频文件与背景视频合成，获得合成视频。

但是，由于背景视频以及视频时长是固定的，因此，在进行音频录制时，音频时长的限制性较大，难以灵活调整，因此，在进行视频合成时，如何提高视频合成的灵活性，是一个需要解决的问题。

发明内容

本申请实施例的目的在于提供一种视频合成的方法、装置、电子设备及可读存储介质，在进行视频合成时，提高视频合成的灵活性。

一方面，提供一种视频合成的方法，包括：

响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本；

获取采集的音频文件；

若确定音频文件的语音识别文本与参考文本相匹配，则根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频；

将音频文件和背景视频进行合成，获得合成后的目标视频。

在上述实现过程中，可以通过目标图片集合以及音频有效时长，灵活生成背景视频，进而减少对音频文件的时长的限制，提高视频合成的灵活性。

可选的，确定与目标资源相对应的目标图片集合，包括：

确定与目标资源相对应的风格标签集合，风格标签集合中包含至少一个图片集合对应的风格标签；

响应于用户的标签选择，从风格标签集合中选择出与用户的喜好相对应的目标风格标签；

将目标风格标签对应的图片集合作为目标图片集合。

在上述实现过程中，用户可以通过风格标签，选择喜欢的目标图片集合。

可选的，确定音频文件的语音识别文本与参考文本相匹配，包括：

对音频文件进行语音识别，获得语音识别文本；

将语音识别文本与参考文本进行匹配；

若确定语音识别文本和参考文本之间的匹配度高于设定阈值，则确定音频文件的语音识别文本与参考文本相匹配。

在上述实现过程中，通过匹配度，可以判断语音识别文本与参考文本是否匹配，从而可以判断音频文件是否正确。

可选的，根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频，包括：

将参考文本划分为至少一个文本集合；

根据一一对应关系，将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片；

按照至少一个文本集合的先后顺序，将至少一个合成图片进行排列，获得合成图片集合；

根据音频有效时长，设置合成图片集合的播放时长；

根据合成图片集合，以及相应的播放时长，生成背景视频。

在上述实现过程中，将文本集合作为字幕，合成到目标图片中，进而根据音频有效时长以及合成图片集合，生成背景视频，可以灵活生成背景视频。

可选的，根据一一对应关系，将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片，包括：

分别针对至少一个文本集合中的每一文本集合，执行以下步骤：

从目标图片集合中，确定一个文本集合匹配的目标图片；

采用字幕的形式，将一个文本集合与匹配的目标图片合成，获得合成图片，使得一个文本集合为合成图片的字幕。

在上述实现过程中，将文本集合设置为图片字幕。

可选的，根据合成图片集合，以及相应的播放时长，生成背景视频，包括：

根据语音识别文本、文本集合以及合成图片三者之间的对应关系，以及音频文件，分别确定每一合成图片的显示时长；

根据合成图片集合、播放时长以及各合成图片的显示时长，生成背景视频。

在上述实现过程中，可以在生成背景视频时，设置各合成图片的显示时长。

可选的，在获得合成后的目标视频之后，方法还包括：

根据用户的修改指令，对目标视频进行修改；

其中，修改包括以下至少一种：

修改字幕的位置；

修改字幕的字体大小；

修改字幕的字体颜色；

修改目标风格标签。

在上述实现过程中，可以在视频合成后，对合成视频的字幕的形式以及视频帧进行修改。

一方面，提供一种视频合成的装置，包括：

确定单元，用于响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本；

获取单元，用于获取采集的音频文件；

生成单元，用于若确定音频文件的语音识别文本与参考文本相匹配，则根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频；

合成单元，用于将音频文件和背景视频进行合成，获得合成后的目标视频。

可选的，确定单元用于：

将目标风格标签对应的图片集合作为目标图片集合。

可选的，生成单元用于：

对音频文件进行语音识别，获得语音识别文本；

将语音识别文本与参考文本进行匹配；

可选的，生成单元用于：

将参考文本划分为至少一个文本集合；

根据音频有效时长，设置合成图片集合的播放时长；

根据合成图片集合，以及相应的播放时长，生成背景视频。

可选的，生成单元用于：

从目标图片集合中，确定一个文本集合匹配的目标图片；

可选的，生成单元用于：

可选的，合成单元还用于：

根据用户的修改指令，对目标视频进行修改；

其中，修改包括以下至少一种：

修改字幕的位置；

修改字幕的字体大小；

修改字幕的字体颜色；

修改目标风格标签。

一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种视频合成的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种视频合成的各种可选实现方式中提供的方法的步骤。

本申请实施例提供的一种视频合成的方法、装置、电子设备及可读存储介质中，响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本；获取采集的音频文件；若确定音频文件的语音识别文本与参考文本相匹配，则根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频；将音频文件和背景视频进行合成，获得合成后的目标视频，这样，根据音频文件的音频有效时长以及目标图片，生成背景视频，对音频有效时长没有限制，提高了视频合成的灵活性。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种视频合成的方法的实施流程图；

图3为本申请实施例提供的详细实施流程图；

图4为本申请实施例提供的一种视频合成的装置的结构框图；

图5为本申请实施方式中一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

电子设备：可以是独立的物理电子设备，也可以是多个物理电子设备构成的电子设备集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云电子设备。

为了在进行视频合成时，可以提高视频合成的灵活性，本申请实施例提供了一种视频合成的方法、装置、电子设备及可读存储介质。

参阅图1所示，为本申请实施例提供的一种系统架构示意图。该系统适用于在线教育场景，可包括电子设备和音频采集设备，用于音视频合成，例如，可以采集用户朗读或背诵古诗词(或英语、成语故事等)的音频文件，并基于多个图片生成背景视频，以及将音频文件和背景视频进行合成，获得合成后的目标视频。

需要说明的是，电子设备和音频采集设备可以为同一设备，也可以为不同设备，在此不作限制。

电子设备：用于确定用户选择的目标图片集合和参考文件，以及确定通过音频采集设备采集的音频文件的音频有效时长，并按照音频文件的音频有效时长，基于目标图片集合以及参考文本，生成背景视频，并将音频文件和背景视频进行合成，获得合成后的目标视频。

可选的，电子设备可以为服务器，也可以为终端设备。

音频采集设备：用于采集音频文件。

可选的，音频采集设备可以为录音机以及手机等终端设备。

一种实施方式中，音频采集设备根据用户的录音指示，采集用户朗读或背诵古诗词的语音，获得音频文件。

参阅图2所示，为本申请实施例提供的一种视频合成的方法的实施流程图，结合图1所示的系统架构示意图，对视频合成的方法进行说明，该方法的具体实施流程如下：

步骤201：电子设备响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本。

具体的，执行步骤201时，可以采用以下步骤：

S2011:电子设备确定与目标资源相对应的风格标签集合。

具体的，目标资源可以为多个图片集合和多个参考文本，风格标签集合中包含至少一个图片集合对应的风格标签。

在执行S2011之前，电子设备预先针对每一图片集合设置相应的风格标签，例如，山水、风景、闹市、战争、动画风格、写实风格等。

可选的，参考文本为古诗词、文章以及小说等。当然，还可为英语诗词、现代诗词、成语故事等，对此不做限定。

S2012：电子设备响应于用户的标签选择，从风格标签集合中选择出与用户的喜好相对应的目标风格标签和参考文本。

一种实施方式中，电子设备的应用页面中显示有各图片集合的风格标签，以及各参考文本。用户可以从应用页面中显示的各风格标签中，选择一个或多个目标风格标签，以及选择一个或多个参考文本。

S2013：电子设备将目标风格标签对应的图片集合，作为目标图片集合。

具体的，执行S2013时，电子设备可以采用以下两种方式：

方式1：将目标风格标签对应的一个或多个图片集合，作为目标图片集合。

方式2：根据用户的筛选指示，从目标风格标签对应的一个或多个图片集合中筛选出至少一个图片，并将筛选出的图片，组成目标图片集合。

当然，还可以根据用户的选择，从终端设备的相册等存储空间中挑选，并组合成目标图片集合，例如终端设备拍摄的照片、下载的图片等。

步骤202：电子设备获取采集的音频文件。

具体的，电子设备获取本地存储的音频文件。

其中，本地存储的音频文件可以采用以下两种方式获得：

方式1：电子设备基于用户的音频采集指令，对音频进行采集，获得并存储音频文件。

一种实施方式中，用户控制电子设备显示参考文本，并向电子设备下发录音启动指令后进行古诗词朗读。电子设备响应于用户的录音启动指令，进行音频采集，并响应于用户的录音停止指令，停止音频采集，确定文件采集完成，获得音频文件。

方式2：音频采集设备基于用户的音频采集指令，对音频进行采集，并将采集的音频文件上传至电子设备，电子设备接收并存储音频采集设备上传的音频文件。

这样，就可以获取采集的音频文件。

采集音频文件，可以预先采集并存储，例如利用终端设备的录音功能进行采集，并存储在终端设备的内存中，在需要使用的时候，再选择提取；也可以在需要的时候，现采集现用，对此不做赘述。

步骤203：若确定音频文件的语音识别文本与参考文本相匹配，则电子设备根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频。

具体的，电子设备确定音频文件的语音识别文本与参考文本相匹配时，可以采用以下步骤：

S2031：对音频文件进行语音识别，获得语音识别文本。

S2032：将语音识别文本与参考文本进行匹配。

具体的，执行S2032时，可以采用以下两种方式：

方式1：提取语音识别文本中的多个语音关键词，以及参考文本中的多个文本关键词，并将各语音关键词与各文本关键词进行匹配。

方式2：提取语音识别文本的第一文本向量，以及参考文本的第二文本向量，并确定第一文本向量和第二文本向量之间的向量距离，以及将该向量距离，作为匹配度。

这样，就可以确定语音识别文本和参考文本之间的匹配度。

S2033：若确定语音识别文本和参考文本之间的匹配度高于设定阈值，则确定音频文件的语音识别文本与参考文本相匹配。

具体的，设定阈值可以根据实际应用场景进行设置，如，0.6、0.9或1等，在此不作限制。

这样，语音识别文本和参考文本之间可以部分相同或者全部相同时，确定两者匹配。

其中，电子设备根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频时，可以采用以下步骤：

步骤a：将参考文本划分为至少一个文本集合。

具体的，执行步骤a时，可以采用以下两种方式：

方式1：按照用户的选择，将参考文本进行划分，获得至少一个文本集合。

例如，参考文本为一篇文章，用户分别将该文章中的每两句话，划分为一个文本集合，从而获得该文章对应的多个文本集合。

方式2：按照预先设置的划分规则，将参考文本划分为至少一个文本集合。

可选的，划分规则可以为按照段落划分，按照句号或分号划分，按照指定字符划分，如，某某说，实际应用中，划分规则可以根据实际应用场景进行设置，在此不作限制。

步骤b：根据一一对应关系，将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片。

具体的，分别确定每一文本集合匹配的目标图片，并将文本集合与相应的目标图片进行合成，获得合成图片。

其中，分别确定每一文本集合匹配的目标图片时，可以采用以下几种方式：

方式1：按照文本集合的顺序，以及目标图片集合中的各目标图片的顺序，建立序号相同的文本集合与目标图片的对应关系。

方式2：根据用户的选择，分别确定每一文本集合匹配的目标图片。

方式3：采用随机匹配的方式，分别确定每一文本集合匹配的目标图片。

方式4：分别获取针对每一目标图片设置的图片标签，并根据各文本集合与各目标图片的图片标签之间的匹配度，分别确定每一文本集合匹配的目标图片。

其中，将文本集合与相应的目标图片进行合成，获得合成图片时，可以分别针对至少一个文本集合中的每一文本集合，执行以下步骤：

采用字幕的形式，将一个文本集合与匹配的目标图片合成，获得合成图片，使得上述一个文本集合为合成图片的字幕。

进一步的，还可以在进行图片合成之前，将目标图片进行压缩处理和剪切处理，或者，将在获得合成图片之后，将各合成图片进行压缩处理和剪切处理。

这是由于各目标图片或合成图片大小等可能是不同的，因此，可以将各图片的尺寸变换为指定图片尺寸，使得各合成图片的尺寸相同。

实际应用中，指定图片尺寸可以是根据合成视频的分辨率确定的，如，1280*760，也可以根据实际应用场景进行设置，在此不作限制。

这样，就可以将各合成图片的尺寸进行调整。

步骤c：按照至少一个文本集合的先后顺序，将至少一个合成图片进行排列，获得合成图片集合。

步骤d：根据音频有效时长，设置合成图片集合的播放时长。

具体的，可以将音频有效时长，设置为合成图片集合的播放时长，也可以根据实际应用场景，设置高于音频有效时长的播放时长。

由于采集的音频文件中通常可能包含长时间的空白等无效的冗余音频，因此，可以预先将音频文件中冗余音频进行切除处理，获得处理后的音频文件，并获得处理后的音频文件的音频有效时长。

步骤e：根据合成图片集合，以及相应的播放时长，生成背景视频。

具体的，执行步骤e时，可以采用以下两种方式：

方式1：根据语音识别文本、文本集合以及合成图片三者之间的对应关系，以及音频文件，分别确定每一合成图片的显示时长，并根据合成图片集合、播放时长以及各合成图片的显示时长，生成背景视频。

方式2：根据语音识别文本、文本集合以及合成图片三者之间的对应关系，以及音频文件，分别确定每一合成图片的显示时长，并根据各合成图片的显示时长，设置音频插入时间节点，以及根据合成图片集合、播放时长、各合成图片的显示时长以及各音频插入时间节点，生成背景视频。

其中，音频插入时间节点为用于在背景视频中插入音频的时间节点。

步骤204：电子设备将音频文件和背景视频进行合成，获得合成后的目标视频。

具体的，执行步骤204时，电子设备可以采用以下两种方式：

方式1：将音频文件插入至背景视频中，获得合成后的目标视频。

方式2：根据语音识别文本、文本集合以及合成图片三者之间的对应关系，将音频文件进行剪切，分别获得每一合成图片对应的语音识别文本的音频子文件，并按照各音频插入时间节点，将相应音频子文件插入至背景视频中，获得合成后的目标视频。

其中，目标视频的格式可以根据实际应用场景进行设置，如，可以为mp4格式，在此不作限制。

进一步的，还可以根据用户的修改指令，对合成后的目标视频进行进一步修改。

其中，视频修改可以采用以下方式中的任意一种或组合：修改字幕的位置，修改字幕的字体大小，修改字幕的字体颜色以及修改目标风格标签。

这样，可以通过修改目标风格标签，可以调整目标视频中的图片。

例如，用户在进行古诗词的背诵以及背诵音频的音视频合成时，先选择图片和参考文本：从视频合成应用的应用界面中，选择待背诵的古诗词《静夜思》，并从该应用页面中显示的各风格标签中选择“夜景”标签，并将夜景”标签对应的夜景图片集合作为目标图片集合。

接着，采集音频文件：用户点击录音之后，开始背诵《静夜思》，背诵完成后，点击停止录音，获得采集的音频文件。

然后，对音频文件进行语音识别，若语音识别文本和《静夜思》完全相同，则从夜景图片集合中，分别为《静夜思》中每一句诗选择一个相应的夜景图片，并将选择的各夜景图片进行裁剪以及滤镜等处理，以及分别将针对每一处理后的夜景图片，执行以下步骤：将一个夜景图片对应的诗句，设置为该夜景图片的字幕，获得合成后的夜景图片。

接着，根据每一夜景图片对应的诗句的朗读时长，确定相应夜景图片的显示时长，以及相应诗句的音频插入时间节点，并根据音频文件的有效时长，确定背景视频的播放时长，以及按照各夜景图片的显示时长以及背景视频的播放时长，将各夜景图片生成背景视频。

最后，按照每一诗句的朗读时长，将音频文件切分为各子音频文件，并将各子音频文件按照相应的音频插入时间节点，插入背景视频，获得目标视频。

进一步的，用户还可以按照个人喜好或者实际需求，将目标视频中的图片以及字幕形式进行修改。

参阅图3所示，为本申请实施例提供的一种视频合成的方法的详细实施流程图，该方法的具体实施流程如下：

步骤300：电子设备响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本。

步骤301：电子设备基于用户的录音启动指令，执行音频采集操作。

步骤302：电子设备基于用户的录音停止指令，停止音频采集操作，获得音频文件。

步骤303：电子设备对音频文件进行语音识别，获得语音识别文本。

步骤304：电子设备将语音识别文本与参考文本进行匹配。

步骤305：若确定语音识别文本和参考文本之间的匹配度高于设定阈值，则电子设备确定音频文件的语音识别文本与参考文本相匹配。

步骤306：电子设备将参考文本划分为至少一个文本集合。

步骤307：电子设备根据一一对应关系，将至少一个文本集合与目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片。

进一步的，在执行步骤307之前，还可以将各目标图片进行压缩以及剪切处理，获得处理后的目标图片。

步骤308：电子设备根据音频文件的音频有效时长以及各合成图片，生成背景视频。

进一步的，若确定背景视频生成失败，则执行步骤300。

步骤309：电子设备将音频文件和背景视频进行合成，获得合成后的目标视频。

进一步的，若确定视频合成成功，若是，则电子设备存储合成后的目标视频，否则，判断合成失败次数是否高于指定次数，若是，则输出异常告警，否则，执行步骤309。

其中，异常告警用于指示视频合成存在异常，提醒用户进行人工检查和调整。异常告警可以采用信息、图片、声音以及灯光等方式进行告警，在此不作限制。

其中，执行步骤300-步骤309时，具体步骤可以参见上述步骤201-步骤204，在此不做赘述。

传统技术中，通常将音频与预先录制好的背景视频合成目标视频。由于背景视频是提前录制好的，因此，背景视频的视频内容、视频时长以及音频插入时间节点无法灵活设置，又由于音频文件只能在预先设置的音频插入时间插入，且音频有效时长需要与视频中的相应内容的显示时长相对应，因此，音频采集时无法灵活设置音频有效时长，音频采集以及视频合成时存在限制，灵活性较差。

而本申请实施例中，可以根据各音频文件的音频有效时长，灵活设置音频文件对应的目标图片的显示时长，对音频文件的音频有效时长没有限制，可以灵活调整音频有效时长，并且可以灵活配置视频中的目标图片，音频采集以及视频合成的灵活性高，且可以极大地减少耗费的视频存储资源。

基于同一发明构思，本申请实施例中还提供了一种视频合成的装置，由于上述装置及设备解决问题的原理与一种视频合成的方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图4所示，其为本申请实施例提供的一种视频合成的装置的结构示意图，包括：

确定单元401，用于响应于用户针对目标资源的选择操作，确定与目标资源相对应的目标图片集合以及参考文本；

获取单元402，用于获取采集的音频文件；

生成单元403，用于若确定音频文件的语音识别文本与参考文本相匹配，则根据音频文件的音频有效时长、目标图片集合以及参考文本，生成背景视频；

合成单元404，用于将音频文件和背景视频进行合成，获得合成后的目标视频。

可选的，确定单元401用于：

将目标风格标签对应的图片集合作为目标图片集合。

可选的，生成单元403用于：

对音频文件进行语音识别，获得语音识别文本；

将语音识别文本与参考文本进行匹配；

可选的，生成单元403用于：

将参考文本划分为至少一个文本集合；

根据音频有效时长，设置合成图片集合的播放时长；

根据合成图片集合，以及相应的播放时长，生成背景视频。

可选的，生成单元403用于：

从目标图片集合中，确定一个文本集合匹配的目标图片；

可选的，生成单元403用于：

可选的，合成单元404还用于：

根据用户的修改指令，对目标视频进行修改；

其中，修改包括以下至少一种：

修改字幕的位置；

修改字幕的字体大小；

修改字幕的字体颜色；

修改目标风格标签。

图5示出了一种电子设备5000的结构示意图。参阅图5所示，电子设备5000包括：处理器5010、存储器5020、电源5030、显示单元5040、输入单元5050。

处理器5010是电子设备5000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器5020内的软件程序和/或数据，执行电子设备5000的各种功能，从而对电子设备5000进行整体监控。

本申请实施例中，处理器5010调用存储器5020中存储的计算机程序时执行如图2中所示的实施例提供的视频合成的方法。

可选的，处理器5010可包括一个或多个处理单元；优选的，处理器5010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器5010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器5020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据电子设备5000的使用所创建的数据等。此外，存储器5020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

电子设备5000还包括给各个部件供电的电源5030(比如电池)，电源可以通过电源管理系统与处理器5010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。

显示单元5040可用于显示由用户输入的信息或提供给用户的信息以及电子设备5000的各种菜单等，本发明实施例中主要用于显示电子设备5000中各应用的显示界面以及显示界面中显示的文本、目标图片等对象。显示单元5040可以包括显示面板5041。显示面板5041可以采用液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode，OLED)等形式来配置。

输入单元5050可用于接收用户输入的数字或字符等信息。输入单元5050可包括触控面板5051以及其他输入设备5052。其中，触控面板5051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板5051上或在触控面板5051附近的操作)。

具体的，触控面板5051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器5010，并接收处理器5010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5051。其他输入设备5052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板5051可覆盖显示面板5041，当触控面板5051检测到在其上或附近的触摸操作后，传送给处理器5010以确定触摸事件的类型，随后处理器5010根据触摸事件的类型在显示面板5041上提供相应的视觉输出。虽然在图5中，触控面板5051与显示面板5041是作为两个独立的部件来实现电子设备5000的输入和输出功能，但是在某些实施例中，可以将触控面板5051与显示面板5041集成而实现电子设备5000的输入和输出功能。

电子设备5000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备5000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图5中没有示出，且不再详述。

本领域技术人员可以理解，图5仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例中，一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得通信设备可以执行上述实施例中的各个步骤。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频合成的方法，其特征在于，包括：

响应于用户针对目标资源的选择操作，确定与所述目标资源相对应的目标图片集合以及参考文本；

获取采集的音频文件；

若确定所述音频文件的语音识别文本与所述参考文本相匹配，则根据所述音频文件的音频有效时长、所述目标图片集合以及所述参考文本，生成背景视频；

将所述音频文件和所述背景视频进行合成，获得合成后的目标视频。

2.如权利要求1所述的方法，其特征在于，所述确定与所述目标资源相对应的目标图片集合，包括：

确定与所述目标资源相对应的风格标签集合，所述风格标签集合中包含至少一个图片集合对应的风格标签；

响应于所述用户的标签选择，从所述风格标签集合中选择出与所述用户的喜好相对应的目标风格标签；

将所述目标风格标签对应的图片集合作为所述目标图片集合。

3.如权利要求1所述的方法，其特征在于，所述确定所述音频文件的语音识别文本与所述参考文本相匹配，包括：

对所述音频文件进行语音识别，获得语音识别文本；

将所述语音识别文本与所述参考文本进行匹配；

若确定所述语音识别文本和所述参考文本之间的匹配度高于设定阈值，则确定所述音频文件的语音识别文本与所述参考文本相匹配。

4.如权利要求1-3任一项所述的方法，其特征在于，所述根据所述音频文件的音频有效时长、所述目标图片集合以及所述参考文本，生成背景视频，包括：

将所述参考文本划分为至少一个文本集合；

根据一一对应关系，将所述至少一个文本集合与所述目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片；

按照所述至少一个文本集合的先后顺序，将所述至少一个合成图片进行排列，获得合成图片集合；

根据所述音频有效时长，设置所述合成图片集合的播放时长；

根据所述合成图片集合，以及相应的播放时长，生成背景视频。

5.如权利要求4所述的方法，其特征在于，所述根据一一对应关系，将所述至少一个文本集合与所述目标图片集合中的至少一张目标图片分别合成，获得至少一个合成图片，包括：

分别针对所述至少一个文本集合中的每一文本集合，执行以下步骤：

从所述目标图片集合中，确定一个文本集合匹配的目标图片；

采用字幕的形式，将所述一个文本集合与匹配的目标图片合成，获得合成图片，使得所述一个文本集合为所述合成图片的字幕。

6.如权利要求4所述的方法，其特征在于，根据所述合成图片集合，以及相应的播放时长，生成背景视频，包括：

根据语音识别文本、文本集合以及合成图片三者之间的对应关系，以及所述音频文件，分别确定每一合成图片的显示时长；

根据所述合成图片集合、所述播放时长以及各合成图片的显示时长，生成背景视频。

7.如权利要求1-3任一项所述的方法，其特征在于，在获得合成后的目标视频之后，所述方法还包括：

根据所述用户的修改指令，对所述目标视频进行修改；

其中，所述修改包括以下至少一种：

修改字幕的位置；

修改字幕的字体大小；

修改字幕的字体颜色；

修改目标风格标签。

8.一种视频合成的装置，其特征在于，包括：

确定单元，用于响应于用户针对目标资源的选择操作，确定与所述目标资源相对应的目标图片集合以及参考文本；

获取单元，用于获取采集的音频文件；

生成单元，用于若确定所述音频文件的语音识别文本与所述参考文本相匹配，则根据所述音频文件的音频有效时长、所述目标图片集合以及所述参考文本，生成背景视频；

合成单元，用于将所述音频文件和所述背景视频进行合成，获得合成后的目标视频。

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一所述方法。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法。