CN113891079A

CN113891079A - 自动化教学视频生成方法、装置、计算机设备及存储介质

Info

Publication number: CN113891079A
Application number: CN202111338371.7A
Authority: CN
Inventors: 宋卫; 卢庆华; 黄元忠
Original assignee: Shenzhen Muyu Technology Co ltd
Current assignee: Shenzhen Muyu Technology Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-01-04

Abstract

本发明实施例公开了自动化教学视频生成方法、装置、计算机设备及存储介质。所述方法包括：获取来自终端的原始视频；对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签；利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材；获取候选场景；获取来自终端的语音，并存储所述语音至数据库内；从所述数据库内检索并确定待合成的语音；根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。通过实施本发明实施例的方法可实现满足短周期内大量的教学视频制作，以节约学校和教师在教学视频录制、制作上的工作，减轻教师的工作负担，减少学校的人力资源成本，且可自定义形象和自定义语音。

Description

自动化教学视频生成方法、装置、计算机设备及存储介质

技术领域

本发明涉及视频生成方法，更具体地说是指自动化教学视频生成方法、装置、计算机设备及存储介质。

背景技术

目前，人工智能技术已经在开始广泛在各行各业里被应用，以改进传统的技术方案和商业模式。其中，在智能教育领域，以人工智能技术为核心的视频影像合成技术被提出，用来满足广大学生尤其是偏远地区学生对高质量教学视频的需求。现有视频课程的缺点是需要大量的教师通过录制的方式生成完整地课程视频，受限于教师数量和教师工作时间，大量的教学视频无法在短周期内完成录制工作，并且教学视频制作中有大量的后期处理工作，这给教师和学校带来了十分大的时间成本和人力资源成本，而且无法自定义形象和自定义语音。

因此，有必要设计一种新的方法，实现满足短周期内大量的教学视频制作，以节约学校和教师在教学视频录制、制作上的工作，减轻教师的工作负担，减少学校的人力资源成本，且可自定义形象和自定义语音。

发明内容

本发明的目的在于克服现有技术的缺陷，提供自动化教学视频生成方法、装置、计算机设备及存储介质。

为实现上述目的，本发明采用以下技术方案：自动化教学视频生成方法，包括：

获取来自终端的原始视频；

对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签；

利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材；

获取候选场景；

获取来自终端的语音，并存储所述语音至数据库内；

从所述数据库内检索并确定待合成的语音；

根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。

其进一步技术方案为：所述对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签，包括：

对所述原始视频进行分割，以得到若干视频素材文件；

对若干视频素材文件进行自动化标注，以得到对应的视频标签；

存储若干视频素材文件以及对应的视频标签。

其进一步技术方案为：所述对所述原始视频进行分割，以得到若干视频素材文件，包括：

基于视频人物肢体识别算法，通过计算机视觉技术获得所述原始视频中人物的肢体姿态，以得到人物视频；

通过聚类算法分割所述人物视频中完整起始状态的视频片段，以得到若干视频素材文件。

其进一步技术方案为：所述获取候选场景，包括：

通过文本检索方式获取候选场景。

其进一步技术方案为：所述候选场景包括二维静态图片、二维动态循环视频、三维静态场景模型以及三维动态场景模型。

其进一步技术方案为：所述根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频，包括：

基于深度神经网络的GAN技术将所述人物视频素材以及待合成的语音进行合成，以得到目标人物视频；

将所述目标人物视频与所述候选场景进行合成，以得到教学视频。

其进一步技术方案为：所述将所述目标人物视频与所述候选场景进行合成，以得到教学视频，包括：

基于人物抠像技术提取所述目标人物视频内的人物轮廓图像内容，以得到带语音的人物轮廓视频；

将带语音的人物轮廓视频与所述候选场景进行合成，以得到教学视频。

本发明还提供了自动化教学视频生成装置，包括：

原始视频获取单元，用于获取来自终端的原始视频；

处理单元，用于对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签；

组装单元，用于利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材；

场景获取单元，用于获取候选场景；

语音获取单元，用于获取来自终端的语音，并存储所述语音至数据库内；

语音检索单元，用于从所述数据库内检索并确定待合成的语音；

教学视频合成单元，用于根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。

本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述的方法。

本发明与现有技术相比的有益效果是：本发明通过终端获取原始视频以及语音，对原始视频进行处理后再自定义组装，形成人物视频素材，结合候选场景以及自定义的待合成的语音进行合成，以自动生成教学视频，实现满足短周期内大量的教学视频制作，以节约学校和教师在教学视频录制、制作上的工作，减轻教师的工作负担，减少学校的人力资源成本，且可自定义形象和自定义语音。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的自动化教学视频生成方法的应用场景示意图；

图2为本发明实施例提供的自动化教学视频生成方法的流程示意图；

图3为本发明实施例提供的自动化教学视频生成方法的子流程示意图；

图4为本发明实施例提供的自动化教学视频生成方法的子流程示意图；

图5为本发明实施例提供的自动化教学视频生成方法的子流程示意图；

图6为本发明实施例提供的自动化教学视频生成方法的子流程示意图；

图7为本发明实施例提供的自动化教学视频生成装置的示意性框图；

图8为本发明实施例提供的自动化教学视频生成装置的处理单元的示意性框图；

图9为本发明实施例提供的自动化教学视频生成装置的分割子单元的示意性框图；

图10为本发明实施例提供的自动化教学视频生成装置的教学视频合成单元的示意性框图；

图11为本发明实施例提供的自动化教学视频生成装置的第二合成子单元的示意性框图；

图12为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1和图2，图1为本发明实施例提供的自动化教学视频生成方法的应用场景示意图。图2为本发明实施例提供的自动化教学视频生成方法的示意性流程图。该自动化教学视频生成方法应用于服务器中。该服务器与终端进行数据交互，通过终端获取原始视频以及语音，对原始视频进行处理后再自定义组装，形成人物视频素材，结合候选场景以及自定义的待合成的语音进行合成，以自动生成教学视频。

图2是本发明实施例提供的自动化教学视频生成方法的流程示意图。如图2所示，该方法包括以下步骤S110至S170。

S110、获取来自终端的原始视频。

在本实施例中，原始视频是指带有视频素材文件信息的视频。原始视频是由用户上传，一般原始视频素材的时间长度高，通常高于10分钟。

S120、对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签。

在本实施例中，若干视频素材文件是指带有不同视频素材文件信息的视频；对应的视频标签是指用于标记视频素材文件的标签。

所述视频素材文件信息包括但不限于：视频分辨率，视频帧率，视频图像比特率，视频编码格式等。

所述视频标签包括但不限于：视频时间，视频人物性别，视频人物服饰风格，视频人物镜头位置，视频人物动作风格等。其中，所述视频人物服饰风格包括服饰类别：西装、衬衫、运动装、休闲装等，作为人物服饰的标签。所述视频人物镜头位置指人物在素材视频中的位置信息和大小信息，其中大小信息主要用所占像素的外接矩形表示：

S＝{P₁,P₂,…,P_N}；

S表示外接矩形所有的像素点P的集合，P_LT(x,y)为外接矩形左上角坐标值，W表示矩形宽度，H表示矩形高度。

所述视频人物动作风格指视频素材中人物的肢体动作所形成的肢体语言，包括但不限于：打招呼、演讲、描绘、陈述、夸张肢体表现等。

视频素材文件带有索引信息；还具有对应标签，以提供根据标签检索视频的功能，因此，可以通过检索标签筛选视频素材文件进行组装，以构成自定义的人脸视频。

在一实施例中，请参阅图3，上述的步骤S120可包括步骤S121～S123。

S121、对所述原始视频进行分割，以得到若干视频素材文件。

在一实施例中，请参阅图4，上述的步骤S121可包括步骤S1211～S1212。

S1211、基于视频人物肢体识别算法，通过计算机视觉技术获得所述原始视频中人物的肢体姿态，以得到人物视频。

在本实施例中，人物视频是指所述原始视频中人物的肢体姿态的视频内容。

S1212、通过聚类算法分割所述人物视频中完整起始状态的视频片段，以得到若干视频素材文件。

S122、对若干视频素材文件进行自动化标注，以得到对应的视频标签；

S123、存储若干视频素材文件以及对应的视频标签。

动态存储和管理若干视频素材文件以及对应的视频标签；具有数据库管理和检索功能；检索功能对接终端，支持用户通过素材标签选取符合条件的视频素材文件，以进行自定义人脸的组装。

另外，若干视频素材文件以及对应的视频标签的存储支持文件加密安全技术；若干视频素材文件以及对应的视频标签的存储支持信息摘要功能；其中，文件加密安全技术采用关联设备MAC地址，关联中央处理器型号和编号的方法保护视频素材文件的信息安全。信息摘要功能是记录视频素材文件中的视频信息，并与数据库相关联，用于辅助校验视频完整度和为其它模块提供视频文件信息。

采用深度学习方法识别人物视频内容，根据识别的人物肢体姿态和动作自动化分割视频片段；并输出分割后的视频片段的标签，视频片段的标签采用的是多类别标签和标签权重的参数。解决人物视频素材的自动化片段切割和标签分类问题。

自动化分割基于视频人物肢体识别算法，通过计算机视觉技术获得视频中人物的肢体姿态，再通过聚类算法，分割出人物视频中有着完整起始状态的视频片段。标注指对分割出的视频素材进行二次识别和分类的处理方法。二次识别采用基于时间轴的计算机视觉方法。分类指对视频素材进行标注的过程。

S130、利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材。

在本实施例中，人物视频素材是指根据自定义的需求，利用视频标签检索出相关的视频素材文件进行组装形成的素材。

S140、获取候选场景。

在本实施例中，候选场景是指需要合成到教学视频内的场景。

具体地，通过文本检索方式获取候选场景。

所述候选场景包括二维静态图片、二维动态循环视频、三维静态场景模型以及三维动态场景模型。

事先动态存储和管理用于合成的视频场景；并具有数据库管理和检索功能；并支持客户端显示预览功能；检索功能对接终端，支持用户通过素材标签选取符合条件的场景，以获取候选场景。支持终端显示预览功能，可以向终端提供显示的候选场景。

其中，二维动态循环视频为无缝循环式的视频文件。三维静态场景模型、三维动态场景模型均支持预览功能，为智能合成模块提供清晰的可视化信息，便于对人物的位置和颜色进行微调。三维场景素材通过后端渲染和加载向客户端提供用于显示的影像；三维场景素材通过参数配置实现镜头位置移动的功能。

二维静态图片是指二维场景图片；三维静态场景模型是指场景三维静态的内容。

场景素材进行标签化存储和检索，将通过场景标签实现。场景标签为用户上传场景时需要为场景素材所设定的标签。场景标签为多标签而非但标签。所述场景标签包括但不限于演播室、舞台、讲台、普通教室、报告厅、多媒体教室、户外等。

S150、获取来自终端的语音，并存储所述语音至数据库内。

在本实施例中，语音采用结构化存储，并支持数据检索功能；数据检索功能与客户端对接。数据检索功能支持用户通过文本内容查询和选取声音文件。

语音可以为用户上传声音以及用户通过文本合成的声音。

S160、从所述数据库内检索并确定待合成的语音。

在本实施例中，待合成的语音是指从数据库内检索到的教学视频相关的语音。

在本实施例中，这些语音可以是文本到声音的合成功能形成的，支持用户通过输入文本和选择声音角色模型合成待合成的语音。

S170、根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。

在本实施例中，教学视频是指根据自定义的人物视频素材、自定义的待合成的语音以及候选场景进行合成所得到的视频。

合成声音同步、唇形同步的教学视频包括人物合成方法和人物场景融合方法；其中，人物合成方法的素材源于视频素材数据管理模块和语音语料模块，并输出声音同步、唇形同步的目标人物视频；其中，人物场景融合方法的素材源于目标人物视频和候选场景。且在合成教学视频的过程中，具有参数可配置功能，用于实现合成细节的微调功能；微调功能包括但不限于人物在视频中的位置参数、拉伸参数、色差参数、滤镜参数等。

在一实施例中，请参阅图5，上述的步骤S170可包括步骤S171～S172。

S171、基于深度神经网络的GAN(生成式对抗网络，Generative AdversarialNetworks)技术将所述人物视频素材以及待合成的语音进行合成，以得到目标人物视频。

在本实施例中，目标人物视频是指所述人物视频素材以及待合成的语音进行合成形成的视频。

采用基于深度神经网络的GAN技术，输入为所述人物视频素材以及待合成的语音，输出为目标人物视频。目标人物视频的人物唇形与输入声音内容同步。

语音同步指合成视频中的音画同步，特别指人物口型和声音的同步。人物唇形同步指合成视频中人物口型符合发音的口型，口型与发音一致。

S172、将所述目标人物视频与所述候选场景进行合成，以得到教学视频。

在一实施例中，请参阅图6，上述的步骤S172可包括步骤S1721～S1722。

S1721、基于人物抠像技术提取所述目标人物视频内的人物轮廓图像内容，以得到带语音的人物轮廓视频。

在本实施例中，带语音的人物轮廓视频是指仅包括人物轮廓图像内容的目标人物视频，也就是去除了其他背景，但是仍然包括语音的内容。

S1722、将带语音的人物轮廓视频与所述候选场景进行合成，以得到教学视频。

目标人物视频与候选场景融合采用图像算法，人物融合基于人物抠像技术，只提取人物轮廓内的图像部分。

举个例子：用户上传为原始视频A.MP4，通过算法自动分割，产生若干视频素材文件，A1.MP4到A15.mp4。对视频素材A1.MP4到A15.mp4进行自动化标注，每个视频获得标签，如，A1.MP4{视频时间：19s，视频人物性别：男，视频人物服饰风格：西装，视频人物镜头位置：中心|28303像素，人物动作风格：演讲}等。存储视频素材A1.MP4到A15.mp4。用户通过条件检索确定用于合成的视频素材。用户通过检索，输入“多媒体教室”文本，获得若干候选场景。用户通过选择确认希望用于人物合成的场景。用户上传语音至数据库。用户通过检索确定用于合成的语音。根据配置的场景、声音和人物形象，合成出基于语音同步、唇形同步的人物影像视频，以形成教学视频。

本实施例根据用户配置的视频素材、场景素材和语音素材合成出语音同步、唇形同步的人物影像视频，并与二维场景或三维场景融合，自动化合成教学视频，减轻学校、教师的负担。

上述的自动化教学视频生成方法，通过终端获取原始视频以及语音，对原始视频进行处理后再自定义组装，形成人物视频素材，结合候选场景以及自定义的待合成的语音进行合成，以自动生成教学视频，实现满足短周期内大量的教学视频制作，以节约学校和教师在教学视频录制、制作上的工作，减轻教师的工作负担，减少学校的人力资源成本，且可自定义形象和自定义语音。

图7是本发明实施例提供的一种自动化教学视频生成装置300的示意性框图。如图7所示，对应于以上自动化教学视频生成方法，本发明还提供一种自动化教学视频生成装置300。该自动化教学视频生成装置300包括用于执行上述自动化教学视频生成方法的单元，该装置可以被配置于服务器中。具体地，请参阅图7，该自动化教学视频生成装置300包括原始视频获取单元301、处理单元302、组装单元303、场景获取单元304、语音获取单元305、语音检索单元306以及教学视频合成单元307。

原始视频获取单元301，用于获取来自终端的原始视频；处理单元302，用于对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签；组装单元303，用于利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材；场景获取单元304，用于获取候选场景；语音获取单元305，用于获取来自终端的语音，并存储所述语音至数据库内；语音检索单元306，用于从所述数据库内检索并确定待合成的语音；教学视频合成单元307，用于根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。

在一实施例中，如图8所示，所述处理单元302包括分割子单元3021、标注子单元3022以及存储子单元3023。

分割子单元3021，用于对所述原始视频进行分割，以得到若干视频素材文件；标注子单元3022，用于对若干视频素材文件进行自动化标注，以得到对应的视频标签；存储子单元3023，用于存储若干视频素材文件以及对应的视频标签。

在一实施例中，如图9所示，所述分割子单元3021包括姿态识别模块30211以及视频片段提取模块30212。

姿态识别模块30211，用于基于视频人物肢体识别算法，通过计算机视觉技术获得所述原始视频中人物的肢体姿态，以得到人物视频；视频片段提取模块30212，用于通过聚类算法分割所述人物视频中完整起始状态的视频片段，以得到若干视频素材文件。

在一实施例中，场景获取单元304，用于通过文本检索方式获取候选场景。

在一实施例中，如图10所示，所述教学视频合成单元307包括第一合成子单元3071以及第二合成子单元3072。

第一合成子单元3071，用于基于深度神经网络的GAN技术将所述人物视频素材以及待合成的语音进行合成，以得到目标人物视频；第二合成子单元3072，用于将所述目标人物视频与所述候选场景进行合成，以得到教学视频。

在一实施例中，如图11所示，所述第二合成子单元3072包括轮廓提取模块30721以及视频合成模块30722。

轮廓提取模块30721，用于基于人物抠像技术提取所述目标人物视频内的人物轮廓图像内容，以得到带语音的人物轮廓视频；视频合成模块30722，用于将带语音的人物轮廓视频与所述候选场景进行合成，以得到教学视频。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述自动化教学视频生成装置300和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述自动化教学视频生成装置300可以实现为一种计算机程序的形式，该计算机程序可以在如图12所示的计算机设备上运行。

请参阅图12，图12是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器，其中，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图12，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种自动化教学视频生成方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种自动化教学视频生成方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

获取来自终端的原始视频；对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签；利用所述视频标签进行若干视频素材文件的自定义组装，形成人物视频素材；获取候选场景；获取来自终端的语音，并存储所述语音至数据库内；从所述数据库内检索并确定待合成的语音；根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频。

在一实施例中，处理器502在实现所述对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签步骤时，具体实现如下步骤：

对所述原始视频进行分割，以得到若干视频素材文件；对若干视频素材文件进行自动化标注，以得到对应的视频标签；存储若干视频素材文件以及对应的视频标签。

在一实施例中，处理器502在实现所述对所述原始视频进行分割，以得到若干视频素材文件步骤时，具体实现如下步骤：

基于视频人物肢体识别算法，通过计算机视觉技术获得所述原始视频中人物的肢体姿态，以得到人物视频；通过聚类算法分割所述人物视频中完整起始状态的视频片段，以得到若干视频素材文件。

在一实施例中，处理器502在实现所述获取候选场景步骤时，具体实现如下步骤：

通过文本检索方式获取候选场景。

其中，所述候选场景包括二维静态图片、二维动态循环视频、三维静态场景模型以及三维动态场景模型。

在一实施例中，处理器502在实现所述根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频步骤时，具体实现如下步骤：

基于深度神经网络的GAN技术将所述人物视频素材以及待合成的语音进行合成，以得到目标人物视频；将所述目标人物视频与所述候选场景进行合成，以得到教学视频。

在一实施例中，处理器502在实现所述将所述目标人物视频与所述候选场景进行合成，以得到教学视频步骤时，具体实现如下步骤：

基于人物抠像技术提取所述目标人物视频内的人物轮廓图像内容，以得到带语音的人物轮廓视频；将带语音的人物轮廓视频与所述候选场景进行合成，以得到教学视频。

应当理解，在本申请实施例中，处理器502可以是中央处理单元302(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述原始视频进行分割，以得到若干视频素材文件步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述获取候选场景步骤时，具体实现如下步骤：

通过文本检索方式获取候选场景。

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述将所述目标人物视频与所述候选场景进行合成，以得到教学视频步骤时，具体实现如下步骤：

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元302中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.自动化教学视频生成方法，其特征在于，包括：

获取来自终端的原始视频；

获取候选场景；

获取来自终端的语音，并存储所述语音至数据库内；

从所述数据库内检索并确定待合成的语音；

2.根据权利要求1所述的自动化教学视频生成方法，其特征在于，所述对所述原始视频进行处理，以形成若干视频素材文件以及对应的视频标签，包括：

对所述原始视频进行分割，以得到若干视频素材文件；

存储若干视频素材文件以及对应的视频标签。

3.根据权利要求2所述的自动化教学视频生成方法，其特征在于，所述对所述原始视频进行分割，以得到若干视频素材文件，包括：

4.根据权利要求1所述的自动化教学视频生成方法，其特征在于，所述获取候选场景，包括：

通过文本检索方式获取候选场景。

5.根据权利要求4所述的自动化教学视频生成方法，其特征在于，所述候选场景包括二维静态图片、二维动态循环视频、三维静态场景模型以及三维动态场景模型。

6.根据权利要求1所述的自动化教学视频生成方法，其特征在于，所述根据所述人物视频素材、候选场景以及待合成的语音进行合成，以得到教学视频，包括：

7.根据权利要求6所述的自动化教学视频生成方法，其特征在于，所述将所述目标人物视频与所述候选场景进行合成，以得到教学视频，包括：

8.自动化教学视频生成装置，其特征在于，包括：

原始视频获取单元，用于获取来自终端的原始视频；

场景获取单元，用于获取候选场景；

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现如权利要求1至7中任一项所述的方法。