CN110166816B

CN110166816B - 用于人工智能教育的基于语音识别的视频编辑方法和系统

Info

Publication number: CN110166816B
Application number: CN201910458288.XA
Authority: CN
Inventors: 崔炜; 王鑫; 孙丽英
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-09-29
Anticipated expiration: 2039-05-29
Also published as: CN110166816A

Abstract

本发明公开了用于人工智能教育的基于语音识别的视频编辑方法，包括(1)、输入教学文稿并将其转化为系统可识别的脚本文件；(2)、输入原始教学视频素材文件，对原始教学视频素材文件所包含的音频帧进行识别，识别出声纹满足预设条件的目标音频帧；(3)、将语音识别后的视频文件与脚本文件进行对照，确定不符合教学文稿的包含目标音频在内的视频片段；(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减；(5)、将符合教学文稿的音频在内的视频片段进行自动渲染，合成为一个完整视频；(6)、输出合成后的完整视频。本发明还公开了用于人工智能教育的基于语音识别的视频编辑系统。

Description

用于人工智能教育的基于语音识别的视频编辑方法和系统

技术领域

本发明涉及一种视频编辑方法及系统，尤其涉及的是用于人工智能教育的基于语音识别的视频编辑方法和系统。

背景技术

目前，随着科技发展、教育理念变革以及用户教育需求升级和生活方式转变，人工智能教育规模的不断扩大，人工智能教育模式越来越广泛地被社会所接受，尤其是中小学教育领域，人工智能教育可以突破时间、空间的限制，为更多孩子提供优质教育资源，在弥补教育资源分配不均，提高教育公平性方面发挥着重要作用。

人工智能教育的多种教学模式中，在教学内容输出这一部分一般采用题库、录播视频、教师直播等方式，其中录播视频因其可以反复使用、成本较低、方便管理而被广泛使用。随着教育理念和用户需求的升级，以及视频编辑制作技术的完善，教学知识点拆分越来越细化，教学录播视频逐渐呈现出这些特征：时长变短、数量倍增、同层级知识点的教学视频中部分内容相同。

教学录播视频在制作时，一般分为四步：一、教研人员根据知识图谱撰写设计教学文稿，即知识点讲解的具体逐字逐句的文案，包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿等。二、出镜教师根据教学文稿进行视频录制，拍摄大量视频素材。三、视频编辑制作人员根据教学文稿剪辑制作视频。四、教研质检人员审核教学视频是否合格，审核通过安排网站上线。

语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，可以将人类的语音中的词汇内容转换为计算机可读的输入。

由于教学知识点拆分越来越细致，出镜老师需要在短时间内完成大量教学视频的素材录制，不可避免的会出现口误、错别字等讲述内容与教学文稿不一致的情况。如果在录制过程中反复重新录制，会浪费大量时间，造成录制效率低下。而视频编辑制作时，需要大量视频编辑制作人员对视频文件进行简单机械的剪去口误部分，多条视频片段合成一条完整教学视频等工作。这种建立在人工聆听和收看基础上的操作，是一种原始的人工处理方式，需要耗费大量的资源和处理时间，还会因为人为判断等主观原因造成操作失误，为后续视频质量审核增加工作量。

发明内容

发明目的：本发明针对上述现有技术存在的问题做出改进，即本发明公开了用于人工智能教育的基于语音识别的视频编辑方法和系统，实现降低视频编辑对人工依赖的程度，自动对视频文件或视频流进行编辑的技术效果。

技术方案：用于人工智能教育的基于语音识别的视频编辑方法，包括以下步骤：

(1)、输入教学文稿并将其转化为系统可识别的脚本文件，然后进入步骤(2)；

(2)、输入原始教学视频素材文件，对原始教学视频素材文件所包含的音频帧进行识别，识别出声纹满足预设条件的目标音频帧，完成后进入步骤(3)；

(3)、将语音识别后的视频文件与步骤(1)得到的脚本文件进行对照，确定不符合教学文稿的包含目标音频在内的视频片段，完成后进入步骤(4)，其中：

语音识别后的视频文件包含满足预设条件的目标音频帧；

(4)、对语音识别后的视频文件中不符合教学文稿的视频片段先都找出来并自动删减，得到符合教学文稿的音频在内的视频片段，完成后进入步骤(5)；

(5)、将步骤(4)得到的符合教学文稿的音频在内的视频片段进行自动渲染，合成为一个完整视频，完成后进入步骤(6)；

(6)、输出合成后的完整视频。

进一步地，步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件，其包含多帧视频帧，以及包含与视频帧对应的音频帧。

进一步地，步骤(3)包括：

(31)确定在时间轴上与目标音频帧对应着相同时刻的视频帧为目标视频帧，然后进入步骤(32)；

(32)对照步骤(1)得到的脚本文件，确定时间轴上目标音频前后不符合教学文稿脚本文件的多帧音频，然后进入步骤(33)；

(33)确定与不符合教学文稿脚本文件的多帧音频对应的相同时刻的多帧视频帧，即视频片段。

用于人工智能教育的基于语音识别的视频编辑系统，包括：

文本转换系统，用于将教学文稿转换为系统可识别的脚本文件；

语音识别系统，用于对原始教学视频素材文件所包含的音频帧进行识别，识别出预设条件的目标音频帧，其中：

所述原始教学视频素材文件还包含多帧视频帧，以及包含与视频帧对应的音频帧；

自动编辑系统，用于对脚本文件与经过语音识别系统处理的原始教学视频素材文件进行对照，并进行自动剪辑、合成与输出。

进一步地，文本转换系统包括：

教学文稿输入模块，用于输入教研人员撰写的教学文稿；

脚本文件转换模块，用于将教学文稿转换为系统可识别的脚本文件。

更进一步地，教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。

进一步地，语音识别系统包括：

视频文件输入模块，用于输入教学视频文件，包括原始教学视频素材或已经经过剪辑制作的教学视频；

语音识别模块，用于提取视频文件每帧的音频帧的声纹，然后将每帧的音频帧的声纹与一个或多个所述预设声纹进行匹配，如果匹配成功，表示音频帧的声纹满足预设条件，将音频帧识别为目标音频帧；如果匹配不成功，则直接进入下一个工作流程，即对照教学文稿脚本文件对视频文件进行分段。

进一步地，自动编辑系统包括：

确定视频片段模块，用于确定经过语音识别系统处理的原始教学视频素材文件中是否存在符合教学文稿脚本文件的视频片段；

自动剪辑模块，通过对比教学文稿脚本文件和经过语音系统处理的原始教学视频素材文件，删减掉不符合教学文稿的部分，保留符合教学文稿的视频片段；

自动合成模块，将符合教学文稿的视频片段自动进行渲染并合成；

视频输出模块，用于输出合成后的完整教学视频。

有益效果：本发明公开的用于人工智能教育的基于语音识别的视频编辑方法和系统通过语音识别技术，帮助实现教学视频的自动处理，包括自动剪辑和合成，降低教学视频编辑对人工依赖的程度，具有以下有益效果：

1、出镜老师在录制视频素材时，如果出现口误、错别字、表达错误等情况，只需清楚录入“重录”“删掉”等目标音频，即可继续录制，无需反复重新录制，可以有效提高出镜老师的工作效率——老师在录制原始素材时出错了，并录入了“重录”音频。步骤(2)识别出“重录”音频为目标音频帧。步骤(3)确认“重录”音频帧对应的视频帧，并与教学文稿脚本对照，确认出含有“重录”音频的视频片段(该片段与教学文稿不符)。步骤(4)将含有“重录”的视频片段删掉。也就是，老师在录制时出错了，但是他不用担心出错的部分会出现在最终的教学视频中，因为系统会帮他删掉。他只需将出错部分重新录入，然后继续录制。不用从头开始重新录；

2、视频编辑过程中，通过识别视频文件所含音频中是否包含目标音频，可以快速确认视频文件中是否存在需要删减的无效视频片段，并进行自动删减，可以减少视频编辑制作人员人工聆听及人工手动删减视频片段的步骤；

3、视频编辑过程中，通过识别视频文件所含音频并与教学文稿脚本文件进行匹配，可以自动将各符合脚本文件的视频片段合成，并自动输出完整的教学视频。可以减少视频编辑人员的简单机械式操作，提高工作效率。并且，教研人员通过调整教学文稿的内容，即可完成不同视频片段的合成，提高了教学视频内容组合方面的灵活性。

附图说明

图1为本发明公开的用于人工智能教育的基于语音识别的视频编辑方法的流程图；

图2为本发明公开的用于人工智能教育的基于语音识别的视频编辑系统的示意图。

具体实施方式：

下面对本发明的具体实施方式详细说明。

如图1所示，用于人工智能教育的基于语音识别的视频编辑方法，包括以下步骤：

语音识别后的视频文件包含满足预设条件的目标音频帧；

本发明中，将视频片段语音信息与教学文稿脚本文件是否匹配作为视频剪辑的触发机制，自动剪辑模块事先已经定义了剪辑操作的具体内容。例如，上述例子中，删减掉在“A”“B”内容之间的含有“重录”这一目标音频在内的视频片段；

例如，上述例子中，符合教学文稿“A”“B”“C”内容的三个视频片段会自动合成为一个视频；

(6)、输出合成后的完整视频。

进一步地，步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件，其包含多帧视频帧，以及包含与视频帧对应的音频帧。视频帧具有图像数据，而音频帧则具有音频数据。通常情况下，视频帧和音频帧的时间轴是同步的，在此种情况下，视频帧和音频帧按照时间轴对应。对视频文件所包含的音频帧进行识别，识别出满足预设条件的目标音频帧，在具体实现过程中，本发明所属领域的技术人员可以根据实际设置不同的预设条件，由此将不同的音频帧识别目标音频帧，例如，假设预设条件为音频帧的声纹与预先配置的预设“重录”、“删掉”声纹匹配，那么具体就是将声纹与预设声纹匹配的音频帧识别为目标音频帧。

进一步地，步骤(3)包括：

(33)确定与不符合教学文稿脚本文件的多帧音频对应的相同时刻的多帧视频帧，即视频片段。本步骤可实现，假设教学文稿中含有“A、B、C”三部分内容，对视频文件语音识别后，可确定视频文件在“A”“B”内容之间，存在含有“重录”这一目标音频在内的视频片段。

如图2所示，用于人工智能教育的基于语音识别的视频编辑系统，包括：

进一步地，文本转换系统包括：

教学文稿输入模块，用于输入教研人员撰写的教学文稿；

更进一步地，教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。一般为TXT格式。

进一步地，语音识别系统包括：

进一步地，自动编辑系统包括：

视频输出模块，用于输出合成后的完整教学视频。

上面对本发明的实施方式做了详细说明。但是本发明并不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.用于人工智能教育的基于语音识别的视频编辑方法，其特征在于，包括以下步骤：

语音识别后的视频文件包含满足预设条件的目标音频帧；

(6)、输出合成后的完整视频。

2.如权利要求1所述的用于人工智能教育的基于语音识别的视频编辑方法，其特征在于，步骤(2)中的教学视频素材文件指的是视频录制结束后获得的多媒体数据文件，其包含多帧视频帧，以及包含与视频帧对应的音频帧。

3.如权利要求1所述的用于人工智能教育的基于语音识别的视频编辑方法，其特征在于，步骤(3)包括：

4.用于人工智能教育的基于语音识别的视频编辑系统，其特征在于，包括：

5.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统，其特征在于，文本转换系统包括：

教学文稿输入模块，用于输入教研人员撰写的教学文稿；

6.如权利要求5所述的用于人工智能教育的基于语音识别的视频编辑系统，其特征在于，教学文稿包括导入视频文稿、知识点讲解视频文稿、练习题目解析文稿。

7.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统，其特征在于，语音识别系统包括：

语音识别模块，用于提取视频文件每帧的音频帧的声纹，然后将每帧的音频帧的声纹与一个或多个预设声纹进行匹配，如果匹配成功，表示音频帧的声纹满足预设条件，将音频帧识别为目标音频帧；如果匹配不成功，则直接进入下一个工作流程，即对照教学文稿脚本文件对视频文件进行分段。

8.如权利要求4所述的用于人工智能教育的基于语音识别的视频编辑系统，其特征在于，自动编辑系统包括：

视频输出模块，用于输出合成后的完整教学视频。