CN111601061A

CN111601061A - 一种视频录制信息处理方法及电子设备

Info

Publication number: CN111601061A
Application number: CN202010484324.2A
Authority: CN
Inventors: 李刚
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-08-28
Anticipated expiration: 2040-06-01
Also published as: CN111601061B

Abstract

本申请公开了一种视频录制信息处理方法及电子设备，该方法包括：获取第一视频数据，并对所述第一视频数据进行内容识别；在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，其中，所述第一指令与所述特定信息相对应；基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据。本申请实施例的视频录制信息处理方法生成的第二视频数据中具有例如教学场景等应用场景，从而在应用于教学视频录制时，能够为学生营造侵入式的教学氛围，有益于提高学生的学习效率。

Description

一种视频录制信息处理方法及电子设备

技术领域

本申请涉及电子设备技术领域，特别涉及一种视频录制信息处理方法及电子设备。

背景技术

随着信息技术迅速发展，特别是从互联网到移动互联网，创造了跨时空的生活、工作和学习方式，使知识获取的方式发生了根本变化。教与学可以不受时间、空间和地点条件的限制，知识获取渠道灵活与多样化。在此背景下，在线教育随之兴起。

在线教育顾名思义，是以网络为介质的教学方式，通过网络，学员与教师即使相隔万里也可以开展教学活动；此外，借助网络课件，学员还可以随时随地进行学习，真正打破了时间和空间的限制，对于出行受限、工作繁忙、学习时间不固定的学员而言，网络远程教育是最方便不过的学习方式。

常规的在线教育是由老师预先录制教学视频，上课时，学生通过观看教学视频进行学习，但这样的方式教师和学生之间协调性较差。例如，教师在录制视频的时候，会经常给学生预留特定时长来练习题目，但老师录制视频不会真正的停止特定时长再继续录制，这时就需要学生自行暂停教学视频播放特定时间，待做完练习题目后重新播放，否则就会出现学生在做练习题目，而教学视频在继续播放的情况。

申请内容

有鉴于现有技术中存在的上述问题，本申请实施例采用的技术方案如下：

本申请实施例一方面提供了一种视频录制信息处理方法，包括：

获取第一视频数据，并对所述第一视频数据进行内容识别；

在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，其中，所述第一指令与所述特定信息相对应；

基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据。

在一些实施例中，所述对所述第一视频数据进行内容识别，包括：

对所述第一视频数据的图像信息中的目标对象的姿态进行识别；和/或

对所述第一视频数据中的语音信息进行语义识别。

在一些实施例中，所述在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，包括：

在从所述图像信息中识别到目标对象的至少一个特定手势的情况下，生成与所述特定手势相关联的所述第一指令。

在从所述语音信息中识别到至少一个特定关键词的情况下，生成与所述特定关键词相关联的所述第一指令。

在一些实施例中，所述基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据，包括：

基于所述第一指令，确定所述第一视频数据中与所述特定信息相关联的第一视频片段；

基于所述特定信息制作第二视频片段；

通过所述第二视频片段替换所述第一视频片段，或同步显示所述第一视频片段和所述第二视频片段，以生成所述第二视频数据。

基于所述第一指令，确定与所述特定信息相对应的第一时间点；

在所述第一视频数据中所述第一时间点处插入第三视频片段，以生成第二视频数据。

在一些实施例中，所述在所述第一视频数据中所述第一时间点处插入第三视频片段，以生成第二视频数据，包括：

确定所述第一视频数据中所述第一时间点处的第一帧图像；

基于所述第一帧图像形成具有第一时长的所述第三视频片段；

将所述第三视频片段插入到所述第一视频数据中所述第一时间点处，以生成第二视频数据。

本申请第二方面提供了一种电子设备，包括：

识别模块，用于获取第一视频数据，并对所述第一视频数据进行内容识别；

第一生成模块，用于在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，其中，所述第一指令与所述特定信息相对应；

第二生成模块，用于基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据。

在一些实施例中，所述识别模块具体用于：

对所述第一视频数据中的语音信息进行语义识别。

在一些实施例中，所述第一生成模块具体用于：

在一些实施例中，所述第二生成模块具体用于：

基于所述特定信息制作第二视频片段；

在一些实施例中，所述第二生成模块具体用于：

在一些实施例中，所述第二生成模块进一步用于：

确定所述第一视频数据中所述第一时间点处的第一帧图像；

本申请实施例第三方面提供了一种存储介质，存储有计算机程序，当执行所述计算机程序时实现如下步骤：

获取第一视频数据，并对所述第一视频数据进行内容识别；

本申请实施例第四方面提供了一种电子设备，至少包括存储器和处理器，所述存储器上存储有可执行程序，所述处理器在执行所述存储器上的可执行程序时实现如下步骤：

获取第一视频数据，并对所述第一视频数据进行内容识别；

本申请实施例的视频录制信息处理方法，获取第一视频数据后，对第一视频数据进行内容识别，在从第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，并基于该第一指令对第一视频数据中与特定信息相关联的视频片段进行处理后生成第二视频数据，以使第二视频数据中具有例如教学场景等应用场景，从而在应用于教学视频录制时，能够为学生营造侵入式的教学氛围，有益于提高学生的学习效率。

附图说明

图1为本申请实施例的视频录制信息处理方法的流程图；

图2为本申请实施例的视频录制信息处理方法中步骤S300的一种实施例的流程图；

图3为本申请实施例的视频录制信息处理方法中步骤S300的另一种实施例的流程图；

图4为本申请实施例的电子设备的一种实施例的结构框图；

图5为本申请实施例的电子设备的另一种实施例的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例提供了一种视频录制信息处理方法，在视频录制过程中能够基于教学内容对相应的视频片段进行处理并生成教学视频，该教学视频能够为学生营造侵入式的学习氛围，以提高学生的学习效率。

参见图1所示，本申请实施例的视频录制信息处理方法，包括：

S100，获取第一视频数据，并对第一视频数据进行内容识别。

其中，该第一视频数据为摄像装置采集的原始视频数据。获取该第一视频数据的方法有多种。以该视频录制信息处理方法应用在例如智能手机、平板电脑及笔记本电脑等自带摄像装置的电子设备为例，获取第一视频数据可为通过自带摄像装置采集第一视频数据。在另一种情况下，获取第一视频数据也可为电子设备从例如VR眼镜或AR眼镜等可穿戴式设备获取第一视频数据。此外，由于移动电子设备的处理能力有限，该视频录制生成方法也可应用在例如服务器上，则获取第一视频数据即为获取移动电子设备或穿戴式设备采集的第一视频数据。

对第一视频数据进行内容识别，可以是对第一视频数据的图像信息进行识别。例如，可采用图像识别技术识别第一视频数据中的每一帧图像，具体的，可识别图像信息中的场景图像，如图像信息中哪些部分图像属于场景图像，场景图像的三维信息，场景图像中的物品类型等。也可识别图像信息中的人物图像，如识别人物的人脸图像，识别人物的面部表情，识别人物的人眼信息，识别人物的动作等。亦或者，也可识别图像信息的图像参数等，如图像的亮度、清晰度、对比度等。对第一视频数据进行内容识别，也可以使对第一视频数据中的语音信息进行识别。如在获取到第一视频数据中的语音信息后可将该语音信息转化成文本信息，进而对该文本信息的内容进行识别。

S200，在从第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，其中，第一指令与特定信息相对应。

其中，该特定信息可为预先设置的指令信息。以教学视频录制为例，可预先设置一些教学指令信息。在教学视频录制过程中可对采集的图像信息或语音信息进行识别，当识别到这些教学指令信息时，生成相对应的第一指令，以指示对第一视频数据中相应的视频片段进行处理，从而营造与该教学指令信息相应的教学场景，该教学场景可通过图像场景和/或语音场景得以营造。如在具体实施时，可将例如“暂停几分钟”、“给你们几分钟”之类词语预设为教学指令信息。当教师在教学过程中指示学生“同学们，现在给你们5分钟时间阅读课文”，则视为从第一视频数据中识别到教学指令信息，可生成与“给你们5分钟”相对应的第一指令，以指示对第一视频数据进行处理，以形成一个教学进程暂停5分钟的教学场景。

该特定信息也可为条件或阈值，在从第一视频数据中参数、数据或信息满足该条件或阈值的情况下，视为识别到特定信息，生成第一指令。例如，该条件可包括针对语音参数或图像参数设定的条件或阈值，也可为针对应用场景设定的预置。仍然以教学视频录制为例，可设置场景条件，如教学视频的场景应为教学场景，而非家庭场景、商业场景、办公场景等。在教学视频录制过程中可对图像信息中的场景图像进行识别，当识别到教师录制教学视频的场景为家庭场景、办公场景、商业场景或其他不符合教学场景的情况下，则视为从第一视频数据中识别到至少一个特定信息，进而生成第一指令，以指示对第一视频数据中相应的视频片段进行处理，以营造一个教学场景。当然，以上仅为对特定信息的示例性说明，不构成对特定信息具体内容的限制。

S300，基于第一指令，对第一视频数据中与特定信息相关联的视频片段进行处理后生成第二视频数据。

其中，第一指令用于指示对第一视频数据中与特定信息相关联的视频片段进行处理，生成第二视频数据，使第二视频数据中具有与特定信息相关的应用场景。在获取到第一指令后，可基于第一指令确定与该特定信息相关的视频片段或时间点，并基于该第一指令对该视频片段进行处理或删减，亦或者在该时间点处插入其他视频片段等，从而在第二视频数据中营销相应的应用场景。仍然以教学视频录制为例，当由于识别到教师录制教学视频的场景为家庭场景而生成第一指令时，基于该第一指令可确定第一视频数据中场景图像不符合教学场景要求的视频片段，识别该视频片段中每一帧图像的场景图像，或者提取每一帧图像的人物图像，继而采用教学场景图像替换该不符合教学场景要求的场景图像，或者将人物图像添加至教学场景图像上，从而生成第二视频数据。当特定信息为其他信息时，也可采用其他方式对第一视频数据中与特定信息相关联的视频片段进行处理以生成第二视频数据，如在相关联的视频片段中添加图像、视频、音频、文字，或者删减视频片段、调整帧图像序列，亦或者修改图像参数或语音参数等，目的在于在第二视频数据中营造与特定信息相关的应用场景。

在一些实施例中，对第一视频数据进行内容识别可包括：对第一视频数据的图像信息中的目标对象的姿态进行识别。该目标对象的姿态可为目标对象的眼部姿态，如可从图像信息中的帧图像中获取连续的目标对象的眼部图像，基于这些连续的眼部图像可获取目标对象的眼动信息，如注视方向和扫视动作等。相应的，如果识别到至少一个特定的眼动信息时，生成与该特定眼动信息相对应的第一指令。该目标对象的姿态也可为目标对象的手部姿态，如可从图像信息中的帧图像中获取目标对象的手部图像，基于连续的手部图像可获取目标对象的手势信息。相应的，如果识别到至少一个特定手势的情况下，生成与特定手势相关联的第一指令。例如教学视频录制过程中，图像信息中可包括两个界面窗口，其中一个界面窗口显示教师图像，另一个界面窗口显示教学内容的界面窗口，如PPT界面或应用程序界面。如教师讲解到教学内容中一种解题方法为错误时，可能会做出一个画“×”的手势，这时可生成一个第一指令，用于指示对相应的视频片段中插入一个画“×”的动画，并将该动画叠加在该视频片段上，或者一个画“×”的图片。

在一些实施例中，对第一视频数据进行内容识别可包括：对第一视频数据中的语音信息进行语义识别。在获取到第一视频数据中的语音信息后，可基于该语音信息获取相应的文本信息，在获取到文本信息后，可对该文本信息进行语义识别。相应的，如果从文本信息中识别到特定文本内容时，则生成与该特定文本内容相对应的第一指令。例如，当从文本内容中识别到“苏轼的词《江城子·密州出猎》老夫聊发少年狂，左牵黄，右擎苍，锦帽貂裘，千骑卷平冈。为报倾城随太守，亲射虎，看孙郎。酒酣胸胆尚开张，鬓微霜，又何妨！持节云中，何日遣冯唐？会挽雕弓如满月，西北望，射天狼”时，则可生成用于指示在相应的视频片段插入相应的动画的第一指令。

在一个优选实施例中，在从第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，包括：

在从语音信息中识别到至少一个特定关键词的情况下，生成与特定关键词相关联的第一指令。

在具体实施时，可预先构建特定关键词指令库，该关键词指令库中可包括多个特定关键词和与特定关键词相对应的第一指令。在获取到与语音信息相对应的文本内容后，可识别该文本内容中是否包括特定关键词。如果从文本内容中识别到特定关键词，则生成与该识别到的特定关键词相关联的第一指令。例如，教学视频可包括两个界面窗口，其中一个界面窗口用于显示教师图像，另一个界面窗口用于显示教学内容，录制教学视频过程中同时采集教师图像，抓取PPT界面图像，并同时抓取电子书界面图像。当教师教学过程中说道“下面请看PPT”，则可生成用于指示将另一界面窗口的显示内容切换为PPT界面图像的第一指令，当教师教学过程中说道“下面请看电子书”，则可生成用于指示将另一界面窗口的显示内容切换为电子书界面图像的第一指令。

配合图2所示，在一些实施例中，基于第一指令，对第一视频数据中与特定信息相关联的视频片段进行处理后生成第二视频数据，包括：

S311，基于第一指令，确定第一视频数据中与特定信息相关联的第一视频片段。

在获取到第一指令后，可基于特定信息对第一视频数据中的视频片段进行匹配，以获取向关联的第一视频片段。以该特定信息为特定文本内容为例，则可识别与语音信息相对应的文本信息，确定文本信息中与该特定文本内容相关联的特定文本段，并确定该特定文本段相对应的起始时间点和结束时间点，进而基于该起始时间点和结束时间点确定该第一视频数据中的位于该起始时间点和结束时间点之间的视频片段为与特定信息相关联的第一视频片段。例如，当从文本内容中识别到老师阅读“《江城子·密州出猎》”时，则文本内容中“《江城子·密州出猎》，苏轼，老夫聊发少年狂，左牵黄，右擎苍，锦帽貂裘，千骑卷平冈。为报倾城随太守，亲射虎，看孙郎。酒酣胸胆尚开张，鬓微霜，又何妨！持节云中，何日遣冯唐？会挽雕弓如满月，西北望，射天狼。”即为特定文本段，起始时间点即为老师开始阅读“江城子”的前一时间点，结束时间点即为老师阅读完“射天狼”的后一时间点，进而即可确定与特定信息相关联的第一视频片段。

S312，基于特定信息制作第二视频片段。

其中，该第二视频片段为与该特定信息相关联的视频片段，用于形成相应的应用场景。在获取到第一指令后，可基于该特定信息制作第二视频片段，该制作第二视频片段应理解为即包括基于帧图片采用视频生成方法生成新的视频，也包括获取现有的视频片段，或者在获取现有视频片段的基础上将其处理为符合需求的视频片段。如在识别到特定文本内容时，可基于该特定文本内容检索第二视频片段，仍以“《江城子·密州出猎》”为例，则可检索与该词相关联的动画，并将其作为第二视频片段。

S313，通过第二视频片段替换第一视频片段，或同步显示第一视频片段和第二视频片段，以生成第二视频数据。

在确定第一视频片段，并获取到第二视频片段之后，可通过第二视频片段替换第一视频片段，也可同步显示第一视频片段和第二视频片段，同步显示第一视频片段和第二视频片段包括：通过不同的界面窗口分别显示第一视频片段和第二视频片段，也包括将第二视频片段叠加于第一视频片段上。如教学视频录制过程中，可通过摄像装置采集教师图像作为第一视频数据，同时还可通过抓屏软件抓取例如PPT界面图像，当教师说道“下面请看PPT”，则可获取该PPT界面图像作为第二视频片段，此时，可通过该PPT界面图像替换教师图像，也可通过两个界面分别显示教师图像和PPT界面图像。以教师教授“《江城子·密州出猎》”为例，在检索到作为第二视频片段的与该词相关联的动画后，则可将该动画叠加于教师图像或PPT界面图像之上，以丰富教学场景。

配合图3所示，在一些实施例中，基于第一指令，对第一视频数据中与特定信息相关联的视频片段进行处理后生成第二视频数据，包括：

S321，基于第一指令，确定与特定信息相对应的第一时间点。

该第一指令用于指示在第一视频数据中插入视频信息、图片信息等内容时，也可确定与该特定信息相对应的第一时间点。该第一时间点可为识别到该特定信息的前一时间点，也可为识别到该特定信息的视频片段的后一时间点。仍以教学视频录制过程为例，当教师说“同学们，现在给你们5分钟时间阅读课文”，则可将老师说完这句话的下一时间点作为第一时间点。

S322，在第一视频数据中第一时间点处插入第三视频片段，以生成第二视频数据。

其中，第三视频片段为与该特定信息相关的视频片段。当确定第一时间点后，可在该第一视频数据中插入该第三视频片段，以生成第二视频数据。例如，教师在教授化学实验时说道“下面请看演示视频”，则可在教师说完该句话的下一时间点插入作为第三视频片段的化学实验演示视频。

该第三视频片段不仅可以为获取到的现有视频，也可为基于帧图像生成的视频。例如，当教师说“同学们，现在给你们5分钟时间阅读课文”，可确定第一视频数据中第一时间点处的第一帧图像，也即老师说完这句话的下一时间点所对应的帧图像；基于第一帧图像形成具有第一时长的第三视频片段，如可仅基于该第一帧图像生成一个5分钟的视频，这样能够给学生营造一种教学进程定格在此的氛围；之后，可将该第三视频片段插入到第一视频数据中第一时间点处，以生成第二视频数据，从而为学生营造一种逼近课堂的教学场景。

基于相同的发明构思，本申请实施例还提供了一种电子设备，参见图4所示，本申请实施例的电子设备包括：

本申请第二方面提供了一种电子设备，包括：

识别模块10，用于获取第一视频数据，并对所述第一视频数据进行内容识别；

第一生成模块20，用于在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，其中，所述第一指令与所述特定信息相对应；

第二生成模块30，用于基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据。

在一些实施例中，所述识别模块10具体用于：

对所述第一视频数据中的语音信息进行语义识别。

在一些实施例中，所述第一生成模块20具体用于：

在一些实施例中，所述第二生成模块30具体用于：

基于所述特定信息制作第二视频片段；

在一些实施例中，所述第二生成模块30具体用于：

在一些实施例中，所述第二生成模块30进一步用于：

确定所述第一视频数据中所述第一时间点处的第一帧图像；

参见图5所示，本申请实施例还提供了一种电子设备，至少包括存储器901和处理器902，所述存储器901上存储有可执行程序，所述处理器902在执行所述存储器901上的可执行程序时实现如下步骤：

获取第一视频数据，并对所述第一视频数据进行内容识别；

处理器902在执行存储器901上存储的对所述第一视频数据进行内容识别的可执行程序时，具体实现如下步骤：

对所述第一视频数据中的语音信息进行语义识别。

处理器902在执行存储器901上存储的在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令的可执行程序时，具体实现如下步骤：

处理器902在执行存储器901上存储的基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据的可执行程序时，具体实现如下步骤：

基于所述特定信息制作第二视频片段；

处理器902在执行存储器901上存储的在所述第一视频数据中所述第一时间点处插入第三视频片段，以生成第二视频数据的可执行程序时，具体实现如下步骤：

确定所述第一视频数据中所述第一时间点处的第一帧图像；

本申请实施例还提供了一种存储介质，存储有计算机程序，当执行计算机程序时实现本申请上述任一实施例提供的视频录制信息处理方法。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种视频录制信息处理方法，包括：

获取第一视频数据，并对所述第一视频数据进行内容识别；

2.根据权利要求1所述的视频录制信息处理方法，其中，所述对所述第一视频数据进行内容识别，包括：

对所述第一视频数据中的语音信息进行语义识别。

3.根据权利要求2所述的视频录制信息处理方法，其中，所述在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，包括：

4.根据权利要求2所述的视频录制信息处理方法，其中，所述在从所述第一视频数据中识别到至少一个特定信息的情况下，生成第一指令，包括：

5.根据权利要求1所述的视频录制信息处理方法，其中，所述基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据，包括：

基于所述特定信息制作第二视频片段；

6.根据权利要求1所述的视频录制信息处理方法，其中，所述基于所述第一指令，对所述第一视频数据中与所述特定信息相关联的视频片段进行处理后生成第二视频数据，包括：

7.根据权利要求6所述的视频录制信息处理方法，其中，所述在所述第一视频数据中所述第一时间点处插入第三视频片段，以生成第二视频数据，包括：

确定所述第一视频数据中所述第一时间点处的第一帧图像；

8.一种电子设备，包括：

9.根据权利要求8所述的电子设备，其中，所述第二生成模块具体用于：

基于所述特定信息制作第二视频片段；

10.根据权利要求8所述的电子设备，其中，所述第二生成模块具体用于：