CN115690635A

CN115690635A - 视频的处理方法、装置、计算机存储介质及智能交互平板

Info

Publication number: CN115690635A
Application number: CN202110827596.2A
Authority: CN
Inventors: 方建生
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2023-02-03

Abstract

本发明公开了一种视频的处理方法、装置、计算机存储介质及智能交互平板。其中，该方法包括：获取待处理的视频片段；基于特征提取模型提取待处理的视频片段的第一向量特征；根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，其中，样本数据包括与目标对象关联的样本视频片段以及样本视频片段的分类信息；根据待处理的视频片段所属的类别，得到目标对象的统计数据。本发明解决了相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的技术问题。

Description

视频的处理方法、装置、计算机存储介质及智能交互平板

技术领域

本发明涉及视觉检索技术领域，具体而言，涉及一种视频的处理方法、装置、计算机存储介质及智能交互平板。

背景技术

在教学领域中，通过统计学生的课堂表现，可以反应学生的学习情况，比如统计某一节课中全部学生举手答问的次数，或者某一个学生举手答问的次数，基于对举手答问次数的统计，可以知道学生的总体课堂积极性以及对学科的偏好情况，进而支持教学的评估。然而，目前学生的课堂表现主要通过老师的人工记录来统计，这种统计方式效率较低，且统计结果不准确，容易发生数据缺失的问题。

针对上述相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频的处理方法、装置、计算机存储介质及智能交互平板，以至少解决相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频的处理方法，包括：获取待处理的视频片段；基于特征提取模型提取待处理的视频片段的第一向量特征；根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，其中，样本数据包括与目标对象关联的样本视频片段以及样本视频片段的分类信息；根据待处理的视频片段所属的类别，得到目标对象的统计数据。

根据本发明实施例的另一方面，还提供了一种视频的处理装置，包括：获取模块，用于获取待处理的视频片段；提取模块，用于基于特征提取模型提取待处理的视频片段的第一向量特征；确定模块，用于根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，其中，样本数据包括与目标对象关联的样本视频片段以及样本视频片段的分类信息；统计模块，用于根据待处理的视频片段所属的类别，得到目标对象的统计数据。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行上述任意一项的视频的处理方法。

根据本发明实施例的另一方面，还提供了一种智能交互平板，包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述任意一项的视频的处理方法。

在本发明实施例中，通过获取待处理的视频片段，基于特征提取模型提取待处理的视频片段的第一向量特征，根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，根据待处理的视频片段所属的类别，得到目标对象的统计数据，实现了基于视频片段的图像识别和检索，自动识别出视频片段所属的类别，并得到统计数据，在教育领域实现了无需人工对教学视频中学生的各种行为动作进行记录统计，提高了统计数据的获取效率，进而解决了相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频的处理方法的流程图；

图2是根据本发明实施例的一种可选的视频的处理方法的示意图；

图3是根据本发明实施例的一种视频的处理装置的示意图；

图4是本申请实施例提供的一种智能交互平板的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种视频的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的视频的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待处理的视频片段。

上述待处理的视频片段为用于统计与目标对象相关的统计数据的视频片段。在一种可选的实施例中，待处理的视频片段可以为教学录播系统通过教室内安装的摄像头所录制的教学视频片段，教学视频片段按照课节保存，每一节课保存为一份待处理的视频片段。

步骤S104，基于特征提取模型提取待处理的视频片段的第一向量特征。

上述特征提取模型可以为三维卷积神经网络模型，上述第一向量特征可以为通过三维卷积神经网络模型所提取的一维的向量特征。

待处理的视频片段可以由四个维度构成，四个维度包括时间维度(以下用“T”表示)和空间中的三个维度，其中，空间的三个维度分别为：视频片段中每一帧图像的通道数(以下用“C”表示)、每一帧图像的宽度(以下用“W”表示)和高度(以下用“H”表示)，即每个待处理的视频片段的大小为T×C×W×H，可以将待处理的视频片段输入至三维卷积神经网络模型中，提取出大小为T×C×W×H的待处理的视频片段的一维向量特征X。

步骤S106,根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，其中，样本数据包括与目标对象关联的样本视频片段以及样本视频片段的分类信息。

上述目标对象可以根据需求从待处理的视频片段所包含的多个对象中确定，上述对象可以为视频片段中的任意内容，例如，对象可以为视频中的人物、物品等，还可以为动作、表情等。具体的，目标对象可以由用户根据需求从多个对象选择任意一个或者多个作为目标对象。

在一种可选的实施例中，在教学应用的场景中，待处理的视频片段中包含课堂中的老师、学生、老师的行为动作、学生的行为动作等多个对象，则可以将其中任意一项作为目标对象。例如，在需要获得学生举手动作的统计数据时，可以确定学生的举手动作为目标对象，根据学生的举手动作对待处理的视频片段进行标记，将包含任意一个学生的举手动作的图像内容的视频片段标记为同一个类别，进而根据属于同一个类别的视频片段的数量，得到学生举手动作的统计数据。再例如，在需要获取某个老师在一段时间内的课时统计数据时，可以确定该老师作为目标对象，从待处理视频中确定出包含该老师图像的视频片段并进行标记，结合课程表统计得到该老师在一段时间内的课时数据。根据用户需求确定出的目标对象可以为统计数据所对应的主题，例如，在教学应用的场景中，上述目标对象可以为学生的特定动作(比如，举手问答的动作)，或者某一个学生，或某一个老师等，与目标对象关联的样本视频片段可以为包含某一个学生，或某一个老师，或学生的特定动作的视频片段，当目标对象为学生的特定动作时，可以确定上述主题为学生特定动作的发生次数等。

上述样本数据用于与待处理的视频片段的第一向量特征的相似度进行比对，实现对待处理的视频片段的分类。样本数据中可以包括属于多个不同类别的样本视频片段以及每个类型的分类信息，上述分类信息用于标识不同类别的样本视频片段所属的类别。

在一种可选的实施例中，上述待处理的视频片段为教学录播软件录制的教学视频，上述类别用于表征学生在课堂的不同行为。学生在课堂的不同行为可以包括学生的举手行为、站立行为、坐下行为、趴着行为等，不同的动作行为代表学生在课堂的不同状态，例如，举手行为可以说明学生积极互动的状态，趴着说明学生不认真听讲的状态。每种动作行为可以作为一个类别，待处理的视频片段所属的类别可以包括举手、站立、坐下和趴着等类别。相应的，样本数据中包括举手、站立、坐下和趴着等类别的样本视频片段，以及每个样本视频片段所属的类别，通过将第一向量特征与每个类别的样本视频片段进行相似度比较，将相似度最高的样本视频片段对应的类别作为待处理的视频片段所属的类别。

步骤S108,根据待处理的视频片段所属的类别，得到目标对象的统计数据。

上述统计数据包括但不限于待处理的视频片段的类别的数量、待处理的视频片段的类别相关的分布数据等。

通过对待处理视频片段所属的类别进行统计，可以得到与目标对象相关的统计数据，例如，通过对教学视频所属的学生的不同行为类别进行统计，得到学生在课堂上不同行为的统计数据，进而可以得到学生在课堂的表现情况。

在一种可选的实施例中，上述目标对象可以为学生的特定动作，统计数据用于统计学生的课堂表现，教学录播系统通过教室内安装的摄像头录制并保存每节课的教学视频片段，在需要生成A学生的课堂表现的统计数据时，可以提取出教学视频片段，将教学视频片段输入特征提取模型中提取出一维的向量特征，与样本数据进行相似度比较，样本数据中包括学生的各种行为动作的样本视频片段，每个样本视频片段中已经通过人工标记出其所属的类别(比如：举手、趴着、站立等)，通过将教学视频片段的向量特征中与样本数据进行相似度比较，确定出教学视频片段属于学生的哪一种行为动作的类别，将全部教学视频片段的类别确定后，对属于各类别的教学视频片段的数量进行统计，得到关于A学生在课堂不同行为的统计数据，比如，A学生在课堂上举手的次数、趴下的次数以及站立的次数，进而确定出A学生上课的课堂表现情况。

本实施中，通过获取待处理的视频片段，基于特征提取模型提取待处理的视频片段的第一向量特征，根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，根据待处理的视频片段所属的类别，得到目标对象的统计数据，实现了基于对视频片段的图像识别和检索，自动识别出视频片段所属的类别，并得到统计数据，在教育领域实现了无需人工对教学视频中学生的各种行为动作进行记录统计，提高了统计数据的获取效率，解决了相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的技术问题。

作为一种可选的实施例，获取多个待处理的视频片段，包括：获取录播软件保存的初始视频片段；基于关联信息从初始视频片段中确定与目标对象关联的多个关联视频片段,其中,关联信息用于表示目标对象与时间的关联关系；根据关联视频片段得到待处理的视频片段。

上述关联信息用于对众多的初始视频片段中进行粗粒度的分类，基于关联信息可以对初始视频片段增加标签，根据标签筛选得到与目标对象关联的多个关联视频片段，并去除掉与目标对象无关的视频片段。根据多个关联视频片段得到待处理的视频片段，而非直接采用录播软件录制的初始视频片段，可以减少后续特征提取步骤中的工作量。

在一种可选的实施例中，图2是根据本发明实施例的一种可选的视频的处理方法的示意图，如图2所示，在教学视频集锦的场景中，待处理的视频片段为教学录播系统保存的每一节课的视频21，上述关联信息可以为课程表22，通过课程表22可以得到学科信息表23、教师信息表24以及学生信息表25中的信息，上述目标对象可以为任意学生，课程表22包含了每节课的时间信息，将每一节课的视频21与课程表22关联后，可以确定出每个待处理的视频片段所关联的学科信息(比如，语文课)、教师信息和学生信息等，进而可以对每个待处理的视频片段根据课程表22进行粗分类，并添加视频标签，例如，根据学生信息表25中的信息，可以得到某班级中A学生的信息，进一步根据课程表22粗分类后的视频标签可以包括：学科标签(语文课)，教师标签(某老师)，学生标签(某班级A学生)，基于上述关联信息，可以从初始视频片段中筛选出某班级A学生的上语文课的全部视频片段，并将上述视频片段作为关联视频片段。

作为一种可选的实施例，在基于关联信息从初始视频片段中确定与目标对象关联的多个关联视频片段之后，上述方法还包括：对关联视频片段中的视频帧依次截取，得到多个具有第一预设数量视频帧的目标视频片段；确定目标视频片段为待处理的视频片段。

在确定了特征提取模型后，特征提取模型所输入的每个待处理的视频片段应具有相同的帧数，上述第一预设数量的视频帧与特征提取模型匹配，不同的特征提取模型可以对应不同的第一预设数量。

上述多个目标视频片段具有相同帧数，可输入特征提取模型进行特征提取。例如，第一预设数量可以为M，在获取到关联视频片段后，对每一个关联视频片段从头开始依次截取M帧，每M帧视频帧组成目标视频片段，可以将关联视频片段分成K段目标视频片段，将K段目标视频片段输入特征提取模型中，提取出K个第一向量特征，用于后续的相似度匹配。

作为一种可选的实施例，在根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别之前，上述方法包括：获取录播软件保存的历史视频片段；从历史视频片段中剪辑出指定视频片段，并对指定视频片段进行标记得到分类信息，其中，指定视频片段至少包括与目标对象关联的视频片段；根据平均帧间差分强度，从与指定视频片段中提取第二预设数量的关键帧；确定第二预设数量的关键帧为样本视频片段。

上述历史视频片段可用于构建样本视频片段，上述指定视频片段为不同类别对应的视频片段，指定视频片段可以通过人工剪辑的方式从历史视频片段中剪辑出来。例如，在教学视频的应用中，上述目标对象可以为A学生的特定行为，为了获取学生课堂表现的统计数据，可以从教学录播系统中提取出保存的历史教学视频片段，上述指定视频片段可以为通过人工剪辑并标注出包含A学生各类动作的视频片段，比如，剪辑出包括A学生举手动作的视频片段，标记类别1作为分类信息，剪辑出A学生站立的视频片段，标记类别2作为分类信息，剪辑出A学生趴着的视频片段，标记类别3作为分类信息，还可以剪辑一套没有A学生的视频片段，标记类别0作为分类信息，每个类别的视频片段均可以剪辑多个视频片段，上述4个类别标记后的视频片段可以用于后续提取关键帧。需要说明的是，剪辑得到的指定视频片段中包含各类别的特定行为的动作轨迹即可，不需要剪辑长时间的时间，比如，剪辑学生坐着的指定视频片段时，不需要将学生长时间坐着的视频全部剪辑下来。举手动作等动作视频片段的剪辑，起止时间可以根据动作变化确定，比如，捕捉举手动作从开始到结束的变化，将举手开始时间作为视频剪辑的起始时间，将手放下的时间作为视频剪辑的结束时间。

上述第二预设数量可以与上述第一预设数量相等，构建的样本视频片段还可以用于对特征提取模型进行训练，因此，对于预设的特征提取模型，输入的视频片段具有特征数量的帧数，通过提取第二预设数量的关键帧，使得样本视频片段和上述待处理的视频片段具有相等数量的视频帧，实现帧对齐。通过关键帧提取，使得待处理的视频片段和样本视频片段的时间长度相等。

通过平均帧间差分强度提取关键帧，可以去除原始视频数据的冗余性，提取出具有代表性有意义的视频帧组合。具体的，在得到了与目标对象关联的视频片段后，可以根据各视频帧之间的差分强度的顺序，对所有视频帧按照平均差分强度进行排序，选择平均帧间差分强度最高的第二预设数量的视频帧作为关键帧。

作为一种可选的实施例，上述方法还包括:获取初始特征提取模型，其中，初始特征提取模型为三维神经网络模型；采用样本数据和预设的损失函数对初始特征提取模型进行训练，得到特征提取模型。

初始特征提取模型可以为三维卷积神经网络模型，上述预设的损失函数可以为交叉熵损失函数(cross-entropy loss)。

采用样本数据和预设的损失函数对初始特征提取模型进行训练，可得到训练后的特征提取模型，特征提取模型可以对样本数据中包含的类别对应的视频片段进行识别，并映射为一维的向量特征，一维的向量特征可以用于相似度距离的计算。

例如，在教学视频的应用中，上述目标对象可以为A学生的特定行为，为了获取学生课堂表现的统计数据，可以从教学录播系统中提取出保存的历史教学视频片段，并通过人工剪辑的方式包含A学生各类动作的样本视频片段和对应的分类信息，具体的，样本数据可以包括A学生举手动作的视频片段以及对举手进行类别1的标注，A学生站立动作的视频片段以及对站立进行类别2的标注等，基于交叉熵损失函数和样本数据对初始特征提取模型进行训练后，得到的特征提取模型可以较准确的对A学生举手动作的视频片段和站立动作的视频片段进行识别并提取出对应的一维向量特征，可用于后续的相似度距离的计算。

作为一种可选的实施例，根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，包括：获取样本数据的特征索引，特征索引包括多个样本视频片段的第二向量特征和每个样本视频片段对应的分类信息；基于预设的相似度函数，获取第一向量特征和每个第二向量特征的相似度距离；对多个相似度距离排序，确定相似度距离最大值对应的分类信息所指示的类别为待处理的视频片段所属的类别。

上述预设的相似度函数可以为余弦相似度函数，基于余弦相似度函数可以计算出两个一维向量特征之间的相似度距离。

在一种可选的实施中，待处理的视频片段为截取后的K段具有M帧的视频片段，待处理的视频片段的大小为K×M×C×W×H，样本视频片段包括N段具有M帧的视频片段，样本视频片段的大小为N×M×C×W×H，其中N段样本视频片段包含了对应的多个类别(比如，上述已经标记号的类别0-类别3)。首先，将样本视频片段输入特征提取模型，提取获得上述样本视频片段的第二向量特征N*V,基于N*V构建出样本特征数据库，并构造N*V的特征索引，其中，V表示样本视频片段的向量特征。

在将K段待处理的视频片段输入特征提取模型，得到待处理的视频片段的第一向量特征K*X，其中，X表示待处理的视频片段的向量特征，通过余弦相似度函数，分别计算K个待处理的视频片段的第一向量特征X和N个样本视频片段的第二向量特征V的相似度距离，得到N个相似度距离，对N个相似度距离按照数值的大小进行排序，将相似度距离最大值对应的类别作为待处理视频片段所属的类别。依次类推，可以得到K段待处理的视频片段的K个所属类别，根据K个类别可以进一步得到统计数据。

例如，在教学视频的应用中，上述目标对象可以为A学生的特定行为，可以根据课程表从教学录播软件中提取出A学生上语文课的M份关联视频片段，将每个关联视频片段按照第一预设数量的视频帧进行截取得到K个视频片段，则得到M*K份待处理的视频片段，基于特征提取模型提取特征，得到M*K个第一向量特征，通过对样本特征数据库中的特征索引进行检索，逐一与特征索引中N个样本视频片段的第二向量特征进行相似度距离计算，得到待处理的视频片段的M*K个识别后的类别，即A学生在语文课的M*K个动作类别，进而可以确定出M*K个课堂状态，经过统计可以得到A学生在语文课上举手的次数、站立的次数等统计数据，得到A学生在语文课的课堂表现情况。

在一种可选的实施例中，上述目标对象的统计数据包括至少如下任意一种：属于同一类别的待处理的视频片段的数量以；及属于同一类别的待处理的视频片段在关联视频片段中的分布数据。

例如，上述类别为学生的举手行为，同一类别的待处理的视频片段的数量可以为在包含学生举手行为的视频片段的数量，可以统计得到学生一定时间内举手这个动作的次数，对不同时间段内学生举手行为的次数进行比较，可以得到学生在课堂上积极表现的趋势。

上述关联视频片段可以为基于课程表和学生信息表得到该学生所上的不同学科的课程对应的视频片段，则属于同一类别的待处理的视频片段在关联视频片段中的分布数据可以为该学生举手这个动作在不同学科的课堂中的分布情况，通过该分布情况可以得到该学生对不同学科的偏好和积极表现情况，比如，语文课举手10次，数学课举手2次，可以说明该学生对语文课的积极态度超过数学课。上述关联视频片段也可以为基于课程表和学生信息表得到该学生所上的不同老师的课程对应的视频片段，上述分布数据可以为该学生举手这个动作在不同老师的课堂中的分布情况，通过该分布情况可以得到该学生对不同老师的课堂的积极表现情况，比如，B老师的课举手10次，C老师的课举手2次，可以说明该学生对B老师的课的积极态度超过C老师的课。

实施例2

根据本发明实施例，提供了一种视频的处理装置的实施例，图3是根据本发明实施例的一种视频的处理装置的示意图，如图3所示，该装置包括：

获取模块31，用于获取待处理的视频片段；提取模块32，用于基于特征提取模型提取待处理的视频片段的第一向量特征；确定模块33，用于根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，其中，样本数据包括与目标对象关联的样本视频片段以及样本视频片段的分类信息；统计模块34，用于根据待处理的视频片段所属的类别，得到目标对象的统计数据。

作为一种可选的实施例，上述获取模块包括：初始视频获取子模块，用于获取录播软件保存的初始视频片段；关联视频确定子模块，用于基于关联信息从初始视频片段中确定与目标对象关联的多个关联视频片段,其中,关联信息用于表示目标对象与时间的关联关系；待处理视频获取子模块，用于根据关联视频片段得到待处理的视频片段。

作为一种可选的实施例，上述装置还包括：截取模块，用于在基于关联信息从初始视频片段中确定与目标对象关联的多个关联视频片段之后，对关联视频片段中的视频帧依次截取，得到多个具有第一预设数量视频帧的目标视频片段；目标视频确定模块，用于确定目标视频片段为待处理的视频片段。

作为一种可选的实施例，目标对象的统计数据包括至少如下任意一种：属于同一类别的待处理的视频片段的数量；以及属于同一类别的待处理的视频片段在关联视频片段中的分布数据。

作为一种可选的实施例，上述装置还包括：历史视频获取模块，用于在根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别之前，获取录播软件保存的历史视频片段；剪辑模块，用于从历史视频片段中剪辑出指定视频片段，并对指定视频片段进行标记得到分类信息，其中，指定视频片段至少包括与目标对象关联的视频片段；关键帧提取模块，用于根据平均帧间差分强度，从与指定视频片段中提取第二预设数量的关键帧；样本确定模块，用于确定第二预设数量的关键帧为样本视频片段。

作为一种可选的实施例，上述装置还包括：模型获取模块，用于获取初始特征提取模型，其中，初始特征提取模型为三维神经网络模型；训练模块，用于采用样本数据和预设的损失函数对初始特征提取模型进行训练，得到特征提取模型。

作为一种可选的实施例，上述确定模块包括：特征索引获取子模块，用于获取样本数据的特征索引，特征索引包括多个样本视频片段的第二向量特征和每个样本视频片段对应的分类信息；相似度距离确定子模块，用于基于预设的相似度函数，获取第一向量特征和每个第二向量特征的相似度距离；排序子模块，用于对多个相似度距离排序，确定相似度距离最大值对应的分类信息所指示的类别为待处理的视频片段所属的类别。

作为一种可选的实施例，待处理的视频片段为教学录播软件录制的教学视频，类别用于表征学生在课堂的不同行为。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本发明实施例，提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行实施例1中的方法步骤。本实施例中，通过获取待处理的视频片段，基于特征提取模型提取待处理的视频片段的第一向量特征，根据第一向量特征和样本数据的相似度，确定待处理的视频片段所属的类别，根据待处理的视频片段所属的类别，得到目标对象的统计数据，实现了基于对视频片段的图像识别和检索，自动识别出视频片段所属的类别，并得到统计数据，在教育领域实现了无需人工对教学视频中学生的各种行为动作进行记录统计，提高了统计数据的获取效率，解决了相关技术中通过老师的人工记录来统计学生的课堂表现，导致效率低的技术问题。

实施例4

根据本申请实施例，提供了一种智能交互平板，包括：处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行实施例1中任意一项的方法步骤。

图4是本申请实施例提供的一种智能交互平板的示意图，该智能交互平板包含上述的交互设备主体和触摸框，结合图4所示，智能交互平板1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个智能交互平板1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行智能交互平板1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital SignalProcessing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及智能交互平板的操作应用程序。

在图4所示的智能交互平板1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的智能交互平板的操作应用程序，并具体执行实施例1中的任意一项操作。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频的处理方法，其特征在于，包括：

获取待处理的视频片段；

基于特征提取模型提取所述待处理的视频片段的第一向量特征；

根据所述第一向量特征和样本数据的相似度，确定所述待处理的视频片段所属的类别，其中，所述样本数据包括与目标对象关联的样本视频片段以及所述样本视频片段的分类信息；

根据所述待处理的视频片段所属的类别，得到所述目标对象的统计数据。

2.根据权利要求1所述的方法，其特征在于，获取多个待处理的视频片段，包括：

获取录播软件保存的初始视频片段；

基于关联信息从所述初始视频片段中确定与所述目标对象关联的多个关联视频片段,其中,所述关联信息用于表示所述目标对象与时间的关联关系；

根据所述关联视频片段得到所述待处理的视频片段。

3.根据权利要求2所述的方法，其特征在于，在基于关联信息从所述初始视频片段中确定与所述目标对象关联的多个关联视频片段之后，所述方法还包括：

对所述关联视频片段中的视频帧依次截取，得到多个具有第一预设数量视频帧的目标视频片段；

确定所述目标视频片段为所述待处理的视频片段。

4.根据权利要求2所述的方法，其特征在于，所述目标对象的统计数据包括至少如下任意一种：

属于同一类别的所述待处理的视频片段的数量；

以及属于同一类别的所述待处理的视频片段在所述关联视频片段中的分布数据。

5.根据权利要求1所述的方法，其特征在于，在根据所述第一向量特征和样本数据的相似度，确定所述待处理的视频片段所属的类别之前，所述方法包括：

获取录播软件保存的历史视频片段；

从所述历史视频片段中剪辑出指定视频片段，并对所述指定视频片段进行标记得到所述分类信息，其中，所述指定视频片段至少包括与所述目标对象关联的视频片段；

根据平均帧间差分强度，从与所述指定视频片段中提取第二预设数量的关键帧；

确定所述第二预设数量的关键帧为所述样本视频片段。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括:

获取初始特征提取模型，其中，所述初始特征提取模型为三维神经网络模型；

采用所述样本数据和预设的损失函数对所述初始特征提取模型进行训练，得到所述特征提取模型。

7.根据权利要求1所述的方法，其特征在于，根据所述第一向量特征和样本数据的相似度，确定所述待处理的视频片段所属的类别，包括：

获取所述样本数据的特征索引，所述特征索引包括多个所述样本视频片段的第二向量特征和每个所述样本视频片段对应的分类信息；

基于预设的相似度函数，获取所述第一向量特征和每个所述第二向量特征的相似度距离；

对多个所述相似度距离排序，确定所述相似度距离最大值对应的所述分类信息所指示的类别为所述待处理的视频片段所属的类别。

8.根据权利要求1所述的方法，其特征在于，所述待处理的视频片段为教学录播软件录制的教学视频，所述类别用于表征学生在课堂的不同行为。

9.一种视频的处理装置，其特征在于，包括：

获取模块，用于获取待处理的视频片段；

提取模块，用于基于特征提取模型提取所述待处理的视频片段的第一向量特征；

确定模块，用于根据所述第一向量特征和样本数据的相似度，确定所述待处理的视频片段所属的类别，其中，所述样本数据包括与目标对象关联的样本视频片段以及所述样本视频片段的分类信息；

统计模块，用于根据所述待处理的视频片段所属的类别，得到所述目标对象的统计数据。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至8中任意一项的方法步骤。

11.一种智能交互平板，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项的方法步骤。