CN112989117B

CN112989117B - 视频分类的方法、装置、电子设备和计算机存储介质

Info

Publication number: CN112989117B
Application number: CN202110397994.5A
Authority: CN
Inventors: 向宇; 丁文彪; 刘子韬; 陈佳豪
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-13
Anticipated expiration: 2041-04-14
Also published as: CN112989117A

Abstract

本公开提供一种视频分类的方法、装置、电子设备和计算机存储介质，通过根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧；待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息，确定目标图像帧为下一个基准图像帧，确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧，将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。

Description

视频分类的方法、装置、电子设备和计算机存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频分类的方法、装置、电子设备和计算机存储介质。

背景技术

对于一个视频，常常需要对视频中的内容进行分类，例如，对于老师上课的教学视频，既有老师讲知识的片段，还有老师讲题的片段，因此，需要对教学视频进行分类，区分出教学视频中讲题的片段和讲知识的片段，以供学生学习使用。

可以使用人工查看的方式，进行上述的视频分类，然而，这种视频分类的方式效率不高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种视频分类的方法、装置、电子设备和计算机存储介质。

第一方面，本公开提供了一种视频分类的方法，包括：

根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧；其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息；

确定目标图像帧为下一个基准图像帧；

确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧；

将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。

可选的，在基准图像帧为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下：

依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，包括：

获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的第一信息之间的第一相似度值；并获取基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值；

根据第一相似度值和第二相似度值，获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的相似度值。

可选的，获取基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值之前，还包括：

获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征，确定第一图像特征和第一文本特征的第一融合特征为基准图像帧的第二信息；

获取基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征，确定第二图像特征和第二文本特征的第二融合特征为基准图像帧之后的第一图像帧的第二信息。

可选的，获取基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值，包括：

获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征；

获取基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征；

确定第一图像特征和第二图像特征之间的第一子相似度值；

确定第一文本特征和第二文本特征之间的第二子相似度值；

根据第一子相似度值和第二子相似度值，确定基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值。

可选的，在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下；或者，在基准图像帧为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下；或者，在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下：

获取基准图像帧的第一信息；

获取基准图像帧之后的图像帧的第一信息；

确定基准图像帧的第一信息和基准图像帧之后的图像帧的第一信息之间的相似度值为基准图像和基准图像帧之后的图像帧之间的相似度值。

可选的，将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型之后，还包括：

获取目标类型的同组图像帧对应的目标视频片段，目标视频片段中包含目标类型的同组图像帧。

第二方面，本公开提供一种视频分类的装置，包括：

获取模块，用于根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧；其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息；

处理模块，用于确定目标图像帧为下一个基准图像帧；确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧；将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。

可选的，获取模块具体用于：在基准图像帧为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下：获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的第一信息之间的第一相似度值；并获取基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值；根据第一相似度值和第二相似度值，获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的相似度值。

可选的，获取模块具体用于：获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征，确定第一图像特征和第一文本特征的第一融合特征为基准图像帧的第二信息；获取基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征，确定第二图像特征和第二文本特征的第二融合特征为基准图像帧之后的第一图像帧的第二信息。

可选的，获取模块还用于：获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征；获取基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征；确定第一图像特征和第二图像特征之间的第一子相似度值；确定第一文本特征和第二文本特征之间的第二子相似度值；根据第一子相似度值和第二子相似度值，确定基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值。

可选的，获取模块具体用于：在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下；或者，在基准图像帧为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下；或者，在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下：获取基准图像帧的第一信息；获取基准图像帧之后的图像帧的第一信息；确定基准图像帧的第一信息和基准图像帧之后的图像帧的第一信息之间的相似度值为基准图像和基准图像帧之后的图像帧之间的相似度值。

可选的，获取模块还用于：获取目标类型的同组图像帧对应的目标视频片段，目标视频片段中包含目标类型的同组图像帧。

第三方面，本公开提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序；其中一个或多个计算机程序被存储在存储器中；一个或多个处理器在执行一个或多个计算机程序时，使得电子设备实现如上述第一方面的视频分类的方法。

第四方面，本公开提供一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述第一方面的视频分类的方法。

第五方面，本公开提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如上述第一方面的视频分类的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

通过根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧，其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息，确定目标图像帧为下一个基准图像帧，确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧，将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。根据待分类视频中包含符号的图像帧获取的文本对应的第一信息、符号图片数据和符号图片数据的文本信息综合进行比对相似度值，使得包含符号的图像帧之间获取的相似度值，综合考虑了图像帧中包含的信息，更能体现图像帧之间的相似程度。从而根据该分组得到的图像帧类型更加准确，使得视频分类的准确度更高。

附图说明

图1A为本公开提供的一种讲题画面的示意图；

图1B为本公开提供的另一种讲题画面的示意图；

图2为本公开提供的一种视频分类的方法的流程示意图；

图3为本公开提供的另一种视频分类的方法的流程示意图；

图4为本公开提供的另一种视频分类的方法的流程示意图；

图5为本公开提供的另一种视频分类的方法的流程示意图；

图6为本公开提供的另一种视频分类的方法的流程示意图；

图7为本公开提供的一种视频分类的装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

在许多场景中，常常需要对视频中的内容进行分类，例如，对于老师上课的教学视频，既有老师讲知识的片段，还有老师讲题的片段，因此，需要对教学视频进行分类，区分出教学视频中讲题类别的片段和讲知识类别的片段，以供学生学习使用。例如，学生在后续需要复习例题的场景中，可以直接查看对应的讲题类别的片段。

现有的视频分类方法，使用人工查看的方式，进行视频分类，然而，人工查看的方法浪费人力成本，且视频分类效率不高。

在一些场景中，可以比对待分类视频中的整体画面和/或音频之间的相似度，进行视频分类，然而这样效率不高，且准确率不高。

在另一些场景中，待分类视频的画面中包含了文字信息，例如，老师上课时，通常会播放与老师讲课内容相匹配的幻灯片（PPT）、文档或者手写与讲课内容相匹配的板书。在对老师讲课的过程进行录制得到的教学视频，该教学视频的画面中即包含了与老师讲课内容相匹配的文字信息。请参见图1A，图1A为本公开提供的一种讲题画面的示意图，教学视频中，老师在讲题时，题目101相应的会显示在视频画面中。

本公开提供了一种视频分类方法，通过识别视频画面中包含的文字信息，根据文字信息获取的第一信息之间的相似度值，确定视频中的图像帧的类型，从而对视频进行分类。

在另外一些场景中，视频画面中包含符号，其中，符号为非数字、非字母、非汉字的符号，例如，化学式、物理公式、数学公式或者曲线图等。请参见图1B，图1B为本公开提供的另一种讲题画面的示意图，对视频画面中的符号102进行文字识别时，会出现部分识别出乱码、全部识别出乱码或无法识别等识别失败的情况。因此，对于包含符号的图像帧，仅比对从图像帧中获取的整体的文字信息之间的相似度值，其准确度不高。

本公开提供的视频分类方法，从画面中包含的符号部分获取符号图片数据，根据符号图片数据和符号图片数据中获取的文字二者的信息，确定图像帧之间的相似度值，基于相似度值对图像帧进行分组，从而基于分组对视频进行分类，从而使得视频分类的准确度更高。

下面以具体的实施例来说明本公开的方法。

图2为本公开提供的一种视频分类的方法的流程示意图，如图2所示，本实施例的方法由电子设备执行，电子设备可以是计算机、服务器、手机等，本公开对此不做限制，本实施例的方法如下：

S201、根据待分类视频中图像帧产生的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧。

其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值为根据第一信息和第二信息得到的，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对该符号图片数据进行文本识别得到的文本信息。

待分类视频为需要对其内容进行分类的视频，例如，待分类视频可以为老师一次上课的2小时的视频，老师在课堂上可以讲知识，也可以讲题，则需要将该2小时的视频进行分类，确定讲知识部分和讲题部分。

待分类视频的画面可以理解为多个按照顺序排列的图像帧序列。可以获取待分类视频中包含的所有图像帧，将所有图像帧按照产生的时间顺序组成图像帧序列，也可以每隔预设时间间隔获取待分类视频中的一帧图像，得到按照时间顺序排列的图像帧序列。其中，预设时间间隔为预先设置的，可以根据待分类视频的总长度等信息进行设置，例如，预设时间间隔可以为5秒钟或者10秒钟等设定的时间长度，也可以为视频中相邻图像帧之间的时间间隔，本公开对此不作限定。

示例性的，老师可能在几十秒或几分钟里讲同一个知识点或同一个题目，图像帧序列中存在连续相似的文本信息。例如，图像帧序列获取的文本信息分别如下：

图像帧1获取的文本信息为：“二氧化碳的性质……”，

图像帧2获取的文本信息为：“二氧化碳性质……”，

图像帧3获取的文本信息为：“二氧化碳性质……”，

图像帧4获取的文本信息为：“例题1，几个碳原子和几个氢原子能组成一氧化碳，……”，

图像帧5获取的文本信息为：“例题2，几个碳原子和几个氢原子组成一氧化碳，……”，

图像帧6获取的文本信息为：“例题3，几个碳原子和几个氢原子能组成一氧化碳，……”，

图像帧7获取的文本信息为：“氧气的性质……”，

可知，图像帧1至图像帧3中分别获取的文本信息是相似文本，都属于讲知识，图像帧4至图像帧6中分别获取的文本信息是相似文本，都属于讲题，因此，可以根据从图像帧中获取的文本信息是不是相似文本确定图像帧之间的相似度值，同一个相似文本对应的图像帧即为同一个类型的图像帧。

在获取到的图像帧序列中，确定第一个图像帧为基准图像帧，按照图像帧在图像帧序列中的位置顺序，从第二个图像帧开始，获取图像帧与基准图像帧的相似度值，图像帧与基准图像帧的相似度值用于指示图像帧与基准图像帧为相同类型的图像帧的概率。

待分类视频的图像帧中包含了文本信息，且全部或者部分图像帧中包含符号。

若图像帧与基准图像帧均包含符号，分别对图像帧和基准图像帧进行文本识别，得到相应的文本信息，本公开中称为第一信息。其中，文本识别可以为光学字符识别（Optical Character Recognition，简称OCR），OCR是指电子设备，例如，扫描仪或数码相机，检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。

对于包含了符号的图像帧，获取图像帧中的符号图片数据，符号图片数据中包含相应的文本信息和图形信息，分别获取图像帧和基准图像帧的符号图片数据，其中，符号图片数据为从图像帧中获取的符号的部分，若图像帧中包含多个符号，则符号图片数据可以为包含该多个符号的最小矩形的图片。

获取的图像帧与基准图像帧的相似度值为根据第一信息和第二信息得到的，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和符号图片数据中获取的文本信息。

将图像帧与基准图像帧的相似度值与预设阈值比较，可以确定图像帧与基准图像帧是否为相同类型的图像帧，其中，预设阈值为预先设置的，可以为设定的任一大于0且小于1的数值，例如，预设阈值可以为0.8。

若图像帧与基准图像帧的相似度值大于或者等于预设阈值，则可以认为图像帧与基准图像帧比较相似，即可以确定图像帧与基准图像帧为相同类型的图像帧。可以继续获取下一个图像帧与基准图像帧的相似度值。

若图像帧与基准图像帧的相似度值小于预设阈值，则可以认为图像帧与基准图像帧为不同类型的图像帧。

可选的，待分类视频中的每个图像帧中包含该图像帧的时间。图像帧的时间为图像帧在待分类视频中的时间，从而便于确定图像帧对应的时间。

S202、确定目标图像帧为下一个基准图像帧。

若图像帧与基准图像帧的相似度值小于预设阈值，该图像帧即为目标图像帧，目标图像帧为与基准图像帧不同类型的图像帧，即目标图像帧为基准图像帧之后的图像帧中第一个与基准图像帧不同类型的图像帧。

确定目标图像帧为下一个基准图像帧，也就是基准图像帧更新为目标图像帧，则从目标图像帧之后的图像帧开始，根据图像帧在图像帧序列中的顺序，从目标图像帧之后的第一个图像帧开始，获取图像帧与基准图像帧的相似度值，将该相似度值与预设阈值进行比较。

示例性的，假设预设阈值为0.8，待分类视频的图像帧序列中，假设获取第二个图像帧与基准图像帧的相似度值为0.9，该相似度值大于预设阈值，继续获取第三个图像帧与基准图像帧的相似度值，假设其为0.95，该相似度值大于预设阈值，继续获取第四个图像帧与基准图像帧的相似度值，假设其为0.5，该相似度值小于预设阈值，确定第四个图像帧为下一个基准图像帧，则继续获取第五个图像帧与基准图像帧（第四个图像帧）的相似度值，依次类推，直到获取最后一个图像与基准图像帧的相似度值。

S203、确定基准图像帧与下一基准图像帧之间图像帧为同一组图像帧，且包含基准图像帧。

如上步骤可以获得一个或多个基准图像帧，按照图像帧获得的时间顺序，每两个相邻的基准图像帧之间的图像帧与其基准图像帧为同一组图像帧，则根据基准图像帧可以将待分类视频中的图像帧进行分组，每组中的图像帧为相同类别。

示例性的，假设预设阈值为0.8，待分类视频的图像帧序列中，从第二个图像帧开始，假设获取到第四个图像帧与基准图像帧的相似度值为0.5，为首次获取到相似度值小于预设阈值，则第一个图像帧至第三个图像帧为同一组图像帧。

S204、将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。

其中，图像帧分类模型用于对输入图像进行分类，图像帧分类模型可以为训练好的深度学习模型，例如，图像帧分类模型可以为来自变换器的双向编码器表示预训练模型（Bidirectional Encoder Representations from Transformers，简称Bert），图像帧分类模型可以为使用图像帧样本和图像帧样本对应的类别标签进行训练得到的。

由于上述对图像帧进行分类的过程，使得同一组图像帧中的图像帧之间为相似的图像帧，即为相同类型的图像帧，因此可以将同一组图像帧中的基准图像帧输入到图像帧分类模型，得到的该基准图像帧的类型，即为该组图像帧的类型。

在图像帧分组过程中各个图像帧均与基准图像帧进行比对，则通过基准图像帧的类型确定的该组图像帧的类型更为准确。

示例性的，第一个图像帧至第三个图像帧为同一组图像帧，可以将第一个图像帧输入图像帧分类模型，得到第一个图像帧的类型，该分组中的第一个图像帧至第三个图像帧的类型均为第一个图像帧的类型。

本实施例，通过根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧，其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息，确定目标图像帧为下一个基准图像帧，确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧，将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。根据待分类视频中包含符号的图像帧获取的文本对应的第一信息、符号图片数据和符号图片数据的文本信息综合进行比对相似度值，使得包含符号的图像帧之间获取的相似度值，综合考虑了图像帧中包含的信息，更能体现图像帧之间的相似程度。从而根据该分组得到的图像帧类型更加准确，使得视频分类的准确度更高。

图3为本公开提供的另一种视频分类的方法的流程示意图，图3是在图2所示实施例的基础上，进一步地，如图3所示，S2011、S2012、S2013和为S201的一种具体的实现方式：

S2011、根据待分类视频中图像帧产生的时间顺序，从基准图像帧之后的图像帧开始，针对每个图像帧，判断基准图像帧和图像帧是否均属于第一图像帧。

每次获取图像帧和基准图像帧的相似度值之前，确定基准图像帧和图像帧是否均属于第一图像帧，即二者是否均包含符号，若二者均包含符号，获取二者的相似度值时，需要根据第一信息和第二信息，确定二者的相似度值。若基准图像帧和图像帧均属于第一图像帧，继续执行S2012和S2013。

一种可能的实现方式中，每次获取基准图像帧和图像帧是否均属于第一图像帧之前，分别确定基准图像帧和图像帧是否属于第一图像帧，从而确定基准图像帧和图像帧是否均属于第一图像帧。

另一种可能的实现方式中，确定基准图像帧是否属于第一图像帧，也就是基准图像帧是否包含符号，若基准图像帧包含符号，每次获取图像帧和基准图像帧的相似度值之前，确定图像帧是否属于第一图像帧，若基准图像帧不属于第一图像帧，则每次获取图像帧和基准图像帧的相似度值之前，无需判断图像帧是否属于第一图像帧。

可选的，若基准图像帧和基准图像帧之后的图像帧中至少有一个不为第一图像帧，即在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下；或者，在基准图像帧为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下；或者，在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下，继续执行S2014和S2015。

S2012、获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的第一信息之间的第一相似度值；并获取基准图像帧的第二信息和基准图像帧之后的第一图像帧的第二信息之间的第二相似度值。

S2013、根据第一相似度值和第二相似度值，获取基准图像帧的第一信息和基准图像帧之后的第一图像帧的相似度值。

针对基准图像帧和基准图像帧之后的第一图像帧，分别获取其第一信息之间的第一相似度值，和第二信息之间的第二相似度值。从而根据第一相似度值和第二相似度值，得到基准图像帧的第一信息和基准图像帧之后的第一图像帧的相似度值。然后继续执行S2015。

在获取第二相似度时，一种可能的实现方式中，基准图像帧和基准图像帧之后的第一图像帧之间的第二相似度值为根据符号图片数据之间的相似度值和符号图片数据的文本信息的相似度值得到的。下面以具体的实施例进行说明。

根据图像帧的第一信息和基准图像帧的第一信息，得到图像帧和基准图像帧分别对应的第一信息之间的相似度值。

根据图像帧对应的符号图片数据和基准图像帧对应的符号图片数据，得到图像帧和基准图像帧分别对应的符号图片数据之间的相似度值。

根据图像帧对应的符号图片数据的文本信息和基准图像帧对应的符号图片数据的文本信息，得到图像帧和基准图像帧分别对应的符号图片数据的文本信息之间的相似度值。

图像帧和基准图像帧的相似度值可以根据上述三个相似度值加权求和得到。

例如，图像帧和基准图像帧分别对应的第一信息之间的相似度值的权值可以为0.6，图像帧和基准图像帧分别对应的符号图片数据之间的相似度值的权值为0.2，图像帧和基准图像帧分别对应的符号图片数据的文本信息之间的相似度值的权值为0.2，图像帧和基准图像帧的相似度值Sim可以通过如下公式（1）得到：

Sim=0.6*A+0.2*B +0.2*C 公式（1）；

其中，A为图像帧和基准图像帧分别对应的第一信息之间的相似度值，B为图像帧和基准图像帧分别对应的符号图片数据相似度值，C为图像帧和基准图像帧分别对应的符号图片数据的文本信息的相似度值。

待分类视频中包含符号的图像帧之间的相似度值为根据第一信息之间的相似度值、符号图片数据之间的相似度值和符号图片数据的文本信息的相似度值得到的，使得包含符号的图像帧之间获取的相似度值，综合考虑了图像帧中包含的信息，更能体现图像帧之间的相似程度。从而根据该分组得到的图像帧类型更加准确，使得视频分类的准确度更高。

在获取第二相似度时，另一种可能的实现方式中，第二信息为第一图像帧中获取的符号图片数据的图片特征和符号图片数据的文本信息的文本特征之间的融合特征，从而基准图像帧和基准图像帧之后的第一图像帧之间的第二相似度值为二者的融合特征之间的相似度值。下面以具体的实施例进行说明。

在获取第二相似度之前，还可以包括：

获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征，确定第一图像特征和第一文本特征的第一融合特征为基准图像帧的第二信息。

符号图片数据既包含图形含义又包含文字含义，因此，对于符号图片数据，可以获取其图形含义和文字含义的融合信息，即对符号图片数据获取图片特征，对符号图片数据进行文本识别得到的文字信息获取文字特征，将图片特征和文字特征进行融合操作，得到融合特征。

进一步的，下面介绍一种获得符号图片数据的融合特征的方法。

对于一个符号图片数据（下面用Img表示），对Img进行文本识别，得到文本信息（下面用t1表示），t1经过文本特征提取器，其中，文字特征提取器可以为任一能获取文字的多维特征的提取器，可以为神经网络模型，例如，文本特征提取器可以为bert模型，得到文本特征（下面用v1表示），该文本特征为m维向量，m为大于等于1的整数。可以理解，使用不同的文字特征提取器，其获取的文本特征的维度

Img输入到图像特征提取器，其中，图像特征提取器可以为任一能获取图像的多维特征的提取器，可以为神经网络模型，例如，图像特征提取器可以为残差网络（restnet）模型，得到图片特征（下面用v2表示），该图片特征为n维向量，n为大于等于1的整数。

可以理解，n和m可以相等也可以不等。

如果n和m相等，则进行融合时可以直接进行特征融合。

如果n和m不等，则上述得到的v1和v2在进行融合时，无法直接进行特征拼接操作，本实施例可以采用如下方式进行特征融合：

若m<n，将m维的特征向量v1通过元素复制扩展成m*n特征矩阵p1。将n维的特征向量v2通过元素复制扩展成n*m的特征矩阵p2。

若m>n，将m维的特征向量v1通过元素复制扩展成n*m特征矩阵p1，将n维的特征向量v2通过元素复制扩展成m*n的特征矩阵p2。

可以得到特征矩阵P=p1*p2，其中，“*”是矩阵乘法运算，P为m*m的矩阵。

分别获取特征矩阵P每一行的元素中最大的元素，可得到一个m维度特征q1。

分别获取特征矩阵P每一行的元素中数值在正中间的元素，可得到一个m维度特征q2。

符号图片数据的融合特征V可以通过如下公式（2）得到：

V=（q1，q2，q1+q2，q1*q2）公式（2）

可以理解，V是个4*m维度的特征。

相应的，第一图像帧之间的相似度值为根据第一信息之间的相似度值和第二信息之间的相似度值得到的，也就是基准图像帧和图像帧之间的相似度值，也可以叫做情景相似度值，下面用Sim表示，Sim为根据基准图像帧和图像帧分别对应的第一信息和第二信息得到的。

根据图像帧对应的符号图片数据的融合特征和基准图像帧对应的符号图片数据的融合特征，得到图像帧和基准图像帧分别对应的符号图片数据之间的相似度值。

图像帧和基准图像帧的相似度值可以根据上述第一信息之间的相似度值和符号图片数据之间的相似度值加权求和得到。

例如，图像帧和基准图像帧分别对应的第一信息之间的相似度值的权值可以为0.6，图像帧和基准图像帧分别对应的符号图片数据之间的相似度值的权值为0.4，对应的情景相似度值Sim可以通过如下公式（3）得到：

Sim=0.6*A+0.4*V 公式（3）

其中，A为图像帧和基准图像帧分别对应的第一信息之间的相似度值，V为图像帧和基准图像帧分别对应的符号图片数据的融合特征的相似度值。

待分类视频中包含符号的图像帧之间的相似度值为根据第一信息之间的相似度值、符号图片数据的融合特征之间的相似度值得到的，使得包含符号的图像帧之间获取的相似度值，综合考虑了图像帧中包含的文字信息和符号图片数据的融合信息，更能体现图像帧之间的相似程度。从而根据该分组得到的图像帧类型更加准确，使得视频分类的准确度更高。

确定基准图像帧和图像帧均属于包含符号的第一图像帧，第一图像帧之间的相似度值综合考虑了图像帧中包含的信息，更能体现图像帧之间的相似程度。从而根据该分组得到的图像帧类型更加准确，使得视频分类的准确度更高。

S2014、获取基准图像帧的第一信息，获取基准图像帧之后的图像帧的第一信息。

S2015、确定基准图像帧的第一信息和基准图像帧之后的图像帧的第一信息之间的相似度值为基准图像和基准图像帧之后的图像帧之间的相似度值。

其中，基准图像帧和基准图像帧之后的图像帧的相似度值为基准图像帧和基准图像帧之后的图像帧分别对应的第一信息的相似度值，其中，第一信息为进行文本识别得到的文本的特征。

基准图像帧和基准图像帧之后的图像帧中至少有一个为第二图像帧，获取基准图像帧和图像帧分别对应的第一信息的相似度值，即为基准图像帧和图像帧的相似度值。

本实施例，确定基准图像帧和基准图像帧之后的图像帧中至少有一个不包含符号，则通过比较图像帧中的文字含义的第一信息的相似度值，进行分组，使得视频分类的准确度更高。

在上述实施例的基础上，得到视频分类之后，可以根据类别对待分类视频进行切分，从而得到感兴趣的目标类型的视频片段。下面以具体的实施例进行详细说明。

请参见图4，图4为本公开提供的另一种视频分类的方法的流程示意图，图4是在图2或图3所示实施例的基础上，进一步地，S204之后还可以执行S205。

S205、获取目标类型的同组图像帧对应的目标视频片段。

其中，目标视频片段中包含目标类型的同组图像帧。

根据图像帧所在待分类视频中的位置，可以将待分类视频按照图像帧的类型进行切分，同一类型的连续图像帧对应的视频位置被切分为一个视频片段，也可以将感兴趣的目标类型的视频从待分类视频中切分出来，得到对应的目标视频片段。

例如，对于教学视频，需要获取讲题部分的视频，因此在确定了待分类视频中的各部分的类型以后，获取讲题部分的视频，以供后续直接使用。

本实施例，通过获取待分类视频中的目标类型的图像帧对应的视频，从而实现对待分类视频的切分，且上述对待分类视频进行分类的准确度更高，从而使得视频切分的准确度更高。

在上述实施例的基础上，待分类视频的时长可能为长时间段的，且对待分类视频进行分类以获取到目标类别时，目标类别的时长一般会在一定时长范围内，例如，需要对老师上课的视频进行分类时，老师上课的视频可以为150分钟，其中，一般讲解一道题的时间小于25分钟。因此，可以在对待分类视频进行上述处理之前，先将待分类视频切分成多个视频片段，再单独对每个视频片段进行如上的分类方法。例如，可以将老师上课的视频按照每半小时切分成一个视频片段的方式，得到多个视频片段，再单独对每个视频片段进行如上的分类方法。下面以具体的实施例进行详细说明。

请参见图5，图5为本公开提供的另一种视频分类的方法的流程示意图，图5是在图2-图4任一所示实施例的基础上，进一步地，在步骤S201之前还可以包括S200，相应的，S201为S201A：

S200、对待分类视频进行切分，得到多个视频片段。

可以根据预设时长对待分类视频进行切分，预设时长为预先根据待分类视频中的一个类型的时长设置的，例如，老师讲解一道题的时长一般不超过25分钟，可以将时长阈值设置为25分钟或者30分钟等，本公开对此不做限定。

示例性的，在切分时，可以将待分类视频按照时间顺序从前往后，每个预设时长的视频，切分为一个视频片段，直到未切分的待分类视频的时长小于预设时长时，将未切分的待分类视频切分为一个视频片段。

示例性的，对于老师讲课视频，对老师讲课视频（也可以叫做输入视频InputVideo）按照预设时长（也可以叫做等长度取值）进行切分，切分成n个视频片段可以分别表示为V1，V2，…，Vn，其中，n为大于等于1的整数。

例如，输入视频的视频长度为150分钟，预设时长为25分钟，则对输入视频进行切分，得到6个片段分别为：V1为输入视频的0min-25min部分；V2为输入视频的25min-50min部分；V3为输入视频的50min-75min部分；V4为输入视频的75min-100min部分；V5为输入视频的100min-125min部分；V6为输入视频的125min-150min部分。

S201A、针对每个视频片段，根据视频片段中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值。

对于切分成每个视频片段进行单独处理，从而得到每个视频片段的分类结果。

本实施例，通过对待分类视频进行切分，得到多个视频片段，再针对每个视频片段进行单独分类处理，这样，多个视频片段的分类处理过程可以并行执行，减少了待分类视频的分类处理时间。

在图5所示实施例的基础上，进一步地，对每个视频片段进行了分类处理以后，有可能同一类别的视频在S200步骤中被切分至两个相邻的视频片段中，例如，老师讲课视频中，预设时长为25分钟，老师在第20-40分钟时间内讲解了同一道题，则该讲题的视频在视频切分过程中，被分别切分到了第一个视频片段和第二个视频片段。因此，需要在对每个视频片段进行分类处理完成以后，确定相邻两个视频片段之间是否有需要合并的视频。下面以具体的实施例来详细说明如何进行合并操作。

请参见图6，图6为本公开提供的另一种视频分类的方法的流程示意图，图6是在图5所示实施例的基础上，进一步地，在S204之后还可以继续执行S206。

S206、针对多个视频片段中每相邻的两个视频片段，根据前一个视频片段中的最后一个类别片段与后一个视频片段中的第一个类别片段，确定前一个视频片段的最后一个类别片段和后一个视频片段的第一个目标类别片段合并。

对每相邻的两个视频片段进行判断其是否将同一个类型的视频切分成两部分，可以按照视频片段的顺序依次进行判断。

可选的，首先确定相邻两个视频片段中后一个视频片段是否包含目标类别的片段。

若相邻两个视频片段中至少有一个视频片段中不包含目标类别的片段，则可以不进行处理，继续比较下一组相邻的两个视频片段。

若相邻两个视频片段中包含目标类别的片段，可以分别获取前一个视频片段中的最后一个目标类别片段的最后一个图像帧，和后一个视频片段中的第一个目标类别片段的第一个图像帧。根据前一个视频片段中的最后一个目标类别片段的最后一个图像帧，和后一个视频片段中第一个目标类别片段中的第一个图像帧确定前一个视频片段中的最后一个目标类型片段和后一个视频片段中的第一个目标类别片段合并。

示例性的，下面示例中，前一个视频片段中的最后一个目标类别片段用K_i-1,last表示，后一个视频片段中第一个目标类别片段用K_i,fist表示。

判断K_i-1,last中最后一个图像帧时间距离前一个视频片段的最后一帧时间是否大于时间阈值。其中，时间阈值为预先设置的，可以为1分钟或1.5分钟等，本公开对此不作限定。根据两个图像帧的时间距离可以初步确定两个分组是否为同一个片段。

若K_i-1,last中最后一个图像帧时间距离前一个视频片段的最后一帧时间大于时间阈值，则不进行处理，继续获取下一对相邻两个视频片段。

若K_i-1,last中最后一个图像帧时间距离前一个视频片段的最后一帧时间小于等于时间阈值，则判断K_i,fist中第一个图像帧的时间，距离后一个视频片段的第一个图像帧的时间是否大于时间阈值。

若K_i,fist中第一个图像帧的时间，距离后一个视频片段的第一个图像帧的时间大于时间阈值，则不进行处理，继续获取下一对相邻两个视频片段。

若K_i,fist中第一个图像帧的时间，距离后一个视频片段的第一个图像帧的时间小于等于时间阈值，则计算K_i-1,last中最后一个图像帧和K_i,fist中第一个图像帧的相似度值，若该相似度值大于等于预设阈值，则不合并。若该相似度值小于预设阈值，则将两个目标类别片段合并。

本实施例，通过对多个视频片段中每相邻的两个视频片段，根据前一个视频片段中的最后一个类别片段与后一个视频片段中的第一个类别片段，确定前一个视频片段的最后一个类别片段和后一个视频片段的第一个目标类别片段合并，从而使得目标类别片段的获取更加准确。

下面以对老师讲课视频获取讲题片段为例进行说明本公开的方法。可以理解，下面的例子只是为了更好的说明本公开的方法，并不构成对本公开的限制。对于老师讲课的视频可以通过如下步骤进行处理：

步骤1：对输入视频进行切分，假设得到6个视频片段分别为：V1、V2、V3、V4、V5和V6。

骤2：对每个视频片段（可以用Vi表示第i个视频片段）分别进行处理。

以10秒的间隔时间获取图像帧，则片段Vi可得m个图像帧分别表示为Fi1，Fi2，…，Fim，其中，m为大于1的整数。

对每个图像帧进行OCR文本识别，得到m个OCR文本（也就是本公开中的第一信息），可以分别用OCR_i,1，OCR_i,2，…，OCR_i,m表示。

这里假设每个图像帧均包含符号，分别获取m个图像帧对应的符号图片数据，分别用Img_i,1，Img_i,2，…，Img_i,m表示。

可选的，还获取m个图像帧分别在输入视频中的时间，记为时间戳Ti1，Ti2，...，Tim。

步骤3：对每个视频片段Vi对应的OCR_i,1，OCR_i,2，…，OCR_i,m，和每个Vi对应间隔取帧符号图片数据Img_i,1，Img_i,2，…，Img_i,m进行处理，每个Vi对应讲题片段，用K_i,1，K_i,2，…，K_i,oi表示。

步骤3.1：根据每个视频片段Vi对应的OCR_i,1，OCR_i,2，…，OCR_i,m，和每个视频片段Vi对应的符号图片数据Img_i,1，Img_i,2，…，Img_i,m编组操作，得到每个OCR文本所属组别G_i,1，G_i,2，…，G_i,m

老师可能在几十秒或几分钟里讲同一个知识点或同一个题目，显然存在连续相似的文本，则连续相似的文本组编号为同一个数字。题目中也存在符号图片数据，所以判断两帧题目是否相似不仅要用到OCR文本信息还需要用到符号图片数据的信息。

其中，符号图片数据信息通常有符号中文本含义和图形含义，所以需要对符号图片数据的文本信息和图形信息进行特征融合获取，对于符号图片数据的信息通过下面方式获取融合特征向量来计算相似度值:

对于一张符号图片数据Img，Img经过OCR得到文字t1, 然后t1经过文本特征提取器，得到特征向量v1(假设为m维，不同提取器得到m是不同的)；Img输入图像特征处理器，得到特征向量v2(假设为n维,不同提取器得到n是不同的)。将v1和v2进行特征融合得到融合特征。但一般情况下m不等于n，直接特征拼接操作没有让特征进行融合，因此可以通过如下方式进行特征融合：

若m<n，将m维的特征向量v1通过元素复制扩展成 m*n特征矩阵p1。将n维的特征向量v2通过元素复制扩展成n*m特征矩阵p2。从而得到特征矩阵P=p1*p2，因此得到一个m*m的特征矩阵P。

对特征矩阵P每一行取最大元素，可得到一个m维度特征q1。对特征矩阵P每一行取最中位数，可得到一个m维度特征q2。

融合特征V=(q1，q2，q1+q2，q1*q2)是个4*m维度的特征

若m>n，则v1扩展成n*m特征矩阵p1，v2扩展成m*n的特征矩阵p2，其他步骤和上述m<n的步骤相同。

定义两个图像帧的情景的相似度值Sim，Sim可以通过如下方式得到：

Sim=0.6*OCR文本笛卡尔相似度值+0.4*符号图片数据融合特征余弦相似度值（有符号）

Sim=OCR文本的笛卡尔相似度值（无符号）

设置题目相似度值阈值LimitVal为0.8。

可以设置组别变量为group，赋初始值为1。设置待比较文本（CmpText），初始值为第一个图像帧Fi1的OCR文本，设置待比较符号图片数据（CmpImg），初始值为第一个图像帧Fi1的符号图片数据Img_i,1，第一个图像帧的组别Gij赋值为group，即为1。

从第二个图像帧开始，遍历每个图像帧，若当前图像帧和待比较OCR文本和符号图片数据的相似度值小于LimitVal，那么当前帧为一组新情景，group加上1，Gij赋值为group,将CmpText变更为当前帧OCR文本，CmpImg变为当前帧符号图片数据；若当前图像帧和待比较OCR文本和符号图片数据的相似度值大于或等于LimitVal，当前图像帧仍属于上一个情景，Gij赋值为-group。从而得到了分组。

步骤3.2：根据Vi中OCR_i,1，OCR_i,2，…，OCR_i,m和G_i,1，G_i,2，…，G_i,m，挑选每组的标志文本进入模型，得到每组的类别。

通过3.1步骤可知每组的标志文本的组别都大于0，因此只需要遍历G_i,1，G_i,2，…，G_i,m，确定大于0的元素对应的OCR文本即为标志文本，将标志文本计入L，其对应下标加入I中，得到(L₁，I₁)，(L₂，I₂)，…，(L_h，I_h)。

假设，G=[1,-1,2,-2,-2,-2,-2,-2,3,-3,-3,-3]，其中，第1、3和9个元素组号分别大于0，则(L,I)=[(OCR₁，1)，(OCR₃，3)，(OCR₉，9)]。

步骤3.3：通过深度学习模型对标志文本进行预测类别，得到Vi中所有讲题片段。每个Vi对应讲题片段K_i,1，K_i,2，…，K_i,oi。

将所有标志文本数据L合成一个批次整体代入深度学习模型中，从而得到每个标志文本是否为讲题。假设得到的输出为O1，O2，…，Oh。

因为可从输入变量I中知道每个标志文本对应的下标，因此可以得到标志文本是否为讲题的标签，进而得到每个文本是否讲题的标签。

从而，根据O1，O2，...，Oh可得Vi中每个图像帧对应的标签为Ji1，Ji2，…，Jim，其中，J_I1=O1，J_I2=O2，…，J_Ih=Oh。

假设，输出标签为O=(0，1，0)，再根据(L，I)=[(OCR₁，1)，(OCR₃，3)，(OCR₉，9)]，可知第1个图像帧OCR文本是非讲题，第3个图像帧OCR文本是非讲题，第9个视频帧OCR文本是非讲题。

从而可以得到每个文本的标签J=[0，-1，1，-1，-1，-1，-1，-1，0，-1，-1，-1]。其中，J数组中有一些标签是-1,那么可以通过G中的组号来更新是否为讲题的标签，可以通过以下步骤来更新J中的数值：对于G_ij，从j为1到m-1进行遍历（m为Vi中图像帧的数量），若G_ij的绝对值与G_i,j+1的绝对值相等，则有J_i,j+1=J_i,j。从而得到更新后的J为[0，0，1，1，1，1，1，1，0，0，0，0]。

根据得到的每个图像帧的预测标签，可以进行讲题片段切分，获取预测标签的值连续是1的标签对应的图像帧（或者图像帧对应的时间戳），即可以得到每个Vi对应的讲题片段K_i,1，K_i,2，…，K_i,oi，即上述得到的讲题片段K_i,1=(Ti3，Ti8)。

步骤4：根据每个视频片段对应的讲题片段和每个视频片段中的图像帧的第一信息，确定需要合并的讲题片段。

初始化存放需要合并片段的数组OneGroup为空数组，从2到n进行遍历（n是完整视频切分成视频片段的数量)。如果Vi中不存在讲题片段，则跳入下一个循环处理。如果Vi中存在讲题片段，进行下述的操作。取 Vi-1中最后一个讲题片段K_i-1,last，如果K_i-1,last中最后一帧时间距离Vi-1最后一帧时间大于1.5分钟，则跳入下一个循环处理，否则进行下面操作。取Vi中第一个讲题片段K_i,fist,如果K_i,fist中第一帧时间距离Vi第一帧时间大于1.5分钟，则跳入下一个循环处理。如果K_i-1,last中最后一帧时间对应OCR文本和K_i,fist中第一帧时间对应情景相似度值小于设定阈值LimitVal，则OneGroup数组可以加入(K_i-1,last，K_i,fist),即找出来需要合并的讲题片段。

步骤5：根据合并片段的数组OneGroup合并讲题片段，得到输入视频对应的讲题片段。

根据OneGroup先进行合并操作，并删除合并好的Ki,1，Ki,2，…，Ki,oi，通过合并和删除操作这样可得到整个视频对应讲题片段K_i,1，K_i,2，…，K_i,oi。

图7为本公开提供的一种视频分类的装置的结构示意图，如图7所示，本实施例的装置包括：

获取模块701，用于根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与基准图像帧的相似度值，直到相似度值小于预设阈值时对应的图像帧为目标图像帧；其中，待分类视频中包含至少两个第一图像帧，第一图像帧中包含符号，至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，第一信息为对第一图像帧进行文本识别得到的，第二信息包括从第一图像帧中获取的符号图片数据和对符号图片数据进行文本识别得到的文本信息；

处理模块702，用于确定目标图像帧为下一个基准图像帧；确定基准图像帧与下一个基准图像帧之间图像帧为同组图像帧，且包含基准图像帧；将基准图像帧输入图像帧分类模型，得到对应同组图像帧的类型。

可选的，获取模块具体用于：获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征，确定第一图像特征和第一文本特征的第一融合特征为基准图像帧的第二信息；

可选的，获取模块还用于：获取基准图像帧的符号图像数据的第一图像特征，以及获取基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征；

确定第一图像特征和第二图像特征之间的第一子相似度值；

确定第一文本特征和第二文本特征之间的第二子相似度值；

可选的，获取模块具体用于：

在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧为第一图像帧的情况下；或者，在基准图像帧为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下；或者，在基准图像帧不为第一图像帧，且基准图像帧之后的图像帧不为第一图像帧的情况下：获取基准图像帧的第一信息；获取基准图像帧之后的图像帧的第一信息；确定基准图像帧的第一信息和基准图像帧之后的图像帧的第一信息之间的相似度值为基准图像和基准图像帧之后的图像帧之间的相似度值。

上述实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本公开提供一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序；其中一个或多个计算机程序被存储在存储器中；一个或多个处理器在执行一个或多个计算机程序时，使得电子设备实现如图2-图6任一所示的视频分类的方法。

本公开提供一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如图2-图6任一所示的视频分类的方法。

本公开提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如图2-图6任一所示的视频分类的方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频分类的方法，其特征在于，包括：

根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与所述基准图像帧的相似度值，直到所述相似度值小于预设阈值时对应的图像帧为目标图像帧；其中，所述待分类视频中包含至少两个第一图像帧，所述第一图像帧中包含符号，其中，所述符号为非数字、非字母、非汉字的符号，所述至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，所述第一信息为对所述第一图像帧进行文本识别得到的，所述第二信息包括从所述第一图像帧中获取的符号图片数据和对所述符号图片数据进行文本识别得到的文本信息；

确定所述目标图像帧为下一个基准图像帧；

确定所述基准图像帧与所述下一个基准图像帧之间图像帧为同组图像帧，且包含所述基准图像帧；

将所述基准图像帧输入图像帧分类模型，得到对应所述同组图像帧的类型；

其中，在所述基准图像帧为所述第一图像帧，且所述基准图像帧之后的图像帧为第一图像帧的情况下：

所述依次获取基准图像帧之后的图像帧分别与所述基准图像帧的相似度值，包括：

获取所述基准图像帧的第一信息和所述基准图像帧之后的第一图像帧的第一信息之间的第一相似度值；并获取所述基准图像帧的第二信息和所述基准图像帧之后的第一图像帧的第二信息之间的第二相似度值；

根据所述第一相似度值和所述第二相似度值，获取所述基准图像帧和所述基准图像帧之后的第一图像帧的相似度值；

所述获取所述基准图像帧的第二信息和所述基准图像帧之后的第一图像帧的第二信息之间的第二相似度值，包括：

获取所述基准图像帧的符号图像数据的第一图像特征，以及获取所述基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征；

获取所述基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及所述基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征；

确定所述第一图像特征和所述第二图像特征之间的第一子相似度值；

确定所述第一文本特征和所述第二文本特征之间的第二子相似度值；

根据所述第一子相似度值和所述第二子相似度值，确定所述基准图像帧的第二信息和所述基准图像帧之后的第一图像帧的第二信息之间的第二相似度值。

2.根据权利要求1所述的方法，其特征在于，所述获取所述基准图像帧的第二信息和所述基准图像帧之后的第一图像帧的第二信息之间的第二相似度值之前，还包括：

获取所述基准图像帧的符号图像数据的第一图像特征，以及获取所述基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征，确定所述第一图像特征和所述第一文本特征的第一融合特征为所述基准图像帧的第二信息；

获取所述基准图像帧之后的第一图像帧的符号图像数据的第二图像特征，以及所述基准图像帧之后的第一图像帧的符号图像数据进行文本识别得到的文本信息的第二文本特征，确定所述第二图像特征和所述第二文本特征的第二融合特征为所述基准图像帧之后的第一图像帧的第二信息。

3.根据权利要求1所述的方法，其特征在于，

在所述基准图像帧不为所述第一图像帧，且所述基准图像帧之后的图像帧为所述第一图像帧的情况下；或者，在所述基准图像帧为所述第一图像帧，且所述基准图像帧之后的图像帧不为所述第一图像帧的情况下；或者，在所述基准图像帧不为所述第一图像帧，且所述基准图像帧之后的图像帧不为所述第一图像帧的情况下：

获取所述基准图像帧的第一信息；

获取所述基准图像帧之后的图像帧的第一信息；

确定所述基准图像帧的第一信息和所述基准图像帧之后的图像帧的第一信息之间的相似度值为所述基准图像和所述基准图像帧之后的图像帧之间的相似度值。

4.根据权利要求1-2任一项所述的方法，其特征在于，所述将所述基准图像帧输入图像帧分类模型，得到对应所述同组图像帧的类型之后，还包括：

获取目标类型的同组图像帧对应的目标视频片段，所述目标视频片段中包含所述目标类型的同组图像帧。

5.一种视频分类的装置，其特征在于，包括：

获取模块，用于根据待分类视频中图像帧的时间顺序，依次获取基准图像帧之后的图像帧分别与所述基准图像帧的相似度值，直到所述相似度值小于预设阈值时对应的图像帧为目标图像帧；其中，所述待分类视频中包含至少两个第一图像帧，所述第一图像帧中包含符号，其中，所述符号为非数字、非字母、非汉字的符号，所述至少两个第一图像帧之间的相似度值是根据第一信息和第二信息得到的，其中，所述第一信息为对所述第一图像帧进行文本识别得到的，所述第二信息包括从所述第一图像帧中获取的符号图片数据和对所述符号图片数据进行文本识别得到的文本信息；

处理模块，用于确定所述目标图像帧为下一个基准图像帧；确定所述基准图像帧与所述下一个基准图像帧之间图像帧为同组图像帧，且包含所述基准图像帧；将所述基准图像帧输入图像帧分类模型，得到对应所述同组图像帧的类型；

所述获取模块，具体用于获取所述基准图像帧的第一信息和所述基准图像帧之后的第一图像帧的第一信息之间的第一相似度值；并获取所述基准图像帧的第二信息和所述基准图像帧之后的第一图像帧的第二信息之间的第二相似度值；

所述获取模块，还用于获取所述基准图像帧的符号图像数据的第一图像特征，以及获取所述基准图像帧的符号图像数据进行文本识别得到的文本信息的第一文本特征；

6.一种电子设备，包括：一个或多个处理器；存储器；以及一个或多个计算机程序；其中所述一个或多个计算机程序被存储在所述存储器中；其特征在于，所述一个或多个处理器在执行所述一个或多个计算机程序时，使得所述电子设备实现如权利要求1-4任一项所述的视频分类的方法。

7.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-4任一项所述的视频分类的方法。