CN113536840A - 视频的分类方法、装置、设备及存储介质 - Google Patents
视频的分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113536840A CN113536840A CN202010295804.4A CN202010295804A CN113536840A CN 113536840 A CN113536840 A CN 113536840A CN 202010295804 A CN202010295804 A CN 202010295804A CN 113536840 A CN113536840 A CN 113536840A
- Authority
- CN
- China
- Prior art keywords
- video
- image
- channel
- picture type
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供的一种视频的分类方法、装置、设备及存储介质,获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;基于所得到的画面类型,获取所述待分类视频的视频类型。通过本方案可以提高视频分类的准确度。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种视频的分类方法、装置、设备及存储介质。
背景技术
随着技术的发展,关于视频的平台中,视频的数量呈爆发式增长,导致视频的分类往往需要处理海量数据。进行视频的分类时,视频的类型为按照视频的内容差异划分得到的类型,例如,视频的类型可以包括:影视剧、综艺、动漫以及自拍等等。对此,为了减少视频分类的人工成本以及提高分类效率,相关技术中,可以利用预先训练得到的神经网络,识别待分类视频中指定视频帧的画面类型;基于所识别的画面类型,获取待分类视频的视频类型。其中,神经网络模型为利用样本图像和样本图像的画面类型标签训练得到的。
但是,由于样本图像中存在冗余信息,且处于训练阶段的神经网络提取样本图像中的信息相当于无法控制的黑匣子,因此,造成处于训练阶段的神经网络容易提取样本图像中的冗余信息。相应的,训练得到的神经网络也提取视频帧中的冗余信息;并且,冗余信息为图像中与画面类型的相关度相对而言较低的信息。因此,提取的冗余信息容易导致训练得到的神经网络模型对视频帧的画面类型的识别准确度降低。举例而言,训练得到的神经网络识别人脸图像时,人像的毛孔特征为冗余信息。并且,人脸图像中人像的毛孔可能因像素以及亮度等因素存在差异,此时,训练得到的神经网络很可能因提取人脸图像中的毛孔特征这一冗余信息,造成对人脸图像的误识别,得出某一人物的人脸图像不是该人物的识别结果。相应的,对指定视频帧的画面类型的识别准确度的降低,导致视频的分类不够准确。
发明内容
本发明实施例的目的在于提供一种视频的分类方法、装置、设备及存储介质,以实现提高视频分类的准确度的效果。具体技术方案如下:
第一方面,本发明实施例提供了一种视频的分类方法,该方法包括:
获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;
利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;
基于所得到的画面类型,获取所述待分类视频的视频类型。
可选的,所述识别模型采用如下步骤训练得到:
获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像;
将所述目标比特图像输入至神经网络模型,得到所述目标比特图像对应的样本图像的预测画面类型;
基于所述预测画面类型、所述目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;
如果收敛,将处于当前训练阶段的神经网络模型作为所述识别模型;
如果不收敛,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将所述目标比特图像输入所述调整后的神经网络模型,并重复上述判断和调整所述模型参数的步骤,直至所调整后的神经网络模型收敛。
可选的,所述获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像,包括:
对所述样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像;
分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像;
从所述多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
可选的,所述分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像,包括:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的所述八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像。
可选的,所述基于所得到的画面类型,获取所述待分类视频的视频类型,包括:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;
将所查找到的视频类型作为所述待分类视频的视频类型。
第二方面,本发明实施例提供了一种视频的分类装置,该装置包括:
指定视频帧获取模块,用于获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;
画面类型识别模块,用于利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;
视频类型获取模块,用于基于所得到的画面类型,获取所述待分类视频的视频类型。
可选的,所述识别模型由训练装置训练得到;所述训练装置包括:
目标比特图像获取模块,用于获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像;
预测数据获取模块,用于将所述目标比特图像输入至神经网络模型,得到所述目标比特图像对应的样本图像的预测画面类型;
模型参数调整模块,用于基于所述预测画面类型、所述目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;如果不收敛,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将所述目标比特图像输入所述调整后的神经网络模型,并重复上述判断和调整所述模型参数的步骤,直至所调整后的神经网络模型收敛;
模型确定模块,用于在模型参数调整模块确定处于当前训练阶段的神经网络模型收敛时,将处于当前训练阶段的神经网络模型作为所述识别模型。
可选的,所述目标比特图像获取模块,具体用于:
对所述样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像;
分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像;
从所述多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
可选的,所述目标比特图像获取模块,具体用于:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的所述八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像。
可选的,所述视频类型获取模块,具体用于:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;
将所查找到的视频类型作为所述待分类视频的视频类型。
第三方面,本发明实施例提供了一种电子设备,该设备包括:
处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述第一方面提供的视频的分类方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面提供的视频的分类方法的步骤。
本发明提供的方案中,由于指定视频帧为用于表明待分类视频的视频内容的视频帧,且视频的类型为按照视频的内容差异划分得到的类型;因此,获取的待分类视频中的指定视频帧可以用于获取待分类视频的视频类型。在此基础上,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的,因此,利用预先训练得到的识别模型,对指定视频帧进行识别,能够得到指定视频帧的画面类型,进而基于所得到的画面类型,获取待分类视频的视频类型。并且,目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。因此,可以减少识别模型对指定视频帧进行识别时提取的冗余信息,减少所提取的冗余信息引起的画面类型的识别结果准确度降低的问题,从而提高视频分类的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明一实施例提供的视频的分类方法的流程示意图;
图2为本发明一实施例提供的视频的分类方法中,所使用的识别模型的训练方式的流程示意图;
图3为本发明一实施例提供的视频的分类装置的结构示意图;
图4为本发明一实施例提供的视频的分类装置中,所使用的识别模型的训练装置的结构示意图;
图5为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面首先对本发明一实施例的视频的分类方法进行介绍。
本发明实施例提供的视频的分类方法,可以应用于电子设备,该设备包括台式计算机、便携式计算机、互联网电视,智能移动终端、可穿戴式智能终端以及服务器等,在此不作限定,任何可以实现本发明实施例的电子设备,均属于本发明实施例的保护范围。
如图1所示,本发明一实施例的视频的分类方法的流程,该方法可以包括:
S101,获取待分类视频中的指定视频帧;指定视频帧为用于表明待分类视频的视频内容的视频帧。
为了后续在步骤S102至S103中利用指定视频获取待分类视频的视频类型,且视频类型按照视频的内容差异划分,因此,待分类视频中的指定视频帧具体为用于表明待分类视频的视频内容的视频帧。示例性的,指定视频帧可以是待分类视频中作为视频封面的视频帧,或者,包含视频内容简介信息的待分类视频的片尾或者片头的视频帧等等。
S102,利用预先训练得到的识别模型,对指定视频帧进行识别,得到指定视频帧的画面类型。其中,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的;目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。
其中,画面类型为按照视频帧的画面内容差异划分得到的,具体可以是多种的。示例性的,视频帧的画面类型可以是具体的视频主题名称,例如,“海贼王”、“XX游戏解说”以及“化妆教程”等等视频主题名称。或者,视频帧的画面类型可以是视频类型,例如,动漫、解说、电影以及化妆等等。视频帧的画面类型反映在视频帧的画面内容上,视频帧的画面内容的识别可以通过识别视频帧中不同画面内容实现。例如,视频帧的画面中视频主题名称为白色的文字,其余部分为黑色背景,可以通过识别与黑色背景不同的画面内容:白色的文字,得到视频主题名称。
并且,图像中的高频信息与冗余信息相比,相对而言能够更加显著地反映图像的不同画面内容。因此,当识别模型提取指定视频帧中更少的冗余信息以及更多的高频信息时,可以提高画面类型识别的准确度。并且,比特图像相对而言可以更为直接地反映图像中高频信息和冗余信息的区别。因此,可以将样本图像对应的多个比特图像中,冗余信息最少的比特图像作为目标比特图像,冗余信息最少,意味着高频信息满足预设非冗余条件,高频信息可以包括边缘信息等能够反映画面内容的表面变化的信息。由此,利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的识别模型,可以提取相对而言更多的高频信息和更少的冗余信息。为了便于理解和合理布局,后续在本发明图2实施例和图2可选实施例中,对训练得到识别模型的具体过程,以及目标比特图像进行具体说明。
S103,基于所得到的画面类型,获取待分类视频的视频类型。
在具体应用中,对应于视频帧的不同画面类型,基于所得到的画面类型,获取待分类视频的视频类型的方式,可以是多种的。下面以可选实施例的形式进行具体说明。
在一种可选的实施方式中,上述基于所得到的画面类型,获取待分类视频的视频类型,具体可以包括如下步骤:
将所得到的画面类型,作为待分类视频的视频类型。
当视频帧的画面类型为视频类型时,例如,动漫、解说、电影以及化妆等等类型时,可以将所得到的画面类型,直接作为待分类视频的视频类型。
在另一种可选的实施方式中,上述基于所得到的画面类型,获取所述待分类视频的视频类型,具体可以包括如下步骤:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;
将所查找到的视频类型作为待分类视频的视频类型。
当视频帧的画面类型无法直接作为视频类型时,例如,视频帧的画面类型为具体的视频主题名称时,可以从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;将所查找到的视频类型作为待分类视频的视频类型。举例而言,预存的画面类型与视频类型的对应关系可以包括:“海贼王”对应视频类型动漫、“XX游戏解说”对应视频类型解说,“化妆教程”对应视频类型教程。
本发明提供的方案中,由于指定视频帧为用于表明待分类视频的视频内容的视频帧,且视频的类型为按照视频的内容差异划分得到的类型;因此,获取的待分类视频中的指定视频帧可以用于获取待分类视频的视频类型。在此基础上,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的,因此,利用预先训练得到的识别模型,对指定视频帧进行识别,能够得到指定视频帧的画面类型,进而基于所得到的画面类型,获取待分类视频的视频类型。并且,目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。因此,可以减少识别模型对指定视频帧进行识别时提取的冗余信息,减少所提取的冗余信息引起的画面类型的识别结果准确度降低的问题,从而提高视频分类的准确度。
如图2所示,本发明一实施例的视频的分类方法中,所使用的识别模型的训练方式的流程,该识别模型采用如下步骤训练得到:
S201,获取样本图像对应的多个比特图像,并选择多个比特图像中冗余信息最少的比特图像,作为目标比特图像。
其中,样本图像的数量可以为一个,或者多个。当样本图像的数量为多个时,针对每个样本图像,采用相同的方式进行处理。
在一种可选的实施方式中,上述获取样本图像对应的多个比特图像,并选择多个比特图像中冗余信息最少的比特图像,作为目标比特图像,具体可以包括如下步骤A至步骤C:
步骤A,对样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像;
步骤B,分别对各单通道图像进行比特平面分层,得到样本图像对应的多个比特图像;
步骤C,从多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
在具体应用中,视频帧往往为彩色图像,由R、G、B三个颜色的通道组成,相应的,用于训练得到识别模型的样本图像也为彩色图像。为了减少直接对彩色图像灰度化造成的信息缺失,可以对样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像。具体的,可以读取数字化后的样本图像的每个通道中的像素点;将所读取的像素点作为该通道的待生成的单通道图像中目标位置处的像素点;当该通道中的像素点全部完成读取,得到该通道的单通道图像。其中,目标位置为所读取的像素点在样本图像中的位置。并且,预设非冗余条件具体可以是多种的。示例性的,预设非冗余条件可以是比特图像中的纹理信息,和/或,边缘信息满足预设非冗余条件。或者,示例性的,预设非冗余条件可以是比特图像中的纹理信息,和/或,边缘信息的数量大于预设阈值。任何能够选择出冗余信息最少的目标比特图像的预设非冗余条件,均可用于本发明,本实施例对此不作限制。
并且,可选的,上述步骤B:分别对各单通道图像进行比特平面分层,得到样本图像对应的多个比特图像,具体可以包括如下步骤:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像。
示例性的,某一单通道图像的任一像素点的像素值可以转换为八位的二进制数值:b7b6b5b4b3b2b1b0。其中,b7、b6、b5、b4、b3、b2、b1以及b0的值分别为0或1。分别利用该单通道图像中各像素点的八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像,具体可以包括:针对该单通道图像内的每一个像素点,将该像素点的八位的二进制数值中,第i位数值,赋值给该像素点;当该单通道图像的全部像素点的第i位数值对应的赋值完成,得到该单通道图像对应的第i个比特图像。其中,i代表二进制数值中每一位数值的位号,为属于区间[0,7]的整数。由此,对于八位的二进制数值,每个单通道图像可以得到八个比特图像。
由于纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,冗余信息相对而言最少,因此,在得到多个比特图像后,可以从多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。在具体应用中,为了减少机器误差,并且每个单通道图像对应的比特图像的数量为八个,因此,可以对所得到的多个比特图像进行展示,以使得用户从所展示的比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,并输入关于该选择的选择指令。在接收到用户输入的选择指令时,可以将得到多个比特图像中,与所接收的选择指令对应的比特图像作为目标必特图像。
S202,将目标比特图像输入至神经网络模型,得到目标比特图像对应的样本图像的预测画面类型。
在具体应用中,神经网络模型可以是多种的。示例性的,神经网络模型可以是DNN(深度神经网络)模型;或者,神经网络模型可以是CNN(卷积神经网络)模型;或者,神经网络模型可以是RNN(循环神经网络)。任何能够用于进行图像识别的神经网络模型均可用于本发明,本实施例对此不作限制。
S203,基于预测画面类型、目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;如果收敛,执行步骤S204,如果不收敛,执行步骤S205。
S204,将处于当前训练阶段的神经网络模型作为识别模型。
为了生成能够获得目标比特图像对应的样本图像的预测画面类型相对而言准确的识别模型,可以在对神经网络模型进行训练的过程中,通过步骤S203基于预测画面类型、目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛。如果收敛,表明各预测画面类型与相应的画面类型标签之间的误差,均达到期望值,例如,预设的损失函数的输出小于预设阈值。此时的神经网络模型对目标比特图像的画面类型的预测相对而言准确,因此,可以执行步骤S204将处于当前训练阶段的神经网络模型确定为识别模型。
并且,在具体应用中,基于预测画面类型、目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛的方式,具体可以包括:将预测画面类型、目标比特图像对应的样本图像的画面类型标签输入预设的损失函数,得到预测画面类型和目标比特图像对应的样本图像的画面类型标签之间的误差,该误差即为预设的损失函数的输出。因此,当所得到的误差达到期望值,例如所得到的误差小于预设阈值时,处于当前训练阶段的神经网络模型收敛。另外,样本图像的画面类型标签是按照样本图像所在视频的视频类型预先标记的。
S205,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将目标比特图像输入至调整后的神经网络模型,并重复上述判断和调整模型参数的步骤,直至所调整后的神经网络模型收敛。
当神经网络模型不收敛时,表明预测画面类型与相应的画面类型标签之间的误差,还没有达到期望大小,当前训练阶段的神经网络模型的识别准确度未达到期望水平,需要继续调整模型的参数,继续进行训练。因此,可以调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将目标比特图像输入调整后的神经网络模型,并重复上述进行训练和调整所述模型参数的步骤,直至调整后的神经网络模型收敛。
在具体应用中,可以使用预设的优化模型,调整处于当前训练阶段的神经网络模型的模型参数,实现模型参数的优化。预设的优化模型可以是多种的。示例性的,预设的优化模型可以是SGD(Stochastic Gradient Descent,随机梯度下降)算法,或者,Adam(Adaptive moment estimation,自适应矩估计)算法等等。其中,SGD算法采用单一的学习率更新神经网络模型的所有参数,Adam算法可以通过计算梯度的一阶矩估计和二阶矩估计,为神经网络模型的不同参数设计独立的自适应性学习率,相对而言可以提高训练准确度。
相应于上述方法实施例,本发明一实施例还提供了视频的分类装置。
如图3所示,本发明一实施例的视频的分类装置的结构,该装置可以包括:
指定视频帧获取模块301,用于获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;
画面类型识别模块302,用于利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;
视频类型获取模块303,用于基于所得到的画面类型,获取所述待分类视频的视频类型。
本发明提供的方案中,由于指定视频帧为用于表明待分类视频的视频内容的视频帧,且视频的类型为按照视频的内容差异划分得到的类型;因此,获取的待分类视频中的指定视频帧可以用于获取待分类视频的视频类型。在此基础上,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的,因此,利用预先训练得到的识别模型,对指定视频帧进行识别,能够得到指定视频帧的画面类型,进而基于所得到的画面类型,获取待分类视频的视频类型。并且,目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。因此,可以减少识别模型对指定视频帧进行识别时提取的冗余信息,减少所提取的冗余信息引起的画面类型的识别结果准确度降低的问题,从而提高视频分类的准确度。
可选的,所述视频类型获取模块303,具体用于:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;将所查找到的视频类型作为所述待分类视频的视频类型。
如图4所示,本发明一实施例的视频的分类装置中,所使用的识别模型由训练装置训练得到;所述训练装置包括:
目标比特图像获取模块401,用于获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像;
预测数据获取模块402,用于将所述目标比特图像输入至神经网络模型,得到所述目标比特图像对应的样本图像的预测画面类型;
模型参数调整模块403,用于基于所述预测画面类型、所述目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;如果不收敛,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将所述目标比特图像输入所述调整后的神经网络模型,并重复上述判断和调整所述模型参数的步骤,直至所调整后的神经网络模型收敛;
模型确定模块404,用于在模型参数调整模块403确定处于当前训练阶段的神经网络模型收敛时,将处于当前训练阶段的神经网络模型作为识别模型。
在具体应用中,上述用于得到识别模型的训练装置,可以作为本发明图3实施例的视频的分类装置的一部分,包含在视频的分类装置中,也可以独立于视频的分类装置。
可选的,所述目标比特图像获取模块401,具体用于:
对所述样本图像进行颜色通道分离,得到每个颜色通道对应的单通道图像;
分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像;从所述多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
可选的,所述目标比特图像获取模块401,具体用于:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的所述八位的二进制数值中的每一位数值,以及该位数值对应的2的次方,对相应的像素点进行赋值,得到该单通道图像对应的八个比特图像。
相应于上述实施例,本发明实施例还提供了一种电子设备,如图5所示,可以包括:
处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信;
存储器503,用于存放计算机程序;
处理器501,用于执行上述存储器503上所存放的计算机程序时,实现上述实施例中任一视频的分类方法的步骤。
本发明提供的方案中,由于指定视频帧为用于表明待分类视频的视频内容的视频帧,且视频的类型为按照视频的内容差异划分得到的类型;因此,获取的待分类视频中的指定视频帧可以用于获取待分类视频的视频类型。在此基础上,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的,因此,利用预先训练得到的识别模型,对指定视频帧进行识别,能够得到指定视频帧的画面类型,进而基于所得到的画面类型,获取待分类视频的视频类型。并且,目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。因此,可以减少识别模型对指定视频帧进行识别时提取的冗余信息,减少所提取的冗余信息引起的画面类型的识别结果准确度降低的问题,从而提高视频分类的准确度。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离于上述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明一实施例提供的计算机可读存储介质,包含于电子设备,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时,实现上述施例中任一视频的分类方法的步骤。
本发明提供的方案中,由于指定视频帧为用于表明待分类视频的视频内容的视频帧,且视频的类型为按照视频的内容差异划分得到的类型;因此,获取的待分类视频中的指定视频帧可以用于获取待分类视频的视频类型。在此基础上,识别模型为利用目标比特图像和目标比特图像对应的样本图像的画面类型标签训练得到的,因此,利用预先训练得到的识别模型,对指定视频帧进行识别,能够得到指定视频帧的画面类型,进而基于所得到的画面类型,获取待分类视频的视频类型。并且,目标比特图像为样本图像对应的多个比特图像中,冗余信息最少的比特图像。因此,可以减少识别模型对指定视频帧进行识别时提取的冗余信息,减少所提取的冗余信息引起的画面类型的识别结果准确度降低的问题,从而提高视频分类的准确度。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的视频的分类方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line,数字用户线)或无线(例如:红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如:DVD(Digital Versatile Disc,数字通用光盘))、或者半导体介质(例如:SSD(Solid StateDisk,固态硬盘))等。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (12)
1.一种视频的分类方法,其特征在于,所述方法包括:
获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;
利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;
基于所得到的画面类型,获取所述待分类视频的视频类型。
2.根据权利要求1所述的方法,其特征在于,所述识别模型采用如下步骤训练得到:
获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像;
将所述目标比特图像输入至神经网络模型,得到所述目标比特图像对应的样本图像的预测画面类型;
基于所述预测画面类型、所述目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;
如果收敛,将处于当前训练阶段的神经网络模型作为所述识别模型;
如果不收敛,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将所述目标比特图像输入至所述调整后的神经网络模型,并重复上述判断和调整所述模型参数的步骤,直至所调整后的神经网络模型收敛。
3.根据权利要求2所述的方法,其特征在于,所述获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像,包括:
对所述样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像;
分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像;
从所述多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
4.根据权利要求3所述的方法,其特征在于,所述分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像,包括:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的所述八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所得到的画面类型,获取所述待分类视频的视频类型,包括:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;
将所查找到的视频类型作为所述待分类视频的视频类型。
6.一种视频的分类装置,其特征在于,所述装置包括:
指定视频帧获取模块,用于获取待分类视频中的指定视频帧;所述指定视频帧为用于表明所述待分类视频的视频内容的视频帧;
画面类型识别模块,用于利用预先训练得到的识别模型,对所述指定视频帧进行识别,得到所述指定视频帧的画面类型;其中,所述识别模型为利用目标比特图像和所述目标比特图像对应的样本图像的画面类型标签训练得到的;所述目标比特图像为所述样本图像对应的多个比特图像中,冗余信息最少的比特图像;
视频类型获取模块,用于基于所得到的画面类型,获取所述待分类视频的视频类型。
7.根据权利要求6所述的装置,其特征在于,所述识别模型由训练装置训练得到;所述训练装置包括:
目标比特图像获取模块,用于获取样本图像对应的多个比特图像,并选择所述多个比特图像中冗余信息最少的比特图像,作为目标比特图像;
预测数据获取模块,用于将所述目标比特图像输入至神经网络模型,得到所述目标比特图像对应的样本图像的预测画面类型;
模型参数调整模块,用于基于所述预测画面类型、所述目标比特图像对应的样本图像的画面类型标签以及预设的损失函数,判断处于当前训练阶段的神经网络模型是否收敛;如果不收敛,调整处于当前训练阶段的神经网络模型的模型参数,得到调整后的神经网络模型;将所述目标比特图像输入所述调整后的神经网络模型,并重复上述判断和调整所述模型参数的步骤,直至所调整后的神经网络模型收敛;
模型确定模块,用于在模型参数调整模块确定处于当前训练阶段的神经网络模型收敛时,将处于当前训练阶段的神经网络模型作为所述识别模型。
8.根据权利要求7所述的装置,其特征在于,所述目标比特图像获取模块,具体用于:
对所述样本图像进行颜色通道分离,分别得到R通道、G通道以及B通道的单通道图像;
分别对各单通道图像进行比特平面分层,得到所述样本图像对应的多个比特图像;
从所述多个候选比特图像中选择纹理信息,和/或,边缘信息满足预设非冗余条件的比特图像,作为冗余信息最少的目标比特图像。
9.根据权利要求8所述的装置,其特征在于,所述目标比特图像获取模块,具体用于:
针对各单通道图像,将该单通道图像中每个像素点的像素值转换为八位的二进制数值;
针对各单通道图像,分别利用该单通道图像中各像素点的所述八位的二进制数值中的每一位数值,获得该单通道图像对应的八个比特图像。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述视频类型获取模块,具体用于:
从预存的画面类型与视频类型的对应关系中,查找所得到的画面类型对应的视频类型;
将所查找到的视频类型作为所述待分类视频的视频类型。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现如权利要求1-5任一项所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295804.4A CN113536840A (zh) | 2020-04-15 | 2020-04-15 | 视频的分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295804.4A CN113536840A (zh) | 2020-04-15 | 2020-04-15 | 视频的分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113536840A true CN113536840A (zh) | 2021-10-22 |
Family
ID=78120117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010295804.4A Pending CN113536840A (zh) | 2020-04-15 | 2020-04-15 | 视频的分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115119013A (zh) * | 2022-03-26 | 2022-09-27 | 泰州可以信息科技有限公司 | 多级数据机控应用系统 |
-
2020
- 2020-04-15 CN CN202010295804.4A patent/CN113536840A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115119013A (zh) * | 2022-03-26 | 2022-09-27 | 泰州可以信息科技有限公司 | 多级数据机控应用系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308463B (zh) | 一种视频目标识别方法、装置及设备 | |
KR20200145827A (ko) | 얼굴 특징 추출 모델 학습 방법, 얼굴 특징 추출 방법, 장치, 디바이스 및 저장 매체 | |
CN111163338B (zh) | 视频清晰度评估模型训练方法、视频推荐方法及相关装置 | |
CN110856037B (zh) | 一种视频封面确定方法、装置、电子设备及可读存储介质 | |
CN107305611B (zh) | 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置 | |
WO2022236824A1 (zh) | 目标检测网络构建优化方法、装置、设备、介质及产品 | |
US10162879B2 (en) | Label filters for large scale multi-label classification | |
CN112001274A (zh) | 人群密度确定方法、装置、存储介质和处理器 | |
CN110597965B (zh) | 文章的情感极性分析方法、装置、电子设备及存储介质 | |
CN112084920B (zh) | 提取热词的方法、装置、电子设备及介质 | |
CN110929785A (zh) | 数据分类方法、装置、终端设备及可读存储介质 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
CN111179276A (zh) | 一种图像处理方法和装置 | |
CN111784401A (zh) | 下单率预测方法、装置、设备及可读存储介质 | |
CN114360027A (zh) | 一种特征提取网络的训练方法、装置及电子设备 | |
CN114492601A (zh) | 资源分类模型的训练方法、装置、电子设备及存储介质 | |
CN113536840A (zh) | 视频的分类方法、装置、设备及存储介质 | |
CN116363641A (zh) | 一种图像处理方法、装置及电子设备 | |
US11687782B2 (en) | Systems and methods for recognition of user-provided images | |
CN114363671A (zh) | 多媒体资源推送方法、模型训练方法、装置、存储介质 | |
CN114494686A (zh) | 文本图像矫正方法、装置、电子设备以及存储介质 | |
CN113591865A (zh) | 一种回环检测方法、装置以及电子设备 | |
CN113298083A (zh) | 一种数据处理方法及装置 | |
CN113705594B (zh) | 一种识别图像的方法和装置 | |
CN116151392B (zh) | 训练样本生成方法、训练方法、推荐方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |