CN111461246A

CN111461246A - 一种图像分类方法及装置

Info

Publication number: CN111461246A
Application number: CN202010273721.5A
Authority: CN
Inventors: 朱强; 翁仁亮; 贺章平
Original assignee: Beijing Aibee Technology Co Ltd
Current assignee: Beijing Aibee Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-28

Abstract

本申请实施例公开了一种图像分类方法及装置，在对视频序列进行分类之前，获取待分类视频序列，并根据该待分类视频序列获取权重集合，该权重集合中包括待分类视频序列所包括的各帧图像对应的权重。同时从该待分类视频序列中提取图像特征集合，根据该图像特征集合中每个图像特征以及该图像特征对应的权重进行加权求和，获得最终的待分类图像特征，以利用最终的待分类图像特征进行图像分类。即，在进行图像分类时，考虑了视频序列中每帧图像的质量参数(权重)，加大质量较好的图像在识别时的作用，从而提高图像识别的准确率。

Description

一种图像分类方法及装置

技术领域

本申请涉及图像识别技术领域，具体涉及一种图像分类方法及装置。

背景技术

图像识别技术是人工智能的一个重要领域，尤其人脸识别和物体识别在越来越多的领域中进行应用。目前的图像识别技术主要利用神经网络模型通过提取所输入图像的图像特征，并对图像特征进行分析处理获得该图像的分类结果。

然而，在一些应用场景下，由于光照、天气等原因导致采集的视频序列中某些帧的图像质量较差，在进行对象识别时，质量较差的若干个帧图像将影响分类结果。

发明内容

有鉴于此，本申请实施例提供一种图像分类方法及装置，以实现在进行图像分类时将结合每帧图像的质量进行识别，提高分类准确率。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种图像分类方法，该方法可以包括：

获取待分类视频序列，所述待分类视频序列包括至少两帧图像；

根据所述待分类视频序列获取权重集合，所述权重集合包括各帧图像对应的权重；

从所述待分类视频序列中提取图像特征集合，所述图像特征集合包括至少两帧图像各自对应的图像特征；

根据所述图像特征集合以及所述权重集合获得待分类图像特征；

根据所述待分类图像特征获得所述待分类视频序列对应的分类结果。

在一种可能的实现方式中，所述根据所述待分类视频序列获取权重集合，包括：

将所述待分类视频序列输入图像质量评价模型，获得权重集合，所述图像质量评价模型是根据训练视频序列以及所述训练视频序列对应的分类标签训练生成的。

在一种可能的实现方式中，所述根据所述待分类图像特征获得所述待分类视频序列对应的分类结果，包括：

将所述待分类图像特征输入图像分类模型，获得分类结果，所述图像分类模型为根据训练视频序列对应的图像特征集合以及所述训练视频序列对应的分类标签训练生成的。

在一种可能的实现方式中，所述图像质量评价模型训练过程，包括：

获取训练视频序列，所述训练视频序列包括至少两帧图像；

将所述训练视频序列输入初始网络模型，获得权重集合；

从所述训练视频序列中提取图像特征集合，所述图像特征集合包括至少两帧图像各自对应的图像特征；

根据所述图像特征集合以及所述权重集合获得训练图像特征；

根据所述训练图像特征获得分类结果；

根据所述分类结果以及所述训练视频序列对应的分类标签调整所述初始网络模型的参数，直至所述分类结果与所述分类标签之间的距离满足预设条件，生成图像质量评价模型。

在一种可能的实现方式中，所述根据所述训练图像特征获得分类结果，包括：

将所述训练图像特征输入图像分类模型，获得分类结果。

在一种可能的实现方式中，所述从所述训练视频序列中提取图像特征集合，包括：

利用特征提取模型从所述训练视频序列中提取图像特征集合，所述特征提取模型为预先训练生成的。

在一种可能的实现方式中，所述分类结果与所述分类标签之间的距离为欧氏距离、曼哈顿距离或切比雪夫距离。

在本申请实施例第二方面，提供了一种图像分类装置，所述装置包括：

第一获取单元，用于获取待分类视频序列，所述待分类视频序列包括至少两帧图像；

第二获取单元，用于根据所述待分类视频序列获取权重集合，所述权重集合包括各帧图像对应的权重；

提取单元，用于从所述待分类视频序列中提取图像特征集合，所述图像特征集合包括至少两帧图像各自对应的图像特征；

第三获取单元，用于根据所述图像特征集合以及所述权重集合获得待分类图像特征；

第四获取单元，用于根据所述待分类图像特征获得所述待分类视频序列对应的分类结果。

在一种可能的实现方式中，所述第二获取单元，具体用于将所述待分类视频序列输入图像质量评价模型，获得权重集合，所述图像质量评价模型是根据训练视频序列以及所述训练视频序列对应的分类标签训练生成的。

在一种可能的实现方式中，所述第四获取单元，具体用于将所述待分类图像特征输入图像分类模型，获得分类结果，所述图像分类模型为根据所述训练视频序列对应的图像特征集合以及所述训练视频序列对应的分类标签训练生成的。

获取训练视频序列，所述训练视频序列包括至少两帧图像；

将所述训练视频序列输入初始网络模型，获得权重集合；

根据所述训练图像特征获得分类结果；

在一种可能的实现方式中，所述根据所述训练图像特征获得分类结果，包括：将所述训练图像特征输入图像分类模型，获得分类结果。

在本申请实施例第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行第一方面所述的图像分类方法。

在本申请实施例第四方面，提供了一种实现图像分类的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现第一方面所述的图像分类方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例在对视频序列进行分类之前，获取待分类视频序列，并根据该待分类视频序列获取权重集合，该权重集合中包括待分类视频序列所包括的各帧图像对应的权重。同时从该待分类视频序列中提取图像特征集合，根据该图像特征集合中每个图像特征以及该图像特征对应的权重进行加权求和，获得最终的待分类图像特征，以利用最终的待分类图像特征进行图像分类。即，在进行图像分类时，考虑了视频序列中每帧图像的质量参数(权重)，加大质量较好的图像在识别时的作用，从而提高图像识别的准确率。

附图说明

图1为本申请实施例提供的一种图像分类方法流程图；

图2为本申请实施例提供的一种图像分类框架图；

图3为本申请实施例提供的一种图像分类装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对传统的基于视频序列进行图像识别研究中发现，在一些应用场景下，由于识别对象在视频序列的某些帧图像中的呈现模糊或被遮挡，导致在对目标对象进行识别时，影响分类的准确率。

基于此，本申请实施例提供了一种图像识别方法，在对待视频序列进行识别分类时，将考虑视频序列中每帧图像的质量分数，将其作为权重。对于图像质量高的帧图像，其对应的权重较大，则在进行图像分类时所起的识别作用较大，而对于图像质量较差的帧图像，其对应的权重较小，则在进行图像分类时减弱其所起的作用，从而避免对分类结果准确率的影响。

为便于理解本申请提供的技术方案，下面将结合附图对该技术方案进行说明。

参见图1，该图为本申请实施例提供一种图像分类方法的流程图，如图1所示，该方法可以包括：

S101：获取待分类视频序列。

本实施例中，为获取某视频序列对应的分类结果，首先获取待分类的视频序列，该待分类的视频序列包括至少两帧图像。其中，待分类视频序列可以为通过图像采集装置直接采集的视频片段，也可以为预先存储的视频片段。

S102：根据待分类视频序列获取权重集合，该权重集合包括各帧图像对应的权重。

当获取到待分类视频序列后，根据该待分类视频序列获取权重集合，该权重集合包括各帧图像对应的权重。也就是，基于该待分类视频序列获取其所包括的每帧图像各自对应的权重，从而获得权重集合。

在一些实施例中，根据待分类视频序列获取权重集合具体可以为，将待分类视频序列输入预先训练生成的图像质量评价模型，该图像质量评价模型根据输入的待分类视频序列获取各帧图像对应的质量分数，将该质量分数作为该帧图像的权重。具体地，图像质量评价模型从待分类视频序列中提取所包括的每帧图像的图像特征，根据该帧图像的图像特征确定质量分数。其中，图像质量评价模型是根据训练视频序列以及该训练视频序列对应的分类标签生成的，关于训练过程将在后续实施例进行说明。

S103：从待分类视频序列中提取图像特征集合。

本实施例中，对于获取的待分类视频序列，提取该待分类视频序列中每帧图像的图像特征，从而获得该待分类视频序列对应的图像特征集合。其中，图像特征集合包括至少两帧图像各自对应的图像特征，图像特征可以包括颜色分布，纹理特征、形状特征、空间关系特征、尺度不变特征转换(Scale-invariant feature transform，SIFT)特征、方向梯度直方图(Histogram of Oriented Gradients，HOG)特征等。

具体地，可以利用预先训练生成的特征提取模型从待分类视频序列中提取图像特征集合。其中，特征提取模型可以和图像分类模型同时训练生成。

需要说明的是，在具体实现时，也可以先执行S103，再执行S102，还可以同时执行S102和S103。

S104：根据图像特征集合以及权重集合获得待分类图像特征。

S105：根据待分类图像特征获得待分类视频序列对应的分类结果。

本实施例中，当获取图像特征集合以及权重集合后，根据每个待分类图像特征以及该待分类图像特征对应的权重，进行加权求和获得待分类图像特征。然后，根据该待分类图像特征获得该待分类视频序列对应的分类结果，从而实现对待分类视频序列进行分类处理。其中，该待分类图像特征可以为颜色分布，纹理特征、形状特征、空间关系特征、SIFT特征、HOG特征。

具体地，可以利用预先训练的图像分类模型获取分类结果，即，将待分类图像特征输入图像分类模型，将其输出的结果作为分类结果。其中，图像分类模型为根据训练视频序列对应的图像特征集合以及该训练视频序列对应的分类标签预先训练生成。需要说明的是，待分类图像特征的具体特征类型需和训练图像分类模型时对应的特征类型一致。

可见，通过上述描述可知，在对视频序列进行分类之前，获取待分类视频序列，并根据该待分类视频序列获取权重集合，该权重集合中包括待分类视频序列所包括的各帧图像对应的权重。同时从该待分类视频序列中提取图像特征集合，根据该图像特征集合中每个图像特征以及该图像特征对应的权重进行加权求和，获得最终的待分类图像特征，以利用最终的待分类图像特征进行图像分类。即，在进行图像分类时，考虑了视频序列中每帧图像的质量参数(权重)，加大质量较好的图像在识别时的作用，从而提高图像识别的准确率。

其中，图像质量评价模型的训练是基于预先训练生成的图像分类模型的生成的。也就是，先训练生成图像分类模型，然后利用图像分类模型训练生成图像质量评价模型。为便于理解，下面将分别对图像分类模型的训练和图像质量评价模型的训练进行说明。

一、图像分类模型的训练

1)获取训练视频序列。

2)从训练视频序列中提取图像特征集合。

本实施例中，首先获取用于训练图像分类模型的训练视频序列，该训练视频序列中可以包括一帧或多帧图像。然后，从训练视频序列所包括的每帧图像中提取该帧图像的图像特征，从而获得该训练视频序列对应的训练图像特征集合。其中，图像特征可以为颜色分布，纹理特征、形状特征、空间关系特征、SIFT特征、HOG特征等。

具体地，可以利用特征提取模型从训练视频序列中提取图像特征集合，该特征提取模型可以根据实际应用需求训练生成。

3)根据图像特征集合以及训练视频序列对应的分类标签，生成图像分类模型。

当从训练视频序列中提取图像特征集合后，利用该图像特征集合以及训练视频序列对应的分类标签训练初始分类模型，从而获得图像分类模型。其中，分类标签可以为图像中所包括目标对象的名称。

二、图像质量评价模型

1)获取训练视频序列，其中，训练视频序列包括至少两帧图像。

本实施例中，首先获取训练视频序列，该训练视频序列与训练图像分类模型时所使用的训练视频序列可以相同，该训练视频序列包括至少两帧图像。

2)将训练视频序列输入初始网络模型，获得权重集合。

当获取训练视频序列后，将该训练视频序列作为输入数据输入至初始网络模型，以获得该训练视频序列中每帧图像对应的质量分数，即权重，从而获得权重集合。其中，初始网络模型可以为卷积神经网络模型，例如为LENet模型、AlexNet模型或GoogleNet模型。

3)从训练视频序列中提取图像特征集合，其中，图像特征集合包括至少两帧图像各自对应的图像特征。

4)根据图像特征集合以及权重集合获得训练图像特征。

本实施例中，在获取权重集合时，还需从训练视频序列中提取图像特征集合，以根据图像特征集合以及权重集合进行加权和，获得训练图像特征。也就是，根据图像特征集合中的每个图像特征以及该图像特征对应的权重进行加权求和，获得最终的训练图像特征。

其中，从训练视频序列中提取图像特征集合可以通过以下方式实现，具体为，利用特征提取模型从训练视频序列中提取图像特征集合，该特征提取模型为预先训练生成的。也就是，在训练图像质量评价模型之前，训练生成特征提取模型。

5)根据训练图像特征获得分类结果。

当获得最终的训练图像特征后，根据该训练图像特征获得该训练视频序列对应的分类结果。具体地，可以将该训练图像特征输入预先训练生成的图像分类模型中，获得分类结果。

6)根据分类结果以及训练视频序列对应的分类标签调整初始网络模型的参数，直至分类结果与分类标签之间的距离满足预设条件，生成图像质量评价模型。

当利用最终的训练图像特征获得分类结果后，根据该分类结果以及训练视频序列对应的分类标签调整初始网络模型的参数，直至该分类结果与分类标签之间的距离满足预设条件，从而生成图像质量评价模型。

其中，分类结果与分类标签之间的距离可以为欧氏距离、曼哈顿距离或切比雪夫距离。欧氏距离是一种常用的度量方式，是点和点之间坐标的均方根。曼哈顿距离也称为街区距离，表示对点与点之间在不同维度上的绝对距离的叠加。切比雪夫距离也称为最大值距离，是衡量对点之间在不同维度上的最大距离，常用于序数或定量变化的检测。

基于上述实施例生成的图像质量评价模型，在进行图像分类时，可以利用该图像质量评价模型获取每帧图像的质量系数，以对图像识别起到指导作用。

在具体实现时，可以利用包括特征提取模型、图像质量评价模块和图像分类模块的图像分类系统执行上述分类方法。为便于理解本申请实施例，参见图2所示的图像识别框架图，如图2所示，待分类视频序列中包括5帧图像，将该5帧图像输入特征提取模块，获取每帧图像对应的图像特征。将待分类视频序列输入图像质量评价模块中，获得每帧图像各自对应的质量评价。将每帧图像对应的质量评价作为权重与对应的图像特征进行加权求和，获得最终的图像特征，将该最终的图像特征输入图像分类模块获得分类结果。

基于上述方法实施例，本申请实施例还提供了一种图像分类装置，如图3所示，该装置可以包括：

第一获取单元301，用于获取待分类视频序列，所述待分类视频序列包括至少两帧图像；

第二获取单元302，用于根据所述待分类视频序列获取权重集合，所述权重集合包括各帧图像对应的权重；

提取单元303，用于从所述待分类视频序列中提取图像特征集合，所述待分类别图像特征集合包括至少两帧图像各自对应的图像特征；

第三获取单元304，用于根据所述图像特征集合以及所述权重集合获得待分类图像特征；

第四获取单元305，用于根据所述待分类图像特征获得所述待分类视频序列对应的分类结果。

在一种可能的实现方式中，所述第四获取单元，具体用于将所述待分类图像特征输入图像分类模型，获得分类结果，所述图像分类模型为根据训练视频序列对应的图像特征集合以及所述训练视频序列对应的分类标签训练生成的。

获取训练视频序列，所述训练视频序列包括至少两帧图像；

将所述训练视频序列输入初始网络模型，获得权重集合；

根据所述训练图像特征获得分类结果；

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例，本实施例在此不再赘述。

另外，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行所述的图像分类方法。

本申请实施例提供了一种实现图像分类的设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现所述的图像分类方法。

通过上述说明可知，在对视频序列进行分类之前，获取待分类视频序列，并根据该待分类视频序列获取权重集合，该权重集合中包括待分类视频序列所包括的各帧图像对应的权重。同时从该待分类视频序列中提取图像特征集合，根据该图像特征集合中每个图像特征以及该图像特征对应的权重进行加权求和，获得最终的待分类图像特征，以利用最终的待分类图像特征进行图像分类。即，在进行图像分类时，考虑了视频序列中每帧图像的质量参数(权重)，加大质量较好的图像在识别时的作用，从而提高图像识别的准确率。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述待分类视频序列获取权重集合，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述待分类图像特征获得所述待分类视频序列对应的分类结果，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述图像质量评价模型训练过程，包括：

获取训练视频序列，所述训练视频序列包括至少两帧图像；

将所述训练视频序列输入初始网络模型，获得权重集合；

根据所述训练图像特征获得分类结果；

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练图像特征获得分类结果，包括：

将所述训练图像特征输入图像分类模型，获得分类结果。

6.根据权利要求4或5所述的方法，其特征在于，所述从所述训练视频序列中提取图像特征集合，包括：

7.根据权利要求4-6任一项所述的方法，其特征在于，所述分类结果与所述分类标签之间的距离为欧氏距离、曼哈顿距离或切比雪夫距离。

8.一种图像分类装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的图像分类方法。

10.一种实现图像分类的设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现权利要求1-7任一项所述的图像分类方法。