CN107516102B

CN107516102B - 图像数据分类与建立分类模型方法、装置及系统

Info

Publication number: CN107516102B
Application number: CN201610431109.XA
Authority: CN
Inventors: 朱望江; 胡杰; 孙刚; 曹旭东
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2020-10-23
Anticipated expiration: 2036-06-16
Also published as: CN107516102A

Abstract

本发明涉及一种图像数据分类与建立分类模型方法、装置及系统，其中，建立神经网络分类模型的方法包括：获取包含目标对象的至少一帧图像数据；分别从各帧图像数据中确定若干个关键区域，若干个关键区域中的每个关键区域为至少包含部分目标对象的概率满足预定要求的区域；从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对神经网络进行训练；根据神经网络输出的训练结果调整神经网络的结构参数，以建立神经网络分类模型。本发明可有效地去除噪声，提高图像数据识别/分类的准确度。

Description

图像数据分类与建立分类模型方法、装置及系统

技术领域

本发明涉及视频图像处理领域，具体涉及一种图像数据分类与建立分类模型方法、装置及系统。

背景技术

多示例学习(multiple instance learning)是一种重要的弱监督学习(weaklysupervised learning)算法。在多示例学习中，样本是以包(bag)的形式给出。每个包是由多个示例(instance)组成。对一个二分类问题而言，正样本的包(positive bag)含有至少一个正示例，而负样本的包(negative bag)只含有负示例。多示例学习的任务就是要同时推断各个示例的标签(label)并学习分类器。

在图像分类中，一张图像可能被标注以某种物体(如“狗”)的标签。但图像中和该标签相关的区域(狗所占据的像素)只占图像的一小部分，大部分区域可能和标签并不相关。而采用深度神经网络进行视频分类时，通常是从视频的时空三维空间里随机采取一个子区域(volume)作为采样区域(如时间跨度为10帧)，并让该采样区域继承视频的标签，由此可能导致产生较大的噪声数据。

发明内容

本发明实施例提供一种图像数据分类与建立分类模型方法、装置及系统。

第一方面，本发明实施例提供了一种建立神经网络分类模型的方法，包括：

获取包含目标对象的至少一帧图像数据；分别从各帧图像数据中确定若干个关键区域，若干个关键区域中的每个关键区域为至少包含部分目标对象的概率满足预定要求的区域；从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对神经网络进行训练；根据神经网络输出的训练结果调整神经网络的结构参数，以建立神经网络分类模型。

进一步，根据各质量得分从多个包围盒中选出若干个包围盒，包括：按各质量得分从高到低的顺序从多个包围盒中选出若干个包围盒。

进一步，图像数据包括在时域上连续的若干帧图像；根据各质量得分从多个包围盒中选出若干个包围盒，包括：确定各包围盒在若干帧图像上的平均质量得分，其中，各包围盒在若干帧图像上的位置相同；根据平均质量得分从多个包围盒中选出若干个包围盒。

进一步，根据平均质量得分从多个包围盒中选出若干个包围盒包括：根据平均质量得分分别对各包围盒在若干帧图像上进行非极大抑制运算，以确定若干个关键区域。

进一步，采用如下公式确定各分类器的损失函数：loss_u＝-([label＝u]log(p_u)+[label≠u]log(1-p_u))，其中，u为整数，且1≤u≤N，loss_u为第u个逻辑斯蒂回归器的损失函数，label为关键区域的标签，[.]为示性函数，p_u为第u个逻辑斯蒂回归器的概率预测。

进一步，输出神经网络的训练结果包括：分别选取各分类器的预测输出中每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

进一步，在输出神经网络的训练结果之前，还包括：确定N种图像数据标签中的学习的图像数据标签；输出神经网络的训练结果包括：对于各分类器的预测输出中与学习的图像数据标签对应的各元素，以各元素分别与各元素之和的比值分别作为各元素被随机选择的概率，随机选择各元素作为训练结果输出；对于各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

第二方面，本发明实施例还提供了一种建立神经网络分类模型的装置，包括：

图像数据获取单元，用于获取包含目标对象的至少一帧图像数据；关键区域确定单元，用于分别从各帧图像数据中确定若干个关键区域，若干个关键区域中的每个关键区域为至少包含部分目标对象的概率满足预定要求的区域；数据输入选取单元，用于从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对神经网络进行训练；调整单元，用于根据神经网络输出的训练结果调整神经网络的结构参数，以建立神经网络分类模型。

进一步，关键区域确定单元包括：包围盒生成单元，用于生成多个包围盒，多个包围盒分别覆盖至少局部不同的多个像素区域；质量评价单元，分别根据多个包围盒覆盖的多个像素区域确定各包围盒的质量得分，每个包围盒的质量得分用于表征包围盒包含目标物体的概率大小；包围盒选取单元，用于根据各质量得分从多个包围盒中选出若干个包围盒，将若干个包围盒覆盖的像素区域作为若干个关键区域。

进一步，包围盒选取单元用于按各质量得分从高到低的顺序从多个包围盒中选出若干个包围盒。

进一步，包围盒选取单元包括：平均质量得分单元，用于确定各包围盒在若干帧图像上的平均质量得分，其中，各包围盒在若干帧图像上的位置相同；包围盒确定单元，用于根据平均质量得分从多个包围盒中选出若干个包围盒。

进一步，调整单元包括：第一子单元，用于分别选取各分类器的预测输出中每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

进一步，还包括：标签获取单元，用于确定N种图像数据标签中的学习的图像数据标签；输出单元包括：第二子单元，用于对于各分类器的预测输出中与学习的图像数据标签对应的各元素，以各元素分别与各元素之和的比值分别作为各元素被随机选择的概率，随机选择各元素作为训练结果输出；第三子单元，用于对于各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

第三方面，本发明实施例还提供了一种建立神经网络分类模型的系统，包括：

图像获取装置，用于获取图像数据；存储器，用于存储程序；处理器，接收图像获取装置所获取的图像数据，用于执行程序以实现上述的建立神经网络分类模型的方法中的操作。

第四方面，本发明实施例还提供了一种基于采用上述方法建立而得的神经网络分类模型的图像数据分类方法，包括：

获取待分类的图像数据；将待分类的图像数据输入神经网络分类模型，得到对待分类的图像数据的分类结果。

第五方面，本发明实施例还提供了一种基于采用上述装置建立而得到的神经网络分类模型的图像数据的分类装置，包括：

待分类图像获取单元，用于获取待分类的图像数据；分类单元，用于将待分类的图像数据输入神经网络分类模型，得到对待分类的图像数据的分类结果。

第六方面，本发明实施例还提供了一种图像数据的分类系统，包括：

图像获取装置，用于获取图像数据；

存储器，用于存储程序；

处理器，接收图像获取装置所获取的图像数据，用于执行程序以实现上述基于采用上述方法建立而得的神经网络分类模型的视频图像分类方法中的操作。

本发明技术方案，具有如下优点：

本发明实施例提供的基图像数据分类与建立分类模型方法、装置及系统，分别从各帧图像数据中确定若干个关键区域，并从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，由于关键区域包含目标物体的概率满足预定要求，因此，在对神经网络进行训练时，相对于继承标签的采样区域作为数据输入的现有技术，本发明能够有效地去除噪声，从而，可以提高后续图像数据识别/分类的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种建立神经网络分类模型的方法流程图；

图2为本发明实施例中一种神经网络模型建立策略示意图；

图3为本发明实施例中一种神经网络训练方法流程图；

图4为本发明实施例中一种分类器结构示意图；

图5为本发明实施例中一种训练结果输出策略示意图；

图6为本发明实施例中一种建立神经网络分类模型的装置结构示意图；

图7为本发明实施例中一种图像数据分类/识别方法流程图；

图8为本发明实施例中一种图像数据分类/识别装置示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

基于视频的动作识别(action recognition)是根据一段视频的内容来预测视频中发生的行为动作(如跑步、打篮球)，如果预先定义好行为类别，行为识别问题可以转化为一个分类(classification)问题来求解。为了在对视频图像进行识别/分类时，减少数据输入时噪声数据所引起的分类模型建立误差，以提高后续视频图像的识别/分类准确度，本实施例公开了一种建立神经网络分类模型的方法，该方法可以通过计算机来实现，请参考图1和图2，其中，图1为该建立神经网络分类模型的方法流程图，图2为本实施公开的一种神经网络结构示意，该建立神经网络分类模型的方法包括：

步骤S100，获取包含目标对象的至少一帧图像数据。所称目标对象为需要识别/分类的对象，在具体实施例中，目标对象的识别/分类可以是物种的识别/分类，也可以是目标对象的行为或动作的识别/分类。在优选的实施例中，请参考图2，获取的至少一帧图像数据可以是单帧图像数据，也可以是包括在时域上连续的若干帧图像1，也可以是包括在时域上非连续的若干帧图像，等等。

步骤S200，分别从各帧图像数据中确定若干个关键区域。本实施例中，所称若干个关键区域中的每个关键区域为至少包含部分目标对象的概率满足预定要求的区域，具体地，预定要求可包括但不限于：概率大于预设概率阈值，或者，按概率从大到小排序后的前若干个，或者，按概率从小到大排序后的后若干个；在可选实施例中，预设概率阈值可以根据经验设定，也可以是最大概率，或者非最大概率的某一概率值，还可以是任一设定的参考概率。通常，关键区域的大小不超过图像数据的大小。在具体实施例中，可以产生一个包围盒(bounding box)的集合{b₁,b₂,…,b_n}，该集合包含至少局部不同的各种包围盒，可选地，可以通过枚举的方式产生包围盒，包围盒的种类(大小、长宽比)及其个数可以根据经验确定，多个包围盒构成的集合遍历每帧图像的像素区域。需要说明的是，在优选的实施例中，当获取的图像数据为在时域上连续的若干帧图像时，包围盒构成的集合需要分别遍历每帧图像的像素区域，各包围盒中的单个包围盒在若干帧图像上的位置相同。

在具体实施例中，可以分别根据多个包围盒覆盖的多个像素区域确定各包围盒的质量得分(bounding box score)。每个包围盒的质量得分用于表征包围盒包含目标对象的概率大小，包围盒的质量得分越高，则表征该包围盒包含目标对象的概率越大；根据各质量得分从多个包围盒中选出若干个包围盒，将若干个包围盒覆盖的像素区域作为若干个关键区域。作为可选的实施例，在选出若干包围盒时，可以按各质量得分从高到低的顺序从多个包围盒中选出若干个包围盒。需要说明的是，在可替换的实施例中，也可以预设阈值，将质量得分超过预设阈值的包围盒所覆盖的像素区域作为关键区域，应当也认为是按质量得分从高到低选出的若干个包围盒覆盖的像素区域。

在优选的实施例中，当获取的图像数据包括在时域上连续的若干帧图像时，根据各质量得分从多个包围盒中选出若干个包围盒包括：确定各包围盒在该若干帧图像上的平均质量得分，其中，各包围盒在若干帧图像上的位置相同，而后，确定各包围盒在若干帧图像上的平均质量得分，根据平均质量得分从多个包围盒中选出若干个包围盒，该若干个包围盒覆盖的像素区域形成关键区域。具体地，可以在光流(optical flow)图像上使用例如Edgebox算法给所有包围盒打分，得到该包围盒区域的质量得分s_i,j，其中，i为视频图像帧号，j为包围盒编号，i取值为1到n，j取值为1到m，其中，n和m为正整数，而后分别求取各包围盒在时域上的平均质量得分，例如时间跨度为L帧的包围盒序列(从第1帧至第L帧)，第j个包围盒b_j的平均质量得分为p_1，j＝(s_1，j+s_2，j+…+s_L，j)/L，即该第j个包围盒区域所包含的包围盒的平均质量得分。而后，根据平均质量得分分别对各包围盒在若干帧图像上进行非极大抑制运算，以确定若干个关键区域，例如，可以将各包围盒在时域上的平均质量得分作为例如非极大抑制(non-maximum suppression)的输入，对每个包围盒在该若干帧图像上进行例如非极大抑制运算，去除该多帧中冗余的包围盒，以便于从剩余的包围盒中提取了关键区域集合，实现了更好地确定关键区域，减少了计算量。

步骤S300，从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入。在具体实施例中，可以基于预设的规则选取关键区域，请参考图2，可以例如随机从关键区域集合中随机采样K个关键区域作为神经网络的数据输入2，图2示例了K＝3，需要说明的是，本实施例并不限制K的取值，具体取值可以根据实际需要或经验确定。

步骤S400，对神经网络进行训练。本实例中，可以采用现有的神经网络结构进行训练，例如googlenet、vgg等神经网络结构。

步骤S500，调整神经网络结构参数。本实施例中，根据神经网络输出的训练结果调整神经网络的结构参数，以实现对神经网络进行训练的目的，从而建立了神经网络分类模型。

为便于本领域技术人员理解，以卷积神经网络结构为例对步骤S400作进一步阐述，请参考图3，对神经网络进行训练包括：

步骤S410，提取与至少一关键区域分别对应的至少一数据特征。请参考图2，在选取多个关键区域作为神经网络的数据输入之后，通过卷积神经网络(ConvolutionalNeural Network，CNN)的卷积层3提取每个关键区域的数据特征，该数据特征可以是关键区域所含对象的轮廓、颜色等信息，还可以是灰度值、像素值等信息。

步骤S420，分别将至少一数据特征转换成与对应的各关键区域分别对应的各分类器的预测输出。本实施例中，各关键区域均一一对应有一个分类器，各分类器的预测输出包含分别与N种图像数据标签对应的N个元素，其中N为大于1的整数；每个元素用于表征对应关键区域属于对应种类图像数据标签的概率。具体地，请参考图2，可以通过非线性转换层4将各关键区域的数据特征转换成各关键区域各自对应的分类器的预测输出5。在具体实施例中，非线性转换层4可以采用但不限于sigmoid函数对各关键区域的数据特征进行非线性转换，从而得到分别针对各关键区域数据的分类器的预测输出5，每个分类器的预测输出为包含N个用于表征对应关键区域所属标签概率的元素所构成的向量，例如分类器向量51、分类器向量52、分类器向量53。以N＝5为例，表征了分类器对应的关键区域具有5种所属标签，请参考图4，为其中一个分类器向量(例如分类器向量51)的构成示例，该分类器向量51包含N＝5个元素，分别为取值范围在0～1之间的数值a、b、c、d、e，该五个元素分别表征了出现属于其所在位置代表的图像数据标签类别的概率。如，当a＝0.3时，表征其对应的关键区域属于第一种标签的概率为0.3；当b＝0.5时，表征其对应的关键区域属于第二种标签的概率为0.5；当e＝0.2时，表征其对应的关键区域属于第五种标签的概率为0.2。

步骤S430，确定各分类器损失函数，以得到训练结果。本实施例中，根据各分类器的预测输出分别确定各分类器的损失函数，请参考图2，通过损失函数层6计算各分类器的损失函数。在具体实施例中，损失函数定义为：loss_u＝-([label＝u]log(p_u)+[label≠u]log(1-p_u))，其中，u为整数，且1≤u≤N，loss_u为第u个逻辑斯蒂回归器的损失函数，label为关键区域的标签，[.]为示性函数，p_u为第u个逻辑斯蒂回归器的响应输出。需要说明的是，本实施例中，逻辑斯蒂回归器的个数与分类器5的维数相同，并且，各逻辑斯蒂回归器对应为一种视频标签。需要说明的是，在优选的实施例中，还可以对整个网络进行损失函数进行计算，具体地，如图2符号“+”所示，整个网络的损失函数为所有这N个损失函数的加和。在神经网络的训练过程中，通过进行损失函数的计算，并根据损失函数计算结果作为训练结果回传至神经网络结构中的神经元，以调整神经网络结构中各参数，从而优化神经网络结构的参数。

在执行步骤S500时，可以分别选取各分类器的预测输出中每个种类图像数据标签对应的各元素中的最大值作为训练结果输出，以调整神经网络的结构参数，从而建立神经网络分类模型。请参考图5，以K＝3为例，对应有三个分类器：在维度a中，三个元素分别为0.5、0.2和0.2；在维度b中，三个元素分别为0.7、0.4和0.5；在维度c中，三个元素分别为0.3、0.6和0.3；在维度d中，三个元素分别为0.2、0.4和0.5；在维度e中，三个元素分别为0.6、0.5和0.1。因此，在输出训练结果时，a＝0.5，b＝0.7，c＝0.6，d＝0.5，e＝0.6。

在优选的实施例中，在执行步骤S500时，也可以采用概率输出和最大输出的混合方式输出训练结果，具体地，在执行步骤S500之前，还包括：确定N种图像数据标签中学习的图像数据标签，如图2中“i”所示，在执行步骤S500时，对于各分类器的预测输出中与学习的图像数据标签对应的各元素，以各元素分别与各元素之和的比值分别作为各元素被随机选择的概率，随机选择的各元素作为训练结果输出。对于各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。以学习的视频种类为标签2为例：对于第2维元素，将各分类器中第2维的元素按照概率输出元素值，请参考图5，将维度b中的元素按概率输出，维度b中三个元素的被随机选择的概率分别为0.7/(0.7+0.4+0.5)＝7/16、0.4/(0.7+0.4+0.5)＝4/16和0.5/(0.7+0.4+0.5)＝5/16，因此，维度b分别以7/16、4/16和5/16的概率输出0.7、0.4和0.5。对于其他维(例如维度a、c、d和e)元素则以元素最大的值作为训练结果输出。即：在输出神经网络的训练结果时：对于学习的图像数据标签号i，对各分类器第i维的元素值求和得到第i维元素总和

式中，

为第u个分类器第i维元素值，K为分类器的个数，第u个分类器第i维元素值

以

的概率输出；对于其他维元素中，将分类器中该维中元素最大的值输出作为该维元素值，使得网络能够自动选取和行为相关的区域。

本实施例还公开了一种建立神经网络分类模型的装置，请参考图6，该视频图像处理装置包括：图像数据获取单元100、关键区域确定单元200、数据输入选取单元300和调整单元400，其中，

图像数据获取单元100用于获取包含目标对象的至少一帧图像数据；关键区域确定单元200用于分别从各帧图像数据中确定若干个关键区域，若干个关键区域中的每个关键区域为至少包含部分目标对象的概率满足预定要求的区域；数据输入选取单元300用于从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对神经网络进行训练；调整单元400用于根据神经网络输出的训练结果调整神经网络的结构参数，以建立神经网络分类模型。

在优选的实施例中，关键区域确定单元200包括：包围盒生成单元，用于生成多个包围盒，多个包围盒分别覆盖至少局部不同的多个像素区域；质量评价单元，分别根据多个包围盒覆盖的多个像素区域确定各包围盒的质量得分，每个包围盒的质量得分用于表征包围盒包含目标物体的概率大小；包围盒选取单元，用于根据各质量得分从多个包围盒中选出若干个包围盒，将若干个包围盒覆盖的像素区域作为若干个关键区域。

在优选的实施例中，包围盒选取单元用于按各质量得分从高到低的顺序从多个包围盒中选出若干个包围盒。

在优选的实施例中，包围盒选取单元包括：平均质量得分单元，用于确定各包围盒在若干帧图像上的平均质量得分，其中，各包围盒在若干帧图像上的位置相同；包围盒确定单元，用于根据平均质量得分从多个包围盒中选出若干个包围盒。

在优选的实施例中，训练单元包括：特征提取子单元，用于提取与至少一关键区域分别对应的至少一数据特征；转换子单元，用于分别将至少一数据特征转换成与对应的各关键区域分别对应的各分类器的预测输出，各分类器的预测输出包含分别与N种图像数据标签对应的N个元素，其中N为大于1的整数；每个元素用于表征对应关键区域属于对应种类图像数据标签的概率；损失确定子单元，用于根据各分类器的预测输出分别确定各分类器的损失函数，以得到训练结果。

在优选的实施例中，调整单元400包括：第一子单元，用于分别选取各分类器的预测输出中每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

在优选的实施例中，该视频图像处理装置还包括：标签获取单元，用于确定N种图像数据标签中的学习的图像数据标签；调整单元400包括：第二子单元，用于对于各分类器的预测输出中与学习的图像数据标签对应的各元素，以各元素分别与各元素之和的比值分别作为各元素被随机选择的概率，随机选择的各元素作为训练结果输出；第三子单元，用于对于各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

本实施例还公开了一种建立神经网络分类模型的系统，包括：图像获取装置，用于获取图像数据；存储器，用于存储程序；处理器，接收图像获取装置所获取的图像数据，用于执行程序以实现上述的建立神经网络分类模型的方法中的操作。

发明人在实践本发明实施例过程中发现，现有技术中，大部分的采样区域和标签所描述的行为并无关系，因而让这些采样继承视频的标签是不合理的。本实施例公开的建立神经网络分类模型的方法、装置及系统，分别从各帧图像数据中确定若干个关键区域，并从若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，由于关键区域包含目标对象的概率满足预定要求，因此，在对神经网络进行训练时，相对于继承标签的采样区域作为数据输入，能够有效地去除噪声，从而，可以提高后续图像数据识别/分类的准确度。

图像数据包括在时域上连续的若干帧图像，例如一般时间跨度为10帧的视频图像中，当一段被标注为“跑步”的视频可能还包括跑步之前的准备动作，以及跑步过程中背景中其他人的非跑步活动，把这些区域的采样标记为“跑步”显然是不合理的，并且会干扰分类器的训练。在优选的实施例中，求取各包围盒在时域上的平均质量得分，以确定关键区域，由此，可以减少噪声数据，从而实现了将二维图像的数据采样拓展到了三维视频上，提高了视频图像中目标对象识别/分类的准确度。

在优选的实施例中，各分类器的损失函数采用逻辑斯蒂回归器计算，从而避免了对关键区域数据输入进行归一化处理，在没有归一化处理的限制下，使得基于神经网络的视频图像处理方法应用的范围更广，可以完成多示例的学习。

在优选的实施例中，在输出神经网络的训练结果时，对于各分类器的预测输出中与学习的图像数据标签对应的各元素，以各元素分别与各元素之和的比值分别作为各元素被随机选择的概率，随机选择的各元素作为训练结果输出；对于各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出，使得网络能够自动选取和行为相关的区域。

本实施例还公开了一种基于采用上述方法建立而得的神经网络分类模型的图像数据分类方法，请参考图7，该分类/识别方法包括：

步骤S10，建立神经网络分类模型。本实施例中，根据上述建立神经网络分类模型的方法建立神经网络分类模型。需要说明的是，本实施例中，步骤S10是在训练神经网络时执行，在神经网络训练完成后，可不再执行该步骤。

步骤S20，获取待分类的图像数据。

步骤S30，将待分类的图像数据输入神经网络分类模型，得到对待分类的图像数据的分类结果。

本实施例还公开了一种基于采用上述装置建立而得到的神经网络分类模型的图像数据分类装置，请参考图8，该分类/识别装置包括：建立模型单元10、特征获取单元20和分类单元30，其中：

上述的建立神经网络分类模型的装置10；待分类图像获取单元20用于获取待分类的图像数据；分类单元30用于将待分类的图像数据输入神经网络分类模型，得到对待分类的图像数据的分类结果。

本实施例还公开了一种图像数据分类系统，包括：图像获取装置，用于获取图像数据；存储器，用于存储程序；处理器，接收图像获取装置所获取的图像数据，用于执行程序以实现上述基于视频图像的分类方法中的操作。

本实施例公开的基于视频图像的分类方法、装置及系统，由于采用了上述建立神经网络分类模型的方法或装置建立神经网络分类模型，因此，能够减少建立模型时数据输入的噪声干扰，提高了模型建立的准确度，从而使得分类结果更为准确。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种建立神经网络分类模型的方法，其特征在于，包括：

获取包含目标对象的至少一帧图像数据；

分别从各帧图像数据中确定若干个关键区域，所述若干个关键区域中的每个关键区域为至少包含部分所述目标对象的概率满足预定要求的区域；

从所述若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对所述神经网络进行训练；

根据所述神经网络输出的训练结果调整所述神经网络的结构参数，以建立神经网络分类模型；

其中，所述分别从各帧图像数据中确定若干个关键区域包括：

生成多个包围盒，所述多个包围盒分别覆盖至少局部不同的多个像素区域；

分别根据所述多个包围盒覆盖的所述多个像素区域确定各包围盒的质量得分，每个包围盒的质量得分用于表征所述包围盒包含所述目标物体的概率大小；

根据各所述质量得分从所述多个包围盒中选出若干个包围盒，将所述若干个包围盒覆盖的像素区域作为所述若干个关键区域；

所述图像数据包括在时域上连续的若干帧图像；

所述根据各所述质量得分从所述多个包围盒中选出若干个包围盒，包括：

确定各包围盒在所述若干帧图像上的平均质量得分，其中，各包围盒在所述若干帧图像上的位置相同；

根据所述平均质量得分从所述多个包围盒中选出若干个包围盒。

2.如权利要求1所述的方法，其特征在于，所述根据各所述质量得分从所述多个包围盒中选出若干个包围盒，包括：

按各所述质量得分从高到低的顺序从所述多个包围盒中选出若干个包围盒。

3.如权利要求1所述的建立神经网络分类模型的方法，其特征在于，所述根据所述平均质量得分从所述多个包围盒中选出若干个包围盒包括：根据所述平均质量得分分别对各包围盒在所述若干帧图像上进行非极大抑制运算，以确定所述若干个关键区域。

4.如权利要求1所述的建立神经网络分类模型的方法，其特征在于，所述对所述神经网络进行训练包括：

提取与所述至少一关键区域分别对应的至少一数据特征；

分别将所述至少一数据特征转换成与对应的各关键区域分别对应的各分类器的预测输出，所述各分类器的预测输出包含分别与N种图像数据标签对应的N个元素，其中N为大于1的整数；每个元素用于表征对应关键区域属于对应种类图像数据标签的概率；

根据所述各分类器的预测输出分别确定所述各分类器的损失函数，以得到所述训练结果。

5.如权利要求4所述的建立神经网络分类模型的方法，其特征在于，采用如下公式确定所述各分类器的损失函数：

loss_u＝-([label＝u]log(p_u)+[label≠u]log(1-p_u))，其中，所述u为整数，且1≤u≤N，loss_u为第u个逻辑斯蒂回归器的损失函数，label为所述关键区域的标签，[.]为示性函数，p_u为第u个逻辑斯蒂回归器的概率预测。

6.如权利要求4或5所述的建立神经网络分类模型的方法，其特征在于，所述输出所述神经网络的训练结果包括：

分别选取所述各分类器的预测输出中每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

7.如权利要求4或5所述的建立神经网络分类模型的方法，其特征在于，在所述输出所述神经网络的训练结果之前，还包括：

确定所述N种图像数据标签中的学习的图像数据标签；

所述输出所述神经网络的训练结果包括：

对于所述各分类器的预测输出中与所述学习的图像数据标签对应的各元素，以所述各元素分别与所述各元素之和的比值分别作为所述各元素被随机选择的概率，随机选择所述各元素作为训练结果输出；

对于所述各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

8.一种基于采用如权利要求1-7任一所述的方法建立而得的神经网络分类模型的图像数据分类方法，其特征在于，包括：

获取待分类的图像数据；

将所述待分类的图像数据输入所述神经网络分类模型，得到对所述待分类的图像数据的分类结果。

9.一种建立神经网络分类模型的装置，其特征在于，包括：

图像数据获取单元，用于获取包含目标对象的至少一帧图像数据；

关键区域确定单元，用于分别从各帧图像数据中确定若干个关键区域，所述若干个关键区域中的每个关键区域为至少包含部分所述目标对象的概率满足预定要求的区域；

数据输入选取单元，用于从所述若干个关键区域中选取至少一个关键区域作为神经网络的数据输入，对所述神经网络进行训练；

调整单元，用于根据所述神经网络输出的训练结果调整所述神经网络的结构参数，以建立神经网络分类模型；

其中，所述关键区域确定单元包括：

包围盒生成单元，用于生成多个包围盒，所述多个包围盒分别覆盖至少局部不同的多个像素区域；

质量评价单元，分别根据所述多个包围盒覆盖的所述多个像素区域确定各包围盒的质量得分，每个包围盒的质量得分用于表征所述包围盒包含所述目标物体的概率大小；

包围盒选取单元，用于根据各所述质量得分从所述多个包围盒中选出若干个包围盒，将所述若干个包围盒覆盖的像素区域作为所述若干个关键区域；

所述包围盒选取单元包括：

平均质量得分单元，用于确定各包围盒在所述若干帧图像上的平均质量得分，其中，各包围盒在所述若干帧图像上的位置相同；

包围盒确定单元，用于根据所述平均质量得分从所述多个包围盒中选出若干个包围盒。

10.如权利要求9所述的建立神经网络分类模型的装置，其特征在于，所述包围盒选取单元用于按各所述质量得分从高到低的顺序从所述多个包围盒中选出若干个包围盒。

11.如权利要求9或10所述的建立神经网络分类模型的装置，其特征在于，所述训练单元包括：

特征提取子单元，用于提取与所述至少一关键区域分别对应的至少一数据特征；

转换子单元，用于分别将所述至少一数据特征转换成与对应的各关键区域分别对应的各分类器的预测输出，所述各分类器的预测输出包含分别与N种图像数据标签对应的N个元素，其中N为大于1的整数；每个元素用于表征对应关键区域属于对应种类图像数据标签的概率；

损失确定子单元，用于根据所述各分类器的预测输出分别确定所述各分类器的损失函数，以得到所述训练结果。

12.如权利要求11所述的建立神经网络分类模型的装置，其特征在于，所述调整单元包括：

第一子单元，用于分别选取所述各分类器的预测输出中每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

13.如权利要求11所述的建立神经网络分类模型的装置，其特征在于，还包括：

标签获取单元，用于确定所述N种图像数据标签中的学习的图像数据标签；

所述输出单元包括：

第二子单元，用于对于所述各分类器的预测输出中与所述学习的图像数据标签对应的各元素，以所述各元素分别与所述各元素之和的比值分别作为所述各元素被随机选择的概率，随机选择所述各元素作为训练结果输出；

第三子单元，用于对于所述各分类器的预测输出中的其他元素，将每个种类图像数据标签对应的各元素中最大的值作为训练结果输出。

14.一种基于采用如权利要求9-13任意一项所述装置建立而得到的神经网络分类模型的图像数据分类装置，其特征在于，包括：

待分类图像获取单元，用于获取待分类的图像数据；

分类单元，用于将所述待分类的图像数据输入所述神经网络分类模型，得到对所述待分类的图像数据的分类结果。

15.一种建立神经网络分类模型的系统，其特征在于，包括：

图像获取装置，用于获取图像数据；

存储器，用于存储程序；

处理器，接收所述图像获取装置所获取的所述图像数据，用于执行所述程序以实现如权利要求1-7任意一项所述方法中的操作。

16.一种图像数据分类系统，其特征在于，包括：

图像获取装置，用于获取图像数据；

存储器，用于存储程序；

处理器，接收所述图像获取装置所获取的所述图像数据，用于执行所述程序以实现如权利要求8所述方法中的操作。