CN114127799A

CN114127799A - 图像识别评价程序、图像识别评价方法、评价装置以及评价系统

Info

Publication number: CN114127799A
Application number: CN202080051729.5A
Authority: CN
Inventors: 菅原俊; 田口贤佑
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2019-07-19
Filing date: 2020-06-10
Publication date: 2022-03-01
Also published as: EP4002270A4; WO2021014809A1; US20220270351A1; JP7148462B2; JP2021018576A; EP4002270A1

Abstract

图像识别评价程序由对进行图像分割的图像识别装置的识别精度进行评价的评价装置来执行，使评价装置执行如下：对输入到图像识别装置中的输入图像进行图像加工，生成多个加工输入图像，将生成的多个加工输入图像向图像识别装置输入，基于图像识别装置进行图像分割，从而获取被类别分类的多个输出图像，基于获取的多个输出图像，计算输出图像的方差值。

Description

图像识别评价程序、图像识别评价方法、评价装置以及评价系统

技术领域

本发明涉及图像识别评价程序、图像识别评价方法、评价装置以及评价系统。

背景技术

作为图像识别技术，已知一种使用Fully Convolutional Network(FCN：全卷积网络)的Semantic Segmentation(语义分割)(例如参照非专利文献1)。语义分割对作为输入图像而被输入的数字图像以像素为单位进行类别分类(推断(inference))。即，语义分割对数字图像的各像素进行类别分类，作为推断结果，通过对分类后的各像素标注种类，从而将数字图像分割为多个种类的图像区域，作为输出图像输出。

另外，作为评价图像识别精度的技术，已知一种被称为Bayesian SegNet的方法(例如参照非专利文献2)。在Bayesian SegNet中，利用被称为DropOut的方法使Network的内部状态随机地振动，计算推断结果的波动。而且，在计算出的推断结果大幅地波动的情况下，判定为可靠度(识别精度)较低，在计算出的推断结果不波动的情况下，判定为可靠度(识别精度)较高。

现有技术文献

非专利文献

非专利文献1：Hengshuang Zhao,et al."Pyramid scene parsing network"IEEEConf.on Computer Vision and Pattern Recognition(CVPR).2017

非专利文献2：Alex Kendall,et al."Bayesian SegNet:Model Uncertainty inDeep Convolutional Encoder-Decoder Architectures for Scene Understanding"arXiv:1511.02680v2[cs.CV],10Oct 2016

发明内容

发明所要解决的问题

在非专利文献2中，由于使Network的内部状态随机地振动，因此需要变更Network构造。在此，作为评价的Network，存在Network构造被黑箱化的所谓Black Box Network。在该情况下，在非专利文献2中，以变更Network构造为前提，但另一方面，无法对Black BoxNetwork进行变更。因此，对于Black Box Network，无法应用非专利文献2的方法，难以进行Network的识别精度的评价。

本发明目的在于提供一种即使图像识别装置被黑箱化，也能够评价图像识别装置的识别精度的图像识别评价程序、图像识别评价方法、评价装置、以及评价系统。

解决问题的技术手段

方式之一的图像识别评价程序，该图像识别评价程序由对进行图像分割的图像识别装置的识别精度进行评价的评价装置来执行，其中，使所述评价装置执行如下：对输入到所述图像识别装置中的输入图像进行图像加工，生成多个加工输入图像，将生成的所述多个加工输入图像向所述图像识别装置输入，由于所述图像识别装置进行图像分割，从而获取被类别分类的多个输出图像，基于获取到的所述多个输出图像，计算所述输出图像的方差值。

方式之一的图像识别评价方法，该图像识别评价方法由对进行图像分割的图像识别装置的识别精度进行评价的评价装置来执行，其中，所述图像识别评价方法执行如下：对输入到所述图像识别装置中的输入图像进行图像加工，生成多个加工输入图像，将生成的所述多个加工输入图像向所述图像识别装置输入，进行基于所述图像识别装置的图像分割，获取被类别分类的多个输出图像，基于获取的所述多个输出图像，计算所述输出图像的方差值。

方式之一的评价装置，该评价装置评价进行图像分割的图像识别装置的识别精度，其中，具有：输入输出部，将输入图像输入至所述图像识别装置，并获取由所述图像识别装置生成的输出图像；以及控制部，对输入至所述图像识别装置的所述输入图像进行图像加工，生成多个加工输入图像，将生成的所述多个加工输入图像向所述图像识别装置输入，由所述图像识别装置进行图像分割，获取被类别分类的所述多个输出图像，基于获取的所述多个输出图像，计算所述输出图像的方差值。

方式之一的评价系统，其中，具有：上述评价装置；以及所述图像识别装置，对从所述评价装置输入的所述多个加工输入图像进行图像分割，将被类别分类的所述多个输出图像输出至所述评价装置。

附图说明

图1是表示实施方式的评价系统的概要的图。

图2是表示实施方式的评价系统的评价时的功能的概要的图。

图3是表示输入图像、加工输入图像、输出图像的一例的图。

图4是表示将输入图像和输出图像重合后的图像、方差图像的一例的图。

图5是表示与图像识别装置的评价相关的处理的一例的图。

具体实施方式

参照附图对本申请的实施方式进行详细说明。在以下的说明中，有时对相同的构成要素标注相同的附图标记。进而，有时省略重复的说明。另外，在对本申请的实施方式进行说明的方面，也省略对没有密切关联的内容的说明以及图示。

(实施方式)

图1是表示实施方式的评价系统的概要的图。图2是表示实施方式的评价系统的评价时的功能的概要的图。评价系统1是评价基于图像识别装置5的图像识别的精度的系统，构成为包括成为评价对象的图像识别装置5、以及用于评价图像识别装置5的评价装置6。在评价系统1中，图像识别装置5和评价装置6以能够通信数据的方式双向连接。此外，在本实施方式中，评价系统1构成为图像识别装置5和评价装置6分别独立的分体的结构，但该结构没有特别限定。评价系统1也可以构成为图像识别装置5和评价装置6一体的单个装置。

图像识别装置5识别被输入的输入图像I中包含的物体，并将识别到的结果作为输出图像O输出。图像识别装置5将在照相机等拍摄装置中被拍摄到的摄影图像作为输入图像I输入。此外，虽然后面将详细说明，但在评价时，将在评价装置6中生成的加工输入图像Ia输入到图像识别装置5中。

图像识别装置5对输入图像I进行图像分割。图像分割是指对数字图像的分割后的图像区域进行类别标记，也称类别推断(类别分类)。即，图像分割是指，判别数字图像的分割后的规定的图像区域属于哪一种类别，通过标注用于识别图像区域所示的类别的标识符(种类)，从而将图像区域分割成多个种类。图像识别装置5将对输入图像I进行图像分割(类别推断)后的图像作为输出图像O输出。

图像识别装置5设置于例如车的车载识别照相机中。车载识别照相机以规定的帧频对车的行驶状况进行实时地拍摄，将拍摄到的摄影图像向图像识别装置5输入。图像识别装置5获取以规定的帧频输入的摄影图像作为输入图像I。图像识别装置5将输入图像I中包含的物体类别分类，将被类别分类的图像作为输出图像O以规定的帧频输出。此外，图像识别装置5并不限于搭载于车载识别照相机，也可以设置于其他装置。

图像识别装置5具有控制部11、存储部12、以及图像识别部13。存储部12存储程序以及数据。另外，存储部12也可以作为暂时地存储控制部11的处理结果的操作区域来利用。存储部12可以包括半导体存储设备、以及磁存储设备等任意的存储设备。另外，存储部12也可以包括多种存储设备。另外，存储部12也可以包括存储卡等便携式的存储介质与存储介质的读取装置的组合。

控制部11统筹地控制图像识别装置5的动作来实现各种功能。控制部11例如包括CPU(Central Processing Unit)等集成电路。具体而言，控制部11执行存储于存储部12中的程序所含的命令，通过控制图像识别部13等来实现各种功能。控制部11例如通过执行与图像识别相关的程序，来执行基于图像识别部13的图像识别。

图像识别部13包括GPU(Graphics Processing Unit)等集成电路。图像识别部13进行例如使用了语义分割的图像分割。语义分割对输入图像I的各像素进行类别推断，通过对分类别后的各像素标记种类，从而将输入图像I按多个种类进行区域分割。当输入图像I被输入时，图像识别部13通过进行图像分割，从而将输入图像I的每个像素进行类别分类后的图像作为输出图像O输出。

图像识别部13进行使用了全部由卷积层构成的FCN(Fully ConvolutionalNetwork)等神经网络(以下简称网络)的图像分割。图像识别部13使用学习完毕的网络，例如是一种不清楚进行了怎样的学习的黑箱化后的网络。图像识别部13具有编码器22和解码器23。

编码器22对输入图像I执行编码处理。编码处理是一边生成提取了输入图像I的特征量的特征映射(Feature Map)、一边执行降低特征映射的分辨率的下采样(也称为池化)的处理。具体而言，在编码处理中，在卷积层和池化层中对输入图像I进行处理。在卷积层中，使用于提取输入图像I的特征量的内核(滤波器)在输入图像I中以规定的步长(stride)移动。然后，在卷积层中，基于卷积层的权重，进行用于提取输入图像I的特征量的卷积计算，通过该卷积计算生成提取了特征量的特征映射。生成的特征映射以与内核的通道数量对应的数量生成。在池化层中，缩小提取了特征量的特征映射，生成成为低分辨率的特征映射。在编码处理中，通过多次反复执行卷积层中的处理和池化层中的处理，生成具有下采样后的特征量的特征映射。

解码器23对编码处理后的特征映射执行解码处理。解码处理是执行提高特征映射的分辨率的上采样(也称为解池化)的处理。具体而言，解码处理在逆卷积层和解池化层中对特征映射进行处理。在解池化层中，放大包含特征量的低分辨率的特征映射，生成成为高分辨率的特征映射。在逆卷积层中，基于逆卷积层的权重执行用于使特征映射中包含的特征量复原的逆卷积计算，通过该计算生成使特征量复原的特征映射。然后，在解码处理中，通过多次反复执行解池化层中的处理和逆卷积层中的处理，来生成被上采样且被区域分割的图像即输出图像O。输出图像O被上采样直至具有与输入到图像识别部7的输入图像I相同的分辨率。

如上所示，图像识别部13对输入图像I执行编码处理以及解码处理，通过以像素单位进行类别推断(类别分类)，从而进行输入图像I的图像分割。然后，图像识别部13输出将输入图像I按类别进行了区域分割的图像作为输出图像O。

评价装置6评价图像识别装置5的识别精度。评价装置6对输入至图像识别装置5中的输入图像I进行加工，并且基于从图像识别装置5输出的输出图像O来评价识别精度。

评价装置6具有控制部15、存储部16、输入输出部17。此外，存储部16具有与图像识别装置5的存储部12几乎相同的结构，因此省略对其的说明。

输入输出部17是用于与图像识别装置5之间进行各种数据的输入输出的接口，向图像识别装置5输入作为加工后的输入图像I的加工输入图像Ia，并且获取由图像识别装置5生成的输出图像O。

控制部15统筹地控制评价装置6的动作来实现各种功能。控制部15包括例如CPU(Central Processing Unit)等集成电路。具体而言，控制部15执行存储于存储部16中的程序所含的命令，通过控制输入输出部17等来实现各种功能。控制部15通过执行例如与图像识别装置5的评价相关的图像识别评价程序P，从图像识别装置5获取输出图像O，基于获取到的输出图像O来评价图像识别装置5的识别精度。另外，控制部15通过执行图像识别评价程序P，对输入至图像识别装置5中的输入图像I进行加工，生成加工输入图像Ia。

如图2所示，当评价装置6获取输入图像I时，评价系统1对输入图像I进行加工而生成加工输入图像Ia，并将生成的加工输入图像Ia向图像识别部13输入。图像识别部13通过对加工输入图像Ia执行编码处理以及解码处理，从而进行加工输入图像Ia的图像分割。然后，图像识别部13向评价装置6输出将加工输入图像Ia按类别进行了区域分割的图像作为输出图像O。评价装置6获取输出图像O，基于获取到的输出图像O，生成用于评价图像识别装置5的方差图像(variance image)V。

此外，在图像识别装置5和评价装置6是一体的单个装置的情况下，控制部11以及控制部15可以是同一个控制部，另外，存储部12以及存储部16也可以是同一个存储部。

接着，参照图3和图4，对输入图像I、加工输入图像Ia、输出图像O、以及方差图像V进行说明。图3是表示输入图像、加工输入图像、输出图像的一例的图。图4是表示将输入图像和输出图像重合后的图像、方差图像的一例的图。

输入图像I是由多个像素(pixel)构成的数字图像。输入图像I例如是由设置于照相机等的拍摄装置的拍摄元件生成的与拍摄元件的像素数对应的分辨率的图像。即，输入图像I是未进行用于提高图像的像素数的上采样处理或者用于降低图像的像素数的下采样处理的高分辨率的原始的原图像。

加工输入图像Ia是对输入图像I进行图像加工后的图像。在图3中，作为加工输入图像Ia的加工例，图示了图像加工例1至图像加工例3。作为图像加工，例如有柏林噪声加工、高斯噪声加工、伽马转换加工、白平衡加工、模糊加工等。图像加工例1的加工输入图像Ia是对输入图像I进行了伽马转换加工的图像。图像加工例2的加工输入图像Ia是对输入图像I进行了高斯噪声加工的图像。图像加工例3的加工输入图像Ia是对输入图像I进行了白平衡加工的图像。

输出图像O按类别被区域分割。类别包括例如输入图像I中包含的物体，是人、车、道路、建筑物等。输出图像O以像素单位对每个物体进行类别分类，通过标记对每个像素单位(像素单位)分类的类别，按每个类别进行区域分割。在图3中，例如被分类为人、车、道路、天空等类别。另外，作为输出图像O，存在与加工输入图像Ia对应的输出图像O。在图4中，图示了与图像加工例1至图像加工例3的加工输入图像Ia对应的输出图像例1至输出图像例3。输出图像例1的输出图像O是与图像加工例1的加工输入图像Ia对应的输出图像。输出图像例2的输出图像O是与图像加工例2的加工输入图像Ia对应的输出图像。输出图像例3的输出图像O是与图像加工例3的加工输入图像Ia对应的输出图像。在图3所示的例子中，在输出图像例1至输出图像例3中，是降低了识别精度的输出图像O。此外，图3的输出图像O是一例，但不特别限定于此类别分类。另外，输出图像O是与输入图像I相同的分辨率。

图4所示的图像的上侧的图像是使输入图像I与输出图像O重合的图像，下侧的图像是基于输入图像I以及输出图像O的方差图像V。方差图像V是使用多个输出图像O而生成的，其中，多个输出图像O是通过对输入图像I进行图像加工而生成多个加工输入图像Ia，并将所生成的多个加工输入图像Ia向图像识别装置5输入而生成的。在此，在生成方差图像V的情况下，也可以使用与改变图像加工的种类而生成的多个加工输入图像Ia对应的多个输出图像O。另外，在生成方差图像V的情况下，也可以使用与通过不改变图像加工的种类而随机地进行图像加工所生成的多个加工输入图像Ia对应的多个输出图像O。

具体而言，方差图像V是基于多个输出图像O对各像素中的方差值进行可视化后的图像。在方差图像V中，白色图像区域是方差值低的区域，黑色图像区域是方差值高的区域。即，在多个输出图像O的规定的像素中的类别被分散的情况下，方差图像V的规定的像素中的方差值被设定得较高而成为黑色图像区域。另一方面，在多个输出图像O的规定的像素中的类别未被分散的情况下，方差图像V的规定的像素中的方差值被设定得较低而成为白色图像区域。这样，方差图像V是按每个像素设定了方差值的图像。

接着，参照图5，对基于评价装置6的与图像识别装置5的评价相关的处理进行说明。图5是表示与图像识别装置的评价相关的处理的一例的图。

首先，输入到图像识别装置5中的输入图像I被输入至评价装置6(步骤S1)。于是，评价装置6的控制部11对输入图像I进行图像加工，生成多个加工输入图像Ia(步骤S2)。在步骤S2中，可以通过对输入图像I多次进行规定的种类的图像加工，生成多个加工输入图像Ia；也可以通过进行不同的多个种类的图像加工，生成多个加工输入图像Ia；还可以通过进行二者，生成多个加工输入图像Ia。另外，在对输入图像I进行图像加工的情况下，以预先设定的扰动范围内的加工度进行输入图像I的图像加工。在此，作为扰动范围，是即使对映入在输入图像I中的物体进行图像加工也能够识别的范围。

接着，评价装置6将所生成的多个加工输入图像Ia向图像识别装置5输入(步骤S3)。当输入加工输入图像Ia时，图像识别部13对加工输入图像Ia执行编码处理(步骤S4)。图像识别部13通过执行编码处理，生成包含被下采样的特征量的特征映射。图像识别部13对包含被下采样的特征量的特征映射执行解码处理(步骤S5)。图像识别部13通过执行解码处理，一边复原包含特征量的特征映射一边进行上采样，成为与加工输入图像Ia相同的分辨率。然后，图像识别部13执行将图像以像素单位按类别进行区域分割的类别推断(步骤S6)。图像识别部13生成输出图像O，通过将所生成的输出图像O向评价装置6输出，评价装置6获取输出图像O，作为类别推断的结果(步骤S7)。根据加工输入图像Ia的数量而多次执行步骤S4至步骤S6，在步骤S7中获取与多个加工输入图像Ia对应的多个输出图像O。

接着，评价装置6基于获取到的多个输出图像O，来计算输出图像O的方差值(步骤S8)。在步骤8中，使用多个输出图像O，来计算各像素中的类别的方差值。之后，评价装置6基于各像素中的类别的方差值，生成并获取方差图像V(步骤S9)。

接着，评价装置6判定输出图像O的方差值是否大于预先设定的阈值(步骤S10)。在此，阈值是用于判定基于图像识别装置5的类别分类的推定是否处于点推定状态的值。点推定状态是指，在图像识别装置5的学习中，进行鲁棒性低的学习，因此在图像识别装置5的推定时，会进行峰值(敏感)推定的状态。具体而言，点推定状态是指，在图像识别装置5的学习中，在进行了仅使用了物体的正面的图像的学习的情况下，在图像识别装置5的推定时，仅能够利用物体的正面的图像进行物体的推定，而难以利用物体的背面的图像推定物体的状态。另外，在步骤S10中，具体而言，判定输出图像O的类别的方差值是否大于预先设定的阈值，并按类别判定该推定是否处于点推定状态。

在输出图像O的(类别的)方差值大于阈值的情况下(步骤S10：是)，评价装置6判定图像识别装置5处于点推定状态(步骤S11)。另一方面，在输出图像O的(类别的)方差值为阈值以下的情况(步骤S10：否)下，评价装置6判定图像识别装置5未处于点推定状态(步骤S12)。

如上所述，在实施方式的图像识别装置5的评价中，通过进行输入图像I的图像加工，从而使输入图像I扰动，将扰动后的输入图像I即加工输入图像Ia向图像识别装置5输入，能够计算输出图像O的方差值。因此，即使图像识别装置被黑箱化，也能使输入图像I扰动，通过进行基于方差值的评价，能够适当地评价图像识别装置5的识别精度。

另外，在实施方式的图像识别装置5的评价中，由于能够计算输出图像O的各像素中的类别的方差值，因此能够适当地评价以类别单位表示的图像识别装置5的识别精度。

另外，在实施方式的图像识别装置5的评价中，通过比较输出图像O的方差值与预先设定的阈值，能够适当地判定图像识别装置5是否处于点推定状态。

另外，在实施方式的图像识别装置5的评价中，能够使用柏林噪声加工、高斯噪声加工、伽马转换加工、白平衡加工、模糊加工等各种的图像加工。因此，由于能够对输入图像I进行多种扰动，因此能够进行对图像识别装置5的多种的识别精度的评价。

此外，在本实施方式中，图像识别装置5虽然进行了使用了语义分割的图像分割，但并不限定于此。作为用于图像识别的网络，也可以使用其他的神经网络。

附图标记说明

1评价系统

5图像识别装置

6评价装置

11控制部

12存储部

13图像识别部

15控制部

16存储部

17输入输出部

22编码器

23解码器

P图像识别评价程序

I输入图像

Ia加工输入图像

O输出图像

V方差图像

Claims

1.一种图像识别评价程序，由对进行图像分割的图像识别装置的识别精度进行评价的评价装置来执行，其中，

使所述评价装置执行如下：

对输入到所述图像识别装置中的输入图像进行图像加工，生成多个加工输入图像，

将生成的所述多个加工输入图像向所述图像识别装置输入，由所述图像识别装置进行图像分割，从而获取被类别分类的多个输出图像，

基于获取的所述多个输出图像，计算所述输出图像的方差值。

2.如权利要求1所述的图像识别评价程序，其中，

所述输出图像的所述方差值是与所述输出图像的各像素建立对应关系的类别的方差值。

3.如权利要求2所述的图像识别评价程序，其中，

预先设定用于判定基于所述图像识别装置的类别分类的推定是否处于点推定状态的阈值，

还使所述评价装置执行：基于算出的所述输出图像的所述方差值和所述阈值，判定是否处于点推定状态。

4.如权利要求1至3中任一项所述的图像识别评价程序，其中，

所述图像加工包括柏林噪声加工、高斯噪声加工、伽马转换加工、白平衡加工、模糊加工中的至少一种加工。

5.一种图像识别评价方法，由对进行图像分割的图像识别装置的识别精度进行评价的评价装置执行，其中，所述图像识别评价方法执行如下：

将生成的所述多个加工输入图像向所述图像识别装置输入，进行基于所述图像识别装置的图像分割，获取被类别分类的多个输出图像，

6.一种评价装置，评价进行图像分割的图像识别装置的识别精度，其中，

具有：

输入输出部，将输入图像输入至所述图像识别装置，并获取由所述图像识别装置生成的输出图像；以及

控制部，对输入至所述图像识别装置的所述输入图像进行图像加工，生成多个加工输入图像，将生成的所述多个加工输入图像向所述图像识别装置输入，由所述图像识别装置进行图像分割，获取被类别分类的所述多个输出图像，基于获取的所述多个输出图像，计算所述输出图像的方差值。

7.一种评价系统，其中，

具有：

权利要求6所述的评价装置；以及

所述图像识别装置，对从所述评价装置输入的所述多个加工输入图像进行图像分割，将被类别分类的所述多个输出图像输出至所述评价装置。