CN109308481A

CN109308481A - 识别装置

Info

Publication number: CN109308481A
Application number: CN201810467294.7A
Authority: CN
Inventors: 桥本大辅
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-07-27
Filing date: 2018-05-16
Publication date: 2019-02-05
Anticipated expiration: 2038-05-16
Also published as: US20190034762A1; CN109308481B; JP2019028616A; US11176416B2; DE102018110196A1; JP6729516B2

Abstract

一种识别装置，包括：第一神经网络，其执行与对象的识别相关联的共同处理并从而输出所述共同处理的结果；第二神经网络，其接收第一神经网络的输出并且输出以第一精度识别所述对象的特性的第一识别处理的结果；以及第三神经网络，其接收第一神经网络的输出和在所述第一识别处理过程中由所述第二神经网络产生的中间数据，并输出以高于所述第一精度的第二精度识别所述对象的所述特性的第二识别处理的结果。

Description

识别装置

技术领域

本发明涉及一种能够识别例如对象的特性的识别装置。

背景技术

作为识别装置的示例，在公开号为2017-084320的日本专利申请(JP 2017-084320A)中公开了一种使用神经网络来识别图像中的对象是什么的识别装置。在公开号为2014-229124的日本专利申请(JP 2014-229124 A)中公开了一种使用神经网络来识别输入语音的语言是什么语言的识别装置。在公开号为2016-033806的日本未审查专利申请(JP 2016-033806 A)中公开了一种使用神经网络来识别图像中的对象的类别的识别装置。

发明内容

识别装置用于各种目的。在这种情况下，可能发生这种情况：用于第一目的的识别装置仅需要以相对低的第一精度识别对象的特性，但是用于不同于第一目的的第二目的的识别装置需要以相对高的第二精度来识别对象的特性。在这种情况下，通常单独地构造以第一精度识别对象的特性的识别装置和以第二精度识别对象的特性的识别装置。也就是说，在以不同精度识别对象特性的两种类型的识别装置中所包括的两种类型的神经网络是单独构造的。

然而，这两种类型的识别装置的共同之处在于，它们识别对象的相同特性。因此，在有效地构造两种类型的识别装置方面存在改进的空间。

本发明提供了一种能够相对有效地构造的识别装置，并且该识别装置至少包括能够以相对低的第一精度识别对象的特性的识别装置。该识别装置还可以包括能够以相对高的第二精度识别对象的特性的识别装置。

本发明的一个方案涉及一种识别装置，包括：第一神经网络，其接收与对象相关联的第一输入数据，所述第一神经网络基于所述第一输入数据执行与所述对象的识别相关联的共同处理，所述第一神经网络输出所述共同处理的结果；第二神经网络，其接收所述第一神经网络的输出作为第二输入数据，所述第二神经网络基于所述第二输入数据执行以第一精度识别所述对象的特性的第一识别处理，所述第二神经网络输出所述第一识别处理的结果；以及第三神经网络，其接收所述第一神经网络的所述输出和在所述第一识别处理期间由所述第二神经网络产生的中间数据，所述第一神经网络的所述输出和所述中间数据由所述第三神经网络作为第三输入数据接收，所述第三神经网络基于所述第三输入数据执行以高于所述第一精度的第二精度识别所述对象的所述特性的第二识别处理，所述第三神经网络输出所述第二识别处理的结果。

利用上述方案的识别装置，可以并行地构造第二神经网络和第三神经网络。因此，与单独地构造第二神经网络和第三神经网络的情况相比，可以更有效地构造第二神经网络和第三神经网络。因此，可以更有效地构造能够以相对低的第一精度识别对象的特性的识别装置以及能够以相对高的第二精度识别对象的特性的识别装置。

附图说明

将参照附图描述本发明的示例性实施例的特征、优点以及技术和工业意义，其中相同的附图标记表示相同的元件，并且其中：

图1是示出根据实施例的识别装置的构造的框图；

图2是示出特征提取器的构造的框图；

图3是示出分类器的构造的框图；

图4是示出其中使用第一实现方法来实现识别装置的车辆的构造的框图；

图5是示出使用第一实现方法而实现的识别装置的构造的框图；

图6是示出其中使用第二实现方法来实现识别装置的车辆的构造的框图；

图7是示出使用第二实现方法而实现的识别装置的构造的框图；

图8是示出识别装置的练习操作的流程的流程图；以及

图9是示出用于练习操作的练习数据的示例的表格。

具体实施例

下文中，将对根据本发明的实施例的识别装置进行描述。在以下描述中，将能够以相对低的第一精度识别出现在由安装在车辆3中的摄像机31捕获的图像中的对象的类别，并能够以相对高的第二精度识别该对象的类别的识别装置1作为根据本发明的实施例的识别装置进行描述。

(1)识别装置1的构造

首先，下面将参照图1对根据本实施例的识别装置1的构造进行描述。图1是示出根据本实施例的识别装置1的构造的框图。

如图1所示，识别装置1包括共同神经网络11、分支神经网络12和分支神经网络13。神经网络是由被连接而使得其可以彼此通信的节点或单元的集合构成的网络。神经网络例如能够通过练习处理来调整节点之间的通信强度，从而分析图像和识别图像的特征。共同神经网络11是本发明中的“第一神经网络”的示例。分支神经网络12是本发明中的“第二神经网络”的示例。分支神经网络13是本发明中的“第三神经网络”的示例。识别装置1是处理块。通过在处理器2上执行软件，处理块在逻辑上具体体现在处理器2中。处理器2例如是中央处理单元(CPU)或电子控制单元(ECU)。

指示由安装在车辆3中的摄像机31捕获的图像的图像数据被输入到共同神经网络11。图像数据是本发明中的“第一输入数据”的示例。共同神经网络11对图像数据执行与识别对象的类别相关联的共同处理。共同处理是在第一识别处理和第二识别处理中共同执行的处理。第一识别处理是以相对低的第一精度识别出现在由图像数据指示的图像中的对象的类别的处理。第二识别处理是以相对高的第二精度识别对象的类别的处理。即，共同处理是在执行第一识别处理的分支神经网络12和执行第二识别处理的分支神经网络13的前一级中执行的处理。

共同处理包括第一特征提取处理。在第一特征提取处理中，基于图像数据来计算指示对象的特征的特征向量C。为了执行第一特征提取处理，共同神经网络11包括L个特征提取器111。L是特征提取器111的数量。L可以等于或大于2，但也可以是1。每个特征提取器111可以计算指示对象的特征的特征向量C。L个特征提取器111以多级串联连接，使得由前一级的特征提取器111计算的特征向量C被输入到后一级的特征提取器111。注意，图像数据代替由另一特征提取器111级计算的特征向量C而被输入到第一级的特征提取器111，并且由最后一级的特征提取器111计算的特征向量C不被输入到另一特征提取器111。

每个特征提取器111使用用于提取特征的现有算法来计算特征向量C。在以下描述中，为了便于解释的目的，将对其中每个特征提取器111通过对输入到相应特征提取器111的输入数据执行卷积处理来计算特征向量C的示例进行描述。输入数据是图像数据或是由另一个特征提取器111计算的特征向量C。也就是说，在下面的描述中，将对共同神经网络11是卷积神经网络(CNN)的示例进行描述。在这种情况下，例如，如图2所示，每个特征提取器111包括卷积处理单元1111和池化处理单元1112。由卷积处理单元1111执行的卷积处理可以与现有的卷积处理相同，并且由池化处理单元1112执行的池化处理可以与现有的池化处理相同。因此，为了简化说明的目的，将不描述卷积处理和池化处理的细节，并且下面将简要描述卷积处理和池化处理的概要。卷积处理单元1111使用具有期望的滤波器特性的卷积滤波器对输入数据执行卷积处理。作为卷积处理的结果而获得的数据被输入到池化处理单元1112。该数据例如是特征映射图。池化处理单元1112对特征映射图执行池化处理。结果，池化处理单元1112输出指示输入数据的特征(即，对象的特征)的预定维度的特征向量C。

在图1中，从共同神经网络11输出的输出数据作为输入数据被输入到分支神经网络12。从共同神经网络11输出的输出数据是指示共同处理的结果的数据。具体而言，输出数据是由最后一级的特征提取器111计算的特征向量C。下文中，将与从共同神经网络11输出的输出数据对应的特征向量C称为“特征向量C11”。特征向量C11是本发明中的“第二输入数据”的示例。分支神经网络12基于特征向量C11执行以相对低的第一精度识别对象的类别的第一识别处理。更具体地，分支神经网络12执行估计对象属于多个主要类别中的哪个类别的第一估计处理，并且第一估计处理作为第一识别处理基于特征向量C11来执行。

第一估计处理包括基于特征向量C11来计算指示对象的特征的特征向量C的第二特征提取处理。第二特征提取处理与由共同神经网络11执行的第一特征提取处理的不同之处可以在于，计算更适于以第一精度识别对象的类别的特征向量C。第一估计处理包括基于第二特征提取处理的结果来计算对象属于多个主要类别中的每一个的概率p1的第一分类处理。

为了执行第二特征提取处理，分支神经网络12包括M个特征提取器121。M是特征提取器121的数量。M可以等于或大于2，但也可以是1。每个特征提取器121是稍后将描述的补充中的“第一处理块”的示例。每个特征提取器121可以计算指示对象的特征的特征向量C。M个特征提取器121以多级串联连接，使得由前一级的特征提取器121计算的特征向量C被输入到后一级的特征提取器121。注意，从共同神经网络11输出的特征向量C11代替由前一级的特征提取器121计算的特征向量C而被输入到第一级的特征提取器121，并且由最后一级的特征提取器121计算出的特征向量C未被输入到另一特征提取器121。

每个特征提取器121使用用于提取特征的现有算法来计算特征向量C。在以下描述中，为了便于解释的目的，将对其中每个特征提取器121通过对输入到相应特征提取器121的输入数据执行卷积处理来计算特征向量C的示例进行描述。输入数据是从共同神经网络11输出的特征向量C11或是由另一个特征提取器121计算的特征向量C。也就是说，在以下描述中，将对分支神经网络12是卷积神经网络(CNN)的示例进行描述。在这种情况下，类似于上述特征提取器111，每个特征提取器121包括未示出的卷积处理单元1211和池化处理单元1212。用于卷积处理单元1211的卷积滤波器可以与用于卷积处理单元1111的卷积滤波器的不同之处在于，用于卷积处理单元1211的卷积滤波器更适合于以第一精度识别对象的类别。在其它构造中，卷积处理单元1211和池化处理单元1212可以与卷积处理单元1111和池化处理单元1112相同。

为了执行第一分类处理，分支神经网络12包括分类器122。指示第二特征提取处理的结果的数据作为输入数据被输入到分类器122。指示第二特征提取处理的结果的数据是由最后一级的特征提取器121计算的特征向量C。在下文中，与指示第二特征提取处理的结果的数据相对应的特征向量C被称为“特征向量C12”。分类器122基于特征向量C12而计算出现在图像中的对象属于多个主要类别中的每一个的概率p1。例如，图1示出了分类器122计算出对象属于主要类别“四轮车”的概率p1(#1)、该对象属于主要类别“两轮车”的概率p1(#2)以及该对象属于主要类别“人”的概率p1(#3)的示例。

例如，如图3所示，分类器122包括全连接层1221和输出层1222，构成X维度的特征向量C12的X个输入值(d1(#1)，d1(#2)，d1(#3)，…，d1(#X))输入到全连接层1221，输出层1222基于全连接层1221的输出而输出概率p1。这里，X是构成特征向量C12的输入值的数量，并且X是等于或大于1的整数。

返回图1，从共同神经网络11输出的输出数据被输入到分支神经网络13。该输出数据是特征向量C11。特征向量C11是本发明中的“第三输入数据”的示例。分支神经网络13基于特征向量C11执行以相对高的第二精度识别对象的类别的第二识别处理。更具体地说，分支神经网络13执行基于特征向量C11估计对象属于多个子类别中的哪个子类别的第二估计处理来作为第二识别处理。子类别是从多个主要类别中再分出的。

第二估计处理包括第三特征提取处理，该第三特征提取处理基于特征向量C11来计算指示对象的特征的特征向量C。第三特征提取处理可以不同于由共同神经网络11执行的第一特征提取处理和由分支神经网络12执行的第二特征提取处理。第三特征提取处理与第一特征提取处理和第二特征提取处理的不同之处可以在于，计算更适于以第二精度识别对象的类别的特征向量C。第二估计处理包括基于第三特征提取处理的结果来计算对象属于多个子类别中的每一个的概率p2的第二分类处理。

为了执行第三特征提取处理，分支神经网络13包括N个特征提取器131。N是特征提取器131的数量。N可以等于或大于2，但也可以是1。每个特征提取器131是本发明中的“第二处理块”的示例。每个特征提取器131可以计算指示对象的特征的特征向量C。N个特征提取器131以多级串联连接，使得由前一级的特征提取器131计算出的特征向量C被输入到后一级的特征提取器131。注意，从共同神经网络11输出的特征向量C11代替由另一个特征提取器131计算的特征向量C，被输入到第一级的特征提取器131，并且由最后一级的特征提取器131计算的特征向量C不输入到另一个特征提取器131。

由对应于每个特征提取器131的特征提取器121计算的特征向量C也被输入到特征提取器131。因此，除了基于从共同神经网络11输出的特征向量C11或由另一个特征提取器131计算的特征向量C之外，特征提取器131还基于由相应的特征提取器121计算的特征向量C来计算特征向量C。图1示出了特征提取器131的数量等于特征提取器121的数量并且由与每个特征提取器131相同级中的特征提取器121计算的特征向量C被输入到特征提取器131的示例。来自每个特征提取器121并被输入到对应的特征提取器131的特征向量C是本发明中的“中间数据”的示例。

每个特征提取器131使用用于提取特征的现有算法来计算特征向量C。在以下描述中，为了便于解释的目的，将描述每个特征提取器131通过对输入到相应特征提取器131的输入数据执行卷积处理来计算特征向量C的示例。输入数据是从共同神经网络11输出的特征向量C11或是由另一个特征提取器131计算的特征向量C和由相应的特征提取器121计算的特征向量C。也就是说，在下面的描述中，将描述分支神经网络13是卷积神经网络(CNN)的示例。在这种情况下，类似于上述特征提取器111，每个特征提取器131包括未示出的卷积处理单元1311和池化处理单元1312。用于卷积处理单元1311的卷积滤波器可以与用于卷积处理单元1111的卷积滤波器或用于卷积处理单元1211的卷积滤波器的不同之处在于，其更适合于以第二精度识别对象的类别。在其他构造中，卷积处理单元1311和池化处理单元1312可以与卷积处理单元1111和池化处理单元1112(或卷积处理单元1211和池化处理单元1212)相同。

为了执行第二分类处理，分支神经网络13包括分类器132。指示第三特征提取处理的结果的数据作为输入数据被输入到分类器132。指示第三特征提取处理的结果的数据是由最后一级的特征提取器131计算的特征向量C。在下文中，与指示第三特征提取处理的结果的数据对应的特征向量C被称为“特征向量C13”。分类器132基于特征向量C13计算出现在图像中的对象属于多个子类别中的每一个的概率p2。例如，图1示出了这样的示例：其中分类器132计算出对象属于子类别“乘用车”的概率p2(#11)、该对象属于子类别“卡车”的概率p2(#12)以及该对象属于子类别“公共汽车”的概率p2(#13)。子类别“乘用车”、子类别“卡车”以及子类别“公共汽车”对应于从主要类别“四轮车”中再分出的子类别。例如，图1示出了分类器132计算出对象属于子类别“摩托车”的概率p2(#21)和对象属于子类别“自行车”的概率p2(#22)的示例。子类别“摩托车”和子类别“自行车”对应于从主要类别“两轮车”中再分出的子类别。例如，图1示出了分类器132计算出对象属于子类别“行人”的概率p2(#31)和该对象属于子类别“驾驶员”的概率p2(#32)的示例。子类别“行人”和子类别“驾驶员”对应于从主要类别“人”中再分出的子类别。

例如，类似于分类器122，分类器132包括全连接层1321和输出层1322，构成Y维的特征向量C13的Y个输入值(d2(#1)，d2(#2)，d2(#3)…，d2(#Y))输入到全连接层1321，输出层1322基于全连接层1321的输出而输出概率p2。Y是构成特征向量C13的输入值的个数，并且是等于或大于1的整数。为了便于解释的目的，未示出全连接层1321和输出层1322。

(2)在车辆3中实现识别装置1的方法

识别装置1可以在车辆3中被实现为识别装置1a，识别装置1a能够以相对高的第二精度识别对象的类别。其中识别装置1被实现为识别装置1a的车辆3的示例是能够基于由摄像机31捕获的图像而自动行驶的车辆3a，即，能够在不需要驾驶员的操作的情况下行驶。这是因为，能够自动行驶的车辆3a优选地以相对高的精度识别车辆3a附近的对象是什么。

识别装置1可以在车辆3中被实现为识别装置1b，识别装置1b能够以相对低的第一精度识别对象的类别。其中识别装置1被实现为识别装置1b的车辆3的示例是车辆3b，其能够基于由摄像机31捕获的图像来检测车辆3b附近的对象并且当存在与该对象碰撞的可能性时执行用于避免与该对象碰撞的免撞操作。这是因为，能够执行免撞操作的车辆3b可以仅需要检测到具有与车辆3b碰撞的可能性的对象在车辆3b附近，而很少需要以相对高的精度来明确地识别该对象是什么。

因此，以下将依次描述将识别装置1实现为车辆3a中的识别装置1a的第一实现方法和将识别装置1实现为车辆3b中的识别装置1b的第二实现方法。这里，识别装置1可以被实现为除车辆3a和3b以外的车辆中或车辆以外的任意设备中的识别装置1a或1b。

(2-1)将识别装置1实现为车辆3a中的识别装置1a的第一实现方法

首先，将参照图4和图5来描述将识别装置1实现为车辆3a中的识别装置1a的第一实现方法。图4是示出其中使用第一实现方法来实现识别装置1的车辆3a的构造的框图。图5是示出使用第一实现方法而实现的识别装置1a的构造的框图。

如图4所示，车辆3a包括摄像机31、电子控制单元(ECU)32a、发动机331、制动致动器332、转向致动器333、换档致动器334、制动装置335、转向轮336和齿轮机构337。

摄像机31是对车辆3a的周围进行成像的成像装置。

ECU 32a控制车辆3a的所有操作。在本实施例中，具体地，ECU 32a包括识别装置1a和车辆控制单元322a作为在逻辑上具体体现在ECU 32a中的处理块。如图5所示，识别装置1a具有与识别装置1相同的构造。然而，识别装置1a可能不以相对低的第一精度识别对象的类别，因此可能不包括分类器122。车辆控制单元322a基于识别装置1a的识别结果等产生车辆3a应当从车辆3a的当前位置向目标位置移动所沿的移动路线，并且控制发动机331、制动致动器332、转向致动器333和换档致动器334，使得车辆3a沿着所产生的移动路线自动移动。

发动机331是向未示出的驱动轮供给驱动力的驱动源。即，发动机331向至少一些车轮供给驱动力。发动机331可以在车辆控制单元322a的控制下调节供应到驱动轮的驱动力。制动致动器332控制能够对未示出的车轮施加制动的制动装置335，使得制动力在车辆控制单元322a的控制下被施加到车辆3a。转向致动器333转动可转动的转向轮336，使得车辆3a在车辆控制单元322a的控制下沿期望的方向移动。换档致动器334控制齿轮机构337，使得能够在车辆控制单元322a的控制下将能够将发动机331的动力传递到驱动轮的齿轮机构337的传动比范围切换到期望的传动比范围。例如，齿轮机构337是变速器。

(2-2)将识别装置1实现为车辆3b中的识别装置1b的第二实现方法

下面将参照图6和图7来描述将识别装置1实现为车辆3b中的识别装置1b的第二实现方法。图6是示出其中使用第二实现方法来实现识别装置1的车辆3b的构造的框图。图7是示出使用第二实现方法而实现的识别装置1b的构造的框图。与车辆3a的元件相同的元件将由相同的附图标记表示，并且将不再重复对其的详细描述。

如图6所示，车辆3b包括摄像机31、ECU 32b、制动致动器332、制动装置335和警告装置338。

ECU 32b控制车辆3b的一部分操作。在该实施例中，具体地，ECU 32b包括识别装置1b和车辆控制单元322b作为在逻辑上具体体现在ECU 32b中的处理块。如图7所示，识别装置1b是通过从识别装置1中分离出共同神经网络11和分支神经网络12而获得的识别装置。也就是说，识别装置1b是包括共同神经网络11和分支神经网络12，但不包括分支神经网络13的识别装置。这样，当识别装置1b不包括分支神经网络13但包括共同神经网络11和分支神经网络12时，识别装置1b仍然能够以相对低的第一精度识别对象的类别。车辆控制单元322b基于来自识别装置1b的识别结果，判定是否存在车辆3b将与车辆3b附近的对象碰撞的可能性。当判定存在车辆3b将与车辆3b附近的对象碰撞的可能性时，车辆控制单元322b控制制动致动器332，使得制动力从制动装置335施加到车辆3b以避免碰撞。当判定存在车辆3b将与车辆3b附近的对象碰撞的可能性时，除了控制制动致动器332之外车辆控制单元322b还可以控制警告装置338，或者代替控制制动致动器332车辆控制单元322b可以控制警告装置338，以使得驾驶员被警告存在车辆3b将与对象碰撞的可能性。警告装置338例如使用警告音、警告图像或转向盘的振动来警告驾驶员存在车辆3b将与对象碰撞的可能性。

(3)识别装置1的练习操作

在识别装置1被实现为车辆3a或3b中的识别装置1a或1b之前，识别装置1，即共同神经网络11、分支神经网络12和分支神经网络13，在处理器2中执行练习操作。下面将参照图8和图9描述识别装置1的练习操作。图8是示出识别装置1的练习操作的流程的流程图。图9是示出用于练习操作的练习数据的示例的表格。

如图8所示，首先，识别装置1使用预定的第一练习数据来执行练习操作(步骤S11)。第一练习数据包括多个数据集，其中图像数据、指示对象属于多个主要类别的概率p1的正确答案的正确答案数据以及指示对象属于多个子类别的概率p2的正确答案的正确答案数据是相关的，其中图像数据指示其中出现了已经确定了主要类别和子类别的对象的图像。

在图9所示的例子中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是四轮车并且子类别是乘用车的对象#A1的图像，而正确答案数据指示对象#A1属于主要类别四轮车的概率p1和对象#A1属于子类别乘用车的概率p2都是1，并且指示对象#A1属于除四轮车之外的其他主要类别的概率p1和对象#A1属于除乘用车以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是四轮车并且子类别是卡车的对象#A2的图像，而正确答案数据指示对象#A2属于主要类别四轮车的概率p1和对象#A2属于子类别卡车的概率p2都是1，并且指示对象#A2属于除四轮车之外的其他主要类别的概率p1和对象#A2属于除卡车以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是四轮车并且子类别是公共汽车的对象#A3的图像，而正确答案数据指示对象#A3属于主要类别四轮车的概率p1和对象#A3属于子类别公共汽车的概率p2都是1，并且指示对象#A3属于除四轮车之外的其他主要类别的概率p1和对象#A3属于除公共汽车以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是两轮车并且子类别是摩托车的对象#B1的图像，而正确答案数据指示对象#B1属于主要类别两轮车的概率p1和对象#B1属于子类别摩托车的概率p2都是1，并且指示对象#B1属于除两轮车之外的其他主要类别的概率p1和对象#B1属于除摩托车以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是两轮车并且子类别是自行车的对象#B2的图像，而正确答案数据指示对象#B2属于主要类别两轮车的概率p1和对象#B2属于子类别自行车的概率p2都是1，并且指示对象#B2属于除两轮车之外的其他主要类别的概率p1和对象#B2属于除自行车以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是人并且子类别是行人的对象#C1的图像，而正确答案数据指示对象#C1属于主要类别人的概率p1和对象#C1属于子类别行人的概率p2都是1，并且指示对象#C1属于除人之外的其他主要类别的概率p1和对象#C1属于除行人以外的其他子类别的概率p2都为0。在图9所示的示例中，第一练习数据包括这样的数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了主要类别是人并且子类别是驾驶员的对象#C2的图像，而正确答案数据指示对象#C2属于主要类别人的概率p1和对象#C2属于子类别驾驶员的概率p2都是1，并且指示对象#C2属于除人之外的其他主要类别的概率p1和对象#C2属于除驾驶员以外的其他子类别的概率p2都为0。

当执行使用第一练习数据的练习操作时，在第一练习数据中包括的一条图像数据被输入到共同神经网络11。因此，共同神经网络11将对应于输入的该条图像数据的特征向量C11输出到分支神经网络12和分支神经网络13。分支神经网络12基于从共同神经网络11输出的特征向量C11而输出在输入的一条图像数据中出现的一个对象属于多个主要类别的概率p1。分支神经网络12将在计算概率p1的过程中生成的特征向量C输出到分支神经网络13。分支神经网络13基于从共同神经网络11输出的特征向量C11和从分支神经网络12输出的特征向量C而输出在输入的一条图像数据中出现的一个对象属于多个子类别的概率p2。重复执行概率p1和p2的输出，直到完成第一练习数据中包括的所有图像数据向共同神经网络11的输入为止。

此后，调整指示共同神经网络11、分支神经网络12和分支神经网络13的操作特性的参数，使得分支神经网络12和13的输出与正确答案数据之间的误差减小。优选地，调整指示共同神经网络11、分支神经网络12和分支神经网络13的操作特性的参数，使得分支神经网络12和13的输出与正确答案数据之间的误差最小化。即，识别装置1基于监督学习算法来执行练习操作。在这种情况下，识别装置1可以例如使用反向传播法来执行练习操作。

调整共同神经网络11的参数可以包括调整特征提取器111中的至少一个的参数。例如，调整共同神经网络11的参数可以包括调整由至少一个特征提取器111使用的卷积滤波器的滤波器特性。调整共同神经网络11的参数可以包括调整至少一个特征提取器111的任意特性。关于分支神经网络12，类似地，调整分支神经网络12的参数可以包括调整至少一个特征提取器121的参数。关于分支神经网络13，类似地，调整分支神经网络13的参数可以包括调整至少一个特征提取器131的参数。

调整分支神经网络12的参数可以包括调整分类器122的参数。例如，调整分支神经网络12的参数可以包括调整构成分类器122的全连接层1221的多个节点N的权重。调整分支神经网络12的参数可以包括调整由分类器122的输出层1222使用的激活函数。例如，激活函数是柔性最大(softmax)函数。调整分支神经网络12的参数可以包括调整分类器122的任意特性(特别是与概率p1的计算相关的特性)。关于分支神经网络13，类似地，调整分支神经网络13的参数可以包括调整分类器132的参数。

在已经完成使用第一练习数据的练习操作之后，随后，识别装置1使用预定的第二练习数据执行练习操作(步骤S12)。第二练习数据包括这样的多个数据集：其中图像数据和正确答案数据是相关的，其中图像数据指示其中出现了已经确定了主要类别的对象的图像，而正确答案数据指示该对象属于多个主要类别的概率p1的正确答案。也就是说，第二练习数据与第一练习数据的不同之处在于，图像数据和指示对象属于多个子类别的概率p2的正确答案的正确答案数据不相关。因此，可以使用第一练习数据的一部分，即图像数据和指示概率p1的正确答案的正确答案数据，作为第二练习数据。

当执行使用第二练习数据的练习操作时，第二练习数据中所包括的一条图像数据被输入到共同神经网络11。结果，分支神经网络12输出在输入的图像数据中出现的一个对象属于多个主要类别的概率p1。另一方面，分支神经网络13可以不输出在输入的图像数据中出现的一个对象属于多个子类别的概率p2。重复执行概率p1的输出，直到完成第二练习数据中包括的所有图像数据向共同神经网络11的输入为止。

此后，调整指示共同神经网络11和分支神经网络12的操作特性的参数，使得分支神经网络12的输出与正确答案数据之间的误差减小。优选地，调整指示共同神经网络11和分支神经网络12的操作特性的参数，使得分支神经网络12的输出与正确答案数据之间的误差最小化。另一方面，指示分支神经网络13的操作特性的参数不被调整。在使用第二练习数据的练习操作中执行的参数调整与在使用第一练习数据的练习操作中执行的参数调整相同。

如果需要，重复执行步骤S11中的练习处理和步骤S12中的练习处理(步骤S13)。

(4)技术优势

如上所述，在本实施例中，识别装置1包括执行共同处理的共同神经网络11、以相对低的第一精度执行识别对象的类别的第一识别处理的分支神经网络12以及以相对高的第二精度执行识别对象的类别的第二识别处理的分支神经网络13。分支神经网络12的特征提取器121的输出被输入到分支神经网络13的特征提取器131。因此，分支神经网络12和分支神经网络13可以使用指示对象和该对象所属于的主要类别和子类别两者之间的关系(即，实质上指示主要类别和子类别之间的依赖关系)的相同的第一练习数据并行(即，同时)练习。也就是说，分支神经网络12和分支神经网络13可以并行地构造。结果是，能够更有效地构造可以被实现为能够以相对高的第二精度识别对象的类别的识别装置1a和能够以相对低的第一精度识别对象的类别的识别装置1b的识别装置1。也就是说，由于识别装置1的构造相当于识别装置1a和1b的并行构造，因此相较于识别装置1a和1b被分别单独地构造的情况(例如，使其用不同的练习数据分别练习)，能够更有效地构造识别装置1a和1b。

由于识别装置1包括分支神经网络12，所以即使当共同神经网络11和分支神经网络12独立地与识别装置1分离时，识别装置1自身也可以用作识别装置1b。也就是说，能够以相对高的第二精度识别对象的类别的识别装置1a包括分支神经网络12，因此其也可以用作能够以相对低的第一精度识别对象的类别的识别装置1b。在这种情况下，由于识别装置1的构造相当于并行的识别装置1a和1b的构造，所以识别装置1a和1b可以相对有效地构造。

由于分支神经网络12的特征提取器121的输出被输入到分支神经网络13的特征提取器131，所以分支神经网络12的练习结果也基本上反映在分支神经网络13中。因此，相较于分支神经网络12的练习结果没有反映在分支神经网络13中的情况，分支神经网络13能够更适当地以相对高的第二精度来识别对象的类别。

当执行使用第二练习数据的练习操作时，停止调整分支神经网络13的参数。因此，即使当共同神经网络11和分支神经网络12使用第二练习数据进行练习时，分支神经网络13的参数也不会被所述练习不必要地调整。因此，可以仅使共同神经网络11和分支神经网络12进行练习而不会不利地影响分支神经网络13。

(5)修改示例

图像数据可以是包括多个通道的数据成分的数据。例如，图像数据可以是包括RGB颜色模型的三个通道的数据成分的数据。在这种情况下，被识别装置1a实际上用于识别对象的类别的通道的数量可以不同于被识别装置1b实际上用于识别对象的类别的通道的数量。例如，被识别装置1b实际上用于识别对象的类别的通道的数量可以小于被识别装置1a实际上用于识别对象的类别的通道的数量。被识别装置1a实际上用于识别对象的类别的通道的数量可以等于被识别装置1b实际上用于识别对象的类别的通道的数量。

在以上描述中，识别装置1可以以相对低的第一精度识别对象的类别，并且还可以以相对高的第二精度识别对象的类别。然而，除了对象的类别以外，识别装置1还能够以相对低的第一精度识别对象的任意特性，或代替对象的类别，识别装置1能够以相对低的第一精度识别对象的任意特性，并且还能够以相对高的第二精度识别对象的任意特性。对象的任意特性的示例是对象的位置(例如，三维空间中的位置)。在这种情况下，识别装置1能够以相对低的第三精度来确定对象的位置，并且以相对高的第四精度来确定对象的位置。可选地，除了出现在由摄像机31捕获的图像中的对象的特性之外，识别装置1还可以以相对低的第一精度识别任意对象的特性并且以相对高的第二精度识别该对象的特性。

除了卷积处理单元1111和池化处理单元1112中的至少一个以外，每个特征提取器111还可以包括另一个处理单元，或代替卷积处理单元1111和池化处理单元1112中的至少一个，每个特征提取器111可以包括另一个处理单元。例如，每个特征提取器111可以包括执行归一化处理的归一化处理单元。特征提取器121和131还可以包括另一个处理单元。

在以上描述中，特征提取器131的数量等于特征提取器121的数量，并且由与每个特征提取器131同一级中的特征提取器121计算的特征向量C被输入到相应的特征提取器131。然而，特征提取器131的数量可以不同于特征提取器121的数量，并且由与特征提取器131相同数量的特征提取器121计算的特征向量C可以不被输入到特征提取器131。具体地，由M个特征提取器121中的至少一个计算的特征向量C可以被输入到N个特征提取器131中的至少一个。由两个以上不同的特征提取器121计算的两个特征向量C可以被输入到一个特定的特征提取器131。由相同的特征提取器121计算的特征向量C可以被输入到两个以上不同的特征提取器131。

在以上描述中，共同神经网络11是卷积神经网络。然而，共同神经网络11可以是另一种类型的神经网络。例如，共同神经网络11可以是递归神经网络(RNN)。例如，共同神经网络11可以是长短期记忆网络(LSTM)。分支神经网络12和分支神经网络13也是如此。

在识别装置1被实现为车辆3a中的识别装置1a之后，识别装置1a可以执行练习操作。即，识别装置1a可以执行在线练习。在这种情况下，识别装置1a可以使用监督学习算法执行在线练习，或者可以使用无监督学习算法执行在线练习。识别装置1被实现为车辆3b中的识别装置1b的情况也是如此。

(5)补充

对于上述实施例另外公开以下补充。

(5-1)补充1

补充1中描述的识别装置包括：第一神经网络，其接收与对象相关联的第一输入数据，基于第一输入数据执行与对象的识别相关联的共同处理，并且输出共同处理的结果；第二神经网络，其接收第一神经网络的输出作为第二输入数据，基于第二输入数据执行以第一精度识别对象的特性的第一识别处理，并且输出第一识别处理的结果；以及第三神经网络，其接收第一神经网络的输出和由第二神经网络在第一识别处理的过程中产生的中间数据作为第三输入数据，基于第三输入数据执行以高于第一精度的第二精度识别对象的特性的第二识别处理，并且输出第二识别处理的结果。

根据补充1中描述的识别装置，由执行第一识别处理的第二神经网络产生的中间数据被输入到执行第二识别处理的第三神经网络。也就是说，除了第二神经网络之外，中间数据还被第三神经网络使用。因此，可以使第二神经网络和第三神经网络使用相同的第一输入数据并行练习。也就是说，可以并行地构造第二神经网络和第三神经网络。因此，与分别构造第二神经网络和第三神经网络的情况相比，可以更有效地构造第二神经网络和第三神经网络。因此，识别装置可以用作能够使用第一识别处理的结果以相对低的第一精度来识别对象的特性的第一识别装置，并且该识别装置还可以用作能够使用第二识别处理的结果以相对高的第二精度来识别对象的特性的第二识别装置。可选地，通过将第一神经网络和第二神经网络与识别装置分离，可以构造能够以相对低的第一精度识别对象的特性的第一识别装置，并且使用不将第一神经网络和第二神经网络与识别装置分离的识别装置，可以构造以相对高的第二精度识别对象的特性的第二识别装置。结果，可以从补充1中描述的识别装置中构造两种类型的识别装置。即，当构造补充1中描述的识别装置时，构造了两种类型的识别装置。因此，可以更有效地构造能够以相对低的第一精度来识别对象的特性的识别装置和能够以相对高的第二精度来识别对象的特性的识别装置。

(5-2)补充2

补充2中描述的识别装置是补充1中描述的识别装置，其中，第一神经网络至第三神经网络使用第一练习数据执行第一练习处理，在所述第一练习数据中，第一输入数据、以第一精度指示与第一输入数据对应的对象的特性的第一正确答案数据以及以第二精度指示与第一输入数据对应的对象的特性的第二正确答案数据彼此相关。

根据补充2中所述的识别装置，可以使第二神经网络和第三神经网络使用第一练习数据并行地练习。因此，可以更有效地构造能够以相对低的第一精度识别对象的特性的识别装置和能够以相对高的第二精度识别对象的特性的识别装置。

(5-3)补充3

补充3中描述的识别装置是补充1或2中描述的识别装置，其中，第一神经网络和第二神经网络使用第二练习数据执行第二练习处理，在第二练习数据中，第一输入数据和以第一精度指示与第一输入数据对应的对象的特性的第一正确答案数据彼此相关，并且第二练习数据不包括以第二精度指示与第一输入数据对应的对象的特性的第二正确答案数据，并且在第一神经网络和第二神经网络正在执行第二练习处理的期间中，第三神经网络不执行第二练习处理。

根据补充3中所述的识别装置，即使当使第一神经网络和第二神经网络使用不包括以第二精度指示对象的特性的第二正确答案数据的第二练习数据进行练习时，该练习不会对第三神经网络产生不利影响(特别是，它不会影响以第二精度识别对象特性的能力)。

(5-4)补充4

补充4中描述的识别装置是补充1至3中任一项所述的识别装置，其中识别装置能够通过将第一神经网络和第二神经网络与第三神经网络分离来构造包括第一神经网络和第二神经网络但不包括第三神经网络的另一识别装置。

根据补充4中描述的识别装置，能够更有效地构造能够以相对低的第一精度识别对象的特性的识别装置(即，在补充4中描述的另一识别装置)以及能够以相对高的第二精度识别对象的特性的识别装置(即，在补充1中描述的识别装置)。

(5-5)补充5

在补充5中描述的识别装置是补充1至4中任一项所述的识别装置，其中对象的特性包括对象的类别，第一识别处理包括估计对象属于多个第一类别中的哪个类别的第一估计处理，并且第二识别处理包括估计对象属于多个第二类别中的哪个类别的第二估计处理，所述多个第二类别是从多个第一类别中再分出的。

根据补充5中描述的识别装置，可以更有效地构造能够估计对象属于多个第一类别中的哪个类别的识别装置以及能够估计对象属于多个第二类别中的哪个类别的识别装置。

(5-6)补充6

补充6中描述的识别装置是补充1至5中任一项所述的识别装置，其中对象的特性包括对象的位置，第一识别处理包括以第三精度确定对象的位置的第一确定处理，并且第二识别处理包括以高于第三精度的第四精度来确定对象的位置的第二确定处理。

根据补充6中所述的识别装置，可以更有效地构造能够以第三精度确定对象的位置的识别装置以及能够以第四精度确定对象的位置的识别装置。

(5-7)补充7

补充7中描述的识别装置是补充1至6中任一项所述的识别装置，其中第二神经网络包括通过执行第一识别处理的至少一部分来输出中间数据的第一处理块，并且第三神经网络包括接收中间数据并且基于中间数据执行第二识别处理的至少一部分的第二处理块。

根据补充7中描述的识别装置，能够构造包括第二神经网络和第三神经网络的识别装置，其中第二神经网络包括第一处理块，而第三神经网络包括第二处理块。

(5-8)补充8

补充8中描述的识别装置是补充7中描述的识别装置，其中第二神经网络包括多个第一处理块，多个第一处理块多级串联连接，使得前一级的第一处理块的输出被输入到后一级的第一处理块，第三神经网络包括多个第二处理块，多个第二处理块多级串联连接，使得前一级的第二处理块的输出被输入到后一级的第二处理块，并且多个第二处理块中的一个第二处理块基于从多个第一处理块中的一个第一处理块输入的中间数据而执行第二识别处理的至少一部分。

根据补充8所述的识别装置，可以构造包括第二神经网络和第三神经网络的识别装置，其中第二神经网络包括多个第一处理块，而第三神经网络包括多个第二处理块。

本发明不限于上述实施例，并且可以在不脱离可从本公开中读取的本发明的主旨或精神的情况下进行适当修改，并且具有修改的识别装置包括在本发明的技术范围内。

Claims

1.一种识别装置，其特征在于包括：

第一神经网络，其接收与对象相关联的第一输入数据，所述第一神经网络基于所述第一输入数据执行与所述对象的识别相关联的共同处理，所述第一神经网络输出所述共同处理的结果；

第二神经网络，其接收所述第一神经网络的输出作为第二输入数据，所述第二神经网络基于所述第二输入数据执行以第一精度识别所述对象的特性的第一识别处理，所述第二神经网络输出所述第一识别处理的结果；以及

第三神经网络，其接收所述第一神经网络的所述输出和在所述第一识别处理期间由所述第二神经网络产生的中间数据，所述第一神经网络的所述输出和所述中间数据由所述第三神经网络作为第三输入数据接收，所述第三神经网络基于所述第三输入数据执行以高于所述第一精度的第二精度识别所述对象的所述特性的第二识别处理，所述第三神经网络输出所述第二识别处理的结果。

2.根据权利要求1所述的识别装置，其特征在于：

所述第一神经网络、所述第二神经网络和所述第三神经网络中的每一个执行第一练习处理；并且

所述第一练习处理使用第一练习数据执行，在所述第一练习数据中，所述第一输入数据、以所述第一精度指示与所述第一输入数据对应的所述对象的所述特性的第一正确答案数据以及以所述第二精度指示与所述第一输入数据对应的所述对象的所述特性的第二正确答案数据全部一起相关。

3.根据权利要求1所述的识别装置，其特征在于：

所述第一神经网络和所述第二神经网络中的每一个执行第二练习处理，

其中，所述第二练习处理使用第二练习数据执行，在所述第二练习数据中，所述第一输入数据和以所述第一精度指示与所述第一输入数据对应的所述对象的所述特性的第一正确答案数据彼此相关；

所述第二练习数据不包括以所述第二精度指示与所述第一输入数据对应的所述对象的所述特性的第二正确答案数据；以及

在所述第一神经网络和所述第二神经网络正在执行所述第二练习处理的期间，所述第三神经网络不执行所述第二练习处理。

4.根据权利要求1至3中任一项所述的识别装置，其特征在于，所述识别装置能够通过将所述第一神经网络和所述第二神经网络与所述第三神经网络分离来构造包括所述第一神经网络和所述第二神经网络但不包括所述第三神经网络的另一识别装置。

5.根据权利要求1至4中任一项所述的识别装置，其特征在于：

所述对象的所述特性包括所述对象的类别；

所述第一识别处理包括第一估计处理，所述第一估计处理估计所述对象属于多个第一类别中的哪个类别；

所述第二识别处理包括第二估计处理，所述第二估计处理估计所述对象属于多个第二类别中的哪个类别；和

所述第二类别是从所述第一类别再分出的。

6.根据权利要求1至5中任一项所述的识别装置，其特征在于：

所述对象的所述特性包括所述对象的位置；

所述第一识别处理包括以第三精度确定所述对象的所述位置的第一确定处理；

所述第二识别处理包括以第四精度确定所述对象的所述位置的第二确定处理；并且

所述第四精度高于所述第三精度。

7.根据权利要求1至6中任一项所述的识别装置，其特征在于：

所述第二神经网络包括第一处理块，所述第一处理块通过执行所述第一识别处理的至少一部分来输出所述中间数据；并且

所述第三神经网络包括第二处理块，所述第二处理块接收所述中间数据并且基于所述中间数据执行所述第二识别处理的至少一部分。

8.根据权利要求7所述的识别装置，其特征在于：

所述第二神经网络包括多个所述第一处理块；

所述多个所述第一处理块串联连接，使得前一级的所述第一处理块的输出被输入到后一级的所述第一处理块；

所述第三神经网络包括多个所述第二处理块；

所述多个所述第二处理块串联连接，使得前一级的所述第二处理块的输出被输入到后一级的所述第二处理块；以及

所述多个所述第二处理块中的一个第二处理块基于从所述多个所述第一处理块中的一个第一处理块输入的所述中间数据来执行所述第二识别处理的至少一部分。