CN111062405A

CN111062405A - 训练图像识别模型的方法和装置以及图像识别方法和装置

Info

Publication number: CN111062405A
Application number: CN201910583821.5A
Authority: CN
Inventors: 李元熙; 孙旼廷; 郑景夫; 张现盛
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-10-17
Filing date: 2019-06-28
Publication date: 2020-04-24
Also published as: JP7421889B2; KR20200043005A; EP3640846B1; US20200125899A1; US11544507B2; EP3640846A1; JP2020064619A

Abstract

公开了训练图像识别模型以准确地估计每类地标的参考点的位置的装置和方法。该装置和方法使用图像识别模型，该图像识别模型是基于以下来训练的：基于图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失；以及使用包括类别损失和定位损失在内的总损失来训练图像识别模型。

Description

训练图像识别模型的方法和装置以及图像识别方法和装置

相关申请的相交引用

本申请要求于2018年10月17日向韩国知识产权局递交的韩国专利申请No.10-2018-0123487的优先权，该申请的全部公开内容通过引用并入本文中以用于所有目的。

技术领域

以下描述涉及训练图像识别模型。

背景技术

图像识别的自动化已经通过作为专门的计算架构的处理器实现的神经网络模型来实现，该处理器实现的神经网络模型在经过大量训练之后可以提供输入模式与输出模式之间在计算上直观的映射。经训练的生成这种映射的能力可以被称为神经网络的学习能力。此外，由于专门的训练，这种经特殊训练的神经网络因此可以具有针对输入模式(该输入模式是该神经网络可能未曾被训练以识别的输入模式)来生成相对准确的输出的推广能力。然而，由于这些操作或应用是通过专门的计算架构来执行的，并且采用与以非计算机实现或非自动化方法执行这些操作或应用不同的自动化方式来执行，因此这些操作或应用也会引起问题或缺陷，这些问题或缺点仅因为在其上实施这些操作或应用的自动化的且专门的计算架构而出现。

发明内容

提供了本发明内容以介绍下面在具体实施方式中进一步描述的对简化形式的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或必要特征，也不意在用作帮助确定所请求保护的主题的范围。

在一个一般方面中，提供了一种训练图像识别模型的方法，包括：基于图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失；以及使用包括所述类别损失和所述定位损失在内的总损失来训练所述图像识别模型。

计算所述类别损失和所述依赖于类别的定位损失可以包括：基于所述图像识别模型根据输入训练图像来计算临时类别信息和临时参考点信息；基于所述临时类别信息和真实类别信息来计算所述类别损失；以及基于所述临时参考点信息和真实参考点信息来计算所述定位损失。

计算所述临时类别信息和所述临时参考点信息可以包括：计算所述输入训练图像的每个子区域的临时类别信息和临时参考点信息。

计算所述类别损失可以包括：计算所述真实类别信息和针对输入训练图像的每个所述子区域来计算的所述临时类别信息之间的部分类别损失；以及将针对所述输入训练图像的每个所述子区域所计算的部分类别损失的总和确定为所述类别损失。

计算所述类别损失可以包括：从输入训练图像的子区域中选择与真实地标部分相对应的子区域；计算所述真实类别信息和针对每个所选子区域来计算的临时类别信息之间的部分类别损失；以及将针对所选子区域计算的部分类别损失的总和确定为所述类别损失。

选择所述子区域可以包括：从输入训练图像的子区域中进一步选择与真实背景部分相对应的子区域。

计算所述定位损失可以包括：针对输入训练图像的每个所述子区域，计算所述真实参考点信息和针对输入训练图像的每个所述子区域来计算的临时参考点信息之间的部分定位损失；以及将针对每个所述子区域来计算的部分定位损失的总和确定为所述定位损失。

计算所述定位损失可以包括：从输入训练图像的子区域中选择与真实地标部分相对应的子区域；计算所述真实参考点信息和每个所选子区域的临时参考点信息之间的部分定位损失；以及将针对所选子区域计算的部分定位损失的总和确定为所述定位损失。

计算所述部分定位损失可以包括：从所选子区域中排除具有真实背景部分的子区域。

计算输入训练图像的每个所述子区域的所述临时类别信息和所述临时参考点信息可以包括：计算针对每个所述子区域来设置的每个锚节点的临时类别信息和临时参考点信息。

计算每个所述锚节点的所述临时类别信息和所述临时参考点信息可以包括：计算具有针对每个所述锚节点来计算的置信水平当中的最高置信水平的锚节点的临时类别信息和临时参考点信息。

计算每个所述锚节点的所述临时类别信息和所述临时参考点信息可以包括：排除具有针对每个所述锚节点来计算的置信水平当中的小于阈值的置信水平的锚节点。

计算所述类别损失和所述依赖于类别的定位损失可以包括：基于临时类别信息来计算基于类别的权重；以及基于所述基于类别的权重、临时参考点信息和真实参考点信息来确定所述依赖于类别的定位损失。

确定所述依赖于类别的定位损失可以包括：通过向所述临时参考点信息与所述真实参考点信息之间的差异应用所述基于类别的权重来确定所述依赖于类别的定位损失。

所述训练可以包括：更新所述图像识别模型的参数，以最小化所述总损失。

更新所述参数可以包括：重复更新所述图像识别模型的参数，以使所述总损失收敛。

更新所述参数可以包括：更新所述参数，使得在所述定位损失被最小化之前所述类别损失被最小化。

在另一一般方面中，提供了一种训练装置，包括：存储器，被配置为存储图像识别模型；以及处理器，被配置为基于所述图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失，以及使用包括所述类别损失和所述定位损失在内的总损失来训练所述图像识别模型。

在另一一般方面中，提供了一种图像识别方法，包括：获得输入图像；以及基于图像识别模型，根据所述输入图像来估计所述输入图像中的地标的类别和所述地标的参考点。

在另一一般方面中，提供了一种训练装置，包括：传感器，被配置为接收图像；存储器，被配置为存储图像识别模型；以及处理器，被配置为：基于所述图像识别模型来计算所述图像的区域的临时类别信息和临时参考点信息；基于所述临时类别信息和真实类别信息来确定类别损失；以及基于所述临时参考点信息和真实参考点信息来确定定位损失，以及更新所述图像识别模型的参数，以最小化包括所述类别损失和所述定位损失在内的所述总损失。

所述处理器可以被配置为：响应于所述真实类别信息对应于背景类别，从所述总损失中排除所述定位损失。

所述处理器可以被配置为：应用基于类别的权重以基于所述临时参考点信息与所述真实参考点信息之间的差异来确定所述定位损失。

所述处理器可以被配置为：响应于所述图像识别模型的分类准确度小于阈值，减小所述总损失中所述定位损失的量值。

所述处理器可以被配置为：响应于所述图像识别模型的分类准确度等于或大于阈值，增大所述总损失中所述定位损失的量值。

所述存储器可以被配置为：存储地图数据、所述图像、所述真实类别信息、所述真实参考点信息以及指令，所述指令在被执行时将所述处理器配置为确定所述类别损失和所述定位损失中的任何一个或任何组合。

在另一一般方面中，提供了一种训练图像识别模型的方法，包括：接收图像；将所述图像划分成子区域；基于图像识别模型来确定每个所述子区域的临时类别信息和临时参考点信息；基于真实类别信息和相应的临时类别信息之间的差异来确定每个所述子区域的部分类别损失；基于真实参考点信息和相应的临时参考点信息之间的差异来确定每个所述子区域的部分定位损失；基于每个所述子区域的所述部分类别损失的总和来查明类别损失；基于每个所述子区域的所述部分定位损失的总和来查明定位损失；以及训练所述图像识别模型，以最小化包括所述类别损失和所述定位损失在内的总损失。

确定每个所述子区域的所述部分定位损失可以包括：基于所述子区域的相应的临时类别信息来确定基于类别的权重；以及向所述子区域的相应的部分定位损失应用所述基于类别的权重。

根据以下具体实施方式、附图和权利要求，其他特征和方面将显而易见。

附图说明

图1是示出了图像识别模型的示例的图。

图2是示出了基于图像识别模型来识别输入图像的示例的图。

图3是示出了图像中的对象的示例的图。

图4A至图4F是示出了各种地标的示例的图。

图5是示出了训练图像识别模型的示例的图。

图6是示出了训练图像识别模型的示例的图。

图7是示出了在训练期间计算每个子区域的损失的示例的图。

图8是示出了在训练期间计算每个子区域中的每个锚节点的损失的示例的图。

图9是示出了训练装置的示例的图。

图10是示出了训练方法的示例的图。

图11A至图11C是示出了针对每个损失函数通过训练来降低损失的示例的图。

图12是示出了图像识别装置的示例的图。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图标记将被理解为指代相同的元素、特征和结构。附图可不按比例绘制，并且为了清楚、说明和方便起见，可以夸张附图中的元素的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文中描述的方法、装置和/或系统的全面理解。然而，在理解了本申请的公开之后，本文中描述的方法、装置和/或系统的各种改变、修改和等同物将是显而易见的。例如，本文中描述的操作顺序仅仅是示例，并且不限于在本文中阐述的那些操作顺序，而是可以改变的，这些改变在理解本申请的公开之后将是显而易见的，但是除了必须以一定顺序进行的操作之外。此外，为了更加清楚和简洁，可以省略对本领域已知的特征的描述。

本文描述的特征可以以不同形式来体现，并且不应被解释为受限于本文描述的示例。相反，提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或系统的许多可行方式中的一些可行方式，在理解本申请的公开之后这些可行方式将是显而易见的。

尽管本文中可以使用诸如“第一”、“第二”和“第三”之类的术语来描述各种构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不受这些术语的限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分加以区分。因此，在不脱离示例的教导的情况下，在本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。

贯穿说明书，当一个组件被描述为“连接到”或“耦接到”另一组件时，它可以直接“连接到”或“耦接到”另一组件，或者可以存在介于其间的一个或多个其他组件。相反，当元素被描述为“直接连接到”或“直接耦接到”另一元素时，可以不存在介于其间的其他元素。类似地，也应以相同的方式来理解例如“在...之间”和“紧接在...之间”以及“与...相邻”和“与...紧邻”的类似表述。

如本文中所使用的，术语“和/或”包括相关联列出项目中的任何一个和相关联列出项目中的任何两个或更多个的任何组合。

本文中使用的术语仅用于描述各种示例，而不用于限制本公开。除非上下文另外明确指示，否则冠词“一”、“一个”和“该”意在包括复数形式。术语“包括”、“包含”和“具有”表示存在所陈述的特征、数目、操作、构件、元素和/或其组合，但并不排除存在或添加一个或多个其他特征、数目、操作、构件、元素和/或其组合。

本文中关于示例或实施例对术语“可以”的使用(例如，关于示例或实施例可以包括或实现什么)意味着存在至少一个示例或实施例，其中这样的特征是被包括或实现的，而所有示例和实施例不限于此。

此外，在对示例实施例的描述中，当认为这样的描述将导致对示例实施例的模糊解释时，将省略对在理解本申请的公开之后由此已知的结构或功能的详细描述。

图1是示出了图像识别模型的示例的图。

在示例中，图像识别模型可以具有被训练以输出识别输入图像的结果的机器学习架构。例如，图像识别模型可以由如图1所示的神经网络100来体现。然而，图像识别模型的示例不限于所示示例。在示例中，可以用用于训练图像识别模型的装置来训练图像识别模型，该装置在下文中简称为训练装置。训练装置可以用诸如从车辆中安装的相机输出的图像中的标志之类的对象的如本文所述的位置和类型或类别来训练图像识别模型。图像识别装置可以基于经训练的图像识别模型来识别输入图像。例如，图像识别装置可以基于经训练的图像识别模型来标识输入图像中的对象。然而，在其他示例中，训练装置和图像识别装置可以集成在一起以体现为一体装置。在下文中，将参考图1来描述作为图像识别模型的示例的神经网络100。

在示例中，神经网络100可以被配置为单个网络并且也可以被配置为循环网络。在示例中，神经网络100可以是深度神经网络(DNN)。DNN可以包括全连接网络(FCN)、深度卷积网络(DCN)、循环神经网络(RNN)、长短期记忆(LSTM)网络以及门控循环单元(GRU)。

在示例中，神经网络100可以实现为具有包括输入图像、特征图和输出在内的多个层的架构。在神经网络中，执行输入图像与被称为核的滤波器之间的卷积运算，并且作为卷积运算的结果，输出特征图。这里，输出的特征图是输入特征图，且输出的特征图和核之间的卷积运算再次被执行，且作为结果输出新的特征图。基于这种重复执行的卷积运算，可以输出经由神经网络来识别输入图像的特性的结果。

神经网络100可以基于深度学习来映射具有非线性关系的输入数据和输出数据，以执行诸如对象分类、对象识别、音频或语音识别和图像识别之类的任务。深度学习可以是一类机器学习，该类机器学习被应用于根据大数据集来执行图像识别或语音识别。可以以监督方式和/或无监督方式来执行深度学习，其可以被应用于执行输入数据和输出数据的映射。

在另一示例中，神经网络可以包括输入源语句(例如，语音条目)而非输入图像。在这种示例中，用核对输入源语句执行卷积运算，并输出特征图作为结果。用核对作为输入特征图的输出特征图再次执行卷积运算，并输出新的特征图。当如此重复地执行卷积运算时，最终可以通过神经网络来输出关于输入源语句的特征的识别结果。

参考图1，神经网络100包括输入层110、隐藏层120和输出层130。输入层110、隐藏层120和输出层130中的每一层可以包括多个人工节点。

尽管为了便于描述在图1中将隐藏层120示出为包括三层，但是隐藏层120可以包括其他数量的层。另外，尽管神经网络100被示出为包括单独的输入层(例如，输入层110)，以接收输入数据，但是也可以向隐藏层120直接输入输入数据。上述人工节点将简称为节点，并且除了输出层130的节点之外的神经网络100的各个层的节点可以通过链接连接到下一层的节点以发送输出信号。链接的数量可以对应于下一层中包括的节点的数量。在示例中，神经网络100可以包括附加层，例如子采样层、池化层和全连接层。

可以向隐藏层120中包括的每个节点输入与前一层中包括的节点的加权输入相关联的激活函数的输出。可以通过将前一层中包括的节点的输入乘以连接权重来获得加权输入。连接权重也可以被称为神经网络100的参数。在示例中，激活函数可以包括S形(sigmoid)函数、双曲正切(tanh)函数和修正线性单元(ReLU)，并且可以通过激活函数在神经网络100中形成非线性。可以向输出层130中包括的每个节点输入前一层中包括的节点的加权输入。

当给出输入数据时，神经网络100可以基于要通过隐藏层120在输出层130中分类和识别的类别的数量来计算函数值，并且对输入数据进行分类并识别具有最大函数值的类别。尽管神经网络100可以对输入数据进行分类或识别，但是为了便于描述，由神经网络100进行的分类和识别将被简单地描述为识别。因此，除非另外定义，否则以下对识别的描述也可以应用于分类。

当神经网络100的宽度和深度足够大时，神经网络100可以具有使得神经网络100实现功能的能力。当神经网络100通过训练学习了足够大量的训练数据时，神经网络100可以获得最佳的识别性能。

图2是示出了基于图像识别模型来识别输入图像的示例的图。

参照图2，图像识别装置基于图像识别模型210根据输入图像201来计算输出数据209。例如，图像识别装置可以基于图像识别模型210根据输入图像201来估计地标的类别和地标的参考点。在下文中将参照图3对地标进行描述，并且在下文中将参照图4A至图4F来描述地标的类别和参考点。

输出数据209包括与地标的类别和参考点中的每一项相关联的信息。例如，图像识别装置可以标识最多N个地标，并且计算第i个地标的参考点的坐标和第i个地标的类别信息作为输出数据209。如图2所示，第i个地标表示为Obj_i，第i个地标的参考点的坐标例如表示为

并且第i个地标的类别信息例如表示为

其中，N表示大于或等于1的整数，并且i表示大于或等于1且小于或等于N的整数。类别信息

表示指示类型的类别，或在地标的各种类别当中第i个地标所属的本文所述的类别。

下面将参考图3来描述包括各种对象在内的输入图像中的地标。

图3是示出了图像中的对象的示例的图。

参考图3，输入图像301包括各种对象。如图所示，对象包括在道路上行进的行进对象381，并且车辆可以是该行进对象381。对象还包括在人行道上移动的行进对象382，并且人和动物可以是该行进对象382。本文中被简称为地标的地标对象390可以表示被固定在地理位置处以向驾驶员提供在道路上驾驶所需的信息的对象。例如，地标390可以包括道路标志、交通灯等。

在示例中，地标390可被安装在主要交通点处或者可以布置在设定位置处，并且提供用于自主驾驶的有用信息。因此，图像识别装置可以基于图像识别模型对地标390的类别进行分类并估计地标390的参考点的位置。训练装置可以训练图像识别模型，使得图像识别模型可以对输入图像301中的地标390的类别进行分类，并估计地标390的参考点的位置。

图4A至图4F是示出了各种地标的示例的图。

图4A至图4F示出了各种类别的地标。在示例中，根据韩国道路交通法，地标可以分类为总共六个类别。例如，地标可以被分类为警告标志411、规定标志412、指示标志413、辅助标志414、信号415和道路标记416，如图4A至图4F所示。

图4A示出了警告标志411的示例。警告标志411指示以下信号：该信号向道路上的用户通知附近的潜在危险道路状况或危险对象，使得用户可以在需要时采取安全措施。在示例中，属于警告标志411的类别的地标的参考点421可以是围绕该地标的边界框(例如，图像上的二维(2D)边界框)的中心点。

图4B示出了规定标志412的示例。规定标志412向道路的用户通知各种道路交通安全规定，例如限制、约束、禁止等。属于规定标志412的类别的地标的参考点422可以是围绕该地标的边界框的中心点。

图4C示出了指示标志413的示例。指示标志413表示以下标志：该标志向道路的用户通知道路交通安全指示或指令，例如通行方法或通行分类。属于指示标志413的类别的地标的参考点423可以是围绕该地标的边界框的中心点。

图4D示出了辅助标志414的示例。辅助标志414表示除了警告标志411、规定标志412和指示标志413的主要功能之外还提供的附加标志。属于辅助标志414的类别的地标的参考点424可以是围绕该地标的边界框的中心点。

图4E示出了信号415的示例。信号415表示通过显示、点亮或闪烁字符、标志等向道路的用户通知在道路交通中前进、停止、切换、注意等以执行向交通中的各种对象分配优先级的功能的装置。属于信号415的类别的地标的参考点425可以是围绕信号415的边界框的中心点。

图4F示出了道路标记416的示例。道路标记416表示道路上为了道路交通安全通过字符、标志、线等向道路的用户通知包括例如各种警告、规定和指示在内的细节的标记。属于道路标记416的类别的地标的参考点426可以是地标的右下端点，即位于地标的右下端的点。

上面已经描述了地标的各种示例。然而，地标的类别和地标的参考点的设置位置不限于所示的示例。地标的类别可以根据国家而变化，并且参考点的位置可以根据类别而变化。

本文描述的图像识别模型可以被配置为更准确地估计参考点的位置，该参考点的位置如上所述可以针对每个类别而变化。可以使用其他类型的地标分类，例如，统一交通控制设施手册(MUTCD)、标准公路标志(SHS)和维也纳道路标志和信号标准公约，而不脱离所描述的说明性示例的精神和范围。

图5是示出了训练图像识别模型的示例的图。

训练装置可以基于训练数据来训练图像识别模型510。训练数据可以包括由训练输入和与该训练输入相对应的训练输出构成的对。训练输入可以是如图5所示的训练图像501。训练输出可以是如图5所示针对训练输入来提供的真实(GT)数据508。在示例中，GT数据508包括训练图像501中的地标的GT类别和GT参考点坐标。

参考图5，训练装置基于图像识别模型510根据训练图像501来计算临时输出509。在示例中，未完成训练的图像识别模型510可以被称为临时模型。另外，临时模型的输出也可以被称为临时输出509。如图所示，训练装置计算训练图像501中的地标的参考点信息

和训练图像501中的地标的类别信息

作为临时输出509。

训练装置基于计算出的临时输出509和GT数据508来计算损失。例如，训练装置可以基于临时类别信息和GT类别信息来计算类别损失，并且基于临时参考点坐标和GT参考点坐标来计算定位损失。在示例中，用等式1来表示临时模型关于训练图像501中的地标的总损失507。

[等式1]

在等式1中，L_total表示总损失507，并且L_cls和L_loc分别表示类别损失和定位损失。C表示向训练图像501中的地标提供的GT类别。r表示向训练图像501中的地标提供的GT参考点坐标(x，y)，并且

表示由临时模型计算的临时参考点坐标

L_cls(C)表示GT类别信息与基于临时模型来估计的训练图像501中的地标的临时类别信息之间的类别损失。

表示GT参考点信息与基于临时模型来估计的训练图像501中的地标的临时参考点信息之间的定位损失。λ[C≥1]表示用户针对定位损失设置的权重。例如，当与背景而不是地标相对应的类别被包括在训练图像501中时，例如当C＝0时，可以从总损失507中排除定位损失，但是只有当地标被包括在训练图像501中时定位损失才可以被包括在总损失507中。

在示例中，训练装置可以训练图像识别模型510，使得如上所述计算的总损失507被降低，或者备选地被最小化。例如，训练装置可以反复地更新图像识别模型510的参数，直到总损失507收敛为止。

定位损失部分地依赖于上面的等式1所表示的类别，且因此训练装置可以训练图像识别模型510，使得估计位置或定位的准确度随着估计类别的准确度增加而增加。

将参考图6来更详细地描述基于等式1对总损失的计算和训练过程。

图6是示出了如何训练图像识别模型的示例的图。可以按照所示的顺序并以所示的方式来执行图6中的操作，然而可以在不脱离所描述的说明性示例的精神和范围的情况下改变一些操作的顺序或者省略一些操作。可以并行地或并发地执行图6中所示的许多操作。图6的一个或多个块和这些块的组合可以通过执行指定功能的基于专用硬件的计算机(例如，处理器)或者专用硬件和计算机指令的组合来实现。除了下面对图6的描述之外，对图1～图5的描述也适用于图6，并且以引用的方式并入本文中。因此，这里可以不再重复上述描述。

参考图6，在操作601中，训练装置从训练数据690中获得训练输入601。

训练装置基于图像识别模型610根据训练输入601来计算临时输出。在示例中，图像识别模型610包括DNN 611。训练装置计算临时类别信息DNN_cls 681和临时参考点信息DNN_loc 682，作为临时输出。

训练装置计算临时类别信息DNN_cls 681的类别损失L_cls 671，如等式2所示。

[等式2]

L_cls(C)＝-logP^C

在等式2中，L_cls表示关于训练图像中包括的地标的类别损失。然而，提供等式2作为示例损失函数，且因此类别损失不限于此。P^C表示基于类别的权重，其例如可以用等式3表示。

[等式3]

例如，当地标被分类为总共M个类别时，临时类别信息DNN_cls 681可以包括训练图像中的地标属于第0类别到第M-1类别的概率。例如，临时类别信息DNN_cls 681可被表示为类别概率向量，例如

其中，c_j表示各类别当中的第j个类别并且C表示向对应地标提供的GT类别。∑_cexp(p^C)表示地标属于每个类别的概率的指数和。在临时类别信息DNN_cls 681中，p^C表示地标属于GT类别C的概率。因此，基于类别的权重P^C可以指示在基于图像识别模型610针对各类别所估计的概率当中针对地标的GT类别C来估计的概率的量化值。训练装置可以根据训练数据690来获得GT类别C。

另外，训练装置计算临时定位信息DNN_loc 682的定位损失L_loc 672，如等式4所示。

[等式4]

在等式4中，L_loc表示训练图像中的地标的定位损失。m表示地标的GT参考点坐标，并且

表示基于图像识别模型610来估计的参考点坐标。训练装置根据训练数据690来获得GT参考点坐标。在示例中，

表示混合了L1损失函数和L2损失函数的函数，并且指示一类欧式距离函数。然而，距离函数不限于前面描述的示例函数。

如上面的等式4所表示，训练装置通过向临时参考点信息DNN_loc682和GT参考点信息之间的差异(例如，

的值)应用基于类别的权重P^C来确定依赖于类别的定位损失。因此，在示例中，定位损失L_loc 672是取决于基于类别的权重P^C的损失。基于由等式4表示的定位损失L_loc 672，当图像识别模型610的分类准确度小于阈值准确度时，训练装置可以减小总损失L_total 679中的定位损失L_loc 672的量值，且从而首先训练图像识别模型610的与分类相对应的部分。当分类的准确度大于或等于阈值准确度时，训练装置可以增加总损失L_total 679中的定位损失L_loc 672的量值，且因此训练图像识别模型610的与定位相对应的部分。因此，训练装置可以首先提高图像识别模型610的分类性能，然后提高定位性能，并训练图像识别模型610来执行基于类别的识别定位。

例如，当训练图像被划分为多个子区域时，训练装置可以基于上面的等式2来计算每个子区域的部分类别损失，并且基于部分类别损失的总和来计算训练图像的总类别损失。另外，训练装置可以计算部分定位损失，并且基于部分定位损失的总和来计算训练图像的总定位损失。下面将参考图7来描述对每个子区域的损失的计算。

图7是示出了在训练期间计算每个子区域的损失的示例的图。

参考图7，训练装置基于图像识别模型710根据训练图像701来计算每个子区域的临时输出780。例如，训练装置可以计算输入训练图像的每个子区域的临时类别信息和临时参考点信息。在示例中，训练装置可以针对输入训练图像的每个子区域来计算GT类别信息与针对每个子区域所计算的临时类别信息之间的部分类别损失。训练装置可以将针对各子区域(例如，如图7所示的20个子区域)来计算的部分类别损失的总和确定为类别损失。然而，对类别损失的确定不限于所示示例。

例如，如图7所示，训练装置从输入训练图像的子区域当中选择与GT地标部分781相对应的子区域，例如四个子区域。训练装置计算GT类别信息与针对每个所选子区域来计算的临时类别信息之间的部分类别损失。训练装置将针对所选子区域来计算的部分类别损失的总和确定为类别损失。另外，训练装置还从输入训练图像的子区域当中选择与GT背景部分782相对应的子区域，例如四个子区域。为了在类别的分类的训练中的平衡，训练装置可以将与GT地标部分781相对应的子区域的数量和与GT背景部分782相对应的子区域的数量确定为是类似的。

另外，训练装置计算GT参考点信息和针对输入训练图像的每个子区域来计算的临时参考点信息之间的部分定位损失。训练装置将针对子区域来计算的部分定位损失的总和确定为定位损失。训练装置从输入训练图像的子区域中选择与GT地标部分781相对应的子区域。训练装置计算每个所选子区域的所计算的参考点信息与GT参考点信息之间的部分定位损失。训练装置将针对所选子区域来计算的部分定位损失的总和确定为定位损失。训练装置在不计算GT背景部分782的部分定位损失的情况下执行该计算，这是因为GT背景部分782不包括地标，且因此不需要计算定位损失。

在示例中，训练装置对地图数据791进行变换以生成GT输出792。在示例中，GT输出792可以包括GT类别信息和GT参考点信息。在示例中，训练装置对地图数据791进行变换以生成GT地标部分781的GT参考点信息。例如，地图数据791可以包括与地标所位于的三维(3D)坐标相关联的信息。在示例中，训练装置基于地图数据791中捕捉训练图像701的位置和姿态(例如，车辆的姿态)以及捕捉训练图像701的图像传感器的视角将训练图像701中的地标的3D坐标变换为2D坐标。训练装置基于针对子区域所计算的临时参考点坐标与根据地图数据791所变换的GT参考点坐标793之间的差异来计算部分定位损失。

训练装置基于类别损失和定位损失来计算总损失770，该类别损失是子区域的各部分类别损失的总和，该定位损失是子区域的各部分定位损失的总和。

在下文中，将参考图8来描述用于计算每个子区域的部分类别损失和部分定位损失的锚节点。

参考图8，训练装置计算针对每个子区域所设置的每个锚节点881的临时类别信息和临时参考点信息。例如，如图所示，训练装置可以针对每个子区域来设置五个锚节点881。

例如，训练装置计算训练图像的子区域880中的每个锚节点881的临时定位坐标871

训练装置计算该临时定位坐标871

与对应于参考输出的子区域890中包括的GT参考点891的GT坐标(x，y)872之间的差异。训练装置根据GT坐标(x，y)872与针对锚节点881所计算的临时定位坐标

871之间的差异的总和来计算部分定位损失879。在该示例中，为了便于描述，上面描述了对临时定位坐标

871的计算。然而，示例不限于前述示例。例如，训练装置可以针对每个锚节点881来计算从每个锚节点881到参考点的偏移作为临时参考点信息。在该示例中，偏移可以指示从每个锚节点881的像素位置到参考点的位置变化量。

另外，训练装置计算训练图像的子区域880中的每个锚节点881的临时类别信息

861。训练装置根据子区域890中包括的与参考输出相对应的GT类别信息c 862和临时类别信息

861来计算部分类别损失869。

训练装置通过将针对锚节点881所计算的损失相加来计算子区域的部分定位损失879和部分类别损失869。因此，训练装置通过将多个子区域的部分损失相加来计算总损失。

尽管上面描述了使用所有锚节点881对损失的计算，但是示例不限于前面描述的示例。例如，训练装置可以基于针对每个锚节点881所计算的置信水平，来计算锚节点881当中具有最高置信水平的锚节点的临时类别信息和临时参考点信息。在示例中，训练装置可以从锚节点881当中按顺序选择具有最高置信水平的K个锚节点，并计算所选的K个锚节点中的每个锚节点的临时类别信息和临时参考点信息。基于从子区域中选择的K个锚节点，训练装置可以计算子区域的部分损失。在该示例中，K表示大于或等于1的整数。在示例中，训练装置可以基于针对每个锚节点881来计算的置信水平，在不针对置信水平小于阈值置信水平的锚节点进行计算的情况下执行该计算。也就是说，训练装置可以不计算子区域中的所选K个锚节点中置信水平小于阈值置信水平的锚节点的损失。因此，训练装置可以仅使用具有最高置信水平的K个锚节点中满足阈值置信水平的锚节点来计算损失。

图9是示出了训练装置的示例的图。

参考图9，训练装置900包括处理器910和存储器920。

处理器910可以基于图像识别模型921根据训练数据来计算类别损失和依赖于类别的定位损失。处理器910可以使用基于类别损失和定位损失所计算的总损失来训练图像识别模型921。然而，处理器910的操作不限于前面描述的内容，并且处理器910可以执行上面参考图1至图8描述的至少一个方法或者与之相对应的算法。

处理器910指代被配置为硬件的数据处理设备，该硬件具有执行期望操作的物理结构形式的电路。例如，期望的操作可以包括程序中包括的代码或指令。例如，被配置为硬件的数据处理设备可以包括微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。处理器910执行程序并控制图像识别模型。在示例中，处理器910可以是图形处理器单元(GPU)、可重配置处理器，或者具有任何其他类型的多处理器或单处理器配置。由处理器910执行的程序代码被存储在存储器920中。关于处理器910的进一步细节在下文中提供。

存储器920可以存储图像识别模型921。存储器920还可以存储训练数据。存储器920存储由图像识别模型921对训练数据进行评估的结果。训练数据可以包括由训练输入和训练输出构成的对。如图所示，训练输入可以是训练图像991，且训练输出可以是地图数据992。存储器920存储在处理器910进行处理期间生成的各种信息。此外，各种数据和程序可被存储在存储器920中。存储器920可以包括例如易失性存储器或非易失性存储器。存储器920可以包括诸如硬盘之类的大容量存储介质以存储各种数据。关于存储器920的进一步细节在下文中提供。

训练装置900可以通过变换地图数据992来获得GT参考点信息和GT类别信息。例如，处理器910可以基于捕捉训练图像991的图像传感器的位置、姿态和视角，在地图数据992中包括的地标当中提取可以由图像传感器捕捉的地标，并且将提取的地标的3D坐标变换为图像上的2D坐标。

图10是示出了训练方法的示例的图。可以按照所示的顺序并以所示的方式来执行图10中的操作，然而可以在不脱离所描述的说明性示例的精神和范围的情况下改变一些操作的顺序或者省略一些操作。可以并行地或并发地执行图10中所示的许多操作。图10的一个或多个块和这些块的组合可以通过执行指定功能的基于专用硬件的计算机(例如，处理器)或者专用硬件和计算机指令的组合来实现。除了下面对图10的描述之外，对图1～图9的描述也适用于图10，并且以引用的方式并入本文中。因此，这里可以不再重复上述描述。

参考图10，在操作1010中，训练装置基于图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失。例如，训练装置可以基于图像识别模型根据输入训练图像来计算临时类别信息和临时参考点信息。训练装置可以基于临时类别信息和GT类别信息来计算类别损失。训练装置可以基于临时参考点信息和GT参考点信息来计算定位损失。

在示例中，训练装置可以基于临时类别信息来计算基于类别的权重。训练装置可以基于以下各项来确定依赖于类别的定位损失：基于类别的权重、临时参考点信息和GT参考点信息。以上参考图6描述了对依赖于类别的定位损失的确定，且因此为了简洁起见，这里省略了更详细的重复描述。

在操作1020中，训练装置使用基于类别损失和定位损失所计算的总损失来训练图像识别模型。例如，训练装置可以更新图像识别模型的参数，使得总损失最小化。训练装置可以重复地更新图像识别模型的参数，直到总损失收敛为止。因此，训练装置可以更新参数，使得在定位损失被最小化之前类别损失首先被最小化。

在图11A至图11C中，纵轴表示类别损失的量值，且横轴表示定位损失的量值。

图11A示出了基于如等式5所表示的损失函数的训练如何进展的示例。

[等式5]

在等式5中，

表示与类别无关的定位损失。由于损失函数被定义为如等式5所表示的，类别损失和定位损失可以相对于彼此线性地且相等地减小。

图11B示出了基于如等式6所表示的损失函数的训练如何进展的示例。图11C示出了基于如等式7所表示的损失函数的训练如何进展的示例。

[等式6]

[等式7]

在等式6和等式7中，定位损失

和类别损失L_cls(C)可以彼此相关联。因此，当如图11B和图11C所示损失函数如等式6和等式7所示来定义时，类别损失可首先减小，然后定位损失可减小。

图12是示出了图像识别装置的示例的图。

参考图12，图像识别装置1200包括图像获取器1210、处理器1220、存储器1230、UI或显示器1240和通信接口1250。处理器1220、存储器1230、图像获取器1210、UI或显示器1240和通信接口1250通过通信总线1205相互通信。

图像获取器1210可以获得输入图像。例如，图像获取器1210可以包括被配置为捕捉图像的图像传感器。图像传感器可以用例如彩色相机、深度传感器、红外传感器、热图像传感器、无线电检测和测距(RADAR)传感器、光检测和测距(LiDAR)传感器等体现。然而，图像传感器的示例不限于前述示例。

处理器1220可以基于图像识别模型来估计输入图像中的地标的类别和地标的参考点。例如，处理器1220可以输出输入图像中的每个地标的类别、以及输入图像中的每个地标的参考点的坐标。此外，处理器1220执行上面参照图1至图11描述的至少一个方法或与之相对应的算法。

处理器1220指代被配置为硬件的数据处理设备，该硬件具有执行期望操作的物理结构形式的电路。例如，期望的操作可以包括程序中包括的代码或指令。例如，被配置为硬件的数据处理设备可以包括微处理器、中央处理单元(CPU)、处理器核、多核处理器、多处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。处理器1220执行程序并控制图像识别模型。在示例中，处理器1220可以是图形处理器单元(GPU)、可重配置处理器，或者具有任何其他类型的多处理器或单处理器配置。由处理器1220执行的程序代码被存储在存储器1230中。关于处理器1220的进一步细节在下文中提供。

存储器1230可以存储完成训练的图像识别模型。例如，图像识别模型可以指示具有通过上面参考图1至图11描述的训练过程来更新的参数的模型。然而，可以不设置图像识别模型的参数，但是图像识别装置1200可以稍后在实时识别过程中更新图像识别模型的参数。

存储器1230存储在处理器1220进行处理期间生成的各种信息。此外，各种数据和程序可被存储在存储器1230中。存储器1230可以包括例如易失性存储器或非易失性存储器。存储器1230可以包括诸如硬盘之类的大容量存储介质以存储各种数据。关于存储器1230的进一步细节在下文中提供。

在示例中，图像识别装置1200可以使用基于如上面参考图1至图11所述的依赖于类别的定位损失函数所训练的图像识别模型来准确地估计地标的位置。

UI或显示器1240输出由处理器1220估计的地标的位置，或者显示基于准确地估计的地标位置在地图数据上指示地标的虚拟对象。UI或显示器1240是包括提供用于呈现用户界面、呈现显示画面和/或接收用户输入的能力的一个或多个硬件组件在内的物理结构。然而，UI或显示器1240不限于上述示例，并且可以使用有效连接到图像识别装置1200的任何其他显示器，例如智能电话和眼镜显示器(EGD)，而不脱离所描述的说明性示例的精神和范围。

图像识别装置1200可以在车辆或移动终端上执行定位。本文所述车辆指的是任何模式的运输、递送或传输，例如汽车、卡车、拖拉机、滑板车、摩托车、自行车、水陆两用车辆、雪地摩托车、船、公交车辆、公共汽车、单轨电车、火车、有轨电车、自主或自动驾驶车辆、智能车辆、自驾车辆、无人驾驶飞机、电动车辆(EV)、混合动力车辆、智能移动设备、具有高级驾驶辅助系统(ADAS)的智能车辆或无人机。在示例中，智能移动设备包括诸如电动轮、电动踢水板和电动自行车之类的移动设备。在示例中，车辆包括机动车辆和非机动车辆，例如具有动力引擎的车辆(例如，耕耘机或摩托车)、自行车或手推车。

除了本文中描述的车辆之外，图像识别装置1200还可被包括在各种其他设备中，例如智能电话、行走辅助设备、可穿戴设备、安全设备、机器人、移动终端和各种物联网(IoT)设备。

图像识别装置1200可以估计针对输入图像中的地标的每个类别来设置的参考点的准确位置，并因此用于估计车辆或移动终端的位置和方向。地标的参考点的准确位置可被存储在地图数据中，例如高清3D地图，且因此可以基于准确位置来估计车辆的位置和方向。

由硬件组件来实现图像识别装置1200、图像识别装置、训练装置900、训练装置、图像获取器1210以及本文中关于图1、图2、图5、图7、图9和图12所描述的其他装置、单元、模块、设备和其他组件。在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其它电子组件。在其他示例中，通过计算硬件(例如，通过一个或多个处理器或计算机)来实现执行本申请中描述的操作的一个或多个硬件组件。处理器或计算机可以由一个或多个处理元件(例如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其它设备或设备的组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，诸如操作系统(OS)和在OS上运行的一个或多个软件应用，以执行本申请中描述的操作。硬件组件还可以响应于对指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见，在对本申请中描述的示例的描述中可以使用单数术语“处理器”或“计算机”，但是在其它示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现，并且一个或多个其它硬件组件可以由一个或多个其它处理器或另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一种或多种，该处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、和多指令多数据(MIMD)多处理。

执行本申请中所述的操作的图5、图6、图7、图8和图10所示的方法是由计算硬件来执行的，例如，由如以上描述而实现的、执行指令或软件以执行本申请所述的操作(通过所述方法执行的操作)的一个或多个处理器或计算机来执行的。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器来执行，并且一个或多个其它操作可以由一个或多个其它处理器或者另一处理器和另一控制器来执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制处理器或计算机如上所述地实现硬件组件并执行所述方法的指令或软件被写为计算机程序、代码段、指令或其任何组合，用于单独地或共同地指示或配置处理器或计算机作为机器或专用计算机来操作，以执行由硬件组件执行的操作和上述方法。在示例中，指令或软件包括以下至少一项：小应用程序、动态链接库(DLL)、中间件、固件、设备驱动程序、存储输出状态信息的方法的应用程序。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一示例中，指令或软件包括由处理器或计算机使用解释器来执行的更高级代码。本领域的普通技术人员可以基于附图中所示的框图和流程图以及说明书中的对应描述来容易地编写指令或软件，附图中所示的框图和流程图以及说明书中的对应描述公开了用于执行由硬件组件执行的操作以及如上所述的方法的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或其上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡类型的存储器(比如，多媒体卡、安全数字(SD)卡或极限数字(XD)卡)、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘、以及被如下配置的任伺其它设备：以非暂时性方式存储指令或软件、以及任何相关联的数据、数据文件和数据结构，并且向处理器或计算机提供指令或软件以及相关联的数据、数据文件和数据结构，使得处理器或计算机可以执行该指令。在一个示例中，指令或软件以及任何关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得一个或多个处理器或计算机以分布方式存储、访问和执行该指令和软件以及任何关联的数据、数据文件和数据结构。

尽管本公开包括特定示例，但是在理解了本申请的公开内容之后将显而易见的是：在不脱离权利要求及其等同物的精神和范围的情况下，可以对这些示例进行形式和细节上的各种改变。本文描述的示例仅被认为是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其它示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或被其它组件或其等同物替换或补充，则可以实现合适的结果。因此，本公开的范围不是由具体实施方式来限定，而是由权利要求及其等同物来限定，并且在权利要求及其等同物的范围内的所有变化都应被解释为被包括在本公开中。

Claims

1.一种训练图像识别模型的方法，包括：

基于图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失；以及

使用包括所述类别损失和所述定位损失在内的总损失来训练所述图像识别模型。

2.根据权利要求1所述的方法，其中，计算所述类别损失和所述依赖于类别的定位损失包括：

基于所述图像识别模型根据输入训练图像来计算临时类别信息和临时参考点信息；

基于所述临时类别信息和真实类别信息来计算所述类别损失；以及

基于所述临时参考点信息和真实参考点信息来计算所述定位损失。

3.根据权利要求2所述的方法，其中，计算所述临时类别信息和所述临时参考点信息包括：

计算所述输入训练图像的每个子区域的临时类别信息和临时参考点信息。

4.根据权利要求3所述的方法，其中，计算所述类别损失包括：

计算所述真实类别信息和针对所述输入训练图像的每个所述子区域所计算的所述临时类别信息之间的部分类别损失；以及

将针对所述输入训练图像的每个所述子区域所计算的部分类别损失的总和确定为所述类别损失。

5.根据权利要求3所述的方法，其中，计算所述类别损失包括：

从所述输入训练图像的子区域中选择与真实地标部分相对应的子区域；

计算所述真实类别信息和针对每个所选子区域所计算的临时类别信息之间的部分类别损失；以及

将针对所选子区域所计算的部分类别损失的总和确定为所述类别损失。

6.根据权利要求5所述的方法，其中，选择所述子区域包括：

从所述输入训练图像的子区域中进一步选择与真实背景部分相对应的子区域。

7.根据权利要求3所述的方法，其中，计算所述定位损失包括：

针对所述输入训练图像的每个所述子区域，计算所述真实参考点信息和针对所述输入训练图像的每个所述子区域所计算的临时参考点信息之间的部分定位损失；以及

将针对每个所述子区域所计算的部分定位损失的总和确定为所述定位损失。

8.根据权利要求3所述的方法，其中，计算所述定位损失包括：

计算所述真实参考点信息和每个所选子区域的临时参考点信息之间的部分定位损失；以及

将针对所选子区域所计算的部分定位损失的总和确定为所述定位损失。

9.根据权利要求8所述的方法，其中，计算所述部分定位损失包括：

从所选子区域中排除具有真实背景部分的子区域。

10.根据权利要求3所述的方法，其中，计算所述输入训练图像的每个所述子区域的所述临时类别信息和所述临时参考点信息包括：

计算针对每个所述子区域所设置的每个锚节点的临时类别信息和临时参考点信息。

11.根据权利要求10所述的方法，其中，计算每个所述锚节点的所述临时类别信息和所述临时参考点信息包括：

计算具有针对每个所述锚节点所计算的置信水平当中的最高置信水平的锚节点的临时类别信息和临时参考点信息。

12.根据权利要求10所述的方法，其中，计算每个所述锚节点的所述临时类别信息和所述临时参考点信息包括：

排除具有针对每个所述锚节点所计算的置信水平当中的小于阈值的置信水平的锚节点。

13.根据权利要求1所述的方法，其中，计算所述类别损失和所述依赖于类别的定位损失包括：

基于临时类别信息来计算基于类别的权重；以及

基于所述基于类别的权重、临时参考点信息和真实参考点信息来确定所述依赖于类别的定位损失。

14.根据权利要求13所述的方法，其中，确定所述依赖于类别的定位损失包括：

通过向所述临时参考点信息与所述真实参考点信息之间的差异应用所述基于类别的权重来确定所述依赖于类别的定位损失。

15.根据权利要求1所述的方法，其中，所述训练包括：

更新所述图像识别模型的参数，以最小化所述总损失。

16.根据权利要求15所述的方法，其中，更新所述参数包括：

重复更新所述图像识别模型的参数，以使所述总损失收敛。

17.根据权利要求15所述的方法，其中，更新所述参数包括：

更新所述参数，使得在所述定位损失被最小化之前所述类别损失被最小化。

18.一种存储指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使得所述处理器执行根据权利要求1所述的方法。

19.一种训练装置，包括：

存储器，被配置为存储图像识别模型；以及

处理器，被配置为基于所述图像识别模型根据训练数据来计算类别损失和依赖于类别的定位损失，以及使用包括所述类别损失和所述定位损失在内的总损失来训练所述图像识别模型。

20.一种图像识别方法，包括：

获得输入图像；以及

基于图像识别模型，根据所述输入图像来估计所述输入图像中的地标的类别和所述地标的参考点。