CN116597405A

CN116597405A - 一种用于车载图像的图像标签关系模型训练方法和装置

Info

Publication number: CN116597405A
Application number: CN202310519638.5A
Authority: CN
Inventors: 谢源
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-08-15

Abstract

本申请提供了一种用于车载图像的图像标签关系模型训练方法和装置。本申请基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度，所述图像标签关系模型包括：CNN模块、RNN模块和融合处理模块。融合处理模块对CNN模块的输出结果和RNN模块的输出结果进行融合处理，生成训练图像中每个标签的标签概率。利用优化的图像标签关系模型能够对车载图像进行自动标记，确定车载图像中的标签，从而通过标签检索到对应的车载图像。缩短了用户与目标图片之间的操作成本，提高了用户体验。

Description

一种用于车载图像的图像标签关系模型训练方法和装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种用于车载图像的图像标签关系模型训练方法和装置。

背景技术

车载信息娱乐系统(英文全称In-Vehicle Infotainment，简称IVI系统)，是采用车载专用中央处理器，基于车身总线系统和互联网服务，形成的车载综合信息处理系统。IVI系统极大的提升了车辆电子化、网络化和智能化水平。

当前，用户只能通过手动方式对IVI系统中的图像进行分类处理，将图像手动分配到各个文件夹中。应用时，只能利用系统的搜索功能查找图像所在位置。尤其在图像所在的安卓系统上，系统采用遍历的方式查找图像名称，使检索效率非常缓慢，效率非常低。

因此，本申请提供了一种用于车载图像的图像标签关系模型训练方法，以解决上述技术问题。

发明内容

本申请的目的在于提供一种用于车载图像的图像标签关系模型训练方法，能够解决上述提到的至少一个技术问题。具体方案如下：

根据本申请的具体实施方式，第一方面，本申请提供一种用于车载图像的图像标签关系模型训练方法，包括：

获取多个训练图像和每个训练图像的标签向量，其中，每个训练图像的标签向量表征对应训练图像中各个预设特征标签与其他训练图像中所有预设特征标签的关系；

基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度；

其中，所述图像标签关系模型包括：CNN模块、RNN模块和融合处理模块，所述CNN模块的输入端用于输入每个训练图像，所述RNN模块的输入端用于输入对应训练图像的标签向量，所述融合处理模块基于所述CNN模块输出每个训练图像的图像类型和所述RNN模块输出对应训练图像的隐藏层状态，输出对应训练图像中每个标签的标签概率。

可选的，所述基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度，包括：

将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率；

将每个训练图像中每个预设特征标签的标签概率与对应预设特征标签的预设标签概率进行比较，获得对应预设特征标签的训练误差；

基于每个预设特征标签的训练误差获得训练精度；

当所述训练精度小于预设识别精度时，调整所述图像标签关系模型的参数，触发所述将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率的操作步骤。

可选的，所述将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率，包括：

将每个训练图像的标签向量依次输入RNN模块，分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态，以及，

将每个训练图像依次输入CNN模块，分别获得对应训练图像的图像类型；

将每个训练图像的隐藏层状态和图像类型输入所述融合处理模块获得对应训练图像的中每个预设特征标签的标签概率。

可选的，所述RNN模块包括Embedding层；

相应地，所述将每个训练图像的标签向量依次输入RNN模块，分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态，包括：

利用Embedding层计算每个训练图像的标签向量和标签嵌入矩阵的乘积，获得对应训练图像的标签嵌入向量；

基于预设非线性函数对每个训练图像的标签嵌入向量进行循环优化，直至分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态。

可选的，所述融合处理模块包括softmax层；

相应地，所述将每个训练图像的隐藏层状态和图像类型输入所述融合处理模块获得对应训练图像的中每个预设特征标签的标签概率，包括：

将每个训练图像的隐藏层状态和图像类型投影至标签嵌入矩阵所在的低维空间中，获得对应训练图像的投影值；

对每个训练图像的投影值进行转置相乘，获得对应训练图像中每个预设特征标签的分数；

利用所述softmax层对每个训练图像中每个预设特征标签的分数进行归一化处理，获得对应训练图像中每个预设特征标签的标签概率。

可选的，所述方法还包括：

当所述训练精度大于或等于预设识别精度时，确定所述图像标签关系模型训练完成。

可选的，所述标签向量包括one-hot向量。

根据本申请的具体实施方式，第二方面，本申请提供一种用于车载图像的图像标签关系模型训练装置，包括：

获取单元，用于获取多个训练图像和每个训练图像的标签向量，其中，每个训练图像的标签向量表征对应训练图像中各个预设特征标签与其他训练图像中所有预设特征标签的关系；

训练单元，用于基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度；

基于每个预设特征标签的训练误差获得训练精度；

可选的，所述RNN模块包括Embedding层；

可选的，所述融合处理模块包括softmax层；

可选的，所述方法还包括：

可选的，所述标签向量包括one-hot向量。

根据本申请的具体实施方式，第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上任一项所述用于车载图像的图像标签关系模型训练方法。

根据本申请的具体实施方式，第四方面，本申请提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上任一项所述用于车载图像的图像标签关系模型训练方法。

本申请实施例的上述方案与现有技术相比，至少具有以下有益效果：

附图说明

图1示出了根据本申请实施例的用于车载图像的图像标签关系模型训练方法的流程图；

图2示出了根据本申请实施例的用于车载图像的图像标签关系模型训练装置的单元框图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述，但这些描述不应限于这些术语。这些术语仅用来将描述区分开。例如，在不脱离本申请实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

特别需要说明的是，在说明书中存在的符号和/或数字，如果在附图说明中未被标记的，均不是附图标记。

下面结合附图详细说明本申请的可选实施例。

对本申请提供的实施例，即一种用于车载图像的图像标签关系模型训练方法的实施例。

下面结合图1对本申请实施例进行详细说明。

步骤S101，获取多个训练图像和每个训练图像的标签向量。

其中，每个训练图像的标签向量表征对应训练图像中各个预设特征标签与其他训练图像中所有预设特征标签的关系。

多个训练图像中每个训练图像之间均包括不同的特征元素，所述特征元素包括但不限于：图片的层次(包括物体轮廓)/纹理/形状/颜色特征。例如，第一个训练图像中包括“人”、“狗”和“草坪”；第二个训练图像中包括“山”和“森林”。

在训练前，通过人工方式对每个训练图像中每个特征元素标记其预设特征标签。

通过标签向量表征对应训练图像中各个预设特征标签与其他训练图像中所有预设特征标签的关系。

可选的，所述标签向量包括one-hot向量。例如，在多个训练图像存在10个标签，在训练图像A中标记了2个预设特征标签，比如，“山”的标签和“森林”的标签；则训练图像A的标签向量Ek(t)为(0，0，0，1，1，0，0，0，0，0)，两个“1”分别表示山和森林，“0”表示的标签在训练图像A中不存在；其中，t表示多个训练图像的训练次数。

步骤S102，基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度。

训练图像标签关系模型的目的是为了利用优化的图像标签关系模型对车载图像进行自动标记，确定车载图像中的标签，从而通过标签检索到对应的车载图像。

本申请实施例将CNN模块、RNN模块和融合处理模块的特点集合成图像标签关系模型，通过多个训练图像和每个训练图像的标签向量训练该图像标签关系模型达到优化的目标。

在一些具体实施例中，所述基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度，包括以下步骤：

步骤S102-1，将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率。

例如，有100个训练图像，每个训练图像获得一个标签向量；第一个训练图像有两个预设特征标签：“山”的标签和“森林”的标签，将第一个训练图像和它的标签向量输入所述图像标签关系模型中，获得“山”标签的概率和“森林”标签的概率；第二个训练图像有三个预设特征标签：“人”的标签、“狗”的标签和“草坪”的标签，将第二个训练图像和它的标签向量输入所述图像标签关系模型中，获得“人”标签的概率、“狗”标签的概率和“草坪”标签的概率；以此类推。

在一些具体实施例中，所述将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率，包括以下步骤：

步骤S102-1-1，将每个训练图像的标签向量依次输入RNN模块，分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态，以及，将每个训练图像依次输入CNN模块，分别获得对应训练图像的图像类型。

图像标签关系模型具有两个输入端：CNN模块的输入端和RNN模块的输入端。在CNN模块的输入端依次输入训练图像，CNN模块对每个训练图像进行分类，输出每个训练图像的图像类型。

在一些具体实施例中，所述RNN模块包括Embedding层。

相应地，所述将每个训练图像的标签向量依次输入RNN模块，分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态，包括以下步骤：

步骤S102-1-1-1，利用Embedding层计算每个训练图像的标签向量和标签嵌入矩阵的乘积，获得对应训练图像的标签嵌入向量。

例如，wk(t)＝U×Ek(t)；其中，t表示训练次数，wk(t)表示第t次训练的标签嵌入向量，U表示标签嵌入矩阵，Ek(t)表示第t次训练训练图像的标签向量。

步骤S102-1-1-2，基于预设非线性函数对每个训练图像的标签嵌入向量进行循环优化，直至分别获得所述多个训练图像中所有预设特征标签在对应训练图像上的隐藏层状态。

所述基于预设非线性函数对每个训练图像的标签嵌入向量进行循环优化，可以理解为，每一次训练输入的标签嵌入向量与上一个隐藏层状态r(t-1)，通过预设非线性函数进行计算，得到RNN模块输出的隐藏层状态。也就是RNN模块在上一次训练输出的隐藏层状态r(t-1)作为本次训练循环优化的一个输入值。

步骤S102-1-2，将每个训练图像的隐藏层状态和图像类型输入所述融合处理模块获得对应训练图像的中每个预设特征标签的标签概率。

在一些具体实施例中，所述融合处理模块包括softmax层。

Softmax层，属于多类分类器。进行归一化操作，将预测出的标签赋予一个概率值。

相应地，所述将每个训练图像的隐藏层状态和图像类型输入所述融合处理模块获得对应训练图像的中每个预设特征标签的标签概率，包括以下步骤：

步骤S102-1-2-1，将每个训练图像的隐藏层状态和图像类型投影至标签嵌入矩阵所在的低维空间中，获得对应训练图像的投影值。

步骤S102-1-2-2，对每个训练图像的投影值进行转置相乘，获得对应训练图像中每个预设特征标签的分数。

步骤S102-1-2-3，利用所述softmax层对每个训练图像中每个预设特征标签的分数进行归一化处理，获得对应训练图像中每个预设特征标签的标签概率。

步骤S102-2，将每个训练图像中每个预设特征标签的标签概率与对应预设特征标签的预设标签概率进行比较，获得对应预设特征标签的训练误差。

步骤S102-3，基于每个预设特征标签的训练误差获得训练精度。

步骤S102-4，当所述训练精度小于预设识别精度时，调整所述图像标签关系模型的参数，触发所述将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率的操作步骤。

也就是，当所述训练精度小于预设识别精度时，训练尚未达到预期效果，对图像标签关系模型的参数进行调整后，返回步骤S102-1继续训练图像标签关系模型。

步骤S102-5，当所述训练精度大于或等于预设识别精度时，确定所述图像标签关系模型训练完成。

当训练达到预期效果时，结束对图像标签关系模型的训练。

在使用训练后的图像标签关系模型进行图像标签预测时，采用beam search方法对预测序列进行判断，对最优解进行选择。beam search不是对最可能的路径直接进行预测，而是找在每一个时间点最可能的N条预测路径，最为中间路径。比如在时间点T，模型将N条中间路径加上最可能的N个标签，共得到N*N条路径，其中，概率最高的N条构成时间点T的中间路径。beam search的终止条件是当前中间路径的概率小于所有候选路径(以END标识符结束的路径)。

在检索图片时，建立每张图像的特征标签与图像存储路径的映射关系，通过训练好的图像标签关系模型确定图像的特征标签，然后通过该映射关系找到对应的存储路径，进而找到该图像。

本申请实施例基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度，所述图像标签关系模型包括：CNN模块、RNN模块和融合处理模块。融合处理模块对CNN模块的输出结果和RNN模块的输出结果进行融合处理，生成训练图像中每个标签的标签概率。利用优化的图像标签关系模型能够对车载图像进行自动标记，确定车载图像中的标签，从而通过标签检索到对应的车载图像。缩短了用户与目标图片之间的操作成本，提高了用户体验。

本申请还提供了与上述实施例承接的装置实施例，用于实现如上实施例所述的方法步骤，基于相同的名称含义的解释与如上实施例相同，具有与如上实施例相同的技术效果，此处不再赘述。

如图2所示，本申请提供一种用于车载图像的图像标签关系模型训练装置200，包括：

获取单元201，用于获取多个训练图像和每个训练图像的标签向量，其中，每个训练图像的标签向量表征对应训练图像中各个预设特征标签与其他训练图像中所有预设特征标签的关系；

训练单元202，用于基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度；

基于每个预设特征标签的训练误差获得训练精度；

可选的，所述RNN模块包括Embedding层；

可选的，所述融合处理模块包括softmax层；

可选的，所述方法还包括：

可选的，所述标签向量包括one-hot向量。

本实施例提供一种电子设备，所述电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上实施例所述的方法步骤。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

最后应说明的是：本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述比较简单，相关之处参见方法部分说明即可。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种用于车载图像的图像标签关系模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个训练图像和对应训练图像的标签向量训练图像标签关系模型达到预设识别精度，包括：

基于每个预设特征标签的训练误差获得训练精度；

3.根据权利要求2所述的方法，其特征在于，所述将每个训练图像与对应训练图像的标签向量依次输入所述图像标签关系模型中以便获得对应训练图像中每个预设特征标签的标签概率，包括：

4.根据权利要求2所述的方法，其特征在于，

所述RNN模块包括Embedding层；

5.根据权利要求3所述的方法，其特征在于，

所述融合处理模块包括softmax层；

6.根据权利要求2所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述标签向量包括one-hot向量。

8.一种用于车载图像的图像标签关系模型训练装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。