CN115019314A

CN115019314A - 一种商品价格识别方法、装置、设备及存储介质

Info

Publication number: CN115019314A
Application number: CN202210942294.4A
Authority: CN
Inventors: 张润泽; 李仁刚; 赵雅倩; 郭振华; 范宝余; 李晓川
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-09-06
Also published as: WO2024031898A1

Abstract

本申请公开了一种商品价格识别方法、装置、设备及存储介质，涉及图像识别领域。该方法包括：按照卷积神经网络、编码器、解码器、匹配模型、字符识别模块的顺序构建商品价格识别模型；将商品图像输入至商品价格识别模型，利用卷积神经网络提取得到商品图像对应的图像特征；将图像特征作为编码器的输入得到对应的编码特征，并将编码特征作为解码器的输入，得到多个商品检测框及多个价格检测框；利用匹配模型筛选出目标商品检测框及目标价格检测框，并确定出目标商品检测框与目标价格检测框的对应关系；利用字符识别模块识别目标价格检测框内的价格内容，并结合对应关系确定出每个目标商品框内商品的价格。能够提高商品价格识别的准确性。

Description

一种商品价格识别方法、装置、设备及存储介质

技术领域

本发明涉及图像识别领域，特别涉及一种商品价格识别方法、装置、设备及存储介质。

背景技术

商品价格识别是指给定一张包含商品和商品价格的商品图，同时检测架子上的所有商品以及价格标签内的价格，将商品和价格进行匹配，最后输出该图片中的所有商品位置并且输出所有商品对应的价格，如图1所示。传统方案通常用的目标检测模型是FasterRCNN（Faster Region-CNN, 快速区域卷积神经网络），该目标检测模型需要依次完成商品定位及价格标签定位等功能，且该算法模型依赖于密集先验，覆盖整幅图可能出现物体的部分，预测该区域的实例类别，该类型算法就需要更多的先验，包括目标检测预定义锚点（anchor）预定义、非极大值抑制（nms）阈值设置，同时传统算法对于价格标签和商品的匹配是离线计算的，同样也需要很强的先验。另外，传统算法步骤繁琐，不能做到端到端的训练，步骤间的依赖性强，会导致误差偏大。因此，如何提高商品定价识别的准确性和效率是目前亟需解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种商品价格识别方法、装置、设备及介质，能够提高商品价格识别的准确性。其具体方案如下：

第一方面，本申请公开了一种商品价格识别方法，包括：

按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型；

获取包含商品以及商品对应的价格标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征；

将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框；

利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框，以及从所有所述价格检测框中筛选出目标价格检测框，并确定出所述目标商品检测框与所述目标价格检测框的对应关系；

利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。

可选的，所述匹配模型的构建和训练过程，包括：

基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型；

针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练，得到以商品检测框和价格检测框为输入，以目标价格检测框和目标商品检测框为输出的初始模型；

针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练，得到以目标价格检测框和目标商品检测框为输入，以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。

可选的，所述对所述匹配模型进行第一阶段训练，包括：

获取历史商品图像，并获取所述历史商品图像内商品对应的商品标注框，以及价格标签对应的价格标注框；

利用所述卷积神经网络、所述transformer编码器和所述transformer解码器，获取所述历史商品图像对应的历史商品检测框和历史价格检测框；

基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集，利用所述第一训练集对所述匹配模型进行第一阶段训练，以得到第一阶段训练后的所述初始模型。

可选的，所述匹配模型的模型函数为：

；

其中，

表示标注框，

表示预测框，

表征基于匈牙利匹配算法进行预测框及标注框的匹配。

可选的，所述利用所述第一训练集对所述匹配模型进行第一阶段训练，以得到第一阶段训练后的所述初始模型，包括：

基于所述商品标注框和所述历史商品检测框之间的重叠率，以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数；

利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束，以得到第一阶段训练后的所述初始模型。

可选的，所述损失函数为：

；

其中，

表示标注框，

表示目标检测框，

为目标检测框损失；

；

其中，

表示目标检测框与标注框的交叠率，

表示SmoothL1损失，

和

表示损失函数超参数。

可选的，所述对所述匹配模型进行第二阶段训练，包括：

获取历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系；

基于目标历史商品检测框、目标历史价格检测框和所述框位置关系得到第二训练集；

利用所述第二训练集对所述初始模型进行第二阶段训练，以得到训练后的所述匹配模型。

可选的，所述利用所述字符识别模块识别所述目标价格检测框内的价格内容，包括：

利用光学字符识别模型对所述目标价格检测框进行字符识别，以得到所述目标价格检测框内的价格内容。

可选的，所述将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框，包括：

将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入；

根据所述transformer解码器的输出结果，得到与所述商品查询参数对应的数量的商品检测框，以及与所述商品标签查询参数对应的数量的价格检测框。

可选的，所述按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型之前，还包括：

获取深度残差网络，并根据所述深度残差网络的阶段数量构建上采样网络；所述上采样网络包含与所述阶段数量相同数量的特征图上采样模块；

对所述深度残差网络的每个阶段，添加通道级别的注意力机制模块连接至对应阶段的所述特征图上采样模块，以构建得到所述卷积神经网络。

可选的，所述特征图上采样模块的构建过程，包括：

基于自注意力机制模块和轻量级上采样算子，构建得到所述特征图上采样模块。

可选的，所述注意力机制模块的构建过程，包括：

按照残差层、最大池化层和平均池化层、融合层、全连接层、分类层、以所述残差层和所述分类层为输入的乘法层、输出层的顺序构建得到所述通道级别的注意力机制模块。

第二方面，本申请公开了一种商品价格识别装置，包括：

模型构建模块，用于按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型；

图像特征识别模块，用于获取包含商品以及商品标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征；

候选检测框确定模块，用于将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入，得到与所述商品查询参数对应的数量的候选商品检测框，以及与所述商品标签查询参数对应的数量的候选价格检测框；

目标检测框确定模块，用于利用所述匹配模型从所有所述候选商品检测框中筛选出目标商品框，以及从所有所述候选价格检测框中筛选出目标价格检测框，并确定出所述目标商品框与所述目标价格检测框的对应关系；

商品价格确定模块，用于利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的商品价格识别方法。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的商品价格识别方法。

本申请中，按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型；获取包含商品以及商品对应的价格标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征；将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框；利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框，以及从所有所述价格检测框中筛选出目标价格检测框，并确定出所述目标商品检测框与所述目标价格检测框的对应关系；利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。可见，按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型，端到端地同时完成商品定位、价格标签识别以及价格标签与商品匹配过程，简化商品定价方案，摆脱了对先验知识依赖，避免了传统解决方案中步骤间累积误差较大的情形，提高了商品价格识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种商品价格识别结果示意图；

图2为本申请提供的一种商品价格识别方法流程图；

图3为本申请提供的一种具体的商品价格识别模型结构图；

图4为本申请提供的一种具体的卷积神经网络结构示意图；

图5为本申请提供的一种具体的特征图上采样模块结构示意图；

图6为本申请提供的一种具体的注意力机制模块结构示意图；

图7为本申请提供的一种商品价格识别装置结构示意图；

图8为本申请提供的一种电子设备结构图；

附图标记：电子设备20；处理器21；存储器22，操作系统221，计算机程序222，数据223；电源23；通信接口24；输入输出接口25；通信总线26。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，利用快速区域卷积神经网络进行商品价格识别，需要先验，步骤间的依赖性强，容易导致误差偏大，降低了商品价格识别的准确性。为克服上述区别技术特征，本申请提出一种基于transformer的商品价格识别方法，能够提高商品价格识别的准确性。

本申请实施例公开了一种商品价格识别方法，参见图2所示，该方法可以包括以下步骤：

步骤S11：按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型。

即例如图3所示的商品价格识别模型结构图，按照卷积神经网络（ConvolutionalNeural Networks, CNN）的骨干网络、transformer编码器（transformer encoder）、transformer解码器（transformer decoder）、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型，其中，上述字符识别模块具体可以为光学字符识别（Optical Character Recognition，OCR）模型。

本实施例中，所述按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型之前，还可以包括：获取深度残差网络，并根据所述深度残差网络的阶段数量构建上采样网络；所述上采样网络包含与所述阶段数量相同数量的特征图上采样模块；对所述深度残差网络的每个阶段，添加通道级别的注意力机制模块连接至对应阶段的所述特征图上采样模块，以构建得到所述卷积神经网络。即本实施例中采用的卷积神经网络加入了多尺度信息，通过在卷积神经网络中加入多尺度特征融合，解决不同商品在图像中大小不一致的问题，例如图4所示，以深度残差网络ResNet50为例，S1、S2、S3及S4表示ResNet网络模块的四个阶段（stage），每经过一个stage, 图像特征分辨率变为原来一半，GSE为所述通道级别的注意力机制模块，ASU为所述特征图上采样模块。

本实施例中，所述特征图上采样模块的构建过程，可以包括：基于自注意力机制模块和轻量级上采样算子，构建得到所述特征图上采样模块。特征图上采样模块的结构如图5所示，主要由自注意力机制（self-attention）网络模块及轻量级上采样算子（CARAFE，Content-Aware ReAssembly of FEature）组成，其中，自注意力机制模块与transformer中的网络模块一致，CARAFE是一种可更新参数的上采样算子。特征图上采样模块可以很好地捕捉到周围特征图的全局信息，同时计算复杂度也比较低。

本实施例中，所述注意力机制模块的构建过程，可以包括：按照残差层（residual层）、最大池化层（max pooling层）和平均池化层（avg pooling层）、融合层（concat层）、全连接层（FC层）、分类层（sigmoid层）、以所述残差层和所述分类层为输入的乘法层（multiply层）、输出层（add层）的顺序构建得到所述通道级别的注意力机制模块。注意力机制模块的结构如图6所示，可以理解的是，由于商品种类繁多，因此引入注意力机制模块在特征图层面确定不同商品的重要性。

由此，基于深度残差网络、通道级别的注意力机制模块和特征图上采样模块构建的卷积神经网络，可以首先在大规模商品识别数据集上进行分类任务的微调，让作为骨干网络的卷积神经网络拥有一定的判别商品类型的能力，其中，卷积神经网络的训练具体可以采用FocalLoss损失函数进行训练，在送入transformer网络之前，骨干网络初始化权重为在大规模商品识别数据集上微调得到的模型权重。

步骤S12：获取包含商品以及商品对应的价格标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征。

即先获取如图1所示的包含商品以及商品对应的价格标签的商品图像，然后将商品图像输入至商品价格识别模型，图像输入后，首先经过卷积神经网络，卷积神经网络对图像进行特征提取得到商品图像对应的图像特征。

步骤S13：将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框。

本实施例中，所述将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框，可以包括：将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入；根据所述transformer解码器的输出结果，得到与所述商品查询参数对应的数量的商品检测框，以及与所述商品标签查询参数对应的数量的价格检测框。

即输入图片经过骨干网络提取特征后，送入transformer编码器网络中，编码特征和商品查询参数（商品query）及商品标签查询参数（价格标签query）一起送入transformer解码器网络中，将解码得到的特征中输入匹配模块，得到最终的商品位置及对应的价格标签位置。采用transformer的编码器来编码图像特征，设置了两种可学习的初始化嵌入参数商品query及价格标签query，从编码图像特征中解码出对应商品位置和价格标签位置。商品查询参数和商品标签查询参数表征初次检测需要的检测数量，如商品query的数量是100，则对应得到100个商品检测框，价格标签query的数量是100，则对应得到100个价格检测框。这些查询参数相当于自适应目标检测预定义锚点信息，通过解码器解码出对应物体的检测位置，最终的输出是检测出商品的检测位置并给出对应的价格标签的位置。

步骤S14：利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框，以及从所有所述价格检测框中筛选出目标价格检测框，并确定出所述目标商品检测框与所述目标价格检测框的对应关系。

可以理解的是，解码器输出多个作为候选的商品检测框以及价格检测框，此时的候选框中存在一些定位很准确的检测框，以及一些定位不太准确的检测框，因此需要将定位最准确的检测框筛选出来作为目标检测框。匹配模型首先用于从所有商品检测框中筛选出目标商品检测框，以及从所有价格检测框中筛选出目标价格检测框，其次，匹配模型用于根据检测出的目标商品检测框及目标价格检测框，完成商品及相关价格标签位置的对应，可以理解的是，例如图1所示，由于商品陈列时，通常是多个相同的产品对应同一个标签，因此，需要将检测出的多个目标商品检测框和多个目标价格检测框之间存在的对应关系确定出来，这也是商品价格识别的重要步骤。

本实施例中，所述匹配模型的构建和训练过程，可以包括：基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型；针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练，得到以商品检测框和价格检测框为输入，以目标价格检测框和目标商品检测框为输出的初始模型；针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练，得到以目标价格检测框和目标商品检测框为输入，以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。

本实施例中，所述对所述匹配模型进行第一阶段训练，可以包括：获取历史商品图像，并获取所述历史商品图像内商品对应的商品标注框，以及价格标签对应的价格标注框；利用所述卷积神经网络、所述transformer编码器和所述transformer解码器，获取所述历史商品图像对应的历史商品检测框和历史价格检测框；基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集，利用所述第一训练集对所述匹配模型进行第一阶段训练，以得到第一阶段训练后的所述初始模型。

本实施例中，所述利用所述第一训练集对所述匹配模型进行第一阶段训练，以得到第一阶段训练后的所述初始模型，可以包括：基于所述商品标注框和所述历史商品检测框之间的重叠率，以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数；利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束，以得到第一阶段训练后的所述初始模型。

本实施例中，所述对所述匹配模型进行第二阶段训练，可以包括：获取所述历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系；基于所述目标历史商品检测框、所述目标历史价格检测框和所述框位置关系得到第二训练集；利用所述第二训练集对所述初始模型进行第二阶段训练，以得到训练后的所述匹配模型。

即本实施例中采用了两阶段的训练方式。第一阶段首先根据商品及价格标签的标注框（GroundTruth坐标），完成对商品及价格标签位置的检测，标注框包括上述商品标注框和价格标注框，标注框是已经确定的准确的定位框，具体可以由人工标注；第二阶段在给定的商品标注框与对应的价格标注框之间的框位置关系的引导下完成对于两者匹配关系的检测。且匹配模块引入二分图最大匹配（Bipartite Matching）进行检测，具体的，利用匈牙利算法（Hungarian algorithm）求解二分图最大匹配。

第一阶段引入了二分图最大匹配来完成标注框与预测框的匹配。匹配策略如下：

；

其中，

表示标注框，

表示预测框，

表征基于匈牙利匹配算法进行预测框及标注框的匹配。

假设有图片中有N个商品和M个价格标签，那么从所有检测框中经过匈牙利匹配算法后只有N+M个目标检测框与标注框相对应，如此可以避免传统目标检测框架中的NMS（nonmaximum suppression，非极大抑制）去除重复框的操作。

最终的基于匹配的目标检测框（包括目标价格检测框和目标商品检测框）的损失为：

；

其中，

表示标注框，

表示目标检测框，

为目标检测框损失，具体如下：

；

其中，

表示目标检测框与标注框的交叠率，即检测结果同标注框的交集与他们的并集之比，

表示SmoothL1损失，

及

表示损失函数超参数，本实施例中可以均取0.5。其中，

；union表征并集，intersection表征交集；

；

二分图最大匹配可以保证预测值与真值实现最大程度的匹配，保证预测的N个实例按照位置能够和GroundTruth对应起来。实现一一对应之后，便可以通过

进行优化。

第二阶段的匹配则是在第一阶段已经得到较为准确的目标检测框的基础上完成的一对一的基于目标检测框位置的匹配过程。同样使用的是匈牙利匹配策略，判别依据在于商品坐标及价格标签坐标。假设目标商品检测框位置为[x1,y1,x2,y2]，选取[(x1+x2)/2, y2]作为其对应的坐标表示。假设目标价格检测框位置为[a1,b1,a2,b2]，选取[(a1+a2)/2, b1]作为其对应的坐标表示，然后使用匈牙利匹配算法完成目标价格检测框与目标价格检测框的一一对应。

相应的，针对商品价格识别模型的训练过程可以包括输入商品图片，CNN骨干网络提取图像特征；图像特征输入到transformer编码器中，输出编码后特征；编码后图像特征输入transformer解码器中，预测目标商品检测框以及目标价格检测框；使用匈牙利匹配算法与GroundTruth进行二元匹配，得到最接近GroundTruth的预测位置；计算坐标框损失。商品价格识别模型的测试过程可以包括输入商品图片；CNN骨干网络提取图像特征；图像特征输入到transformer编码器中，输出编码后特征；编码后图像特征输入transformer解码器中，预测目标商品检测框以及目标价格检测框；使用匈牙利匹配算法与GroundTruth进行二元匹配，得到最接近GroundTruth的预测位置；根据预测得到的目标商品检测框以及目标价格检测框，再一次使用匈牙利匹配算法进行目标商品检测框与目标价格检测框的二元匹配；使用离线OCR识别模型识别价格标签中的价格。

步骤S15：利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。

本实施例中，所述利用所述字符识别模块识别所述目标价格检测框内的价格内容，可以包括：利用光学字符识别模型对所述目标价格检测框进行字符识别，以得到所述目标价格检测框内的价格内容。即利用训练好的光学字符识别模型对价格标签坐标框进行识别，输出最终的商品坐标框及最终的商品价格。其中，光学字符识别模型可以是RobustScanner（动态增强位置信息的文字识别网络）。

由上可见，本实施例中按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型；获取包含商品以及商品对应的价格标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征；将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框；利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框，以及从所有所述价格检测框中筛选出目标价格检测框，并确定出所述目标商品检测框与所述目标价格检测框的对应关系；利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。

相应的，本申请实施例还公开了一种商品价格识别装置，参见图7所示，该装置包括：

模型构建模块11，用于按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型；

图像特征识别模块12，用于获取包含商品以及商品对应的价格标签的商品图像，并将所述商品图像输入至所述商品价格识别模型，以利用所述卷积神经网络提取得到所述商品图像对应的图像特征；

候选检测框确定模块13，用于将所述图像特征作为所述transformer编码器的输入得到对应的编码特征，并将所述编码特征作为所述transformer解码器的输入，得到多个商品检测框以及多个价格检测框；

目标检测框确定模块14，用于利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框，以及从所有所述价格检测框中筛选出目标价格检测框，并确定出所述目标商品检测框与所述目标价格检测框的对应关系；

商品价格确定模块15，用于利用所述字符识别模块识别所述目标价格检测框内的价格内容，并结合所述对应关系确定出每个所述目标商品框内商品的价格。

在一些具体实施例中，所述商品价格识别装置具体可以包括：

匹配模型构建单元，用于基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型；

第一训练单元，用于针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练，得到以商品检测框和价格检测框为输入，以目标价格检测框和目标商品检测框为输出的初始模型；

第二训练单元，用于针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练，得到以目标价格检测框和目标商品检测框为输入，以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。

在一些具体实施例中，所述第一训练单元具体可以包括：

标注框获取单元，用于获取历史商品图像，并获取所述历史商品图像内商品对应的商品标注框，以及价格标签对应的价格标注框；

检测框获取单元，用于利用所述卷积神经网络、所述transformer编码器和所述transformer解码器，获取所述历史商品图像对应的历史商品检测框和历史价格检测框；

训练单元，用于基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集，利用所述第一训练集对所述匹配模型进行第一阶段训练，以得到第一阶段训练后的所述初始模型。

在一些具体实施例中，所述匹配模型的模型函数为：

；

其中，

表示标注框，

表示预测框，

表征基于匈牙利匹配算法进行预测框及标注框的匹配。

在一些具体实施例中，所述训练单元具体可以包括：

损失函数构建单元，用于基于所述商品标注框和所述历史商品检测框之间的重叠率，以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数；

损失约束单元，用于利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束，以得到第一阶段训练后的所述初始模型。

在一些具体实施例中，所述损失函数为：

；

其中，

表示标注框，

表示目标检测框，

为目标检测框损失；

；

其中，

表示目标检测框与标注框的交叠率，

表示SmoothL1损失，

和

表示损失函数超参数。

在一些具体实施例中，所述第二训练单元具体可以包括：

位置关系获取单元，用于获取所述历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系；

第二训练集确定单元，用于基于所述目标历史商品检测框、所述目标历史价格检测框和所述框位置关系得到第二训练集；

训练单元，用于利用所述第二训练集对所述初始模型进行第二阶段训练，以得到训练后的所述匹配模型。

在一些具体实施例中，所述商品价格确定模块12具体可以用于利用光学字符识别模型对所述目标价格检测框进行字符识别，以得到所述目标价格检测框内的价格内容。

在一些具体实施例中，所述候选检测框确定模块13具体可以用于将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入；根据所述transformer解码器的输出结果，得到与所述商品查询参数对应的数量的商品检测框，以及与所述商品标签查询参数对应的数量的价格检测框。

进一步的，本申请实施例还公开了一种电子设备，参见图8所示，图中的内容不能被认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的商品价格识别方法中的相关步骤。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及包括商品图像在内的数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的商品价格识别方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请实施例还公开了一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的商品价格识别方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种商品价格识别方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。