CN115019314A - 一种商品价格识别方法、装置、设备及存储介质 - Google Patents

一种商品价格识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115019314A
CN115019314A CN202210942294.4A CN202210942294A CN115019314A CN 115019314 A CN115019314 A CN 115019314A CN 202210942294 A CN202210942294 A CN 202210942294A CN 115019314 A CN115019314 A CN 115019314A
Authority
CN
China
Prior art keywords
commodity
price
target
frame
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210942294.4A
Other languages
English (en)
Inventor
张润泽
李仁刚
赵雅倩
郭振华
范宝余
李晓川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202210942294.4A priority Critical patent/CN115019314A/zh
Publication of CN115019314A publication Critical patent/CN115019314A/zh
Priority to PCT/CN2022/138454 priority patent/WO2024031898A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种商品价格识别方法、装置、设备及存储介质,涉及图像识别领域。该方法包括:按照卷积神经网络、编码器、解码器、匹配模型、字符识别模块的顺序构建商品价格识别模型;将商品图像输入至商品价格识别模型,利用卷积神经网络提取得到商品图像对应的图像特征;将图像特征作为编码器的输入得到对应的编码特征,并将编码特征作为解码器的输入,得到多个商品检测框及多个价格检测框;利用匹配模型筛选出目标商品检测框及目标价格检测框,并确定出目标商品检测框与目标价格检测框的对应关系;利用字符识别模块识别目标价格检测框内的价格内容,并结合对应关系确定出每个目标商品框内商品的价格。能够提高商品价格识别的准确性。

Description

一种商品价格识别方法、装置、设备及存储介质
技术领域
本发明涉及图像识别领域,特别涉及一种商品价格识别方法、装置、设备及存储介质。
背景技术
商品价格识别是指给定一张包含商品和商品价格的商品图,同时检测架子上的所有商品以及价格标签内的价格,将商品和价格进行匹配,最后输出该图片中的所有商品位置并且输出所有商品对应的价格,如图1所示。传统方案通常用的目标检测模型是FasterRCNN(Faster Region-CNN, 快速区域卷积神经网络),该目标检测模型需要依次完成商品定位及价格标签定位等功能,且该算法模型依赖于密集先验,覆盖整幅图可能出现物体的部分,预测该区域的实例类别,该类型算法就需要更多的先验,包括目标检测预定义锚点(anchor)预定义、非极大值抑制(nms)阈值设置,同时传统算法对于价格标签和商品的匹配是离线计算的,同样也需要很强的先验。另外,传统算法步骤繁琐,不能做到端到端的训练,步骤间的依赖性强,会导致误差偏大。因此,如何提高商品定价识别的准确性和效率是目前亟需解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种商品价格识别方法、装置、设备及介质,能够提高商品价格识别的准确性。其具体方案如下:
第一方面,本申请公开了一种商品价格识别方法,包括:
按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;
获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;
将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;
利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;
利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
可选的,所述匹配模型的构建和训练过程,包括:
基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型;
针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练,得到以商品检测框和价格检测框为输入,以目标价格检测框和目标商品检测框为输出的初始模型;
针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练,得到以目标价格检测框和目标商品检测框为输入,以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。
可选的,所述对所述匹配模型进行第一阶段训练,包括:
获取历史商品图像,并获取所述历史商品图像内商品对应的商品标注框,以及价格标签对应的价格标注框;
利用所述卷积神经网络、所述transformer编码器和所述transformer解码器,获取所述历史商品图像对应的历史商品检测框和历史价格检测框;
基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集,利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型。
可选的,所述匹配模型的模型函数为:
Figure 647093DEST_PATH_IMAGE001
其中,
Figure 91981DEST_PATH_IMAGE002
表示标注框,
Figure 835946DEST_PATH_IMAGE003
表示预测框,
Figure 948259DEST_PATH_IMAGE004
表征基于匈牙利匹配算法进行预测框及标注框的匹配。
可选的,所述利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型,包括:
基于所述商品标注框和所述历史商品检测框之间的重叠率,以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数;
利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束,以得到第一阶段训练后的所述初始模型。
可选的,所述损失函数为:
Figure 17846DEST_PATH_IMAGE005
其中,
Figure 215609DEST_PATH_IMAGE006
表示标注框,
Figure 763265DEST_PATH_IMAGE007
表示目标检测框,
Figure 995663DEST_PATH_IMAGE008
为目标检测框损失;
Figure 501731DEST_PATH_IMAGE010
其中,
Figure 921211DEST_PATH_IMAGE011
表示目标检测框与标注框的交叠率,
Figure 272558DEST_PATH_IMAGE012
表示SmoothL1损失,
Figure 828304DEST_PATH_IMAGE013
Figure 239694DEST_PATH_IMAGE014
表示损失函数超参数。
可选的,所述对所述匹配模型进行第二阶段训练,包括:
获取历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系;
基于目标历史商品检测框、目标历史价格检测框和所述框位置关系得到第二训练集;
利用所述第二训练集对所述初始模型进行第二阶段训练,以得到训练后的所述匹配模型。
可选的,所述利用所述字符识别模块识别所述目标价格检测框内的价格内容,包括:
利用光学字符识别模型对所述目标价格检测框进行字符识别,以得到所述目标价格检测框内的价格内容。
可选的,所述将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框,包括:
将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入;
根据所述transformer解码器的输出结果,得到与所述商品查询参数对应的数量的商品检测框,以及与所述商品标签查询参数对应的数量的价格检测框。
可选的,所述按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型之前,还包括:
获取深度残差网络,并根据所述深度残差网络的阶段数量构建上采样网络;所述上采样网络包含与所述阶段数量相同数量的特征图上采样模块;
对所述深度残差网络的每个阶段,添加通道级别的注意力机制模块连接至对应阶段的所述特征图上采样模块,以构建得到所述卷积神经网络。
可选的,所述特征图上采样模块的构建过程,包括:
基于自注意力机制模块和轻量级上采样算子,构建得到所述特征图上采样模块。
可选的,所述注意力机制模块的构建过程,包括:
按照残差层、最大池化层和平均池化层、融合层、全连接层、分类层、以所述残差层和所述分类层为输入的乘法层、输出层的顺序构建得到所述通道级别的注意力机制模块。
第二方面,本申请公开了一种商品价格识别装置,包括:
模型构建模块,用于按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;
图像特征识别模块,用于获取包含商品以及商品标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;
候选检测框确定模块,用于将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入,得到与所述商品查询参数对应的数量的候选商品检测框,以及与所述商品标签查询参数对应的数量的候选价格检测框;
目标检测框确定模块,用于利用所述匹配模型从所有所述候选商品检测框中筛选出目标商品框,以及从所有所述候选价格检测框中筛选出目标价格检测框,并确定出所述目标商品框与所述目标价格检测框的对应关系;
商品价格确定模块,用于利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的商品价格识别方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中计算机程序被处理器执行时实现前述的商品价格识别方法。
本申请中,按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。可见,按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型,端到端地同时完成商品定位、价格标签识别以及价格标签与商品匹配过程,简化商品定价方案,摆脱了对先验知识依赖,避免了传统解决方案中步骤间累积误差较大的情形,提高了商品价格识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种商品价格识别结果示意图;
图2为本申请提供的一种商品价格识别方法流程图;
图3为本申请提供的一种具体的商品价格识别模型结构图;
图4为本申请提供的一种具体的卷积神经网络结构示意图;
图5为本申请提供的一种具体的特征图上采样模块结构示意图;
图6为本申请提供的一种具体的注意力机制模块结构示意图;
图7为本申请提供的一种商品价格识别装置结构示意图;
图8为本申请提供的一种电子设备结构图;
附图标记:电子设备20;处理器21;存储器22,操作系统221,计算机程序222,数据223;电源23;通信接口24;输入输出接口25;通信总线26。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,利用快速区域卷积神经网络进行商品价格识别,需要先验,步骤间的依赖性强,容易导致误差偏大,降低了商品价格识别的准确性。为克服上述区别技术特征,本申请提出一种基于transformer的商品价格识别方法,能够提高商品价格识别的准确性。
本申请实施例公开了一种商品价格识别方法,参见图2所示,该方法可以包括以下步骤:
步骤S11:按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型。
即例如图3所示的商品价格识别模型结构图,按照卷积神经网络(ConvolutionalNeural Networks, CNN)的骨干网络、transformer编码器(transformer encoder)、transformer解码器(transformer decoder)、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型,其中,上述字符识别模块具体可以为光学字符识别(Optical Character Recognition,OCR)模型。
本实施例中,所述按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型之前,还可以包括:获取深度残差网络,并根据所述深度残差网络的阶段数量构建上采样网络;所述上采样网络包含与所述阶段数量相同数量的特征图上采样模块;对所述深度残差网络的每个阶段,添加通道级别的注意力机制模块连接至对应阶段的所述特征图上采样模块,以构建得到所述卷积神经网络。即本实施例中采用的卷积神经网络加入了多尺度信息,通过在卷积神经网络中加入多尺度特征融合,解决不同商品在图像中大小不一致的问题,例如图4所示,以深度残差网络ResNet50为例,S1、S2、S3及S4表示ResNet网络模块的四个阶段(stage),每经过一个stage, 图像特征分辨率变为原来一半,GSE为所述通道级别的注意力机制模块,ASU为所述特征图上采样模块。
本实施例中,所述特征图上采样模块的构建过程,可以包括:基于自注意力机制模块和轻量级上采样算子,构建得到所述特征图上采样模块。特征图上采样模块的结构如图5所示,主要由自注意力机制(self-attention)网络模块及轻量级上采样算子(CARAFE,Content-Aware ReAssembly of FEature)组成,其中,自注意力机制模块与transformer中的网络模块一致,CARAFE是一种可更新参数的上采样算子。特征图上采样模块可以很好地捕捉到周围特征图的全局信息,同时计算复杂度也比较低。
本实施例中,所述注意力机制模块的构建过程,可以包括:按照残差层(residual层)、最大池化层(max pooling层)和平均池化层(avg pooling层)、融合层(concat层)、全连接层(FC层)、分类层(sigmoid层)、以所述残差层和所述分类层为输入的乘法层(multiply层)、输出层(add层)的顺序构建得到所述通道级别的注意力机制模块。注意力机制模块的结构如图6所示,可以理解的是,由于商品种类繁多,因此引入注意力机制模块在特征图层面确定不同商品的重要性。
由此,基于深度残差网络、通道级别的注意力机制模块和特征图上采样模块构建的卷积神经网络,可以首先在大规模商品识别数据集上进行分类任务的微调,让作为骨干网络的卷积神经网络拥有一定的判别商品类型的能力,其中,卷积神经网络的训练具体可以采用FocalLoss损失函数进行训练,在送入transformer网络之前,骨干网络初始化权重为在大规模商品识别数据集上微调得到的模型权重。
步骤S12:获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征。
即先获取如图1所示的包含商品以及商品对应的价格标签的商品图像,然后将商品图像输入至商品价格识别模型,图像输入后,首先经过卷积神经网络,卷积神经网络对图像进行特征提取得到商品图像对应的图像特征。
步骤S13:将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框。
本实施例中,所述将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框,可以包括:将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入;根据所述transformer解码器的输出结果,得到与所述商品查询参数对应的数量的商品检测框,以及与所述商品标签查询参数对应的数量的价格检测框。
即输入图片经过骨干网络提取特征后,送入transformer编码器网络中,编码特征和商品查询参数(商品query)及商品标签查询参数(价格标签query)一起送入transformer解码器网络中,将解码得到的特征中输入匹配模块,得到最终的商品位置及对应的价格标签位置。采用transformer的编码器来编码图像特征,设置了两种可学习的初始化嵌入参数商品query及价格标签query,从编码图像特征中解码出对应商品位置和价格标签位置。商品查询参数和商品标签查询参数表征初次检测需要的检测数量,如商品query的数量是100,则对应得到100个商品检测框,价格标签query的数量是100,则对应得到100个价格检测框。这些查询参数相当于自适应目标检测预定义锚点信息,通过解码器解码出对应物体的检测位置,最终的输出是检测出商品的检测位置并给出对应的价格标签的位置。
步骤S14:利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系。
可以理解的是,解码器输出多个作为候选的商品检测框以及价格检测框,此时的候选框中存在一些定位很准确的检测框,以及一些定位不太准确的检测框,因此需要将定位最准确的检测框筛选出来作为目标检测框。匹配模型首先用于从所有商品检测框中筛选出目标商品检测框,以及从所有价格检测框中筛选出目标价格检测框,其次,匹配模型用于根据检测出的目标商品检测框及目标价格检测框,完成商品及相关价格标签位置的对应,可以理解的是,例如图1所示,由于商品陈列时,通常是多个相同的产品对应同一个标签,因此,需要将检测出的多个目标商品检测框和多个目标价格检测框之间存在的对应关系确定出来,这也是商品价格识别的重要步骤。
本实施例中,所述匹配模型的构建和训练过程,可以包括:基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型;针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练,得到以商品检测框和价格检测框为输入,以目标价格检测框和目标商品检测框为输出的初始模型;针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练,得到以目标价格检测框和目标商品检测框为输入,以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。
本实施例中,所述对所述匹配模型进行第一阶段训练,可以包括:获取历史商品图像,并获取所述历史商品图像内商品对应的商品标注框,以及价格标签对应的价格标注框;利用所述卷积神经网络、所述transformer编码器和所述transformer解码器,获取所述历史商品图像对应的历史商品检测框和历史价格检测框;基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集,利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型。
本实施例中,所述利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型,可以包括:基于所述商品标注框和所述历史商品检测框之间的重叠率,以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数;利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束,以得到第一阶段训练后的所述初始模型。
本实施例中,所述对所述匹配模型进行第二阶段训练,可以包括:获取所述历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系;基于所述目标历史商品检测框、所述目标历史价格检测框和所述框位置关系得到第二训练集;利用所述第二训练集对所述初始模型进行第二阶段训练,以得到训练后的所述匹配模型。
即本实施例中采用了两阶段的训练方式。第一阶段首先根据商品及价格标签的标注框(GroundTruth坐标),完成对商品及价格标签位置的检测,标注框包括上述商品标注框和价格标注框,标注框是已经确定的准确的定位框,具体可以由人工标注;第二阶段在给定的商品标注框与对应的价格标注框之间的框位置关系的引导下完成对于两者匹配关系的检测。且匹配模块引入二分图最大匹配(Bipartite Matching)进行检测,具体的,利用匈牙利算法(Hungarian algorithm)求解二分图最大匹配。
第一阶段引入了二分图最大匹配来完成标注框与预测框的匹配。匹配策略如下:
Figure 880891DEST_PATH_IMAGE001
其中,
Figure 35928DEST_PATH_IMAGE002
表示标注框,
Figure 977340DEST_PATH_IMAGE003
表示预测框,
Figure 825210DEST_PATH_IMAGE004
表征基于匈牙利匹配算法进行预测框及标注框的匹配。
假设有图片中有N个商品和M个价格标签,那么从所有检测框中经过匈牙利匹配算法后只有N+M个目标检测框与标注框相对应,如此可以避免传统目标检测框架中的NMS(nonmaximum suppression,非极大抑制)去除重复框的操作。
最终的基于匹配的目标检测框(包括目标价格检测框和目标商品检测框)的损失为:
Figure 219282DEST_PATH_IMAGE005
其中,
Figure 912432DEST_PATH_IMAGE006
表示标注框,
Figure 177191DEST_PATH_IMAGE007
表示目标检测框,
Figure 664804DEST_PATH_IMAGE008
为目标检测框损失,具体如下:
Figure 546172DEST_PATH_IMAGE016
其中,
Figure 308592DEST_PATH_IMAGE011
表示目标检测框与标注框的交叠率,即检测结果同标注框的交集与他们的并集之比,
Figure 959016DEST_PATH_IMAGE012
表示SmoothL1损失,
Figure 883110DEST_PATH_IMAGE013
Figure 251774DEST_PATH_IMAGE014
表示损失函数超参数,本实施例中可以均取0.5。其中,
Figure 552306DEST_PATH_IMAGE017
;union表征并集,intersection表征交集;
Figure 322816DEST_PATH_IMAGE018
二分图最大匹配可以保证预测值与真值实现最大程度的匹配,保证预测的N个实例按照位置能够和GroundTruth对应起来。实现一一对应之后,便可以通过
Figure DEST_PATH_IMAGE019
进行优化。
第二阶段的匹配则是在第一阶段已经得到较为准确的目标检测框的基础上完成的一对一的基于目标检测框位置的匹配过程。同样使用的是匈牙利匹配策略,判别依据在于商品坐标及价格标签坐标。假设目标商品检测框位置为[x1,y1,x2,y2],选取[(x1+x2)/2, y2]作为其对应的坐标表示。假设目标价格检测框位置为[a1,b1,a2,b2],选取[(a1+a2)/2, b1]作为其对应的坐标表示,然后使用匈牙利匹配算法完成目标价格检测框与目标价格检测框的一一对应。
相应的,针对商品价格识别模型的训练过程可以包括输入商品图片,CNN骨干网络提取图像特征;图像特征输入到transformer编码器中,输出编码后特征;编码后图像特征输入transformer解码器中,预测目标商品检测框以及目标价格检测框;使用匈牙利匹配算法与GroundTruth进行二元匹配,得到最接近GroundTruth的预测位置;计算坐标框损失。商品价格识别模型的测试过程可以包括输入商品图片;CNN骨干网络提取图像特征;图像特征输入到transformer编码器中,输出编码后特征;编码后图像特征输入transformer解码器中,预测目标商品检测框以及目标价格检测框;使用匈牙利匹配算法与GroundTruth进行二元匹配,得到最接近GroundTruth的预测位置;根据预测得到的目标商品检测框以及目标价格检测框,再一次使用匈牙利匹配算法进行目标商品检测框与目标价格检测框的二元匹配;使用离线OCR识别模型识别价格标签中的价格。
步骤S15:利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
本实施例中,所述利用所述字符识别模块识别所述目标价格检测框内的价格内容,可以包括:利用光学字符识别模型对所述目标价格检测框进行字符识别,以得到所述目标价格检测框内的价格内容。即利用训练好的光学字符识别模型对价格标签坐标框进行识别,输出最终的商品坐标框及最终的商品价格。其中,光学字符识别模型可以是RobustScanner(动态增强位置信息的文字识别网络)。
由上可见,本实施例中按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
相应的,本申请实施例还公开了一种商品价格识别装置,参见图7所示,该装置包括:
模型构建模块11,用于按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;
图像特征识别模块12,用于获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;
候选检测框确定模块13,用于将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;
目标检测框确定模块14,用于利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;
商品价格确定模块15,用于利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
在一些具体实施例中,所述商品价格识别装置具体可以包括:
匹配模型构建单元,用于基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型;
第一训练单元,用于针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练,得到以商品检测框和价格检测框为输入,以目标价格检测框和目标商品检测框为输出的初始模型;
第二训练单元,用于针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练,得到以目标价格检测框和目标商品检测框为输入,以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。
在一些具体实施例中,所述第一训练单元具体可以包括:
标注框获取单元,用于获取历史商品图像,并获取所述历史商品图像内商品对应的商品标注框,以及价格标签对应的价格标注框;
检测框获取单元,用于利用所述卷积神经网络、所述transformer编码器和所述transformer解码器,获取所述历史商品图像对应的历史商品检测框和历史价格检测框;
训练单元,用于基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集,利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型。
在一些具体实施例中,所述匹配模型的模型函数为:
Figure 886652DEST_PATH_IMAGE001
其中,
Figure 742613DEST_PATH_IMAGE002
表示标注框,
Figure 846835DEST_PATH_IMAGE003
表示预测框,
Figure 206272DEST_PATH_IMAGE004
表征基于匈牙利匹配算法进行预测框及标注框的匹配。
在一些具体实施例中,所述训练单元具体可以包括:
损失函数构建单元,用于基于所述商品标注框和所述历史商品检测框之间的重叠率,以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数;
损失约束单元,用于利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束,以得到第一阶段训练后的所述初始模型。
在一些具体实施例中,所述损失函数为:
Figure 731888DEST_PATH_IMAGE005
其中,
Figure 809566DEST_PATH_IMAGE006
表示标注框,
Figure 451900DEST_PATH_IMAGE007
表示目标检测框,
Figure 197002DEST_PATH_IMAGE008
为目标检测框损失;
Figure 633799DEST_PATH_IMAGE020
其中,
Figure 464352DEST_PATH_IMAGE011
表示目标检测框与标注框的交叠率,
Figure 644798DEST_PATH_IMAGE012
表示SmoothL1损失,
Figure 244406DEST_PATH_IMAGE013
Figure 852105DEST_PATH_IMAGE014
表示损失函数超参数。
在一些具体实施例中,所述第二训练单元具体可以包括:
位置关系获取单元,用于获取所述历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系;
第二训练集确定单元,用于基于所述目标历史商品检测框、所述目标历史价格检测框和所述框位置关系得到第二训练集;
训练单元,用于利用所述第二训练集对所述初始模型进行第二阶段训练,以得到训练后的所述匹配模型。
在一些具体实施例中,所述商品价格确定模块12具体可以用于利用光学字符识别模型对所述目标价格检测框进行字符识别,以得到所述目标价格检测框内的价格内容。
在一些具体实施例中,所述候选检测框确定模块13具体可以用于将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入;根据所述transformer解码器的输出结果,得到与所述商品查询参数对应的数量的商品检测框,以及与所述商品标签查询参数对应的数量的价格检测框。
进一步的,本申请实施例还公开了一种电子设备,参见图8所示,图中的内容不能被认为是对本申请的使用范围的任何限制。
图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的商品价格识别方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统221、计算机程序222及包括商品图像在内的数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的商品价格识别方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述任一实施例公开的商品价格识别方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种商品价格识别方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种商品价格识别方法,其特征在于,包括:
按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;
获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;
将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;
利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;
利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
2.根据权利要求1所述的商品价格识别方法,其特征在于,所述匹配模型的构建和训练过程,包括:
基于匈牙利匹配算法构建用于二分图最大匹配的匹配模型;
针对商品及价格标签的位置检测对所述匹配模型进行第一阶段训练,得到以商品检测框和价格检测框为输入,以目标价格检测框和目标商品检测框为输出的初始模型;
针对商品及价格标签之间位置关系的检测对所述匹配模型进行第二阶段训练,得到以目标价格检测框和目标商品检测框为输入,以目标商品检测框与目标价格检测框之间的对应关系为输出的训练后匹配模型。
3.根据权利要求2所述的商品价格识别方法,其特征在于,所述对所述匹配模型进行第一阶段训练,包括:
获取历史商品图像,并获取所述历史商品图像内商品对应的商品标注框,以及价格标签对应的价格标注框;
利用所述卷积神经网络、所述transformer编码器和所述transformer解码器,获取所述历史商品图像对应的历史商品检测框和历史价格检测框;
基于所述商品标注框、所述价格标注框、所述历史商品检测框和所述历史价格检测框得到第一训练集,利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型。
4.根据权利要求2所述的商品价格识别方法,其特征在于,所述匹配模型的模型函数为:
Figure 491390DEST_PATH_IMAGE001
其中,
Figure 877372DEST_PATH_IMAGE002
表示标注框,
Figure 391530DEST_PATH_IMAGE003
表示预测框,
Figure 255581DEST_PATH_IMAGE004
表征基于匈牙利匹配算法进行预测框及标注框的匹配。
5.根据权利要求3所述的商品价格识别方法,其特征在于,所述利用所述第一训练集对所述匹配模型进行第一阶段训练,以得到第一阶段训练后的所述初始模型,包括:
基于所述商品标注框和所述历史商品检测框之间的重叠率,以及所述价格标注框和所述历史价格检测框之间的重叠率构建损失函数;
利用所述损失函数对所述匹配模型的第一阶段训练过程进行约束,以得到第一阶段训练后的所述初始模型。
6.根据权利要求5所述的商品价格识别方法,其特征在于,所述损失函数为:
Figure 804374DEST_PATH_IMAGE005
其中,
Figure 95678DEST_PATH_IMAGE006
表示标注框,
Figure 831553DEST_PATH_IMAGE007
表示目标检测框,
Figure 499295DEST_PATH_IMAGE008
为目标检测框损失;
Figure 637015DEST_PATH_IMAGE010
其中,
Figure 99220DEST_PATH_IMAGE011
表示目标检测框与标注框的交叠率,
Figure 587971DEST_PATH_IMAGE012
表示SmoothL1损失,
Figure 528245DEST_PATH_IMAGE013
Figure 520472DEST_PATH_IMAGE014
表示损失函数超参数。
7.根据权利要求2所述的商品价格识别方法,其特征在于,所述对所述匹配模型进行第二阶段训练,包括:
获取历史商品图像内每个商品标注框与对应的价格标注框之间的框位置关系;
基于目标历史商品检测框、目标历史价格检测框和所述框位置关系得到第二训练集;
利用所述第二训练集对所述初始模型进行第二阶段训练,以得到训练后的所述匹配模型。
8.根据权利要求1所述的商品价格识别方法,其特征在于,所述利用所述字符识别模块识别所述目标价格检测框内的价格内容,包括:
利用光学字符识别模型对所述目标价格检测框进行字符识别,以得到所述目标价格检测框内的价格内容。
9.根据权利要求1所述的商品价格识别方法,其特征在于,所述将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框,包括:
将商品查询参数和商品标签查询参数以及所述编码特征作为所述transformer解码器的输入;
根据所述transformer解码器的输出结果,得到与所述商品查询参数对应的数量的商品检测框,以及与所述商品标签查询参数对应的数量的价格检测框。
10.根据权利要求1至9任一项所述的商品价格识别方法,其特征在于,所述按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型之前,还包括:
获取深度残差网络,并根据所述深度残差网络的阶段数量构建上采样网络;所述上采样网络包含与所述阶段数量相同数量的特征图上采样模块;
对所述深度残差网络的每个阶段,添加通道级别的注意力机制模块连接至对应阶段的所述特征图上采样模块,以构建得到所述卷积神经网络。
11.根据权利要求10所述的商品价格识别方法,其特征在于,所述特征图上采样模块的构建过程,包括:
基于自注意力机制模块和轻量级上采样算子,构建得到所述特征图上采样模块。
12.根据权利要求10所述的商品价格识别方法,其特征在于,所述注意力机制模块的构建过程,包括:
按照残差层、最大池化层和平均池化层、融合层、全连接层、分类层、以所述残差层和所述分类层为输入的乘法层、输出层的顺序构建得到所述通道级别的注意力机制模块。
13.一种商品价格识别装置,其特征在于,包括:
模型构建模块,用于按照卷积神经网络、transformer编码器、transformer解码器、用于二分图最大匹配的匹配模型、字符识别模块的顺序构建商品价格识别模型;
图像特征识别模块,用于获取包含商品以及商品对应的价格标签的商品图像,并将所述商品图像输入至所述商品价格识别模型,以利用所述卷积神经网络提取得到所述商品图像对应的图像特征;
候选检测框确定模块,用于将所述图像特征作为所述transformer编码器的输入得到对应的编码特征,并将所述编码特征作为所述transformer解码器的输入,得到多个商品检测框以及多个价格检测框;
目标检测框确定模块,用于利用所述匹配模型从所有所述商品检测框中筛选出目标商品检测框,以及从所有所述价格检测框中筛选出目标价格检测框,并确定出所述目标商品检测框与所述目标价格检测框的对应关系;
商品价格确定模块,用于利用所述字符识别模块识别所述目标价格检测框内的价格内容,并结合所述对应关系确定出每个所述目标商品框内商品的价格。
14.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至12任一项所述的商品价格识别方法。
15.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中计算机程序被处理器执行时实现如权利要求1至12任一项所述的商品价格识别方法。
CN202210942294.4A 2022-08-08 2022-08-08 一种商品价格识别方法、装置、设备及存储介质 Pending CN115019314A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210942294.4A CN115019314A (zh) 2022-08-08 2022-08-08 一种商品价格识别方法、装置、设备及存储介质
PCT/CN2022/138454 WO2024031898A1 (zh) 2022-08-08 2022-12-12 一种商品价格识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210942294.4A CN115019314A (zh) 2022-08-08 2022-08-08 一种商品价格识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115019314A true CN115019314A (zh) 2022-09-06

Family

ID=83066277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210942294.4A Pending CN115019314A (zh) 2022-08-08 2022-08-08 一种商品价格识别方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN115019314A (zh)
WO (1) WO2024031898A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115564829A (zh) * 2022-09-20 2023-01-03 深圳市拓普智造科技有限公司 对象识别定位方法、装置、电子设备及存储介质
CN116468255A (zh) * 2023-06-15 2023-07-21 国网信通亿力科技有限责任公司 一种配置化主数据管理系统
WO2024031898A1 (zh) * 2022-08-08 2024-02-15 浪潮电子信息产业股份有限公司 一种商品价格识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416403A (zh) * 2018-03-08 2018-08-17 上海扩博智能技术有限公司 商品与标签的自动关联方法、系统、设备及存储介质
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、系统、电子设备及存储介质
CN113627411A (zh) * 2021-10-14 2021-11-09 广州市玄武无线科技股份有限公司 一种基于超分辨率的商品识别与价格匹配方法及系统
CN114359966A (zh) * 2022-01-10 2022-04-15 杭州巨岩欣成科技有限公司 泳池防溺水人体自动跟踪方法、装置、计算机设备及存储介质
CN114663915A (zh) * 2022-03-04 2022-06-24 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198722B2 (en) * 2015-07-15 2019-02-05 Toshiba Tec Kabushiki Kaisha Commodity-sales-data processing apparatus, commodity-sales-data processing method, and computer-readable storage medium
CN114494823A (zh) * 2021-12-29 2022-05-13 山东师范大学 零售场景下的商品识别检测计数方法及系统
CN115019314A (zh) * 2022-08-08 2022-09-06 浪潮电子信息产业股份有限公司 一种商品价格识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416403A (zh) * 2018-03-08 2018-08-17 上海扩博智能技术有限公司 商品与标签的自动关联方法、系统、设备及存储介质
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、系统、电子设备及存储介质
CN113627411A (zh) * 2021-10-14 2021-11-09 广州市玄武无线科技股份有限公司 一种基于超分辨率的商品识别与价格匹配方法及系统
CN114359966A (zh) * 2022-01-10 2022-04-15 杭州巨岩欣成科技有限公司 泳池防溺水人体自动跟踪方法、装置、计算机设备及存储介质
CN114663915A (zh) * 2022-03-04 2022-06-24 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024031898A1 (zh) * 2022-08-08 2024-02-15 浪潮电子信息产业股份有限公司 一种商品价格识别方法、装置、设备及存储介质
CN115564829A (zh) * 2022-09-20 2023-01-03 深圳市拓普智造科技有限公司 对象识别定位方法、装置、电子设备及存储介质
CN116468255A (zh) * 2023-06-15 2023-07-21 国网信通亿力科技有限责任公司 一种配置化主数据管理系统
CN116468255B (zh) * 2023-06-15 2023-09-08 国网信通亿力科技有限责任公司 一种配置化主数据管理系统

Also Published As

Publication number Publication date
WO2024031898A1 (zh) 2024-02-15

Similar Documents

Publication Publication Date Title
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN115019314A (zh) 一种商品价格识别方法、装置、设备及存储介质
CN107690657B (zh) 根据影像发现商户
CN111931664A (zh) 混贴票据图像的处理方法、装置、计算机设备及存储介质
CN111782839A (zh) 图像问答方法、装置、计算机设备和介质
CN111709339A (zh) 一种票据图像识别方法、装置、设备及存储介质
CN111582175A (zh) 一种共享多尺度对抗特征的高分遥感影像语义分割方法
CN112508078B (zh) 图像多任务多标签识别方法、系统、设备及介质
CN111881777B (zh) 一种视频处理方法和装置
CN111444850B (zh) 一种图片检测的方法和相关装置
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
CN116994000A (zh) 零件边缘特征提取方法和装置、电子设备及存储介质
CN113657398B (zh) 图像识别方法和装置
CN115631205B (zh) 图像分割及模型训练的方法、装置及设备
CN114332509B (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN115457529A (zh) 实体交互检测方法、建立实体交互检测模型的方法及装置
CN114596442A (zh) 一种图像识别方法、装置、设备及存储介质
CN113792569A (zh) 对象识别方法、装置、电子设备及可读介质
CN112800971A (zh) 神经网络训练及点云数据处理方法、装置、设备和介质
CN112801960A (zh) 图像处理方法及装置、存储介质、电子设备
CN112749293A (zh) 一种图像分类方法、装置及存储介质
CN117423116B (zh) 一种文本检测模型的训练方法、文本检测方法及装置
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN114596580B (zh) 一种多人体目标识别方法、系统、设备及介质
CN116229475A (zh) 文档识别的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220906