CN116563573B

CN116563573B - 一种商品与价签的匹配方法、装置、设备及存储介质

Info

Publication number: CN116563573B
Application number: CN202310067465.8A
Authority: CN
Inventors: 邬国锐; 王庆庆
Original assignee: Beijing Aikaka Information Technology Co ltd
Current assignee: Beijing Aikaka Information Technology Co ltd
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-10-13
Anticipated expiration: 2043-01-12
Also published as: CN116563573A

Abstract

本发明公开了一种商品与价签的匹配方法、装置、设备及存储介质，包括：获取至少一组商品与价签的样本数据；对样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征；对图像特征以及文本特征进行融合处理，得到商品与价签的节点特征；基于图学习对商品与价签的位置信息特征以及节点特征进行融合处理，得到融合特征，并基于融合特征确定商品与价签的匹配结果。本方法综合考虑了多种特征，将图学习引入匹配关系推理，提升商品与价签匹配的准确度。

Description

一种商品与价签的匹配方法、装置、设备及存储介质

技术领域

本发明涉及多模态学习技术领域，具体涉及一种商品与价签的匹配方法、装置、设备及存储介质。

背景技术

随着陈列商品巡检智能化的发展，通过计算机视觉对陈列商品进行自动识别已逐渐得到应用，其中，为了识别陈列商品，需要对商品和价格标签(价签)进行识别，从而确定不同商品的价格。在实际生活中，可能出现例如价签缺失、多种商品共用同一价签、价签摆放的位置随意、商品或价签信息不完整等情况，导致将商品和价签进行匹配时的准确度较低。

发明内容

有鉴于此，本发明实施例提供了一种商品与价签的匹配方法、装置、设备及存储介质，以解决商品和价签进行匹配时的准确度较低的问题。

根据第一方面，本发明实施例提供了一种商品与价签的匹配方法，包括：

获取至少一组商品与价签的样本数据；

对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征；

对所述图像特征以及所述文本特征进行融合处理，得到商品与价签的节点特征；

基于图学习对所述商品与价签的位置信息特征以及所述节点特征进行融合处理，得到融合特征，并基于所述融合特征确定所述商品与价签的匹配结果。

本发明实施例提供的商品与价签的匹配方法，对商品和价签的样本数据进行位置信息特征、图像特征以及文本特征的提取，融合图像特征与文本特征，得到节点特征，再将节点特征与位置信息特征进行融合，基于融合的特征得到商品和价签的匹配结果。综合考虑了多种特征，将图学习引入匹配关系推理，提升商品与价签匹配的准确度。

在一些实施方式中，所述对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征，包括：

获取所述商品与价签的坐标信息；

基于所述坐标信息计算商品与价签之间的位置关系矩阵，并对所述位置关系矩阵进行线性变换处理，以确定样本中商品与价签的位置信息特征。

获取所述商品与价签的图像；基于卷积神经网络对所述图像进行特征提取，得到图像特征，并根据商品与价签的位置信息对所述图像特征进行裁剪，得到每个商品与价签的图像特征。

获取所述商品与价签的文本信息；

基于字符嵌入方法对所述文本信息进行处理，得到所述文本特征。

在一些实施方式中，所述对所述图像特征以及所述文本特征进行融合处理，得到商品与价签的节点特征，包括：

对所述商品与价签的图像特征以及文本特征进行补全，以使所述图像特征与所述文本特征对应的节点相同，得到补全后的图像特征和文本特征；

将所述补全后的图像特征和文本特征进行融合处理，得到所述商品与价签的节点特征。

在一些实施方式中，所述基于图学习对所述商品与价签的位置信息特征以及所述节点特征进行融合处理，得到融合特征，并基于所述融合特征确定所述商品与价签的匹配结果，包括：

对所述节点特征进行关系化处理，以将序列节点特征转换为矩阵节点特征；

将所述矩阵节点特征与所述位置信息特征进行融合处理，得到融合特征；

对所述融合特征进行特征变换，以确定所述商品与价签的匹配结果。

在一些实施方式中，对所述节点特征进行关系化处理，以将序列节点特征转换为矩阵节点特征，包括：

将序列节点特征进行转置，得到转置序列节点特征；

将所述转置序列节点特征与所述序列节点特征融合，得到所述矩阵节点特征。

根据第二方面，本发明实施例提供了一种商品与价签的匹配装置，包括：

数据获取模块，用于获取至少一组商品与价签的样本数据；

特征提取模块，用于对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征；

第一融合模块，用于对所述图像特征以及所述文本特征进行融合处理，得到商品与价签的节点特征；

第二融合模块，用于基于图学习对所述商品与价签的位置信息特征以及所述节点特征进行融合处理，得到融合特征，并基于所述融合特征确定所述商品与价签的匹配结果。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的商品与价签的匹配方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的商品与价签的匹配方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的商品与价签的匹配方法的流程图；

图2是根据本发明实施例的算法模型结构示意图；

图3是根据本发明实施例的商品与价签的匹配装置的结构框图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明实施例，提供了一种商品与价签的匹配方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种商品与价签的匹配方法，图1是根据本发明实施例的商品与价签的匹配方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取至少一组商品与价签的样本数据。

S12，对样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征。

价签是指价格标签，通常商品与价签是一一对应的，一组商品与价签包括一个商品和一个价签。商品和价签的样本数据可以包括图像数据、文字数据以及坐标数据，样本数据可以通过人为上传获得。本发明实施例提供的商品与价签的匹配方法是基于深度学习的图推理模型，具有多模态、端到端的特点，由于需要提取不同的特征，因此该图推理模型可以包含多种特征提取网络，针对不同类型的特征对样本数据进行处理并进行提取，得到位置信息特征、图像特征以及文本特征。

S13，对图像特征以及文本特征进行融合处理，得到商品与价签的节点特征。

将图像特征和文本特征融合起来，为本方法中的图学习做好特征准备，可通过特征融合模块对图像特征以及文本特征进行融合处理，以商品和价签的图像特征为节点，融合文本特征来优化节点特征的表达能力。经过特征融合，图像特征和文本特征融合成一个新的特征。

S14，基于图学习对商品与价签的位置信息特征以及节点特征进行融合处理，得到融合特征，并基于所述融合特征确定所述商品与价签的匹配结果。

图学习的作用是对商品和价签之间的连结关系进行学习，商品与价签的位置信息特征是一种边邻接特征，基于图学习算法将位置信息特征和节点特征进行融合，在得到融合的结果之后，基于图推理模型对融合后的结果进行特征变换，也就是将融合特征转化为邻接权重，邻接权重是一个二分类权重，分别表示匹配和不匹配两种状态，即商品与价签的匹配结果。

在一些实施方式中，S12包括：

S21，获取商品与价签的坐标信息。

S22，基于坐标信息计算商品与价签之间的位置关系矩阵，并对所述位置关系矩阵进行线性变换处理，以确定样本中商品与价签的位置信息特征，以确定样本中商品与价签的位置信息特征。

通过位置特征提取网络提取商品和价格标签的位置信息特征，位置特征提取网络由线性层构成。首先获取商品和价签的坐标信息，商品和价签为目标，目标的坐标信息可以通过一个五元组来表示，即(x,y,w,h,a)，其中x、y表示目标的中心点坐标，w、h表示目标的宽高，a表示目标的角度。基于这几个信息，可以计算出所有目标之间的距离、尺度和角度关系，关系矩阵的大小为nxn，n为目标个数。已知商品和价签的坐标信息，进而得到所有商品和价签的位置关系矩阵，对该位置关系矩阵进行线性变换，完成距离、尺度和角度信息的深度组合，从而得到关于距离、尺度和角度信息的高维位置特征。

商品和价签的坐标信息经过位置特征提取网络的处理后，原本浅层的坐标信息转化成包括距离、尺度和角度关系的位置关系矩阵，即边邻接矩阵，使得模型能够融合商品和价签之间的距离和尺度等位置先验信息。

在一些实施方式中，S12还包括：

S31，获取商品与价签的图像。

S32，基于卷积神经网络对所述图像进行特征提取，得到图像特征，并根据商品与价签的位置信息对所述图像特征进行裁剪，得到每个商品与价签的图像特征。

通过视觉特征提取网络对图像和价签的图像数据进行特征提取，视觉特征提取网络由卷积神经网络和感兴趣区域池化层构成，可以采用Unet网络提取视觉特征，对各商品和价签的实例区域进行裁剪，得到各商品和价签的区域图像，从而得到每个商品和价签的图像特征。

在一些实施方式中，S12还包括：

S41，获取商品与价签的文本信息。

S42，基于字符嵌入方法对文本信息进行处理，得到文本特征。

可通过文本特征提取网络进行商品和价签的文本信息提取，首先需要获取商品和价签的文本信息，可从商品与价签的样本数据中获得，文本信息通常是非结构化的，比如商品介绍，商品名称和价格等。文本信息的序列长度存在较大差异，也可能存在缺失。文本特征提取网络需要将这些文本信息转化为有利于协助商品和价签匹配的特征。输入的文本信息将根据其与匹配任务的相关性进行选取，以保证使用的文本和匹配任务是相关的，文本信息可以完全来自商品，也可以完全来自价签，或者是来自两者。所有文本将经过字符嵌入和LSTM循环神经网络完成特征提取。

在一些实施方式中，对应于图1中的S13，还包括如下步骤：

S51，对商品与价签的图像特征以及文本特征进行补全，以使图像特征与文本特征对应的节点相同，得到补全后的图像特征和文本特征。

S52，将补全后的图像特征和文本特征进行融合处理，得到商品与价签的节点特征。

特征融合模块主要是通过多个线性层来实现，在融合图像特征和文本特征之前，需要补全缺失值，并确保图像特征和文本特征对应的节点相同。在融合图像特征和文本特征之时，多层感知机模块会将图像特征和文本特征映射到同一维度的特征空间，同时，为了降低图像特征和文本特征量纲差异的影响，需要对图像特征和文本特征进行归一化。经过特征融合之后，视觉和文本特征将融合成一个新的特征，即节点特征。

在一些实施方式中，S14还包括如下步骤：

S51，对节点特征进行关系化处理，以将序列节点特征转换为矩阵节点特征。

本发明实施例中可以是在图推理模型中引入图学习模块，图学习模块由多个图神经网络层构成，每个图神经网络层的核心构成是多层感知机。图学习模块的目的就是将节点特征和边特征，通过图推理进行融合，转为商品和价签匹配的依据，从而得到节点与节点之间的关系。

具体地，还包括如下步骤：

S511，将序列节点特征进行转置，得到转置序列节点特征。

S512，将转置序列节点特征与序列节点特征融合，得到矩阵节点特征。

可以将节点看成是一串序列，边为矩阵，两者的维度不同，图学习模块将序列节点特征与转置序列节点特征融合，建立起节点与节点之间的联系，此时，节点特征由序列转换为矩阵。

S52，将矩阵节点特征与位置信息特征进行融合处理，得到融合特征。

位置信息特征为边特征，是一个矩阵，节点特征在转换为矩阵后，与位置信息特征具有相同的形状。对相同形状的节点特征和边特征，可以通过多层感知机进行融合，得到融合特征。

S53，对融合特征进行特征变换，以确定商品与价签的匹配结果。

匹配结果包括匹配和不匹配，将融合特征通过神经网络模型的输出层完成特征变化，即将融合特征转化为邻接权重，邻接权重是一个二分类权重，分别表示匹配和不匹配两种状态，当匹配权重大于不匹配权重时，则表示模型预测两个节点之间是匹配，反之，则表示不匹配。邻接权重也可以通过sigmoid变换转为匹配的概率。

本发明提供的商品与价签的匹配方法涉及的算法模型结构如图2所示，首先提取出位置信息特征、图像特征以及文本特征，基于多模态特征融合将图像特征与文本特征进行融合得到节点特征，位置信息特征为边特征，将边特征与节点特征融合，该算法模型结构具有多模态、端到端的特点。

在本实施例中还提供了一种商品与价签的匹配装置，该装置用于实现上述实施例及实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种商品与价签的匹配装置，如图3所示，包括：

数据获取模块，用于获取至少一组商品与价签的样本数据；

在一些实施方式中，特征提取模块包括：

坐标获取单元，用于获取所述商品与价签的坐标信息；

位置特征确定单元，用于基于所述坐标信息计算商品与价签之间的位置关系矩阵，并对所述位置关系矩阵进行线性变换处理，以确定样本中商品与价签的位置信息特征。

在一些实施方式中，特征提取模块包括：

图像获取单元，用于获取商品与价签的图像；

图像裁剪单元，用于基于卷积神经网络对所述图像进行特征提取，得到图像特征，并根据商品与价签的位置信息对图像特征进行裁剪，得到每个商品与价签的图像特征。

在一些实施方式中，特征提取模块包括：

文本获取单元，用于获取商品与价签的文本信息；

文本处理单元，用于基于字符嵌入方法对所述文本信息进行处理，得到所述文本特征。

在一些实施方式中，第一融合模块包括：

特征补全单元，用于对所述商品与价签的图像特征以及文本特征进行补全，以使所述图像特征与所述文本特征对应的节点相同，得到补全后的图像特征和文本特征；

特征融合单元，用于将所述补全后的图像特征和文本特征进行融合处理，得到所述商品与价签的节点特征。

在一些实施方式中，第二融合模块包括：

序列处理单元，用于对所述节点特征进行关系化处理，以将序列节点特征转换为矩阵节点特征；

第一融合单元，用于将所述矩阵节点特征与所述位置信息特征进行融合处理，得到融合特征；

特征变换单元，用于对所述融合特征进行特征变换，以确定所述商品与价签的匹配结果。

在一些实施方式中，序列处理单元包括：

序列转置子单元，用于将序列节点特征进行转置，得到转置序列节点特征；

序列融合子单元，用于将所述转置序列节点特征与所述序列节点特征融合，得到所述矩阵节点特征。

本实施例中的商品与价签的匹配装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述商品与价签的匹配装置。

请参阅图4，图4是本发明可选实施例提供的一种电子设备的结构示意图，如图4所示，该电子设备可以包括：至少一个处理器601，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口603，存储器604，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，通信接口603可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以上述装置，存储器604中存储应用程序，且处理器601调用存储器604中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线602可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器604可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器604还可以包括上述种类的存储器的组合。

其中，处理器601可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器604还用于存储程序指令。处理器601可以调用程序指令，实现如本申请实施例中所示的商品与价签的匹配方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的商品与价签的匹配方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种商品与价签的匹配方法，其特征在于，包括：

获取至少一组商品与价签的样本数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征，包括：

获取所述商品与价签的坐标信息；

3.根据权利要求1所述的方法，其特征在于，所述对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征，包括：

获取所述商品与价签的图像；

基于卷积神经网络对所述图像进行特征提取，得到图像特征，并根据商品与价签的位置信息对所述图像特征进行裁剪，得到每个商品与价签的图像特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述样本数据进行特征提取，确定样本中商品与价签的位置信息特征、图像特征以及文本特征，包括：

获取所述商品与价签的文本信息；

5.根据权利要求1所述的方法，其特征在于，所述对所述图像特征以及所述文本特征进行融合处理，得到商品与价签的节点特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于图学习对所述商品与价签的位置信息特征以及所述节点特征进行融合处理，得到融合特征，并基于所述融合特征确定所述商品与价签的匹配结果，包括：

7.根据权利要求6所述的方法，其特征在于，对所述节点特征进行关系化处理，以将序列节点特征转换为矩阵节点特征，包括：

将序列节点特征进行转置，得到转置序列节点特征；

8.一种商品与价签的匹配装置，其特征在于，包括：

数据获取模块，用于获取至少一组商品与价签的样本数据；

特征提取模块，用于对所述样本数据进行特征提取，确定样本中的商品与价签的位置信息特征、图像特征以及文本特征；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的商品与价签的匹配方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的商品与价签的匹配方法。