CN115527069A - 物品识别和物品识别系统构建方法及装置 - Google Patents
物品识别和物品识别系统构建方法及装置 Download PDFInfo
- Publication number
- CN115527069A CN115527069A CN202211316123.7A CN202211316123A CN115527069A CN 115527069 A CN115527069 A CN 115527069A CN 202211316123 A CN202211316123 A CN 202211316123A CN 115527069 A CN115527069 A CN 115527069A
- Authority
- CN
- China
- Prior art keywords
- image
- article
- sample
- identification
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种物品识别和物品识别系统构建方法及装置,涉及人工智能技术领域,具体涉及机器学习或深度学习、计算机视觉、图像识别、图像分类等技术领域,可应用于物品识别、物品分类等场景下。具体实现方案包括:获取目标图像;将目标图像输入物品二分类模型进行图像识别,得到物品识别结果;响应于确定物品识别结果指示目标图像包含物品图像,将目标图像输入第一物品识别模型,得到物品图像对应的第一物品类型。本公开可以提高物品识别过程中的物品召回率、以及提高物品识别结果的准确度。
Description
技术领域
本公开涉及人工智能技术领域,具体涉及机器学习或深度学习、计算机视觉、图像识别、图像分类等技术领域,可应用于物品识别、物品分类等场景下,尤其涉及一种物品识别和物品识别系统构建方法及装置。
背景技术
在商品识别中,不仅需要对商品和非商品进行区分,而且需要对商品的具体类型进行细粒度地识别。
目前的商品识别方案主要包括:以大量的样本图像作为输入、样本图像的标注信息作为输出,对神经网络进行训练,得到一个商品细粒度识别模型;样本图像包括商品图像和非商品图像,其中,商品图像的标注信息标注了商品图像中包含的商品的具体类型,非商品图像的标注信息标注了非商品图像中不包含商品;商品细粒度识别模型可以对输入的目标图像进行商品识别,输出目标图像的细粒度商品识别结果,细粒度商品识别结果可以包括:目标图像不是商品图像、或者目标图像包含的商品的具体类型。
发明内容
本公开提供了一种物品识别和物品识别系统构建方法及装置,能够提高物品识别过程中的物品召回率、以及提高物品识别结果的准确度。
根据本公开的第一方面,提供了一种物品识别方法,所述方法应用于物品识别系统,所述物品识别系统包括:物品二分类模型和第一物品识别模型;所述方法包括:
获取目标图像;将目标图像输入物品二分类模型进行图像识别,得到物品识别结果;响应于确定物品识别结果指示目标图像包含物品图像,将目标图像输入第一物品识别模型,得到物品图像对应的第一物品类型。
根据本公开的第二方面,提供了一种物品识别系统构建方法,所述方法包括:
采用样本图像以及样本图像的标注信息,对二分类网络进行训练,得到物品二分类模型,样本图像包括物品图像和非物品图像,样本图像的标注信息用于标注样本图像为物品图像或非物品图像,物品二分类模型用于对输入的目标图像进行图像识别,以确定目标图像是否包含物品图像;采用样本物品图像以及样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,样本物品图像的标注信息用于标注样本物品图像对应的物品类型,第一物品识别模型用于在目标图像包含物品图像时,对目标图像进行图像识别,以确定物品图像对应的第一物品类型;根据物品二分类模型和第一物品识别模型,构建物品识别系统。
根据本公开的第三方面,提供了一种物品识别装置,所述装置应用于物品识别系统,所述物品识别系统包括:物品二分类模型和第一物品识别模型;所述装置包括:
获取单元,用于获取目标图像;二分类单元,用于将目标图像输入物品二分类模型进行图像识别,得到物品识别结果;第一识别单元,用于响应于确定物品识别结果指示目标图像包含物品图像,将目标图像输入第一物品识别模型,得到物品图像对应的第一物品类型。
根据本公开的第四方面,提供了一种物品识别系统构建装置,所述装置包括:
二分类训练单元,用于采用样本图像以及样本图像的标注信息,对二分类网络进行训练,得到物品二分类模型,样本图像包括物品图像和非物品图像,样本图像的标注信息用于标注样本图像为物品图像或非物品图像,物品二分类模型用于对输入的目标图像进行图像识别,以确定目标图像是否包含物品图像;物品识别训练单元,用于采用样本物品图像以及样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,样本物品图像的标注信息用于标注样本物品图像对应的物品类型,第一物品识别模型用于在目标图像包含物品图像时,对目标图像进行图像识别,以确定物品图像对应的第一物品类型;构建单元,用于根据物品二分类模型和第一物品识别模型,构建物品识别系统。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据第一方面或第二方面所述的方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面所述的方法。
本公开通过获取目标图像,将目标图像输入物品二分类模型进行图像识别,得到物品识别结果,响应于确定物品识别结果指示目标图像包含物品图像,将目标图像输入第一物品识别模型,得到物品图像对应的第一物品类型,可以实现基于多模型融合的方式实现物品识别。其中,物品二分类模型可以有效提高物品识别过程中的物品召回率和非物品拒识别率。在物品二分类模型已经完成物品/非物品分类的基础上,第一物品识别模型可以有效提高物品识别结果的准确度,提升物品细粒度分类效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的商品识别方法的流程示意图;
图2为本公开实施例提供的一种商品识别系统的组成示意图;
图3为本公开实施例提供的图1中S103的一种实现示意图;
图4为本公开实施例提供的另一种商品识别系统的组成示意图;
图5为本公开实施例提供的图1中S103的另一种实现示意图;
图6为本公开实施例提供的图1中S103的又一种实现示意图;
图7为本公开实施例提供的商品识别方法的另一流程示意图;
图8为本公开实施例提供的又一种商品识别系统的组成示意图;
图9为本公开实施例提供的商品识别系统构建方法的流程示意图;
图10为本公开实施例提供的图9中S902的一种实现流程示意图;
图11为本公开实施例提供的商品识别装置的组成示意图;
图12为本公开实施例提供的商品识别装置的另一组成示意图;
图13为本公开实施例提供的商品识别系统构建装置的组成示意图;
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
应当理解,在本公开各实施例中,字符“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
商品识别是指利用计算机深度学习算法,对图像进行处理、分析和理解,以识别各种不同模式的商品的技术,可以应用在商品流通过程中,如可以应用在无人超市、智能零售柜等场景中。
在商品识别中,不仅需要对商品和非商品进行区分,而且需要对商品的具体类型进行细粒度地识别。目前的商品识别方案主要包括:以大量的样本图像作为输入、样本图像的标注信息作为输出,对神经网络进行训练,得到一个商品细粒度识别模型;样本图像包括商品图像和非商品图像,其中,商品图像的标注信息标注了商品图像中包含的商品的具体类型,非商品图像的标注信息标注了非商品图像中不包含商品;商品细粒度识别模型可以对输入的目标图像进行商品识别,输出目标图像的细粒度商品识别结果,细粒度商品识别结果可以包括:目标图像不是商品图像、或者目标图像包含的商品的具体类型。
也即,目前的商品识别方案中,可以通过训练一个商品细粒度识别模型,既实现对商品和非商品进行区分,又实现对商品的具体类型进行细粒度地识别。
但是,目前的商品识别方案中,商品细粒度识别模型的商品召回率较低(或者说非商品拒识别率低),且商品识别结果的准确度也有限,商品细粒度分类效果较差。
另外,目前的商品识别方案中在训练商品细粒度识别模型时,需要对大量的样本图像进行细粒度的人工标注。当商品细粒度识别模型需要应用到一个新的商品识别场景中时,需要重新采集大量的样本图像并进行人工标注后,对商品细粒度识别模型进行更新训练,数据采集成本和人工标注成本较高。
在此背景技术下,本公开提供了一种物品识别方法,能够基于多模型融合的方式实现物品识别,可以有效提高物品识别过程中的物品召回率、以及提高物品识别结果的准确度,提升物品细粒度分类效果。
示例性地,本公开中所述的物品可以是商品、或者其他产品,例如,可以是饮料、衣服、电子设备等商品,又例如,还可以是一些设备的部件、工件等其他产品。本公开对物品的具体类型不作限制。
示例性地,该物品识别方法的执行主体可以是计算机或服务器,或者还可以是其他具有数据处理能力的设备。在此对该物品识别方法的执行主体不作限制。
一些实施例中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
下面以物品为商品为例,对本公开实施例进行示例性说明。
应当理解,本公开下述各实施例中虽然以物品为商品为例进行了示例性说明,但在其他一些实施例中,“商品”也可以被替换为其他产品,如可以统称为物品,下述各实施例并不限制本公开实施例的应用场景。
例如,以下实施例提到的商品识别方法也可以是物品识别方法、商品识别装置也可以是物品识别装置,商品识别系统也可以是物品识别系统,商品识别系统方法也可以是物品识别系统构建方法。
又例如,以下实施例提到的商品识别模型可以是物品识别模型,商品类型可以是物品类型等,在此不再一一列举说明。
图1为本公开实施例提供的商品识别方法的流程示意图。该方法可以应用于商品识别系统,商品识别系统可以包括:商品二分类模型和第一商品识别模型。如图1所示,该商品识别方法可以包括:
S101、获取目标图像。
示例性地,目标图像也可以称为待识别的图像。目前图像可以是商品图像,也可以是非商品图像,具体可以通过下面的商品二分类模型进行确定。
其中,商品图像是指对商品进行拍摄得到的图像,或者,画面中包含商品的图像。对应的,非商品图像是指画面中没有商品的图像,或者对其他非商品的对象进行拍摄得到的图像。
可选地,目标图像可以是拍摄的照片,或者视频流中的某一帧图像,在此不作限制。
S102、将目标图像输入商品二分类模型进行图像识别,得到商品识别结果。
例如,可以将目标图像输入预设的商品二分类模型,通过商品二分类模型确定目标图像是否为商品图像,目标图像是商品图像、或者不是商品图像的结果即为商品识别结果。又或者,目标图像包含商品图像,即可认为目标图像是商品图像。
示例性地,商品二分类模型可以采用样本图像以及样本图像的标注信息,对二分类网络进行训练得到。二分类网络可以是基于类似swin transformer large的网络,在此不作限制。
样本图像可以称为商品/非商品二分类数据,目前很多数据库中有大量的商品/非商品二分类数据,在本实施例中,可以以较低成本采集大量商品/非商品二分类数据并进行标注得到样本图像的标注信息,利用样本图像以及样本图像的标注信息训练得到的商品二分类模型也可以称为商品/非商品二分类大模型,能够用于从目标图像中召回商品图像。
例如,将目标图像输入商品二分类模型后,商品二分类模型可以输出目标图像为商品图像的置信度、以及目标图像为非商品图像的置信度。当目标图像为商品图像的置信度大于目标图像为非商品图像的置信度时,可以确定目标图像为商品图像。否则,可以确定目标图像为非商品图像。
S103、响应于确定商品识别结果指示目标图像包含商品图像,将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型。
例如,当目标图像为商品图像时,可以将目标图像输入预设的第一商品识别模型,通过第一商品识别模型确定目标图像包含商品图像对应的商品类型。第一商品识别模型所确定的商品图像对应的商品类型可以称为第一商品类型。
可选地,当目标图像为非商品图像(即不包含商品图像)时,可以输出目标图像为非商品图像的识别结果。
示例性地,可以采用样本商品图像(区别于前面所述的样本图像,这里所述的样本商品图像全部为商品图像,不包含非商品图像)以及样本商品图像的标注信息,对第一网络进行训练,得到第一商品识别模型。样本商品图像的标注信息用于标注样本商品图像包含商品图像对应的商品类型,第一商品识别模型用于确定输入的目标图像包含商品图像对应的第一商品类型。
本公开实施例中,可以根据商品二分类模型和第一商品识别模型,生成商品识别模型。也可以理解为:本公开实施例中用于实现商品识别的商品识别模型可以由商品二分类模型和第一商品识别模型组成。该商品识别模型可以应用于商品识别系统中。当通过商品二分类模型确定目标图像为商品图像时,可以将目标图像输入第一商品识别模型,通过第一商品识别模型对目标图像进行进一步地细粒度识别,以确定目标图像包含的商品的类型。
示例性地,图2为本公开实施例提供的一种商品识别系统的组成示意图。如图2所示,本公开实施例中,用于实现商品识别的商品识别系统可以包括:商品二分类模型和第一商品识别模型。将目标图像输入商品二分类模型后,商品二分类模型可以输出目标图像为商品图像或非商品图像两种分类结果中的一种。当目标图像为商品图像时,可以将目标图像输入第一商品识别模型,第一商品识别模型可以对目标图像进行细粒度识别,输出细粒度识别结果,细粒度识别结果即上述第一商品类型。
示例性地,第一商品识别模型对目标图像进行进一步地细粒度识别,输出的细粒度识别结果可以包括:至少一种预测商品类型、以及每种预测商品类型对应的置信度。第一商品类型可以是前述至少一种预测商品类型中置信度较高的预测商品类型。
例如,假设第一商品识别模型对目标图像进行识别,得到目标图像为苹果商品图像的置信度为60%,目标图像为桔子商品图像的置信度为90%,则目标图像包含的商品的类型可以是桔子。
本公开实施例中,商品二分类模型的训练数据采集和标注成本较低,基于商品二分类模型对目标图像进行识别,可以以较低的训练数据采集和标注成本,实现提高商品召回率和非商品拒识别率。第一商品识别模型可以认为是商品细粒度识别模型,通过第一商品识别模型对目标图像进行进一步识别,可以输出目标图像的细粒度商品识别结果,得到目标图像包含的商品图像对应的商品类型。在商品二分类模型已经完成商品/非商品分类的基础上,第一商品识别模型的识别准确率和速率可以更高,而且第一商品识别模型实现识别功能所需要的训练数据量可以大大减少,同样降低了第一商品识别模型的训练数据采集和标注成本。
因此,本公开实施例通过获取目标图像,将目标图像输入商品二分类模型进行图像识别,得到商品识别结果,响应于确定商品识别结果指示目标图像包含商品图像,将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型,可以实现基于多模型融合的方式实现商品识别。其中,商品二分类模型可以有效提高商品识别过程中的商品召回率和非商品拒识别率。在商品二分类模型已经完成商品/非商品分类的基础上,第一商品识别模型可以有效提高商品识别结果的准确度,提升商品细粒度分类效果。
另外,如上所述,本公开实施例可以以较低的训练数据采集和标注成本,实现提高商品召回率和非商品拒识别率,且降低了第一商品识别模型的训练数据采集和标注成本,所以实现商品识别的整体训练数据采集和标注成本较低。
当商品细粒度识别模型需要应用到一个新的商品识别场景中时(如原来用于识别水平,新场景需要识别饮料),仅需要重新采集适量的新场景中的样本图像并进行人工标注后,对第一商品识别模型进行更新训练,数据采集成本和人工标注成本较低。
可选地,本公开中可以获取各个场景大量商品以及非商品图像数据来扩充整体训练和测试数据集,对商品二分类模型进行训练,以保障场景切换之后能维持较高的商品召回率。
一些实施例中,第一商品识别模型可以包括:商品图像识别模型和商品图文识别模型。
图3为本公开实施例提供的图1中S103的一种实现示意图。如图3所示,上述S103中将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型的步骤,可以包括:
S301、将目标图像输入商品图像识别模型进行图像识别,得到商品图像对应的第一预测商品类型以及第一预测商品类型的第一置信度。
例如,可以将目标图像输入商品图像识别模型,通过商品图像识别模型对目标图像进行图像识别,得到目标图像包含的商品对应的至少一种第一预测商品类型以及第一预测商品类型的第一置信度。
其中,商品图像识别模型是采用第一样本商品图像和第一样本商品图像的标注信息训练得到的,第一样本商品图像的标注信息用于标注第一样本商品图像对应的商品类型。
示例性地,用于训练商品图像识别模型的商品图像识别网络可以为ResNet50或者ViT base,又或者类似的网络,在此不作限制。
示例性地,第一样本商品图像中可以包含商品相关的文本信息,也可以不包含商品相关的文本信息,在此不作限制。
以目标图像为某种水果图像为例,假设将目标图像输入商品图像识别模型后,商品图像识别模型对目标图像进行识别,输出目标图像包含的商品为苹果的第一置信度为60%、为桔子的第一置信度为40%、为桃子的第一置信度为90%。则,苹果、桔子、桃子等均为上述第一预测商品类型。
S302、将目标图像输入商品图文识别模型进行图文识别,得到商品图像对应的第二预测商品类型以及第二预测商品类型的第二置信度。
例如,可以将目标图像输入商品图文识别模型,通过商品图文识别模型对目标图像中的文本信息进行识别,得到目标图像包含的商品图像对应的至少一种第二预测商品类型以及第二预测商品类型的第二置信度。
其中,商品图文识别模型是采用第二样本商品图像和第二样本商品图像的标注信息训练得到的,第二样本商品图像的标注信息用于标注第二样本商品图像对应的商品类型、且第二样本商品图像中包含商品相关的文本信息。例如文本信息可以是产品介绍。
示例性地,用于训练商品图文识别模型的商品图文识别网络可以为ResNet50+Bert base或者ViT base+Bert base,又或者类似的网络,在此也不作限制。
以目标图像为上述水果图像为例,假设将目标图像输入商品图文识别模型后,商品图文识别模型对目标图像中的文本信息进行识别,输出目标图像包含的商品为苹果的第二置信度为20%、为桔子的第二置信度为10%、为桃子的第二置信度为95%。则,这里所述的苹果、桔子、桃子等均为上述第二预测商品类型。
S303、根据第一置信度和第二置信度,从第一预测商品类型和第二预测商品类型中获取第一商品类型。
例如,可以根据第一预测商品类型的第一置信度和第二预测商品类型的第二置信度,从第一预测商品类型和第二预测商品类型中确定目标图像包含商品图像对应的预测商品类型,作为第一商品类型。
示例性地,根据第一置信度和第二置信度,从第一预测商品类型和第二预测商品类型中获取第一商品类型,可以包括:根据第一预测商品类型的第一置信度和第二预测商品类型的第二置信度,从第一预测商品类型和第二预测商品类型中选择置信度高的目标预测商品类型作为第一商品类型。
可以理解的,部分商品图中可能会包含文本描述,针对这部分商品图,可以将图像语义信息加以利用进行商品类别信息增强。本实施例中,对于包含商品相关的文本信息的目标图像,商品图文识别模型可以进行更好地细粒度识别。对于不包含商品相关的文本信息或文本信息缺失的目标图像,商品图像识别模型可以进行更好地细粒度识别。S301通过将商品图像识别模型和商品图文识别模型的细粒度识别结果进行融合,作为最终的细粒度识别结果,可以提高细粒度识别结果的精度或准确度。
示例性地,图4为本公开实施例提供的另一种商品识别系统的组成示意图。如图4所示,本实施例中,第一商品识别模型可以包括:商品图像识别模型和商品图文识别模型。当目标图像为商品图像时,可以将目标图像分别输入商品图像识别模型和商品图文识别模型,对目标图像进行识别,商品图像识别模型和商品图文识别模型可以输出各自的细粒度识别结果,然后可以将两个模型输出的细粒度识别结果进行融合,以确定最终的细粒度识别结果。
由上所述,本实施例中,通过商品图像识别模型和商品图文识别模型分别对目标图像进行识别,并对两个模型的细粒度识别结果进行融合,以实现上述第一商品识别模型的功能,可以有效提高对目标图像的细粒度识别结果的准确性。
可选地,在数据标注上,商品图像识别模型和商品图文识别模型可以采用同一套训练数据,以减少数据标注量和标注成本。例如,第一样本商品图像和第二样本商品图像可以相同。
一些实现方式中,上述S303可以包括:根据第一置信度和第二置信度,从第一预测商品类型和第二预测商品类型中选择置信度最高的预测商品类型作为第一商品类型。
示例性地,可以根据第一预测商品类型的第一置信度和第二预测商品类型的第二置信度,从第一预测商品类型和第二预测商品类型中选择置信度最高的至少一种目标预测商品类型作为第一商品类型。
例如,假设商品图像识别模型对目标图像进行识别输出的第一预测商品类型包括:苹果、桔子、桃子,且苹果的第一置信度为60%、桔子的第一置信度为40%、桃子的第一置信度为90%;商品图文识别模型对目标图像进行识别输出的第二预测商品类型包括:苹果、桔子、桃子,且苹果的第二置信度为20%、桔子的第二置信度为10%、桃子的第二置信度为95%;则,本实现方式中,可以选择置信度最高(95%)的桃子作为第一商品类型。
本实现方式中,基于商品细粒度分类模型和图文识别模型,将两个模型的结果进行融合,选取置信度最高的至少一种目标预测商品类型作为目标图像包含商品图像对应的商品类型,即第一商品类型,可以有效提高细粒度识别结果的准确度。
另外一些实现方式中,上述S303可以包括:获取第一置信度的第一权重、和对应的第二置信度的第二权重;根据第一权重和第二权重,分别对第一置信度和第二置信度进行加权,得到加权置信度;将第一预测商品类型和第二预测商品类型中,加权置信度最高的预测商品类型确定为第一商品类型。
其中,对每个第一置信度而言,第一置信度对应的第二置信度是指:与该第一置信度所对应的第一预测商品类型相同的第二预测商品类型的第二置信度。例如,某个第一置信度为a,a对应的第一预测商品类型为类型X,则当某个第二预测商品类型也为类型X时,该第二预测商品类型的第二置信度b即为第一置信度a对应的第二置信度。当第一预测商品类型为类型X,不存在也为类型X的第二预测商品类型时,第一置信度a对应的第二置信度可以认为是0。
示例性地,本实现方式中,可以对第一预测商品类型和第二预测商品类型中的每种预测商品类型,以第一预测商品类型的第一置信度所占的权重为第一权重、第二预测商品类型的第二置信度所占的权重为第二权重,将预测商品类型为第一预测商品类型时的第一置信度和预测商品类型为第二预测商品类型时的第二置信度进行加权,得到预测商品类型的加权置信度;根据预测商品类型的加权置信度,选择加权置信度最高的至少一种目标预测商品类型作为第一商品类型。
例如,同样假设商品图像识别模型对目标图像进行识别输出的第一预测商品类型包括:苹果、桔子、桃子,且苹果的第一置信度为60%、桔子的第一置信度为40%、桃子的第一置信度为90%;商品图文识别模型对目标图像进行识别输出的第二预测商品类型包括:苹果、桔子、桃子,且苹果的第二置信度为20%、桔子的第二置信度为10%、桃子的第二置信度为95%;则,本实现方式中,可以确定出第一预测商品类型和第二预测商品类型中一共包含苹果、桔子、桃子等三种预测商品类型。
对每种预测商品类型,可以以第一预测商品类型的第一置信度所占的权重为第一权重、第二预测商品类型的第二置信度所占的权重为第二权重,将预测商品类型为第一预测商品类型时的第一置信度和预测商品类型为第二预测商品类型时的第二置信度进行加权,得到预测商品类型的加权置信度。例如,假设第一权重和第二权重均为0.5,则苹果的加权置信度为0.5*60%+0.5*20%=40%,桔子的加权置信度为0.5*40%+0.5*10%=25%,桃子的加权置信度为0.5*90%+0.5*95%=92.5%。
然后,可以根据预测商品类型的加权置信度,选择加权置信度最高的至少一种目标预测商品类型作为第一商品类型。例如,可以选择加权置信度最高(92.5%)的桃子作为第一商品类型。
需要说明的是,本公开对第一权重和第二权重的大小不作限制。第一权重和第二权重可以相同,也可以不同。第一权重和第二权重的和可以等于1,或者,也可以不等于1。第一权重和第二权重的大小可以根据需要人为设置。
本实现方式中,基于商品细粒度分类模型和图文识别模型,将两个模型的结果进行融合按照权重获取加权置信度,并按照加权置信度确定融合后的细粒度识别结果,可以同时利用商品细粒度分类模型和图文识别模型的识别性能,进一步提高细粒度识别结果的准确度。
另外一些实施例中,第一商品识别模型为商品图像识别模型。其中,商品图像识别模型是采用第一样本商品图像和第一样本商品图像的标注信息训练得到的,第一样本商品图像的标注信息用于标注第一样本商品图像对应的商品类型。
图5为本公开实施例提供的图1中S103的另一种实现示意图。如图5所示,上述S103中将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型的步骤,可以包括:
S501、将目标图像输入商品图像识别模型进行图像识别,得到商品图像对应的第三预测商品类型以及第三预测商品类型的第三置信度。
示例性地,可以将目标图像输入商品图像识别模型,通过商品图像识别模型对目标图像进行识别,得到目标图像包含的商品图像对应的至少一种第三预测商品类型以及第三预测商品类型的第三置信度。
S502、将第三置信度最高的第三预测商品类型确定为第一商品类型。
示例性地,可以根据第三预测商品类型的第三置信度,选择第三置信度最高的至少一种目标第三预测商品类型作为第一商品类型。
本实施例中,单独的商品图像识别模型也可以作为第一商品识别模型的一种实现方式来实现,也可以提高商品识别结果的准确度,提升商品细粒度分类效果。
还有一些实施例中,第一商品识别模型为商品图文识别模型。其中,商品图文识别模型是采用第二样本商品图像和第二样本商品图像的标注信息训练得到的,第二样本商品图像的标注信息用于标注第二样本商品图像对应的商品类型、且第二样本商品图像中包含商品相关的文本信息。
图6为本公开实施例提供的图1中S103的又一种实现示意图。如图6所示,上述S103中将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型的步骤,可以包括:
S601、将目标图像输入商品图文识别模型进行图文识别,得到商品图像对应的第四预测商品类型以及第四预测商品类型的第四置信度。
示例性地,可以将目标图像输入商品图文识别模型,通过商品图文识别模型对目标图像中的文本信息进行识别,得到目标图像包含的商品图像对应的至少一种第四预测商品类型以及第四预测商品类型的第四置信度。
S602、将第四置信度最高的第四预测商品类型确定为第一商品类型。
示例性地,可以根据第四预测商品类型的第四置信度,选择第四置信度最高的至少一种目标第四预测商品类型作为第一商品类型。
本实施例中,单独的商品图文识别模型也可以作为第一商品识别模型的一种实现方式来实现,也可以提高商品识别结果的准确度,提升商品细粒度分类效果,不再赘述。
图7为本公开实施例提供的商品识别方法的另一流程示意图。一些实施例中,商品识别系统还包括:第二商品识别模型。如图7所示,该商品识别方法还可以包括:
S701、获取第一商品类型的第五置信度。
例如,在上述商品图像识别模型和商品图文识别模型融合实现第一商品识别模型的实现方式中,第一商品类型的第五置信度,可以是目标预测商品类型的置信度(第一置信度或第二置信度)或加权置信度。
又例如,在上述商品图像识别模型或商品图文识别模型单独实现第一商品识别模型的实现方式中,第一商品类型的第五置信度,可以是目标第三预测商品类型的第三置信度、或者目标第四预测商品类型的第四置信度。
S702、响应于确定第五置信度小于预设置信度阈值,将目标图像输入第二商品识别模型进行图像识别,得到商品图像对应的第二商品类型。
例如,当第一商品识别模型所确定的第五置信度小于预设置信度阈值时,可以将目标图像输入预设的第二商品识别模型,通过第二商品识别模型对目标图像进行识别,得到商品图像对应的商品类型,该商品类型可以称为第二商品类型。
其中,第二商品识别模型是采用第三样本商品图像和第三样本商品图像的标注信息训练得到的,第三样本商品图像的标注信息用于标注第三样本商品图像包含的商品的类型,第三样本商品图像输入第一商品识别模型后、第一商品识别模型所确定的第三样本商品图像对应的预测商品类型的置信度小于预设置信度阈值。
示例性地,第三样本商品图像可以包括部分第一样本商品图像,这部分第一样本商品图像输入商品图像识别模型后、商品图像识别模型所确定的这部分第一样本商品图像对应的预测商品类型的置信度小于预设置信度阈值。或者,第三样本商品图像还可以包括部分第二样本商品图像,这部分第二样本商品图像输入商品图文识别模型后、商品图文识别模型所确定的这部分第二样本商品图像对应的预测商品类型的置信度小于预设置信度阈值。
这类置信度小于预设置信度阈值所对应的第一样本商品图像和第二样本商品图像,可以认为是商品图像识别模型和商品图文识别模型难识别或识别不准的图像。例如,一些图像中商品会出现商品过小、遮挡或者卡通化的情况,商品图像识别模型和商品图文识别模型对这些图像很难识别,识别时输出的置信度可能小于预设置信度阈值。
本实施例中,可以采用第三样本商品图像训练得到第二商品识别模型。由于第三样本商品图像是基于上述商品图像识别模型和商品图文识别模型进行筛选并进行标注得到的,所以少量的第三样本商品图像即可训练得到识别效果较好的第二商品识别模型,数据采集和标注成本较低。
示例性地,第二商品识别模型也可以称为商品检测模型,可以基于YOLO系列网络训练得到,在此不作限制。
示例性地,图8为本公开实施例提供的又一种商品识别系统的组成示意图。如图8所示,本实施例中,商品识别系统还可以包括:第二商品识别模型。当第一商品识别模型所确定的目标图像包含的商品的类型的置信度,小于预设置信度阈值时,可以将目标图像输入预设的第二商品识别模型,通过第二商品识别模型对目标图像进一步识别,来确定目标图像包含的商品图像对应的商品类型,即第二商品类型。
本实施例中,由于第二商品识别模型本身就是利用第一商品识别模型难识别的样本数据训练得到的,所以第二商品识别模型此时可以对目标图像产生更好的识别效果,输出更准确地细粒度识别结果,从而可以进一步提高商品识别结果的准确性、提升细粒度识别的召回效果。
可选地,当第一商品识别模型所确定的目标图像包含的商品的类型的置信度,大于(或等于)预设置信度阈值时,可以认为第一商品识别模型输出的细粒度识别结果可信,可以直接输出第一商品识别模型输出的细粒度识别结果。
需要说明的是,预设置信度阈值可以为80%、90%等,预设置信度阈值的大小可以人为设置或根据需要动态调整,在此不作限制。
以上实施例介绍了本公开实施例中基于多模型融合的方式实现商品识别的具体方案。该方案中,基于小型化识别模型(如商品图像识别模型、商品图文识别模型、第二商品识别模型等)对输入的目标图像进行分类,以较小的计算开销和低延时提供了商品识别的能力。另外,该方案应用于商品识别系统中时,可以保障整体商品识别系统高效、稳定输出识别结果,能够用于以低成本获取高效、稳定、识别效果较好的大规模商品识别系统。
基于前述实施例所述的商品识别方法,本公开实施例还提供一种商品识别系统构建方法,该方法可以用于实现前述实施例中所述的商品识别模型的训练、并基于训练的商品识别模型构建商品识别系统。该方法的有益效果及部分实现细节,可以参见前述实施例中商品识别方法所具备的有益效果和具体实现,下文将不再赘述。
示例性地,该商品识别系统构建方法的执行主体也可以是计算机或服务器,或者还可以是其他具有数据处理能力的设备。在此对该商品识别系统构建方法的执行主体也不作限制。
图9为本公开实施例提供的商品识别系统构建方法的流程示意图。如图9所示,该商品识别系统构建方法,包括:
S901、采用样本图像以及样本图像的标注信息,对二分类网络进行训练,得到商品二分类模型,样本图像包括商品图像和非商品图像,样本图像的标注信息用于标注样本图像为商品图像或非商品图像,商品二分类模型用于对输入的目标图像进行图像识别,以确定目标图像是否包含商品图像。
S902、采用样本商品图像以及样本商品图像的标注信息,对第一网络进行训练,得到第一商品识别模型,样本商品图像的标注信息用于标注样本商品图像对应的商品类型,第一商品识别模型用于在目标图像包含商品图像时,对目标图像进行图像识别,以确定商品图像对应的第一商品类型。
S903、根据商品二分类模型和第一商品识别模型,构建商品识别系统。
示例性地,S903中得到的商品识别系统可以参考上述图2所示。
一些实施例中,样本商品图像包括:第一样本商品图像和第二样本商品图像,第二样本商品图像中包含商品相关的文本信息,第一网络包括:商品图像识别网络和商品图文识别网络。
图10为本公开实施例提供的图9中S902的一种实现流程示意图。如图10所示,上述S902可以包括:
S1001、采用第一样本商品图像和第一样本商品图像的标注信息,对商品图像识别网络进行训练,得到商品图像识别模型。
S1002、采用第二样本商品图像和第二样本商品图像的标注信息,对商品图文识别网络进行训练,得到商品图文识别模型。
其中,第一商品识别模型包括:商品图像识别模型和商品图文识别模型。
示例性地,本实施例中得到的商品识别系统可以参考上述图4所示。
另外一些实施例中,样本商品图像为第一样本商品图像,第一网络为商品图像识别网络。上述S902可以包括:采用第一样本商品图像和第一样本商品图像的标注信息,对商品图像识别网络进行训练,得到商品图像识别模型;其中,第一商品识别模型为商品图像识别模型。
还有一些实施例中,样本商品图像为第二样本商品图像,第二样本商品图像中包含商品相关的文本信息,第一网络为商品图文识别网络。上述S902可以包括:采用第二样本商品图像和第二样本商品图像的标注信息,对商品图文识别网络进行训练,得到商品图文识别模型;其中,第一商品识别模型为商品图文识别模型。
一些实施例中,S903之前,所述方法还包括:采用第三样本商品图像以及第三样本商品图像的标注信息,对第二网络进行训练,得到第二商品识别模型,第三样本商品图像的标注信息用于标注第三样本商品图像对应的商品类型,第三样本商品图像输入第一商品识别模型后、第一商品识别模型所确定的第三样本商品图像对应的预测商品类型的置信度小于预设置信度阈值,第二商品识别模型用于在第一商品类型的置信度小于预设置信度阈值时,对目标图像进行图像识别,以确定商品图像对应的第二商品类型。
S903可以包括:根据商品二分类模型、第一商品识别模型、以及第二商品识别模型,构建商品识别系统。
示例性地,本实施例中得到的商品识别系统可以参考上述图8所示。
基于前述实施例,本公开还提供一种可以前述实施例中所述的商品识别系统。该商品识别系统,可以包括:商品二分类模型和第一商品识别模型。商品二分类模型用于确定输入的目标图像是否为商品图像;第一商品识别模型用于在目标图像为商品图像时,确定目标图像包含的商品图像的对应的商品类型。
可选地,第一商品识别模型包括:商品图像识别模型和商品图文识别模型。商品图像识别模型用于对目标图像进行识别,得到目标图像包含的商品图像对应的至少一种第一预测商品类型以及第一预测商品类型的第一置信度。商品图文识别模型用于对目标图像中的文本信息进行识别,得到目标图像包含的商品图像对应的至少一种第二预测商品类型以及第二预测商品类型的第二置信度。目标图像包含的商品图像对应的商品类型,是根据第一预测商品类型的第一置信度和第二预测商品类型的第二置信度,从第一预测商品类型和第二预测商品类型中确定的。
可选地,第一商品识别模型为商品图像识别模型。商品图像识别模型用于对目标图像进行识别,得到目标图像包含的商品对应的至少一种第三预测商品类型以及第三预测商品类型的第三置信度。目标图像包含的商品图像对应的商品类型,是根据第三预测商品类型的第三置信度,从第三预测商品类型中确定的。
可选地,第一商品识别模型为商品图文识别模型。商品图文识别模型用于对目标图像中的文本信息进行识别,得到目标图像包含的商品图像对应的至少一种第四预测商品类型以及第四预测商品类型的第四置信度。目标图像包含的商品图像对应的商品类型,是根据第四预测商品类型的第四置信度,从第四预测商品类型中确定的。
可选地,该商品识别系统,还包括:第二商品识别模型;第二商品识别模型用于,在第一商品识别模型所确定的目标图像包含的商品图像对应的商品类型(第一商品类型)的置信度小于预设置信度阈值时,确定目标图像包含的商品图像对应的商品类型(第二商品类型)。
示例性实施例中,本公开实施例还提供一种商品识别装置,可以用于实现如前述实施例所述的商品识别方法。装置应用于商品识别系统,商品识别系统包括:商品二分类模型和第一商品识别模型。图11为本公开实施例提供的商品识别装置的组成示意图。如图11所示,该装置可以包括:获取单元1101、二分类单元1102、第一识别单元1103。
获取单元1101,用于获取目标图像。
二分类单元1102,用于将目标图像输入商品二分类模型进行图像识别,得到商品识别结果。
第一识别单元1103,用于响应于确定商品识别结果指示目标图像包含商品图像,将目标图像输入第一商品识别模型,得到商品图像对应的第一商品类型。
可选地,第一商品识别模型包括:商品图像识别模型和商品图文识别模型;其中,商品图像识别模型是采用第一样本商品图像和第一样本商品图像的标注信息训练得到的,第一样本商品图像的标注信息用于标注第一样本商品图像对应的商品类型;商品图文识别模型是采用第二样本商品图像和第二样本商品图像的标注信息训练得到的,第二样本商品图像的标注信息用于标注第二样本商品图像对应的商品类型、且第二样本商品图像中包含商品相关的文本信息。
第一识别单元1103,具体用于将目标图像输入商品图像识别模型进行图像识别,得到商品图像对应的第一预测商品类型以及第一预测商品类型的第一置信度;将目标图像输入商品图文识别模型进行图文识别,得到商品图像对应的第二预测商品类型以及第二预测商品类型的第二置信度;根据第一置信度和第二置信度,从第一预测商品类型和第二预测商品类型中获取第一商品类型。
可选地,第一识别单元1103,具体用于根据第一置信度和第二置信度,从第一预测商品类型和第二预测商品类型中选择置信度最高的预测商品类型作为第一商品类型。
可选地,第一识别单元1103,具体用于获取第一置信度的第一权重、和对应的第二置信度的第二权重;根据第一权重和第二权重,分别对第一置信度和第二置信度进行加权,得到加权置信度;将第一预测商品类型和第二预测商品类型中,加权置信度最高的预测商品类型确定为第一商品类型。
可选地,第一商品识别模型为商品图像识别模型。其中,商品图像识别模型是采用第一样本商品图像和第一样本商品图像的标注信息训练得到的,第一样本商品图像的标注信息用于标注第一样本商品图像对应的商品类型。
第一识别单元1103,具体用于将目标图像输入商品图像识别模型进行图像识别,得到商品图像对应的第三预测商品类型以及第三预测商品类型的第三置信度;将第三置信度最高的第三预测商品类型确定为第一商品类型。
可选地,第一商品识别模型为商品图文识别模型。其中,商品图文识别模型是采用第二样本商品图像和第二样本商品图像的标注信息训练得到的,第二样本商品图像的标注信息用于标注第二样本商品图像对应的商品类型、且第二样本商品图像中包含商品相关的文本信息。
第一识别单元1103,具体用于将目标图像输入商品图文识别模型进行图文识别,得到商品图像对应的第四预测商品类型以及第四预测商品类型的第四置信度;将第四置信度最高的第四预测商品类型确定为第一商品类型。
可选地,商品识别系统还包括:第二商品识别模型。其中,第二商品识别模型是采用第三样本商品图像和第三样本商品图像的标注信息训练得到的,第三样本商品图像的标注信息用于标注第三样本商品图像对应的商品类型,且第三样本商品图像输入第一商品识别模型后、第一商品识别模型所确定的第三样本商品图像对应的预测商品类型的置信度小于预设置信度阈值。
图12为本公开实施例提供的商品识别装置的另一组成示意图。如图12所示,该装置还可以包括:第二识别单元1104,用于获取第一商品类型的第五置信度;响应于确定第五置信度小于预设置信度阈值,将目标图像输入第二商品识别模型进行图像识别,得到商品图像对应的第二商品类型。
示例性实施例中,本公开实施例还提供一种商品识别系统构建装置,可以用于实现如前述实施例所述的商品识别系统构建方法。图13为本公开实施例提供的商品识别系统构建装置的组成示意图。如图13所示,该装置可以包括:二分类训练单元1301、商品识别训练单元1302、构建单元1303。
二分类训练单元1301,用于采用样本图像以及样本图像的标注信息,对二分类网络进行训练,得到商品二分类模型,样本图像包括商品图像和非商品图像,样本图像的标注信息用于标注样本图像为商品图像或非商品图像,商品二分类模型用于对输入的目标图像进行图像识别,以确定目标图像是否包含商品图像。
商品识别训练单元1302,用于采用样本商品图像以及样本商品图像的标注信息,对第一网络进行训练,得到第一商品识别模型,样本商品图像的标注信息用于标注样本商品图像对应的商品类型,第一商品识别模型用于在目标图像包含商品图像时,对目标图像进行图像识别,以确定商品图像对应的第一商品类型。
构建单元1303,用于根据商品二分类模型和第一商品识别模型,构建商品识别系统。
可选地,样本商品图像包括:第一样本商品图像和第二样本商品图像,第二样本商品图像中包含商品相关的文本信息,第一网络包括:商品图像识别网络和商品图文识别网络。
商品识别训练单元1302,具体用于采用第一样本商品图像和第一样本商品图像的标注信息,对商品图像识别网络进行训练,得到商品图像识别模型;采用第二样本商品图像和第二样本商品图像的标注信息,对商品图文识别网络进行训练,得到商品图文识别模型。
其中,第一商品识别模型包括:商品图像识别模型和商品图文识别模型。
可选地,样本商品图像为第一样本商品图像,第一网络为商品图像识别网络。商品识别训练单元1302,具体用于采用第一样本商品图像和第一样本商品图像的标注信息,对商品图像识别网络进行训练,得到第一商品识别模型。
可选地,样本商品图像为第二样本商品图像,第二样本商品图像中包含商品相关的文本信息,第一网络为商品图文识别网络。商品识别训练单元1302,具体用于采用第二样本商品图像和第二样本商品图像的标注信息,对商品图文识别网络进行训练,得到第一商品识别模型。
可选地,在构建单元1303根据商品二分类模型和第一商品识别模型,构建商品识别系统之前,商品识别训练单元1302,还用于采用第三样本商品图像以及第三样本商品图像的标注信息,对第二网络进行训练,得到第二商品识别模型,第三样本商品图像的标注信息用于标注第三样本商品图像对应的商品类型,第三样本商品图像输入第一商品识别模型后、第一商品识别模型所确定的第三样本商品图像对应的预测商品类型的置信度小于预设置信度阈值,第二商品识别模型用于在第一商品类型的置信度小于预设置信度阈值时,对目标图像进行图像识别,以确定商品图像对应的第二商品类型。
构建单元1303,具体用于根据商品二分类模型、第一商品识别模型、以及第二商品识别模型,构建商品识别系统。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
示例性实施例中,电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上实施例所述的商品识别方法或商品识别系统构建方法。该电子设备可以是上述计算机或服务器。
示例性实施例中,可读存储介质可以是存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据以上实施例所述的商品识别方法或商品识别系统构建方法。
示例性实施例中,计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现根据以上实施例所述的商品识别方法或商品识别系统构建方法。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,电子设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
电子设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许电子设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如商品识别方法或商品识别系统构建方法。例如,在一些实施例中,商品识别方法或商品识别系统构建方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到电子设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的商品识别方法或商品识别系统构建方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行商品识别方法或商品识别系统构建方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种物品识别方法,所述方法应用于物品识别系统,所述物品识别系统包括:物品二分类模型和第一物品识别模型;所述方法包括:
获取目标图像;
将所述目标图像输入所述物品二分类模型进行图像识别,得到物品识别结果;
响应于确定所述物品识别结果指示所述目标图像包含物品图像,将所述目标图像输入所述第一物品识别模型,得到所述物品图像对应的第一物品类型。
2.根据权利要求1所述的方法,所述第一物品识别模型包括:物品图像识别模型和物品图文识别模型;
其中,所述物品图像识别模型是采用第一样本物品图像和所述第一样本物品图像的标注信息训练得到的,所述第一样本物品图像的标注信息用于标注所述第一样本物品图像对应的物品类型;
所述物品图文识别模型是采用第二样本物品图像和所述第二样本物品图像的标注信息训练得到的,所述第二样本物品图像的标注信息用于标注所述第二样本物品图像对应的物品类型、且所述第二样本物品图像中包含物品相关的文本信息;
所述将所述目标图像输入所述第一物品识别模型,得到所述物品图像对应的第一物品类型,包括:
将所述目标图像输入所述物品图像识别模型进行图像识别,得到所述物品图像对应的第一预测物品类型以及所述第一预测物品类型的第一置信度;
将所述目标图像输入所述物品图文识别模型进行图文识别,得到所述物品图像对应的第二预测物品类型以及所述第二预测物品类型的第二置信度;
根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中获取所述第一物品类型。
3.根据权利要求2所述的方法,所述根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中获取所述第一物品类型,包括:
根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中选择置信度最高的预测物品类型作为所述第一物品类型。
4.根据权利要求2所述的方法,所述根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中获取所述第一物品类型,包括:
获取所述第一置信度的第一权重、和对应的所述第二置信度的第二权重;
根据所述第一权重和所述第二权重,分别对所述第一置信度和所述第二置信度进行加权,得到加权置信度;
将所述第一预测物品类型和所述第二预测物品类型中,加权置信度最高的预测物品类型确定为所述第一物品类型。
5.根据权利要求1所述的方法,所述第一物品识别模型为物品图像识别模型;
其中,所述物品图像识别模型是采用第一样本物品图像和所述第一样本物品图像的标注信息训练得到的,所述第一样本物品图像的标注信息用于标注所述第一样本物品图像对应的物品类型;
所述将所述目标图像输入所述第一物品识别模型,得到所述物品图像对应的第一物品类型,包括:
将所述目标图像输入所述物品图像识别模型进行图像识别,得到所述物品图像对应的第三预测物品类型以及所述第三预测物品类型的第三置信度;
将所述第三置信度最高的第三预测物品类型确定为所述第一物品类型。
6.根据权利要求1所述的方法,所述第一物品识别模型为物品图文识别模型;
其中,所述物品图文识别模型是采用第二样本物品图像和所述第二样本物品图像的标注信息训练得到的,所述第二样本物品图像的标注信息用于标注所述第二样本物品图像对应的物品类型、且所述第二样本物品图像中包含物品相关的文本信息;
所述将所述目标图像输入所述第一物品识别模型,得到所述物品图像对应的第一物品类型,包括:
将所述目标图像输入所述物品图文识别模型进行图文识别,得到所述物品图像对应的第四预测物品类型以及所述第四预测物品类型的第四置信度;
将所述第四置信度最高的第四预测物品类型确定为所述第一物品类型。
7.根据权利要求1-6任一项所述的方法,所述物品识别系统还包括:第二物品识别模型;
其中,所述第二物品识别模型是采用第三样本物品图像和所述第三样本物品图像的标注信息训练得到的,所述第三样本物品图像的标注信息用于标注所述第三样本物品图像对应的物品类型,且所述第三样本物品图像输入所述第一物品识别模型后、所述第一物品识别模型所确定的所述第三样本物品图像对应的预测物品类型的置信度小于预设置信度阈值;
所述方法还包括:
获取所述第一物品类型的第五置信度;
响应于确定所述第五置信度小于所述预设置信度阈值,将所述目标图像输入所述第二物品识别模型进行图像识别,得到所述物品图像对应的第二物品类型。
8.一种物品识别系统构建方法,所述方法包括:
采用样本图像以及所述样本图像的标注信息,对二分类网络进行训练,得到物品二分类模型,所述样本图像包括物品图像和非物品图像,所述样本图像的标注信息用于标注所述样本图像为物品图像或非物品图像,所述物品二分类模型用于对输入的目标图像进行图像识别,以确定所述目标图像是否包含物品图像;
采用样本物品图像以及所述样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,所述样本物品图像的标注信息用于标注所述样本物品图像对应的物品类型,所述第一物品识别模型用于在所述目标图像包含物品图像时,对所述目标图像进行图像识别,以确定所述物品图像对应的第一物品类型;
根据所述物品二分类模型和所述第一物品识别模型,构建物品识别系统。
9.根据权利要求8所述的方法,所述样本物品图像包括:第一样本物品图像和第二样本物品图像,所述第二样本物品图像中包含物品相关的文本信息,所述第一网络包括:物品图像识别网络和物品图文识别网络;
所述采用样本物品图像以及所述样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,包括:
采用所述第一样本物品图像和所述第一样本物品图像的标注信息,对所述物品图像识别网络进行训练,得到物品图像识别模型;
采用所述第二样本物品图像和所述第二样本物品图像的标注信息,对所述物品图文识别网络进行训练,得到物品图文识别模型;
其中,所述第一物品识别模型包括:所述物品图像识别模型和所述物品图文识别模型。
10.根据权利要求8所述的方法,所述样本物品图像为第一样本物品图像,所述第一网络为物品图像识别网络;
所述采用样本物品图像以及所述样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,包括:
采用所述第一样本物品图像和所述第一样本物品图像的标注信息,对所述物品图像识别网络进行训练,得到所述第一物品识别模型。
11.根据权利要求8所述的方法,所述样本物品图像为第二样本物品图像,所述第二样本物品图像中包含物品相关的文本信息,所述第一网络为物品图文识别网络;
所述采用样本物品图像以及所述样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,包括:
采用所述第二样本物品图像和所述第二样本物品图像的标注信息,对所述物品图文识别网络进行训练,得到所述第一物品识别模型。
12.根据权利要求8-11任一项所述的方法,所述根据所述物品二分类模型和所述第一物品识别模型,构建物品识别系统之前,所述方法还包括:
采用第三样本物品图像以及所述第三样本物品图像的标注信息,对第二网络进行训练,得到第二物品识别模型,所述第三样本物品图像的标注信息用于标注所述第三样本物品图像对应的物品类型,所述第三样本物品图像输入所述第一物品识别模型后、所述第一物品识别模型所确定的所述第三样本物品图像对应的预测物品类型的置信度小于预设置信度阈值,所述第二物品识别模型用于在所述第一物品类型的置信度小于所述预设置信度阈值时,对所述目标图像进行图像识别,以确定所述物品图像对应的第二物品类型;
所述根据所述物品二分类模型和所述第一物品识别模型,构建物品识别系统,包括:
根据所述物品二分类模型、所述第一物品识别模型、以及所述第二物品识别模型,构建所述物品识别系统。
13.一种物品识别装置,所述装置应用于物品识别系统,所述物品识别系统包括:物品二分类模型和第一物品识别模型;所述装置包括:
获取单元,用于获取目标图像;
二分类单元,用于将所述目标图像输入所述物品二分类模型进行图像识别,得到物品识别结果;
第一识别单元,用于响应于确定所述物品识别结果指示所述目标图像包含物品图像,将所述目标图像输入所述第一物品识别模型,得到所述物品图像对应的第一物品类型。
14.根据权利要求13所述的装置,所述第一物品识别模型包括:物品图像识别模型和物品图文识别模型;
其中,所述物品图像识别模型是采用第一样本物品图像和所述第一样本物品图像的标注信息训练得到的,所述第一样本物品图像的标注信息用于标注所述第一样本物品图像对应的物品类型;
所述物品图文识别模型是采用第二样本物品图像和所述第二样本物品图像的标注信息训练得到的,所述第二样本物品图像的标注信息用于标注所述第二样本物品图像对应的物品类型、且所述第二样本物品图像中包含物品相关的文本信息;
所述第一识别单元,具体用于将所述目标图像输入所述物品图像识别模型进行图像识别,得到所述物品图像对应的第一预测物品类型以及所述第一预测物品类型的第一置信度;将所述目标图像输入所述物品图文识别模型进行图文识别,得到所述物品图像对应的第二预测物品类型以及所述第二预测物品类型的第二置信度;根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中获取所述第一物品类型。
15.根据权利要求14所述的装置,所述第一识别单元,具体用于根据所述第一置信度和所述第二置信度,从所述第一预测物品类型和所述第二预测物品类型中选择置信度最高的预测物品类型作为所述第一物品类型。
16.根据权利要求14所述的装置,所述第一识别单元,具体用于获取所述第一置信度的第一权重、和对应的所述第二置信度的第二权重;根据所述第一权重和所述第二权重,分别对所述第一置信度和所述第二置信度进行加权,得到加权置信度;将所述第一预测物品类型和所述第二预测物品类型中,加权置信度最高的预测物品类型确定为所述第一物品类型。
17.根据权利要求13所述的装置,所述第一物品识别模型为物品图像识别模型;
其中,所述物品图像识别模型是采用第一样本物品图像和所述第一样本物品图像的标注信息训练得到的,所述第一样本物品图像的标注信息用于标注所述第一样本物品图像对应的物品类型;
所述第一识别单元,具体用于将所述目标图像输入所述物品图像识别模型进行图像识别,得到所述物品图像对应的第三预测物品类型以及所述第三预测物品类型的第三置信度;将所述第三置信度最高的第三预测物品类型确定为所述第一物品类型。
18.根据权利要求13所述的装置,所述第一物品识别模型为物品图文识别模型;
其中,所述物品图文识别模型是采用第二样本物品图像和所述第二样本物品图像的标注信息训练得到的,所述第二样本物品图像的标注信息用于标注所述第二样本物品图像对应的物品类型、且所述第二样本物品图像中包含物品相关的文本信息;
所述第一识别单元,具体用于将所述目标图像输入所述物品图文识别模型进行图文识别,得到所述物品图像对应的第四预测物品类型以及所述第四预测物品类型的第四置信度;将所述第四置信度最高的第四预测物品类型确定为所述第一物品类型。
19.根据权利要求13-18任一项所述的装置,所述物品识别系统还包括:第二物品识别模型;
其中,所述第二物品识别模型是采用第三样本物品图像和所述第三样本物品图像的标注信息训练得到的,所述第三样本物品图像的标注信息用于标注所述第三样本物品图像对应的物品类型,且所述第三样本物品图像输入所述第一物品识别模型后、所述第一物品识别模型所确定的所述第三样本物品图像对应的预测物品类型的置信度小于预设置信度阈值;
所述装置还包括:第二识别单元;
所述第二识别单元,用于获取所述第一物品类型的第五置信度;响应于确定所述第五置信度小于所述预设置信度阈值,将所述目标图像输入所述第二物品识别模型进行图像识别,得到所述物品图像对应的第二物品类型。
20.一种物品识别系统构建装置,所述装置包括:
二分类训练单元,用于采用样本图像以及所述样本图像的标注信息,对二分类网络进行训练,得到物品二分类模型,所述样本图像包括物品图像和非物品图像,所述样本图像的标注信息用于标注所述样本图像为物品图像或非物品图像,所述物品二分类模型用于对输入的目标图像进行图像识别,以确定所述目标图像是否包含物品图像;
物品识别训练单元,用于采用样本物品图像以及所述样本物品图像的标注信息,对第一网络进行训练,得到第一物品识别模型,所述样本物品图像的标注信息用于标注所述样本物品图像对应的物品类型,所述第一物品识别模型用于在所述目标图像包含物品图像时,对所述目标图像进行图像识别,以确定所述物品图像对应的第一物品类型;
所述构建单元,用于根据所述物品二分类模型和所述第一物品识别模型,构建物品识别系统。
21.根据权利要求20所述的装置,所述样本物品图像包括:第一样本物品图像和第二样本物品图像,所述第二样本物品图像中包含物品相关的文本信息,所述第一网络包括:物品图像识别网络和物品图文识别网络;
所述物品识别训练单元,具体用于采用所述第一样本物品图像和所述第一样本物品图像的标注信息,对所述物品图像识别网络进行训练,得到物品图像识别模型;采用所述第二样本物品图像和所述第二样本物品图像的标注信息,对所述物品图文识别网络进行训练,得到物品图文识别模型;
其中,所述第一物品识别模型包括:所述物品图像识别模型和所述物品图文识别模型。
22.根据权利要求20所述的装置,所述样本物品图像为第一样本物品图像,所述第一网络为物品图像识别网络;
所述物品识别训练单元,具体用于采用所述第一样本物品图像和所述第一样本物品图像的标注信息,对所述物品图像识别网络进行训练,得到所述第一物品识别模型。
23.根据权利要求20所述的装置,所述样本物品图像为第二样本物品图像,所述第二样本物品图像中包含物品相关的文本信息,所述第一网络为物品图文识别网络;
所述物品识别训练单元,具体用于采用所述第二样本物品图像和所述第二样本物品图像的标注信息,对所述物品图文识别网络进行训练,得到所述第一物品识别模型。
24.根据权利要求20-23任一项所述的装置,在所述构建单元根据所述物品二分类模型和所述第一物品识别模型,构建物品识别系统之前,所述物品识别训练单元,还用于采用第三样本物品图像以及所述第三样本物品图像的标注信息,对第二网络进行训练,得到第二物品识别模型,所述第三样本物品图像的标注信息用于标注所述第三样本物品图像对应的物品类型,所述第三样本物品图像输入所述第一物品识别模型后、所述第一物品识别模型所确定的所述第三样本物品图像对应的预测物品类型的置信度小于预设置信度阈值,所述第二物品识别模型用于在所述第一物品类型的置信度小于所述预设置信度阈值时,对所述目标图像进行图像识别,以确定所述物品图像对应的第二物品类型;
所述构建单元,具体用于根据所述物品二分类模型、所述第一物品识别模型、以及所述第二物品识别模型,构建所述物品识别系统。
25.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的方法,或者,权利要求8-12任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据权利要求1-7任一项所述的方法,或者,权利要求8-12任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7任一项所述的方法,或者,权利要求8-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316123.7A CN115527069A (zh) | 2022-10-26 | 2022-10-26 | 物品识别和物品识别系统构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211316123.7A CN115527069A (zh) | 2022-10-26 | 2022-10-26 | 物品识别和物品识别系统构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527069A true CN115527069A (zh) | 2022-12-27 |
Family
ID=84703504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211316123.7A Pending CN115527069A (zh) | 2022-10-26 | 2022-10-26 | 物品识别和物品识别系统构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527069A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576042A (zh) * | 2023-11-22 | 2024-02-20 | 魅杰光电科技(上海)有限公司 | 晶圆缺陷检测方法、系统、电子设备以及存储介质 |
-
2022
- 2022-10-26 CN CN202211316123.7A patent/CN115527069A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576042A (zh) * | 2023-11-22 | 2024-02-20 | 魅杰光电科技(上海)有限公司 | 晶圆缺陷检测方法、系统、电子设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112561077B (zh) | 多任务模型的训练方法、装置及电子设备 | |
CN113033537A (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN113627508B (zh) | 陈列场景识别方法、装置、设备以及存储介质 | |
CN113033622A (zh) | 跨模态检索模型的训练方法、装置、设备和存储介质 | |
CN112862005B (zh) | 视频的分类方法、装置、电子设备和存储介质 | |
CN114494784A (zh) | 深度学习模型的训练方法、图像处理方法和对象识别方法 | |
CN114882321A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN115240035A (zh) | 半监督目标检测模型训练方法、装置、设备以及存储介质 | |
CN115527069A (zh) | 物品识别和物品识别系统构建方法及装置 | |
CN114581732A (zh) | 一种图像处理及模型训练方法、装置、设备和存储介质 | |
CN113989720A (zh) | 目标检测方法、训练方法、装置、电子设备及存储介质 | |
CN116824609B (zh) | 文档版式检测方法、装置和电子设备 | |
CN112784102A (zh) | 视频检索方法、装置和电子设备 | |
CN114973333B (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN116229211A (zh) | 样本生成方法、模型训练方法、对象检测方法及装置 | |
CN113963167B (zh) | 应用于目标检测的方法、装置及计算机程序产品 | |
CN115272705A (zh) | 显著性物体检测模型的训练方法、装置以及设备 | |
CN113139463B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 | |
CN114419327A (zh) | 图像检测方法和图像检测模型的训练方法、装置 | |
CN113936158A (zh) | 一种标签匹配方法及装置 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN113642495B (zh) | 用于评价时序提名的模型的训练方法、设备、程序产品 | |
US20220222941A1 (en) | Method for recognizing action, electronic device and storage medium | |
CN117312849A (zh) | 文档版式检测模型的训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |