CN114511741A - 图像的识别方法、装置、设备、存储介质及程序产品 - Google Patents
图像的识别方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN114511741A CN114511741A CN202210107087.7A CN202210107087A CN114511741A CN 114511741 A CN114511741 A CN 114511741A CN 202210107087 A CN202210107087 A CN 202210107087A CN 114511741 A CN114511741 A CN 114511741A
- Authority
- CN
- China
- Prior art keywords
- image
- identification
- sample
- identification image
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像的识别方法、装置、设备、存储介质及程序产品;涉及人工智能技术领域以及地图领域,方法包括:基于待识别图像调用检测模型进行标识检测处理,得到待识别图像中的待识别标识图像;基于待识别标识图像调用识别模型进行特征提取处理,得到待识别标识图像的图像特征;获取标识图像库中每个样本标识图像对应的图像特征,确定待识别标识图像的图像特征与每个样本标识图像的图像特征之间的特征距离;将最小的特征距离对应的样本标识图像所属的类别,作为待识别标识图像所属的类别。通过本申请提供的图像的识别方法,能够提升识别图像中标识的准确度。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种图像的识别方法、装置、设备、存储介质及程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
标识识别是一个大类别的图片分类问题,标识类别多达几万类,并且新的标识类别、新的标识变体不断出现,相关技术的深度目标检测方法考虑的类别均较少,几千类已经是一般模型的极限。在大规模标识检测识别问题中,深度目标检测方法多用于封闭场景中,其能够处理的类别相对固定,目前,对于大类别的分类问题相关技术暂无较好的解决方案。
发明内容
本申请实施例提供一种图像的识别方法、装置、设备、存储介质及程序产品,能够解决图像识别中的对于标识图像的大类别的分类问题。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种图像的识别方法,包括:
基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像;
基于所述待识别标识图像调用识别模型进行特征提取处理,得到所述待识别标识图像的图像特征;
获取标识图像库中每个样本标识图像对应的图像特征,确定所述待识别标识图像的图像特征与所述每个样本标识图像的图像特征之间的特征距离;
将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别;
本申请实施例提供一种图像的识别装置,包括:。
图像检测模块,配置为基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像;
图像识别模块,配置为基于所述待识别标识图像调用识别模型进行特征提取处理,得到所述待识别标识图像的图像特征;
所述图像识别模块,还配置为获取标识图像库中每个样本标识图像对应的图像特征,确定所述待识别标识图像的图像特征与所述每个样本标识图像的图像特征之间的特征距离;
所述图像检测模块,还配置为将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例的图像的识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现本申请实施例的图像的识别方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本申请实施例的图像的识别方法。
本申请实施例具有以下有益效果:
通过检测模型获取标识图像在待识别图像中的位置,通过识别模型确定标识图像的类别,通过不同的模型分别进行检测与识别处理,能够更好地分担大类别的分类问题的计算量,基于标识图像库中的样本标识图像与待识别的标识图像之间的特征距离确定待识别的标识图像所属的类别,提升了标识识别的准确度,通过标识图像库中的样本作为参考数据,使识别模型能够识别更多的类别,满足大类别图像识别的分类需求。
附图说明
图1是本申请实施例提供的图像的识别方法的应用模式示意图;
图2A是本申请实施例提供的电子设备的结构示意图;
图2B是本申请实施例提供的检测模型与识别模型的结构示意图;
图3A是本申请实施例提供的图像的识别方法的流程示意图;
图3B是本申请实施例提供的图像的识别方法的流程示意图;
图3C是本申请实施例提供的图像的识别方法的流程示意图;
图4A是本申请实施例提供的图像的识别方法的流程示意图;
图4B是本申请实施例提供的图像的识别方法的流程示意图;
图4C是本申请实施例提供的图像的识别方法的流程示意图;
图4D是本申请实施例提供的图像的识别方法的流程示意图;
图5A是本申请实施例提供的背景图像的示意图;
图5B是本申请实施例提供的合成图像的示意图;
图6A是本申请实施例提供的图像的识别过程的示意图;
图6B是本申请实施例提供的图像的识别方法的流程示意图;
图6C是本申请实施例提供的图像的识别方法的流程示意图;
图6D是本申请实施例提供的图像的识别方法的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)标识,标识可以是水印、台标和商标(LOGO,logotype)、路标等。商标起到对商标归属对象的识别和推广的作用,商标归属对象可以是公司或者个人。水印是在图像数据上加载的水印,水印用于保护图片产品版权、完整性、防复制。台标是用来表示电视台、电视频道、电台或数字化的传统媒体的专用标识。路标是道路交通标志,能够用于警告、禁止、限制、指示道路使用者。
2)卷积神经网络(CNN,Convolutional Neural Networks):是一类包含卷积计算且具有深度结构的前馈神经网络(FNN,Feed forward Neural Networks),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-invariantClassification)。
3)图像分割(OS,Object Segmentation),计算机视觉领域,指的是将数字图像细分为多个图像子区域(像素的集合)的过程,并且同一个子区域内的特征具有一定相似度,不同子区域的特征呈现较为明显的差异。
4)YOLO(You Only Look Once)算法,是一种基于深度神经网络的对象识别和定位算法。YOLOV5模型检测效果较好,且推理速度很快,有利于上线部署。同时,YOLOV5在网络结构和锚点框设计上考虑到目标多尺度情况,能很好解决尺寸较小的标识的检测问题。在对YOLOV5模型进行训练时,YOLOV5模型会通过数据加载器传递并增强每一批训练数据(数据加载器进行三种数据增强:缩放,色彩空间调整和马赛克增强),这种处理对训练数据进行了充分的增广,极大提高了模型的泛化能力。
本申请实施例提供一种图像的识别方法、图像的识别装置、用于图像的识别的电子设备和计算机可读存储介质、计算机程序产品,能够解决图像识别中大类别的标识图像的识别问题,节约标识图像识别所需的计算资源,基于识别结果有利于提升与标识图像相关的图像的推荐效果。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端等各种类型的用户终端,也可以实施为服务器。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。本申请实施例可以由服务器实现,或者由终端设备以及服务器协同实现,下面,将说明电子设备实施为服务器时的示例性应用。
参考图1,图1是本申请实施例提供的图像的识别方法的应用模式示意图;示例的,涉及的服务器包括:训练服务器201、识别服务器202与推荐服务器203(属于推荐系统,例如广告系统)、网络300及第一终端设备401。训练服务器201、识别服务器202与推荐服务器203之间通过网络300进行通信,或者通过其他方式进行通信,第一终端设备401通过网络300连接推荐服务器202,网络300可以是广域网或者局域网,又或者是二者的组合。
背景图像可以产品展示图像或者广告图像,标识图像可以是商标图像,第一用户是观看广告的用户,推荐图像可以是广告图像。待识别图像可以是第二用户(例如:广告主)上传的产品展示图、广告图像,还可以是从网络中通过爬虫技术爬取的广告图像。
训练服务器201从网络中利用爬虫抓取大量的背景图像以及商标图像,将背景图像与商标图像合成为模拟的广告图像,形成模拟广告图像集合,基于模拟广告图像集合训练检测模型,基于商标图像训练识别模型,并将训练完成的识别模型与检测模型同步到识别服务器202中。识别服务器202接收广告主发送的待识别的广告图像,提取广告图像中的标识图像,并对标识图像进行识别,将识别结果发送到推荐服务器203中。推荐服务器203根据识别结果与用户兴趣数据从广告图像中选取推荐图像,将推荐图像发送到用户的第一终端设备401中。
在一些实施例中,训练服务器201可以运行有图形化的前端,例如广告图像定制平台,广告主可以通过终端设备将产品的样本图像与标识图像发送给训练服务器201,训练服务器201基于样本图像与标识图像合成广告主所需的广告图像,并将合成的广告图像同步到推荐服务器203,使推荐服务器向第一用户的第一终端设备401进行推荐。
在一些实施例中,训练服务器201、识别服务器202与推荐服务器203中部分服务器或全部服务器也可以实施为一个统一的服务器。
本申请实施例可以应用在地图领域,下面,以终端设备和服务器协同实施本申请实施例提供的图像的识别方法为例进行说明。标识图像为路标图像或者路面广告图像,服务器可以训练检测模型以及识别模型,并将识别模型以及检测模型同步到用户的终端设备中,用户可以通过终端设备的摄像头拍摄道路场景图像,或者从网络中获取道路场景图像。终端设备基于道路场景图像调用检测模型进行标识检测处理,得到道路场景图像中的路标图像、路面广告图像,基于识别模型对路标图像、路面广告图像进行标识检测,得到路标图像、路面广告图像对应的标识类别,基于识别结果可以进行地图兴趣点(POI,Point ofInterest)数据更新;或者,基于标识结果可以在地图数据中进行匹配,得到路面场景图像对应的地理位置,将该地理位置相关的信息显示给用户,为用户提供更精准的定位服务。
本申请实施例可以通过数据库技术实现,数据库(Database),简而言之可视为电子化的文件柜存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(SQL,Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器之间可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
本申请实施例,还可以通过云技术实现,云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
参见图2A,图2A是本申请实施例提供的电子设备的结构示意图,包括:至少一个处理器410、存储器450、至少一个网络接口420。电子设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等。
在一些实施例中,本申请实施例提供的图像的识别装置可以采用软件方式实现,图2A示出了存储在存储器450中的图像的识别装置455,其可以是程序和插件等形式的软件,包括以下软件模块:图像检测模块4551、图像识别模型4552、训练模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的图像的识别方法。
参见图3A,图3A是本申请实施例提供的图像的识别方法的流程示意图,将结合图3A示出的步骤101至步骤104进行说明。
在步骤101中,基于待识别图像调用检测模型进行标识检测处理,得到待识别图像中的待识别标识图像;
示例的,检测模型具备识别图像中标识的功能,能够从待识别图像中分割出标识对应的区域,得到待识别标识图像。
在一些实施例中,步骤101通过以下方式实现:基于待识别图像调用检测模型的骨干网络对待识别图像进行多个层次的上采样处理,得到每个层次对应的上采样特征图,其中,除最后层次之外的每个层次的上采样特征图,用于作为下一层次的上采样处理的输入;检测模型的融合网络对每个上采样特征图进行特征融合处理,得到待识别图像的融合特征图;检测模型的边框预测层基于融合特征图对待识别图像进行边界框预测处理,得到待识别标识的边界框;基于边界框对待识别图像进行分割处理,得到待识别图像中的待识别标识图像。
示例的,以下结合附图对获取待识别标识图像的过程进行解释说明。参考图2B,图2B是本申请实施例提供的检测模型与识别模型的结构示意图。检测模型210B可以是目标检测网络(YOLOV5,You Only Look Once V5),检测模型210B包括骨干(Backbone)网络211B、融合网络212B以及边框预测层213B,其中,骨干网络211B可以是卷积神经网络,用于对图像进行多个层次上采样处理得到不同细粒度(分辨率)的图像,每个层次对应的上采样特征图的细粒度大于上一层次,并提取每个上采样特征图的图像特征。融合网络212B包括一系列混合和组合图像特征的网络层,融合网络212B可以是特征融合金字塔(FPN,FeaturePyramid Networks)或者路径聚合网络(PANet,Path Aggregation Network),用于将图像特征融合,并将融合图像特征传递到边框预测层213B。边框预测层213B用于生成待识别标识对应的边界框,并基于边界框将待识别标识从待识别图像中分割出来,得到待识别标识图像。
在一些实施例中,YOLOV5模型的预测层还可以用于对边界框中的目标对象进行分类,但本申请实施例中通过识别模型进行标识图像识别处理,无需YOLOV5模型的预测层对标识图像进行分类。本申请实施例提供的图像的识别方法将图像的识别拆分为两阶段,分别由不同的模型执行标识的检测处理、标识的识别处理,相较于同时训练YOLOV5模型的检测、识别功能,节约了训练YOLOV5模型所需的计算资源。
在步骤102中,基于待识别标识图像调用识别模型进行特征提取处理,得到待识别标识图像的图像特征。
这里,图像特征包括标识图像特征以及标识名称。
示例的,识别模型可以用于对标识图像的标识图像特征进行提取,基于提取到的标识图像特征确定标识图像对应的类别;以及对标识图像中的文本进行检测以及识别,得到标识图像对应的标识名称。
在一些实施例中,参见图3B,图3B是本申请实施例提供的图像的识别方法的流程示意图,步骤102可以通过步骤1021以及步骤1022实现,以下具体说明。
在步骤1021中,基于待识别标识图像调用识别模型进行图像语义特征提取处理,得到待识别标识图像的对应的语义特征。
示例的,以下结合附图对获取标识图像特征的过程进行解释说明,参考图2B,识别模型220B包括特征提取器221B以及检索模块222B,特征提取器221B对待识别标识图像进行特征提取,得到待识别标识图像的标识图像特征以及标识名称。其中,特征提取器221B中包括特征提取模块223B以及嵌入层224B。特征提取模块223B可以是残差网络模型(ResNet),残差网络模型用于提取待识别标识图像的语义特征。语义特征可以表示为离散的变量的形式。
在步骤1022中,将语义特征由离散变量形式转换为连续向量形式,得到待识别标识图像的标识图像特征。
示例的,可以通过将语义特征映射到嵌入空间中的方式,将语义特征转换为连续向量的形式。识别模型的嵌入层224B可以是嵌入器(Embedder),嵌入器包含全连接层,嵌入器通过将语义特征映射到嵌入空间中,使语义特征由离散变量形式转换为连续向量形式,将连续向量形式的语义特征作为待识别标识图像的标识图像特征。
在步骤103中,获取标识图像库中每个样本标识图像对应的图像特征,确定待识别标识图像的图像特征与每个样本标识图像的图像特征之间的特征距离。
示例的,图像特征包括标识图像特征以及标识名称,标识图像特征可以表征为连续向量形式,可以通过标识图像特征确定样本标识图像和待识别标识图像之间的距离。标识图像库中的样本标识图像可以通过爬虫从网络数据中爬取,标识图像库中存储有样本标识图像以及样本标识图像对应的类别。样本标识图像对应的标识图像特征可以是离线阶段计算并存储在标识图像库中的,还可以是在线阶段实时计算的。
在一些实施例中,步骤103可以通过以下方式实现:获取标识图像库中每个样本标识图像对应的标识图像特征,并对每个样本标识图像对应的标识图像特征进行以下处理:对待识别标识图像的标识图像特征与样本标识图像的标识图像特征进行相减,得到标识图像特征之差;基于标识图像特征之差确定特征距离。
作为示例,可以通过公式dk=‖f(x)-f(xk)‖2获取特征距离,其中,dk是特征距离,f(x)是待识别标识图像的标识图像特征,f(xk)是样本标识图像集合中第k类样本标识图像的标识图像特征,特征距离是标识图像特征之差的范数。作为示例,在以标识图像特征之差为计算要素的情况下,还可以采用其他计算方式获取特征距离。
示例的,参考图2B,其中,检索模块222B用于计算待识别标识图像的标识图像特征与标识图像库230B中的每个样本标识图像的标识图像特征之间的特征距离。特征距离可以用于表征样本标识图像与待识别标识图像之间的相似度,特征距离与相似度呈负相关,特征距离越小,则相似度越高。
在步骤104中,将最小的特征距离对应的样本标识图像所属的类别,作为待识别标识图像所属的类别。
示例的,标识图像的类别通常通过标识图像对应的名称、标识图像表征的对象进行区分。例如:标识图像是商标图像,可以根据商标的四十五类将标识图像分为45个大类别,每个大类别下根据商标具体对应的商品分为多个子类别,每个子类别中根据商品的标识名称将标识图像细分为多个小类别。假设一个标识图像为某一款糖果的商标图像,该标识图像对应的类别可以为“食品-糖果-糖果名称”。
示例的,图像特征包括标识图像特征以及标识名称,基于标识图像特征可以获取特征距离,可以将最小的特征距离对应的样本标识图像所属的类别作为待识别标识图像所属的类别。当最小的特征距离大于特征距离阈值时,还可以通过对待识别标识图像的标识名称以及每个样本标识图像的标识名称进行匹配确定待识别标识图像所属的类别。
在一些实施例中,参见图3C,图3C是本申请实施例提供的图像的识别方法的流程示意图,步骤104可以通过步骤1041以及步骤1043实现,以下具体说明。
在步骤1041中,当最小的特征距离小于或等于特征距离阈值时,将最小的特征距离对应的样本标识图像所属的类别,作为待识别标识图像所属的类别。
示例的,特征距离越小则样本标识图像与待识别标识图像之间的相似度越高,当最小的特征距离小于等于特征距离阈值时,则表明最小的特征距离对应的样本标识图像与待识别标识图像的相似度较高,二者属于同一类别,可以将样本标识图像所属的类别作为待识别标识图像的类别。
在步骤1042中,当最小的特征距离大于特征距离阈值时,调用识别模型对待识别标识图像进行文本检测处理,得到待识别标识图像中的文本区域图像,对文本区域图像进行文本识别处理,得到待识别标识图像的标识名称。
示例的,继续参考图2B,特征提取器221B中还包括文本检测模块225B以及文本识别模块226B。文本检测模块225B用于对待识别标识图像进行文本检测处理,确定待识别标识图像中包含文本的文本区域图像,文本识别模块226B用于对文本区域图像中的文本进行识别,将识别出的文本作为待识别标识图像的标识名称。
示例的,当最小的特征距离大于特征距离阈值时,说明标识图像库中的样本标识图像的标识图像特征与待识别标识图像的标识图像特征之间的相似度较低,可以对待识别标识图像的标识名称进行提取,通过标识名称作为辅助手段确定待识别标识图像的类别。
在步骤1043中,基于待识别标识图像的标识名称对标识图像库中的每个样本标识图像的标识名称进行匹配处理,将与待识别标识图像的标识名称匹配的目标样本标识图像作为最小的特征距离对应的样本标识图像,将目标样本标识图像所属的类别作为待识别标识图像所属的类别。
示例的,匹配处理可以通过以下方式实现,基于待识别标识图像的标识名称对应的字符串与每个样本标识图像的标识名称的字符串进行匹配,得到包含待识别标识图像的标识名称对应的字符串的标识名称,或者得到与待识别标识图像的标识名称相同的标识名称,作为匹配结果。例如:标识为商标,标识名称为“**电器”(**指代电器名称),在标识图像库中对“**电器”对应的字符串进行匹配,得到相同的标识名称“**电器”,将相同的标识名称对应的标识图像的所属类别,作为待识别标识图像的类别。
示例的,假设标识名称匹配结果为不存在与待识别标识图像的标识名称匹配的标识名称,则可以将待识别标识图像对应的类别标注为新类别。可以将待识别标识图像对应的新类别、待识别标识图像的标识名称、标识图像特征存储到标识图像库中,以使标识图像库中新增标识图像以及对应的类别。
在一些实施例中,识别结果包括待识别标识图像的边界框在待识别图像中的位置、待识别标识所属的类别、待识别标识的标识名称。例如:待识别图像为广告图像,待识别标识图像为商标图像,对应的识别结果包括:广告图像中商标对应的区域(边界框)的位置坐标、广告图像中商标所属的商标类别、广告图像中的商标的商标名称。
在一些实施例中,在步骤102之前,可以通过以下方式建立标识图像库:调用识别模型对每个样本标识图像进行特征提取处理,得到每个样本标识图像的图像特征;基于图像特征对每个样本标识图像进行分类,得到每个样本标识图像所属的类别;将每个样本标识图像、每个样本标识图像的图像特征以及每个样本标识图像与所属类别之间的对应关系,存储在标识图像库中。
示例的,样本标识图像可以通过爬虫从网络数据中爬取,并通过检测模型确定得到的样本标识图像中的非标识图像,删除这些非标识图像,将剩余的样本标识图像存储到标识图像库中。在爬取样本标识图像时,还可以从网络数据中爬取到样本标识图像对应的信息(例如:样本标识图像对应的类别或者标识名称),基于样本标识图像对应的信息进行标识分类处理,能够节约标识分类所需的计算量。
在一些实施例中,还可以通过以下方式对标识图像库进行更新:获取多个增量样本标识图像,调用识别模型对每个增量样本标识图像进行特征提取处理,得到每个增量样本标识图像对应的图像特征;基于每个增量样本标识图像对应的图像特征,确定每个增量样本标识图像所属的类别,其中,所属类别包括新类别以及已有类别;将每个增量样本标识图像、每个增量样本标识图像的图像特征以及每个增量样本标识图像与所属类别之间的对应关系,存储在标识图像库中。
示例的,增量样本标识图像是标识图像库中之前未存储的标识图像,通过将增量样本标识图像存储到标识图像库中,能够扩展识别模型的识别能力,使得识别模型能够识别更多的标识类别,满足大类别识别的需求。
在一些实施例中,参见图4A,图4A是本申请实施例提供的图像的识别方法的流程示意图,在步骤101之前,可以通过步骤105至步骤108进行模型训练得到检测模型以及识别模型。
步骤105中,调用初始化的检测模型对合成图像集合中每个合成图像进行标识检测处理,得到实际检测结果。
示例的,初始化的检测模型可以是YOLOV5模型,获取实际检测结果的过程可以参考上文步骤101。
步骤106中,基于实际检测结果获取初始化的检测模型的边框回归损失以及目标检测损失,基于目标检测损失以及边框回归损失训练初始化的检测模型。
示例的,边框回归损失表征实际的标识图像的边界框与初始化的检测模型检测得到标识图像的边界框之间的差异,目标检测损失表征实际的待识别标识与初始化的检测模型检测到的标识之间的差异。
在一些实施例中,步骤106通过以下步骤实现:获取合成图像集合中每个合成图像对应的标注信息,将标注信息作为预期检测结果,基于预期检测结果与实际检测结果,确定初始化的检测模型的目标检测损失以及边框回归损失;基于目标检测损失以及边框回归损失确定初始化的检测模型的更新参数,将初始化的检测模型中对应的参数替换为更新参数,得到训练后的检测模型。
示例的,每个合成图像对应的标注信息包括:合成图像中的样本标识图像以及每个样本标识图像对应的位置;初始化的检测模型可以是YOLOV5模型,基于目标检测损失以及边框回归损失可以对检测模型中的骨干网络、融合网络以及边框预测层进行反向传播,得到能够使待训练的检测模型的实际检测结果与合成图像的拟合的更新参数,将初始化的检测模型中对应的参数替换为更新参数,得到训练后的检测模型。
步骤107中,调用初始化的识别模型对样本标识图像集合中每个样本标识图像进行特征提取,得到每个样本标识图像的标识图像特征。
示例的,初始化的标识模型可以包括骨干网络以及嵌入器。初始化的标识模型提取标识图像特征的过程可以参考步骤102。
步骤108中,基于每个标识图像特征获取初始化的识别模型的循环损失,基于循环损失训练初始化的识别模型。
在一些实施例中,参考图4B,图4B是本申请实施例提供的图像的识别方法的流程示意图,获取循环损失并基于循环损失训练识别模型,可以通过以下步骤1081至步骤1084实现,以下具体说明。
在步骤1081中,基于每个样本标识图像的标识图像特征确定同类别的样本标识图像之间的类内相似度,以及不同类别的样本标识图像之间的类间相似度。
示例的,类内相似度是同一类别内的标识图像之间的相似度,类间相似度是不同类别的标识图像之间的相似度,可以将标识图像特征作为计算要素获取类内相似度以及类间相似度。
在步骤1082中,确定每个类内相似度对应的权重以及每个类间相似度对应的权重。
示例的,权重可以通过以下方式获取:获取类内相似度中的参考类内相似度,并将参考类内相似度与每个类内相似度的差,分别作为每个类内相似度对应的权重;获取类间相似度中的参考类间相似度,并将参考类间相似度与每个类间相似度的差,分别作为每个类间相似度对应的权重。参考类内相似度可以是类内相似度中的锚点,参考类间相似度可以是类间相似度中的锚点。
在步骤1083中,基于每个类间相似度、每个类间相似度对应的权重、每个类内相似度以及每个类内相似度对应的权重,确定初始化的识别模型的循环损失。
示例的,可以通过以下公式(2)确定循环损失:
在步骤1084中,基于循环损失对初始化的识别模型进行反向传播,得到初始化的识别模型对应的更新参数,将初始化的识别模型中对应的参数替换为更新参数,得到训练后的识别模型。
示例的,还可以对识别模型进行多次迭代的训练,使得识别模型对于标识图像的识别能力更强,使得识别模型能够更准确地获取到标识图像中的标识图像特征。
在一些实施例中,参见图4C,图4C是本申请实施例提供的图像的识别方法的流程示意图,可以通过步骤109至步骤110获取用于训练模型的图像集合(包括:样本标识图像集合以及合成图像集合)
步骤109中,获取待筛选的多个样本标识图像,对多个样本标识图像进行合并重复类处理,得到样本标识图像集合。
在一些实施例中,可以通过以下方式进行合并重复类处理:基于每个样本标识图像的标识名称对每个样本标识图像进行类别预标注处理,得到每个样本标识图像对应的预标注类别;对每个样本标识图像进行特征提取,基于每两个样本标识图像之间的特征匹配程度,确定重复的样本标识图像,并将重复的样本标识图像对应的预标注类别进行合并重复类处理,将经过合并重复类处理后得到的样本标识图像组合为样本标识图像集合。
示例的,通常可以通过标识图像对应的标识名称对标识图像对应的类别进行命名,以区分不同的类别,例如:两个商标图像,标识名称分别为“**牌方便面”、“**牌水饺”,则两个标识图像的对应的类别的名称可以为“方便食品-方便面-**牌方便面”、“方便食品-水饺-**牌水饺”,通过不同的命名对同一品牌的不同商品对应的商标进行了类别区分。但待筛选的样本标识图像中可能会包含大量的重复的标识图像,重复的标识图像对应的标识名称可能会存在差异,例如:两个商标图像是相同的,但其中一个商标图像的标识名称为英文,另一个商标图像的标识名称为中文,标识名称不同导致二者被分到不同的类别,类别中的内容重复,需要对这些重复的类别进行合并。为便于理解,以下举例说明,例如:标识图像为商标图像,获取到数万个样本标识图像,确定每个样本标识图像对应的标识名称,基于标识名称将每个样本标识图像预标注为一类,也即,每个样本标识图像与一个类别一一对应。对每个样本标识图像进行特征提取,当两个样本标识图像之间的特征匹配程度(或相似度)达到90%~100%,则可以将两个样本标识图像划分到同一类别,合并两个样本标识图像对应的预标注类别,将合并重复类处理后的每个样本标识图像组合为样本标识图像集合
在步骤110中,获取待筛选的多个样本背景图像,删除不符合预设条件的样本背景图像,将剩余的样本背景图像组合为样本背景图像集合。
这里,预设条件为样本背景图像不包括标识。
在一些实施例中,若样本背景图像中已经存在标识,已有的标识可能会对模型训练造成干扰,可以通过以下方式删除待筛选的样本背景图像中不符合预设条件的样本背景图像:调用一个初始的标识检测模型对每个样本背景图像进行标识检测处理,得到目标样本背景图像以及对应的置信度,删除置信度大于置信度阈值的目标样本背景图像。
示例的,置信度是标识检测处理得到的检测结果的可信程度,标识检测处理得到的检测结果包括两种:不包括标识的样本背景图像,以及目标样本背景图像,目标样本背景图像中包括标识。置信度阈值可以为80%,当目标样本背景图像对应的置信度大于等于80%时,说明目标样本背景图像中包括标识,则将目标样本背景图像删除,将剩余的样本背景图像组合为样本背景图像集合。
在步骤111中,基于样本标识图像集合与样本背景图像集合生成合成图像集合。
这里,合成图像集合中每个合成图像包括:样本标识图像集合中的一个样本背景图像,样本背景图像集合中的至少一个样本标识图像。
在一些实施例中,参考图4D,图4D是本申请实施例提供的图像的识别方法的流程示意图,步骤111可以通过以下步骤1111至步骤1113实现,以下具体说明。
示例的,对样本背景图像集合中每个样本背景图像执行步骤1111至步骤1113,可以得到每个合成图像。
在步骤1111中,对样本背景图像进行前景背景分割处理,得到样本背景图像中的图像背景区域。
示例的,参考图5A,图5A是本申请实施例提供的背景图像的示意图;背景图像501A以及背景图像502A中,除文字、物体以外的区域可以作为图像背景区域,可以将样本标识图像叠加到图像背景区域中。
在步骤1112中,针对每个样本背景图像的图像背景区域执行以下处理:从样本标识图像集合中获取至少一个样本标识图像,基于图像背景区域对至少一个样本标识图像与样本背景图像进行图像叠加处理,得到所述背景图像对应的合成图像。
示例的,从样本标识图像集合中随机获取至少一个样本标识图像。假设待识别图像为广告图像,可以基于广告图像中标识图像的常见位置确定样本标识图像叠加到样本背景图像中的至少一个贴图位置。并将至少一个样本标识图像叠加到样本背景图像中。
在一些实施例中,将一个样本背景图像与多个样本标识图像作为一种组合,基于样本标识图像集合以及样本背景集合可以形成大量不同的组合,可以合成得到大量的合成图像作为训练样本。
在一些实施例中,步骤1112可以通过以下方式实现:基于样本背景图像的尺寸对至少一个样本标识图像进行尺寸缩放处理;基于预设概率选取尺寸缩放处理后的样本标识图像进行透明化处理;基于预设位置选择概率确定图像背景区域中的至少一个贴图位置,并根据每个贴图位置,将至少一个样本标识图像叠加到样本背景图像中,得到样本背景图像对应的合成图像。
这里,每个贴图位置到样本背景图像的中心位置的距离,与每个贴图位置对应的预设位置选择概率正相关。
示例的,对至少一个样本标识图像进行尺寸缩放处理时,维持样本标识图像的原高宽比,在尺寸缩放处理后,可以根据预设概率随机从至少一个样本标识图像中选取一个或者多个样本标识图像进行透明化处理,假设预设概率是0.5,现有4个样本标识图像,根据预设概率随机从4个样本标识图像中选取2个进行透明化处理。透明化处理对应的透明度可以基于背景图像与标识图像对应的颜色深度确定,或者预先设置透明度。例如:透明度为75%,则对2个样本标识图像进行透明化处理,得到透明化处理后的两个样本标识图像。将透明化处理的以及未透明化处理的样本标识图像均叠加到背景图像中。
示例的,每个贴图位置到样本背景图像的中心位置的距离,与每个贴图位置对应的预设位置选择概率正相关。贴图位置与样本背景图像的中间之间的距离越近,则该贴图位置对应的预设位置选择概率越高。存在至少一个样本标识图像,则贴图位置也可以为至少一个。图5A是本申请实施例提供的背景图像的示意图;参考图5B、图5A,可知,合成图像502B包括标识图像505B以及背景图像502A,合成图像501B包括背景图像501A、标识图像503B以及标识图像503B。
本申请实施例通过透明化处理可以使样本标识图像更好地融入样本背景图像,可以使合成图像更接近于真实的待识别图像,有利于提升对于检测模型的训练效率,使得检测模型能够更加准确地获取待识别图像中的待识别标识图像。
在步骤1113中,将基于每个样本背景图像得到的合成图像组合为合成图像集合。
示例的,每个样本背景图像可以对应于多个合成图像,每个合成图像对应于一个样本背景图像。可以基于每个合成图像对应的样本标识图像、样本背景图像对合成图像进行标注,每个合成图像对应的标注信息包括合成图像中的标识图像的位置、数量、尺寸等,以及合成图像对应的标识图像的类别、对应的样本背景图像,从而得到了大量的合成图像作为训练样本。
本申请实施例,通过检测模型获取标识图像在待识别图像中的位置,通过识别模型确定标识图像的类别,将图像的识别过程从端到端拆分为两阶段模型识别,能够更好地分担大类别的分类问题的计算量,基于标识图像库中的样本标识图像与待识别的标识图像之间的特征距离确定待识别的标识图像所属的类别,提升了标识识别的准确度,通过标识图像库中的样本作为参考数据,使识别模型能够识别更多的类别,满足大类别图像识别的分类需求。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提供的图像的识别方法可以应用在如下场景中:
1、广告系统进行广告推荐前,通常需要对广告图像进行分类,以便于向用户推荐与用户兴趣匹配的广告图像(或广告图像对应的广告品牌、广告视频)。本申请实施例提供的图像的识别方法,可以对广告图像中的标识(logo,商标)图像进行识别,基于识别结果对广告图像进行标注,推荐服务器可以根据用户兴趣与广告图像的标注,得到与用户兴趣匹配的广告图像,向用户推送广告图像(或广告图像对应的广告品牌、广告视频),以提升推荐效果。
2、在广告图像投放到投放点或者推荐到用户的终端设备供用户观看之前,通常会对广告图像进行审核,人工审核费时费力。本申请提供的图像的识别方法,可以对广告图像进行识别,基于识别结果可以确定广告图像中包含的标识是否符合相关的审核规则(比如:标识对应的文本是否包含敏感词、标识对应的品牌之间是否为竞品、标识对应的标识名称是否重复等),以完成广告审核规则工作。
3、广告主具有制作广告图像的需求,但广告主通常缺乏制作广告图像的相关技能,需要专业人士或者专业软件为广告主提供广告图像制作的服务。本申请实施例提供的图像的识别方法,能够基于网络中获取的样本图像生成逼真的广告图像数据,并利用广告图像数据训练用于识别标识的模型;本申请实施例提供的广告图像合成方式可以基于广告主提供的标识图像和商品图,能够为广告主进行广告图像设计。
下面将本申请实施例提供的图像的识别方法应用在广告推荐场景中,以合成图像为广告图像为例,进行解释说明。参考图6B,图6B是本申请实施例提供的图像的识别方法的流程示意图。
在步骤601B中,训练服务器201获取背景图像以及标识图像,合成广告图像,得到广告图像数据集。
示例的,背景图像以及标识图像可以通过数据爬虫方式从网络中爬取得到,还可以是广告主自主上传的标识图像、背景图像。步骤601B具体可以通过以下方式实现:获取标识图像集合;获取背景图像集合;基于合成算法,将标识和背景图合成为广告图像,生成广告图像集合。
示例的,通过数据爬虫方式获取的标识图像中包含大量噪声(例如:非标识图像或者重复的标识图像),可以基于可视化数据库(ImageNet)对残差网络模型(Resnet50)进行预训练,得到训练后的残差网络模型对每个标识图像进行特征提取,基于不同的标识图像的图像特征之间的特征匹配程度,确定重复的标识图像,合并重复的标识图像(或者删除重复的标识图像),得到筛选后的标识图像,基于筛选后的标识图像生成标识图像集合。
示例的,为提升合成的广告图像的真实度,可以从广告素材库随机抽取了大量真实广告图像作为待筛选的背景图像,待筛选的背景图像中可能包括标识图像,其标识图像真实存在但却缺乏标注,这样会干扰模型正常训练,影响模型效果。可以训练一个初始标识检测模型,并调用初始标识检测模型对每个待筛选的背景图像进行标识检测,当检测结果为背景图像包括标识图像且检测结果对应的置信度大于置信度阈值时,将包括标识图像的背景图像删除。基于不包括标识图像的背景图像生成背景图像集合。参考图5A,其中,背景图像501A以及背景图像502A是两张背景图像,背景图像501A和背景图像502A是广告图像,背景图像中包括产品展示图、广告词,但并不包含标识图像。
示例的,将标识图像贴到背景图像上,即可合成一张合成图像,为保证合成数据尽可能逼真,可以通过以下方式获取每张合成图像:随机从背景图像集合中获取一张背景图像,随机从标识图像集合中获取至少一张标识图像,基于图像分割模型对背景图像进行处理,将背景图像中的物体(例如:广告图像中的产品、广告词等)与背景分离,得到图像背景区域(贴图时仅将标识图像贴入背景区域)。对背景图像进行缩放,并基于缩放后的背景图像的尺寸随机对标识图进行放缩,缩放时维持标识图像的初始宽高比。通过以下方式确定图像背景区域中的至少一个贴图位置:基于每个背景图像中物体所在的位置计算标识图像出现在背景区域中不同位置的概率,得到图像背景区域对应的概率分布,基于概率分布在图像背景区域中随机选择贴图位置。真实广告图像中,标识图像出现在广告图像的边缘的概率较高,出现在广告图像的中心区域的概率较低,则图像背景区域中靠近图像中心的位置对应的概率较高,而靠近图像边界的位置对应的概率交底。例如:可以基于预设概率随机选取将图像背景区域中靠近图像四周边界的位置作为贴图位置。进行贴图时,可以按照一定概率判断是否对标识图像进行透明化,例如:透明化处理的概率是0.5,基于0.5的概率随机确定是否对当前标识图像进行透明化处理,当判断结果为否时,直接将标识图像贴图到背景图像中;当判断结果为是时,对标识图像进行透明化处理,并将处理后的标识图像贴图到背景图像中的贴图位置。参考图5B,合成图像501B包括背景图像501A与标识图像503B、标识图像504B。合成图像502B包括背景图像502A、标识图像505B。
示例的,当确定对标识图像进行透明化时,根据预设的透明化算法对标识图像进行透明化。透明化处理可以通过以下方式实现:将标识图像进行图像分割,得到前景和背景区域,将背景区域的像素值调为对应的贴图位置的像素值。将透明化处理后的标识图像贴图到背景图像中的贴图区域,透明化处理可使标识图像中的背景部分融入样本背景图像,只保留标识图像的前景部分,使合成图像更加符合真实的广告图像中标识与背景相融合的情况。
本申请实施例,通过上述方式进行图像合成,能够得到百万级的训练样本。合成得到的训练样本更加丰富;对背景图像以及标识图像随机地进行尺寸缩放,同时避免标识图像和背景图像比例过大或过小,可保证标识图像在尺度上的多样性与合理性。
在步骤602B中,训练服务器201基于广告图像数据集,训练检测模型与识别模型。
示例的,检测模型可以采用目标检测算法模型(YOLOV5)作为标识检测框架。YOLOV5模型包括骨干网络、特征融合网络以及预测层。骨干网络是在不同图像细粒度(分辨率)上聚合并形成图像特征的卷积神经网络,主干网络对图像进行上采样得到不同细粒度的图像,并提取每个细粒度的图像的图像特征,并输出到特征融合网络。特征融合网络包括一系列混合和组合图像特征的网络层(例如:特征融合金字塔),特征融合网络用于将图像特征融合,并将融合的图像特征传递到预测层。预测层用于基于融合的图像特征生成标识对应的检测框。
示例的,训练过程中,可以将基于目标检测数据集(COCO,Common Objects inContext)训练的YOLOV5模型作为初始化的检测模型,基于合成得到的广告图像集合对初始化的检测模型进行充分训练,并基于少量人工标注的真实数据对训练后的检测模型进行微调(fine-tuning),即可得到训练好的标识检测模型。标识检测模型用于对广告图像进行检测,得到标识图像所在位置的检测框(边界框),并输出广告图像中的标识图像。
示例的,初始化的YOLOV5模型包含三方面损失,初始化的YOLOV5模型的总损失可以用以下公式(1)表示:
loss=Lbox-regression+λ1Lobject+λ2Lclassification #(1)
其中,loss是初始化的YOLOV5模型的总量化损失,Lbox-regression是框回归损失,Lobject为目标损失(判断框内有无标识的损失),Lclassification为标识分类损失,λ1和λ2为权重参数。由于标识检测模型负责基于检测框(标识图像的边界框)定位标识图像在广告图像中的位置,不负责标识分类,可以基于框回归损失以及目标损失对标识检测模型进行训练,而忽略标识分类损失,节约了训练标识检测模型时所需的计算资源。
示例的,标识识别是一个大类别的图像分类问题,但由于大量标识中存在文本,而文本语义在很大程度上表征了标识的类别,故合理利用标识文本信息对提高标识识别性能有很大帮助。另外,标识识别是一个开放集识别问题,在真实环境中,新的标识类别,新的标识变体会不断出现,识别模型应当具备识别新标识的功能。可以选取包括骨干网络以及嵌入器(Embedder)层的识别模型作为初始化的识别模型,其中,骨干网络可以为残差网络模型(例如ResNet-34网络),骨干网络用于提取标识图像的语义特征,嵌入器层可以是一个全连接层,嵌入器层用于将骨干网络提取的语义特征映射到嵌入空间中,得到标识图像的标识图像特征。
示例的,可以基于循环损失(Circle Loss)对初始化的识别模型进行优化,循环损失可以基于以下方式进行获取:对于选定的训练批样本(mini-batch),首先通过骨干网络和嵌入层计算标识图像的特征,基于特征计算锚点和同类别样本之间的类内相似度sp,以及锚点和非同类别样本之间的类间相似度sn,基于样本间类内及类间相似度计算循环损失。循环损失的计算公式(2)如下:
循环损失(Circle loss)使得模型的优化更具灵活性,同时具有更加明确的优化目标。Op是类内相似度中的锚点(参考点)对应的相似度,锚点可以是类内相似度中的最优相似度对应的点。On是类间相似度中的锚点(参考点)对应的相似度,锚点可以是类间相似度中的最优相似度对应的点。本申请实施例中,利用循环损失优化识别模型的构思是,对于远离锚点(参考点)的相似度(相似度之间的差越大,则越远离锚点),应当给予更多的关注,并由此给不同的相似度分配不同的权重。
示例的,训练初始化的识别模型的方式可以为:基于循环损失对初始化的识别模型进行反向传播,确定初始化的识别模型的参数梯度,基于参数梯度更新初始化的识别模型中对应的参数,得到训练后的识别模型。
在步骤603B中,训练服务器201将检测模型与识别模型同步到识别服务器202。
示例的,当训练服务器201训练完检测模型与识别模型后,可以通过网络或者其他方式将训练完成的模型同步到识别服务器202,以使识别服务器202利用模型进行图像检测与识别。
在步骤604B中,识别服务器202基于识别模型构建标识检索库。
示例的,标识检索库(也即上文的标识图像库)中包括标识图像、标识图像的标识名称、标识图像特征以及标识图像与标识图像所属类别之间的对应关系。标识检索库中的标识图像可以来源于标识图像集合,训练服务器201可以将识别模型与标识图像集合一起同步到识别服务器202。识别服务器202调用识别模型对标识图像集合中的每个标识图像进行特征提取处理,得到每个标识图像的标识图像特征。将标识图像的标识图像特征以及标识图像对应的标注信息(包括标识图像所属的类别以及标识图像名称)存储在标识检索库中。标识检索库S可以表示为其中xi为标识检索库中第i个标识图像,yi为该标识图像xi对应的类别,f(xi)是标识图像xi对应的标识图像特征,标识检索库包括不同的标识图像、标识图像特征、标识图像与其对应的类别之间的对应关系。
示例的,通过构建标识检索库进行标识图像的类别识别,可以使识别模型具备识别新标识图像的功能。假设,给定标注后的新标识图像集合Inew,表示为:调用识别模型获取新标识图像集合中每个新标识图像对应的标识图像特征,并将新标识图像以及对应的标识图像特征加入标识检索库,对标识检索库进行更新,即可将识别模型的可识别范围拓展到新标识图像集合Inew中的新类别以及新的标识图像,更新后的标识检索库Snew可以表示为:在标识识别任务的后续进行中,只需将待识别的标识图像对应的标识图像特征在新的标识检索库Snew中检索即可。
在步骤605B中,识别服务器202基于检测模型提取广告图像中的标识图像,基于识别模型与标识检索库对标识图像进行识别,得到识别结果,并将识别结果发送到推荐服务器203。
示例的,基于识别模型与标识检索库对标识图像进行识别可以通过以下方式实现:利用识别模型计算待识别标识图像和标识检索库中的样本标识图像之间的距离,当最小距离小于等于距离阈值时,将最小距离对应的样本所属的类别作为待识别标识的类别。
示例的,识别模型对待识别标识图像x进行特征提取,得到待识别标识的标识图像特征,并基于标识图像特征在标识检索库中检索与待识别标识图像x距离最近的样本(xk,yk),假设待识别标识图像的标识类别为k,则标识类别k可以表示为如下公式(3),特征距离可以表示为以下公式(4):
dk=‖f(x)-f(xk)‖2 #(4)
若待识别标识图像与样本标识图像的特征距离dk满足事先设定的特征距离阈值τ,(dk≤τ),则将图像x识别为第k类(也即,将特征距离最近的样本标识图像对应的类别作为待识别标识图像对应的类)。
示例的,由于大量标识图像中存在文本,且文本内容和标识名称存在强关联,若不存在与待识别标识图像之间的特征距离小于等于特征距离阈值的样本标识图像,可以通过识别标识图像对应的文本内容(例如:利用光学字符识别(OCR,Optical CharacterRecognition,)技术获取标识图像中的文本内容)确定标识图像对应的类别。还可以是基于待识别的标识图像调用识别模型进行文本检测以及文本识别,得到待识别的标识图像的文本识别结果str,将文本识别结果str与标识检索库中所有样本标识图像的标识名称进行匹配,假设待识别的标识图像与第k类标识名称namek匹配成功,则将待识别的标识图像识别为第k类。
示例的,参考图6A,图6A是本申请实施例提供的图像的识别过程的示意图。待识别的图像为广告图像604A,广告图像604A中包含文字“圣诞老人”、“松树”、“袜子”、“铃铛”以及对应的图形,以及待识别的标识图像,广告图像604A被输入检测模型601A中进行检测,得到标识图像605A,标识图像605A被输入识别模型602A,识别模型602A对标识图像605A进行特征提取,得到标识图像特征,同时对标识图像605A输入OCR系统进行文包识别,得到文本识别结果,也即标识名称(**绘本)。基于标识图像特征与标识检索库603A中的样本标识图像的标识图像特征,确定标识图像605A与每个样本标识图像之间的特征距离,当最小的特征距离小于或者等于特征距离阈值时,将最小的特征距离对应的样本标识图像所属的标识类别作为标识图像对应的类别。当最小的特征距离大于特征距离阈值时,对标识图像605A的标识名称(**绘本)与每个样本标识图像的标识名称进行匹配,将匹配到的样本标识名称所属的标识类别作为标识图像605A对应的类别,生成识别结果608A,其中,识别结果608A包括标识名称:**绘本,以及标识图像在广告图像604A中的位置信息(box:180,200,90,20,其中,“180,200”是标识图像对应的边界框所对应区域的中心点,“90,20”是标识图像的尺寸)。
在一些实施例中,获取新的样本标识图像(例如:新样本标识图像607A),并通过识别模型602A对标识图像进行特征提取,得到新的样本标识图像对应标识图像特征、标识名称。对标识图像进行标注,将标识图像的标注、标识图像特征均存储到标识检索库603A中。
在步骤606B中,推荐服务器203基于识别结果,进行广告图像推荐。第一终端设备401接收推荐的广告图像。
示例的,识别结果中包括待识别标识图像的标识名称、标识类别以及标识图像在广告图像中位置,识别结果可以作为标识图像所在的广告图像的标签信息,基于标签信息,推荐服务器203可以将广告图像与用户兴趣进行匹配,并向用户的第一终端设备401推送对应的广告图像(或者,广告图像对应的广告品牌或者视频),有利于提升推荐效果。
在一些实施例中,本申请实施例提供的图像的识别方法还可以应用在广告图像合成,参考图6C,图6C是本申请实施例提供的图像的识别方法的流程示意图。
在步骤601C中,第二终端设备402获取标识图像以及样本图像,并将标识图像和样本图像发送到训练服务器201。
示例的,第二终端设备402对应的用户是广告主,广告主通过第二终端设备402将标识图像(例如:商标),以及样本图像(例如:商标对应的商品图像)发送到训练服务器201,训练服务器201可以是广告定制平台的服务器。
在步骤602C中,训练服务器201基于样本图像以及标识图像,合成广告图像。将合成的广告图像发送到推荐服务器203。
示例的,训练服务器201调用图像分割模型对样本图像进行分割,得到样本图像中的图像背景区域,确定图像背景区域中的贴图位置,基于样本图像的尺寸对标识图像进行缩放处理,将标识图像贴图到样本图像中的贴图位置生成广告图像。
示例的,广告主在提交样本图像以及标识图像时,还可以发送对于标识图像在样本图像中的位置、透明程度对应的制作请求,训练服务器201可以基于广告主的制作请求进行广告图像生成。例如:广告主通过终端设备发送商品图像、商标图像至广告定制平台的服务器中,同时发送制作请求(包括:目标贴图位置以及透明程度70%),服务器基于商品图像的尺寸对商标图像进行缩放,并对缩放后的商标图像进行70%透明程度的透明化处理,将处理后的商标图像贴图到商品图像中的目标贴图位置,生成广告图像。
在步骤603C中,识别服务器202基于检测模型提取广告图像中的标识图像,基于识别模型与标识检索库对标识图像进行识别,得到识别结果,并将识别结果发送到推荐服务器203。
在步骤604C中,推荐服务器203向第一终端设备401进行广告图像推荐。
示例的,步骤603C的具体执行可以参考步骤605B,步骤604C的具体执行可以参考步骤606B。
在一些实施例中,本申请实施例提出的图像的识别方法还可以应用在广告审核场景,参考图6D,图6D是本申请实施例提供的图像的识别方法的流程示意图。
在步骤601D中,识别服务器202基于检测模型提取广告图像中的标识图像,基于识别模型与标识检索库对标识图像进行识别,得到识别结果。
示例的,步骤601D的具体执行可以参考步骤605B。
在步骤602D中,推荐服务器203基于识别结果,进行广告图像审核。
示例的,推荐服务器203可以是广告审核系统的服务器,推荐服务器203基于识别结果确定广告图像中标识图像的标识类别以及标识名称,审核标识名称是否符合广告的相关规定。得到的审核结果可以是,当标识名称不符合规定时,将广告图像作为违规广告图像。当广告图像符合规定时,将广告图像作为待推荐广告图像。
在步骤603D中,推荐服务器203基于审核结果,进行广告图像推荐,将推荐的广告图像发送到第一终端设备401中。
示例的,推荐服务器203对待推荐广告图像的推荐过程可以参考步骤606B。
本申请实施例减小了数据标注成本、覆盖了大量的标识图像类别、具备增量学习能力且实际泛化能力强。本申请实施例提供的图像的识别方法应用范围广,例如:对海量广告素材识别品牌标签,品牌标签可作为广告侧特征送入推荐模型提升广告推荐效果。对广告素材进行审核,能够提升广告审核效率以及准确性。
下面继续说明本申请实施例提供的图像的识别装置455的实施为软件模块的示例性结构,在一些实施例中,如图2A所示,存储在存储器440的图像的识别装置455中的软件模块可以包括:图像检测模块4551,配置为基于待识别图像调用检测模型进行标识检测处理,得到待识别图像中的待识别标识图像;图像识别模块4552,还配置为基于待识别标识图像调用识别模型进行特征提取处理,得到待识别标识图像的图像特征;图像识别模块4552,还配置为获取标识图像库中每个样本标识图像对应的图像特征,确定待识别标识图像的图像特征与每个样本标识图像的图像特征之间的特征距离;图像识别模块4552,配置为将最小的特征距离对应的样本标识图像所属的类别,作为待识别标识图像所属的类别。
在一些实施例中,图像检测模块4551,配置为基于待识别图像调用检测模型对待识别图像进行多个层次的上采样处理,得到每个层次对应的上采样特征图,其中,除最后层次之外的每个层次的上采样特征图,用于作为下一层次的上采样处理的输入;对每个上采样特征图进行特征融合处理,得到待识别图像的融合特征图;基于融合特征图对待识别图像进行边界框预测处理,得到待识别标识的边界框;基于边界框对待识别图像进行分割处理,得到待识别图像中的待识别标识图像。
在一些实施例中,图像特征包括标识图像特征;图像识别模块4552,配置为基于待识别标识图像调用识别模型进行图像语义特征提取处理,得到待识别标识图像的对应的语义特征,将语义特征由离散变量形式转换为连续向量形式,得到待识别标识图像的标识图像特征。
在一些实施例中,图像特征包括标识图像特征;图像识别模块4552,配置为获取标识图像库中每个样本标识图像对应的标识图像特征,并对每个样本标识图像对应的标识图像特征进行以下处理:对待识别标识图像的标识图像特征与样本标识图像的标识图像特征进行相减,得到标识图像特征之差;基于标识图像特征之差确定特征距离。
在一些实施例中,图像特征包括标识图像特征;图像识别模块4552,配置为当最小的特征距离小于或等于特征距离阈值时,将最小的特征距离对应的样本标识图像所属的类别,作为待识别标识图像所属的类别;当最小的特征距离大于特征距离阈值时,调用识别模型对待识别标识图像进行文本检测处理,得到待识别标识图像中的文本区域图像,对文本区域图像进行文本识别处理,得到待识别标识图像的标识名称;基于待识别标识图像的标识名称对标识图像库中的每个样本标识图像的标识名称进行匹配处理,将与待识别标识图像的标识名称匹配的目标样本标识图像作为最小的特征距离对应的样本标识图像,将目标样本标识图像所属的类别作为待识别标识图像所属的类别。
在一些实施例中,图像特征包括标识图像特征以及标识名称;图像识别模块4552,配置为将边界框的位置、待识别标识图像的标识名称以及待识别标识图像所属的类别,组合为识别结果。
在一些实施例中,图像识别模块4552,配置为调用识别模型对每个样本标识图像进行特征提取处理,得到每个样本标识图像的图像特征;基于图像特征对每个样本标识图像进行分类,得到每个样本标识图像所属的类别;将每个样本标识图像、每个样本标识图像的图像特征以及每个样本标识图像与所属类别之间的对应关系,存储在标识图像库中。
在一些实施例中,图像识别模块4552,配置为获取多个增量样本标识图像,调用识别模型对每个增量样本标识图像进行特征提取处理,得到每个增量样本标识图像对应的图像特征;基于每个增量样本标识图像对应的图像特征,确定每个增量样本标识图像所属的类别,其中,所属类别包括新类别以及已有类别;将每个增量样本标识图像、每个增量样本标识图像的图像特征以及每个增量样本标识图像与所属类别之间的对应关系,存储在标识图像库中。
在一些实施例中,图像的识别装置还包括训练模块4553,配置为调用初始化的检测模型对合成图像集合中每个合成图像进行标识检测处理,得到实际检测结果;基于实际检测结果获取初始化的检测模型的边框回归损失以及目标检测损失,基于目标检测损失以及边框回归损失训练初始化的检测模型;调用初始化的识别模型对样本标识图像集合中每个样本标识图像进行特征提取,得到每个样本标识图像的标识图像特征;基于每个标识图像特征获取初始化的识别模型的循环损失,基于循环损失训练初始化的识别模型。
在一些实施例中,训练模块4553,配置为获取待筛选的多个样本标识图像,对多个样本标识图像进行合并重复类处理,得到样本标识图像集合;获取待筛选的多个样本背景图像,删除不符合预设条件的样本背景图像,将剩余的样本背景图像组合为样本背景图像集合,其中,预设条件为样本背景图像不包括标识;基于样本标识图像集合与样本背景图像集合生成合成图像集合,其中,合成图像集合中每个合成图像包括:样本标识图像集合中的一个样本背景图像,样本背景图像集合中的至少一个样本标识图像。
在一些实施例中,训练模块4553,配置为基于每个样本标识图像的标识图像特征确定同类别的样本标识图像之间的类内相似度,以及不同类别的样本标识图像之间的类间相似度;确定每个类内相似度对应的权重以及每个类间相似度对应的权重;基于每个类间相似度、每个类间相似度对应的权重、每个类内相似度以及每个类内相似度对应的权重,确定初始化的识别模型的循环损失;基于循环损失对初始化的识别模型进行反向传播,得到初始化的识别模型对应的更新参数,将初始化的识别模型中对应的参数替换为更新参数,得到训练后的识别模型。
在一些实施例中,训练模块4553,配置为获取类内相似度中的参考类内相似度,并将参考类内相似度与每个类内相似度的差,分别作为每个类内相似度对应的权重;获取类间相似度中的参考类间相似度,并将参考类间相似度与每个类间相似度的差,分别作为每个类间相似度对应的权重。
在一些实施例中,训练模块4553,配置为基于每个样本标识图像的标识名称对每个样本标识图像进行类别预标注处理,得到每个样本标识图像对应的预标注类别;基于每两个样本标识图像之间的特征匹配程度,确定重复的样本标识图像,并将重复的样本标识图像对应的预标注类别进行合并重复类处理,将经过合并重复类处理后得到的样本标识图像组合为样本标识图像集合;训练模块4553,配置为对每个样本背景图像进行标识检测处理,得到目标样本背景图像以及对应的置信度,其中,目标样本背景图像中包括标识;删除置信度大于置信度阈值的目标样本背景图像。
在一些实施例中,训练模块4553,配置为对样本背景图像集合中每个样本背景图像进行以下处理:对样本背景图像进行前景背景分割处理,得到样本背景图像中的图像背景区域;针对每个样本背景图像的图像背景区域执行以下处理:从样本标识图像集合中获取至少一个样本标识图像,基于图像背景区域对至少一个样本标识图像与样本背景图像进行图像叠加处理,得到样本背景图像对应的合成图像;将基于每个样本背景图像得到的合成图像组合为合成图像集合。
在一些实施例中,训练模块4553,配置为基于样本背景图像的尺寸对至少一个样本标识图像进行尺寸缩放处理;基于预设概率选取尺寸缩放处理后的样本标识图像进行透明化处理;基于预设位置选择概率确定图像背景区域中的至少一个贴图位置,并根据每个贴图位置,将至少一个样本标识图像叠加到样本背景图像中,得到样本背景图像对应的合成图像,其中,每个贴图位置到样本背景图像的中心位置的距离,与每个贴图位置对应的预设位置选择概率正相关。
在一些实施例中,训练模块4553,配置为获取合成图像集合中每个合成图像对应的标注信息,将标注信息作为预期检测结果,其中,每个合成图像对应的标注信息包括:合成图像中的样本标识图像以及每个样本标识图像对应的位置;基于预期检测结果与实际检测结果,确定初始化的检测模型的目标检测损失以及边框回归损失;基于目标检测损失以及边框回归损失确定初始化的检测模型的更新参数,将初始化的检测模型中对应的参数替换为更新参数,得到训练后的检测模型。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的图像识别的方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的图像的识别方法,例如,如图3A示出的图像的识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例检测模型获取标识图像在待识别图像中的位置,通过识别模型确定标识图像的类别,将图像的识别过程从端到端拆分为两阶段模型识别,能够更好地分担大类别的分类问题的计算量,基于标识图像库中的样本标识图像与待识别的标识图像之间的特征距离确定待识别的标识图像所属的类别,提升了识别图像中标识的准确度,通过标识图像库中的样本作为参考数据,能够识别更多的类别,满足大类别图像识别的需求。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (20)
1.一种图像的识别方法,其特征在于,所述方法包括:
基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像;
基于所述待识别标识图像调用识别模型进行特征提取处理,得到所述待识别标识图像的图像特征;
获取标识图像库中每个样本标识图像对应的图像特征,确定所述待识别标识图像的图像特征与所述每个样本标识图像的图像特征之间的特征距离;
将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别。
2.如权利要求1所述的方法,其特征在于,所述基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像,包括:
基于所述待识别图像调用所述检测模型对所述待识别图像进行多个层次的上采样处理,得到每个层次对应的上采样特征图,其中,除最后层次之外的每个层次的上采样特征图,用于作为下一层次的上采样处理的输入;
对每个所述上采样特征图进行特征融合处理,得到所述待识别图像的融合特征图;
基于所述融合特征图对所述待识别图像进行边界框预测处理,得到待识别标识的边界框;
基于所述边界框对所述待识别图像进行分割处理,得到所述待识别图像中的所述待识别标识图像。
3.如权利要求1所述的方法,其特征在于,
所述图像特征包括标识图像特征;
所述基于所述待识别标识图像调用识别模型进行特征提取处理,得到所述待识别标识图像的图像特征,包括:
基于所述待识别标识图像调用所述识别模型进行图像语义特征提取处理,得到所述待识别标识图像的对应的语义特征,将所述语义特征由离散变量形式转换为连续向量形式,得到所述待识别标识图像的标识图像特征。
4.如权利要求1所述的方法,其特征在于,
所述图像特征包括标识图像特征;
所述获取标识图像库中每个样本标识图像对应的图像特征,确定所述待识别标识图像的图像特征与所述每个样本标识图像的图像特征之间的特征距离,包括:
获取所述标识图像库中每个所述样本标识图像对应的标识图像特征,并对每个所述样本标识图像对应的标识图像特征进行以下处理:
对所述待识别标识图像的标识图像特征与所述样本标识图像的标识图像特征进行相减,得到标识图像特征之差;
基于所述标识图像特征之差确定特征距离。
5.如权利要求1所述的方法,其特征在于,
所述图像特征包括标识图像特征以及标识名称;
所述将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别,包括:
当最小的所述特征距离小于或等于特征距离阈值时,将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别;
当所述最小的所述特征距离大于特征距离阈值时,调用所述识别模型对所述待识别标识图像进行文本检测处理,得到所述待识别标识图像中的文本区域图像,对所述文本区域图像进行文本识别处理,得到所述待识别标识图像的标识名称;
基于所述待识别标识图像的标识名称对所述标识图像库中的每个所述样本标识图像的标识名称进行匹配处理,将与所述待识别标识图像的标识名称匹配的目标样本标识图像作为最小的所述特征距离对应的所述样本标识图像,将所述目标样本标识图像所属的类别作为所述待识别标识图像所属的类别。
6.如权利要求2所述的方法,其特征在于,
所述图像特征包括标识图像特征以及标识名称;
所述将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别之后,所述方法还包括:
将所述边界框的位置、所述待识别标识图像的标识名称以及所述待识别标识图像所属的类别,组合为识别结果。
7.如权利要求1所述的方法,其特征在于,所述获取标识图像库中每个样本标识图像对应的图像特征之前,所述方法还包括:
调用所述识别模型对每个所述样本标识图像进行特征提取处理,得到每个所述样本标识图像的图像特征;
基于所述图像特征对每个所述样本标识图像进行分类,得到每个所述样本标识图像所属的类别;
将每个所述样本标识图像、每个所述样本标识图像的图像特征以及每个所述样本标识图像与所属类别之间的对应关系,存储在所述标识图像库中。
8.如权利要求1所述的方法,其特征在于,所述获取标识图像库中每个样本标识图像对应的图像特征之后,所述方法还包括:
获取多个增量样本标识图像,调用所述识别模型对每个所述增量样本标识图像进行特征提取处理,得到每个所述增量样本标识图像对应的图像特征;
基于每个所述增量样本标识图像对应的图像特征,确定每个所述增量样本标识图像所属的类别,其中,所述所属类别包括新类别以及已有类别;
将每个所述增量样本标识图像、每个所述增量样本标识图像的图像特征以及每个所述增量样本标识图像与所属类别之间的对应关系,存储在所述标识图像库中。
9.如权利要求1所述的方法,其特征在于,所述基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像之前,所述方法还包括:
调用初始化的所述检测模型对合成图像集合中每个合成图像进行标识检测处理,得到实际检测结果;
基于所述实际检测结果获取初始化的所述检测模型的边框回归损失以及目标检测损失,基于所述目标检测损失以及所述边框回归损失训练初始化的所述检测模型;
调用初始化的所述识别模型对所述样本标识图像集合中每个样本标识图像进行特征提取,得到每个所述样本标识图像的标识图像特征;
基于每个所述标识图像特征获取初始化的所述识别模型的循环损失,基于所述循环损失训练初始化的所述识别模型。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
获取待筛选的多个样本标识图像,对所述多个样本标识图像进行合并重复类处理,得到样本标识图像集合;
获取待筛选的多个样本背景图像,删除不符合预设条件的所述样本背景图像,将剩余的所述样本背景图像组合为样本背景图像集合,其中,所述预设条件为所述样本背景图像不包括标识;
基于所述样本标识图像集合与所述样本背景图像集合生成合成图像集合,其中,所述合成图像集合中每个合成图像包括:所述样本标识图像集合中的一个所述样本背景图像,所述样本背景图像集合中的至少一个所述样本标识图像。
11.如权利要求9所述的方法,其特征在于,所述基于每个所述标识图像特征获取初始化的所述识别模型的循环损失,基于所述循环损失训练初始化的所述识别模型,包括:
基于每个所述样本标识图像的标识图像特征确定同类别的样本标识图像之间的类内相似度,以及不同类别的样本标识图像之间的类间相似度;
确定每个所述类内相似度对应的权重以及每个所述类间相似度对应的权重;
基于每个所述类间相似度、每个所述类间相似度对应的权重、每个所述类内相似度以及每个所述类内相似度对应的权重,确定所述初始化的识别模型的循环损失;
基于所述循环损失对所述初始化的识别模型进行反向传播,得到所述初始化的识别模型对应的更新参数,将所述初始化的识别模型中对应的参数替换为所述更新参数,得到训练后的所述识别模型。
12.如权利要求11所述的方法,其特征在于,所述确定每个所述类内相似度对应的权重以及每个所述类间相似度对应的权重,包括:
获取所述类内相似度中的参考类内相似度,并将所述参考类内相似度与每个所述类内相似度的差,分别作为每个所述类内相似度对应的权重;
获取所述类间相似度中的参考类间相似度,并将所述参考类间相似度与每个所述类间相似度的差,分别作为每个所述类间相似度对应的权重。
13.如权利要求10所述的方法,其特征在于,所述对所述多个样本标识图像进行合并重复类处理,得到样本标识图像集合,包括:
基于每个所述样本标识图像的标识名称对每个所述样本标识图像进行类别预标注处理,得到每个所述样本标识图像对应的预标注类别;
基于每两个所述样本标识图像之间的特征匹配程度,确定重复的样本标识图像,并将所述重复的样本标识图像对应的预标注类别进行合并重复类处理,将经过所述合并重复类处理后得到的所述样本标识图像组合为样本标识图像集合;
所述删除不符合预设条件的所述样本背景图像,包括:
对每个所述样本背景图像进行标识检测处理,得到目标样本背景图像以及对应的置信度,其中,所述目标样本背景图像中包括标识;
删除置信度大于置信度阈值的所述目标样本背景图像。
14.如权利要求10所述的方法,其特征在于,所述基于所述样本标识图像集合与所述样本背景图像集合生成合成图像集合,包括:
对所述样本背景图像集合中每个样本背景图像进行以下处理:
对所述样本背景图像进行前景背景分割处理,得到所述样本背景图像中的图像背景区域;
针对每个所述样本背景图像的图像背景区域执行以下处理:从所述样本标识图像集合中获取至少一个样本标识图像,基于所述图像背景区域对所述至少一个样本标识图像与所述样本背景图像进行图像叠加处理,得到所述样本背景图像对应的合成图像;
将基于每个所述样本背景图像得到的所述合成图像组合为合成图像集合。
15.如权利要求14所述的方法,其特征在于,所述基于所述背景图像区域对所述至少一个样本标识图像与所述样本背景图像进行图像叠加处理,得到所述样本背景图像对应的合成图像,包括:
基于所述样本背景图像的尺寸对所述至少一个样本标识图像进行尺寸缩放处理;
基于预设概率选取尺寸缩放处理后的所述样本标识图像进行透明化处理;
基于预设位置选择概率确定所述图像背景区域中的至少一个贴图位置,并根据每个所述贴图位置,将所述至少一个样本标识图像叠加到所述样本背景图像中,得到所述样本背景图像对应的合成图像,其中,每个所述贴图位置到所述样本背景图像的中心位置的距离,与每个所述贴图位置对应的所述预设位置选择概率正相关。
16.如权利要求10所述的方法,其特征在于,所述基于所述实际检测结果获取初始化的所述检测模型的边框回归损失以及目标检测损失,基于所述目标检测损失以及所述边框回归损失训练初始化的所述检测模型,包括:
获取所述合成图像集合中每个合成图像对应的标注信息,将所述标注信息作为预期检测结果,其中,每个合成图像对应的所述标注信息包括:所述合成图像中的样本标识图像以及每个所述样本标识图像对应的位置;
基于所述预期检测结果与所述实际检测结果,确定所述初始化的检测模型的目标检测损失以及边框回归损失;
基于所述目标检测损失以及所述边框回归损失确定初始化的所述检测模型的更新参数,将初始化的所述检测模型中对应的参数替换为所述更新参数,得到训练后的所述检测模型。
17.一种图像的识别装置,其特征在于,所述装置包括:
图像检测模块,配置为基于待识别图像调用检测模型进行标识检测处理,得到所述待识别图像中的待识别标识图像;
图像识别模块,配置为基于所述待识别标识图像调用识别模型进行特征提取处理,得到所述待识别标识图像的图像特征;
所述图像识别模块,还配置为获取标识图像库中每个样本标识图像对应的图像特征,确定所述待识别标识图像的图像特征与所述每个样本标识图像的图像特征之间的特征距离;
所述图像检测模块,还配置为将最小的所述特征距离对应的所述样本标识图像所属的类别,作为所述待识别标识图像所属的类别。
18.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至16任一项所述的图像的识别方法。
19.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至16任一项所述的图像的识别方法。
20.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至16任一项所述的图像的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107087.7A CN114511741A (zh) | 2022-01-28 | 2022-01-28 | 图像的识别方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210107087.7A CN114511741A (zh) | 2022-01-28 | 2022-01-28 | 图像的识别方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511741A true CN114511741A (zh) | 2022-05-17 |
Family
ID=81552124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210107087.7A Pending CN114511741A (zh) | 2022-01-28 | 2022-01-28 | 图像的识别方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049464A (zh) * | 2022-08-05 | 2023-05-02 | 荣耀终端有限公司 | 一种图像整理方法及电子设备 |
-
2022
- 2022-01-28 CN CN202210107087.7A patent/CN114511741A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049464A (zh) * | 2022-08-05 | 2023-05-02 | 荣耀终端有限公司 | 一种图像整理方法及电子设备 |
CN116049464B (zh) * | 2022-08-05 | 2023-10-20 | 荣耀终端有限公司 | 一种图像整理方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3267362B1 (en) | Machine learning image processing | |
CN107748754B (zh) | 一种知识图谱完善方法和装置 | |
CN108629224B (zh) | 信息呈现方法和装置 | |
CN110390033B (zh) | 图像分类模型的训练方法、装置、电子设备及存储介质 | |
US20140149376A1 (en) | System for collecting interest graph by relevance search incorporating image recognition system | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN104142995B (zh) | 基于视觉属性的社会事件识别方法 | |
CN114067321B (zh) | 一种文本检测模型训练方法、装置、设备及存储介质 | |
CN114495128B (zh) | 字幕信息检测方法、装置、设备以及存储介质 | |
WO2024051609A1 (zh) | 广告创意数据选取方法及装置、模型训练方法及装置、设备、存储介质 | |
CN113762309A (zh) | 对象匹配方法、装置及设备 | |
CN113688951A (zh) | 视频数据处理方法以及装置 | |
CN114332586A (zh) | 小目标检测方法及其装置、设备、介质、产品 | |
CN115131698A (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN111639228A (zh) | 视频检索方法、装置、设备及存储介质 | |
CN113590854B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN114511741A (zh) | 图像的识别方法、装置、设备、存储介质及程序产品 | |
CN113762257A (zh) | 一种美妆品牌图像中标志的识别方法及装置 | |
CN113821663A (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN111400524A (zh) | 一种基于ai的可变尺度地质图文本矢量化方法及系统 | |
CN116975340A (zh) | 信息检索方法、装置、设备、程序产品及存储介质 | |
Abdi et al. | In-vehicle augmented reality TSR to improve driving safety and enhance the driver’s experience | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN115294594A (zh) | 文档分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40067610 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |