CN113642481A - 识别方法、训练方法、装置、电子设备以及存储介质 - Google Patents
识别方法、训练方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN113642481A CN113642481A CN202110945952.0A CN202110945952A CN113642481A CN 113642481 A CN113642481 A CN 113642481A CN 202110945952 A CN202110945952 A CN 202110945952A CN 113642481 A CN113642481 A CN 113642481A
- Authority
- CN
- China
- Prior art keywords
- image
- heterogeneous image
- initial
- target object
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了图像识别方法、识别模型的训练方法、装置、电子设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体实现方案为:利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及基于相似度结果,确定目标对象的属性信息;其中,识别模型是利用样本异构图像训练初始识别模型后得到的。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉技术领域。具体涉及图像识别方法、识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
背景技术
随着网络上图像数据数量呈现爆炸式增长,海量的数据源以及丰富的数据层次,使得依靠人工来分析和处理这些视频数据变得越来越困难。计算机视觉技术为解放人力提供巨大潜力。计算机视觉是一门研究如何使用电子设备“看”的科学,即,利用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等的科学技术。计算机视觉技术为网络应用发展提供巨大帮助。
发明内容
本公开提供了一种图像识别方法、识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种图像识别方法,包括:利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及基于相似度结果,确定目标对象的属性信息;其中,识别模型是利用样本异构图像训练初始识别模型后得到的。
根据本公开的一方面,提供了一种识别模型的训练方法,包括:将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量;将特征向量输入至全连接层,得到针对对象的类别结果;基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求;以及将满足训练要求的初始识别模型作为识别模型;其中,样本异构图像中的对象的标签指示了样本异构图像中的对象的类别。
根据本公开的另一方面,提供了一种图像识别装置,包括:提取模块,用于利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;计算模块,用于计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及信息确定模块,用于基于相似度结果,确定目标对象的属性信息;其中,识别模型是利用样本异构图像训练初始识别模型后得到的。。
根据本公开的另一方面,提供了一种识别模型的训练装置,包括:第一输入模块,用于将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量;第二输入模块,用于将特征向量输入至全连接层,得到针对对象的类别结果;调参模块,用于基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求;以及模型确定模块,用于将满足训练要求的初始识别模型作为识别模型;其中,样本异构图像中的对象的标签指示了样本异构图像中的对象的类别。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的识别模型的训练方法以及如上所述的图像识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的识别模型的训练方法以及如上所述的图像识别方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的识别模型的训练方法以及如上所述的图像识别方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用图像识别方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的图像识别方法的流程图;
图3示意性示出了根据本公开实施例的利用检测模型执行图像检测方法的流程图;
图4示意性示出了根据本公开另一实施例的图像识别方法的流程图;
图5示意性示出了根据本公开实施例的识别模型的训练方法的流程图;
图6示意性示出了根据本公开实施例的编码器的网络架构图;
图7示意性示出了根据本公开实施例的图像识别装置的框图;
图8示意性示出了根据本公开实施例的识别模型的训练装置的框图;以及
图9示意性示出了根据本公开实施例的适于实现识别模型的训练方法或图像识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
传统识别技术主要是针对真实图像中的内容、对象进行识别,真实图像可以是通过采集现实场景中的真实对象得到的图像。而对于异构图像,即对真实对象进行模拟后得到的虚拟图像,例如动画、素描、夸张漫画、讽刺漫画等,机器识别的准确率难以得到保证。大多数异构图像中的内容是通过变形夸张的手法进行绘制的,存在扭曲、变形等现象,且风格各异,进而为机器准确识别带来了重大挑战。例如,现有漫画图像识别更多是针对正常的漫画内容、实体,没有任何夸张变形,不涉及画家的多重风格。风格单一、落地性差,进而限制了识别的应用范围。
本公开提供了图像识别方法、识别模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的实施例,图像识别方法可以包括:利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及基于相似度结果,确定目标对象的属性信息;其中,识别模型是利用样本异构图像训练初始识别模型后得到的。
根据本公开的实施例,识别模型的训练方法可以包括:将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量;将特征向量输入至全连接层,得到针对对象的类别结果;基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求;以及将满足训练要求的初始识别模型作为识别模型;其中,样本异构图像中的对象的标签指示了样本异构图像中的对象的类别。
利用本公开实施例提供的图像识别方法,能够高召回率、低误检率的进行目标对象的识别,落地性好,适用于多种图像风格。
根据本公开的实施例,可以将本公开提供的图像识别方法应用到搜索、推荐领域。例如,可以基于用户提供的待识别异构图像,为用户提供检索结果,也可以基于用户提供的搜索文字,为用户推荐图像结果。本公开实施例提供的图像识别方法可以识别不同风格的图像,为用户提供更好的使用体验。
根据本公开的示例性实施例,还可以将本公开提供的图像识别方法应用到网络图像审核筛检领域。例如,将不符合规范、不文明的图像筛检处理,维护健康文明的网络环境。本公开实施例提供的图像识别方法可以覆盖互联网图像数据中的识别盲区,深入挖掘隐藏风险,提高泛化性。
应注意的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
图1示意性示出了根据本公开实施例的可以应用图像识别方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用图像识别方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的图像识别方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的图像识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的图像识别装置一般可以设置于服务器105中。本公开实施例所提供的图像识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
例如,用户利用图像进行查询时,终端设备101、102、103可以将用户输入的待识别异构图像发送给服务器105。服务器105对待识别异构图像进行分析,确定待识别异构图像中的目标对象的特征向量;将目标对象的特征向量与模板特征向量进行相似度计算,基于相似度计算结果确定目标对象的属性信息。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待识别异构图像进行分析,并最终确定待识别异构图像中的目标对象的属性信息。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的图像识别方法的流程图。
如图2所示,该方法包括操作S210~S230。
在操作S210中,利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像,其中,识别模型是利用样本异构图像训练初始识别模型后得到的。
在操作S220中,计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果。
在操作S230中,基于相似度结果,确定目标对象的属性信息。
根据本公开的实施例,待识别异构图像的来源不做限定,可以是视频帧、图片或者其他媒介。待识别异构图像的类型不做限定,可以是动画、漫画、素描、简笔画等。
根据本公开的实施例,可以利用识别模型提取待识别异构图像中的目标对象的特征向量,进而基于目标对象的特征向量,来分析、识别目标对象。
根据本公开的实施例,目标对象的类别不做限定。可以是人物、动物、风景、建筑、物品等等,只要是能够表现实体信息的对象即可。
根据本公开的示例性实施例,目标对象可以是脸部对象,例如人脸、动物脸。目标对象可以是异构图像中的漫画脸,漫画脸可以是例如表情夸张的、五官变形的、或者丑化的类型等。
根据本公开的实施例,模板特征向量可以通过提取收集的模板对象的特征向量得到,可以为一个模板对象设计一个模板特征向量,但多数情况可以一个模板对象设计多个模板特征向量。例如,一个脸部对象,有哭、笑、严肃、温和等多个表情,每个表情可以有对应的一个特征向量。或者一个脸部对象,存在多种模拟方式,形成嘴部变形的虚拟图像、形成眼部变形的虚拟图像等,可以为每种不同的虚拟图像对应一个特征向量。在本公开的实施例中,可以构建模板特征向量集合,模板特征向量集合中包括多个模板特征向量。在计算目标对象的特征向量与模板特征向量的相似度时,可以将目标对象的特征向量与模板特征向量集合中的每个模板特征向量进行匹配,计算其相似度,得到与模板特征向量集合中每个模板特征向量对应的相似度结果。
根据本公开的实施例,模板对象的属性信息可以为预先获悉的。在本公开的实施例中,可以基于相似度结果,确定与目标对象相匹配的目标模板特征向量,进而确定目标模板特征向量的目标模板对象,而目标模板对象的属性信息是已知的,可以通过相似度结果来确定与目标对象的特征向量相似度最高的模板对象,由此可以确定目标对象的属性信息。
根据本公开的实施例,目标对象的属性信息可以是身份信息、特征信息或者其他与目标对象相关联的信息。在本公开的实施例中,身份信息可以是指用于标识身份的信息,例如物品的型号、名称等,人物的身份、职务等。在本公开的实施例中,特征信息可以是指物品的颜色信息、大小信息等、建筑的地理位置信息、动物的类别信息等。
利用本公开实施例提供的图像识别方法,只需利用识别模型提取待识别异构图像中的目标对象的特征向量,识别精度高。将提取的目标对象的特征向量与模板特征向量进行相似度匹配的方式来确定目标模板特征向量,计算简单易实现。通过相似度结果来确定与目标对象相匹配的目标模板对象,通过已知的目标模板对象的属性信息即可确定目标对象的属性信息,只要模板特征向量收集充足,即可提高覆盖性、泛化性,进而实现高召回率。
下面结合具体实施例,并参考图3~图4对例如图2所示的图像识别方法做进一步说明。
根据本公开的实施例,识别模型可以通过以下操作训练得到。
例如,将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量。将特征向量输入至全连接层,得到针对对象的类别结果。基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求,其中,样本异构图像中的对象的标签指示了样本异构图像中对象的类别。将满足训练要求的初始识别模型作为识别模型。
根据本公开的实施例,初始识别模型的网络架构不做具体限定。例如,可以是卷积神经网络架构,也可以是反向传播神经网络,但是并不局限于此,只要是本领域已知的用于提取图像的特征向量的网络模型架构即可。
根据本公开的实施例,全连接层起到分类决策的关键作用。全连接层可以包括输入层、隐藏层和输出层。全连接层可以起到整合初始识别模型中的层结构中具有类别区分性的局部信息的作用。全连接层的隐藏层的输出值可以被传递给全连接层的输出层,例如softmax层,最终得到分类结果。需要说明的是,全连接层的隐藏层的层数可以是一层,也可以是多层,可根据实际情况设置。
根据本公开的实施例,设计将初始识别模型与全连接层结合来构建训练模型,在达到训练初始识别模型的效果的基础上,使得训练速度更快、且训练简单易行。
根据本公开的实施例,待识别异构图像可以是对真实对象进行模拟后得到的虚拟图像,例如,漫画、动画、素描、简笔画等图像,待识别异构图像中的目标对象可以是指对真实对象进行虚拟的、夸张的、变形的、模拟的处理后得到的虚拟对象。
根据本公开的实施例,与待识别异构图像相对应,模板图像也可以采用异构模板图像,以便更好的贴近待识别异构图像。但是并不局限于此。模板图像还可以包括非异构模板图像,即,直接采集真实对象的图像信息得到的图像。
在本公开的实施例中,模板图像中单一模板对象的变换种类越多,其相似度的匹配越精准。
根据本公开的示例性实施例,模板图像中的模板对象的模板特征向量可以也是利用本公开实施例提供的识别模型从模板图像中的模板对象中提取得到的。但是并不局限于此。模板特征向量也可以是利用现有技术中其他已知的特征向量提取方式提取得到的。在本公开的实施例中,利用同样的方式来提取特征向量,相似度的计算基准更为准确,利于对比分析。
根据本公开的实施例,确定目标对象的特征向量与模板特征向量是否匹配,可以通过如下操作来确定。例如,在相似度结果大于或等于预设相似度阈值的情况下,确定待识别异构图像中的目标对象的属性信息与模板对象的属性信息相同。在相似度结果小于预设相似度阈值的情况下,确定待识别异构图像中目标对象的属性信息与模板对象的属性信息不同。
根据本公开的实施例,相似度的计算方式不做限定。例如,可以是欧式距离、余弦相似度、曼哈顿距离、马氏距离等不同的相似度计算方式。
根据本公开的实施例,基于相似度结果来确定与目标对象的特征向量相匹配的目标模板特征向量的匹配方式可以是,将相似度结果与预设相似度阈值进行比较,将相似度结果大于预设相似度阈值的模板特征向量作为目标模板特征向量。在本公开的实施例中,预设相似度阈值可以根据实际情况自行拟定,预设相似度阈值越高,目标对象的特征向量与模板特征向量越匹配。
根据本公开的实施例,在相似度结果大于或等于预设相似度阈值的情况下,确定待识别异构图像中的目标对象与模板对象相匹配,例如,待识别异构图像中的一建筑物或者一漫画人脸,与模板图像中的模板建筑物或者模板漫画人脸相匹配。可以确定目标对象的属性信息与模板对象的属性信息相同,例如,漫画人脸与模板人脸的身份信息相同,同属于相同的真实对象。
根据本公开的其他实施例,基于相似度结果来确定与目标对象的特征向量相匹配的目标模板特征向量的匹配方式还可以是,对相似度结果进行排序,将相似度结果最高的作为目标模板特征向量。
根据本公开的实施例,利用特征向量求取相似度的方式来确定匹配性,其处理简单、易操作。只要是模板图像中的模板对象收集的丰富,其泛化性高,能够提高对异构图像,尤其是目标对象发生变形的、丑化的异构图像的识别精度。
根据本公开的实施例,可以通过如下操作来获取待识别异构图像。
例如,识别初始异构图像中的目标对象,得到目标对象位于初始异构图像中的位置信息;基于位置信息,裁切初始异构图像,得到包含目标对象的待识别目标对象图像,以便利用识别模型提取待识别目标对象图像中的目标对象的特征向量。
根据本公开的实施例,目标对象位于初始异构图像中的位置信息,可以是目标对象的中心点的位置信息,但是并不局限于此,还可以是目标对象的外边缘的位置信息,也可以是与外边缘相切的矩形边框的位置信息,只要是能够基于位置信息,从初始异构图像中完整裁切出目标对象的位置信息即可。
根据本公开的示例性实施例,位置信息可以是与目标对象的外边缘相切的矩形边框的位置信息,可以通过矩形边框的四个顶点的坐标来定位位置信息。
根据本公开的实施例,利用识别模型提取目标对象的特征向量之前,先根据目标对象的位置信息进行裁切,能够把初始异构图像中的非目标对象裁切掉,避免在提取目标对象的特征向量时,由非目标对象的特征向量引入而造成干扰问题。
根据本公开的实施例,按照矩形边框的位置信息来裁切初始异构图像,坐标定位简单,且后续裁切易操作,简化处理。而且,将初始异构图像中的非目标对象裁切掉,降低干扰,提高目标对象的特征向量的提取精度。
根据本公开的实施例,可以通过位置检测模型来识别、检测目标对象的位置信息。位置检测模型的网络架构不做限定,只要是本领域已知的能够实现检测图像中的目标对象的位置信息的模型网络即可。
根据本公开的实施例,在获取待识别异构图像的情况下,还可以执行识别目标对象的类别信息的操作。
例如,识别待识别异构图像中的目标对象,得到目标对象的类别信息;在确定类别信息与预设类别信息匹配的情况下,执行利用识别模型提取待识别异构图像中的目标对象的特征向量的操作。在确定类别信息与预设类别信息不匹配的情况下,可以停止后续操作。
根据本公开的实施例,类别信息可以是指表示了目标对象的所属类别的信息。在本公开的实施例中,目标对象的类别信息可以是指人物类别、动物类别、风景类别、建筑类别或者物品类别等。在本公开的实施例中,目标对象的类别信息可以是指人脸类别或者非人脸类别,也可以是指非异构人脸类别或者异构人脸类别。
根据本公开的实施例,预设类别信息可以是预先设定的类别信息。可以根据实际情况自行设定。在本公开的实施例中,预设类别信息可以与模板特征向量相对应的模板对象的类别信息相一致。
根据本公开的实施例,通过将预设类别信息与模板对象的类别信息相一致,利用预设类别信息对待识别异构图像中的目标对象的类别信息进行筛检,能够保证后续目标对象与模板对象处于相同类别,进而提高相似度的匹配精度。在预设类别信息与待识别异构图像中的目标对象的类别信息不一致的情况下,可以确定目标对象与模板对象的类别信息不一致,则继续执行特征向量的提取操作、以及相似度的计算操作,会降低处理速度,且召回率不能得到保证,进而在预设类别信息与待识别异构图像中的目标对象的类别信息不一致的情况下,直接通过停止后续操作,来提高处理速度,提高使用体验。
根据本公开的实施例,可以通过类别检测模型来识别、检测目标对象的类别信息。类别检测模型的网络架构不做限定,只要是本领域已知的能够实现检测图像中的目标对象的类别信息的模型网络即可。
根据本公开的示例性实施例,可以构建检测模型,能够同时实现对图像中的对象的类别以及对象的位置进行检测。
图3示意性示出了根据本公开实施例的利用检测模型执行图像检测方法的流程图。
如图3所示,初始异构图像310中的目标对象可以是人脸。将初始异构图像310输入至检测模型320中,得到与初始异构图像310中的目标对象相对应的预测结果。预测结果包括检测框340,即目标对象的人脸的位置信息标识框。另外,预测结果还可以包括标识为漫画、类别预测分值为0.5的类别信息330。
利用本公开实施例提供的检测模型,可以同时预测得到初始异构图像中的目标对象的类别信息和位置信息,基于位置信息和类别信息对初始异构图像进行预处理,有利于提高后续提取特征向量的精确度以及属性信息识别的处理速度。
根据本公开的实施例,该检测模型可以是以卷积神经网络为架构,采用随机梯度下降的方式训练模型得到的。
根据本公开的实施例,检测模型的训练样本可以是获取的公开图像数据集。
根据本公开的示例性实施例,检测模型的正训练样本可以是夸张漫画场景的包括人脸的图像。检测模型的负训练样本可以是非漫画人物场景的包括例如建筑、动物、植物、家具等的图像。检测模型的正训练样本中的对象类别可以根据实际情况以及后续识别模型的识别类别进行设定。
根据本公开的实施例,可以通过人工标注的方式获得检测模型的训练图像的标签,标签可以包括类别标签和位置标签。例如,位置标签可以是对象例如人脸的位置信息(例如用检测框表示),类别标签可以是对象例如人脸的类别信息,例如是真实人脸、正常漫画脸、夸张漫画脸等类别信息。
根据本公开的实施例,可以利用检测模型的训练样本来训练检测模型,得到训练后的检测模型。
例如,将检测模型的训练样本输入至检测模型中,得到类别结果和位置结果。
利用检测模型的损失函数,基于类别结果与类别标签、位置结果与位置标签,生成检测模型对应的损失值。根据检测模型对应的损失值,调整检测模型的参数,直到损失函数收敛,将损失函数收敛时对应的模型作为训练后的检测模型。
根据本公开的实施例,可以对检测模型的训练样本中的图像数据进行预处理,以此提高检测模型的训练速度和准确度。
根据本公开的实施例,预处理操作可以是例如马赛克(Mosaic)、切断(Coutout)、图像随机扰动、改变亮度对比度、加噪声、随机缩放、随机裁剪、随机擦除等扩增方式。预处理操作还可以是等比例缩放、格式转换、填充、归一化处理等。
图4示意性示出了根据本公开实施例的图像识别方法的流程示意图。
如图4所示,可以将初始异构图像410输入至检测模型420中,得到对初始异构图像410中的人脸作为目标对象的位置信息430。基于该位置信息430,对初始异构图像410进行裁切处理,得到单纯包括目标对象的待识别异构图像440。将待识别异构图像440输入至识别模型450中,得到目标对象的特征向量460。将目标对象的特征向量460与模板特征向量集合470中的每个模板特征向量进行相似度计算480,得到目标对象的特征向量460与每个模板特征向量的相似度结果490。
根据本公开的实施例,将检测模型与识别模型结合对待识别异构图像进行处理,应用到以人脸作为目标对象的图像识别处理中,落地性好、覆盖率高。
根据本公开的示例性实施例,可以准确、智能的对漫画人脸甚至是表情夸张的、五官变形的、或者丑化的异构漫画人脸进行识别。解决现有技术中对异构人脸难识别的问题。
利用本公开提供的图像识别方法,利用检测模型与识别模型,将检测和识别部分相结合。实现端到端识别,输入视频或者图片实时给出是否命中夸张漫画人脸,其检测模型召回率96%以上,识别模型召回率90%以上。
图5示意性示出了根据本公开另一实施例的识别模型的训练方法的流程图。
如图5所示,该方法包括操作S510~S540。
在操作S510中,将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量。
在操作S520中,将特征向量输入至全连接层,得到针对对象的类别结果。
在操作S530中,基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求,其中,样本异构图像中的对象的标签指示了样本异构图像中的对象的类别。
在操作S540中,将满足训练要求的初始识别模型作为识别模型。
根据本公开的实施例,初始识别模型的网络架构不做具体限定。例如,可以是卷积神经网络架构,也可以是反向传播神经网络,但是并不局限于此,只要是本领域已知的用于提取图像的特征向量的网络模型架构即可。
根据本公开的实施例,全连接层起到分类决策的关键作用。全连接层可以包括输入层、隐藏层和输出层。全连接层可以起到整合初始识别模型中的层结构中具有类别区分性的局部信息的作用。全连接层的隐藏层的输出值可以被传递给全连接层的输出层,例如softmax层,最终得到分类结果。需要说明的是,全连接层的隐藏层的层数可以是一层,也可以是多层,可根据实际情况设置。
根据本公开的实施例,初始识别模型用于提取样本异构图像中的对象的特征向量,可以理解,单独利用样本异构图像和以特征向量作为标签训练初始识别模型,其标签的量化性难以实现。在本公开的实施例中,设计将初始识别模型与全连接层结合来构建训练模型,可以将样本异构图像和以类别作为标签训练初始识别模型,进而在达到训练初始识别模型的效果的基础上,使得训练速度更快、且训练简单易行。
根据本公开的实施例,训练样本可以包括正训练样本和负训练样本,同时利用正训练样本和负训练样本训练训练模型,精度更高。在本公开的实施例中,正训练样本可以是样本异构图像中包括对象的图像。负训练样本可以是样本异构图像中不包括对象的图像,或者可以是包括与对象的类别不同的图像。
根据本公开的实施例,调整负训练样本和正训练样本之间的训练样本数量比例,能够更有利于训练。例如将负训练样本和正训练样本之间的训练样本数量比例调整为2∶25,能够快速得到较好的收敛效果。
根据本公开的实施例,样本异构图像中的对象的类别不做限定。例如,可以是人物、动物、风景、建筑、物品等等,只要是能够表现实体信息的对象即可。
根据本公开的示例性实施例,样本异构图像中的对象可以是例如人脸、动物脸等脸部对象。正训练样本的样本异构图像可以是带有真实脸的图像,也可以是带有漫画脸的图像。其中,漫画脸还可以是表情夸张的、五官变形的、或者丑化的类型等。负训练样本的样本异构图像可以是不带有人脸的图像,例如仅显示风景、建筑、植物、动物的图像。
根据本公开的实施例,标签可以是指示了样本异构图像中的对象的类别,以类别作为结果使得标注简单,降低人力成本。
利用本公开实施例提供的识别模型的训练方法,将初始识别模型与全连接层相结合来训练,模型简单,训练速度快、效率高,且标签的标注简单,能够降低人力成本。
下面结合具体实施例,并参考图6对例如图5所示的训练方法做进一步说明。
根据本公开的实施例,初始识别模型的模型网络架构可以包括卷积神经网络。其中,卷积神经网络可以包括本领域已知的卷积神经网络架构,例如包括依次堆叠的卷积层和池化层。但是并不局限于此。初始识别模型的模型网络架构还可以是基于卷积神经网络与编码器融合得到的模型。例如,可以是在卷积神经网络后连接编码器,还可以是将编码器插入至卷积神经网络中,也可以是将编码器中的多个卷积层中的一个卷积层替换为编码器。
图6示意性示出了根据本公开实施例的编码器的网络架构图。
如图6所示,编码器可以是Transformer网络编码器600,依次包括Embedding(嵌入)层610、第一归一化层620、多头注意力机制层630、第一融合层640、第二归一化层650、MLP(Multilayer Perceptron,多层感知器)层660、以及融合层670。
根据本公开的实施例,可以将编码器600前端的卷积神经网络的第一模块的输出特征输入至编码器600的Embedding层610。
根据本公开的实施例,可以通过第一归一化层620对矩阵向量进行归一化,并输入至多头注意力机制层630进行注意力值加权叠加,然后利用第一融合层640对多头注意力机制层630的输出特征以及第一归一化层620的输出特征进行融合,再输入至第二归一化层650以便重新进行归一化。通过MLP层660得到MLP特征向量,将MLP特征向量与第一融合层640输出的融合特征向量利用第二融合层670进行融合,生成编码输出特征,重新作为卷积神经网络第二模块的输入特征,以便利用卷积神经网络进行后续计算处理。
利用本公开的实施例提供的初始识别模型的网络架构,可有效解决标注样本少、识别风格单一、落地性差、可迁移性差的问题,能够快速实现模型迭代。
根据本公开的实施例,利用基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求可以包括如下具体操作。
例如,将类别结果与标签输入至损失函数中,生成损失值。根据损失值,调整初始识别模型的参数和全连接层的参数,直到损失函数收敛。即,满足训练要求可以是损失函数收敛。可以将损失函数收敛时对应的模型作为训练后的模型,得到识别模型。
根据本公开的实施例,损失函数可以是分类损失函数,例如交叉熵损失函数、三元组损失函数中的一种或多种。
根据本公开的实施例,三元组损失函数L1(Tripletloss)的一种实现方式可以如下式(1)所示。输入为一个三元组<a,p,n>,其中a为锚点(anchor)。p是正样本(positive),p与a是同一类样本。n是负样本(negative),n与a是不同类别样本。margin是指空间位置上的距离,例如锚点与负样本之间的距离和锚点与正样本之间的距离相比至少远margin。
L1=max(d(a,p)-d(a,n)+margin,0); (1)
根据本公开的实施例,采用三元组损失函数,可以加快训练、优化速度。最终训练目标是使锚点a与正样本p之间的距离更短,并使锚点a与负样本n之间的距离更长。锚点a与正样本p的距离尽可能小,加上一个距离margin之后还是小于锚点a与负样本n之间的距离。用公式解释为d(a,p)+margin<d(a,n),这样可以使训练模型的训练、优化效果更好。
根据本公开的实施例,分类损失函数可以是交叉熵损失函数,一种实现方式见公式(2)。交叉熵损失函数L2是一个多分类损失函数,其中i代表具体类别,总体类别数为K,每个类别的概率为p,y为真实类别结果。
根据本公开的示例性实施例,损失函数可以包括交叉熵损失函数和三元组损失函数的结合。损失函数L3的一种实现公式为如下式(3)。
根据本公开的实施例,将交叉熵损失函数和三元组损失函数的结合作为损失函数,使损失函数收敛后的识别模型的提取特征向量的准确度更高。
根据本公开的实施例,样本异构图像作为训练样本的数量越多,模型训练的精确度越高。在训练样本数量不充足、不丰富的情况下,可以对样本异构图像的训练样本进行扩增操作。
例如,对样本异构图像进行扩增操作,得到扩增样本异构图像,以便基于样本异构图像和扩增样本异构图像训练训练模型。
根据本公开的实施例,扩增操作可以是裁剪、旋转、颜色变换、空间变换中的一种或多种操作,但是并不局限于此,还可以是马赛克、随机扰动、亮度和/或对比度的调整、加噪声、随机缩放、随机擦除中的一种或多种操作。
根据本公开的实施例,利用扩增操作可以扩增样本异构图像的训练样本的数量,提升训练的收敛速度,还能扩充训练样本的丰富度,贴近实际预测识别时的待识别异构图像,提高其鲁棒性。
根据本公开的实施例,在实际操作过程中,初始样本异构图像有可能会存在多个对象,例如背景对象等。直接利用初始样本异构图像进行训练,将导致提取到背景对象,影响最终对象的特征向量的提取效果。对初始样本异构图像进行预处理,得到样本异构图像,然后再输入至初始识别模型中,将有利于提高训练收敛速度。
根据本公开的实施例,预处理操作可以是对初始样本异构图像进行裁切、缩放以及归一化操作中的一种或多种。
根据本公开的实施例,裁切可以具体包括操作,例如,识别初始样本异构图像中的对象,得到对象的位置信息;以及基于位置信息,裁切初始样本异构图像,得到包含对象的样本异构图像。
根据本公开的实施例,可以先识别初始样本异构图像中的对象,得到对象的位置信息。根据本公开的示例性实施例,位置信息可以是与对象的外边缘相切的矩形边框的位置信息,可以通过矩形边框的四个顶点的坐标来定位位置信息。
根据本公开的实施例,先根据对象的位置信息进行裁切,能够把初始样本异构图像中的非对象部分裁切掉,避免在进行训练时,由非对象的特征向量引入而造成的干扰问题。
根据本公开的实施例,缩放操作可以具体是指,按照预设规则,将裁切后的初始异构图像统一标准的进行缩放,例如,统一缩放为224*224的RGB(red、glue、blue三通道图像)格式的图像。
根据本公开的实施例,归一化操作可以是指将有量纲的表达式,经过变化,转换为无量纲的表达式,成为纯量。
在本公开的实施例中,利用裁切、统一格式,归一化操作等预处理,可以提高训练时损失函数的收敛速度,提高识别模型的准确度。
图7示意性示出了根据本公开实施例的图像识别装置的框图。
如图7所示,图像识别装置700可以包括提取模块710、计算模块720、以及信息确定模块730。
提取模块710,用于利用识别模型提取待识别异构图像中的目标对象的特征向量,待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;其中,识别模型是利用样本异构图像训练初始识别模型后得到的。
计算模块720,用于计算目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果。
信息确定模块730,用于基于相似度结果,确定目标对象的属性信息。
根据本公开的实施例,图像识别装置还可以包括第一位置识别模块、以及第一裁切模块。
第一位置识别模块,用于识别初始异构图像中的目标对象,得到目标对象位于初始异构图像中的位置信息。
第一裁切模块,用于基于位置信息,裁切初始异构图像,得到包含目标对象的待识别异构图像。
根据本公开的实施例,图像识别装置还可以包括类别识别模块、以及类别确定模块。
类别识别模块,用于识别待识别异构图像中的目标对象,得到目标对象的类别信息。
类别确定模块,用于在确定类别信息与预设类别信息匹配的情况下,执行利用识别模型提取待识别异构图像中的目标对象的特征向量的操作。
根据本公开的实施例,图像识别装置还可以包括模板提取模块。
模板提取模块,用于利用识别模型提取模板图像中的模板对象的特征向量,得到模板特征向量。
根据本公开的实施例,模板图像包括非异构模板图像和异构模板图像。
根据本公开的实施例,信息确定模块可以包括第一确定单元、以及第二确定单元。
第一确定单元,用于在相似度结果大于或等于预设相似度阈值的情况下,确定待识别异构图像中的目标对象的属性信息与模板对象的属性信息相同。
第二确定单元,用于在相似度结果小于预设相似度阈值的情况下,确定待识别异构图像中目标对象的属性信息与模板对象的属性信息不同。
根据本公开的实施例,图像识别装置还可以包括模型训练模块。
根据本公开的实施例,模型训练模块可以包括第一输入单元、第二输入单元、第二调参单元、以及模型确定单元。
第一输入单元,用于将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量。
第二输入单元,用于将特征向量输入至全连接层,得到针对对象的类别结果。
第二调参单元,用于基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求,其中,样本异构图像中的对象的标签指示了样本异构图像中对象的类别。
模型确定单元,用于将满足训练要求的初始识别模型作为识别模型。
图8示意性示出了根据本公开实施例的识别模型的训练装置的框图。
如图8所示,识别模型的训练装置800可以包括第一输入模块810、第二输入模块820、调参模块830、以及模型确定模块840。
第一输入模块810,用于将样本异构图像输入至初始识别模型中,得到样本异构图像中的对象的特征向量。
第二输入模块820,用于将特征向量输入至全连接层,得到针对对象的类别结果。
调参模块830,用于基于类别结果和样本异构图像中的对象的标签,调整初始识别模型的参数和全连接层的参数,直到初始识别模型和全连接层满足训练要求,其中,样本异构图像中的对象的标签指示了样本异构图像中的对象的类别。
模型确定模块840,用于将满足训练要求的初始识别模型作为识别模型。
根据本公开的实施例,初始识别模型包括基于卷积神经网络与编码器融合得到的模型。
根据本公开的实施例,调参模块可以包括损失生成单元、以及调参单元。
损失生成单元,用于将类别结果与标签输入至损失函数中,生成损失值。
调参单元,用于根据损失值,调整初始识别模型的参数和全连接层的参数,直到损失函数收敛。
根据本公开的实施例,损失函数包括交叉熵损失函数和三元组损失函数的结合。
根据本公开的实施例,识别模型的训练装置还可以包括扩增模块。
扩增模块,用于对样本异构图像进行扩增操作,得到扩增样本异构图像,以便基于样本异构图像和扩增样本异构图像训练初始识别模型。
根据本公开的实施例,扩增操作包括以下至少一项:裁剪、旋转、颜色变换、空间变换。
根据本公开的实施例,识别模型的训练装置还可以包括第二位置识别模块、以及第二裁切模块。
第二位置识别模块,用于识别初始样本异构图像中的对象,得到对象位于初始样本异构图像中的位置信息。
第二裁切模块,用于基于位置信息,裁切初始样本异构图像,得到包含对象的样本异构图像。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如识别模型的训练方法或图像识别方法。例如,在一些实施例中,识别模型的训练方法或图像识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的识别模型的训练方法或图像识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行识别模型的训练方法或图像识别方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (24)
1.一种图像识别方法,包括:
利用识别模型提取待识别异构图像中的目标对象的特征向量,所述待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;
计算所述目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及
基于所述相似度结果,确定所述目标对象的属性信息;
其中,所述识别模型是利用样本异构图像训练初始识别模型后得到的。
2.根据权利要求1所述的方法,还包括:
识别初始异构图像中的所述目标对象,得到所述目标对象位于所述初始异构图像中的位置信息;以及
基于所述位置信息,裁切所述初始异构图像,得到包含所述目标对象的所述待识别异构图像。
3.根据权利要求2所述的方法,还包括:
识别所述待识别异构图像中的所述目标对象,得到所述目标对象的类别信息;以及
在确定所述类别信息与预设类别信息匹配的情况下,执行利用所述识别模型提取所述待识别异构图像中的所述目标对象的特征向量的操作。
4.根据权利要求1所述的方法,还包括:
利用所述识别模型提取模板图像中的模板对象的特征向量,得到所述模板特征向量,
其中,所述模板图像包括非异构模板图像和异构模板图像。
5.根据权利要求4所述的方法,其中,所述基于所述相似度结果,确定所述目标对象的属性信息包括:
在所述相似度结果大于或等于预设相似度阈值的情况下,确定所述待识别异构图像中的所述目标对象的属性信息与所述模板对象的属性信息相同;以及
在所述相似度结果小于所述预设相似度阈值的情况下,确定所述待识别异构图像中所述目标对象的属性信息与所述模板对象的属性信息不同。
6.根据权利要求1所述的方法,其中,所述识别模型通过以下操作训练得到:
将所述样本异构图像输入至所述初始识别模型中,得到所述样本异构图像中的对象的特征向量;
将所述特征向量输入至全连接层,得到针对所述对象的类别结果;
基于所述类别结果和所述样本异构图像中的对象的标签,调整所述初始识别模型的参数和所述全连接层的参数,直到所述初始识别模型和所述全连接层满足训练要求;以及
将满足所述训练要求的初始识别模型作为所述识别模型;
其中,所述样本异构图像中的对象的标签指示了所述样本异构图像中所述对象的类别。
7.一种识别模型的训练方法,包括:
将样本异构图像输入至初始识别模型中,得到所述样本异构图像中的对象的特征向量;
将所述特征向量输入至全连接层,得到针对所述对象的类别结果;
基于所述类别结果和所述样本异构图像中的对象的标签,调整所述初始识别模型的参数和所述全连接层的参数,直到所述初始识别模型和所述全连接层满足训练要求;以及
将满足所述训练要求的初始识别模型作为所述识别模型;
其中,所述样本异构图像中的对象的标签指示了所述样本异构图像中的所述对象的类别。
8.根据权利要求7所述的方法,其中,所述初始识别模型包括基于卷积神经网络与编码器融合得到的模型;
其中,所述基于所述类别结果和所述样本异构图像中的对象的标签,调整所述初始识别模型的参数和所述全连接层的参数,直到所述初始识别模型和所述全连接层满足训练要求包括:
将所述类别结果与所述标签输入至损失函数中,生成损失值;
根据所述损失值,调整所述初始识别模型的参数和所述全连接层的参数,直到所述损失函数收敛。
9.根据权利要求8所述的方法,其中,所述损失函数包括交叉熵损失函数和三元组损失函数的结合。
10.根据权利要求7所述的方法,还包括:
对所述样本异构图像进行扩增操作,得到扩增样本异构图像,以便基于所述样本异构图像和所述扩增样本异构图像训练所述初始识别模型。
11.根据权利要求10所述的方法,其中,所述扩增操作包括以下至少一项:
裁剪、旋转、颜色变换、空间变换。
12.根据权利要求7所述的方法,还包括:
识别初始样本异构图像中的所述对象,得到所述对象位于所述初始样本异构图像中的位置信息;以及
基于所述位置信息,裁切所述初始样本异构图像,得到包含所述对象的所述样本异构图像。
13.一种图像识别装置,包括:
提取模块,用于利用识别模型提取待识别异构图像中的目标对象的特征向量,所述待识别异构图像包括对真实对象进行模拟后得到的虚拟图像;
计算模块,用于计算所述目标对象的特征向量与模板特征向量之间的相似度,得到相似度结果;以及
信息确定模块,用于基于所述相似度结果,确定所述目标对象的属性信息;
其中,所述识别模型是利用样本异构图像训练初始识别模型后得到的。
14.根据权利要求13所述的装置,还包括:
第一位置识别模块,用于识别初始异构图像中的所述目标对象,得到所述目标对象位于所述初始异构图像中的位置信息;以及
第一裁切模块,用于基于所述位置信息,裁切所述初始异构图像,得到包含所述目标对象的所述待识别异构图像。
15.根据权利要求14所述的装置,还包括:
类别识别模块,用于识别所述待识别异构图像中的所述目标对象,得到所述目标对象的类别信息;以及
类别确定模块,用于在确定所述类别信息与预设类别信息匹配的情况下,执行利用所述识别模型提取所述待识别异构图像中的所述目标对象的特征向量的操作。
16.根据权利要求13所述的装置,还包括:
模板提取模块,用于利用所述识别模型提取模板图像中的模板对象的特征向量,得到所述模板特征向量,
其中,所述模板图像包括非异构模板图像和异构模板图像。
17.根据权利要求16所述的装置,其中,所述信息确定模块包括:
第一确定单元,用于在所述相似度结果大于或等于预设相似度阈值的情况下,确定所述待识别异构图像中的所述目标对象的属性信息与所述模板对象的属性信息相同;以及
第二确定单元,用于在所述相似度结果小于所述预设相似度阈值的情况下,确定所述待识别异构图像中所述目标对象的属性信息与所述模板对象的属性信息不同。
18.一种识别模型的训练装置,包括:
第一输入模块,用于将样本异构图像输入至初始识别模型中,得到所述样本异构图像中的对象的特征向量;
第二输入模块,用于将所述特征向量输入至全连接层,得到针对所述对象的类别结果;
调参模块,用于基于所述类别结果和所述样本异构图像中的对象的标签,调整所述初始识别模型的参数和所述全连接层的参数,直到所述初始识别模型和所述全连接层满足训练要求;以及
模型确定模块,用于将满足所述训练要求的初始识别模型作为所述识别模型;
其中,所述样本异构图像中的对象的标签指示了所述样本异构图像中的所述对象的类别。
19.根据权利要求18所述的装置,其中,所述初始识别模型包括基于卷积神经网络与编码器融合得到的模型;
其中,所述调参模块包括:
损失生成单元,用于将所述类别结果与所述标签输入至损失函数中,生成损失值;以及
调参单元,用于根据所述损失值,调整所述初始识别模型的参数和所述全连接层的参数,直到所述损失函数收敛。
20.根据权利要求18所述的装置,还包括:
扩增模块,用于对所述样本异构图像进行扩增操作,得到扩增样本异构图像,以便基于所述样本异构图像和所述扩增样本异构图像训练所述初始识别模型。
21.根据权利要求18所述的装置,还包括:
第二位置识别模块,用于识别初始样本异构图像中的所述对象,得到所述对象位于所述初始样本异构图像中的位置信息;以及
第二裁切模块,用于基于所述位置信息,裁切所述初始样本异构图像,得到包含所述对象的所述样本异构图像。
22.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的图像识别方法或者权利要求7-12中任一项所述的识别模型的训练方法。
23.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的图像识别方法或者权利要求7-12中任一项所述的识别模型的训练方法。
24.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的图像识别方法或者权利要求7-12中任一项所述的识别模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945952.0A CN113642481A (zh) | 2021-08-17 | 2021-08-17 | 识别方法、训练方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945952.0A CN113642481A (zh) | 2021-08-17 | 2021-08-17 | 识别方法、训练方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113642481A true CN113642481A (zh) | 2021-11-12 |
Family
ID=78422519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945952.0A Pending CN113642481A (zh) | 2021-08-17 | 2021-08-17 | 识别方法、训练方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642481A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595778A (zh) * | 2022-03-15 | 2022-06-07 | 北京达佳互联信息技术有限公司 | 标识图案识别方法、装置、电子设备、存储介质 |
CN115662033A (zh) * | 2022-10-18 | 2023-01-31 | 众芯汉创(北京)科技有限公司 | 一种基建工程施工围栏的动态识别监控系统 |
CN116030418A (zh) * | 2023-02-14 | 2023-04-28 | 北京建工集团有限责任公司 | 一种汽车吊运行状态监测系统及方法 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1517942A (zh) * | 2003-01-27 | 2004-08-04 | ���µ�����ҵ��ʽ���� | 图像处理方法及其装置 |
US20050286799A1 (en) * | 2004-06-23 | 2005-12-29 | Jincheng Huang | Method and apparatus for converting a photo to a caricature image |
CN102682309A (zh) * | 2011-03-14 | 2012-09-19 | 汉王科技股份有限公司 | 一种基于模板学习的人脸注册方法及装置 |
US20150103200A1 (en) * | 2013-10-16 | 2015-04-16 | Broadcom Corporation | Heterogeneous mix of sensors and calibration thereof |
CN105608450A (zh) * | 2016-03-01 | 2016-05-25 | 天津中科智能识别产业技术研究院有限公司 | 基于深度卷积神经网络的异质人脸识别方法 |
CN107633065A (zh) * | 2017-09-21 | 2018-01-26 | 天津大学 | 一种基于手绘草图的识别方法 |
CN107730445A (zh) * | 2017-10-31 | 2018-02-23 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、存储介质和电子设备 |
CN109224442A (zh) * | 2018-09-03 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 虚拟场景的数据处理方法、装置及存储介质 |
CN109359541A (zh) * | 2018-09-17 | 2019-02-19 | 南京邮电大学 | 一种基于深度迁移学习的素描人脸识别方法 |
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN110383289A (zh) * | 2019-06-06 | 2019-10-25 | 深圳市汇顶科技股份有限公司 | 人脸识别的装置、方法和电子设备 |
CN110781856A (zh) * | 2019-11-04 | 2020-02-11 | 浙江大华技术股份有限公司 | 异质人脸识别模型训练方法、人脸识别方法及相关装置 |
CN110992493A (zh) * | 2019-11-21 | 2020-04-10 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111046806A (zh) * | 2019-12-12 | 2020-04-21 | 天地伟业技术有限公司 | 异构图像人脸识别目标库生成方法 |
CN111401344A (zh) * | 2020-06-04 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 人脸识别方法和装置及人脸识别系统的训练方法和装置 |
CN111429338A (zh) * | 2020-03-18 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 用于处理视频的方法、装置、设备和计算机可读存储介质 |
CN111541943A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 视频处理方法、视频操作方法、装置、存储介质和设备 |
CN111695471A (zh) * | 2020-06-02 | 2020-09-22 | 北京百度网讯科技有限公司 | 虚拟形象生成方法、装置、设备以及存储介质 |
CN111768478A (zh) * | 2020-07-13 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种图像合成方法、装置、存储介质和电子设备 |
CN111931592A (zh) * | 2020-07-16 | 2020-11-13 | 苏州科达科技股份有限公司 | 对象识别方法、装置及存储介质 |
WO2021036059A1 (zh) * | 2019-08-29 | 2021-03-04 | 深圳云天励飞技术有限公司 | 图像转换模型训练方法、异质人脸识别方法、装置及设备 |
US20210142210A1 (en) * | 2019-11-11 | 2021-05-13 | Alibaba Group Holding Limited | Multi-task segmented learning models |
CN112819718A (zh) * | 2021-02-01 | 2021-05-18 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备及存储介质 |
CN112990432A (zh) * | 2021-03-04 | 2021-06-18 | 北京金山云网络技术有限公司 | 目标识别模型训练方法、装置及电子设备 |
-
2021
- 2021-08-17 CN CN202110945952.0A patent/CN113642481A/zh active Pending
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1517942A (zh) * | 2003-01-27 | 2004-08-04 | ���µ�����ҵ��ʽ���� | 图像处理方法及其装置 |
US20050286799A1 (en) * | 2004-06-23 | 2005-12-29 | Jincheng Huang | Method and apparatus for converting a photo to a caricature image |
CN102682309A (zh) * | 2011-03-14 | 2012-09-19 | 汉王科技股份有限公司 | 一种基于模板学习的人脸注册方法及装置 |
US20150103200A1 (en) * | 2013-10-16 | 2015-04-16 | Broadcom Corporation | Heterogeneous mix of sensors and calibration thereof |
CN105608450A (zh) * | 2016-03-01 | 2016-05-25 | 天津中科智能识别产业技术研究院有限公司 | 基于深度卷积神经网络的异质人脸识别方法 |
CN107633065A (zh) * | 2017-09-21 | 2018-01-26 | 天津大学 | 一种基于手绘草图的识别方法 |
CN107730445A (zh) * | 2017-10-31 | 2018-02-23 | 广东欧珀移动通信有限公司 | 图像处理方法、装置、存储介质和电子设备 |
WO2019128367A1 (zh) * | 2017-12-26 | 2019-07-04 | 广州广电运通金融电子股份有限公司 | 基于Triplet Loss的人脸认证方法、装置、计算机设备和存储介质 |
CN109224442A (zh) * | 2018-09-03 | 2019-01-18 | 腾讯科技(深圳)有限公司 | 虚拟场景的数据处理方法、装置及存储介质 |
CN109359541A (zh) * | 2018-09-17 | 2019-02-19 | 南京邮电大学 | 一种基于深度迁移学习的素描人脸识别方法 |
CN110383289A (zh) * | 2019-06-06 | 2019-10-25 | 深圳市汇顶科技股份有限公司 | 人脸识别的装置、方法和电子设备 |
WO2020243969A1 (zh) * | 2019-06-06 | 2020-12-10 | 深圳市汇顶科技股份有限公司 | 人脸识别的装置、方法和电子设备 |
WO2021036059A1 (zh) * | 2019-08-29 | 2021-03-04 | 深圳云天励飞技术有限公司 | 图像转换模型训练方法、异质人脸识别方法、装置及设备 |
CN110781856A (zh) * | 2019-11-04 | 2020-02-11 | 浙江大华技术股份有限公司 | 异质人脸识别模型训练方法、人脸识别方法及相关装置 |
US20210142210A1 (en) * | 2019-11-11 | 2021-05-13 | Alibaba Group Holding Limited | Multi-task segmented learning models |
CN110992493A (zh) * | 2019-11-21 | 2020-04-10 | 北京达佳互联信息技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111046806A (zh) * | 2019-12-12 | 2020-04-21 | 天地伟业技术有限公司 | 异构图像人脸识别目标库生成方法 |
CN111429338A (zh) * | 2020-03-18 | 2020-07-17 | 百度在线网络技术(北京)有限公司 | 用于处理视频的方法、装置、设备和计算机可读存储介质 |
CN111695471A (zh) * | 2020-06-02 | 2020-09-22 | 北京百度网讯科技有限公司 | 虚拟形象生成方法、装置、设备以及存储介质 |
CN111401344A (zh) * | 2020-06-04 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 人脸识别方法和装置及人脸识别系统的训练方法和装置 |
CN111541943A (zh) * | 2020-06-19 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 视频处理方法、视频操作方法、装置、存储介质和设备 |
CN111768478A (zh) * | 2020-07-13 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种图像合成方法、装置、存储介质和电子设备 |
CN111931592A (zh) * | 2020-07-16 | 2020-11-13 | 苏州科达科技股份有限公司 | 对象识别方法、装置及存储介质 |
CN112819718A (zh) * | 2021-02-01 | 2021-05-18 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备及存储介质 |
CN112990432A (zh) * | 2021-03-04 | 2021-06-18 | 北京金山云网络技术有限公司 | 目标识别模型训练方法、装置及电子设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595778A (zh) * | 2022-03-15 | 2022-06-07 | 北京达佳互联信息技术有限公司 | 标识图案识别方法、装置、电子设备、存储介质 |
CN115662033A (zh) * | 2022-10-18 | 2023-01-31 | 众芯汉创(北京)科技有限公司 | 一种基建工程施工围栏的动态识别监控系统 |
CN115662033B (zh) * | 2022-10-18 | 2023-07-07 | 众芯汉创(北京)科技有限公司 | 一种基建工程施工围栏的动态识别监控系统 |
CN116030418A (zh) * | 2023-02-14 | 2023-04-28 | 北京建工集团有限责任公司 | 一种汽车吊运行状态监测系统及方法 |
CN116030418B (zh) * | 2023-02-14 | 2023-09-12 | 北京建工集团有限责任公司 | 一种汽车吊运行状态监测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776970B2 (en) | Method and apparatus for processing video image and computer readable medium | |
US20190294860A1 (en) | Methods and apparatuses for detecting face, and electronic devices | |
CN112132197B (zh) | 模型训练、图像处理方法、装置、计算机设备和存储介质 | |
CN113642481A (zh) | 识别方法、训练方法、装置、电子设备以及存储介质 | |
CN114155543A (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
WO2023020005A1 (zh) | 神经网络模型的训练方法、图像检索方法、设备和介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN111598164A (zh) | 识别目标对象的属性的方法、装置、电子设备和存储介质 | |
CN113177449B (zh) | 人脸识别的方法、装置、计算机设备及存储介质 | |
CN113239807B (zh) | 训练票据识别模型和票据识别的方法和装置 | |
CN109740135A (zh) | 图表生成方法及装置、电子设备和存储介质 | |
CN113326773A (zh) | 识别模型训练方法、识别方法、装置、设备及存储介质 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN113793256A (zh) | 基于用户标签的动漫人物生成方法、装置、设备及介质 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN113688887A (zh) | 图像识别模型的训练与图像识别方法、装置 | |
CN114898266A (zh) | 训练方法、图像处理方法、装置、电子设备以及存储介质 | |
Chen et al. | Fresh tea sprouts detection via image enhancement and fusion SSD | |
Zeng et al. | Video‐driven state‐aware facial animation | |
CN110738261B (zh) | 图像分类和模型训练方法、装置、电子设备及存储介质 | |
CN114333038B (zh) | 对象识别模型的训练方法和对象识别方法、装置、设备 | |
CN112560848B (zh) | 兴趣点poi预训练模型的训练方法、装置及电子设备 | |
CN115082298A (zh) | 图像生成方法、装置、电子设备以及存储介质 | |
CN115116080A (zh) | 表格解析方法、装置、电子设备和存储介质 | |
CN114066790A (zh) | 图像生成模型的训练方法、图像生成方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |