CN106446946B - 图像识别方法及装置 - Google Patents

图像识别方法及装置 Download PDF

Info

Publication number
CN106446946B
CN106446946B CN201610843062.8A CN201610843062A CN106446946B CN 106446946 B CN106446946 B CN 106446946B CN 201610843062 A CN201610843062 A CN 201610843062A CN 106446946 B CN106446946 B CN 106446946B
Authority
CN
China
Prior art keywords
target object
recognition
determining
input image
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610843062.8A
Other languages
English (en)
Other versions
CN106446946A (zh
Inventor
陈志军
万韶华
龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610843062.8A priority Critical patent/CN106446946B/zh
Publication of CN106446946A publication Critical patent/CN106446946A/zh
Application granted granted Critical
Publication of CN106446946B publication Critical patent/CN106446946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种图像识别方法及装置。该方法包括:根据CNN训练方法确定识别模型,识别模型用于执行至少两个识别任务,根据识别模型对输入的图像进行识别,确定输入图像中的目标物体的信息,实现了首先可以根据CNN训练方法确定出可以执行至少两个识别任务的识别模型,再根据该识别模型对输入的图像进行识别,确定目标物体的信息,相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法获得,最终的识别结果准确率更高,同时,该识别模型可以执行至少两个识别任务,识别效率更高。

Description

图像识别方法及装置
技术领域
本公开涉及机器视觉技术,尤其涉及一种图像识别方法及装置。
背景技术
随着计算机技术的发展,可以采用计算机对图像进行处理,识别出图像中的目标物体或文字,以减少人工操作、提高识别效率。
相关技术中,可以采用图像识别算法进行图像识别,例如,尺度不变特征转换(Scale-invariant feature transform;简称:SIFT)算法、二值化方法(BinariztionMethod)等算法。这些算法通过对图像进行处理,输出识别结果。
发明内容
为克服相关技术中存在的问题,本公开提供一种图像识别方法及装置。
根据本公开实施例的第一方面,提供一种图像识别方法,包括:
根据卷积神经网络训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息。
结合第一方面,在第一方面的第一种可能的实现方式中,所述根据CNN训练方法确定识别模型,包括:
对样本集进行标定,获取标定结果;
将所述样本集输入初始化的识别模型,确定识别结果;
根据所述标定结果及所述识别结果确定损失函数;
根据所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型;
将所述样本集输入所述更新后的识别模型,确定更新后的识别结果,根据所述标定结果及所述更新后的识别结果确定更新后的损失函数,重复上述步骤,直至所述更新后的损失函数收敛;
确定所述更新后的损失函数收敛时的识别模型为所述识别模型。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述根据所述标定结果及所述识别结果确定损失函数,包括:
根据公式:
Figure BDA0001119030910000021
确定所述损失函数;其中,i为所述样本集中样本的序号,i为大于1的正整数,pi、ti及gi为所述标定结果,Ncls为所述样本集中样本的个数,Lcls为分类误差,
Figure BDA0001119030910000022
Figure BDA0001119030910000023
为所述识别结果,λ1为预设的第一参数,Nreg为所述样本集中具有所述目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述根据所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型,包括:
根据所述损失函数及随机梯度下降方法确定所述初始化的识别模型中各初始参数对应的梯度值;
根据所述初始化的识别模型中的各所述初始参数的学习力及各所述初始参数对应的梯度值确定所述初始化的识别模型中各更新后的参数;
用各所述更新后的参数替换各所述初始参数获取所述更新后的识别模型。
结合第一方面,在第一方面的第四种可能的实现方式中,在确定所述输入的图像中的目标物体的信息之前,所述方法还包括:
确定所述输入的图像中是否包括所述目标物体;
当确定所述输入的图像中包括所述目标物体时,确定执行所述确定所述输入的图像中的目标物体的信息的步骤。
结合第一方面或第一方面的第一种可能的实现方式至第一方面的第四种可能的实现方式中任一种可能的实现方式,在第一方面的第五种可能的实现方式中,所述至少两个识别任务包括:识别所述目标物体为正面还是反面、识别所述目标物体在所述输入的图像中的坐标、识别所述目标物体的正面的第一子目标物体的坐标以及识别所述目标物体的反面的第二子目标物体的坐标;
所述根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息,包括:
根据所述识别模型对输入的图像进行识别,确定所述目标物体为正面还是反面,所述目标物体在所述输入的图像中的坐标,所述第一子目标物体的坐标及所述第二子目标物体的坐标。
结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述目标物体为身份证,所述第一子目标物体为人像,所述第二子目标物体为国徽。
结合第一方面的第五种可能的实现方式,在第一方面的第七种可能的实现方式中,在所述确定所述输入的图像中的目标物体的信息之后,所述方法还包括:
根据所述目标物体的信息确定识别过程是否准确。
结合第一方面的第七种可能的实现方式,在第一方面的第八种可能的实现方式中,所述根据所述目标物体的信息确定所述识别过程是否准确,包括:
若所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成,则确定所述识别过程准确;
若所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成,则确定所述识别过程准确;
若所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成,则确定所述识别过程错误;
若所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成,则确定所述识别过程错误。
根据本公开实施例的第二方面,提供一种图像识别装置,包括:
第一确定模块,被配置为根据卷积神经网络CNN训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
识别模块,被配置为根据所述第一确定模块确定的所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第一确定模块包括:
标定子模块,被配置为对样本集进行标定,获取标定结果;
第一输入子模块,被配置为将所述样本集输入初始化的识别模型,确定识别结果;
第一确定子模块,被配置为根据所述标定子模块获取的所述标定结果及所述第一输入子模块确定的所述识别结果确定损失函数;
第一更新子模块,被配置为根据所述第一确定子模块确定的所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型;
第二输入子模块,被配置为将所述样本集输入所述第一更新子模块获取的所述更新后的识别模型,确定更新后的识别结果;
第二更新子模块,被配置为根据所述标定子模块获取的所述标定结果及所述第二输入子模块确定的所述更新后的识别结果确定更新后的损失函数,重复上述步骤,直至所述更新后的损失函数收敛;
第二确定子模块,被配置为确定所述更新后的损失函数收敛时的识别模型为所述识别模型。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述第一确定子模块包括:
第一确定单元,被配置为根据公式:
Figure BDA0001119030910000041
确定所述损失函数;其中,i为所述样本集中样本的序号,i为大于1的正整数,pi、ti及gi为所述标定结果,Ncls为所述样本集中样本的个数,Lcls为分类误差,
Figure BDA0001119030910000042
Figure BDA0001119030910000043
为所述识别结果,λ1为预设的第一参数,Nreg为所述样本集中具有所述目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述第一更新子模块包括:
第二确定单元,被配置为根据所述损失函数及随机梯度下降方法确定所述初始化的识别模型中各初始参数对应的梯度值;
第三确定单元,被配置为根据所述初始化的识别模型中的各所述初始参数的学习力及所述第二确定单元确定的各所述初始参数对应的梯度值确定所述初始化的识别模型中各更新后的参数;
替换单元,被配置为用所述第三确定单元确定的各所述更新后的参数替换各所述初始参数获取所述更新后的识别模型。
结合第二方面,在第二方面的第四种可能的实现方式中,所述装置还包括:
第二确定模块,被配置为确定所述输入的图像中是否包括所述目标物体;
第三确定模块,被配置为当所述第二确定模块确定所述输入的图像中包括所述目标物体时,确定执行所述确定所述输入的图像中的目标物体的信息的步骤。
结合第二方面或第二方面的第一种可能的实现方式至第二方面的第四种可能的实现方式中任一种可能的实现方式,在第二方面的第五种可能的实现方式中,所述至少两个识别任务包括:识别所述目标物体为正面还是反面、识别所述目标物体在所述输入的图像中的坐标、识别所述目标物体的正面的第一子目标物体的坐标以及识别所述目标物体的反面的第二子目标物体的坐标;
所述识别模块包括:
识别子模块,被配置为根据所述第一确定模块确定的所述识别模型对输入的图像进行识别,确定所述目标物体为正面还是反面,所述目标物体在所述输入的图像中的坐标,所述第一子目标物体的坐标及所述第二子目标物体的坐标。
结合第二方面的第五种可能的实现方式,在第二方面的第六种可能的实现方式中,所述目标物体为身份证,所述第一子目标物体为人像,所述第二子目标物体为国徽。
结合第二方面的第五种可能的实现方式,在第二方面的第七种可能的实现方式中,所述装置还包括:
第四确定模块,被配置为根据所述识别模块确定的目标物体的信息确定识别过程是否准确。
结合第二方面的第七种可能的实现方式,在第二方面的第八种可能的实现方式中,所述第四确定模块包括:
第三确定子模块,被配置为当所述识别模块确定的所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成时,确定所述识别过程准确;
第四确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成时,确定所述识别过程准确;
第五确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成时,确定所述识别过程错误;
第六确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成时,确定所述识别过程错误。
根据本公开实施例的第三方面,提供一种图像识别装置,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据CNN训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
一个实施例中,通过根据CNN训练方法确定识别模型,识别模型用于执行至少两个识别任务,根据识别模型对输入的图像进行识别,确定输入图像中的目标物体的信息,实现了首先可以根据CNN训练方法确定出可以执行至少两个识别任务的识别模型,再根据该识别模型对输入的图像进行识别,确定目标物体的信息,相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法获得,最终的识别结果准确率更高,同时,该识别模型可以执行至少两个识别任务,识别效率更高。
另一个实施例中,通过对样本集进行标定,获取标定结果,将样本集输入初始化的识别模型,确定识别结果,根据标定结果及识别结果确定损失函数,根据损失函数及随机梯度下降方法对初始化的识别模型进行更新,获取更新后的识别模型,将样本集输入更新后的识别模型,确定更新后的识别结果,根据标定结果及更新后的识别结果确定更新后的损失函数,重复上述步骤,直至更新后的损失函数收敛,确定更新后的损失函数收敛时的识别模型为识别模型,具体限定了确定识别模型的过程,最终确定的识别模型可以执行至少两个识别任务,进一步地提高了识别效率。
另一个实施例中,通过根据目标物体的信息确定识别过程是否准确,实现了可以利用目标物体的信息对识别过程的准确定进行判定,进一步提高了识别的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种图像识别方法的流程图;
图2是根据另一示例性实施例示出的一种图像识别方法的流程图;
图3是图2所示实施例中确定识别模型过程中对样本进行标定的示意图;
图4是根据再一示例性实施例示出的一种图像识别方法的流程图;
图5是根据一示例性实施例示出的一种图像识别装置的框图;
图6是根据另一示例性实施例示出的一种图像识别装置的框图;
图7是根据再一示例性实施例示出的一种图像识别装置的框图;
图8是根据又一示例性实施例示出的一种图像识别装置的框图;
图9是根据另一示例性实施例示出的一种图像识别装置的框图;
图10是根据另一示例性实施例示出的一种图像识别装置的框图;
图11是根据另一示例性实施例示出的一种图像识别装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种图像识别方法的流程图。如图1所示,本公开实施例提供的图像识别方法包括以下步骤:
在步骤101中,根据卷积神经网络训练方法确定识别模型。
其中,该识别模型用于执行至少两个识别任务。
本公开实施例中的图像识别方法可以由具有计算能力的计算设备执行,例如,计算机、终端设备及个人数字助理等。本公开实施例中的图像识别方法是指利用计算设备对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的方法,其可以根据输入的图像,对该输入的图像进行处理、分析和理解,识别出其中的目标物体的信息。
本公开实施例提供的图像识别方法首先采用卷积神经网络(ConvolutionalNeural Network;简称:CNN)训练方法确定出识别模型。在采用CNN训练方法确定识别模型的过程中,可以采用深度学习算法中的过程,输入样本集,进行模型训练。最终确定出一个通过对海量样本进行学习、训练而获得的识别模型。CNN训练方法可以采用现有技术中的CNN训练方法,此处不再赘述。
最终确定出的识别模型,可以用于执行至少两个识别任务。也即,该识别模型可以用于执行多个识别任务。相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法确定,识别的准确率更高,同时,可以执行多个识别任务,提高了识别的效率。
在步骤102中,根据识别模型对输入的图像进行识别,确定输入的图像中的目标物体的信息。
在确定出识别模型后,即可以根据该识别模型对输入的图像中的目标物体进行识别,以确定出目标物体的信息。这里的目标物体的信息可以是目标物体在输入的图像中所处的位置、目标物体上的子目标物体的位置、目标物体的放置状态以及目标物体上的文字等信息。本公开实施例对此不做限制。
在一个具体的应用场景中,在购物网站进行实名制的过程中,用户上传了大量的图像,例如,银行卡的图像、身份证的图像以及其他证明材料的图像,现需要在用户上传的大量图像中,找出身份证,以获取用户的身份证号及身份证的有效期限。如果采用人工识别的方法,效率太低、成本太高,则可以根据该识别模型,将用户上传的图像作为该识别模型的输入的图像,由该识别模型对输入的图像进行识别,确定输入的图像中的身份证的信息。在这个场景中,输入的图像中的目标物体即为身份证。在另一个具体的应用场景中,社交网站可以对用户上传的海量图像进行标注,标注出其中的人像,则在该场景中,用户上传的图像即为该识别模型输入的图像,人像即为目标物体。
需要说明的是,识别模型在执行至少两个识别任务时是采用并行的方法执行的。由于识别模型可以执行多任务,则最终识别的目标物体的信息可以包括多个信息。
本公开实施例提供的图像识别方法,通过根据CNN训练方法确定识别模型,识别模型用于执行至少两个识别任务,根据识别模型对输入的图像进行识别,确定输入图像中的目标物体的信息,实现了首先可以根据CNN训练方法确定出可以执行至少两个识别任务的识别模型,再根据该识别模型对输入的图像进行识别,确定目标物体的信息,相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法获得,最终的识别结果准确率更高,同时,该识别模型可以执行至少两个识别任务,识别效率更高。
图2是根据另一示例性实施例示出的一种图像识别方法的流程图。本公开实施例在图1所示实施例的基础上,对根据CNN训练方法确定识别模型的过程作一详细说明。如图2所示,本公开实施例提供的图像识别方法包括如下步骤:
在步骤201中,对样本集进行标定,获取标定结果。
本公开实施例中的样本为图像。样本集由多个样本组成。在对识别模型进行训练的过程中,首先对样本集中的每个样本进行标定,获取标定结果。
由于最终确定的识别模型需要执行至少两个识别任务,所以在该识别模型的确定过程中,需要标定的参数也有至少两个。
图3是图2所示实施例中确定识别模型过程中对样本进行标定的示意图。如图3所示,图3是样本集中的一个样本。图3是一个其上有身份证的样本。此时,身份证即是目标物体。举例来说,可以对身份证的正面的人像的边界框31(bounding box)的坐标进行标定,对身份证的四个顶点坐标进行标定,对身份证的反面的国徽的边界框32的坐标进行标定,还可以对身份证的正反面进行标定,将图3中左侧的图像标定为身份证的正面,将图3中右侧的图像标定为反面。
在一种实现方式中,在对人像的边界框31和国徽的边界框32进行标定的过程中,可以采用只标定边界框中处于对角线位置的两个顶点的坐标,即标定结果为{(x1,y1),(x2,y2)},其中,(x1,y1)可以是左上角的顶点的坐标,(x2,y2)可以是右下角的顶点的坐标。当然,可以理解的是,(x1,y1)也可以是左下角的顶点的坐标,(x2,y2)可以是右上角的顶点的坐标。
在另外一种实现方式中,在对人像的边界框31和国徽的边界框32进行标定的过程中,也可以标定边界框的中心点的坐标以及边界框的长和框,即(x,y,w,h)。其中(x,y)是边界框的中心点的坐标,w是边界框的长度,h是边界框的宽度。
在步骤202中,将样本集输入初始化的识别模型,确定识别结果。
在标定结束后,将样本集中的每个样本输入初始化后的识别模型中。可以采用对识别模型的各参数随机配置的方式来初始化识别模型,可将这些随机配置的参数称为初始参数。同时,还可以配置各参数对应的学习力。学习力即为各参数在后续训练过程中的调整步长。在将样本集中的样本输入初始化的识别模型后,会输出识别结果。该识别结果即为该初始化的识别模型对该样本学习后的结果。该过程也可以称为第一次迭代的过程。
在步骤203中,根据标定结果及识别结果确定损失函数。
在第一次迭代结束后,根据标定结果和识别结果确定损失函数。损失函数表示的是标定结果和识别结果之间误差的程度以及可以减小误差的方向。
在一种具体的实现方式中,可以采用公式:
Figure BDA0001119030910000101
确定损失函数。其中,i为样本集中样本的序号,i为大于1的正整数,pi、ti及gi为标定结果,Ncls为样本集中样本的个数,Lcls为分类误差,
Figure BDA0001119030910000102
Figure BDA0001119030910000103
为识别结果,λ1为预设的第一参数,Nreg为样本集中具有目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
更具体的,请继续参照图3,pi、ti及gi可以分别是对身份证正面与反面的标定、四个顶点坐标的标定以及当是正面时对人像的边界框的标定、当是反面时对国徽的边界框的标定。
Figure BDA0001119030910000104
Figure BDA0001119030910000105
可以是识别模型对身份证正面与反面的识别结果、四个顶点坐标的识别结果、以及对人像的边界框的坐标的识别结果或国徽的边界框的识别结果。
在步骤204中,根据损失函数及随机梯度下降方法对初始化的识别模型进行更新,获取更新后的识别模型。
在步骤205中,将样本集输入更新后的识别模型,确定更新后的识别结果,根据标定结果和更新后的识别结果确定更新后的损失函数,重复上述步骤,直至更新后的损失函数收敛。
在确定出损失函数后,可以对损失函数采用随机梯度下降方法对初始化的识别模型的参数进行调整,即对初始化的识别模型进行更新,得到更新后的识别模型。在获取更新后的识别模型中,一种可选的实现方式为:首先根据损失函数及随机梯度下降方法确定初始化的识别模型中各初始参数对应的梯度值;根据初始化的识别模型中的各初始参数的学习力及各初始参数对应的梯度值确定初始化的识别模型中各更新后的参数,例如,可以采用学习力与梯度值相乘的方式,确定更新后的参数;用各更新后的参数替换各初始参数获取更新后的识别模型。
再将样本集中的每个样本输入该更新后的识别模型中,确定更新后的识别结果。再根据标定结果和更新后的识别结果确定更新后的损失函数。重复上述步骤,直至更新后的损失函数收敛。该更新的过程也可以称为迭代过程。
在步骤206中,确定更新后的损失函数收敛时的识别模型为识别模型。
经过多次迭代后,将更新后的损失函数收敛时的识别模型确定为最终的识别模型。
由于在训练的过程中,是对该识别模型能执行多任务的能力的训练,则该识别模型可以执行至少两个识别任务。
在一种具体的实现方式中,识别任务可以包括:识别目标物体为正面还是反面、识别目标物体在输入的图像中的坐标、识别目标物体的正面的第一子目标物体的坐标以及识别目标物体的反面的第二子目标物体的坐标。在图3所示实施例中,目标物体即为身份证,第一子目标物体即为人像,第二子目标物体即为国徽。
在步骤207中,根据识别模型对输入的图像进行识别,确定输入的图像中的目标物体的信息。
当识别任务为步骤206中的识别任务时,则在步骤207中,确定输入的图像中的目标物体的信息包括:确定目标物体为正面还是反面,目标物体在输入的图像中的坐标,第一子目标物体的坐标及第二子目标物体的坐标。
需要说明的是,在一种实现方式中,在确定输入的图像中的目标物体的信息之前,还包括:确定输入的图像中是否包括目标物体,当确定输入的图像中包括目标物体时,确定执行确定输入的图像中的目标物体的信息的步骤。只有在确定输入的图像中包括目标物体时,才执行确定输入的图像中的目标物体的信息的步骤,减少了对没有目标物体的输入的图像的进一步处理,进一步提高了识别效率。
本公开实施例提供的图像识别方法,通过对样本集进行标定,获取标定结果,将样本集输入初始化的识别模型,确定识别结果,根据标定结果及识别结果确定损失函数,根据损失函数及随机梯度下降方法对初始化的识别模型进行更新,获取更新后的识别模型,将样本集输入更新后的识别模型,确定更新后的识别结果,根据标定结果及更新后的识别结果确定更新后的损失函数,重复上述步骤,直至更新后的损失函数收敛,确定更新后的损失函数收敛时的识别模型为识别模型,具体限定了确定识别模型的过程,最终确定的识别模型可以执行至少两个识别任务,进一步地提高了识别效率。
图4是根据再一示例性实施例示出的一种图像识别方法的流程图。在图1和图2所示实施例的基础上,对确定输入的图像中的目标物体的信息之后的步骤作一详细说明。如图4所示,本公开实施例提供的图像识别方法包括:
在步骤401中,根据CNN训练方法确定识别模型。
其中,该识别模型用于执行至少两个识别任务。
在步骤402中,根据识别模型对输入的图像进行识别,确定输入的图像中的目标物体的信息。
可选的,目标物体的信息包括:目标物体为正面还是反面,目标物体在输入的图像中的坐标,第一子目标物体的坐标及第二子目标物体的坐标。
在步骤403中,根据目标物体的信息确定识别过程是否准确。
由于本公开实施例中的识别模型可以执行至少两个识别任务,确定出的目标物体的信息也可以是多个,则可以利用目标物体的多个信息对识别过程的准确性进行判定。
在一种具体的实现过程中:若目标物体的信息由目标物体为正面、目标物体在输入的图像中的坐标以及第一子目标物体的坐标组成,则确定识别过程准确;若目标物体的信息由目标物体为反面、目标物体在输入的图像中的坐标以及第二子目标物体的坐标组成,则确定识别过程准确;若目标物体的信息由目标物体为正面、目标物体在输入的图像中的坐标以及第二子目标物体的坐标组成,则确定识别过程错误;若目标物体的信息由目标物体为反面、目标物体在输入的图像中的坐标以及第一子目标物体的坐标组成,则确定识别过程错误。即,在目标物体的信息中,目标物体的正面与位于正面的第一子目标物体的坐标同时出现,且没有第二子目标物体的坐标时,或者,在目标物体的信息中,目标物体的反面与位于反面的第二子目标物体的坐标同时出现,且没有第一子目标物体的坐标时,确定识别过程准确。
本公开实施例提供的图像识别方法,通过根据目标物体的信息确定识别过程是否准确,实现了可以利用目标物体的信息对识别过程的准确定进行判定,进一步提高了识别的准确率。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种图像识别装置的框图。如图5所示,本公开实施例提供的图像识别装置包括:
第一确定模块51,被配置为根据CNN训练方法确定识别模型。
其中,识别模型用于执行至少两个识别任务。
识别模块52,被配置为根据第一确定模块51确定的识别模型对输入的图像进行识别,确定输入的图像中的目标物体的信息。
本公开实施例中的图像识别装置可以是具有计算能力的计算设备,例如,计算机、终端设备及个人数字助理等。本公开实施例中的图像识别装置可以对图像进行处理、分析和理解,以识别各种不同模式的目标和对像,其可以根据输入的图像,对该输入的图像进行处理、分析和理解,识别出其中的目标物体的信息。
第一确定模块51被配置为采用卷积神经网络(Convolutional Neural Network;简称:CNN)训练方法确定出识别模型。在采用CNN训练方法确定识别模型的过程中,可以采用深度学习算法中的过程,输入样本集,进行模型训练。最终确定出一个通过对海量样本进行学习、训练而获得的识别模型。CNN训练方法可以采用现有技术中的CNN训练方法,此处不再赘述。
最终确定出的识别模型,可以用于执行至少两个识别任务。也即,该识别模型可以用于执行多个识别任务。相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法确定,识别的准确率更高,同时,可以执行多个识别任务,提高了识别的效率。
在确定出识别模型后,识别模块52被配置为根据该识别模型对输入的图像中的目标物体进行识别,以确定出目标物体的信息。这里的目标物体的信息可以是目标物体在输入的图像中所处的位置、目标物体上的子目标物体的位置、目标物体的放置状态以及目标物体上的文字等信息。本公开实施例对此不做限制。
需要说明的是,识别模型在执行至少两个识别任务时是采用并行的方法执行的。由于识别模型可以执行多任务,则最终识别的目标物体的信息可以包括多个信息。
本公开实施例提供的图像识别装置,通过设置第一确定模块,被配置为根据CNN训练方法确定识别模型,识别模型用于执行至少两个识别任务,识别模块,被配置为根据识别模型对输入的图像进行识别,确定输入图像中的目标物体的信息,实现了首先可以根据CNN训练方法确定出可以执行至少两个识别任务的识别模型,再根据该识别模型对输入的图像进行识别,确定目标物体的信息,相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法获得,最终的识别结果准确率更高,同时,该识别模型可以执行至少两个识别任务,识别效率更高。
图6是根据另一示例性实施例示出的一种图像识别装置的框图。本公开实施例在图5所示实施例的基础上,对第一确定模块51的内部结构作一详细说明。如图6所示,本公开实施例提供的图像识别装置中,第一确定模块51包括:
标定子模块511,被配置为对样本集进行标定,获取标定结果。
本公开实施例中的样本为图像。样本集由多个样本组成。在对识别模型进行训练的过程中,首先设置标定子模块511,被配置为对样本集中的每个样本进行标定,获取标定结果。
由于最终确定的识别模型需要执行至少两个识别任务,所以在该识别模型的确定过程中,需要标定的参数也有至少两个。
第一输入子模块512,被配置为将样本集输入初始化的识别模型,确定识别结果。
在标定结束后,第一输入子模块512被配置为将样本集中的每个样本输入初始化后的识别模型中。可以采用对识别模型的各参数随机配置的方式来初始化识别模型,可将这些随机配置的参数称为初始参数。同时,还可以配置各参数对应的学习力。学习力即为各参数在后续训练过程中的调整步长。在将样本集中的样本输入初始化的识别模型后,会输出识别结果。该识别结果即为该初始化的识别模型对该样本学习后的结果。该过程也可以称为第一次迭代的过程。
第一确定子模块513,被配置为根据标定子模块511获取的标定结果及第一输入子模块确定的识别结果确定损失函数。
在第一次迭代结束后,第一确定子模块513被配置为根据标定结果和识别结果确定损失函数。损失函数表示的是标定结果和识别结果之间误差的程度以及可以减小误差的方向。
可选的,第一确定子模块513包括:第一确定单元5131,被配置为根据公式:
Figure BDA0001119030910000141
确定损失函数;其中,i为样本集中样本的序号,i为大于1的正整数,pi、ti及gi为标定结果,Ncls为样本集中样本的个数,Lcls为分类误差,
Figure BDA0001119030910000142
Figure BDA0001119030910000143
为识别结果,λ1为预设的第一参数,Nreg为样本集中具有目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
第一更新子模块514,被配置为根据第一确定子模块513确定的损失函数及随机梯度下降方法对初始化的识别模型进行更新,获取更新后的识别模型。
可选的,第一更新子模块514包括:第二确定单元5141,被配置为根据损失函数及随机梯度下降方法确定初始化的识别模型中各初始参数对应的梯度值;第三确定单元5142,被配置为根据初始化的识别模型中的各初始参数的学习力及第二确定单元确定的各初始参数对应的梯度值确定初始化的识别模型中各更新后的参数;替换单元5143,被配置为用第三确定单元确定的各更新后的参数替换各初始参数获取更新后的识别模型。第三确定单元5142在确定各更新后的参数时,可以采用学习力与梯度值相乘的方式,确定更新后的参数。
第二输入子模块515,被配置为将样本集输入第一更新子模块514获取的更新后的识别模型,确定更新后的识别结果。
第二更新子模块516,被配置为根据标定子模块511获取的标定结果及第二输入子模块515确定的更新后的识别结果确定更新后的损失函数,重复上述步骤,直至更新后的损失函数收敛。
第二确定子模块517,被配置为确定更新后的损失函数收敛时的识别模型为识别模型。
由于在训练的过程中,是对该识别模型能执行多任务的能力的训练,则该识别模型可以执行至少两个识别任务。
本公开实施例提供的图像识别装置,通过设置第一确定模块包括:标定子模块,被配置为对样本集进行标定,获取标定结果,第一输入子模块,被配置为将样本集输入初始化的识别模型,确定识别结果,第一确定子模块,被配置为根据所述标定结果及所述识别结果确定损失函数,第一更新子模块,被配置为根据所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型,第二输入子模块,被配置为将样本集输入所述更新后的识别模型,确定更新后的识别结果,第二更新子模块,被配置为根据标定结果及更新后的识别结果确定更新后的损失函数,重复上述步骤,直至所述更新后的损失函数收敛,第二确定子模块,被配置为确定更新后的损失函数收敛时的识别模型为识别模型,具体限定了确定识别模型的过程,最终确定的识别模型可以执行至少两个识别任务,进一步地提高了识别效率。
图7是根据再一示例性实施例示出的一种图像识别装置的框图。本公开实施例提供的图像识别装置,在图5或图6所示实施例的基础上,对该装置的其他模块作一详细说明。如图7所示,本公开实施例提供的图像识别装置还包括:
第二确定模块53,被配置为确定输入的图像中是否包括目标物体。
第三确定模块54,被配置为当第二确定模块53确定输入的图像中包括目标物体时,确定执行确定输入的图像中的目标物体的信息的步骤。
本公开实施例提供的图像识别装置,通过设置第二确定模块,被配置为确定输入的图像中是否包括目标物体,第三确定模块,被配置为当第二确定模块确定输入的图像中包括目标物体时,确定执行确定输入的图像中的目标物体的信息的步骤,只有在确定输入的图像中包括目标物体时,才执行确定输入的图像中的目标物体的信息的步骤,减少了对没有目标物体的输入的图像的进一步处理,进一步提高了识别效率。
图8是根据又一示例性实施例示出的一种图像识别装置的框图。本公开实施例提供的图像识别装置,在图5-图7所示实施例基础上,对识别模块52的内部组成作一详细说明。如图8所示,本公开实施例提供的图像识别装置中识别模块52包括:
识别子模块521,被配置为根据第一确定模块51确定的识别模型对输入的图像进行识别,确定目标物体为正面还是反面,目标物体在输入的图像中的坐标,第一子目标物体的坐标及第二子目标物体的坐标。
在本公开实施例中,至少两个识别任务包括:识别目标物体为正面还是反面、识别目标物体在输入的图像中的坐标、识别目标物体的正面的第一子目标物体的坐标以及识别目标物体的反面的第二子目标物体的坐标。可选的,目标物体可以为身份证,第一子目标物体可以为人像,第二子目标物体可以为国徽。
本公开实施例提供的图像识别装置,至少两个识别任务包括:识别目标物体为正面还是反面、识别目标物体在输入的图像中的坐标、识别目标物体的正面的第一子目标物体的坐标以及识别目标物体的反面的第二子目标物体的坐标,设置识别子模块,被配置为根据第一确定模块确定的识别模型对输入的图像进行识别,确定目标物体为正面还是反面,目标物体在输入的图像中的坐标,第一子目标物体的坐标及第二子目标物体的坐标,实现了识别模型可以执行至少两个识别任务,进一步提高了识别效率。
图9是根据另一示例性实施例示出的一种图像识别装置的框图。本公开实施例在图8所示实施例的基础上,对图像识别装置的其他模块作一详细说明。如图9所示,本公开实施例提供的图像识别装置还包括:
第四确定模块91,被配置为根据识别模块52确定的目标物体的信息确定识别过程是否准确。
由于本公开实施例中的识别模型可以执行至少两个识别任务,确定出的目标物体的信息也可以是多个,则可以利用目标物体的多个信息对识别过程的准确性进行判定。
可选的,第四确定模块91包括:第三确定子模块911,被配置为当识别模块确定的目标物体的信息由目标物体为正面、目标物体在输入的图像中的坐标以及第一子目标物体的坐标组成时,确定识别过程准确;第四确定子模块912,被配置当识别模块确定的目标物体的信息由目标物体为反面、目标物体在输入的图像中的坐标以及第二子目标物体的坐标组成时,确定识别过程准确;第五确定子模块913,被配置当识别模块确定的目标物体的信息由目标物体为正面、目标物体在输入的图像中的坐标以及第二子目标物体的坐标组成时,确定识别过程错误;第六确定子模块914,被配置当识别模块确定的目标物体的信息由目标物体为反面、目标物体在输入的图像中的坐标以及第一子目标物体的坐标组成时,确定识别过程错误。
即,在目标物体的信息中,目标物体的正面与位于正面的第一子目标物体的坐标同时出现,且没有第二子目标物体的坐标时,或者,在目标物体的信息中,目标物体的反面与位于反面的第二子目标物体的坐标同时出现,且没有第一子目标物体的坐标时,确定识别过程准确。
本公开实施例提供的图像识别装置,通过设置第四确定模块,被配置为根据目标物体的信息确定识别过程是否准确,实现了可以利用目标物体的信息对识别过程的准确定进行判定,进一步提高了识别的准确率。
以上描述了图像识别装置的内部功能和结构,图10是根据另一示例性实施例示出的一种图像识别装置的框图。如图10所示,该图像识别装置可实现为:
处理器1002;
用于存储处理器1002可执行指令的存储器1001;
其中,处理器1002被配置为:
根据卷积神经网络CNN训练方法确定识别模型;其中,识别模型用于执行至少两个识别任务;根据识别模型对输入的图像进行识别,确定输入的图像中的目标物体的信息。
本公开实施例提供的图像识别装置,通过设置处理器被配置为根据CNN训练方法确定识别模型,识别模型用于执行至少两个识别任务,根据识别模型对输入的图像进行识别,确定输入图像中的目标物体的信息,实现了首先可以根据CNN训练方法确定出可以执行至少两个识别任务的识别模型,再根据该识别模型对输入的图像进行识别,确定目标物体的信息,相较于相关技术中的图像识别算法,该识别模型经由CNN训练方法获得,最终的识别结果准确率更高,同时,该识别模型可以执行至少两个识别任务,识别效率更高。
图11是根据另一示例性实施例示出的一种图像识别装置的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图11,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由图像识别装置的处理器执行时,使得图像识别装置能够执行上述图像识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种图像识别方法,其特征在于,包括:
根据卷积神经网络CNN训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息;
在确定所述输入的图像中的目标物体的信息之前,所述方法还包括:
确定所述输入的图像中是否包括所述目标物体;当确定所述输入的图像中包括所述目标物体时,确定执行所述确定所述输入的图像中的目标物体的信息的步骤;
所述至少两个识别任务包括:识别所述目标物体为正面还是反面、识别所述目标物体在所述输入的图像中的坐标、识别所述目标物体的正面的第一子目标物体的坐标以及识别所述目标物体的反面的第二子目标物体的坐标;
所述根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息,包括:
根据所述识别模型对输入的图像进行识别,确定所述目标物体为正面还是反面,所述目标物体在所述输入的图像中的坐标,所述第一子目标物体的坐标及所述第二子目标物体的坐标;
在所述确定所述输入的图像中的目标物体的信息之后,所述方法还包括:
根据所述目标物体的信息确定识别过程是否准确。
2.根据权利要求1所述的方法,其特征在于,所述根据CNN训练方法确定识别模型,包括:
对样本集进行标定,获取标定结果;
将所述样本集输入初始化的识别模型,确定识别结果;
根据所述标定结果及所述识别结果确定损失函数;
根据所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型;
将所述样本集输入所述更新后的识别模型,确定更新后的识别结果,根据所述标定结果及所述更新后的识别结果确定更新后的损失函数,重复上述步骤,直至所述更新后的损失函数收敛;
确定所述更新后的损失函数收敛时的识别模型为所述识别模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标定结果及所述识别结果确定损失函数,包括:
根据公式:
Figure FDF0000008767880000021
确定所述损失函数;其中,i为所述样本集中样本的序号,i为大于1的正整数,pi、ti及gi为所述标定结果,Ncls为所述样本集中样本的个数,Lcls为分类误差,
Figure FDF0000008767880000022
Figure FDF0000008767880000023
为所述识别结果,λ1为预设的第一参数,Nreg为所述样本集中具有所述目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
4.根据权利要求2所述的方法,其特征在于,所述根据所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型,包括:
根据所述损失函数及随机梯度下降方法确定所述初始化的识别模型中各初始参数对应的梯度值;
根据所述初始化的识别模型中的各所述初始参数的学习力及各所述初始参数对应的梯度值确定所述初始化的识别模型中各更新后的参数;
用各所述更新后的参数替换各所述初始参数获取所述更新后的识别模型。
5.根据权利要求1所述的方法,其特征在于,所述目标物体为身份证,所述第一子目标物体为人像,所述第二子目标物体为国徽。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标物体的信息确定所述识别过程是否准确,包括:
若所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成,则确定所述识别过程准确;
若所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成,则确定所述识别过程准确;
若所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成,则确定所述识别过程错误;
若所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成,则确定所述识别过程错误。
7.一种图像识别装置,其特征在于,包括:
第一确定模块,被配置为根据卷积神经网络CNN训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
识别模块,被配置为根据所述第一确定模块确定的所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息;
所述装置还包括:
第二确定模块,被配置为确定所述输入的图像中是否包括所述目标物体;
第三确定模块,被配置为当所述第二确定模块确定所述输入的图像中包括所述目标物体时,确定执行所述确定所述输入的图像中的目标物体的信息的步骤;
所述至少两个识别任务包括:识别所述目标物体为正面还是反面、识别所述目标物体在所述输入的图像中的坐标、识别所述目标物体的正面的第一子目标物体的坐标以及识别所述目标物体的反面的第二子目标物体的坐标;
所述识别模块包括:
识别子模块,被配置为根据所述第一确定模块确定的所述识别模型对输入的图像进行识别,确定所述目标物体为正面还是反面,所述目标物体在所述输入的图像中的坐标,所述第一子目标物体的坐标及所述第二子目标物体的坐标;
所述装置还包括:
第四确定模块,被配置为根据所述识别模块确定的所述目标物体的信息确定识别过程是否准确。
8.根据权利要求7所述的装置,其特征在于,所述第一确定模块包括:
标定子模块,被配置为对样本集进行标定,获取标定结果;
第一输入子模块,被配置为将所述样本集输入初始化的识别模型,确定识别结果;
第一确定子模块,被配置为根据所述标定子模块获取的所述标定结果及所述第一输入子模块确定的所述识别结果确定损失函数;
第一更新子模块,被配置为根据所述第一确定子模块确定的所述损失函数及随机梯度下降方法对所述初始化的识别模型进行更新,获取更新后的识别模型;
第二输入子模块,被配置为将所述样本集输入所述第一更新子模块获取的所述更新后的识别模型,确定更新后的识别结果;
第二更新子模块,被配置为根据所述标定子模块获取的所述标定结果及所述第二输入子模块确定的所述更新后的识别结果确定更新后的损失函数,重复上述步骤,直至所述更新后的损失函数收敛;
第二确定子模块,被配置为确定所述更新后的损失函数收敛时的识别模型为所述识别模型。
9.根据权利要求8所述的装置,其特征在于,所述第一确定子模块包括:
第一确定单元,被配置为根据公式:
Figure FDF0000008767880000041
确定所述损失函数;其中,i为所述样本集中样本的序号,i为大于1的正整数,pi、ti及gi为所述标定结果,Ncls为所述样本集中样本的个数,Lcls为分类误差,
Figure FDF0000008767880000042
Figure FDF0000008767880000043
为所述识别结果,λ1为预设的第一参数,Nreg为所述样本集中具有所述目标物体的样本的个数,Lreg为回归误差,λ2为预设的第二参数。
10.根据权利要求8所述的装置,其特征在于,所述第一更新子模块包括:
第二确定单元,被配置为根据所述损失函数及随机梯度下降方法确定所述初始化的识别模型中各初始参数对应的梯度值;
第三确定单元,被配置为根据所述初始化的识别模型中的各所述初始参数的学习力及所述第二确定单元确定的各所述初始参数对应的梯度值确定所述初始化的识别模型中各更新后的参数;
替换单元,被配置为用所述第三确定单元确定的各所述更新后的参数替换各所述初始参数获取所述更新后的识别模型。
11.根据权利要求7所述的装置,其特征在于,所述目标物体为身份证,所述第一子目标物体为人像,所述第二子目标物体为国徽。
12.根据权利要求7所述的装置,其特征在于,所述第四确定模块包括:
第三确定子模块,被配置为当所述识别模块确定的所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成时,确定所述识别过程准确;
第四确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成时,确定所述识别过程准确;
第五确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为正面、所述目标物体在所述输入的图像中的坐标以及所述第二子目标物体的坐标组成时,确定所述识别过程错误;
第六确定子模块,被配置当所述识别模块确定的所述目标物体的信息由所述目标物体为反面、所述目标物体在所述输入的图像中的坐标以及所述第一子目标物体的坐标组成时,确定所述识别过程错误。
13.一种图像识别装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据卷积神经网络CNN训练方法确定识别模型;其中,所述识别模型用于执行至少两个识别任务;
根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息;
在确定所述输入的图像中的目标物体的信息之前,确定所述输入的图像中是否包括所述目标物体;当确定所述输入的图像中包括所述目标物体时,确定执行所述确定所述输入的图像中的目标物体的信息的步骤;
所述至少两个识别任务包括:识别所述目标物体为正面还是反面、识别所述目标物体在所述输入的图像中的坐标、识别所述目标物体的正面的第一子目标物体的坐标以及识别所述目标物体的反面的第二子目标物体的坐标;
所述根据所述识别模型对输入的图像进行识别,确定所述输入的图像中的目标物体的信息,包括:
根据所述识别模型对输入的图像进行识别,确定所述目标物体为正面还是反面,所述目标物体在所述输入的图像中的坐标,所述第一子目标物体的坐标及所述第二子目标物体的坐标;
在所述确定所述输入的图像中的目标物体的信息之后,根据所述目标物体的信息确定识别过程是否准确。
CN201610843062.8A 2016-09-22 2016-09-22 图像识别方法及装置 Active CN106446946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610843062.8A CN106446946B (zh) 2016-09-22 2016-09-22 图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610843062.8A CN106446946B (zh) 2016-09-22 2016-09-22 图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN106446946A CN106446946A (zh) 2017-02-22
CN106446946B true CN106446946B (zh) 2020-07-21

Family

ID=58166233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610843062.8A Active CN106446946B (zh) 2016-09-22 2016-09-22 图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN106446946B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934396A (zh) * 2017-03-09 2017-07-07 深圳市捷顺科技实业股份有限公司 一种车牌检索方法及系统
CN107590534B (zh) * 2017-10-17 2021-02-09 北京小米移动软件有限公司 训练深度卷积神经网络模型的方法、装置及存储介质
CN108304859B (zh) * 2017-12-29 2021-03-30 达闼科技(北京)有限公司 图像识别方法及云端系统
CN110163380B (zh) * 2018-04-28 2023-07-07 腾讯科技(深圳)有限公司 数据分析方法、模型训练方法、装置、设备及存储介质
CN109107161B (zh) * 2018-08-17 2019-12-27 深圳市腾讯网络信息技术有限公司 一种游戏对象的控制方法、装置、介质以及设备
CN109829414B (zh) * 2019-01-25 2020-11-24 华南理工大学 一种基于标签不确定性和人体组件模型的行人再识别方法
CN112270305A (zh) * 2020-11-17 2021-01-26 北京有竹居网络技术有限公司 卡片图像识别方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801528A (zh) * 2012-08-17 2012-11-28 珠海市载舟软件技术有限公司 基于智能移动通讯设备的身份验证系统及其方法
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
CN103729645A (zh) * 2013-12-20 2014-04-16 湖北微模式科技发展有限公司 基于单目摄像头的二代证区域定位与提取的方法及装置
CN104504321A (zh) * 2015-01-05 2015-04-08 湖北微模式科技发展有限公司 一种基于摄像头实现远程用户身份验证的方法与系统
CN104680130A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证汉字识别方法
CN104680161A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证数字识别方法
CN105631406A (zh) * 2015-12-18 2016-06-01 小米科技有限责任公司 图像识别处理方法和装置
CN105825191A (zh) * 2016-03-23 2016-08-03 厦门美图之家科技有限公司 基于人脸多属性信息的性别识别方法、系统及拍摄终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801528A (zh) * 2012-08-17 2012-11-28 珠海市载舟软件技术有限公司 基于智能移动通讯设备的身份验证系统及其方法
CN103488984A (zh) * 2013-10-11 2014-01-01 从兴技术有限公司 基于智能移动设备的二代身份证识别方法及装置
CN103729645A (zh) * 2013-12-20 2014-04-16 湖北微模式科技发展有限公司 基于单目摄像头的二代证区域定位与提取的方法及装置
CN104504321A (zh) * 2015-01-05 2015-04-08 湖北微模式科技发展有限公司 一种基于摄像头实现远程用户身份验证的方法与系统
CN104680130A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证汉字识别方法
CN104680161A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证数字识别方法
CN105631406A (zh) * 2015-12-18 2016-06-01 小米科技有限责任公司 图像识别处理方法和装置
CN105825191A (zh) * 2016-03-23 2016-08-03 厦门美图之家科技有限公司 基于人脸多属性信息的性别识别方法、系统及拍摄终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;Shaoqing Ren 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20150630;第39卷(第6期);摘要、第4页第3.1.2节-第6页第3.2节、图5、图7 *
Shaoqing Ren 等.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.《IEEE Transactions on Pattern Analysis and Machine Intelligence》.2015,第39卷(第6期),第1-14页. *

Also Published As

Publication number Publication date
CN106446946A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106446946B (zh) 图像识别方法及装置
CN110688951B (zh) 图像处理方法及装置、电子设备和存储介质
CN109697734B (zh) 位姿估计方法及装置、电子设备和存储介质
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN108256555B (zh) 图像内容识别方法、装置及终端
RU2577188C1 (ru) Способ, аппарат и устройство для сегментации изображения
CN109522910B (zh) 关键点检测方法及装置、电子设备和存储介质
US10007841B2 (en) Human face recognition method, apparatus and terminal
CN106845398B (zh) 人脸关键点定位方法及装置
KR20220053670A (ko) 목표 대상물 매칭 방법 및 장치, 전자 기기 및 기억 매체
CN108062547B (zh) 文字检测方法及装置
CN107944447B (zh) 图像分类方法及装置
CN106228556B (zh) 图像质量分析方法和装置
CN107527059A (zh) 文字识别方法、装置及终端
CN107563994B (zh) 图像的显著性检测方法及装置
CN106557759B (zh) 一种标志牌信息获取方法及装置
CN109635920B (zh) 神经网络优化方法及装置、电子设备和存储介质
CN106648063B (zh) 手势识别方法及装置
CN107194464B (zh) 卷积神经网络模型的训练方法及装置
CN108717542B (zh) 识别文字区域的方法、装置及计算机可读存储介质
CN107341509B (zh) 卷积神经网络的训练方法、装置及可读存储介质
US20210342632A1 (en) Image processing method and apparatus, electronic device, and storage medium
CN108009563B (zh) 图像处理方法、装置及终端
CN111435432A (zh) 网络优化方法及装置、图像处理方法及装置、存储介质
CN108154093B (zh) 人脸信息识别方法及装置、电子设备、机器可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant