CN111444908B - 图像识别方法、装置、终端和存储介质 - Google Patents

图像识别方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN111444908B
CN111444908B CN202010217627.8A CN202010217627A CN111444908B CN 111444908 B CN111444908 B CN 111444908B CN 202010217627 A CN202010217627 A CN 202010217627A CN 111444908 B CN111444908 B CN 111444908B
Authority
CN
China
Prior art keywords
image
text
text region
region
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010217627.8A
Other languages
English (en)
Other versions
CN111444908A (zh
Inventor
伍敏慧
黄华杰
林榆耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010217627.8A priority Critical patent/CN111444908B/zh
Publication of CN111444908A publication Critical patent/CN111444908A/zh
Priority to PCT/CN2021/075124 priority patent/WO2021190171A1/zh
Priority to TW110107175A priority patent/TWI808386B/zh
Priority to US17/723,279 priority patent/US20220245954A1/en
Application granted granted Critical
Publication of CN111444908B publication Critical patent/CN111444908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例公开了一种图像识别方法、装置、终端和存储介质;本发明实施例可以获取待识别图像,待识别图像为待识别证件的图像;对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像;根据文本区域图像确定目标文本的文本方向;根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。本发明可以提取待识别图像中目标文本的文本区域图像,并确定目标文本的文本方向,自动地采用该文本方向修正歪斜、颠倒的文本区域图像后,该文本区域图像可用于文本识别,从而提高文本识别准确度。由此,本方案可以提升图像识别方法的效率。

Description

图像识别方法、装置、终端和存储介质
技术领域
本发明涉及图像处理领域,具体涉及一种图像识别方法、装置、终端和存储介质。
背景技术
目前,计算机可以针对银行卡、身份证、会员卡等实体证件的目标文本进行识别,比如,用户可以使用智能手机拍摄自己的银行卡的卡面,智能手机上相应的应用程序可以识别出该银行卡卡面上所显示的卡号数字,用户无需手动输入,智能手机就可以自动地录入用户的银行卡卡号。
然而,一旦用户不能清晰、完整地从正面拍摄实体证件,或实体证件的版面不同于常见的实体证件时,则需要用户重新拍摄实体证件,否则会导致无法识别、识别错误、识别速度慢等情况,因此,目前的图像识别方法效率低下。
发明内容
本发明实施例提供一种图像识别方法、装置、终端和存储介质,可以提升图像识别方法的效率。
本发明实施例提供一种图像识别方法,包括:
获取待识别图像,所述待识别图像为待识别证件的图像;
对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像;
根据所述文本区域图像确定所述目标文本的文本方向;
根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像;
基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容。
本发明实施例还提供一种图像识别装置,包括:
获取单元,用于获取待识别图像,所述待识别图像为待识别证件的图像;
文本单元,用于对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像;
方向单元,用于根据所述文本区域图像确定所述目标文本的文本方向;
调整单元,用于根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像;
识别单元,用于基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容。
在一些实施例中,所述文本单元,包括:
图像特征子单元,用于对所述待识别图像进行图像特征提取,得到所述待识别图像的图像特征;
图像类型子单元,用于采用图像分类网络根据所述图像特征对所述待识别图像进行图像类型识别,确定所述待识别图像的图像类型;
文本区域子单元,用于当所述待识别图像的图像类型为预设证件类型时,采用区域检测网络根据所述图像特征对所述待识别图像进行文本区域分割,得到所述待识别证件所对应的目标文本的文本区域图像。
在一些实施例中,所述图像子特征单元,用于:
对待识别图像进行图像切割处理,得到图像片段组,所述图像片段组中包括多个图像片段;
采用分组卷积网络对所述图像片段组进行多尺寸特征抽取,得到多个不同尺寸的图像片段特征组,其中,每个图像特征组中的图像片段特征的尺寸相同;
基于所述不同尺寸的图像片段特征组进行特征融合处理,得到所述待识别图像的图像特征。
在一些实施例中,所述图像类型子单元,还用于:
采用图像分类网络根据所述图像特征确定所述待识别图像的证件方向;
此时,在一些实施例中,所述方向单元,用于:
根据所述文本方向和所述待识别证件的证件方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像。
在一些实施例中,所述文本区域子单元,包括:
位置特征子模块,用于采用区域检测网络根据所述图像特征确定文本区域位置特征;
位置特征点子模块,用于根据所述文本区域位置特征在所述待识别图像中确定文本区域位置特征点;
分割子模块,用于根据所述文本区域位置特征点在所述待识别图像中分割得到文本区域图像,所述文本区域图像为包含了目标文本的图像。
在一些实施例中,所述位置特征子模块,还用于:
采用区域检测网络根据所述图像特征确定文本区域图像中目标文本的方向特征;
所述根据所述文本区域图像确定所述目标文本的文本方向,包括:
采用区域检测网络根据所述文本区域图像的方向特征确定所述目标文本的文本方向。
在一些实施例中,所述区域检测网络包括多通道输出层,所述位置特征子模块在用于采用区域检测网络根据所述文本区域图像的方向特征确定所述目标文本的文本方向时,具体用于:
在所述多通道输出层中根据所述方向特征确定所述文本区域图像中每个像素的方向预测值;
对所述文本区域图像中每个像素的方向预测值进行统计,得到所述文本区域图像的全局方向值;
根据所述全局方向值确定所述目标文本的文本方向。
在一些实施例中,所述文本单元,包括:
区域片段子单元,用于对所述文本区域图像进行图像切割处理,得到文本区域图像片段;
区域片段特征子单元,用于采用分组卷积网络对所述文本区域图像片段进行特征抽取,得到文本区域图像片段特征;
文本特征子单元,用于根据所述文本区域图像片段特征确定目标文本特征;
文本识别子单元,用于采用双向循环网络基于所述目标文本特征进行文本识别,得到所述目标文本的文本内容。
在一些实施例中,所述双向循环网络包括正向层和逆向层,所述文本识别子单元,用于:
确定所述双向循环网络中的当前时刻,以及所述当前时刻的上一时刻所对应的正向隐层状态、当前时刻的下一时刻所对应的逆向隐层状态;
根据所述目标文本特征、正向层在上一时刻的正向隐层状态确定正向层在当前时刻的正向隐层状态;
根据所述目标文本特征、逆向层在下一时刻的逆向隐层状态确定逆向层在当前时刻的逆向隐层状态;
根据所述正向层在当前时刻的正向隐层状态、逆向层在当前时刻的逆向隐层状态确定文本语义向量;
根据文本语义向量确定所述目标文本的文本内容。
在一些实施例中,所述文本方向包括第一方向、第二方向、第三方向和第四方向,所述方向单元,用于:
当所述文本方向为第一方向时,将所述文本区域图像作为调整后的文本区域图像;
当所述文本方向为第二方向时,将所述文本区域图像逆时针旋转90度,得到调整后的文本区域图像;
当所述文本方向为第三方向时,将所述文本区域图像逆时针旋转180度,得到调整后的文本区域图像;
当所述文本方向为第四方向时,将所述文本区域图像逆时针旋转270度,得到调整后的文本区域图像。
在一些实施例中,所述识别单元,还用于:
获取文本区域训练样本图像和预设循环卷积网络,所述文本区域训练样本图像标注了目标文本的文本内容,所述预设循环卷积网络包括分组卷积网络、双向循环网络、连接时序分类器;
根据所述文本区域训练样本图像训练所述预设循环卷积网络,直至所述连接时序分类器判断所述预设循环卷积网络收敛,得到循环卷积网络;
在一些实施例中,所述识别单元,用于:
采用所述循环卷积网络基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容。
在一些实施例中,所述方向单元,用于:
获取训练样本图像、预设图像分类网络和预设区域检测网络,所述训练样本图像标注了证件方向和文本方向;
采用所述预设图像分类网络处理所述训练样本图像,得到证件方向训练结果;
根据所述训练样本图像和所述证件方向训练结果训练预设区域检测网络,直至所述预设区域检测网络收敛,得到区域检测网络;
采用所述区域检测网络根据所述文本区域图像确定所述目标文本的文本方向。
本发明实施例还提供一种终端,包括存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本发明实施例所提供的任一种图像识别方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种图像识别方法中的步骤。
对于识别证件照片中目标文本的文本内容,目前常用的是OCR(OpticalCharacter Recognition,光学字符识别)技术,OCR技术是一种常用的字符识别技术,可以识别将含有黑白点阵的图像中的文字,将其转换成文本格式,以供进一步编辑加工,其具体的识别方案是对证件图像中的单个字符进行图像分割,将分割出来的单字图像与字典中的文本进行对比,从而实现对这单个字符的文字识别,然而该方法的准确度低、速度慢;此外,目前还可以通过深度学习的方法来对这分割出来的单字图像进行文字识别,但该方法对证件的版式以及证件照片的拍摄角度、亮度、完整性等有较高的要求,一旦证件不能完整地位于图片中央,且垂直、正对屏幕,或证件的版式不同常规时,该方法很容易出现识别错误。
本发明实施例可以获取待识别图像,待识别图像为待识别证件的图像;对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像根据文本区域图像确定目标文本的文本方向;根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;基于调整后的文本区域图像进行文本识别,得到待识别证件的目标文本。
相比于现有的图像识别方法,本发明可以对待识别图像中所出现的待识别证件进行识别,识别出该待识别证件所对应的目标文本所在的位置区域,以及该位置区域中目标文本所处的拍摄角度方向,本发明可以在待识别图像中截取其目标文本的文本区域图像,并根据目标文本的角度方向来调整该文本区域图像,以修正文本区域图像中倾斜、颠倒的目标文本,从而便于识别待识别证件中目标文本的具体文本内容,从而提高识别准确度。
故本发明可以对不同版面的证件进行准确的识别,也可以适应不同拍摄角度的待识别图像,对于证件照片的亮度和完整性没有严格的要求,本方案识别准确率更高;由此,本方案提升了图像识别方法的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的图像识别方法的场景示意图;
图1b是本发明实施例提供的图像识别方法的第一种流程示意图;
图1c是本发明实施例提供的图像识别方法的EAST网络结构示意图;
图1d是本发明实施例提供的图像识别方法中不同版面证件的证件方向和文本方向示意图;
图2a是本发明实施例提供的图像识别方法的第二种流程示意图;
图2b是本发明实施例提供的图像识别方法的EAST网络训练流程示意图;
图2c是本发明实施例提供的图像识别方法的训练样本的标注示意图;
图3是本发明实施例提供的图像识别装置的第一种结构示意图;
图4是本发明实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像识别方法、装置、终端和存储介质。
其中,该图像识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
例如,参考图1a,该电子设备可以是智能手机,该智能手机可以通过摄像头拍摄待识别图像,该待识别图像可以是待识别的银行卡照片;智能手机可以对银行卡照片进行文本区域识别,得到该银行卡卡号的文本区域图像,并根据文本区域图像确定银行卡卡号的文本方向,然后根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像,最后基于调整后的文本区域图像进行文本识别,得到银行卡卡号的具体卡号数字内容。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
其中,计算机视觉(Computer Vision,CV)是利用计算机代替人眼对待识别图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建等技术,比如,图像着色、图像描边提取等图像处理技术。
在本实施例中,提供了一种基于人工智能的图像识别方法,采用了CV技术,如图1b所示,该图像识别方法的具体流程可以如下:
101、获取待识别图像,待识别图像为待识别证件的图像。
待识别图像是指包含了等待被识别的证件的图像,该证件可以为银行卡、身份证、签证、会员卡,等等。
获取待识别图像的方式具有多种,比如,可以通过图像识别装置搭载的摄像头等传感器拍摄待识别证件,从而获取待识别图像;也可以通过网络从图像数据库中获取;还可以从本地内存中读取得到,等等。
102、对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像。
目标文本是指待识别证件中特定的文本,比如,目标文本可以是待识别证件中的证件编号文本、证件名称文本、证件持有者姓名文本,等等。
其中,文本区域图像是指该目标文本在待识别图像中所出现的区域的图像。
比如,参考图1a,待识别图像为用户拍摄的银行卡照片,待识别证件是银行卡,目标文本是银行卡卡号,在步骤102中可以对银行卡照片进行文本区域识别,得到该银行卡卡号在该银行卡照片中的文本区域图像。
需要注意的是,文本区域图像可以为多种几何形状,比如,三角型、菱形、矩形、圆形,等等;例如,如图1a,文本区域图像可以是一个不规则的四边形。
在一些实施例中,为了降低计算量、提高识别效率,在进行文本区域分割之前,可以检测待识别图像中是否存在待识别证件,比如,步骤102可以包括如下步骤:
(1)对待识别图像进行图像特征提取,得到待识别图像的图像特征;
(2)采用图像分类网络根据图像特征对待识别图像进行图像类型识别,确定待识别图像的图像类型;
(3)当待识别图像的图像类型为预设证件类型时,采用区域检测网络根据图像特征对待识别图像进行文本区域分割,得到待识别证件所对应的目标文本的文本区域图像。
在本实施例中,可以采用任意一种图像特征提取网络来对待识别图像进行图像特征提取,比如,可以采用多种卷积神经网络模型,如LeNet、VGG、AlexNet、Unet、GoogleNet、RCNN,等等。
得到的图像特征可以为特征向量,也可以为特征矩阵、特征图,等等。
在本实施例中,图像分类网络和区域检测网络可以为任意卷积神经网络模型。
待识别图像的图像类型可以包括预设证件类型、无法识别类型、其他图像内容类型,等等。比如,当对银行卡照片进行图像类型识别时,可以识别出该照片的图像类型为银行卡类型,当预设证件类型为身份证类型,该照片不是身份证类型时,在本实施例中则不需要对该照片进行进一步的处理,故提高了图像识别效率。
在一些实施例中,可以采用RCNN模型执行步骤102,比如,采用EAST(AnEfficientand Accurate Scene Text Detector)模型执行步骤102,其中,参考图1c,该EAST模型中可以包括特征提取层、特征融合层和输出层,在输出层中可以包括多个通道,比如,输出层可以包括图像分类通道和区域检测通道,该图像分类通道可以为任意一种图像分类网络,该区域检测通道可以为任意一种区域检测网络。
特征提取网络可以为EAST模型的特征提取层和特征融合层,EAST模型的特征提取层和特征融合层为一种Unet网络,可以对特征进行多尺度的识别,并对识别出的多尺度的特征进行进一步的拼接、融合。
在一些实施例中,为了降低计算量、提高特征提取效率,可以在EAST模型中采用高效的轻量级网络来作为图像特征提取网络,执行步骤“对待识别图像进行图像特征提取,得到待识别图像的图像特征”时可以包括如下步骤:
A.对待识别图像进行图像切割处理,得到图像片段组,图像片段组中可以包括多个图像片段;
B.采用分组卷积网络对图像片段组进行多尺寸特征抽取,得到多个不同尺寸的图像片段特征组,其中,每个图像特征组中的图像片段特征的尺寸相同;
C.基于不同尺寸的图像片段特征组进行特征融合处理,得到待识别图像的图像特征。
其中,轻量级网络可以为任意一种分组卷积网络,如Shufflenet、Mobilenet等,来对待识别图像进行图像特征提取,得到待识别图像的图像特征。
其中,分组卷积网络是由多个分组卷积(Group Convolution)组成的,分组卷积可以将不同特征图进行分组,然后采用不同的卷积核对各组的特征图进行卷积;相比于一般全通道卷积的通道密集连接方式(Channel Dense Connection),分组卷积网络作为一种通道稀疏连接方式(Channel Sparse Connection)可以有效地提高卷积速度,从而降低计算量。
在一些实施例中,EAST网络的输出层中除了包括图像分类通道和区域检测通道,还可以包括证件方向通道,在该通道中可以识别待识别图像的证件方向,该证件方向是指在待识别图像中该待识别证件的正面方向,比如,参考图1d,照片A中银行卡的证件方向为0°,照片B中银行卡的证件方向为170°
由于如图1d中照片B所示的银行卡,某些证件的版面非常规,其证件方向与文本方向不同,仅仅采用该证件方向来对文本区域图像进行方向调整可能会造成误判,故采用该证件方向和文本方向同时来对文本区域图像进行方向调整,可以有效降低误判率,故在步骤102的步骤“采用图像分类网络根据图像特征对待识别图像进行图像类型识别,确定待识别图像的图像类型”之后,还可以采用图像分类网络根据图像特征确定待识别图像的证件方向;在步骤103即可采用该证件方向和文本方向同时来对文本区域图像进行方向调整。
在一些实施例中,步骤“采用区域检测网络根据图像特征对待识别图像进行文本区域分割,得到待识别证件所对应的目标文本的文本区域图像”可以包括如下步骤:
采用区域检测网络根据图像特征确定文本区域位置特征;
根据文本区域位置特征在待识别图像中确定文本区域位置特征点;
根据文本区域位置特征点在待识别图像中分割得到文本区域图像,文本区域图像为包含了目标文本的图像。
其中,文本区域位置特征点可以以坐标的形式表现,比如,文本区域为四边形时,文本区域位置特征点为(0,0)、(0,4)、(2,0)、(2,4),则该文本区域为4*2大小的矩形区域。
可以在待识别图像中切割该文本区域位置特征点所对应的文本区域,从而得到文本区域图像。
在一些实施例中,在一些实施例中,在EAST网络的输出层的区域检测通道中可以识别待识别图像中目标文本的文本方向,该文本方向是指在待识别图像中该目标文本的正面方向,比如,参考图1d,照片A中银行卡的证件方向为0°,照片B中银行卡的证件方向为260°。
在一些实施例中,为了提高识别文本方向的准确率,区域检测网络可以包括多通道输出层,步骤“采用区域检测网络根据文本区域图像的方向特征确定目标文本的文本方向”可以包括如下步骤:
在多通道输出层中根据方向特征确定文本区域图像中每个像素的方向预测值;
对文本区域图像中每个像素的方向预测值进行统计,得到文本区域图像的全局方向值;
根据全局方向值确定目标文本的文本方向。
在本实施例中,可以预测文本区域图像中每个像素点的方向,统计每个像素点的方向来确定文本区域图像的全局方向值,根据全局方向值即可确定目标文本的文本方向。
比如,文本区域图像的全局方向值为266,则可确定目标文本的文本方向为正时针266°。
103、根据文本区域图像确定目标文本的文本方向。
在一些实施例中,在步骤102中,可以在执行步骤“采用图像分类网络根据图像特征对待识别图像进行图像类型识别,确定待识别图像的图像类型”之后,采用图像分类网络根据图像特征确定待识别图像的证件方向,此时,可以根据文本方向和待识别证件的证件方向对文本区域图像进行方向调整,得到调整后的文本区域图像。
由于如图1d中照片B所示的银行卡,某些证件的版面非常规,其证件方向与文本方向不同,仅仅采用该证件方向来对文本区域图像进行方向调整可能会造成误判,故采用该证件方向和文本方向同时来对文本区域图像进行方向调整,可以有效降低误判率,故在步骤102的步骤“采用图像分类网络根据图像特征对待识别图像进行图像类型识别,确定待识别图像的图像类型”之后,还可以采用图像分类网络根据图像特征确定待识别图像的证件方向;在步骤103即可采用该证件方向和文本方向同时来对文本区域图像进行方向调整。
在一些实施例中,由于证件的版式不同,文本方向和证件方向可能不是同一方向,故可以采用证件方向来辅助训练区域检测网络,从而提高区域检测网络识别文本方向的准确度,步骤103可以包括如下步骤:
获取训练样本图像、预设图像分类网络和预设区域检测网络,训练样本图像标注了证件方向和文本方向;
采用预设图像分类网络处理训练样本图像,得到证件方向训练结果;
根据训练样本图像和证件方向训练结果训练预设区域检测网络,直至预设区域检测网络收敛,得到区域检测网络;
采用区域检测网络根据文本区域图像确定目标文本的文本方向。
104、根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像。
在一些实施例中,为了降低计算量、提高方向调整的效率,在步骤103识别出的文本方向可以包括第一方向、第二方向、第三方向和第四方向,其中,第一方向是指待识别图像的正方向,第二方向是指待识别图像的正方向的正时针90度,第三方向是指待识别图像的正方向的正时针180度,第四方向是指待识别图像的正方向的正时针270度,步骤“根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像”可以包括如下步骤:
当文本方向为第一方向时,将文本区域图像作为调整后的文本区域图像;
当文本方向为第二方向时,将文本区域图像逆时针旋转90度,得到调整后的文本区域图像;
当文本方向为第三方向时,将文本区域图像逆时针旋转180度,得到调整后的文本区域图像;
当文本方向为第四方向时,将文本区域图像逆时针旋转270度,得到调整后的文本区域图像。
在另一些实施例中,为了提高调整精度,在步骤103识别出的文本方向可以包括多个不同的方向,比如,待识别图像的正方向的正时针1度、待识别图像的正方向的正时针2度、待识别图像的正方向的正时针3度、待识别图像的正方向的正时针4度...,等等,此时,方向调整的方法与上述方法类似,反方向旋转相同度数即可。
105、基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
在一些实施例中,为了提高文本内容识别的准确性,可以采用任意一种卷积循环神经网络网络来执行步骤105。
其中,卷积循环神经网络可以包括卷积层、循环层和转录层。
在一些实施例中,为了降低计算量、提高计算效率,卷积循环神经网络的卷积层可以为任意一种轻量级的分组卷积网络网络,如Shufflenet、Mobilenet,等等。
在一些实施例中,为了提高文本内容的识别准确率、提高文本之间在时序上的逻辑紧密性,卷积循环神经网络的循环层可以为任意一种双向循环网络,如双向长短时间记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)。
例如,在一些实施例中,可以采用可以包括以Shufflenet为卷积层、以BiLSTM为循环层的卷积循环神经网络来执行步骤1050故,步骤105可以包括如下步骤:
对文本区域图像进行图像切割处理,得到文本区域图像片段;
采用分组卷积网络对文本区域图像片段进行特征抽取,得到文本区域图像片段特征;
根据文本区域图像片段特征确定目标文本特征;
采用双向循环网络基于目标文本特征进行文本识别,得到目标文本的文本内容。
具体地,BiLSTM中具有正向层和逆向层,正向层和逆向层均具有其对应的隐层状态,该隐层状态可以用于记忆文本的时序逻辑,故在一些实施例中,步骤“双向循环网络可以包括正向层和逆向层,采用双向循环网络基于目标文本特征进行文本识别,得到目标文本的文本内容”可以包括如下步骤:
确定双向循环网络中的当前时刻,以及当前时刻的上一时刻所对应的正向隐层状态、当前时刻的下一时刻所对应的逆向隐层状态;
根据目标文本特征、正向层在上一时刻的正向隐层状态确定正向层在当前时刻的正向隐层状态;
根据目标文本特征、逆向层在下一时刻的逆向隐层状态确定逆向层在当前时刻的逆向隐层状态;
根据正向层在当前时刻的正向隐层状态、逆向层在当前时刻的逆向隐层状态确定文本语义向量;
根据文本语义向量确定目标文本的文本内容。
在一些实施例中,步骤105采用循环卷积网络进行文本识别,为了将文本的图像与内容对齐、提高识别的准确度,在执行步骤105之前,还可以预先采用连接时序分类器(Connectionist temporal classification,CTC)训练循环卷积网络,如下:
获取文本区域训练样本图像和预设循环卷积网络,文本区域训练样本图像标注了目标文本的文本内容,预设循环卷积网络可以包括分组卷积网络、双向循环网络、连接时序分类器;
根据文本区域训练样本图像训练预设循环卷积网络,直至连接时序分类器判断预设循环卷积网络收敛,得到循环卷积网络。
由上可知,本发明实施例可以获取待识别图像,待识别图像为待识别证件的图像;对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像;根据文本区域图像确定目标文本的文本方向;根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
由此,本方案可以将目标文本的文本区域图像进行方向调整,使得可以对正方向的文本区域图像进行识别,从而实现了对不同版面、不同拍摄角度的证件的识别,且提高了识别的准确率,故提升图像识别方法的效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
参考图1d,图1d中包括了2种版面的银行卡照片,其中,照片A中是常规版面的银行卡,该银行卡的正面被完整地拍摄,其拍摄角度与镜头垂直,银行卡的方向与其卡号的方向相同;照片B中是特殊版面的银行卡,该银行卡的拍摄角度不与镜头垂直,且该银行卡的正面颠倒,银行卡未被完整拍摄。
在本实施例中,可以同时识别照片A和照片B中的银行卡的卡号,以下将以照片B的卡号识别为例,对本发明实施例的方法进行详细说明。
如图2a所示,一种图像识别方法具体流程如下:
201、获取训练样本图像,并对训练样本图像进行预处理。
在本实施例中,训练样本图像可以为银行卡照片,该银行卡照片可以从图片库中获取,也可以由技术人员拍摄获取,等等,在此对其来源不做要求。
训练样本图像可以由技术人员进行标注、筛选、清洗等预处理。
参考图2b,训练样本图像可以被标注其照片类型,比如,银行卡类型、身份证类型、护照类型、非证件类型、无法识别类型,等等。
训练样本图像还可以被标注其中银行卡的银行卡方向,以及卡号的卡号区域、卡号内容和卡号方向,等等。
202、根据处理后的训练样本图像训练预设的图像识别模型,得到图像识别模型,该图像识别模型包括EAST网络、CRNN网络。
在本实施例中,预设的图像识别模型包括EAST网络和CRNN网络。
其中,参考图2b,EAST网络可以包括特征提取层、特征融合层和输出层,输出层包括图像类型通道和卡号方向通道,在输出层得到训练样本图像的图像类型、卡号方向、卡号区域、卡号内容等信息。
其中,为了提高特征提取和融合的效率,特征提取层和特征融合层可以采用shufflenet网络、mobilenet网络,等等。
在图像类型通道,EAST网络可以预测训练样本图像的图像类型;在卡号方向通道可以预测训练样本图像中卡号的方向。
参考图2c,由于银行卡版式的不同,银行卡方向和卡号方向也有可能不同,且参考图1a,由于银行卡照片中的银行卡未被完整地拍摄,故照片中的背景也可能对卡号方向的判断产生干扰,故在一些实施例中,输出层还包括银行卡方向通道,该银行卡方向通道可以预测训练样本图像中银行卡的方向,用于辅助卡号方向通道判断卡号方向。
其中,CRNN网络可以用于识别卡号内容,由CNN、BiLSTM和CTC构成,其中,CNN网络可以为shufflenet网络,用于提高识别效率。
203、获取银行卡照片。
在本实施例中,银行卡照片可以由用户采用智能手机进行拍摄得到。
204、采用EAST网络对银行卡照片进行卡号区域识别,得到该银行卡照片卡号的卡号区域图像,并根据卡号区域图像确定卡号方向。
首先,可以将银行卡照片输入EAST网络,该在EAST网络输出层的图像方向通道可以用于判断该照片中是否含有银行卡,该照片中不含银行卡,则停止识别,并提示用户重新拍摄;若照片中含有银行卡,则可以继续进行以下的处理步骤:
在EAST网络输出层的卡号区域通道中可以检测出银行卡照片中的卡号区域位置,该卡号区域位置可以由一个旋转矩形框来描述,比如,该卡号区域位置由旋转矩形框框的4个角点位置来描述。
然后,在EAST网络输出层的卡号方向通道中可以预测银行卡卡号数字串的主方向。
205、根据文本方向对卡号区域图像进行方向调整,得到调整后的卡号区域图像。
在本实施例中,可以根据卡号方向将卡号区域图像旋转为正。
206、采用CRNN网络基于调整后的卡号区域图像进行文本识别,得到银行卡的卡号内容。
最后,将旋转为正方向的卡号区域图像输入CRNN网络,即可完成文本识别,得到银行卡的卡号内容。
由上可知,在本实施例中,可以获取训练样本图像,并对训练样本图像进行预处理;根据处理后的训练样本图像训练预设的图像识别模型,得到图像识别模型,该图像识别模型包括EAST网络、CRNN网络;获取银行卡照片;采用EAST网络对银行卡照片进行卡号区域识别,得到该银行卡照片卡号的卡号区域图像,并根据卡号区域图像确定卡号方向;根据文本方向对卡号区域图像进行方向调整,得到调整后的卡号区域图像;采用CRNN网络基于调整后的卡号区域图像进行文本识别,得到银行卡的卡号内容。
因此,本发明实施例可以支持多种角度、多种方向拍摄的银行卡图像的识别,本发明实施例对证件的版式适应性良好,对用户的拍摄要求低,同时保证了识别的速度和精度,从而提升图像识别方法的效率。
为了更好地实施以上方法,本发明实施例还提供一种图像识别装置,该图像识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以图像识别装置具体集成在XX为例,对本发明实施例的方法进行详细说明。
例如,如图3所示,该图像识别装置可以包括获取单元301、文本单元302、方向单元303、调整单元304以及识别单元305,如下:
(一)获取单元301:
获取单元301可以用于获取待识别图像,待识别图像为待识别证件的图像。
(二)文本单元302:
文本单元302可以用于对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像。
在一些实施例中,文本单元302可以包括图像特征子单元、图像类型子单元以及文本区域子单元,如下:
(1)图像特征子单元:
图像特征子单元可以用于对待识别图像进行图像特征提取,得到待识别图像的图像特征。
在一些实施例中,图像子特征单元可以用于:
对待识别图像进行图像切割处理,得到图像片段组,图像片段组中可以包括多个图像片段;
采用分组卷积网络对图像片段组进行多尺寸特征抽取,得到多个不同尺寸的图像片段特征组,其中,每个图像特征组中的图像片段特征的尺寸相同;
基于不同尺寸的图像片段特征组进行特征融合处理,得到待识别图像的图像特征。
(2)图像类型子单元:
图像类型子单元可以用于采用图像分类网络根据图像特征对待识别图像进行图像类型识别,确定待识别图像的图像类型。
在一些实施例中,图像类型子单元,还可以用于:
采用图像分类网络根据图像特征确定待识别图像的证件方向。
(3)文本区域子单元:
文本区域子单元可以用于当待识别图像的图像类型为预设证件类型时,采用区域检测网络根据图像特征对待识别图像进行文本区域分割,得到待识别证件所对应的目标文本的文本区域图像。
在一些实施例中,文本区域子单元可以包括位置特征子模块、位置特征点子模块以及分割子模块,如下:
A.位置特征子模块:
位置特征子模块可以用于采用区域检测网络根据图像特征确定文本区域位置特征。
B.位置特征点子模块:
位置特征点子模块可以用于根据文本区域位置特征在待识别图像中确定文本区域位置特征点。
在一些实施例中,位置特征子模块,还可以用于:
采用区域检测网络根据图像特征确定文本区域图像中目标文本的方向特征;
根据文本区域图像确定目标文本的文本方向”可以包括如下步骤:
采用区域检测网络根据文本区域图像的方向特征确定目标文本的文本方向。
在一些实施例中,区域检测网络可以包括多通道输出层,位置特征子模块在用于采用区域检测网络根据文本区域图像的方向特征确定目标文本的文本方向时,具体可以用于:
在多通道输出层中根据方向特征确定文本区域图像中每个像素的方向预测值;
对文本区域图像中每个像素的方向预测值进行统计,得到文本区域图像的全局方向值;
根据全局方向值确定目标文本的文本方向。
C.分割子模块:
分割子模块可以用于根据文本区域位置特征点在待识别图像中分割得到文本区域图像,文本区域图像为包含了目标文本的图像。
在一些实施例中,文本单元302可以包括区域片段子单元、区域片段特征子单元、文本特征子单元以及文本识别子单元,如下:
(1)区域片段子单元:
区域片段子单元可以用于对文本区域图像进行图像切割处理,得到文本区域图像片段。
(2)区域片段特征子单元:
区域片段特征子单元可以用于采用分组卷积网络对文本区域图像片段进行特征抽取,得到文本区域图像片段特征。
(3)文本特征子单元:
文本特征子单元可以用于根据文本区域图像片段特征确定目标文本特征。
(4)文本识别子单元:
文本识别子单元可以用于采用双向循环网络基于目标文本特征进行文本识别,得到目标文本的文本内容。
在一些实施例中,双向循环网络可以包括正向层和逆向层,文本识别子单元可以用于:
确定双向循环网络中的当前时刻,以及当前时刻的上一时刻所对应的正向隐层状态、当前时刻的下一时刻所对应的逆向隐层状态;
根据目标文本特征、正向层在上一时刻的正向隐层状态确定正向层在当前时刻的正向隐层状态;
根据目标文本特征、逆向层在下一时刻的逆向隐层状态确定逆向层在当前时刻的逆向隐层状态;
根据正向层在当前时刻的正向隐层状态、逆向层在当前时刻的逆向隐层状态确定文本语义向量;
根据文本语义向量确定目标文本的文本内容。
(三)方向单元303:
方向单元303可以用于根据文本区域图像确定目标文本的文本方向。
在一些实施例中,文本单元302可以包括图像类型子单元,该图像类型子单元还可以用于采用图像分类网络根据图像特征确定待识别图像的证件方向,此时,方向单元303可以用于根据文本方向和待识别证件的证件方向对文本区域图像进行方向调整,得到调整后的文本区域图像。
在一些实施例中,文本方向可以包括第一方向、第二方向、第三方向和第四方向,方向单元303可以用于:
当文本方向为第一方向时,将文本区域图像作为调整后的文本区域图像;
当文本方向为第二方向时,将文本区域图像逆时针旋转90度,得到调整后的文本区域图像;
当文本方向为第三方向时,将文本区域图像逆时针旋转180度,得到调整后的文本区域图像;
当文本方向为第四方向时,将文本区域图像逆时针旋转270度,得到调整后的文本区域图像。
在一些实施例中,方向单元303可以用于:
获取训练样本图像、预设图像分类网络和预设区域检测网络,训练样本图像标注了证件方向和文本方向;
采用预设图像分类网络处理训练样本图像,得到证件方向训练结果;
根据训练样本图像和证件方向训练结果训练预设区域检测网络,直至预设区域检测网络收敛,得到区域检测网络;
采用区域检测网络根据文本区域图像确定目标文本的文本方向。
(四)调整单元304:
调整单元304可以用于根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像。
(五)识别单元305:
识别单元305可以用于基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
在一些实施例中,识别单元305,还可以用于:
获取文本区域训练样本图像和预设循环卷积网络,文本区域训练样本图像标注了目标文本的文本内容,预设循环卷积网络可以包括分组卷积网络、双向循环网络、连接时序分类器;
根据文本区域训练样本图像训练预设循环卷积网络,直至连接时序分类器判断预设循环卷积网络收敛,得到循环卷积网络;
在一些实施例中,识别单元305可以用于:
采用循环卷积网络基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的图像识别装置由获取单元获取待识别图像,待识别图像为待识别证件的图像;由文本单元对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像;由方向单元根据文本区域图像确定目标文本的文本方向;由调整单元根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;由识别单元基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。由此,本发明实施例可以提升图像识别方法的效率。
本发明实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该图像识别装置还可以集成在多个电子设备中,比如,图像识别装置可以集成在多个服务器中,由多个服务器来实现本发明的图像识别方法。
在本实施例中,将以本实施例的电子设备是终端为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的终端的结构示意图,具体来讲:
该终端可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
终端还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该终端还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,终端可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
该终端还可包括图像采集模块406,在一些实施例中,图像采集模块406可以包括摄像头模块,终端可以通过该图像采集模块406的摄像头模块进行图像采集,从而为用户提供了图像采集功能。比如,该图像采集模块406可以用于帮助用户拍摄待识别图像、录制待识别证件、人脸识别的视频等。
尽管未示出,终端还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待识别图像,待识别图像为待识别证件的图像;
对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像;
根据文本区域图像确定目标文本的文本方向;
根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;
基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本发明实施例可以提升图像识别方法的效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种图像识别方法中的步骤。例如,该指令可以执行如下步骤:
获取待识别图像,待识别图像为待识别证件的图像;
对待识别图像进行文本区域识别,得到待识别证件所对应的目标文本的文本区域图像;
根据文本区域图像确定目标文本的文本方向;
根据文本方向对文本区域图像进行方向调整,得到调整后的文本区域图像;
基于调整后的文本区域图像进行文本识别,得到目标文本的文本内容。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种图像识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种图像识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种图像识别方法、装置、终端和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像,所述待识别图像为待识别证件的图像;
对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像;
根据所述文本区域图像确定所述目标文本的文本方向;
根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像;
基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容;
对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像,包括:
获取卷积神经网络模型,所述卷积神经网络模型包括输出层,所述输出层包括图像分类通道、文本区域通道、图像方向通道、文本方向通道,所述图像分类通道是图像分类网络,所述文本区域通道是区域检测网络,在训练阶段所述图像分类网络输出的图像方向训练结果用于辅助训练所述区域检测网络;
在图像分类通道确定所述待识别图像的图像类型;
当所述待识别图像的图像类型为预设证件类型时,在文本区域通道确定所述待识别图像所对应的目标文本的文本区域图像;
在图像方向通道确定所述文本区域图像的图像方向;
所述根据所述文本区域图像确定所述目标文本的文本方向,包括:
在文本方向通道识别所述目标文本的文本方向;
所述根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像,包括:
根据所述文本方向和所述文本区域图像的图像方向同时来对所述文本区域图像进行方向调整,得到调整后的文本区域图像。
2.如权利要求1所述的图像识别方法,其特征在于,所述对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像,包括:
对所述待识别图像进行图像特征提取,得到所述待识别图像的图像特征;
采用图像分类网络根据所述图像特征对所述待识别图像进行图像类型识别,确定所述待识别图像的图像类型;
当所述待识别图像的图像类型为预设证件类型时,采用区域检测网络根据所述图像特征对所述待识别图像进行文本区域分割,得到所述待识别证件所对应的目标文本的文本区域图像。
3.如权利要求2所述的图像识别方法,其特征在于,所述对所述待识别图像进行图像特征提取,得到所述待识别图像的图像特征,包括:
对待识别图像进行图像切割处理,得到图像片段组,所述图像片段组中包括多个图像片段;
采用分组卷积网络对所述图像片段组进行多尺寸特征抽取,得到多个不同尺寸的图像片段特征组,其中,每个图像特征组中的图像片段特征的尺寸相同;
基于所述不同尺寸的图像片段特征组进行特征融合处理,得到所述待识别图像的图像特征。
4.如权利要求2所述的图像识别方法,其特征在于,所述采用图像分类网络根据所述图像特征对所述待识别图像进行图像类型识别,确定所述待识别图像的图像类型之后,还包括:
采用图像分类网络根据所述图像特征确定所述待识别图像的证件方向;
所述根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像,包括:
根据所述文本方向和所述待识别证件的证件方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像。
5.如权利要求2所述的图像识别方法,其特征在于,所述采用区域检测网络根据所述图像特征对所述待识别图像进行文本区域分割,得到所述待识别证件所对应的目标文本的文本区域图像,包括:
采用区域检测网络根据所述图像特征确定文本区域位置特征;
根据所述文本区域位置特征在所述待识别图像中确定文本区域位置特征点;
根据所述文本区域位置特征点在所述待识别图像中分割得到文本区域图像,所述文本区域图像为包含了目标文本的图像。
6.如权利要求5所述的图像识别方法,其特征在于,所述采用区域检测网络根据所述图像特征确定文本区域位置特征之后,还包括:
采用区域检测网络根据所述图像特征确定文本区域图像中目标文本的方向特征;
所述根据所述文本区域图像确定所述目标文本的文本方向,包括:
采用区域检测网络根据所述文本区域图像的方向特征确定所述目标文本的文本方向。
7.如权利要求6所述的图像识别方法,其特征在于,所述区域检测网络包括多通道输出层,所述采用区域检测网络根据所述文本区域图像的方向特征确定所述目标文本的文本方向,包括:
在所述多通道输出层中根据所述方向特征确定所述文本区域图像中每个像素的方向预测值;
对所述文本区域图像中每个像素的方向预测值进行统计,得到所述文本区域图像的全局方向值;
根据所述全局方向值确定所述目标文本的文本方向。
8.如权利要求1所述的图像识别方法,其特征在于,所述基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容,包括:
对所述文本区域图像进行图像切割处理,得到文本区域图像片段;
采用分组卷积网络对所述文本区域图像片段进行特征抽取,得到文本区域图像片段特征;
根据所述文本区域图像片段特征确定目标文本特征;
采用双向循环网络基于所述目标文本特征进行文本识别,得到所述目标文本的文本内容。
9.如权利要求8所述的图像识别方法,其特征在于,所述双向循环网络包括正向层和逆向层,所述采用双向循环网络基于所述目标文本特征进行文本识别,得到所述目标文本的文本内容,包括:
确定所述双向循环网络中的当前时刻,以及所述当前时刻的上一时刻所对应的正向隐层状态、当前时刻的下一时刻所对应的逆向隐层状态;
根据所述目标文本特征、正向层在上一时刻的正向隐层状态确定正向层在当前时刻的正向隐层状态;
根据所述目标文本特征、逆向层在下一时刻的逆向隐层状态确定逆向层在当前时刻的逆向隐层状态;
根据所述正向层在当前时刻的正向隐层状态、逆向层在当前时刻的逆向隐层状态确定文本语义向量;
根据文本语义向量确定所述目标文本的文本内容。
10.如权利要求1所述的图像识别方法,其特征在于,所述文本方向包括第一方向、第二方向、第三方向和第四方向,所述根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像,包括:
当所述文本方向为第一方向时,将所述文本区域图像作为调整后的文本区域图像;
当所述文本方向为第二方向时,将所述文本区域图像逆时针旋转90度,得到调整后的文本区域图像;
当所述文本方向为第三方向时,将所述文本区域图像逆时针旋转180度,得到调整后的文本区域图像;
当所述文本方向为第四方向时,将所述文本区域图像逆时针旋转270度,得到调整后的文本区域图像。
11.如权利要求1所述的图像识别方法,其特征在于,所述基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容之前,还包括:
获取文本区域训练样本图像和预设循环卷积网络,所述文本区域训练样本图像标注了目标文本的文本内容,所述预设循环卷积网络包括分组卷积网络、双向循环网络、连接时序分类器;
根据所述文本区域训练样本图像训练所述预设循环卷积网络,直至所述连接时序分类器判断所述预设循环卷积网络收敛,得到循环卷积网络;
所述基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容,包括:
采用所述循环卷积网络基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容。
12.如权利要求1所述的图像识别方法,其特征在于,所述根据所述文本区域图像确定所述目标文本的文本方向,包括:
获取训练样本图像、预设图像分类网络和预设区域检测网络,所述训练样本图像标注了证件方向和文本方向;
采用所述预设图像分类网络处理所述训练样本图像,得到证件方向训练结果;
根据所述训练样本图像和所述证件方向训练结果训练预设区域检测网络,直至所述预设区域检测网络收敛,得到区域检测网络;
采用所述区域检测网络根据所述文本区域图像确定所述目标文本的文本方向。
13.一种图像识别装置,其特征在于,包括:
获取单元,用于获取待识别图像,所述待识别图像为待识别证件的图像;
文本单元,用于对所述待识别图像进行文本区域识别,得到所述待识别证件所对应的目标文本的文本区域图像;
方向单元,用于根据所述文本区域图像确定所述目标文本的文本方向;
调整单元,用于根据所述文本方向对所述文本区域图像进行方向调整,得到调整后的文本区域图像;
识别单元,用于基于所述调整后的文本区域图像进行文本识别,得到所述目标文本的文本内容;
所述文本单元,包括:
获取卷积神经网络模型,所述卷积神经网络模型包括输出层,所述输出层包括图像分类通道、文本区域通道、图像方向通道、文本方向通道,所述图像分类通道是图像分类网络,所述文本区域通道是区域检测网络,在训练阶段所述图像分类网络输出的图像方向训练结果用于辅助训练所述区域检测网络;
在图像分类通道确定所述待识别图像的图像类型;
当所述待识别图像的图像类型为预设证件类型时,在文本区域通道确定所述待识别图像所对应的目标文本的文本区域图像;
在图像方向通道确定所述文本区域图像的图像方向;
所述方向单元,用于:
在文本方向通道识别所述目标文本的文本方向;
所述调整单元,用于:
根据所述文本方向和所述文本区域图像的图像方向同时来对所述文本区域图像进行方向调整,得到调整后的文本区域图像。
14.一种终端,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~12任一项所述的图像识别方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~12任一项所述的图像识别方法中的步骤。
CN202010217627.8A 2020-03-25 2020-03-25 图像识别方法、装置、终端和存储介质 Active CN111444908B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010217627.8A CN111444908B (zh) 2020-03-25 2020-03-25 图像识别方法、装置、终端和存储介质
PCT/CN2021/075124 WO2021190171A1 (zh) 2020-03-25 2021-02-03 图像识别方法、装置、终端和存储介质
TW110107175A TWI808386B (zh) 2020-03-25 2021-02-26 圖像識別方法、裝置、終端和儲存媒體
US17/723,279 US20220245954A1 (en) 2020-03-25 2022-04-18 Image recognition method, apparatus, terminal, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010217627.8A CN111444908B (zh) 2020-03-25 2020-03-25 图像识别方法、装置、终端和存储介质

Publications (2)

Publication Number Publication Date
CN111444908A CN111444908A (zh) 2020-07-24
CN111444908B true CN111444908B (zh) 2024-02-02

Family

ID=71629610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010217627.8A Active CN111444908B (zh) 2020-03-25 2020-03-25 图像识别方法、装置、终端和存储介质

Country Status (4)

Country Link
US (1) US20220245954A1 (zh)
CN (1) CN111444908B (zh)
TW (1) TWI808386B (zh)
WO (1) WO2021190171A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111914840A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 一种文本识别方法、模型训练方法、装置及设备
CN112818979B (zh) * 2020-08-26 2024-02-02 腾讯科技(深圳)有限公司 文本识别方法、装置、设备及存储介质
KR20220028928A (ko) * 2020-08-31 2022-03-08 삼성전자주식회사 부분 영상 기반의 영상 처리 방법 및 장치
CN112085024A (zh) * 2020-09-21 2020-12-15 江苏理工学院 一种罐表面字符识别方法
CN112200182A (zh) * 2020-09-25 2021-01-08 杭州加速科技有限公司 基于深度学习的晶圆id识别方法和装置
CN112633279A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 文本识别方法、装置和系统
CN115050037A (zh) * 2021-02-25 2022-09-13 华为技术有限公司 卡证文本识别方法、装置和存储介质
CN113436079A (zh) * 2021-06-23 2021-09-24 平安科技(深圳)有限公司 证件图像检测方法和装置、电子设备、存储介质
CN113435437A (zh) * 2021-06-24 2021-09-24 随锐科技集团股份有限公司 开关分合指示牌状态的识别方法、识别装置及存储介质
CN113420757B (zh) * 2021-08-23 2021-11-30 北京每日优鲜电子商务有限公司 文本审核方法、装置、电子设备和计算机可读介质
CN113989806B (zh) * 2021-10-11 2024-05-24 康旭科技有限公司 一种可扩展的crnn银行卡号识别方法
CN115035360B (zh) * 2021-11-22 2023-04-07 荣耀终端有限公司 图像的文字识别方法、电子设备及存储介质
CN114495106A (zh) * 2022-04-18 2022-05-13 电子科技大学 一种应用于dfb激光器芯片的深度学习mocr方法
CN115035541A (zh) * 2022-06-27 2022-09-09 中核核电运行管理有限公司 一种大尺寸复杂pdf工程图纸文本检测与识别方法
CN115205635B (zh) * 2022-09-13 2022-12-02 有米科技股份有限公司 图文语义对齐模型的弱监督自训练方法及装置
CN116129456B (zh) * 2023-02-09 2023-07-25 广西壮族自治区自然资源遥感院 一种产权权属信息识别录入方法及系统
CN116912852A (zh) * 2023-07-25 2023-10-20 京东方科技集团股份有限公司 名片的文本识别方法、装置及存储介质
CN117375845A (zh) * 2023-10-17 2024-01-09 中国电子科技集团公司第十五研究所 一种网络资产证书识别方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295638A (zh) * 2016-07-29 2017-01-04 北京小米移动软件有限公司 证件图像倾斜校正方法和装置
CN108256591A (zh) * 2018-02-26 2018-07-06 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108805800A (zh) * 2018-04-24 2018-11-13 北京嘀嘀无限科技发展有限公司 图片处理方法、装置及存储介质
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109034165A (zh) * 2018-07-06 2018-12-18 北京中安未来科技有限公司 一种证件图像的裁切方法、装置、系统及存储介质
CN109241974A (zh) * 2018-08-23 2019-01-18 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109886077A (zh) * 2018-12-28 2019-06-14 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625760A (zh) * 2009-07-28 2010-01-13 谭洪舟 一种证件图像倾斜校正的办法
EP2921989A1 (en) * 2014-03-17 2015-09-23 Université de Genève Method for object recognition and/or verification on portable devices
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN107729847B (zh) * 2017-10-20 2020-08-04 阿里巴巴集团控股有限公司 一种证件验证、身份验证方法和装置
CN107958249B (zh) * 2017-11-21 2020-09-11 众安信息技术服务有限公司 一种基于图像的文本录入方法
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106295638A (zh) * 2016-07-29 2017-01-04 北京小米移动软件有限公司 证件图像倾斜校正方法和装置
CN108256591A (zh) * 2018-02-26 2018-07-06 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN108805800A (zh) * 2018-04-24 2018-11-13 北京嘀嘀无限科技发展有限公司 图片处理方法、装置及存储介质
CN109034165A (zh) * 2018-07-06 2018-12-18 北京中安未来科技有限公司 一种证件图像的裁切方法、装置、系统及存储介质
CN108885699A (zh) * 2018-07-11 2018-11-23 深圳前海达闼云端智能科技有限公司 字符识别方法、装置、存储介质及电子设备
CN109241974A (zh) * 2018-08-23 2019-01-18 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109886077A (zh) * 2018-12-28 2019-06-14 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN110443239A (zh) * 2019-06-28 2019-11-12 平安科技(深圳)有限公司 文字图像的识别方法及其装置
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chinese Image Text Recognition with BLSTM-CTC: A Segmentation-Free Method;Chuanlei Zhai et.al;《Communications in Computer and Information Science 》;第525–536页 *
基于EAST与CNN的钢材表面字符检测与识别方法;冯谦;陶青川;;现代计算机(专业版)(09);第73-76页 *

Also Published As

Publication number Publication date
CN111444908A (zh) 2020-07-24
WO2021190171A1 (zh) 2021-09-30
US20220245954A1 (en) 2022-08-04
TWI808386B (zh) 2023-07-11
TW202137051A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111444908B (zh) 图像识别方法、装置、终端和存储介质
US20200160040A1 (en) Three-dimensional living-body face detection method, face authentication recognition method, and apparatuses
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
US10872420B2 (en) Electronic device and method for automatic human segmentation in image
WO2020252917A1 (zh) 一种模糊人脸图像识别方法、装置、终端设备及介质
JP2020523665A (ja) 生体検出方法及び装置、電子機器並びに記憶媒体
US20190205618A1 (en) Method and apparatus for generating facial feature
CN112364827B (zh) 人脸识别方法、装置、计算机设备和存储介质
WO2021175071A1 (zh) 图像处理方法、装置、存储介质及电子设备
CN111539412B (zh) 一种基于ocr的图像分析方法、系统、设备及介质
US20190155883A1 (en) Apparatus, method and computer program product for recovering editable slide
CN112990172B (zh) 一种文本识别方法、字符识别方法及装置
US11709914B2 (en) Face recognition method, terminal device using the same, and computer readable storage medium
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
CN110321778B (zh) 一种人脸图像处理方法、装置和存储介质
CN112417947A (zh) 关键点检测模型的优化及面部关键点的检测方法及装置
CN107846555A (zh) 基于手势识别的自动拍摄方法、装置、用户终端及计算机存储介质
CN113780116A (zh) 发票分类方法、装置、计算机设备和存储介质
CN112597940A (zh) 证件图像识别方法、装置及存储介质
WO2020244076A1 (zh) 人脸识别方法、装置、电子设备及存储介质
CN104166840A (zh) 一种基于视频会议系统的聚焦实现方法
CN110837771A (zh) 一种基于卷积神经网络的鸟类识别方法和装置
CN113486171B (zh) 一种图像处理方法及装置、电子设备
CN112101479B (zh) 一种发型识别方法及装置
CN111461248A (zh) 一种摄影构图线匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025906

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant