CN109635805B - 图像文本定位方法及装置、图像文本识别方法及装置 - Google Patents

图像文本定位方法及装置、图像文本识别方法及装置 Download PDF

Info

Publication number
CN109635805B
CN109635805B CN201811511832.4A CN201811511832A CN109635805B CN 109635805 B CN109635805 B CN 109635805B CN 201811511832 A CN201811511832 A CN 201811511832A CN 109635805 B CN109635805 B CN 109635805B
Authority
CN
China
Prior art keywords
image text
text
characters
pixel
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811511832.4A
Other languages
English (en)
Other versions
CN109635805A (zh
Inventor
王晓珂
张波
陈成才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiaoi Robot Technology Co Ltd
Original Assignee
Shanghai Xiaoi Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiaoi Robot Technology Co Ltd filed Critical Shanghai Xiaoi Robot Technology Co Ltd
Priority to CN201811511832.4A priority Critical patent/CN109635805B/zh
Publication of CN109635805A publication Critical patent/CN109635805A/zh
Application granted granted Critical
Publication of CN109635805B publication Critical patent/CN109635805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种图像文本定位方法及装置、图像文本识别方法及装置。所述图像文本定位方法包括:提供待处理的图像文本;提取所述图像文本的四层基础纹理特征信息;根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框。本发明不仅大大降低了网络结构的复杂性,提高了网络的泛化能力,打破了深度网络需要成千上万的训练数据的局限性,而且大大缩减了模型内存占用量,最终显著提高了处理效率。

Description

图像文本定位方法及装置、图像文本识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种图像文本定位方法、图像文本定位装置、图像文本识别方法、图像文本识别装置、电子设备以及计算机可读存储介质。
背景技术
随着资讯的发展,图文资料广泛传播,基于图像的文字识别得到了广泛应用。基于计算机视觉的OCR(Optical Character Recognition,光学字符识别)文档识别已经被广泛应用于商业领域,如常见的身份证、银行卡、驾驶证识别等。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。
现有技术中,进行文字检测一般采用大型深度神经网络,这些大型深度神经网络参数多,计算量大,需要人工手动标注大量的训练样本才能达到模型的泛化能力,而且一般来说对于带有倾斜文本的检测需要设计特殊的网络结构或者增加预处理步骤来进行解决。而且现有技术不能准确识别表格或者文本框中的文本,比较常见的解决方法是利用滴水算法或图形学处理方法(如腐蚀,膨胀,连通域等等)通过预处理把表格或者文本框中的田子格这些干扰项去除之后再进行文字识别,这些预处理方法无形中降低了开发效率。
因此,如何利用高效的文字检测识别技术快速完成整个图片向文本的转化成为本领域技术人员亟待解决的技术问题。
发明内容
本发明解决的问题是如何提高图像文本定位和识别的效率。
为解决上述问题,本发明提供一种图像文本定位方法,包括:
提供待处理的图像文本;
提取所述图像文本的四层基础纹理特征信息;
根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框。
可选地,通过MobileNetv2网络模型提取所述图像文本的四层基础纹理特征信息。
可选地,采用N个3*3的卷积神经网络计算每个像素的背景层权重和文字层权重,当所述文字层权重大于所述背景层权重且所述文字层权重大于分类预设值时,将所述像素判断为文字;所述N为大于或等于1的正整数。
可选地,采用N个3*3的卷积神经网络计算相邻两个像素的连接权重和非连接权重,当所述连接权重大于非连接权重且所述连接权重大于连接预设值时,将所述相邻两个像素判断为连接;所述N为大于或等于1的正整数。
可选地,判断被划分为文字的相邻两个像素之间是否连接包括:
计算每个像素与相邻像素之间的连接关系;
从所述连接关系中选择被划分为文字的像素之间的连接关系;
或者,判断被划分为文字的相邻两个像素之间是否连接包括:
从像素中选择被划分为文字的像素;
计算被划分为文字的相邻像素之间的连接关系。
可选地,同时计算每个像素与其相邻四个像素的连接关系。
为解决上述技术问题,本发明实施例还提供了一种图像文本定位装置,包括:
输入模块,用于提供待识别的图像文本;
特征提取模块,用于提取所述图像文本的四层基础纹理特征信息;
像素分类模块,用于根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
像素连接模块,用于根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
分割模块,用于根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框。
为解决上述技术问题,本发明实施例还提供了一种图像文本识别方法,包括:
采用上述的图像文本定位方法对待处理的图像文本进行定位,得到多个文字检测框;
提取每个所述文字检测框的基础纹理特征;
根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
可选地,采用DenseNet网络提取每个所述文字检测框的基础纹理特征,采用CRNN网络对所述文字检测框进行文字识别。
为解决上述技术问题,本发明实施例还提供了一种图像文本识别装置,包括:
上述的图像文本定位装置,用于对待处理的图像文本进行定位,得到多个文字检测框;
基础纹理提取模块,用于提取每个所述文字检测框的基础纹理特征;
文字识别模块,用于根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
为解决上述技术问题,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的图像文本定位方法或者实现上述的图像文本识别方法。
为解决上述技术问题,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的图像文本定位方法或者实现上述的图像文本识别方法。
与现有技术相比,本发明的技术方案具有以下优点:
本发明实施例在进行图像文本定位时,先提取其四层基础纹理特征信息,接着通过判断像素是否为文字,并判断被划分为文字的相邻两个像素之间是否连接,从而即可据此确定多个文字检测框。通过上述方式对图像文本进行定位,不仅大大降低了网络结构的复杂性,提高了网络的泛化能力,打破了深度网络需要成千上万的训练数据的局限性,而且大大缩减了模型内存占用量,最终显著提高了定位的效率,且不受限于计算资源可以轻松地在本地设备或者移动终端上实现。
附图说明
图1是本发明实施例一提供的图像文本定位方法的步骤示意图;
图2是采用实施例一的方法得到的定位后的图像文本示意图;
图3是本发明实施例二提供的图像文本识别方法的步骤示意图。
具体实施方式
如背景技术部分所述,随着互联网图片内容的不断增加,以及在公司、个人日常中办公扫描打印图片文件的日益增加,如何利用高效的文字检测识别技术快速完成整个图片向文本的转化至关重要。目前,现有的一些定位及识别方法,识别率低、效率低、功耗大、模型体积大、对于带有倾斜的文字定位及识别效果不理想等等一些问题以至于很难达到产品化的需求。
下面结合附图对本发明实施例进行详细说明。
实施例一
参考图1,本实施例提供一种图像文本定位方法,包括以下步骤:
步骤S1,提供待处理的图像文本;
步骤S2,提取所述图像文本的四层基础纹理特征信息;
步骤S3,根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
步骤S4,根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
步骤S5,根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框。
本实施例采用了轻量化模型思想和文本分割思路来进行文本定位,不需要成千上百万训练集就可以达到模型的泛化能力,而且针对于倾斜角度和带表格的文本内容,在不需要借助图片预处理和重新设计网络结构重新训练模型的情况下都可以达到令人满意的结果,最终可以有效提高文本定位的准确率和处理效率。
首先,执行步骤S1,提供待处理的图像文本。
所述待处理的图像文本可以对应不同的图像格式,也可以对应不同的存储格式,还可以对应不同的压缩方式,其都是在本发明的保护范围内。
比如:本实施例可以应用于广告图片中文本定位、基于打印或扫描件的合同文本定位等,其不限制本发明的保护范围。
需要特别说明的是,本实施例对待处理的图像文本无需进行预处理,从而可以提高处理效率。
接着执行步骤S2,提取所述图像文本的四层基础纹理特征信息。
本实施例中通过MobileNetv2网络模型提取所述图像文本的四层基础纹理特征信息。
所述MobileNetv2网络模型共有十九层,本实施例方法需要提取其中四层基础纹理特征信息,比如:第4层、第6层、第10层和第19层。
所述MobileNetv2网络模型包括以下三部分:
第一,通过1*1的CNN(卷积神经网络)进行网络扩张,即深度通道数量的增加;
第二,通过3*3的CNN进行特征的提取;
第三,通过1*1的CNN进行网络压缩,即深度通道数量的减少。
通过所述MobileNetv2网络模型提取图像文本的四层基础纹理特征信息具体实现方法对于本领域技术人员是熟知的,在此不再赘述。
接着执行步骤S3,根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景。
具体地,步骤S3可以进一步划分为以下步骤:
步骤S31,采用N个3*3的卷积神经网络计算每个像素的背景层权重和文字层权重,N为大于或等于1的正整数。
步骤S32,判断每个像素的背景层权重和文字层权重的大小,当背景层权重小于文字层权重时,继续执行步骤S33;当背景层权重大于文字层权重时,执行步骤S35。
步骤S33,判断文字层权重与分类预设值的大小,当文字层权重大于或等于分类预设值时,继续执行步骤S34;当文字层权重小于分类预设值时,执行步骤S35。
所述分类预设值的取值范围可以包括0.3-0.95,如:0.3、0.5、0.75或0.95等。
步骤S34,将像素判断为文字。
步骤S35,将像素判断为背景。
通过本步骤,本实施例中像素被划分为文字与背景两类,并且每个像素在经过分类网络后变成1*2个通道。
接着执行步骤S4,根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接。
本实施例中为了获知被划分为文字的相邻两个像素之间是否连接,可以采用两种方式:
第一种方式,先计算每个像素与相邻像素之间的连接关系,再从所述连接关系中选择被划分为文字的像素之间的连接关系;
第二种方式,先从像素中选择被划分为文字的像素,再计算被划分为文字的相邻像素之间的连接关系。
当采用第一种方式时,对每个像素进行分类以及计算每个像素与相邻像素之间的连接关系两个步骤的执行不分先后,尤其当两者同时执行时,可以节省处理时间。
当采用第二种方式时,则需要先对每个像素进行分类,再计算连接关系,此时需要计算连接关系的数量会大幅减少,从而可以提高处理效率。
具体地,计算每个像素与相邻像素之间的连接关系或被划分为文字的相邻像素之间的连接关系可以进一步划分为以下步骤:
步骤S41,采用N个3*3的卷积神经网络计算相邻两个像素的连接权重和非连接权重,N为大于或等于1的正整数。
步骤S42,判断相邻两个像素的连接权重和非连接权重的大小,当连接权重小于非连接权重时,继续执行步骤S43;当连接权重大于非连接权重时,执行步骤S45;
步骤S43,判断连接权重与连接预设值的大小,当连接权重大于或等于连接预设值时,继续执行步骤S44;当连接权重小于连接预设值时,执行步骤S45。
所述连接预设值的取值范围可以包括0.3-0.95,如:0.3、0.5、0.75或0.95等。
步骤S44,将两个像素判断为连接。
步骤S45,将两个像素判断为未连接。
通过本步骤,本实施例中相邻两个像素的关系被划分为连接与未连接两类。
本实施例中可以同时计算每个像素与其相邻四个像素的连接关系,所述相邻四个像素指的是其上、下、左和右的四个像素,此时每个像素在经过连接判断网络后变成4*2个通道。
接着执行步骤S5,根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框。
本实施例中将具有同一连接关系的多个文字像素的外切矩形作为最小分割区域,该最小分割区域即作为一个文字检测框,而图形文本可以对应多个文字检测框,如图2所示,以此来达到文本定位的目的。
本实施例可以通过上述方法生成一个基于深度学习网络的图像文本定位模型,具体地:
1)提供M张样例图片(即训练集),由人工标注出每张样例图片的文字检测框。
其中,M的取值范围可以包括500-2000,如:500、1000、1500或2000等。
2)将包括人工标注的文字检测框的样例图片采用本实施例的定位方法进行训练,即可生成图像文本定位深度学习模型,从而可以确定上述各步骤涉及到的网络模型的参数。
本实施例具有以下优点:
1)现有的深度学习文字定位网络一般为大型的网络结构,需要上百万的训练集才能到达一定的泛化力,这些数据集标注起来浪费人力、财力、物力。本实施例中的文字定位网络结构为轻量化模型,用了500到2000张训练集就达到了较理想的效果,采用本实施例方法得到的一个具体定位结果如图2所示。
2)现在的网络结构针对带有倾斜角度的文字,一般需要进行一些角度矫正预处理,或者针对倾斜文字设计专门的网络结构。本实施例中因为从文本分割角度出发,无需考虑这些问题,同一个网络结构不仅可以针对标准图片进行文字定位识别,而且对带倾斜角度文本图片也有很强的鲁棒性,如图2所示。
实施例二
本实施例提供了一种图像文本定位装置,包括:
输入模块,用于提供待识别的图像文本;
特征提取模块,用于提取所述图像文本的四层基础纹理特征信息;
像素分类模块,用于根据所述四层基础纹理特征信息,对每个像素进行
分类,以使每个像素被划分为文字或背景;
像素连接模块,用于根据所述四层基础纹理特征信息,判断被划分为文
字的相邻两个像素之间是否连接;
分割模块,用于根据被划分为文字的像素之间的连接信息确定最小分割
区域,以将所述图像文本划分为多个文字检测框。
其中,所述特征提取模块可以通过MobileNetv2网络模型提取所述图像文本的四层基础纹理特征信息。
其中,所述像素分类模块可以采用N个3*3的卷积神经网络计算每个像素的背景层权重和文字层权重,当所述文字层权重大于所述背景层权重且所述文字层权重大于分类预设值时,将所述像素判断为文字;所述N为大于或等于1的正整数。
其中,所述像素连接模块可以采用N个3*3的卷积神经网络计算相邻两个像素的连接权重和非连接权重,当所述连接权重大于非连接权重且所述连接权重大于连接预设值时,将所述相邻两个像素判断为连接;所述N为大于或等于1的正整数。
所述像素连接模块可以采用两种方式实现:
当采用第一方式实现时,所述像素连接模块可以包括:
第一连接关系计算单元,用于计算每个像素与相邻像素之间的连接关系;
第一选择单元,用于从第一连接关系计算单元得到的连接关系中选择被划分为文字的像素之间的连接关系;
当采用第二方式实现时,所述像素连接模块可以包括:
第二选择单元,用于从像素中选择被划分为文字的像素;
第二连接关系计算单元,用于计算被划分为文字的相邻像素之间的连接关系。
此外,本实施例中所述像素连接模块可以同时计算每个像素与其相邻四个像素的连接关系。
本实施例中各模块及单元的具体工作过程请参考实施例一中对应的步骤,在此不再赘述。
现有的深度学习文字定位网络一般为大型的网络结构,需要上百万的训练集才能到达一定的泛化力,这些数据集标注起来浪费人力、财力、物力。本实施例中的文字定位网络结构为轻量化模型,用了500到2000张训练集就达到了较理想的效果。
现在的网络结构针对带有倾斜角度的文字,一般需要进行一些角度矫正预处理,或者针对倾斜文字设计专门的网络结构。本实施例中因为从文本分割角度出发,无需考虑这些问题,同一个网络结构不仅可以针对标准图片进行文字定位识别,而且对带倾斜角度文本图片也有很强的鲁棒性。
对带有文本框或者表格的文本做识别,不需要一系列预处理流程,只需要根据准确的文本定位信息把表格中文字内容分提取出来放到识别网络进行识别,这样在一定程度上可以避免因为预处理步骤没做好而影响识别率。本实施例中通过准确的文本定位割取出文本信息,可以一定程度上去除掉很多干扰的背景信息,进而提高了OCR的准确性。
实施例三
如图3所示,本实施例提供了一种图像文本识别方法,包括:
步骤S10,提供待处理的图像文本;
步骤S20,提取所述图像文本的四层基础纹理特征信息;
步骤S30,根据所述四层基础纹理特征信息,对每个像素进行级别分类,以使每个像素被划分为文字或背景;
步骤S40,根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
步骤S50,根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框;
步骤S60,提取每个所述文字检测框的基础纹理特征;
步骤S70,根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
本实施例采用了先文本定位再文本识别的两部曲,即文本定位网络和文字识别网络各行其职的结构。这样做的好处是,网络结构灵活,可以根据效果自行调整或者更换其中的任何一个功能结构,不必担心其中一个功能结构影响到另外一个功能结构。本实施例不仅大大降低了网络结构的复杂性,提高了网络的泛化能力,打破了深度网络需要成千上万的训练数据的局限性,而且大大缩减了模型内存占用量,不受限于计算资源可以轻松的在本地设备或者移动终端上实现。
本实施例中步骤S10、步骤S20、步骤S30、步骤S40和步骤S50的具体实现方式请分别参考实施例一中步骤S1、步骤S2、步骤S3、步骤S4和步骤S5,在此不再赘述。
在执行完步骤S50,完成图像文本定位之后,继续执行步骤S60,提取每个所述文字检测框的基础纹理特征。
本实施例中可以采用DenseNet网络提取每个所述文字检测框的基础纹理特征,其中:传统的CNN会被分解为1*1的卷积来减少输入的纹理数量,不仅可以降维减少计算量,又能融合各个通道特征,为了进一步压缩模型,又增加了一个输出通道数是输入通道数一半的1*1卷积,在此不再赘述。
需要说明的是,在本发明的其它实施例中,还可以采用其它方式提取每个文字检测框的基础纹理特征,其都在本发明的保护范围内。
接着执行步骤S70,根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
本实施例中可以采用CRNN网络对所述文字检测框进行文字识别,其对于本领域技术人员是熟知的,在此不再赘述。
需要说明的是,在本发明的其它实施例中,还可以采用其它方式进行文字识别,其都在本发明的保护范围内。
至此,完成对图像文本的文字识别。
本实施例可以通过步骤S60和步骤S70生成一个基于深度学习网络的图像文本识别模型,具体地:
1)提供N张样例图片(即训练集),由人工标注出每张样例图片的文字识别结果。
2)将包括人工标注的样例图片采用本实施例的识别方法进行训练,即可生成图像文本识别深度学习模型,从而可以确定步骤S60和步骤S70涉及到的网络模型的参数。
本实施例中的文字定位网络结构采用了轻量化的网络Mobilenetv2加上基于PixelLink文本分割思想,文字识别网络结构采用了轻量化网络DenseNet加上经典的CRNN文字识别网络,从而文字定位网络不仅大大降低了网络结构的复杂性,提高了网络的泛化能力,打破了深度网络需要成千上万的训练数据的局限性,而且大大缩减了模型内存占用量,不受限于计算资源可以轻松的在本地设备或者移动终端上实现。
现有的深度学习文字定位网络一般为大型的网络结构,需要上百万的训练集才能到达一定的泛化力,这些数据集标注起来浪费人力、财力、物力。本实施例中的文字定位网络结构为轻量化模型,用了500到2000张训练集就达到了较理想的效果。
现在的网络结构针对带有倾斜角度的文字,一般需要进行一些角度矫正预处理,或者针对倾斜文字设计专门的网络结构。本实施例中因为从文本分割角度出发,无需考虑这些问题,同一个网络结构不仅可以针对标准图片进行文字定位识别,而且对带倾斜角度文本图片也有很强的鲁棒性。
对带有文本框或者表格的文本做识别,不需要一系列预处理流程,只需要根据准确的文本定位信息把表格中文字内容分提取出来放到识别网络进行识别,这样在一定程度上可以避免因为预处理步骤没做好而影响识别率。本发明中通过准确的文本定位割取出文本信息,可以一定程度上去除掉很多干扰的背景信息,进而提高了OCR的准确性。
实施例四
本实施例提供了一种图像文本识别装置,包括:
输入模块,用于提供待识别的图像文本;
特征提取模块,用于提取所述图像文本的四层基础纹理特征信息;
像素分类模块,用于根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
像素连接模块,用于根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
分割模块,用于根据被划分为文字的像素之间的连接信息确定最小分割区域,以将所述图像文本划分为多个文字检测框;
基础纹理提取模块,用于提取每个所述文字检测框的基础纹理特征;
文字识别模块,用于根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
本实施例中输入模块、特征提取模块、像素分类模块、像素连接模块以及分割模块请分别参考实施例二中输入模块、特征提取模块、像素分类模块、像素连接模块以及分割模块,在此不再赘述。
其中,所述基础纹理提取模块可以采用DenseNet网络提取每个所述文字检测框的基础纹理特征。
其中,所述文字识别模块可以采用CRNN网络对所述文字检测框进行文字识别。
本实施例中图像文本识别装置的具体工作方式及有益效果可以参考实施例三中图像文本识别方法对应的描述,在此不再赘述。
实施例五
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的图像文本定位方法或者如实施例三所述的图像文本识别方法,具体请参见上面方法部分,在此不再赘述。
存储器作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的图像文本定位方法以及图像文本识别方法对应的程序指令/模块(例如,图像文本定位装置中的输入模块、特征提取模块、像素分类模块、像素连接模块以及分割模块)。处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的图像文本定位方法。
存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例六
相应地,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的图像文本定位方法或者如实施例三所述的图像文本识别方法,具体请参见上面方法部分,在此不再赘述。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述图像文本定位装置及图像文本识别装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种图像文本定位方法,其特征在于,包括:
提供待处理的图像文本;
通过MobileNetv2网络模型提取所述图像文本的四层基础纹理特征信息;
根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
将具有同一连接关系的多个文字像素的外切矩形作为最小分割区域,以将所述图像文本划分为多个文字检测框;
所述判断被划分为文字的相邻两个像素之间是否连接包括:
从像素中选择被划分为文字的像素;
计算被划分为文字的相邻像素之间的连接关系。
2.如权利要求1所述的方法,其特征在于,采用N个3*3的卷积神经网络计算每个像素的背景层权重和文字层权重,当所述文字层权重大于所述背景层权重且所述文字层权重大于分类预设值时,将所述像素判断为文字;所述N为大于或等于1的正整数。
3.如权利要求1所述的方法,其特征在于,采用N个3*3的卷积神经网络计算相邻两个像素的连接权重和非连接权重,当所述连接权重大于非连接权重且所述连接权重大于连接预设值时,将所述相邻两个像素判断为连接;所述N为大于或等于1的正整数。
4.如权利要求3所述的方法,其特征在于,判断被划分为文字的相邻两个像素之间是否连接包括:
计算每个像素与相邻像素之间的连接关系;
从所述连接关系中选择被划分为文字的像素之间的连接关系。
5.如权利要求4所述的方法,其特征在于,同时计算每个像素与其相邻四个像素的连接关系。
6.一种图像文本定位装置,其特征在于,包括:
输入模块,用于提供待识别的图像文本;
特征提取模块,用于通过MobileNetv2网络模型提取所述图像文本的四层基础纹理特征信息;
像素分类模块,用于根据所述四层基础纹理特征信息,对每个像素进行分类,以使每个像素被划分为文字或背景;
像素连接模块,用于根据所述四层基础纹理特征信息,判断被划分为文字的相邻两个像素之间是否连接;
分割模块,用于将具有同一连接关系的多个文字像素的外切矩形作为最小分割区域,以将所述图像文本划分为多个文字检测框;
所述像素连接模块可以包括:
第二选择单元,用于从像素中选择被划分为文字的像素;
第二连接关系计算单元,用于计算被划分为文字的相邻像素之间的连接关系。
7.一种图像文本识别方法,其特征在于,包括:
采用如权利要求1-5中任一项所述的图像文本定位方法对待处理的图像文本进行定位,得到多个文字检测框;
提取每个所述文字检测框的基础纹理特征;
根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
8.如权利要求7所述的图像文本识别方法,其特征在于,采用DenseNet网络提取每个所述文字检测框的基础纹理特征,采用CRNN网络对所述文字检测框进行文字识别。
9.一种图像文本识别装置,其特征在于,包括:
如权利要求6所述的图像文本定位装置,用于对待处理的图像文本进行定位,得到多个文字检测框;
基础纹理提取模块,用于提取每个所述文字检测框的基础纹理特征;
文字识别模块,用于根据所述文字检测框的基础纹理特征,对所述文字检测框进行文字识别。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的图像文本定位方法或者实现如权利要求7或8所述的图像文本识别方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一项所述的图像文本定位方法或者实现如权利要求7或8所述的图像文本识别方法。
CN201811511832.4A 2018-12-11 2018-12-11 图像文本定位方法及装置、图像文本识别方法及装置 Active CN109635805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511832.4A CN109635805B (zh) 2018-12-11 2018-12-11 图像文本定位方法及装置、图像文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511832.4A CN109635805B (zh) 2018-12-11 2018-12-11 图像文本定位方法及装置、图像文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN109635805A CN109635805A (zh) 2019-04-16
CN109635805B true CN109635805B (zh) 2022-01-11

Family

ID=66073025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511832.4A Active CN109635805B (zh) 2018-12-11 2018-12-11 图像文本定位方法及装置、图像文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN109635805B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110414516B (zh) * 2019-08-05 2022-02-01 上海海事大学 一种基于深度学习的单个汉字识别方法
CN110569743A (zh) * 2019-08-19 2019-12-13 广东中凯智慧政务软件有限公司 一种广告信息记录方法以及储存介质、管理系统
CN110880000B (zh) * 2019-11-27 2022-09-02 上海智臻智能网络科技股份有限公司 图片文字定位方法、装置、计算机设备和存储介质
CN112906687A (zh) * 2019-12-03 2021-06-04 上海智臻智能网络科技股份有限公司 图片文字定位方法、装置、计算机设备和存储介质
CN111210898B (zh) * 2019-12-30 2023-08-01 赛诺联合医疗科技(北京)有限公司 一种对dicom数据进行处理的方法和装置
WO2021146937A1 (zh) * 2020-01-21 2021-07-29 京东方科技集团股份有限公司 文字识别方法、文字识别装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108764371A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103319A (zh) * 2013-05-22 2017-08-29 华为终端有限公司 一种文字识别方法及用户终端
US9760788B2 (en) * 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN105426846A (zh) * 2015-11-20 2016-03-23 江南大学 一种基于图割模型的场景图像中文本的定位方法
CN106845323B (zh) * 2015-12-03 2020-04-28 阿里巴巴集团控股有限公司 一种打标数据的收集方法、装置以及证件识别系统
CN106874443A (zh) * 2017-02-09 2017-06-20 北京百家互联科技有限公司 基于视频文本信息提取的信息查询方法以及装置
CN108229379A (zh) * 2017-12-29 2018-06-29 广东欧珀移动通信有限公司 图像识别方法、装置、计算机设备和存储介质
CN108010030A (zh) * 2018-01-24 2018-05-08 福州大学 一种基于深度学习的航拍图像绝缘子实时检测方法
CN108647603B (zh) * 2018-04-28 2021-01-29 清华大学 基于注意力机制的半监督连续手语翻译方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108764371A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法、装置、计算机可读存储介质和电子设备

Also Published As

Publication number Publication date
CN109635805A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
Gatos et al. Automatic table detection in document images
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN107798321A (zh) 一种试卷分析方法和计算设备
CN111340037B (zh) 文本版面分析方法、装置、计算机设备和存储介质
CN111860525B (zh) 一种适用于端子排的自底向上光学字符识别方法
Lin et al. Reconstruction of shredded document based on image feature matching
CN112613502A (zh) 文字识别方法及装置、存储介质、计算机设备
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN110991403A (zh) 一种基于视觉深度学习的文档信息碎片化抽取方法
CN110880000A (zh) 图片文字定位方法、装置、计算机设备和存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN104750791A (zh) 一种图像检索方法及装置
US20230154217A1 (en) Method for Recognizing Text, Apparatus and Terminal Device
RU2633182C1 (ru) Определение направления строк текста
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
CN113807218B (zh) 版面分析方法、装置、计算机设备和存储介质
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant