CN108710882A - 一种基于卷积神经网络的屏幕渲染文本识别方法 - Google Patents

一种基于卷积神经网络的屏幕渲染文本识别方法 Download PDF

Info

Publication number
CN108710882A
CN108710882A CN201810446940.1A CN201810446940A CN108710882A CN 108710882 A CN108710882 A CN 108710882A CN 201810446940 A CN201810446940 A CN 201810446940A CN 108710882 A CN108710882 A CN 108710882A
Authority
CN
China
Prior art keywords
image
character
text
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810446940.1A
Other languages
English (en)
Inventor
徐新
周军
穆楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Wuhan University of Science and Technology WHUST
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN201810446940.1A priority Critical patent/CN108710882A/zh
Publication of CN108710882A publication Critical patent/CN108710882A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于卷积神经网络的屏幕渲染文本识别方法,包括如下步骤:对屏幕渲染图像进行二值化;从二值化图像中检测出文本块;对检测得到的文本块进行组合,组成文本行;从文本行中提取出单个字符;对提取出的单个字符中误分割的字符进行校正;采用卷积神经网络对单个字符进行识别。本发明首次将卷积神经网络引入屏幕渲染识别技术领域,通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性,能够高效的获得更加准确的文字识别结果,尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题,同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案。

Description

一种基于卷积神经网络的屏幕渲染文本识别方法
技术领域
本发明涉及一种基于卷积神经网络的屏幕渲染文本识别方法,属于图像处理技术领域。
背景技术
光学字符识别是将图像中的文本转换为机器编码文本,无论是从扫描文档、文档照片、场景照片或叠加在图像上的标题文本,它被广泛用作从打印纸质文档中读取信息。而屏幕渲染图像是指经由电脑或手机GPU渲染而呈现在显示屏上的一种点阵图像,使用手机拍摄这种图像时,由于拍摄角度和光照条件的不同会对图像质量产生很大的影响。
尽管在过去多年的研究中,人们对光学字符识别技术进行了广泛的研究,在扫描文档识别,手写汉字单字识别以及场景文字识别等领域取得了丰硕的成果。但是,由于屏幕渲染图像的低对比度和低信噪比,在这方面的研究进展并不明显。在过去的屏幕渲染文本识别研究中,Wachenfeld等人使用最近近邻算法对字符图像进行识别,Rashid等人使用隐马尔可夫算法对字符图像进行识别。这些方法都能够对屏幕渲染图像中的英文字符进行很好的识别,但是在中文字符的识别中,速度和效果都不是特别理想。
发明内容
本发明为了克服以上技术的不足,提供了一种基于卷积神经网络的屏幕渲染文本识别方法,可以用于屏幕渲染图像中字符分割和提取、在线词典的划词翻译以及自然场景下的文字识别等。
本发明克服其技术问题所采用的技术方案是:
一种基于卷积神经网络的屏幕渲染文本识别方法,包括如下步骤:
(1)对屏幕渲染图像进行二值化;
(2)从二值化图像中检测出文本块;
(3)对检测得到的文本块进行组合,组成文本行;
(4)从文本行中提取出单个字符;
(5)对提取出的单个字符中误分割的字符进行校正;
(6)采用卷积神经网络对单个字符进行识别。
本发明优选的,所述步骤(1)中,对屏幕渲染图像进行二值化的具体步骤如下:
(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间:
其中,R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值,Gray(x,y)表示对应点上的灰度值,N和M分别表示图像的高度和宽度;
(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像:
其中,v(x,y)是图像中每个像素点的灰度值,T(x,y)是二值化之后的值;
(1.3)采用颜色反转技术,将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字:
其中,F(x,y)是颜色反转之后的值。
本发明优选的,所述步骤(2)中,从二值化图像中检测出文本块的具体步骤如下:
(2.1)对经过步骤(1)处理后的图像进行横向膨胀操作,将图像中每一行的字符相连,组成文本块:
其中,G(x,y)是膨胀之后的值,N和M分别表示图像的高度和宽度;
(2.2)对图像进行连通域检测,定位经过步骤(2.2)处理后图像中的文本块。
本发明优选的,所述步骤(3)中,对检测得到的文本块进行组合,组成文本行,其具体步骤如下:
采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起,组成文本行:通过计算两个连通域矩形的距离来判断两个连通域是否在同一行,在同一行就将两个连通域合并,设两个连通域矩形的距离为h,本发明优选所述h为5个像素。
本发明优选的,所述步骤(4)中,从文本行中提取出单个字符的具体步骤如下:
针对经过步骤(3)处理后图像中的每一个文本行,使用垂直投影法分割出单个字符:
通过遍历每一列,得到所有的分割线,分割线由下面公式决定:
其中,S(x)表示该处是否可分割,N和M分别表示图像的高度和宽度。
本发明优选的,所述步骤(5)中,对提取出的单个字符中误分割的字符进行校正的具体步骤如下:
1)针对每一个文本行,使用字宽融合方法对垂直投影法分割时的误分割结果进行处理:
通过比对前后两个字符总的宽度和平均字符的宽度Tw来判断这两个字符是不是由一个字符误分割而来:
其中,len(g)用于统计集合Ωi中各个子集的元素个数,Ωi,i=1,2,...,M是统计字符宽度w得到的集合,Ωi={w|w∈[(i-1)*10,i*10]},M是以10个像素为间隔将字符宽度区间[0,J]进行划分得到的子区间的数量,J由下面公式给出:
其中,max_w是所有字符候选者的最大宽度。
本发明优选的,所述步骤(6)中,采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。
本发明优选的,所述字符图像预处理具体如下:
对经过步骤(5)处理后得到的字符图像进行缩放,字符图像尺寸缩放到120×120,具体缩放通过以下实现:
计算字符图像的高和宽取出较长的一边记为x1,另一较短边记为x2,将x1缩放到120个像素,则x2等比缩放后的大小为:
对x2进行缩放后,将x2边的两边填充黑色像素以补齐120个像素。
本发明优选的,所述字符图像识别具体如下:
将经过预处理后的字符图像输入卷积神经网络,在卷积神经网络中进行前向传播,前向传播中的一个卷积操作如下:
表示第i层第j个特征图上(x,y)处神经元的值,的值由以下公式给出:
其中,tanh()是一个激活函数,bij是当前特征图的偏置,m是i-1层连接到当前特征图的特征图集合,是连接第k个特征层的卷积核在(p,q)处的值,Pi和Qi分别是卷积核的高度和宽度;
整个前向传播由若干个卷积和两个全连接层构成,卷积神经网络的全连接层给出对图像的识别结果。
本发明的有益效果是:
本发明首次将卷积神经网络引入屏幕渲染识别技术领域,通过本发明的方法提高了传统文字识别方法在屏幕渲染图像上的鲁棒性,能够高效的获得更加准确的文字识别结果,尤其解决了在屏幕渲染图像上中文字符识别存在的速度和效果都非常不理想的技术问题,同时针对屏幕渲染图像中的小字体、低分辨率的情况提出了一种从检测到识别的一体化解决方案,也为在线词典的划词翻译和自然场景下的文字识别等问题提供了很好的解决方案。
附图说明
图1为本发明实施例的流程示意图。
图2为本发明实施例所使用的卷积神经网络结构图。
图3为图2中inception-v2的结构图。
图4为原始屏幕渲染图像。
图5为图4中方框部分A的放大图。
图6为本发明实施例的连通域检测结果图。
图7为本发明实施例的连通域融合结果图。
图8为本发明实施例采用垂直投影法分割后的结果图。
图9为本发明实施例字符校正后的结果图。
图10为现有技术采用HCCR-AlexNet卷积神经网络识别的结果图。
图11为现有技术采用HCCR-GoogLeNet卷积神经网络识别的结果图。
图12为现有技术采用VGG卷积神经网络识别的结果图。
图13为采用本发明实施例的卷积神经网络识别的结果图。
图14为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的准确率对比图。
图15为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的损失对比图。
图16为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR 2013数据集上的准确率对比图。
图17为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR 2013数据集上的损失对比图。
具体实施方式
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
本发明实施例所述的一种基于卷积神经网络的屏幕渲染文本识别方法,如图1所示,包括如下步骤:
(1)对屏幕渲染图像进行二值化;
(2)从二值化图像中检测出文本块;
(3)对检测得到的文本块进行组合,组成文本行;
(4)从文本行中提取出单个字符;
(5)对提取出的单个字符中误分割的字符进行校正;
(6)采用卷积神经网络对单个字符进行识别。
本实施例优选的,所述步骤(1)中,对如图4所示的原始屏幕渲染图像(图5为图4中方框部分A的局部放大图)进行二值化的具体步骤如下:
(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间:
其中,R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值,Gray(x,y)表示对应点上的灰度值,N和M分别表示图像的高度和宽度;
(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像:
其中,v(x,y)是图像中每个像素点的灰度值,T(x,y)是二值化之后的值;
(1.3)采用颜色反转技术,将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字:
其中,F(x,y)是颜色反转之后的值。
本实施例优选的,所述步骤(2)中,从二值化图像中检测出文本块的具体步骤如下:
(2.1)对经过步骤(1)处理后的图像进行横向膨胀操作,将图像中每一行的字符相连,组成文本块:
其中,G(x,y)是膨胀之后的值,N和M分别表示图像的高度和宽度;
(2.2)对图像进行连通域检测,检测结果如图6所示,定位经过步骤(2.2)处理后图像中的文本块。
本发明优选的,所述步骤(3)中,对检测得到的文本块进行组合,组成文本行,其具体步骤如下:
采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起,组成文本行:通过计算两个连通域矩形的距离来判断两个连通域是否在同一行,在同一行就将两个连通域合并,合并后如图7所示。设两个连通域矩形的距离为h,本实施例优选所述h为5个像素。
本实施例优选的,所述步骤(4)中,从文本行中提取出单个字符的具体步骤如下:
针对经过步骤(3)处理后图像中的每一个文本行,使用垂直投影法分割出单个字符:
通过遍历每一列,得到所有的分割线,分割线由下面公式决定:
其中,S(x)表示该处是否可分割,N和M分别表示图像的高度和宽度。分割后的结果如图8所示。
本实施例优选的,所述步骤(5)中,对提取出的单个字符中误分割的字符进行校正的具体步骤如下:
1)针对每一个文本行,使用字宽融合方法对垂直投影法分割时的误分割结果进行处理:
通过比对前后两个字符总的宽度和平均字符的宽度Tw来判断这两个字符是不是由一个字符误分割而来:
其中,len(g)用于统计集合Ωi中各个子集的元素个数,Ωi,i=1,2,...,M是统计字符宽度w得到的集合,Ωi={w|w∈[(i-1)*10,i*10]},M是以10个像素为间隔将字符宽度区间[0,J]进行划分得到的子区间的数量,J由下面公式给出:
其中,max_w是所有字符候选者的最大宽度。字符校正后的结果如图9所示。
本实施例优选的,所述步骤(6)中,采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。
本实施例优选的,所述字符图像预处理具体如下:
对经过步骤(5)处理后得到的字符图像进行缩放,字符图像尺寸缩放到120×120,具体缩放通过以下实现:
计算字符图像的高和宽取出较长的一边记为x1,另一较短边记为x2,将x1缩放到120个像素,则x2等比缩放后的大小为:
对x2进行缩放后,将x2边的两边填充黑色像素以补齐120个像素。
采用本实施例所述的卷积神经网络对字符图像识别具体如下:
将经过预处理后的字符图像输入本实施例的卷积神经网络,将本实施例的卷积神经网络定义为SRTR-GoogLeNet,图2为本实施例的SRTR-GoogLeNet卷积神经网络结构图,在该卷积神经网络中,我们限定了输入图像的大小为120×120×3,“120”表示图像的长宽分别具有120个像素,“3”表示图像为RGB模式,图2中的inception-v2结构具体如图3所示,在卷积神经网络中进行前向传播,前向传播中的一个卷积操作如下:
表示第i层第j个特征图上(x,y)处神经元的值,的值由以下公式给出:
其中,tanh()是一个激活函数,bij是当前特征图的偏置,m是i-1层连接到当前特征图的特征图集合,是连接第k个特征层的卷积核在(p,q)处的值,Pi和Qi分别是卷积核的高度和宽度;
整个前向传播由若干个卷积和两个全连接层构成,卷积神经网络的全连接层给出对图像的识别结果。所述卷积的取值范围为0-1000个,本实施例优选为24个。
将采用现有技术所述的识别方法得到的结果图与采用本实施例所述方法得到的识别结果图对比,原始屏幕渲染图像均为图4所示,图10为现有技术采用HCCR-AlexNet卷积神经网络识别的结果图,图11为现有技术采用HCCR-GoogLeNet卷积神经网络识别的结果图,图12为现有技术采用VGG卷积神经网络识别的结果图,图13为采用本发明实施例的卷积神经网络识别的结果图。图10-13中,方框内的字表示识别错误的字,方框的数量越少,识别准确率越高。可以看出,图13即本发明实施例所采用的卷积神经网络在屏幕渲染图像上的准确率明显高于其他三种方法。
另外,再将采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本实施例所述的卷积神经网络分别在CIFAR-10数据集和ICDAR 2013数据集上做一下准确率和损失对比。图14为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的准确率对比图,图15为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在CIFAR-10数据集上的损失对比图,图16为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR2013数据集上的准确率对比图,图17为分别采用现有的卷积神经网络HCCR-AlexNet、HCCR-GoogLeNet、VGG和本发明实施例的卷积神经网络在ICDAR2013数据集上的损失对比图。图14-17中,“Proposed”表示本发明所采用的卷积神经网络。其中,准确率曲线能够很好的反应各种方法对图像的识别好坏,曲线越高,则反应出识别的准确率越高,从图14和图16可以看出,采用本发明实施例所述方法无论是在CIFAR-10数据集上还是在ICDAR 2013数据集上,得到的曲线均高于其他三种方法的曲线,说明了本发明实施例所述方法识别的准确率高于其他三种方法;损失曲线能够很好的反应各种方法在训练时的学习速度,曲线下降的越快,则反应出其学习速度越快,从图15和图17可以看出,采用本发明实施例所述方法无论是在CIFAR-10数据集上还是在ICDAR 2013数据集上,得到的曲线均比其他三种方法下降的快,说明了本发明实施例所述方法的学习速度比其他三种方法快。
以上仅描述了本发明的基本原理和优选实施方式,本领域人员可以根据上述描述做出许多变化和改进,这些变化和改进应该属于本发明的保护范围。

Claims (10)

1.一种基于卷积神经网络的屏幕渲染文本识别方法,其特征在于,包括如下步骤:
(1)对屏幕渲染图像进行二值化;
(2)从二值化图像中检测出文本块;
(3)对检测得到的文本块进行组合,组成文本行;
(4)从文本行中提取出单个字符;
(5)对提取出的单个字符中误分割的字符进行校正;
(6)采用卷积神经网络对单个字符进行识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,对屏幕渲染图像进行二值化的具体步骤如下:
(1.1)采用灰度化技术将图像从RGB颜色空间转换到灰度颜色空间:
其中,R(x,y)、G(x,y)、B(x,y)分别表示图像中的每个像素点在红、绿、蓝三个通道上的值,Gray(x,y)表示对应点上的灰度值,N和M分别表示图像的高度和宽度;
(1.2)采用二值化技术将经过步骤(1.1)处理后的图像转换为二值化图像:
其中,v(x,y)是图像中每个像素点的灰度值,T(x,y)是二值化之后的值;
(1.3)采用颜色反转技术,将经过步骤(1.2)处理后的图像由白底黑字变换为黑底白字:
其中,F(x,y)是颜色反转之后的值。
3.根据权利要求1或2所述的方法,其特征在于,所述步骤(2)中,从二值化图像中检测出文本块的具体步骤如下:
(2.1)对经过步骤(1)处理后的图像进行横向膨胀操作,将图像中每一行的字符相连,组成文本块:
其中,G(x,y)是膨胀之后的值,N和M分别表示图像的高度和宽度;
(2.2)对图像进行连通域检测,定位经过步骤(2.2)处理后图像中的文本块。
4.根据权利要求3所述的方法,其特征在于,所述步骤(3)中,对检测得到的文本块进行组合,组成文本行,其具体步骤如下:
采用连通域融合将经过步骤(2)中得到的相邻水平线上的文本块连接在一起,组成文本行:通过计算两个连通域矩形的距离来判断两个连通域是否在同一行,在同一行就将两个连通域合并。
5.根据权利要求4所述的方法,其特征在于,设两个连通域矩形的距离为h,所述h为5个像素。
6.根据权利要求1或2或4或5所述的方法,其特征在于,所述步骤(4)中,从文本行中提取出单个字符的具体步骤如下:
针对经过步骤(3)处理后图像中的每一个文本行,使用垂直投影法分割出单个字符:
通过遍历每一列,得到所有的分割线,分割线由下面公式决定:
其中,S(x)表示该处是否可分割,N和M分别表示图像的高度和宽度。
7.根据权利要求6所述的方法,其特征在于,所述步骤(5)中,对提取出的单个字符中误分割的字符进行校正的具体步骤如下:
1)针对每一个文本行,使用字宽融合方法对垂直投影法分割时的误分割结果进行处理:
通过比对前后两个字符总的宽度和平均字符的宽度Tw来判断这两个字符是不是由一个字符误分割而来:
其中,len(g)用于统计集合Ωi中各个子集的元素个数,Ωi,i=1,2,...,M是统计字符宽度w得到的集合,Ωi={w|w∈[(i-1)*10,i*10]},M是以10个像素为间隔将字符宽度区间[0,J]进行划分得到的子区间的数量,J由下面公式给出:
其中,max_w是所有字符候选者的最大宽度。
8.根据权利要求1或2或4或5或7所述的方法,其特征在于,所述步骤(6)中,采用卷积神经网络对单个字符进行识别包括字符图像预处理和字符图像识别。
9.根据权利要求8所述的方法,其特征在于,所述字符图像预处理具体如下:
对经过步骤(5)处理后得到的字符图像进行缩放,字符图像尺寸缩放到120×120,具体缩放通过以下实现:
计算字符图像的高和宽取出较长的一边记为x1,另一较短边记为x2,将x1缩放到120个像素,则x2等比缩放后的大小为:
对x2进行缩放后,将x2边的两边填充黑色像素以补齐120个像素。
10.根据权利要求9所述的方法,其特征在于,所述字符图像识别具体如下:
将经过预处理后的字符图像输入卷积神经网络,在卷积神经网络中进行前向传播,前向传播中的一个卷积操作如下:
表示第i层第j个特征图上(x,y)处神经元的值,的值由以下公式给出:
其中,tanh()是一个激活函数,bij是当前特征图的偏置,m是i-1层连接到当前特征图的特征图集合,是连接第k个特征层的卷积核在(p,q)处的值,Pi和Qi分别是卷积核的高度和宽度;
整个前向传播由若干个卷积和两个全连接层构成,卷积神经网络的全连接层给出对图像的识别结果。
CN201810446940.1A 2018-05-11 2018-05-11 一种基于卷积神经网络的屏幕渲染文本识别方法 Withdrawn CN108710882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810446940.1A CN108710882A (zh) 2018-05-11 2018-05-11 一种基于卷积神经网络的屏幕渲染文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810446940.1A CN108710882A (zh) 2018-05-11 2018-05-11 一种基于卷积神经网络的屏幕渲染文本识别方法

Publications (1)

Publication Number Publication Date
CN108710882A true CN108710882A (zh) 2018-10-26

Family

ID=63868900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810446940.1A Withdrawn CN108710882A (zh) 2018-05-11 2018-05-11 一种基于卷积神经网络的屏幕渲染文本识别方法

Country Status (1)

Country Link
CN (1) CN108710882A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109740548A (zh) * 2019-01-08 2019-05-10 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN109784342A (zh) * 2019-01-24 2019-05-21 厦门商集网络科技有限责任公司 一种基于深度学习模型的ocr识别方法及终端
CN109800746A (zh) * 2018-12-05 2019-05-24 天津大学 一种基于cnn的手写英文文档识别方法
CN110032934A (zh) * 2019-03-07 2019-07-19 永德利硅橡胶科技(深圳)有限公司 基于图片的全语通的实现方法及相关产品
CN111291758A (zh) * 2020-02-17 2020-06-16 北京百度网讯科技有限公司 用于识别印章文字的方法和装置
CN112365451A (zh) * 2020-10-23 2021-02-12 微民保险代理有限公司 图像质量等级的确定方法、装置、设备及计算机可读介质
CN112508007A (zh) * 2020-11-18 2021-03-16 中国人民解放军战略支援部队航天工程大学 基于图像分割Mask和神经渲染的空间目标6D姿态估计技术
CN113705338A (zh) * 2021-07-15 2021-11-26 电子科技大学 一种改进的离线手写汉字识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247540A (zh) * 2013-06-09 2016-01-13 苹果公司 管理实时手写识别

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105247540A (zh) * 2013-06-09 2016-01-13 苹果公司 管理实时手写识别

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIN XU等: "Chinese Characters Recognition from Screen-Rendered Images Using Inception Deep Learning Architecture", 《PCM 2017: ADVANCES IN MULTIMEDIA INFORMATION PROCESSING》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800746A (zh) * 2018-12-05 2019-05-24 天津大学 一种基于cnn的手写英文文档识别方法
CN109740548B (zh) * 2019-01-08 2020-12-08 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN109740548A (zh) * 2019-01-08 2019-05-10 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109598272B (zh) * 2019-01-11 2021-08-06 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质
CN109784342A (zh) * 2019-01-24 2019-05-21 厦门商集网络科技有限责任公司 一种基于深度学习模型的ocr识别方法及终端
CN109784342B (zh) * 2019-01-24 2021-03-12 厦门商集网络科技有限责任公司 一种基于深度学习模型的ocr识别方法及终端
CN110032934A (zh) * 2019-03-07 2019-07-19 永德利硅橡胶科技(深圳)有限公司 基于图片的全语通的实现方法及相关产品
CN111291758A (zh) * 2020-02-17 2020-06-16 北京百度网讯科技有限公司 用于识别印章文字的方法和装置
CN112365451A (zh) * 2020-10-23 2021-02-12 微民保险代理有限公司 图像质量等级的确定方法、装置、设备及计算机可读介质
CN112508007A (zh) * 2020-11-18 2021-03-16 中国人民解放军战略支援部队航天工程大学 基于图像分割Mask和神经渲染的空间目标6D姿态估计技术
CN112508007B (zh) * 2020-11-18 2023-09-29 中国人民解放军战略支援部队航天工程大学 基于图像分割Mask和神经渲染的空间目标6D姿态估计方法
CN113705338A (zh) * 2021-07-15 2021-11-26 电子科技大学 一种改进的离线手写汉字识别方法
CN113705338B (zh) * 2021-07-15 2023-04-07 电子科技大学 一种改进的离线手写汉字识别方法

Similar Documents

Publication Publication Date Title
CN108710882A (zh) 一种基于卷积神经网络的屏幕渲染文本识别方法
Gatos et al. Automatic table detection in document images
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
Dongre et al. Devnagari document segmentation using histogram approach
LeBourgeois Robust multifont OCR system from gray level images
CN111310760B (zh) 结合局部先验特征和深度卷积特征的甲骨刻辞文字检测方法
Xu et al. Page segmentation for historical handwritten documents using fully convolutional networks
CN111291629A (zh) 图像中文本的识别方法、装置、计算机设备及计算机存储介质
CN109784342A (zh) 一种基于深度学习模型的ocr识别方法及终端
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN109886978A (zh) 一种基于深度学习的端到端告警信息识别方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Chen et al. Attacking optical character recognition (ocr) systems with adversarial watermarks
CN113673384A (zh) Lm滤波器组引导纹理特征自主学习的甲骨文字检测方法
Yokobayashi et al. Binarization and recognition of degraded characters using a maximum separability axis in color space and gat correlation
Smith et al. Effect of" ground truth" on image binarization
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
Ovodov Optical braille recognition using object detection neural network
CN107609482B (zh) 一种基于汉字笔画特征的中文文本图像倒置判别方法
CN114241490A (zh) 基于笔画扰动与后处理的手写体识别模型性能的提升方法
Li An effective approach to offline arabic handwriting recognition
CN110991440B (zh) 一种像素驱动的手机操作界面文本检测方法
CN110298236B (zh) 一种基于深度学习的盲文图像自动识别方法和系统
Najoua et al. A robust approach for Arabic printed character segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20181026

WW01 Invention patent application withdrawn after publication