CN105469047A - 基于无监督学习深度学习网络的中文检测方法及系统 - Google Patents

基于无监督学习深度学习网络的中文检测方法及系统 Download PDF

Info

Publication number
CN105469047A
CN105469047A CN201510819927.2A CN201510819927A CN105469047A CN 105469047 A CN105469047 A CN 105469047A CN 201510819927 A CN201510819927 A CN 201510819927A CN 105469047 A CN105469047 A CN 105469047A
Authority
CN
China
Prior art keywords
character
degree
algorithm
unsupervised learning
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510819927.2A
Other languages
English (en)
Other versions
CN105469047B (zh
Inventor
周异
陈凯
周曲
任逍航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510819927.2A priority Critical patent/CN105469047B/zh
Publication of CN105469047A publication Critical patent/CN105469047A/zh
Application granted granted Critical
Publication of CN105469047B publication Critical patent/CN105469047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种基于无监督学习深度学习网络的中文检测方法及系统。本发明使用无监督学习法训练一个深度卷积神经网络,而后使用该网络对自然图像中的各个候选文字区域进行分类,最后对分类为文字的区域进行文本行聚合,检测得到图像中的文字区域。本发明抓住深度学习网络对图像特征超强的提取能力,利用无监督学习强大的训练能力,针对中文字特征训练深度卷积神经网络,实现文字区域定位和分割,方法简单有效;针对文字特征构建了深度卷积神经网络无监督学习方法,在文字检测方面具有更好的针对性,因此具有更高的主动性和精确性。

Description

基于无监督学习深度学习网络的中文检测方法及系统
技术领域
本发明涉及一种图像处理技术领域,具体地说,涉及的是一种在自然场景图像中基于无监督学习深度学习网络的文字检测方法及系统。
背景技术
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式,从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。
文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域,然后从结构分析出发,通过合并方法将文本行标示,输出结果。
传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字,情况更加复杂。
经检索,于慧敏和李天豪申请的公开号为104794504A、申请号为201510207913.5的发明专利申请,该发明公开了一种在自然场景图像中基于深度学习的文字检测方法。首先,通过图形图案文字样本合成训练深度卷积自编码网络,然后使用已标记的样本,通过稀疏字典进行分类。之后使用合成的样本集,建立深度卷积自编码网络,并使用分层训练、整体调优的方式学习特征模板;然后对已有的标记样本,使用深度网络学习得到的特征模板进行特征提取;最后把提取的特征上采样至原图大小,并以单个分块作为识别的单位,训练稀疏字典以及分类器。在完成训练步骤后,对待处理的图像进行多分辨率分解,并使用特征模板提取特征,再使用稀疏字典进行分类获取结果。该发明使用稀疏字典分类方法在复杂中文文字的检测上效果不佳,原因是此类文字出现概率小,字典中很难找到。
发明内容
本发明的目的在于针对目前图像文本定位上的定位不甚理想的情况,提出一种在自然场景图像中基于无监督学习深度学习网络的中文检测方法及系统,采用基于深度学习的文字区域特征提取和分类的方法,可以克服上述问题,提高识别效果。
为实现上述目的,本发明采用以下技术方案:本发明使用无监督学习法训练一个深度卷积神经网络,而后使用该网络对自然图像中的各个候选文字区域进行分类,最后对分类为文字的区域进行文本行聚合,检测得到图像中的文字区域。
本发明抓住深度学习网络对图像特征超强的提取能力,利用无监督学习强大的训练能力,针对中文字特征训练深度卷积神经网络,实现文字区域定位和分割,方法简单有效。这种方法针对文字特征构建了深度卷积神经网络无监督学习方法,在文字检测方面具有更好的针对性,因此具有更高的主动性和精确性。
具体的:
本发明提供一种基于无监督学习深度学习网络的文字检测的方法,包括以下步骤:
第一步,训练深度卷积神经网络:
构建无监督学习算法:以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集:中文字数据集包括常用字以及常用字体;
使用无监督学习算法和所述中文字数据集训练深度卷积神经网络;
第二步,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
第三步,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
上述第一步中,需要根据中文字特征构建无监督学习算法,算法具体流程如下:
(1)根据卷积运算和离散编码算法构建目标函数,优化目标为:特征h,字典D和网络参数p;
(2)固定字典D,使用FISTA(FASTIterativeShrinkage-ThresholdingAlgorithm)法得到最优特征h‘;
(3)固定最优特征h‘,单次使用随机梯度下降法训练字典D;
(4)固定最优特征h‘,多次使用随机梯度下降法训练网络参数p,直至训练误差小于预设值θ;
(5)使用最新网络参数p重新计算特征h;
(6)重复上述(2)-(5)步骤直至达到学习目标。
上述第一步中,人工建立中文字数据集,数据集具体特征如下:
(1)所用文字为3500个常用字;
(2)所用字体为15种有代表性的字体;
(3)文字图像类型为黑底白字和白底黑字两种;
(4)文字图像大小为32×32。
上述第二步中,所述多尺度滑动窗算法的提取参数如下:
(1)最大尺度为1/4图像大小,最小尺度为20像素;
(2)重叠系数为0.5滑动提取;
(3)提取出的图像块长宽比为1:1,并统一缩放为32×32的图像块。
上述第三步中,利用第二步得到的文字区域,执行基于区域相关性的文本行聚合算法,具体相关性特征和聚合规则如下:
(1)两个文字区域的高度比值该在0.5和2之间;
(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2;
(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍;
(4)单个文本行至少有三个或以上的文字区域。
本发明还提供一种用于实现上述方法的基于无监督学习深度学习网络的中文检测系统,包括:
深度卷积神经网络模块,该模块包括构建无监督学习算法子模块和建立中文字数据集子模块,其中:
构建无监督学习算法子模块,以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集子模块,用于建立中文字数据集,所述中文字数据集包括常用字以及常用字体;
构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络;
文字区域提取模块,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
文字区域聚合模块,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
与现有技术相比,本发明具有如下的有益效果:
本发明利用无监督学习法训练深度卷积神经网络,然后多尺度滑动窗算法提取候选文字区域,最后训练得到的神经网络模型对候选文字区域进行分类并根据相关性进行文本行聚合得到文字区域。传统的区域提取方法在处理一些受到干扰的文字时效果不甚理想,比如最常见的闪光灯下的文字,传统方法会将一个文字的不同部分和背景连成一体,成为混合了背景的多个区域。本发明的深度卷积神经网络方法可以有效地将存在干扰的文字和背景分成不同的两类,因此在处理复杂干扰影响的文字具有更高的准确性。综上,本发明基于无监督学习深度学习网络的文字检测方法相比于传统的文本检测等方法,拥有更高的主动性和精确性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明一实施例的方法流程图;
图2是本发明一实施例中的无监督学习算法的流程图;
图3是本发明一实施例的系统框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明使用无监督学习法训练一个深度卷积神经网络,而后使用该网络对自然图像中的各个候选文字区域进行分类,最后对分类为文字的区域进行文本行聚合,检测得到图像中的文字区域。该无监督学习方法基于卷积运算和离散编码算法构成,针对文字特性强化了网络参数的学习过程。在无监督学习过程中,使用人工构建的文字图像(训练数据集)进行训练,扩大了训练样本数,增强了训练的准确性。使用多尺度滑动窗算法提取自然图像中的候选文字区域,可以保证检测出各个尺度的文字区域。本发明以无监督学习深度学习网络的强文字特征提取能力为出发点,针对中文字特性做了强化训练,因此具有更高的主动性和精确性。
如图1所示,本实施例提供一种基于无监督学习深度学习网络的文字检测方法,流程可以分为以下几个步骤:
步骤1:人工构建中文字数据集作为训练数据集,提供足够多的训练数据;
步骤2:构建无监督学习算法:以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
上述步骤1和2可以顺序互换,或者同时进行,步骤1和2都完成后,使用无监督学习算法,用构建好的数据集训练深度卷积神经网络;
步骤3:使用多尺度滑动窗算法提取自然图像中的候选文字区域;
步骤4:使用训练好的深度卷积神经网络对候选文字区域进行分类;
步骤5:对分类得到的文字区域进行相关性分析,根据规则进行聚合;
步骤6:标记检测出的文本行,检测结束。
作为一个优选实施方式,所述步骤1:使用人工合成的方式获得足够多的训练图像,合成的图像参数如下:
(1)图像大小:32×32;
(2)文字集:3500常用字;
(3)文字字体:15种常用字体;
(4)文字大小:24;
(5)文字背景:白底黑字和黑底白字;
作为一个优选实施方式,所述步骤2:如图2所示,需要注意的是,结合卷积运算和离散编码算法构建无监督学习算法只是无监督学习算法的一种可能方式,也可以采取其它方式得到进行无监督学习。无监督学习算法的思路如下:由于在一个优化方程中存在三个优化目标,因此首先固定一个优化目标:字典D,使用FISTA法对特征h进行优化;然后根据优化得到的最优特征h’,使用随机梯度下降法对字典D和网络参数p进行优化,由于网络参数p的优化难度大大高于字典D,因此在优化网络参数p是需要引入优化目标,在达到目标之前反复优化;最后使用优化结果更新优化目标初始值,重复上述过程进行迭代,直到达到优化目标。具体过程如下:
(1)对优化目标进行随机初始化;
(2)固定字典D,使用FISTA法对特征h进行优化,FISTA法的最大迭代次数为50;
(3)固定(2)中得到的最优特征h’,使用随机梯度下降法对字典D进行单次优化;
(4)固定(2)中得到的最优特征h’,使用随机梯度下降法对网络参数p进行多次优化,直到误差值小于预设值θ;
(5)使用优化结果更新优化目标初始值;
(6)重复(2)-(5)过程,直到训练完成。
作为一个优选实施方式,所述步骤3:使用多尺度滑动窗算法提取自然图像中的候选文字区域,算法具体参数如下:
(1)最大尺度为1/4图像大小,最小尺度为20像素;
(2)最小尺度为20像素;
(3)重叠系数为0.5滑动提取;
(4)图像块长宽比为1:1;
(5)图像块大小缩放为32×32。
所述重叠系数可以根据计算能力调整,图像块大小根据神经网络可以调整。
作为一个优选实施方式,所述步骤4:训练好的深度卷积神经网络对候选文字区域进行分类,将候选文字区域分成文字区域和非文字区域两类:
作为一个优选实施方式,所述步骤5:分析文字区域之间的相关性,并根据一定规则进行聚合。具体相关性和规则如下:
①相关性:
1)文字区域的高度;
2)文字区域的水平位置;
3)文字区域的垂直位置.
②文字区域聚合规则:
1)两个文字区域的高度比值该在0.5和2之间;
2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2;
3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍;
4)单个文本行至少有三个或以上的文字区域。
如图3所示,本发明还提供一种用于实现上述方法的基于无监督学习深度学习网络的中文检测系统,包括:
深度卷积神经网络模块,该模块包括构建无监督学习算法子模块和建立中文字数据集子模块,其中:
构建无监督学习算法子模块,以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集子模块,用于建立中文字数据集,所述中文字数据集包括常用字以及常用字体;
构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络;
文字区域提取模块,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
文字区域聚合模块,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
上述各个模块中采用与方法各步骤中的技术特征相对应,图3中:中文字数据集对应数据集建立(步骤1和步骤2),深度卷积神经网络对应了文字结构检测层的深度神经网络(步骤1和步骤2完成后的训练深度卷积神经网络),文字区域提取对应了滑动窗提取并用神经网络分类(步骤3和4),文字区域聚合对应了文字区域相关性分析与聚合(步骤5)。系统中对各模块的具体实现技术不再赘述,该系统能很好的实现文字结构检测。
常用的文字区域分类方法在处理一些受到干扰的文字时效果不甚理想,比如最常见的闪光灯下的文字,传统方法会将一个文字的不同部分和背景连成一体,成为混合了背景的多个区域。本发明的深度卷积神经网络方法可以有效地将存在干扰的文字和背景分成不同的两类,因此在处理复杂干扰影响的文字具有更高的准确性,方法简单有效,而且对复杂背景图像文字检测有非常好的效果。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (6)

1.一种基于无监督学习深度学习网络的中文检测方法,其特征在于包括以下步骤:
第一步,训练深度卷积神经网络:
构建无监督学习算法:以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集:中文字数据集包括常用字以及常用字体;
使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络;
第二步,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
第三步,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
2.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于所述第一步,具体过程如下:
(1)根据卷积运算和离散编码算法构建目标函数,优化目标为:特征h,字典D和网络参数p;
(2)固定字典D,使用FISTA法得到最优特征h‘;
(3)固定最优特征h‘,单次使用随机梯度下降法训练字典D;
(4)固定最优特征h‘,多次使用随机梯度下降法训练网络参数p,直至训练误差小于预设值θ;
(5)使用最新网络参数p重新计算特征h;
(6)重复上述(2)-(5)步骤直至达到学习目标。
3.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于第一步中,建立的中文字数据集特征如下:
所用文字为3500个常用字;
所用字体为15种有代表性的字体;
文字图像类型为黑底白字和白底黑字两种;
文字图像大小为32×32。
4.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于第二步中,所述多尺度滑动窗算法,其提取参数如下:
最大尺度为1/4图像大小,最小尺度为20像素;
重叠系数为0.5滑动提取;
提取出的图像块长宽比为1:1,并统一缩放为32×32的图像块。
5.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法,其特征在于第三步中,利用第二步得到的文字区域,执行基于区域相关性的文本行聚合算法,具体相关性特征和聚合规则如下:
(1)两个文字区域的高度比值在0.5和2之间;
(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2;
(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍;
(4)单个文本行至少有三个或以上的文字区域;
相关性为:两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差;
聚合规则为:高度比值该在0.5和2之间、中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2、中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍。
6.一种用于实现权利要求1-5任一项所述方法的基于无监督学习深度学习网络的中文检测系统,其特征在于包括:
深度卷积神经网络模块,该模块包括构建无监督学习算法子模块和建立中文字数据集子模块,其中:
构建无监督学习算法子模块,以卷积运算和离散编码算法为基础,针对深度学习网络和中文字的特性,构建深度卷积神经网络的无监督学习算法;
建立中文字数据集子模块,用于建立中文字数据集,所述中文字数据集包括常用字以及常用字体;
构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络;
文字区域提取模块,使用多尺度滑动窗算法提取自然图像中的候选文字区域,并由训练得到的所述深度卷积神经网络进行分类,得到文字区域;
文字区域聚合模块,分析文字区域之间的相关性,将相关文字区域聚合成文本行,并用矩形框对文本行加以标定。
CN201510819927.2A 2015-11-23 2015-11-23 基于无监督学习深度学习网络的中文检测方法及系统 Active CN105469047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510819927.2A CN105469047B (zh) 2015-11-23 2015-11-23 基于无监督学习深度学习网络的中文检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510819927.2A CN105469047B (zh) 2015-11-23 2015-11-23 基于无监督学习深度学习网络的中文检测方法及系统

Publications (2)

Publication Number Publication Date
CN105469047A true CN105469047A (zh) 2016-04-06
CN105469047B CN105469047B (zh) 2019-02-22

Family

ID=55606718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510819927.2A Active CN105469047B (zh) 2015-11-23 2015-11-23 基于无监督学习深度学习网络的中文检测方法及系统

Country Status (1)

Country Link
CN (1) CN105469047B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106097353A (zh) * 2016-06-15 2016-11-09 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN107784316A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种图像识别方法、装置、系统和计算设备
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
CN109241974A (zh) * 2018-08-23 2019-01-18 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109308476A (zh) * 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、系统及计算机可读存储介质
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN110516665A (zh) * 2019-08-23 2019-11-29 上海眼控科技股份有限公司 识别图像叠加文字区域的神经网络模型构建方法与系统
CN110689447A (zh) * 2019-08-30 2020-01-14 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN111488873A (zh) * 2020-04-03 2020-08-04 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、系统、平台、设备及介质
CN111738326A (zh) * 2020-06-16 2020-10-02 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN112818978A (zh) * 2021-03-22 2021-05-18 东南大学 基于多分辨自动编码器的光学符号识别方法
CN113743229A (zh) * 2021-08-07 2021-12-03 北京惠朗时代科技有限公司 一种基于多尺度自编码的中文图像区域识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
US20140126812A1 (en) * 2012-04-27 2014-05-08 Abbyy Development Llc Detecting a junction in a text line of cjk characters
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
US20150178559A1 (en) * 2013-12-20 2015-06-25 Abbyy Development Llc Chinese, japanese, or korean language detection
CN104794504A (zh) * 2015-04-28 2015-07-22 浙江大学 基于深度学习的图形图案文字检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140126812A1 (en) * 2012-04-27 2014-05-08 Abbyy Development Llc Detecting a junction in a text line of cjk characters
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
US20150178559A1 (en) * 2013-12-20 2015-06-25 Abbyy Development Llc Chinese, japanese, or korean language detection
CN104050471A (zh) * 2014-05-27 2014-09-17 华中科技大学 一种自然场景文字检测方法及系统
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
CN104794504A (zh) * 2015-04-28 2015-07-22 浙江大学 基于深度学习的图形图案文字检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许可: "卷积神经网络在图像识别上的应用的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489913B2 (en) * 2016-06-15 2019-11-26 Beijing Sensetime Technology Development Co., Ltd. Methods and apparatuses, and computing devices for segmenting object
CN106097353A (zh) * 2016-06-15 2016-11-09 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
WO2018010657A1 (zh) * 2016-07-15 2018-01-18 北京市商汤科技开发有限公司 结构化文本检测方法和系统、计算设备
CN106295629B (zh) * 2016-07-15 2018-06-15 北京市商汤科技开发有限公司 结构化文本检测方法和系统
CN106295629A (zh) * 2016-07-15 2017-01-04 北京市商汤科技开发有限公司 结构化文本检测方法和系统
US10937166B2 (en) 2016-07-15 2021-03-02 Beijing Sensetime Technology Development Co., Ltd. Methods and systems for structured text detection, and non-transitory computer-readable medium
CN107784316A (zh) * 2016-08-26 2018-03-09 阿里巴巴集团控股有限公司 一种图像识别方法、装置、系统和计算设备
CN106897732A (zh) * 2017-01-06 2017-06-27 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN107545262A (zh) * 2017-07-31 2018-01-05 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
WO2019238063A1 (zh) * 2018-06-15 2019-12-19 众安信息技术服务有限公司 文本检测分析方法、装置及设备
CN109086756B (zh) * 2018-06-15 2021-08-03 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备
JP2020527260A (ja) * 2018-06-15 2020-09-03 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド テキスト検出分析方法、装置及びデバイス
CN109241974A (zh) * 2018-08-23 2019-01-18 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109241974B (zh) * 2018-08-23 2020-12-01 苏州研途教育科技有限公司 一种文本图像的识别方法及系统
CN109308476A (zh) * 2018-09-06 2019-02-05 邬国锐 票据信息处理方法、系统及计算机可读存储介质
CN109308476B (zh) * 2018-09-06 2019-08-27 邬国锐 票据信息处理方法、系统及计算机可读存储介质
CN109635808A (zh) * 2018-11-01 2019-04-16 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法
CN109635808B (zh) * 2018-11-01 2023-01-17 中国科学院信息工程研究所 一种在自然场景图像中对中文关键词及上下文的提取方法
CN109657629A (zh) * 2018-12-24 2019-04-19 科大讯飞股份有限公司 一种文本行提取方法及装置
CN110516665A (zh) * 2019-08-23 2019-11-29 上海眼控科技股份有限公司 识别图像叠加文字区域的神经网络模型构建方法与系统
CN110689447A (zh) * 2019-08-30 2020-01-14 中国科学院自动化研究所南京人工智能芯片创新研究院 一种基于深度学习的社交软件用户发布内容的实时检测方法
CN111488873A (zh) * 2020-04-03 2020-08-04 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111488873B (zh) * 2020-04-03 2023-10-24 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111539309A (zh) * 2020-04-21 2020-08-14 广州云从鼎望科技有限公司 一种基于ocr的数据处理方法、系统、平台、设备及介质
CN111738326A (zh) * 2020-06-16 2020-10-02 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN112818978B (zh) * 2021-03-22 2024-04-09 东南大学 基于多分辨自动编码器的光学符号识别方法
CN112818978A (zh) * 2021-03-22 2021-05-18 东南大学 基于多分辨自动编码器的光学符号识别方法
CN113743229A (zh) * 2021-08-07 2021-12-03 北京惠朗时代科技有限公司 一种基于多尺度自编码的中文图像区域识别方法及系统

Also Published As

Publication number Publication date
CN105469047B (zh) 2019-02-22

Similar Documents

Publication Publication Date Title
CN105469047A (zh) 基于无监督学习深度学习网络的中文检测方法及系统
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN105528595A (zh) 在无人机航拍图像中对输电线路绝缘子的识别定位方法
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
CN105931253A (zh) 一种基于半监督学习相结合的图像分割方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN105913053B (zh) 一种基于稀疏融合的单演多特征的人脸表情识别方法
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和系统
CN104463101A (zh) 用于文字性试题的答案识别方法及系统
CN108664975B (zh) 一种维吾尔文手写字母识别方法、系统及电子设备
CN105447522A (zh) 一种复杂图像文字识别系统
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN113537227B (zh) 一种结构化文本识别方法及系统
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN104598885A (zh) 街景图像中的文字标牌检测与定位方法
CN103593653A (zh) 基于扫描枪的字符二维条码识别方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN104239902A (zh) 基于非局部相似性和稀疏编码的高光谱图像分类方法
CN105160342A (zh) 一种基于hmm-gmm的自动文字图片切分方法及系统
CN105117740A (zh) 字体识别方法及装置
Elgammal et al. A graph-based segmentation and feature extraction framework for Arabic text recognition
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN102136074A (zh) 一种基于mmi的木材图像纹理分析与识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant