CN110503103A - 一种基于全卷积神经网络的文本行中的字符切分方法 - Google Patents

一种基于全卷积神经网络的文本行中的字符切分方法 Download PDF

Info

Publication number
CN110503103A
CN110503103A CN201910801512.0A CN201910801512A CN110503103A CN 110503103 A CN110503103 A CN 110503103A CN 201910801512 A CN201910801512 A CN 201910801512A CN 110503103 A CN110503103 A CN 110503103A
Authority
CN
China
Prior art keywords
text
line
region
image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910801512.0A
Other languages
English (en)
Other versions
CN110503103B (zh
Inventor
刘晋
余超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN201910801512.0A priority Critical patent/CN110503103B/zh
Publication of CN110503103A publication Critical patent/CN110503103A/zh
Application granted granted Critical
Publication of CN110503103B publication Critical patent/CN110503103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:获取待检测的文本行图像区域;采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;获取所述分类结果中属于同一类别的分类结果;对所述同一类别的分类结果进行区域划分,获得划分结果;根据划分结果,获得文字切分结果。应用本发明实施例,能够有效的避免复杂背景区域以及噪声的干扰,对大小,间距不统一的多语言文字混和的文本行图像进行精确的字符切分。

Description

一种基于全卷积神经网络的文本行中的字符切分方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于全卷积神经网络的文本行中的字符切分方法。
背景技术
随着移动终端和移动互联网的快速发展与广泛普及,通过摄像录像进行资讯的获取,分享和检索成为了现代人们的日常生活方式。在通过摄像头所获得的图像信息中,文字信息往往是用户首先会去注意和理解的内容,因此,通过识别图像中的文字信息能够使用户更方便的理解图片,同样也可以使图像文字转化为语音方便人们感受。
近年来,文本行的文字分割和识别是通过传统的图像处理方式进行,处理前需要经过大量的预处理,包括降噪,增强对比度,灰度化,二值化等。文字切割包括:连通域算法,识别则通过规则和特征的匹配进行。
由于人工设定的阈值,特征,规则受较多的主观因素影响,通用性较差,对于多种变化的复杂场景,包括:背景遮挡文字,切分文字,污损文字,粘连文字,传统的字符切分方法往往不尽人意。另外文字的形态变化如:艺术字,手写字,渐变色文字会对规则特征匹配产生较大的影响。因此,传统的字符切分方法在对复杂背景下的文本行中的字符进行切分时很容易会产生字符过切、漏切、错切等问题,导致字符切分的准确率较低。
发明内容
本发明的目的在于提供一种基于全卷积神经网络的文本行中的字符切分方法,旨在解决现有的字符进行切分时出现字符过切、漏切、错切的问题,通过将文本行图像缩放至不同尺度与对应大小的上采样层进行跳跃连接,以还原得到初始分辨率的特征信息图,在此过程中高级的语义特征信息和低级的边缘特征信息都能够保留。
为了实现上述目的,本发明提供一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:
获取待检测的文本行图像区域;
采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
获取所述分类结果中属于同一类别的分类结果;
对所述同一类别的分类结果进行区域划分,获得划分结果;
根据划分结果,获得文字切分结果。
进一步的,所述获取待检测的文本行图像区域的步骤,包括:
获取待检测文本图像;
对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;
将所述单行文本行所组成的区域确定为待检测的文本行图像区域。
进一步的,所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:
根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;
根据语义分割模型中的解码器,对所述文字边缘特征信息进行空间位置还原和像素分类。
进一步的,所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:
对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;
获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记。
进一步的,所述根据划分结果,获得文字切分结果的步骤,包括:
根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数,其中,所述位置参数包括:位置,高度和宽度;
根据所述位置参数,确定文字所在的最小的矩形区域。
进一步的,所述根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数的步骤,包括:
根据文字和矩形框的对应关系,得到每个文字范围区域的四个边界,其中,所述四个边界为该文字所对应的上边界、下边界、左边界和右边界;
根据坐标位置,计算文字字符块的高度和宽度。
进一步的,语义分割模型的训练方法包括:
接收样本图像和样本的标注信息;
将样本图像输入神经网络中,获得预测结果;
将所述预测结果与样本图像的标注信息进行损失函数的比较,获得损失值;
根据损失值和随机梯度下降法,对神经网络中各个节点进行反向传播,并修改节点权重;
根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络,获取所述语义预测模型。
进一步的,所述语义预测模型的条件随机场所使用的能量函数表达为:
θi(xi)=-logP(xi)
其中,θi(xi)为一元势函数,P(xi)为语义分割模型输出的像素i的结果类别的概率值,θij(xi,xj)为二元势函数,f(xi,xj)用于判断i和j是否是同一个像素,如果是则函数输出为0,否则输出为1,是两个高斯滤波器,pi代表像素i的位置坐标,gi代表像素i的灰度值,三个超参数控制高斯滤波器的缩放尺度大小。
应用本发明实施例提供的一种基于全卷积神经网络的文本行中的字符切分方法,结合了融合多尺度特征的全卷积神经网络和完全连接的条件随机场,通过计算相邻像素之间的位置与灰度分数来细化语义分割模型的输出结果,能够有效的避免复杂背景区域以及噪声的干扰,对大小,间距不统一的多语言文字混和的文本行图像进行精确的字符切分。
附图说明
图1是本发明实施例一种流程示意图。
图2是本发明实施例一种结构示意图。
图3是本发明实施例一种文本行图像输入示意图。
图4是本发明实施例一种文本行图像输出示意图。
图5是本发明实施例一种结果示意图。
图6是本发明实施例另一种流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-6。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1本发明提供一种基于全卷积神经网络的文本行中的字符切分方法,所述方法包括:
S1010,获取待检测的文本行图像区域;
需要说明的是,待检测图像可以是原始图像,也可以是经过灰度化等预处理后得到的图像,可以是不规则图像,大小尺寸可以不固定。
进一步的,对待检测文本图像进行预处理,确定待检测文本图像为所对应的单行文本行,将单行文本行所组成的区域确定为待检测的文本行图像区域。
S1020,采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
可以理解的是,通过语义分割模型中的编码器部分中的卷积层与池化层实现对待检测文本图像中的文字边缘特征信息进行提取。通过使用语义分割模型中的解码器部分中的转置卷积层与上采样层以及条件随机场实现对提取的文字边缘特征信息进行空间位置的还原和像素级别的分类。
进一步的,所述的基于多尺度的全卷积网络,其多尺度的实现包括使用将文本行图像缩放不同的比例使其尺寸和特征图的尺寸大小一致后连接合并或者通过在编码器和解码器中相应的层中加入跳跃结构。
本发明的一种实现方式中,所述的条件随机场,是一种全连接的条件随机场,这种条件随机场的模型使用的能量函数的公式表达为:
θi(xi)=-logP(xi)
其中,θi(xi)为一元势函数,P(xi)为语义分割模型输出的像素i的结果类别的概率值,θij(xi,xj)为二元势函数,f(xi,xj)用于判断i和j是否是同一个像素,如果是则函数输出为0,否则输出为1,是两个高斯滤波器,pi代表像素i的位置坐标,gi代表像素i的灰度值,三个超参数控制高斯滤波器的缩放尺度大小。
需要说明的是,语义分割模型通过训练全卷积神经网络获得,神经网络可以通过大量的输入估计一般的近似函数,有较强的适应性,而卷积网络通过局部连接,全局共享进一步的减少训练参数并且提升了神经网络对于特征的提取的能力,全卷积网络取消了卷积网络中全连接层替换成转置卷积层从而达到特征还原的效果。
如图2,在文本行图像的输入端,语义分割模型使用十三层卷积层与五层池化层组成了模型的编码层,用于对文本行图像进行文字边缘特征进行抽取。需要注意的是,所述语义分割模型虽然能够在进行预测时接受任意尺寸的文本行图像,但在应用到实施例中需要对模型进行训练时通常需要保证输入图像尺寸一致才能够进行批量训练。在一个实施例中,具体的卷积层及池化层的输入输出参数设置如下:
输入尺寸 输出尺寸
卷积层1 256×256×3 256×256×32
卷积层2 256×256×32 256×256×32
池化层1 256×256×32 128×128×32
卷积层3 128×128×32 128×128×64
卷积层4 128×128×64 128×128×64
池化层2 128×128×64 64×64×64
卷积层5 64×64×64 64×64×128
卷积层6 64×64×128 64×64×128
池化层3 64×64×128 32×32×128
卷积层7 32×32×128 32×32×256
卷积层8 32×32×256 32×32×256
池化层4 32×32×256 16×16×256
卷积层9 16×16×256 16×16×512
卷积层10 16×16×256 16×16×256
池化层5 16×16×256 8×8×256
整个网络中卷积层和转置卷积层中的卷积核尺寸都设置为3x3的大小,卷积层的卷积核的数目如上表所示,转置卷积层中的卷积核数目与卷积层正相反。池化层使用滤波器大小固定为2x2,上采样层位置与池化层相对应,使用滤波器大小也为2x2,每一层卷积层后都会进行一次归一化,并将线性整流函数(ReLU)作为激活函数。模型最后加入完全连接的条件随机场进行语义分割结果细化处理。模型使用预测结果的未归一化对数概率(logits)的求最大值的结果与真实值进行交叉熵(CrossEntropy)的运算从而获得损失值,通过使用随机梯度下降法将损失值进行反向传播用于修改神经网络中各个节点的权重,学习率设置为0.001。反向传播的原理是通过链式法则求出某个节点对于总损失函数的偏导。其中logits的最大值不再采用普通的将参数中最大的取出的办法,而是取出其中Softmax的最大值,其公式表达为:
其中V代表一个logits值,Vi代表V中第i个元素值,l代表V的长度,即logits中的每个元素的Softmax值为该元素的对数比上所有元素对数之和所得到的结果。
交叉熵的公式表达为:
其中n为输入特征数目,x为输入,y为预期输出值,yl为实际输出值。
神经网络中任意节点的更新值的计算公式为:
其中η为学习率,要利用该公式计算某个节点的损失值,可以通过链式法则对网络输出结果的损失值求偏导值得出。
可以理解的是,将待检测的文本行图像输入至预先训练得到的语义分割模型中进行语义分割,获取语义分割结果。其中所述分割结果通过将不同的文字区域和背景区域用不同的像素值来进行区分。其中文字区域指的是文字符号区别于背景图像的边缘内所有区域,而不是指包含文字的最小的矩形区域。
本发明的具体实施例中,图3为一个实施例中所接受的文本行图像输入,其中除了黑色区域以外的其他颜色的区域就是文字区域。每个文字区域中应当只包含一个单独完整的文字。在该实施例中,通过不同的像素值进行不同文字区域之间的区分,例如,在文本行中一个字符区域的颜色将会被标注为1,第二个字符区域则会被标注为2,以此类推,背景图像将被标注为0,所以一位的灰度值能够标注255个文字与背景图像的区别,图4为本方法预期得出的标准输出结果,获取分类结果。
S1030,获取所述分类结果中属于同一类别的分类结果;
S1040,对所述同一类别的分类结果进行区域划分,获得划分结果;
需要说明的是,使用连通区域标记搜索算法,对同一类别的分类结果中进行连通区域的查找,将分类结果中相邻且具有相同特性的结果标记合并在同一个区域中获得该区域的标记,获得划分结果。
S1050,根据划分结果,获得文字切分结果。
可以理解的是,获得文字切分结果后,根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置,高度和宽度,根据文字字符块的位置,高度和宽度,确定文字所在的最小的矩形区域。
具体来说就是通过将矩形框从四个方向逼近得到每个文字范围区域的上下左右四个边界,将矩形框左上角坐标记录为位置,计算右下角的坐标值减去左上角的坐标值得出文字字符块的高度和宽度,从而获得文字切分结果,如图5。
需要说明的是,收集大量复杂背景下包含文本行的图像,图像可以是二值化,灰度化或者RGB三通道彩色进行编码的,也可以是有噪声的,模糊的或者光照不均匀的。文字可以是不同语种,不同字体,不同颜色,经过旋转扭曲的或者不同尺寸的。但是必须得保证文字是完整的,截断的文字对于文字识别的客观因素影响目前阶段难以解决,样本图像的数量应当多于300。
遍历提取图像中的像素点并根据像素点所属类别进行标注,将不同的文字区域和背景区域用不同的像素值来进行区分。
根据标注内容重新生成新的标注图像,由于训练时灰度图所占用的内存更少而彩色的像素图可以让肉眼更清晰地看出语义分割的结果,所以在训练之前需要将彩色图像进行转换,将每种颜色值转换为对应一种灰度值,该步骤不能直接通过灰度化进行转换。
如图6,本发明还提供一种语义分割模型的训练方法:
步骤S5010,接收样本图像和样本的标注信息。
步骤S5020,将样本图像输入神经网络中,获得预测结果;
步骤S5030,将所述预测结果与样本图像的标注信息进行损失函数的比较,获得损失值;
步骤S5040,根据损失值和随机梯度下降法,对神经网络中各个节点进行反向传播,并修改节点权重;
步骤S5050,根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络,获取所述语义预测模型。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述方法包括:
获取待检测的文本行图像区域;
采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果;
获取所述分类结果中属于同一类别的分类结果;
对所述同一类别的分类结果进行区域划分,获得划分结果;
根据划分结果,获得文字切分结果。
2.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述获取待检测的文本行图像区域的步骤,包括:
获取待检测文本图像;
对所述待检测文本图像进行预处理,获取所述待检测文本图像所对应的单行文本行;
将所述单行文本行所组成的区域确定为待检测的文本行图像区域。
3.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述采用语义分割模型对所述文本行图像区域进行像素分类,获取分类结果步骤,包括:
根据语义分割模型的编码器,提取所述文本行图像区域的文字边缘特征;
根据语义分割模型中的解码器,对所述文字边缘特征信息进行空间位置还原和像素分类。
4.根据权利要求2所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述对所述同一类别的分类结果进行区域划分,获得划分结果,步骤包括:
对连通区域进行标记搜索,在所述同一类别的分类结果中,查找连通区域并标记;
获取相邻且具有相同特性的联通区域进行合并,并对合并区域进行标记。
5.根据权利要求3所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述根据划分结果,获得文字切分结果的步骤,包括:
根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数,其中,所述位置参数包括:位置,高度和宽度;
根据所述位置参数,确定文字所在的最小的矩形区域。
6.根据权利要求5述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述根据文字的类别标记,获取文字字符块,并记录所述文字字符块的位置参数的步骤,包括:
根据文字和矩形框的对应关系,得到每个文字范围区域的四个边界,其中,所述四个边界为该文字所对应的上边界、下边界、左边界和右边界;
根据坐标位置,计算文字字符块的高度和宽度。
7.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,语义分割模型的训练方法包括:
接收样本图像和样本的标注信息;
将样本图像输入神经网络中,获得预测结果;
将所述预测结果与样本图像的标注信息进行损失函数的比较,获得损失值;
根据损失值和随机梯度下降法,对神经网络中各个节点进行反向传播,并修改节点权重;
根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络,获取所述语义预测模型。
8.根据权利要求7所述的一种基于全卷积神经网络的文本行中的字符切分方法,其特征在于,所述语义预测模型的条件随机场所使用的能量函数表达为:
θi(xi)=-logP(xi)
其中,θi(xi)为一元势函数,P(xi)为语义分割模型输出的像素i的结果类别的概率值,θij(xi,xj)为二元势函数,t(xi,xj)用于判断i和j是否是同一个像素,如果是则函数输出为0,否则输出为1,是两个高斯滤波器,pi代表像素i的位置坐标,gi代表像素i的灰度值,三个超参数控制高斯滤波器的缩放尺度大小。
CN201910801512.0A 2019-08-28 2019-08-28 一种基于全卷积神经网络的文本行中的字符切分方法 Active CN110503103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910801512.0A CN110503103B (zh) 2019-08-28 2019-08-28 一种基于全卷积神经网络的文本行中的字符切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910801512.0A CN110503103B (zh) 2019-08-28 2019-08-28 一种基于全卷积神经网络的文本行中的字符切分方法

Publications (2)

Publication Number Publication Date
CN110503103A true CN110503103A (zh) 2019-11-26
CN110503103B CN110503103B (zh) 2023-04-07

Family

ID=68590086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910801512.0A Active CN110503103B (zh) 2019-08-28 2019-08-28 一种基于全卷积神经网络的文本行中的字符切分方法

Country Status (1)

Country Link
CN (1) CN110503103B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111582119A (zh) * 2020-04-29 2020-08-25 上海海事大学 一种文档图像处理方法以及二值化模型的训练方法
CN111931778A (zh) * 2020-07-21 2020-11-13 浪潮金融信息技术有限公司 一种基于行列切分的印刷体字符的识别方法
CN112733858A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN112749606A (zh) * 2020-03-05 2021-05-04 腾讯科技(深圳)有限公司 一种文本定位方法和装置
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014086287A1 (zh) * 2012-12-05 2014-06-12 上海合合信息科技发展有限公司 文本图像自动切分方法及装置,自动切分手写条目的方法
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014086287A1 (zh) * 2012-12-05 2014-06-12 上海合合信息科技发展有限公司 文本图像自动切分方法及装置,自动切分手写条目的方法
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王涛等: "基于语义分割技术的任意方向文字识别", 《应用科技》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160352A (zh) * 2019-12-27 2020-05-15 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN111160352B (zh) * 2019-12-27 2023-04-07 创新奇智(北京)科技有限公司 一种基于图像分割的工件金属表面文字识别方法及系统
CN112749606A (zh) * 2020-03-05 2021-05-04 腾讯科技(深圳)有限公司 一种文本定位方法和装置
CN111582119A (zh) * 2020-04-29 2020-08-25 上海海事大学 一种文档图像处理方法以及二值化模型的训练方法
CN111931778A (zh) * 2020-07-21 2020-11-13 浪潮金融信息技术有限公司 一种基于行列切分的印刷体字符的识别方法
CN111931778B (zh) * 2020-07-21 2022-08-09 浪潮金融信息技术有限公司 一种基于行列切分的印刷体字符的识别方法
CN112733858A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 基于字符区域检测的图像文字快速识别方法及装置
CN112990220A (zh) * 2021-04-19 2021-06-18 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统
CN112990220B (zh) * 2021-04-19 2022-08-05 烟台中科网络技术研究所 一种图像中目标文本智能识别方法及系统

Also Published As

Publication number Publication date
CN110503103B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110503103A (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109829443B (zh) 基于图像增强与3d卷积神经网络的视频行为识别方法
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN112287899A (zh) 基于yolo v5的无人机航拍图像河流排污口检测方法及系统
WO2018103608A1 (zh) 一种文字检测方法、装置及存储介质
CN107808132A (zh) 一种融合主题模型的场景图像分类方法
CN106960206A (zh) 字符识别方法和字符识别系统
CN108829826A (zh) 一种基于深度学习和语义分割的图像检索方法
CN107680090A (zh) 基于改进全卷积神经网络的输电线路绝缘子状态识别方法
CN106529380A (zh) 图像的识别方法及装置
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN109933975A (zh) 一种基于深度学习的验证码识别方法及系统
CN113673338B (zh) 自然场景文本图像字符像素弱监督自动标注方法、系统及介质
CN109409384A (zh) 基于细粒度图像的图像识别方法、装置、介质及设备
CN112381831B (zh) 基于图像间语义辅助的个性化图像分割方法及系统
CN106570521A (zh) 多语言场景字符识别方法及识别系统
CN109657715B (zh) 一种语义分割方法、装置、设备及介质
CN107330360A (zh) 一种行人衣着颜色识别、行人检索方法和装置
CN107958219A (zh) 基于多模型和多尺度特征的图像场景分类方法
Hao Multimedia English teaching analysis based on deep learning speech enhancement algorithm and robust expression positioning
CN112990220B (zh) 一种图像中目标文本智能识别方法及系统
CN103279753B (zh) 一种基于树结构指导的英文场景文本块识别方法
CN109460767A (zh) 基于规则的凸印银行卡卡号分割与识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant