CN111539412A - 一种基于ocr的图像分析方法、系统、设备及介质 - Google Patents

一种基于ocr的图像分析方法、系统、设备及介质 Download PDF

Info

Publication number
CN111539412A
CN111539412A CN202010315672.7A CN202010315672A CN111539412A CN 111539412 A CN111539412 A CN 111539412A CN 202010315672 A CN202010315672 A CN 202010315672A CN 111539412 A CN111539412 A CN 111539412A
Authority
CN
China
Prior art keywords
target image
ocr
semantic segmentation
image analysis
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010315672.7A
Other languages
English (en)
Other versions
CN111539412B (zh
Inventor
周曦
姚志强
林旸焜
许梅芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuncong Enterprise Development Co ltd
Original Assignee
Shanghai Yuncong Enterprise Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuncong Enterprise Development Co ltd filed Critical Shanghai Yuncong Enterprise Development Co ltd
Priority to CN202010315672.7A priority Critical patent/CN111539412B/zh
Publication of CN111539412A publication Critical patent/CN111539412A/zh
Application granted granted Critical
Publication of CN111539412B publication Critical patent/CN111539412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于OCR的图像分析方法、系统、设备及介质,包括:根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;基于所述语义分割结果对目标图像的版面进行分析。本发明通过对目标图像进行语义分割,根据分割后的结果进行版面分析,能够在遮挡、成像角度、旋转、光照等干扰下,快速、准确地检测目标图像中的文本;并且对于不规范的图像版式或表面,本发明也能结构化提取字段信息。

Description

一种基于OCR的图像分析方法、系统、设备及介质
技术领域
本发明涉及图像技术领域,特别是涉及一种基于OCR的图像分析方法、系统、设备及介质。
背景技术
版面分析或版式分析是OCR(Optical Character Recognize,光学字符识别)领域的重要问题,其目的是判断给定图片或图像中是否包含有指定目标及获得指定目标的准确位置及边界。在OCR领域,场景文本检测任务已广泛采用语义分割和通用对象检测框架。而由于遮挡、成像角度、旋转、光照等干扰,现有技术中普通的目标检测很难同时满足快速和准确的文本检测需求,且对于不规范的图像版式或版面,也不能结构化提取字段信息。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于OCR的图像分析方法、系统、设备及介质,用于解决现有技术中存在的问题。
为实现上述目的及其他相关目的,本发明提供一种基于OCR的图像分析方法,包括以下步骤:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
可选地,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:
通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。
可选地,标注的内容包括以下之一:文本行属性、角点、偏移量。
可选地,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型;
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
可选地,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。
可选地,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
可选地,还包括结合多种权重进行角点匹配;至少包括以下权重之一:距离、长宽比、角度。
可选地,对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
可选地,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性。
可选地,所述干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。
可选地,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算模型损失,并对所有的模型损失进行加权,获取模型的总损失。
可选地,计算的模型损失包括以下至少之一:平滑L1损失、交叉熵损失。
可选地,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。
可选地,通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。
可选地,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构提升全卷积网络的感受野。
本发明还提供一种基于OCR的图像分析系统,包括:
分割模块,用于根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
分析模块,用于基于所述语义分割结果对目标图像的版面进行分析。
可选地,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:
通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。
可选地,标注的内容包括以下之一:文本行属性、角点、偏移量。
可选地,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型;
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
可选地,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。
可选地,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
可选地,还包括结合多种权重进行角点匹配;至少包括以下权重之一:距离、长宽比、角度。
可选地,对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
可选地,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性。
可选地,所述干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。
可选地,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算模型损失,并对所有的模型损失进行加权,获取模型的总损失。
可选地,计算的模型损失包括以下至少之一:平滑L1损失、交叉熵损失。
可选地,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。
可选地,通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。
可选地,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构提升全卷积网络的感受野。
本发明还提供一种基于OCR的图像分析设备,包括有:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
本发明还提供一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如上述中一个或多个所述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如上述中一个或多个所述的方法。
如上所述,本发明提供的一种基于OCR的图像分析方法、系统、设备及介质,具有以下有益效果:根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;基于所述语义分割结果对目标图像的版面进行分析。本发明通过对目标图像进行语义分割,根据分割后的结果进行版面分析,能够在遮挡、成像角度、旋转、光照等干扰下,快速、准确地检测目标图像中的文本;并且对于不规范的图像版式或表面,本发明也能结构化提取字段信息。
附图说明
图1为一实施例提供的基于OCR的图像分析方法的流程示意图;
图2为一实施例提供的基于OCR的图像分析系统的硬件结构示意图;
图3为一实施例提供的终端设备的硬件结构示意图;
图4为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
M10 分割模块
M20 分析模块
1100 输入设备
1101 第一处理器
1102 输出设备
1103 第一存储器
1104 通信总线
1200 处理组件
1201 第二处理器
1202 第二存储器
1203 通信组件
1204 电源组件
1205 多媒体组件
1206 语音组件
1207 输入/输出接口
1208 传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于OCR的图像分析方法,包括以下步骤:
S100,根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
S200,基于所述语义分割结果对目标图像的版面进行分析。
通过上述方案的记载,本方法能够在遮挡、成像角度、旋转、光照等干扰下,快速、准确地检测目标图像中的文本;并且对于不规范的图像版式或表面,本方法也能结构化提取字段信息。
在一示例性实施例中,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。作为示例,对于票据或证件进行区域检测,可以通过文本位置矫正等算法对目标图像进行预处理。本申请实施例中,将目标图像的文本框标注转化为像素级别的标注,其中标注的内容包括以下之一:文本行属性、角点、偏移量。
在一示例性实施例中,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型。作为示例,基于深度学习的整体方案,使用带有动量(Momentum)的随机梯度下降(Stochastic gradient descent,SGD)进行训练,同时使用L2正则化与学习率衰减;训练出一个或多个版面分析深度学习网络模型。并通过分类和回归的方法划分,将所需要的字段文本分类,得到文本响应的坐标值,实现文本结构化识别。
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
本申请实施例中,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算版面分析深度学习网络模型损失,并对所有的版面分析深度学习网络模型损失进行加权,获取版面分析深度学习网络模型的总损失。例如,计算模型中的平滑L1损失(Smooth L1 Loss)、交叉熵损失(Cross Entropy Loss),并对平滑L1损失和交叉熵损失进行加权,得到模型的总损失。作为示例,本申请实施例在训练时,还使用在先难例挖掘(Online Hard Example Mining,OHEM)的方法进行正负样本的平衡,从而提升整体结果的召回率(Recall)。
本申请实施例中,在获得一个或多个版面分析深度学习网络模型后,还可以根据后续识别对模型进行微调、量化、剪枝的处理。
根据上述示例性实施例可知,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。其中,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
在本申请实施例中,还包括使用Advanced-EAST(An Efficient and AccurateScene Text Detector)的方法回归文本框,通过预测像素点相对于文本框的偏移量得到对应的四点位置,实现高精确度的文本框边界回归。例如,仅用角点区域内的像素点进行预测,增加对于文本框角点区域的预测,精确获得文本框边界。其中,对较大与较小的偏移量使用不同的卷积核进行回归。
在一示例性实施例中,在精确获得文本框边界后,对于预测得到的文本像素点,使用深度优先搜索(DFS)得到文本行连通块,在角点区域内进行文本框的四点回归。由此获得的文本行可能会出现文本行上下粘连或重叠的问题,因此,本实施例还可以结合多种权重进行角点匹配,例如权重可以包括距离、长宽比、角度等。同时,对于重合度较大的文本框进行合并,减少噪声的干扰。
根据上述示例性实施例的记载,通过对目标对象进行预处理,再基于目标图像的特征进行语义分割,获取预测的像素点;
对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
在一示例性实施例中,版式分析或版面分析(Layout Analysis)可能由于目标的内在变化,如指定目标具有复杂的细节或目标具有遮挡;或者由于外在条件变化,如成像角度、平面旋转、深度旋转、光照变化、采集途径等,使得版式分析或版面分析不能准确确定目标的文本框。因此,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性或泛化能力。作为示例,其中干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。通过增加鲁棒性或泛化能力后,本方法对光照、阴影、褶皱、印章、背景干扰、印刷错位、质量图像等现实场景中的图像问题有很好的鲁棒性。
在一些示例性实施例中,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。作为示例,本申请实施例可以通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。具体地,利用卷积神经网络CNN获得目标图像特征,对底层特征进行提取,再在DeeplabV3+(谷歌在2018年提出的语义分割算法)的基本框架上,使用ResNet50(50层的深度残差网络)、MobileNetV2(谷歌在2018年提出的轻量级网络结构)等全卷积网络提取特征,获得目标图像的全局特征、目标图像的局部特征。在本申请实施例中,还通过对全卷积网络不同层之间的上采样和卷积融合,不仅能够兼顾全局特征和局部特征,还能够获得目标图像的全局上下文信息,有效地减少了噪声的影响,进而可以达到了由粗到精的像素级别语义分割。
其中,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构在保持参数的同时提升全卷积网络的感受野。本方法通过提升全卷积网络的感受野,在OCR领域能够满足对左右边界回归的准确率要求高、感受野要求高的文本长度跨度很大的语言(例如中文)的版面分析或版式分析。
根据上述记载,作为示例,在某一具体实施例中,包括:
输入目标图像,从目标图像中按1:4、1:8、1:16分别缩小4倍、8倍、16倍的方式获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性(或目标图像层级的上下文之间的互相作用)进行特征融合;并将目标图像的文本框标注转化为像素级别的标注,标注的内容包括以下之一:文本行属性、角点、偏移量。
然后通过一个或多个版面分析深度学习网络模型对进行特征融合后的目标对象进行语义分割,进行的语义分割包括回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。获取语义分割结果,包括通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
获取所有的预测像素点,并对所有的预测像素点进行分类,得到文本框的属性,根据文本框的属性对目标图像进行版式分析。
综上所述,本方法通过先对目标图像进行预处理、鲁棒性或泛化能力增强,再获取目标图像的特征,然后基于训练后的版面分析深度学习网络模型对目标图像的特征进行语义分割,获取目标图像中文本框的边界精确位置,最后通过对所有预测像素点进行分类,得到文本框的属性;根据文本框的属性对图像进行版面分析。其中,包括利用卷积神经网络CNN获得图像特征,对底层特征进行提取,基于DeeplabV3+的框架,使用包括但不限于ResNet50,MobileNetV2等多种结构进行多尺度全卷积网络提取特征,并进行像素级别的语义分割,实现文字/背景标注的精细定位。再使用空洞卷积级联及不同采样率空洞卷积并行架构,保持参数量的同时提升全卷积网络的感受野。并通过对全卷积网络不同层之间的上采样与卷积融合,兼顾全局特征和局部特征,获得目标图像更多的全局上下文信息,有效地减少噪声的影响。同时将文本框标注转化为像素级别的标注,包括标注文本行属性、角点、偏移量等。并通过数据增强算法,增加版面分析深度学习网络模型对背景、旋转、透视畸变、噪声、高斯模糊和运动模糊等的泛化能力或鲁棒性。并且在训练版面分析深度学习网络模型时,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,使用L2正则化与学习率衰减,获得所需的文本定位并分类,进而实现文本的结构化。包括通过对目标区域检测,校正方向。使用Advanced-EAST的方法回归文本框,通过预测像素点相对于文本框的偏移量得到对应的四点位置。在此基础上,增加了对于文本框角点区域的预测,通过对角点区域内的像素点进行预测,增加了文本框边界回归的精确性。同时对较大与较小的偏移量使用不同的卷积核进行回归。对于不同属性的预测,使用不同的方法计算损失,包括平滑L1损失、交叉熵损失等,总体损失通过对多个损失加权得到。使用在先难例挖掘的方法进行正负样本的平衡,从而提升整体结果的召回率。再对预测得到的文本像素点,使用深度优先搜索得到文本行连通块,在角点区域进行文本框的四点回归。针对可能出现的文本行上下粘连或重叠问题,增加了多种权重结合的方法进行角点匹配,其中包括距离、长宽比、角度等。还通过对重合度较大的文本框进行合并,减少噪声的干扰。最后通过文本框内的所有的预测像素点及其对应的分类属性,实现版面分析。
如图2所示,本发明还提供一种基于OCR的图像分析系统,包括:
分割模块M10,用于根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
分析模块M20,用于基于所述语义分割结果对目标图像的版面进行分析。
通过上述方案的记载,本系统能够在遮挡、成像角度、旋转、光照等干扰下,快速、准确地检测目标图像中的文本;并且对于不规范的图像版式或表面,本系统也能结构化提取字段信息。
在一示例性实施例中,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。作为示例,对于票据或证件进行区域检测,可以通过文本位置矫正等算法对目标图像进行预处理。本申请实施例中,将目标图像的文本框标注转化为像素级别的标注,其中标注的内容包括以下之一:文本行属性、角点、偏移量。
在一示例性实施例中,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型。作为示例,基于深度学习的整体方案,使用带有动量(Momentum)的随机梯度下降(Stochastic gradient descent,SGD)进行训练,同时使用L2正则化与学习率衰减;训练出一个或多个版面分析深度学习网络模型。并通过分类和回归的系统划分,将所需要的字段文本分类,得到文本响应的坐标值,实现文本结构化识别。
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
本申请实施例中,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的系统计算版面分析深度学习网络模型损失,并对所有的版面分析深度学习网络模型损失进行加权,获取版面分析深度学习网络模型的总损失。例如,计算模型中的平滑L1损失(Smooth L1 Loss)、交叉熵损失(Cross Entropy Loss),并对平滑L1损失和交叉熵损失进行加权,得到模型的总损失。作为示例,本申请实施例在训练时,还使用在先难例挖掘(Online Hard Example Mining,OHEM)的系统进行正负样本的平衡,从而提升整体结果的召回率(Recall)。
本申请实施例中,在获得一个或多个版面分析深度学习网络模型后,还可以根据后续识别对模型进行微调、量化、剪枝的处理。
根据上述示例性实施例可知,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。其中,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
在本申请实施例中,还包括使用Advanced-EAST(An Efficient and AccurateScene Text Detector)的系统回归文本框,通过预测像素点相对于文本框的偏移量得到对应的四点位置,实现高精确度的文本框边界回归。例如,仅用角点区域内的像素点进行预测,增加对于文本框角点区域的预测,精确获得文本框边界。其中,对较大与较小的偏移量使用不同的卷积核进行回归。
在一示例性实施例中,在精确获得文本框边界后,对于预测得到的文本像素点,使用深度优先搜索(DFS)得到文本行连通块,在角点区域内进行文本框的四点回归。由此获得的文本行可能会出现文本行上下粘连或重叠的问题,因此,本实施例还可以结合多种权重进行角点匹配,例如权重可以包括距离、长宽比、角度等。同时,对于重合度较大的文本框进行合并,减少噪声的干扰。
根据上述示例性实施例的记载,通过对目标对象进行预处理,再基于目标图像的特征进行语义分割,获取预测的像素点;
对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
在一示例性实施例中,版式分析或版面分析可能由于目标的内在变化,如指定目标具有复杂的细节或目标具有遮挡;或者由于外在条件变化,如成像角度、平面旋转、深度旋转、光照变化、采集途径等,使得版式分析或版面分析不能准确确定目标的文本框。因此,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性或泛化能力。作为示例,其中干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。通过增加鲁棒性或泛化能力后,本系统对光照、阴影、褶皱、印章、背景干扰、印刷错位、质量图像等现实场景中的图像问题有很好的鲁棒性。
在一些示例性实施例中,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。作为示例,本申请实施例可以通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。具体地,利用卷积神经网络CNN获得目标图像特征,对底层特征进行提取,再在DeeplabV3+(谷歌在2018年提出的语义分割算法)的基本框架上,使用ResNet50(50层的深度残差网络)、MobileNetV2(谷歌在2018年提出的轻量级网络结构)等全卷积网络提取特征,获得目标图像的全局特征、目标图像的局部特征。在本申请实施例中,还通过对全卷积网络不同层之间的上采样和卷积融合,不仅能够兼顾全局特征和局部特征,还能够获得目标图像的全局上下文信息,有效地减少了噪声的影响,进而可以达到了由粗到精的像素级别语义分割。
其中,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构在保持参数的同时提升全卷积网络的感受野。本系统通过提升全卷积网络的感受野,在OCR领域能够满足对左右边界回归的准确率要求高、感受野要求高的文本长度跨度很大的语言(例如中文)的版面分析或版式分析。
根据上述记载,作为示例,在某一具体实施例中,包括:
输入目标图像,从目标图像中按1:4、1:8、1:16分别缩小4倍、8倍、16倍的方式获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性(或目标图像层级的上下文之间的互相作用)进行特征融合;并将目标图像的文本框标注转化为像素级别的标注,标注的内容包括以下之一:文本行属性、角点、偏移量。
然后通过一个或多个版面分析深度学习网络模型对进行特征融合后的目标对象进行语义分割,进行的语义分割包括回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。获取语义分割结果,包括通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
获取所有的预测像素点,并对所有的预测像素点进行分类,得到文本框的属性,根据文本框的属性对目标图像进行版式分析。
综上所述,本系统通过先对目标图像进行预处理、鲁棒性或泛化能力增强,再获取目标图像的特征,然后基于训练后的版面分析深度学习网络模型对目标图像的特征进行语义分割,获取目标图像中文本框的边界精确位置,最后通过对所有预测像素点进行分类,得到文本框的属性;根据文本框的属性对图像进行版面分析。其中,包括利用卷积神经网络CNN获得图像特征,对底层特征进行提取,基于DeeplabV3+的框架,使用包括但不限于ResNet50,MobileNetV2等多种结构进行多尺度全卷积网络提取特征,并进行像素级别的语义分割,实现文字/背景标注的精细定位。再使用空洞卷积级联及不同采样率空洞卷积并行架构,保持参数量的同时提升全卷积网络的感受野。并通过对全卷积网络不同层之间的上采样与卷积融合,兼顾全局特征和局部特征,获得目标图像更多的全局上下文信息,有效地减少噪声的影响。同时将文本框标注转化为像素级别的标注,包括标注文本行属性、角点、偏移量等。并通过数据增强算法,增加版面分析深度学习网络模型对背景、旋转、透视畸变、噪声、高斯模糊和运动模糊等的泛化能力或鲁棒性。并且在训练版面分析深度学习网络模型时,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,使用L2正则化与学习率衰减,获得所需的文本定位并分类,进而实现文本的结构化。包括通过对目标区域检测,校正方向。使用Advanced-EAST的系统回归文本框,通过预测像素点相对于文本框的偏移量得到对应的四点位置。在此基础上,增加了对于文本框角点区域的预测,通过对角点区域内的像素点进行预测,增加了文本框边界回归的精确性。同时对较大与较小的偏移量使用不同的卷积核进行回归。对于不同属性的预测,使用不同的系统计算损失,包括平滑L1损失、交叉熵损失等,总体损失通过对多个损失加权得到。使用在先难例挖掘的系统进行正负样本的平衡,从而提升整体结果的召回率。再对预测得到的文本像素点,使用深度优先搜索得到文本行连通块,在角点区域进行文本框的四点回归。针对可能出现的文本行上下粘连或重叠问题,增加了多种权重结合的系统进行角点匹配,其中包括距离、长宽比、角度等。还通过对重合度较大的文本框进行合并,减少噪声的干扰。最后通过文本框内的所有的预测像素点及其对应的分类属性,实现版面分析。
本申请实施例还提供了一种基于OCR的图像分析设备,包括有:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
在本实施例中,该基于OCR的图像分析设备执行上述系统或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中所述方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (33)

1.一种基于OCR的图像分析方法,其特征在于,包括以下步骤:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
2.根据权利要求1所述的基于OCR的图像分析方法,其特征在于,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:
通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。
3.根据权利要求2所述的基于OCR的图像分析方法,其特征在于,标注的内容包括以下之一:文本行属性、角点、偏移量。
4.根据权利要求1至3任一所述的基于OCR的图像分析方法,其特征在于,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型;
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
5.根据权利要求4所述的基于OCR的图像分析方法,其特征在于,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。
6.根据权利要求5所述的基于OCR的图像分析方法,其特征在于,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
7.根据权利要求6所述的基于OCR的图像分析方法,其特征在于,还包括结合多种权重进行角点匹配;至少包括以下权重之一:距离、长宽比、角度。
8.根据权利要求6所述的基于OCR的图像分析方法,其特征在于,
对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
9.根据权利要求4所述的基于OCR的图像分析方法,其特征在于,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性。
10.根据权利要求9所述的基于OCR的图像分析方法,其特征在于,所述干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。
11.根据权利要求4所述的基于OCR的图像分析方法,其特征在于,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算模型损失,并对所有的模型损失进行加权,获取模型的总损失。
12.根据权利要求11所述的基于OCR的图像分析方法,其特征在于,计算的模型损失包括以下至少之一:平滑L1损失、交叉熵损失。
13.根据权利要求1所述的基于OCR的图像分析方法,其特征在于,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。
14.根据权利要求1或13所述的基于OCR的图像分析方法,其特征在于,通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。
15.根据权利要求14所述的基于OCR的图像分析方法,其特征在于,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构提升全卷积网络的感受野。
16.一种基于OCR的图像分析系统,其特征在于,包括:
分割模块,用于根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
分析模块,用于基于所述语义分割结果对目标图像的版面进行分析。
17.根据权利要求16所述的基于OCR的图像分析系统,其特征在于,在获取目标图像的特征前,还包括对目标图像进行预处理,所述预处理包括以下至少之一:
通过文本位置矫正算法对目标图像中的文本进行位置矫正、将目标图像的文本框标注转化为像素级别的标注。
18.根据权利要求17所述的基于OCR的图像分析系统,其特征在于,标注的内容包括以下之一:文本行属性、角点、偏移量。
19.根据权利要求16至18任一所述的基于OCR的图像分析系统,其特征在于,基于深度学习的整体方案,使用带有动量的随机梯度下降进行训练,训练出一个或多个版面分析深度学习网络模型;
将预先获取的目标图像的特征、目标图像层级之间的上下文关联属性输入至训练后的一个或多个版面分析深度学习网络模型中对目标图像进行语义分割。
20.根据权利要求19所述的基于OCR的图像分析系统,其特征在于,对目标图像进行的语义分割包括以下至少之一:回归目标图像的文本框、回归目标图像的锚检测框、预测目标图像内的像素点、预测目标图像中角点区域内的像素点。
21.根据权利要求20所述的基于OCR的图像分析系统,其特征在于,获取的语义分割结果包括以下至少之一:通过回归目标图像的文本框获取角点位置、通过回归目标图像的锚检测框和预测目标图像中角点区域内的像素点获取目标图像文本框的边界位置、通过预测目标图像中角点区域内的像素点获取目标图像文本框的边界精确位置。
22.根据权利要求21所述的基于OCR的图像分析系统,其特征在于,还包括结合多种权重进行角点匹配;至少包括以下权重之一:距离、长宽比、角度。
23.根据权利要求21所述的基于OCR的图像分析系统,其特征在于,
对所有预测的像素点进行分类,获取目标图像的文本框的属性;
基于所述文本框的属性对目标图像的版面进行分析。
24.根据权利要求19所述的基于OCR的图像分析系统,其特征在于,在训练一个或多个版面分析深度学习网络模型时,还包括增加一个或多个干扰参数提高所述一个或多个版面分析深度学习网络模型的鲁棒性。
25.根据权利要求24所述的基于OCR的图像分析系统,其特征在于,所述干扰参数包括以下至少之一:背景、旋转、透视、畸变、噪声、高斯模糊、运动模糊。
26.根据权利要求19所述的基于OCR的图像分析系统,其特征在于,在训练一个或多个版面分析深度学习网络模型时,对于不同属性的预测,使用不同的方法计算模型损失,并对所有的模型损失进行加权,获取模型的总损失。
27.根据权利要求16所述的基于OCR的图像分析系统,其特征在于,计算的模型损失包括以下至少之一:平滑L1损失、交叉熵损失。
28.根据权利要求16所述的基于OCR的图像分析系统,其特征在于,所述目标对象的特征包括以下至少之一:目标图像的全局特征、目标图像的局部特征、目标图像层级上下文之间的关联性。
29.根据权利要求16或28所述的基于OCR的图像分析系统,其特征在于,通过卷积神经网络、全卷积网络获取目标图像的特征,包括获取目标图像的全局特征、目标图像的局部特征。
30.根据权利要求29所述的基于OCR的图像分析系统,其特征在于,还包括使用由空洞卷积级联和不同采样率空洞卷积共同形成的并行架构提升全卷积网络的感受野。
31.一种基于OCR的图像分析设备,其特征在于,包括有:
根据预先获取的目标图像的特征对目标图像进行语义分割,获取语义分割结果;
基于所述语义分割结果对目标图像的版面进行分析。
32.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-15中一个或多个所述的方法。
33.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-15中一个或多个所述的方法。
CN202010315672.7A 2020-04-21 2020-04-21 一种基于ocr的图像分析方法、系统、设备及介质 Active CN111539412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010315672.7A CN111539412B (zh) 2020-04-21 2020-04-21 一种基于ocr的图像分析方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010315672.7A CN111539412B (zh) 2020-04-21 2020-04-21 一种基于ocr的图像分析方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN111539412A true CN111539412A (zh) 2020-08-14
CN111539412B CN111539412B (zh) 2021-02-26

Family

ID=71979009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010315672.7A Active CN111539412B (zh) 2020-04-21 2020-04-21 一种基于ocr的图像分析方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN111539412B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183348A (zh) * 2020-09-28 2021-01-05 中国建设银行股份有限公司 一种票据业务处理方法、装置、电子设备及存储介质
CN112418297A (zh) * 2020-11-19 2021-02-26 北京云从科技有限公司 基于图像扩展的ocr模型训练方法、系统及装置
CN113011249A (zh) * 2021-01-29 2021-06-22 招商银行股份有限公司 票据审核方法、装置、设备及存储介质
CN113537368A (zh) * 2021-07-21 2021-10-22 泰康保险集团股份有限公司 样本处理方法、装置、计算机可读介质及电子设备
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN116665228A (zh) * 2023-07-31 2023-08-29 恒生电子股份有限公司 图像处理方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784487A (en) * 1996-05-23 1998-07-21 Xerox Corporation System for document layout analysis
CN102073862A (zh) * 2011-02-18 2011-05-25 山东山大鸥玛软件有限公司 一种快速的文档图像版面结构计算方法
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、系统
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN107622271A (zh) * 2016-07-15 2018-01-23 科大讯飞股份有限公司 手写文本行提取方法及系统
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110516574A (zh) * 2019-08-19 2019-11-29 温州大学 结合阈值和投影法的图、表、文混排版面分析系统及方法
CN110705400A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面题目自动拆分的方法
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质
US10592780B2 (en) * 2018-03-30 2020-03-17 White Raven Ltd. Neural network training system

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784487A (en) * 1996-05-23 1998-07-21 Xerox Corporation System for document layout analysis
CN102073862A (zh) * 2011-02-18 2011-05-25 山东山大鸥玛软件有限公司 一种快速的文档图像版面结构计算方法
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、系统
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法
CN107622271A (zh) * 2016-07-15 2018-01-23 科大讯飞股份有限公司 手写文本行提取方法及系统
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
US10592780B2 (en) * 2018-03-30 2020-03-17 White Raven Ltd. Neural network training system
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110516574A (zh) * 2019-08-19 2019-11-29 温州大学 结合阈值和投影法的图、表、文混排版面分析系统及方法
CN110705400A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面题目自动拆分的方法
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110866388A (zh) * 2019-11-19 2020-03-06 重庆华龙网海数科技有限公司 基于多种神经网络混合的出版pdf版面分析识别方法
CN110874618A (zh) * 2020-01-19 2020-03-10 同盾控股有限公司 基于小样本的ocr模板学习方法、装置、电子设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH WICK 等: ""Fully Convolutional Neural Networks for Page Segmentation of Historical Document Images"", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
YIXIN 等: ""DeepLayout: A Semantic Segmentation Approach to Page Layout Analysis"", 《INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING》 *
徐兆军 等: ""基于神经网络的版面分析"", 《计算机应用》 *
陈璇 等: ""基于Mask R-CNN的满文文档版面分析"", 《大连民族大学学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183348A (zh) * 2020-09-28 2021-01-05 中国建设银行股份有限公司 一种票据业务处理方法、装置、电子设备及存储介质
CN112418297A (zh) * 2020-11-19 2021-02-26 北京云从科技有限公司 基于图像扩展的ocr模型训练方法、系统及装置
CN113011249A (zh) * 2021-01-29 2021-06-22 招商银行股份有限公司 票据审核方法、装置、设备及存储介质
CN113011249B (zh) * 2021-01-29 2024-05-28 招商银行股份有限公司 票据审核方法、装置、设备及存储介质
CN113537368A (zh) * 2021-07-21 2021-10-22 泰康保险集团股份有限公司 样本处理方法、装置、计算机可读介质及电子设备
CN113537368B (zh) * 2021-07-21 2023-06-30 泰康保险集团股份有限公司 样本处理方法、装置、计算机可读介质及电子设备
CN115965959A (zh) * 2023-01-10 2023-04-14 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN115965959B (zh) * 2023-01-10 2023-10-03 中国人民解放军国防科技大学 单阶段单目3d目标检测网络
CN116665228A (zh) * 2023-07-31 2023-08-29 恒生电子股份有限公司 图像处理方法及装置
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置

Also Published As

Publication number Publication date
CN111539412B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111539412B (zh) 一种基于ocr的图像分析方法、系统、设备及介质
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
US11436739B2 (en) Method, apparatus, and storage medium for processing video image
CN111476306B (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
KR102173123B1 (ko) 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
US9390340B2 (en) Image-based character recognition
CN109344793B (zh) 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
CA3120470A1 (en) Region proposal networks for automated bounding box detection and text segmentation
CN112052186B (zh) 目标检测方法、装置、设备以及存储介质
CN112200187A (zh) 一种目标检测方法、装置、机器可读介质及设备
CN109189879B (zh) 电子书籍显示方法及装置
US9058536B1 (en) Image-based character recognition
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
CN112200062A (zh) 一种基于神经网络的目标检测方法、装置、机器可读介质及设备
US9058655B2 (en) Region of interest based image registration
US11816883B2 (en) Region proposal networks for automated bounding box detection and text segmentation
US20230252778A1 (en) Formula recognition method and apparatus
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN112529939A (zh) 一种目标轨迹匹配方法、装置、机器可读介质及设备
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
KR102303206B1 (ko) 전자장치에서 이미지 내의 특정 객체를 인식하기 위한 방법 및 장치
CN111062262B (zh) 发票识别方法以及发票识别装置
CN111523541A (zh) 一种基于ocr的数据生成方法、系统、设备及介质
CN111260697A (zh) 目标对象的识别方法、系统、设备及介质
CN113191251B (zh) 一种笔顺检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant