CN111582119A - 一种文档图像处理方法以及二值化模型的训练方法 - Google Patents
一种文档图像处理方法以及二值化模型的训练方法 Download PDFInfo
- Publication number
- CN111582119A CN111582119A CN202010357563.1A CN202010357563A CN111582119A CN 111582119 A CN111582119 A CN 111582119A CN 202010357563 A CN202010357563 A CN 202010357563A CN 111582119 A CN111582119 A CN 111582119A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- binarization
- granularity
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 title claims abstract description 15
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000010586 diagram Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 33
- 235000019580 granularity Nutrition 0.000 description 18
- 230000004913 activation Effects 0.000 description 13
- 230000000694 effects Effects 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005470 impregnation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文档图像处理方法以及二值化模型的训练方法,所述方法包括:获取待处理的文档图像;将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图;将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图;将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图。应用本发明实施例,通过全卷积神经网络进行字符图像的二值化,与传统的阈值二值化算法相比,具有较强的智能性,真正意义上的对字符笔画特征本身进行了理解,大大的提高了识别的准确率。
Description
技术领域
本发明涉及图像处理与深度学习技术领域,尤其涉及一种文档图像处理方法以及二值化模型的训练方法。
背景技术
随着移动互联网的快速发展与广泛普及,通过移动终端应用中图像的获取和传递进行信息的共享成为了现代人们的日常生活方式。对于获取的图像信息中,文字信息往往是用户首先会去注意和理解的内容,而二值化是字符分割,字符识别过程中不可或缺的一部分。然而由于低质的文档图像存在光照强度不均匀,存在大量退化,背景复杂,文字墨迹复杂,噪声干扰高等一系列因素的影响,导致很多针对关于文档图像的二值化方法无法取得较好的效果。
目前较为主流的文本图像二值化方法是基于阈值的二值化方法,主要包括了基于点的全局阈值方法、基于区域的全局阈值方法、局部阈值方法和多阈值方法这四类。四类方法的核心思想相似,通过对图像所有像素的颜色值进行分析,并从中选取出若干个颜色阈值,以阈值为标准划分出图像的前景区域和背景区域。全局阈值方法实现难度小但对光照不均匀的图像适应力不强,局部阈值克服了这一缺陷,但是对噪音干扰的抵抗能力不足。
综上,由于人工设定的阈值,特征,规则受较多的主观因素影响,通用性较差,对于多种变化的复杂的文档图像情况使用传统的二值化方法往往不尽人意。
发明内容
本发明的目的在于提供一种文档图像处理方法以及二值化模型的训练方法,旨在解决人工设定的阈值,特征,规则受较多的主观因素影响,通用性较差,对于多种变化的复杂的文档图像情况使用传统的二值化方法往往不尽人意的问题。
为了实现上述目的,本发明提供一种文档图像处理方法,所述方法包括:
获取待处理的文档图像;
将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图;
将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图;
将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图。
优选的,所述将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图的步骤,包括:
根据每个单粒度特征提取模型结构中的卷积层,设置不同尺寸的图像感受野;
将所有单粒度特征提取模型得到的特征图通过矩阵级联进行合并,获得多粒度特征图。
优选的,所述将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图的步骤,包括:
通过图像精度增强模型中的卷积层,获得图像局部像素之间的细节特征;
通过转置卷积层将细节特征进行上采样,获得图像细节信息特征图。
一种实现方式中,所述将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图的步骤,包括:
将所述图像细节信息特征图输入至二值化处理模型,获得第一处理结果;
对所述第一处理结果进行归一化指数函数处理,获得二分类结果图。
本发明还提供一种文档图像二值化模型的训练方法:
收集复杂背景下的包含文本行的非二值图像;
标注所述非二值图像的二值化真值结果;
根据样本输入与对应标注更新模型权重参数;
当二值化模型所输出的损失值或精度值达到阈值标准后停止训练。
应用本发明实施例提供的一种文档图像处理方法以及二值化模型的训练方法,通过全卷积神经网络进行字符图像的二值化,与传统的阈值二值化等算法相比,具有较强的智能性,真正意义上的对字符笔画特征本身进行了理解,大大的提高了识别的准确率,能够显著的改善在复杂背景下文档图像二值化的效果。
附图说明
图1是本发明实施例一种文档图像处理方法的一种流程示意图。
图2是本发明实施例文档图像二值化方法模型的整体架构图。
图3是本发明实施例单粒度特征提取模型的结构示意图。
图4是本发明实施例一种文档图像处理方法的使用不同粒度的卷积核所产生的感受野的区别的示意图。
图5是本发明实施例多粒度特征提取模型的结构示意图。
图6是本发明实施例图像精度增强模型的结构示意图
图7是本发明实施例一种文档图像处理方法的一种结构示意图。
图8是本发明实施例一种二值化模型的训练方法流程图。
图9是本发明实施例非二值图像样本图。
图10是本发明实施例与非二值图像样本图对应的二值化真值标注图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-10。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1-2本发明提供一种文档图像处理方法,所述方法包括:
S101,获取待处理的文档图像;
S102,将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图;
可以理解的是,多粒度特征模型包含若干个单粒度特征提取模型,且对每个单粒度特征提取模型结构中的卷积层设置了不同尺寸的图像感受野,最后将所有单粒度特征提取模型得到的特征图通过矩阵级联进行合并获得多粒度特征图通过设置不同的感受野能够更好的对图像中每个像素周围的文本区域信息和非文本区域信息进行分析,从而提供更加丰富的图像数据特征。在本方法的一个本实施例中设置了3个单粒度特征模型,模型的卷积层感受野分别设置为3*3,5*5,7*7。
上述单粒度特征提取模型特征在于:采用带有跳跃结构的全卷积神经网络对输入文档图像进行语义分割处理,在本方法的一个实施例中采用了SegNet型的全卷积神经网络作为单粒度特征提取模型。该模型由编码路径与解码路径组成,以粒度为3x3的单粒度特征提取模型为例,其中编码路径由9个3x3x8的卷积层和2个2x2的最大池化层组成,解码路径由9个转置卷积层与2个2x2的上采样层组成。编码路径和解码路径所使用的激活函数均为修正线性单元函数。通过矩阵级联的方式将编码路径与解码路径中尺寸相同的特征进行拼接,使模型中高级的图像语义特征信息和低级的图像边缘特征信息进行融合来提高语义分割处理的精度。
需要说明的是,文档中通常含有大小尺寸不同的文字,使用单一粒度对图像进行特征提取容易损失对其他尺寸的文字笔画的特征,因此需结合多粒度的图像特征提取模型进行处理。在本发明的一个具体实施例中,使用三种不同的粒度的单粒度特征提取模型,如图3所示。另外,低质的文档图像中存在笔迹退化的问题,字符中笔画的颜色深浅,背景文字浸染对二值化的效果干扰严重。仅对低级的笔画特征进行提取容易被噪声所干扰,仅对高级的图像语义特征进行提取容易失去文字边缘细节信息。因此需要寻找一种方法将两种特征进行融合处理。在本发明的一个具体实施例中,采用了SegNet型的全卷积神经网络作为单粒度特征提取模型,选取其中以粒度为3x3的单粒度特征提取模型为例,模型的结构图如图4所示,模型的详细结构信息如下表1:
表1
结构类型 | 参数配置 | 数目 |
卷积层 | 滤波器:3x3x8,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
池化层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x16,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
池化层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x32,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
转置卷积层 | 滤波器:3x3x32,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
上采样层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x32,步长:1 | 1 |
拼接层 | / | 1 |
转置卷积层 | 滤波器:3x3x16,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
上采样层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x16,步长:1 | 1 |
拼接层 | / | 1 |
卷积层 | 滤波器:3x3x8,步长:1 | 3 |
S103,将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图;
可以理解的是,低质文档中存在部分图像分辨率低的问题,对字符笔画特征提取产生了干扰。本发明提供一种图像精度增强的模型,该模型采用一种超分辨率图像处理技术,根据低分辨率的图像重建出对应的高分辨率的图像,从而对高精度下的特征图进行图像的细节分析以及信息提取。模型的结构图如图5所示,图像精度增强的模型的详细结构信息如下表2:
表2
结构类型 | 参数配置 | 数目 |
卷积层 | 滤波器:3x3x8,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
转置卷积层 | 滤波器:3x3x8,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
转置卷积层 | 滤波器:3x3x16,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
所述图像增强模型由3个3x3x8的卷积层和6个3x3x8的转置卷积层组成,激活函数为修正线性单元函数。通过模型的卷积层中获得图像局部像素之间的细节特征,再通过转置卷积层将其进行上采样得到图像细节信息特征图从而达到提高图像分辨率的作用。
S104,将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图。
需要说明的是,二值化处理任务中的输入和输出都是固定尺寸的图像,即是一种端到端的像素级别的分类任务。本发明提供一种基于全卷积神经网络的图像二值化处理模型,通过设置多个卷积层对于提取得到的特征图进行分析和处理,并在模型最后设置归一化指数函数实现图像中像素级别的分类获得二值化的结果,并通过将图像中的为1的灰度值修改为255便以展示图像二值化效果。归一化指数函数的公式表达为:
其中V代表一个输出值,Vi代表V中第i个元素值,l代表V的长度,即输出向量中的每个元素的归一化指数的值为该元素对e的指数比上所有元素对e的指数之和所得到的结果。二值化处理模型的结构图如图6所示,模型的详细结构如下表3:
表3
结构类型 | 参数配置 | 数目 |
卷积层 | 滤波器:3x3x16,步长:1 | 1 |
池化层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x16,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
池化层 | 滤波器:2x2x1,步长:2 | 1 |
卷积层 | 滤波器:3x3x8,步长:1 | 3 |
激活层 | 激活函数:修正线性单元函数 | 1 |
本发明中所使用的所有模型仅包含神经网络模型,不包含传统的规则算法用于图像的预处理,所以能够保证本发明提出的模型的运行不会有额外的时间消耗。在一个具体的实施例中,本方法的模型整体结构如图7所示。
可以理解的是,二值化处理模型由4个3x3x16与3个3x3x8的卷积层和2个2x2的最大池化层组成,激活函数为修正线性单元函数。二值化处理模型的输出经过归一化指数函数得到像素级别的二分类结果图所述结果图中的每一个像素仅由0与1两种结果值组成,实现了图像二值化的目标。
需要说明的是,上述卷积层通过利用卷积核将低层次的局部特征通过卷积操作映射到更高层次的全局特征上,卷积层的输出特征图的计算方法是通过将上一层中的所有特征图通过卷积核卷积得到的结果进行求和并偏置后通过矩阵级联拼接得到,其具体计算公式为:
上述转置卷积层实质为卷积层的逆操作,卷积层中的卷积运算可以抽象表示为y=C乹,其中乹表示卷积输入,y表示卷积输出,C表示卷积操作对应的参数矩阵。则转置卷积的参数矩阵可以表示为CT。CT是C的转置矩阵。
所述的文档图像二值化方法中采用的所有神经网络模型都使用自适应动量估计方法作为训练过程的优化器。
如图8,本发明还提供一种文档图像二值化模型的训练方法:
S901,收集复杂背景下的包含文本行的非二值图像。
具体来说,图像可以是彩色的或灰度化的,也可以是有模糊,污损,浸染或者光照不均匀的。文字可以是不同语种,字体,颜色,尺寸和形变的。也不需要保证文字是否完整,截断或遮挡的文字等因素不影响本方法的使用。样本图像的数量应当至少多于3000张。图9为样本数据的原图,图10为样本数据的标注图。
S902,标注上述非二值图像的二值化真值结果。
具体来说,可以使用数据集原本自带的真值结果,可以通过人工方法自行对图像进行标注,也可以直接通过其他的二值化方法对图像进行二值化后人工进行修正。
S903,根据样本输入与对应标注更新模型权重参数。
具体来说,就是将样本图像输入至初始化后的二值化模型中后得到的模型输出图像中的各像素值与标注图像中对应位置的像素值通过预先设定好的损失函数进行计算得到损失值,再通过设定好的优化器方法将得到的损失值反向传播至二值化模型中的各个节点中并对节点中的权重进行修改调整。在本发明的一个具体实施例中,模型所使用的损失函数为交叉熵函数,其公式表达如下:
其中x为输入特征数目,乹为输入,y为预期输出值,yl为实际输出值。
S904,当二值化模型所输出的损失值或精度值达到阈值标准后停止训练;
具体来说,就是二值化模型所产生的损失值低于预先设定好的损失值阈值,或者对验证图像的二值化结果精度高于预先设定好的精度阈值时完成二值化模型的训练。
上述基于多粒度特征提取和图像精度增强的文档图像二值化方法,通过全卷积神经网络进行字符图像的二值化,与传统的阈值二值化等算法相比,具有较强的智能性,真正意义上的对字符笔画特征本身进行了理解,大大的提高了识别的准确率。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (5)
1.一种文档图像处理方法,其特征在于,所述方法包括:
获取待处理的文档图像;
将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图;
将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图;
将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图。
2.根据权利要求1所述的一种文档图像处理方法,其特征在于,所述将所述文档图像输入至多粒度特征提取模型,获得多粒度特征图的步骤,包括:
根据每个单粒度特征提取模型结构中的卷积层,设置不同尺寸的图像感受野;
将所有单粒度特征提取模型得到的特征图通过矩阵级联进行合并,获得多粒度特征图。
3.根据权利要求1所述的一种文档图像处理方法,其特征在于,所述将所述多粒度特征图输入至图像精度增强模型,获得图像细节信息特征图的步骤,包括:
通过图像精度增强模型中的卷积层,获得图像局部像素之间的细节特征;
通过转置卷积层将细节特征进行上采样,获得图像细节信息特征图。
4.根据权利要求1所述的一种文档图像处理方法,其特征在于,所述将所述图像细节信息特征图输入至二值化处理模型,获得二分类结果图的步骤,包括:
将所述图像细节信息特征图输入至二值化处理模型,获得第一处理结果;
对所述第一处理结果进行归一化指数函数处理,获得二分类结果图。
5.一种文档图像二值化模型的训练方法:
收集复杂背景下的包含文本行的非二值图像;
标注所述非二值图像的二值化真值结果;
根据样本输入与对应标注更新模型权重参数;
当二值化模型所输出的损失值或精度值达到阈值标准后停止训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357563.1A CN111582119A (zh) | 2020-04-29 | 2020-04-29 | 一种文档图像处理方法以及二值化模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010357563.1A CN111582119A (zh) | 2020-04-29 | 2020-04-29 | 一种文档图像处理方法以及二值化模型的训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111582119A true CN111582119A (zh) | 2020-08-25 |
Family
ID=72111873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010357563.1A Pending CN111582119A (zh) | 2020-04-29 | 2020-04-29 | 一种文档图像处理方法以及二值化模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582119A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN113869168A (zh) * | 2021-09-18 | 2021-12-31 | 珠海读书郎软件科技有限公司 | 一种融合笔尖轨迹和书写墨迹的实时文字识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190019020A1 (en) * | 2017-07-17 | 2019-01-17 | Open Text Corporation | Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques |
CN110263610A (zh) * | 2019-02-28 | 2019-09-20 | 重庆大学 | 一种基于深度学习的退化文档图像二值化方法及系统 |
CN110503103A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于全卷积神经网络的文本行中的字符切分方法 |
CN110717523A (zh) * | 2019-09-20 | 2020-01-21 | 湖北工业大学 | 一种基于D-LinkNet的低质量文档图像二值化方法 |
-
2020
- 2020-04-29 CN CN202010357563.1A patent/CN111582119A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190019020A1 (en) * | 2017-07-17 | 2019-01-17 | Open Text Corporation | Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques |
CN110263610A (zh) * | 2019-02-28 | 2019-09-20 | 重庆大学 | 一种基于深度学习的退化文档图像二值化方法及系统 |
CN110503103A (zh) * | 2019-08-28 | 2019-11-26 | 上海海事大学 | 一种基于全卷积神经网络的文本行中的字符切分方法 |
CN110717523A (zh) * | 2019-09-20 | 2020-01-21 | 湖北工业大学 | 一种基于D-LinkNet的低质量文档图像二值化方法 |
Non-Patent Citations (1)
Title |
---|
熊炜等: "基于支持向量机的低质量文档图像二值化", 《计算机应用与软件》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN112926569B (zh) * | 2021-03-16 | 2022-10-18 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN113869168A (zh) * | 2021-09-18 | 2021-12-31 | 珠海读书郎软件科技有限公司 | 一种融合笔尖轨迹和书写墨迹的实时文字识别方法 |
CN113869168B (zh) * | 2021-09-18 | 2022-06-28 | 珠海读书郎软件科技有限公司 | 一种融合笔尖轨迹和书写墨迹的实时文字识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN111340738B (zh) | 一种基于多尺度渐进融合的图像去雨方法 | |
CN110503103B (zh) | 一种基于全卷积神经网络的文本行中的字符切分方法 | |
Xu et al. | Page segmentation for historical handwritten documents using fully convolutional networks | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
Xie et al. | Finding discriminative filters for specific degradations in blind super-resolution | |
CN113822116A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN111582119A (zh) | 一种文档图像处理方法以及二值化模型的训练方法 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN109685065A (zh) | 试卷内容自动分类的版面分析方法、系统 | |
CN111914654A (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN111126127A (zh) | 一种多级空间上下文特征指导的高分辨率遥感影像分类方法 | |
CN111507337A (zh) | 基于混合神经网络的车牌识别方法 | |
CN113888536A (zh) | 一种基于计算机视觉的印刷品重影检测方法及系统 | |
Mellouli et al. | Morph-CNN: A morphological convolutional neural network for image classification | |
JP7364639B2 (ja) | デジタル化された筆記の処理 | |
Rani et al. | A new binarization method for degraded document images | |
Song | Accuracy analysis of Japanese machine translation based on machine learning and image feature retrieval | |
Li et al. | A multiscale dilated residual network for image denoising | |
CN114841974A (zh) | 一种水果内部结构无损检测方法、系统、电子设备及介质 | |
Rani | A modified deep semantic binarization network for degradation removal in palm leaf manuscripts | |
Zhou et al. | An improved algorithm using weighted guided coefficient and union self‐adaptive image enhancement for single image haze removal | |
CN117710295A (zh) | 图像处理方法、装置、设备、介质及程序产品 | |
CN114863428B (zh) | 一种基于深度学习的肺刷片细胞识别与分割方法 | |
CN114638596B (zh) | 一种自然资源业务流程审查方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Jin Inventor after: Yu Chao Inventor after: Li Yunhui Inventor before: Liu Jin Inventor before: Yu Chao |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200825 |