CN113901913A - 一种用于古籍文档图像二值化的卷积网络 - Google Patents

一种用于古籍文档图像二值化的卷积网络 Download PDF

Info

Publication number
CN113901913A
CN113901913A CN202111168224.XA CN202111168224A CN113901913A CN 113901913 A CN113901913 A CN 113901913A CN 202111168224 A CN202111168224 A CN 202111168224A CN 113901913 A CN113901913 A CN 113901913A
Authority
CN
China
Prior art keywords
encoder
convolution
layer
module
ancient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111168224.XA
Other languages
English (en)
Inventor
李泽辉
吴海波
王华龙
杨海东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Original Assignee
Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute, Foshan Guangdong University CNC Equipment Technology Development Co. Ltd filed Critical Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute
Priority to CN202111168224.XA priority Critical patent/CN113901913A/zh
Publication of CN113901913A publication Critical patent/CN113901913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于古籍文档图像二值化的卷积网络,包括LinkNet架构、D‑LinkNet架构和空间金字塔池化(SPP)模块(part C);所述LinkNet架构包括编码器(part A)和解码器(part D);所述DP‑LinkNet架构包括编码器(partA)、混联空洞卷积(HDC)模块(part B)和解码器(part D);所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络;所述编码器(part A)为在ImageNet数据集上预训练的ResNet‑34;所述编码器(part A)的模型第一层为7×7的卷积层,具有64个输出通道,跨度为2;所述编码器(partA)的第二层为批量归一化(BN)层;该古籍文档图像二值化的卷积网络,提高了计算机对于历史古籍识别的准确度,能够有效对多语种和不同的字符进行混排,并识别出不同大小、颜色、亮度、字体的字符。

Description

一种用于古籍文档图像二值化的卷积网络
技术领域
本发明涉及自动视觉检测技术领域,具体为一种用于古籍文档图像二值化的卷积网络。
背景技术
历史古籍是珍贵的文化遗产,具有重要的科学和文化价值;古籍文档数字化是解决文献保护和文化传承的重要途径;然而,手工处理这些海量文献,不仅费时费力,而且容易出错,因此需要借助计算机对古籍图像进行自动化处理;古籍文档分析与识别(H-DAR)系统应运而生。
古籍文档分析与识别(H-DAR)系统主要包括图像预处理、文档图像二值化、版面分析、文本检测与识别等环节,针对现代图书的扫描文档识别技术已经很成熟。
但历史古籍的文本识别效果还不理想,而且后者的难度远大于前者,原因在于历史古籍中的文字展现形式极其丰富:(1)允许多语种文本混排,字符具有不同的大小、字体、颜色、亮度、对比度等;(2)文本行可能有横向、竖向、弯曲、旋转、扭曲等样式;(3)图像中的文字区域还可能存在墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象;(4)古籍文档图像的背景变化多样,如纸张老化发黄或页面存在污渍,文字区域附近有复杂的背景纹理或非文字区域有近似文字的纹理等。
针对上述问题,本发明公开一种用于古籍文档二值化的卷积网络
提高了计算机对于历史古籍识别的准确度,能够有效对多语种和不同的字符进行混排,并识别出不同大小、颜色、亮度、字体的字符,并且能够对歪曲的文本行进行识别,对图像中文字区域存在的墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象也可以做出一定程度的识别,减低了文字区域复杂的背景纹理或非文字区域有近似文字的纹理对计算机识别所产生的影响。
发明内容
本发明的目的在于提供一种用于古籍文档图像二值化的卷积网络,以解决上述背景技术中提出的现有的古籍文档分析与识别(H-DAR)系统对历史古籍的文本识别效果较不理想的问题。为实现上述目的,本发明提供如下技术方案一种用于古籍文档图像二值化的卷积网络,包括LinkNet架构、D-LinkNet架构和空间金字塔池化(SPP)模块(part C);所述LinkNet架构包括编码器(part A)和解码器(part D);所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。
优选的,所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络,通过编码器提取具有深层语义信息的文字笔画特征。
优选的,所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34;所述编码器(part A)的模型第一层为7×7的卷积层,具有64个输出通道,跨度为2。
优选的,所述编码器(part A)的第二层为批量归一化(BN)层;所述编码器(partA)的第三层为整流线性单元(ReLU)激活层;所述编码器(part A)的第四层为最大池化层,且最大池化层的跨度为2的3×3。
优选的,所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块,分别由3、4、6、3个剩余块(Res-locks)构成,第一个模块中的通道数与该模块的输入通道数相同,由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层,因此与前一个模块相比通道数量增加了一倍,特征图的空间分辨率降低了一半。
优选的,所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成,卷积核大小为3×3,空洞率分别为1、2、4;所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15,通过混联空洞卷积(HDC)模块(part B)扩大了感受野并聚集了多尺度上下文特征。
优选的,所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息,并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作,卷积核大小分别为2×2、3×3和5×5,通过空间金字塔池化(SPP)模块(part C)对混联空洞卷积(HDC)模块(part B)的输出进行多核池化编码。
优选的,所述解码器(part D)包括四个解码器块,每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积,通过跳跃连接将来自解码器(part D)的粗粒度、深层次的语义特征与来自编码器(part A)的细粒度、浅层次的视觉特征融合起来,弥补连续跨度卷积或池化操作造成的空间信息损失。
与现有技术相比,本发明的有益效果是:
提高了计算机对于历史古籍识别的准确度,能够有效对多语种和不同的字符进行混排,并识别出不同大小、颜色、亮度、字体的字符,并且能够对歪曲的文本行进行识别,对图像中文字区域存在的墨迹浸润、印鉴遮蔽、文本残缺或模糊等现象也可以做出一定程度的识别,减低了文字区域复杂的背景纹理或非文字区域有近似文字的纹理对计算机识别所产生的影响。
附图说明
图1为本发明总体架构图;
图2为混联空洞卷积(HDC)模块(part B)结构图;
图3为空间金字塔池化(SPP)模块(part C)结构图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种用于古籍文档图像二值化的卷积网络,包括LinkNet架构、D-LinkNet架构和空间金字塔池化(SPP)模块(part C);所述LinkNet架构包括编码器(part A)和解码器(part D);所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。
所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络;所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34;所述编码器(partA)的模型第一层为7×7的卷积层,具有64个输出通道,跨度为2。所述编码器(part A)的第二层为批量归一化(BN)层;所述编码器(part A)的第三层为整流线性单元(ReLU)激活层;所述编码器(part A)的第四层为最大池化层,且最大池化层的跨度为2的3×3;
工作时,通过编码器提取具有深层语义信息的文字笔画特征。
所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块,分别由3、4、6、3个剩余块(Res-locks)构成,第一个模块中的通道数与该模块的输入通道数相同,由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层,因此与前一个模块相比通道数量增加了一倍,特征图的空间分辨率降低了一半。
所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成,卷积核大小为3×3,空洞率分别为1、2、4;所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15;
工作时,通过混联空洞卷积(HDC)模块(part B)扩大了感受野并聚集了多尺度上下文特征,将并联模式和级联模式进行混联提高分割精度指数级增加感受野大小而不降低中间特征图的空间分辨率。
所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息,并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作,卷积核大小分别为2×2、3×3和5×5;
工作时,在分类应用中,当网络输入为任意大小的图像时,可以进行卷积和池化操作,直到网络即将连接到全连接(FC)层,并通过空间金字塔池化将任意大小的特征图转换成固定大小的特征向量,即利用多尺度特征提取固定大小的特征向量。然而,对于图像分割(可以看作是像素级分类问题),将三个低分辨率特征图上采样到与输入特征图相同的空间分辨率大小,最后将输入特征图与这三个经上采样的特征图连接起来。
所述解码器(part D)包括四个解码器块,每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积;
工作时,通过跳跃连接将来自解码器(part D)的粗粒度、深层次的语义特征与来自编码器(part A)的细粒度、浅层次的视觉特征融合起来,弥补连续跨度卷积或池化操作造成的空间信息损失。
通过从档案文件(READ)项目的识别和丰富中收集了50多个退化的文档图像,以及来自谷歌的20多个希腊和拉丁纸莎草纸文档作为训练数据,其中20%用作验证数据。
给定一个彩色文档图像,它首先被裁剪成大小为128×128的图像块,然后输入卷积网络进行训练或预测,并且输出的二进制图像块被无缝拼接在一起以生成结果二进制图像。
根据实验数据表明,数据增强对于提供针对不同类型退化或变形的网络鲁棒性至关重要,因此进行了数据增强,包括水平翻转、垂直翻转、对角翻转、颜色抖动、图像移位和缩放。
为了训练网络并获得最优模型,本文使用二元交叉熵(BCE)和骰子系数损失之和作为损失函数,其定义为:
Figure BDA0003291571550000061
Figure BDA0003291571550000062
其中y是ground truth(GT)标签,y^是模型的预测概率;参数优化选择Adam优化器,初始学习率设置为2×10-4,5次减少5次,同时观察训练损失逐渐减少,批量大小固定为32,epoch数设置为500,采用提前停止策略以避免过度拟合。
为了提高所提出的文档图像二值化方法的鲁棒性,本文采用了测试时间增强(TTA)策略,这是一种在测试集上进行数据增强的手段,包括水平翻转、垂直翻转和对角翻转(相当于生成23=每个测试补丁的8个增强补丁)。然后对八个预测进行平均以产生最终的预测图。
工作原理:首先将图像输入计算机,然后通过编码器(part A)对图像进行分割和处理,提取具有深层语义信息的文字笔画特征,然后通过混联空洞卷积(HDC)模块(part B)扩大感受野并聚集多尺度上下文特征,通过空间金字塔池化(SPP)模块(part C)对混联空洞卷积(HDC)模块(part B)的输出进行多核池化编码,通过混联空洞卷积(HDC)模块(partB)和空间金字塔池化(SPP)模块(part C)的组合将产生更为丰富的高层抽象特征图,通过编码器(part A)将中间部分输出的低分辨率特征图映射回输入图像的大小,通过损失函数和提前停止策略以避免过度拟合,最后经过数据增强处理后输出图像上的内容。

Claims (8)

1.一种用于古籍文档图像二值化的卷积网络,其特征在于,包括LinkNet架构、DP-LinkNet架构和空间金字塔池化(SPP)模块(part C);所述LinkNet架构包括编码器(partA)和解码器(part D);所述DP-LinkNet架构包括编码器(part A)、混联空洞卷积(HDC)模块(part B)和解码器(part D)。
2.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述古籍文档图像二值化的卷积网络以预训练好的编码器(part A)作为其骨干网络。
3.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述编码器(part A)为在ImageNet数据集上预训练的ResNet-34;所述编码器(part A)的模型第一层为7×7的卷积层,具有64个输出通道,跨度为2。
4.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述编码器(part A)的第二层为批量归一化(BN)层;所述编码器(part A)的第三层为整流线性单元(ReLU)激活层;所述编码器(part A)的第四层为最大池化层,且最大池化层的跨度为2的3×3。
5.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述编码器(part A)的其余部分遵循四个ResNet-34编码器模块,分别由3、4、6、3个剩余块(Res-locks)构成,第一个模块中的通道数与该模块的输入通道数相同,由于在每个后续模块的第一个残差块中使用了跨度为2的3×3卷积层,因此与前一个模块相比通道数量增加了一倍,特征图的空间分辨率降低了一半。
6.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述混联空洞卷积(HDC)模块(part B)每个分支由1-3个级联空洞卷积组成,卷积核大小为3×3,空洞率分别为1、2、4;所述混联空洞卷积(HDC)模块(part B)每个分支的感受野大小分别为3、7和15。
7.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述空间金字塔池化(SPP)模块(part C)采用三种不同大小的感受野来编码全局上下文信息,并对混联空洞卷积(HDC)模块(part B)输出的特征图进行三次最大池化操作,卷积核大小分别为2×2、3×3和5×5。
8.根据权利要求1所述的一种用于古籍文档图像二值化的卷积网络,其特征在于,所述解码器(part D)包括四个解码器块,每个都包含一个1×1卷积、一个跨度为2的3×3转置卷积以及一个1×1卷积。
CN202111168224.XA 2021-09-30 2021-09-30 一种用于古籍文档图像二值化的卷积网络 Pending CN113901913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111168224.XA CN113901913A (zh) 2021-09-30 2021-09-30 一种用于古籍文档图像二值化的卷积网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111168224.XA CN113901913A (zh) 2021-09-30 2021-09-30 一种用于古籍文档图像二值化的卷积网络

Publications (1)

Publication Number Publication Date
CN113901913A true CN113901913A (zh) 2022-01-07

Family

ID=79190123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111168224.XA Pending CN113901913A (zh) 2021-09-30 2021-09-30 一种用于古籍文档图像二值化的卷积网络

Country Status (1)

Country Link
CN (1) CN113901913A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115031363A (zh) * 2022-05-27 2022-09-09 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置
CN115031363B (zh) * 2022-05-27 2023-11-28 约克广州空调冷冻设备有限公司 预测空调性能的方法和装置

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN110059698B (zh) 用于街景理解的基于边缘稠密重建的语义分割方法及系统
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
US20190180154A1 (en) Text recognition using artificial intelligence
Karthick et al. Steps involved in text recognition and recent research in OCR; a study
CN110070091B (zh) 用于街景理解的基于动态插值重建的语义分割方法及系统
CN111832546B (zh) 一种轻量级自然场景文本识别方法
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
CN110059769B (zh) 用于街景理解的基于像素重排重建的语义分割方法及系统
CN108804397A (zh) 一种基于少量目标字体的汉字字体转换生成的方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN110599502A (zh) 一种基于深度学习的皮肤病变分割方法
CN111401247A (zh) 一种基于级联卷积神经网络的人像分割方法
CN104239872A (zh) 异态汉字识别方法
CN116958827A (zh) 一种基于深度学习的撂荒区域提取方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
WO2024041032A1 (zh) 基于不可编辑的图文类图像生成可编辑文档的方法及装置
CN113901913A (zh) 一种用于古籍文档图像二值化的卷积网络
CN113888505A (zh) 一种基于语义分割的自然场景文本检测方法
CN112036290B (zh) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN116503880B (zh) 一种倾斜字体的英文字符识别方法和系统
CN116934613A (zh) 一种用于文字修复的分支卷积通道注意力模块

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination