CN115861663A - 一种基于自监督学习模型的文档图像内容比对方法 - Google Patents

一种基于自监督学习模型的文档图像内容比对方法 Download PDF

Info

Publication number
CN115861663A
CN115861663A CN202310185709.2A CN202310185709A CN115861663A CN 115861663 A CN115861663 A CN 115861663A CN 202310185709 A CN202310185709 A CN 202310185709A CN 115861663 A CN115861663 A CN 115861663A
Authority
CN
China
Prior art keywords
character
image
electronic
sequence
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310185709.2A
Other languages
English (en)
Other versions
CN115861663B (zh
Inventor
刘学亮
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202310185709.2A priority Critical patent/CN115861663B/zh
Publication of CN115861663A publication Critical patent/CN115861663A/zh
Application granted granted Critical
Publication of CN115861663B publication Critical patent/CN115861663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度,当余弦相似度小于设定的阈值时,则认为电子文档位置i处的内容被篡改。本发明不需要检测图像中每个字符的具体内容完成比对,能够提高比对的效率。

Description

一种基于自监督学习模型的文档图像内容比对方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于自监督学习模型的文档图像内容比对方法。
背景技术
纸质文档一般通过文字处理软件制作成电子文档,并打印而成。文字处理软件制作的电子文档在传输过程中,文档内容被篡改的事情时有发生,这导致了最终打印的文档和原始的电子文档不一致的问题。
为了解决电子文档流通过程中被篡改问题,目前的技术一般通过光学字符识别技术对纸质文件的扫描件进行识别,再将识别结果和电子文档进行对比。但是光学字符识别技术存在精度不高、算力消耗大的问题。
发明内容
为解决上述技术问题,本发明提供一种基于自监督学习模型的文档图像内容比对方法,在对文档进行字符图像检测的基础上,通过计算单个字符图像之间的相似性,来实现快速比对的功能。
为解决上述技术问题,本发明采用如下技术方案:
一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:
步骤A1:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;
步骤A2:提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;
步骤A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;
步骤A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure SMS_1
,当余弦相似度/>
Figure SMS_2
小于设定的阈值时,则认为电子文档位置i处的内容被篡改;
文字比对自监督模型的训练方法,包括以下步骤:
步骤B1:将字典库中的每个字符转化为字符图像,对字符图像进行数据增广后,将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集;
步骤B2:构建采用共享参数、双塔结构的文字比对自监督模型,文字比对自监督模型包括编码器和投影模块;
编码器用于对输入的字符图像进行编码;编码器包括九层结构:前七层结构为ResNet结构,ResNet结构之后连接一个最大池化层;后两层结构为全连接层,激活函数为ReLu;
投影模块包括两层全连接网络结构,第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh;
步骤B3:通过字符图像数据集对文字比对自监督模型进行训练;对于给定的字符图像x,记编码器的输出为
Figure SMS_3
,投影模块的输出为/>
Figure SMS_4
;文字比对自监督模型的损失函数/>
Figure SMS_5
为:
Figure SMS_6
其中,
Figure SMS_7
、/>
Figure SMS_8
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像,/>
Figure SMS_9
为与字符图像x具有不同标签的字符图像的总数量,/>
Figure SMS_10
表示转置。
进一步地,文字比对自监督模型进行训练时,每批数据包括128个字符图像,采用Adam优化器,学习速率设置为0.001。
进一步地,步骤B1中,利用添加噪声、改变亮度和对比度,或者采用形态学算法对字符图像进行数据增广。
进一步地,步骤A1中,通过扫描仪将纸质文档转化为扫描版图像,并进行透视变换校正扫描版图像中的畸变和倾斜。
进一步地,步骤A2中提取字符图像并依次排序时,利用文本检测工具进行字符检测,得到每个独立字符的左上角坐标和右下角坐标,根据字符左上角坐标和右下角坐标,将每个字符图像抠出,归一化到统一尺寸后,根据左上角坐标的坐标值,按照从上到下、从左到右的顺序进行排序,形成字符图像序列。
与现有技术相比,本发明的有益技术效果是:
目前常用的文本比对方法,通常需要对文档图像进行光学字符识别(OCR)处理,将图像中的文本转换为可比对的文本格式。然后,通过计算单个文字之间的相似性,来判断它们是否相同;运算量比较大。
本发明对纸质文档的扫描版图像和电子文档的电子版图像进行字符检测,对字符图像序列进行编码,并通过计算字符图像编码序列相同位置的相似度,来判断电子文档是否被篡改;本发明不需要检测图像中每个字符的具体内容,即可完成比对,能够提高比对的效率。
附图说明
图1为本发明文字比对自监督模型的训练流程图;
图2为本发明文档图像内容比对方法的流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
文字比对自监督模型的训练方法,包括以下步骤:
B1、文字图像数据集的建立:
B11:收集常用的汉字、数字、英文字母和符号等字符,作为模型字典库。
B12:对模型字典库中的每个字符,利用文图转化工具,采用宋体、楷书、仿宋、黑体等常用字体,生成一系列的字符图像,字符图像的大小固定为32像素×32像素。
B13:对生成的字符图像,利用添加噪声、改变亮度和对比度、形态学算法等方法,进行数据集增广。
B14:将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集。
B2、文字比对自监督模型的构建:
文字比对自监督模型采用共享参数的双塔结构,主要由编码器、投影模块两个部分组成。
编码器实现对输入的字符图像进行编码,它是一个由卷积和池化构成的、具有九层结构的网络模型。其中,前七层结构为ResNet结构,每个ResNet结构中包含两层卷积核大小为3×3的卷积层,卷积核个数分别为32、64、128;ResNet结构之后连接一个最大池化层。后两层结构为全连接层,两个全连接层输出尺寸为分别为512和128,激活函数为ReLu。
投影模块是一个两层的全连接网络结构,输出尺寸分别为128和64;第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh。
对于给定的字符图像x,记模型编码器的输出为
Figure SMS_11
,投影模块的输出为/>
Figure SMS_12
文字比对自监督模型损失函数如下:
Figure SMS_13
Figure SMS_14
、/>
Figure SMS_15
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像。
利用字符图像数据集,采用Adam优化器,对文字比对自监督模型进行优化求解。每批数据采样128个字符图像,学习速率设置为0.001。Adam是一种常用的优化器,用于训练神经网络模型,它可以通过指定学习速率和其他参数,来优化模型的求解过程。
采用Adam优化器、设置合适的学习速率0.001以及每批数据采样的字符图像数量等参数,可以提高文字比对自监督模型的训练效率,并有效提升文字比对自监督模型的预测准确性。
文档图像内容比对方法,包括以下步骤:
A1、转化文档图像:
对纸质文档进行扫描,得到扫描版图像,并通过透视变换,对扫描版图像进行校正。扫描仪能够捕捉纸质文档的图像,通常会将纸质文档的图像保存为图像格式的扫描件,如JPEG、PNG等图像格式。扫描件可能存在畸变或倾斜等问题,需要利用透视变换进行校正。透视变换通过改变图像的尺寸、方向和形状,来校正图像中的畸变、倾斜等问题。
将电子文档转化为电子版图像。
A2:对扫描版图像和电子版图像,分别利用文本检测工具进行字符检测,得到每个独立字符的左上角的坐标和右下角的坐标;根据字符左上角的坐标和右下角的坐标,将每个字符图像抠出来,并归一化到32像素×32像素。然后,根据左上角的坐标值,按照从上到下、从左到右的顺序进行排序,分别得到扫描字符图像序列和电子字符图像序列。
A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列。
A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure SMS_16
,当余弦相似度/>
Figure SMS_17
小于设定的阈值(0.22)时,则认为电子文档位置i处的内容被篡改。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:
步骤A1:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;
步骤A2:提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;
步骤A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;
步骤A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure QLYQS_1
,当余弦相似度/>
Figure QLYQS_2
小于设定的阈值时,则认为电子文档位置i处的内容被篡改;
文字比对自监督模型的训练方法,包括以下步骤:
步骤B1:将字典库中的每个字符转化为字符图像,对字符图像进行数据增广后,将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集;
步骤B2:构建采用共享参数、双塔结构的文字比对自监督模型,文字比对自监督模型包括编码器和投影模块;
编码器用于对输入的字符图像进行编码;编码器包括九层结构:前七层结构为ResNet结构,ResNet结构之后连接一个最大池化层;后两层结构为全连接层,激活函数为ReLu;
投影模块包括两层全连接网络结构,第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh;
步骤B3:通过字符图像数据集对文字比对自监督模型进行训练;对于给定的字符图像x,记编码器的输出为
Figure QLYQS_3
,投影模块的输出为/>
Figure QLYQS_4
;文字比对自监督模型的损失函数/>
Figure QLYQS_5
为:
Figure QLYQS_6
其中,
Figure QLYQS_7
、/>
Figure QLYQS_8
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像,/>
Figure QLYQS_9
为与字符图像x具有不同标签的字符图像的总数量,/>
Figure QLYQS_10
表示转置。
2.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:文字比对自监督模型进行训练时,每批数据包括128个字符图像,采用Adam优化器,学习速率设置为0.001。
3.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤B1中,利用添加噪声、改变亮度和对比度,或者采用形态学算法对字符图像进行数据增广。
4.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤A1中,通过扫描仪将纸质文档转化为扫描版图像,并进行透视变换校正扫描版图像中的畸变和倾斜。
5.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤A2中提取字符图像并依次排序时,利用文本检测工具进行字符检测,得到每个独立字符的左上角坐标和右下角坐标,根据字符左上角坐标和右下角坐标,将每个字符图像抠出,归一化到统一尺寸后,根据左上角坐标的坐标值,按照从上到下、从左到右的顺序进行排序,形成字符图像序列。
CN202310185709.2A 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法 Active CN115861663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310185709.2A CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310185709.2A CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Publications (2)

Publication Number Publication Date
CN115861663A true CN115861663A (zh) 2023-03-28
CN115861663B CN115861663B (zh) 2023-05-23

Family

ID=85659536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310185709.2A Active CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Country Status (1)

Country Link
CN (1) CN115861663B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636708A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种局部文档图像的比对方法及系统
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113901907A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 图文匹配模型训练方法、图文匹配方法及装置
US20220292715A1 (en) * 2021-03-09 2022-09-15 Samsung Electronics Co., Ltd. Method and apparatus for estimating pose of device
US20220383108A1 (en) * 2021-05-21 2022-12-01 Nec Laboratories America, Inc. Information-aware graph contrastive learning
US20230019972A1 (en) * 2021-06-30 2023-01-19 Tencent America LLC Systems and methods of contrastive point completion with fine-to-coarse refinement
CN115687567A (zh) * 2022-10-14 2023-02-03 中电万维信息技术有限责任公司 一种不需要标注数据的短文本搜索相似长文本方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636708A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种局部文档图像的比对方法及系统
CN111930894A (zh) * 2020-08-13 2020-11-13 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
US20220292715A1 (en) * 2021-03-09 2022-09-15 Samsung Electronics Co., Ltd. Method and apparatus for estimating pose of device
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法
US20220383108A1 (en) * 2021-05-21 2022-12-01 Nec Laboratories America, Inc. Information-aware graph contrastive learning
US20230019972A1 (en) * 2021-06-30 2023-01-19 Tencent America LLC Systems and methods of contrastive point completion with fine-to-coarse refinement
CN113901907A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 图文匹配模型训练方法、图文匹配方法及装置
CN115687567A (zh) * 2022-10-14 2023-02-03 中电万维信息技术有限责任公司 一种不需要标注数据的短文本搜索相似长文本方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ROMAIN COSENTINO等: "《Toward a Geometrical Understanding of Self-supervised Contrastive Learning》" *
张重生 等: "《深度对比学习综述》" *

Also Published As

Publication number Publication date
CN115861663B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN112215223B (zh) 基于多元注意力机制的多方向场景文字识别方法及系统
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
US8761500B2 (en) System and methods for arabic text recognition and arabic corpus building
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
US11790675B2 (en) Recognition of handwritten text via neural networks
CN107220641B (zh) 一种基于深度学习的多语言文本分类方法
CN107451582A (zh) 一种图文识别系统及其识别方法
US20200134382A1 (en) Neural network training utilizing specialized loss functions
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
Joshi et al. Deep learning based Gujarati handwritten character recognition
CN112085011A (zh) 一种ocr识别结果纠错方法、装置及存储介质
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN109508712A (zh) 一种基于图像的汉语文字识别方法
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
Gao et al. Recurrent calibration network for irregular text recognition
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法
Manzoor et al. A novel system for image text recognition and classification using deep learning
CN115116074A (zh) 一种手写体文字识别、及模型训练方法和装置
CN112149523B (zh) 基于深度学习和并查集算法识别并抽取图片的方法及装置
Liebl et al. On the accuracy of CRNNs for line-based OCR: A multi-parameter evaluation
CN117292381B (zh) 一种印刷电路板的序列号读取方法
WO2024103997A1 (zh) 手写体识别方法、手写体识别模型的训练方法及装置
Bhandary et al. Comparative Study on Handwritten Character Recognition Tools.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant