CN115861663B - 一种基于自监督学习模型的文档图像内容比对方法 - Google Patents

一种基于自监督学习模型的文档图像内容比对方法 Download PDF

Info

Publication number
CN115861663B
CN115861663B CN202310185709.2A CN202310185709A CN115861663B CN 115861663 B CN115861663 B CN 115861663B CN 202310185709 A CN202310185709 A CN 202310185709A CN 115861663 B CN115861663 B CN 115861663B
Authority
CN
China
Prior art keywords
image
character
character image
self
electronic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310185709.2A
Other languages
English (en)
Other versions
CN115861663A (zh
Inventor
刘学亮
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Yunxi Quantum Technology Co ltd
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202310185709.2A priority Critical patent/CN115861663B/zh
Publication of CN115861663A publication Critical patent/CN115861663A/zh
Application granted granted Critical
Publication of CN115861663B publication Critical patent/CN115861663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度,当余弦相似度小于设定的阈值时,则认为电子文档位置i处的内容被篡改。本发明不需要检测图像中每个字符的具体内容完成比对,能够提高比对的效率。

Description

一种基于自监督学习模型的文档图像内容比对方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于自监督学习模型的文档图像内容比对方法。
背景技术
纸质文档一般通过文字处理软件制作成电子文档,并打印而成。文字处理软件制作的电子文档在传输过程中,文档内容被篡改的事情时有发生,这导致了最终打印的文档和原始的电子文档不一致的问题。
为了解决电子文档流通过程中被篡改问题,目前的技术一般通过光学字符识别技术对纸质文件的扫描件进行识别,再将识别结果和电子文档进行对比。但是光学字符识别技术存在精度不高、算力消耗大的问题。
发明内容
为解决上述技术问题,本发明提供一种基于自监督学习模型的文档图像内容比对方法,在对文档进行字符图像检测的基础上,通过计算单个字符图像之间的相似性,来实现快速比对的功能。
为解决上述技术问题,本发明采用如下技术方案:
一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:
步骤A1:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;
步骤A2:提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;
步骤A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;
步骤A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure SMS_1
,当余弦相似度/>
Figure SMS_2
小于设定的阈值时,则认为电子文档位置i处的内容被篡改;
文字比对自监督模型的训练方法,包括以下步骤:
步骤B1:将字典库中的每个字符转化为字符图像,对字符图像进行数据增广后,将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集;
步骤B2:构建采用共享参数、双塔结构的文字比对自监督模型,文字比对自监督模型包括编码器和投影模块;
编码器用于对输入的字符图像进行编码;编码器包括九层结构:前七层结构为ResNet结构,ResNet结构之后连接一个最大池化层;后两层结构为全连接层,激活函数为ReLu;
投影模块包括两层全连接网络结构,第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh;
步骤B3:通过字符图像数据集对文字比对自监督模型进行训练;对于给定的字符图像x,记编码器的输出为
Figure SMS_3
,投影模块的输出为/>
Figure SMS_4
;文字比对自监督模型的损失函数/>
Figure SMS_5
为:
Figure SMS_6
其中,
Figure SMS_7
、/>
Figure SMS_8
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像,/>
Figure SMS_9
为与字符图像x具有不同标签的字符图像的总数量,/>
Figure SMS_10
表示转置。
进一步地,文字比对自监督模型进行训练时,每批数据包括128个字符图像,采用Adam优化器,学习速率设置为0.001。
进一步地,步骤B1中,利用添加噪声、改变亮度和对比度,或者采用形态学算法对字符图像进行数据增广。
进一步地,步骤A1中,通过扫描仪将纸质文档转化为扫描版图像,并进行透视变换校正扫描版图像中的畸变和倾斜。
进一步地,步骤A2中提取字符图像并依次排序时,利用文本检测工具进行字符检测,得到每个独立字符的左上角坐标和右下角坐标,根据字符左上角坐标和右下角坐标,将每个字符图像抠出,归一化到统一尺寸后,根据左上角坐标的坐标值,按照从上到下、从左到右的顺序进行排序,形成字符图像序列。
与现有技术相比,本发明的有益技术效果是:
目前常用的文本比对方法,通常需要对文档图像进行光学字符识别(OCR)处理,将图像中的文本转换为可比对的文本格式。然后,通过计算单个文字之间的相似性,来判断它们是否相同;运算量比较大。
本发明对纸质文档的扫描版图像和电子文档的电子版图像进行字符检测,对字符图像序列进行编码,并通过计算字符图像编码序列相同位置的相似度,来判断电子文档是否被篡改;本发明不需要检测图像中每个字符的具体内容,即可完成比对,能够提高比对的效率。
附图说明
图1为本发明文字比对自监督模型的训练流程图;
图2为本发明文档图像内容比对方法的流程图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
文字比对自监督模型的训练方法,包括以下步骤:
B1、文字图像数据集的建立:
B11:收集常用的汉字、数字、英文字母和符号等字符,作为模型字典库。
B12:对模型字典库中的每个字符,利用文图转化工具,采用宋体、楷书、仿宋、黑体等常用字体,生成一系列的字符图像,字符图像的大小固定为32像素×32像素。
B13:对生成的字符图像,利用添加噪声、改变亮度和对比度、形态学算法等方法,进行数据集增广。
B14:将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集。
B2、文字比对自监督模型的构建:
文字比对自监督模型采用共享参数的双塔结构,主要由编码器、投影模块两个部分组成。
编码器实现对输入的字符图像进行编码,它是一个由卷积和池化构成的、具有九层结构的网络模型。其中,前七层结构为ResNet结构,每个ResNet结构中包含两层卷积核大小为3×3的卷积层,卷积核个数分别为32、64、128;ResNet结构之后连接一个最大池化层。后两层结构为全连接层,两个全连接层输出尺寸为分别为512和128,激活函数为ReLu。
投影模块是一个两层的全连接网络结构,输出尺寸分别为128和64;第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh。
对于给定的字符图像x,记模型编码器的输出为
Figure SMS_11
,投影模块的输出为/>
Figure SMS_12
文字比对自监督模型损失函数如下:
Figure SMS_13
Figure SMS_14
、/>
Figure SMS_15
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像。
利用字符图像数据集,采用Adam优化器,对文字比对自监督模型进行优化求解。每批数据采样128个字符图像,学习速率设置为0.001。Adam是一种常用的优化器,用于训练神经网络模型,它可以通过指定学习速率和其他参数,来优化模型的求解过程。
采用Adam优化器、设置合适的学习速率0.001以及每批数据采样的字符图像数量等参数,可以提高文字比对自监督模型的训练效率,并有效提升文字比对自监督模型的预测准确性。
文档图像内容比对方法,包括以下步骤:
A1、转化文档图像:
对纸质文档进行扫描,得到扫描版图像,并通过透视变换,对扫描版图像进行校正。扫描仪能够捕捉纸质文档的图像,通常会将纸质文档的图像保存为图像格式的扫描件,如JPEG、PNG等图像格式。扫描件可能存在畸变或倾斜等问题,需要利用透视变换进行校正。透视变换通过改变图像的尺寸、方向和形状,来校正图像中的畸变、倾斜等问题。
将电子文档转化为电子版图像。
A2:对扫描版图像和电子版图像,分别利用文本检测工具进行字符检测,得到每个独立字符的左上角的坐标和右下角的坐标;根据字符左上角的坐标和右下角的坐标,将每个字符图像抠出来,并归一化到32像素×32像素。然后,根据左上角的坐标值,按照从上到下、从左到右的顺序进行排序,分别得到扫描字符图像序列和电子字符图像序列。
A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列。
A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure SMS_16
,当余弦相似度/>
Figure SMS_17
小于设定的阈值(0.22)时,则认为电子文档位置i处的内容被篡改。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于自监督学习模型的文档图像内容比对方法,包括以下步骤:
步骤A1:将纸质文档转化为扫描版图像,电子文档转化为电子版图像;
步骤A2:提取扫描版图像和电子版图像中的字符图像并依次排序,分别形成扫描字符图像序列和电子字符图像序列;
步骤A3:将扫描字符图像序列和电子字符图像序列输入至文字比对自监督模型的编码器中,分别得到扫描图像编码序列和电子图像编码序列;
步骤A4:计算扫描图像编码序列和电子图像编码序列相同位置i上的两个元素的余弦相似度
Figure QLYQS_1
,当余弦相似度/>
Figure QLYQS_2
小于设定的阈值时,则认为电子文档位置i处的内容被篡改;
文字比对自监督模型的训练方法,包括以下步骤:
步骤B1:将字典库中的每个字符转化为字符图像,对字符图像进行数据增广后,将每个由相同字符得到的字符图像赋予相同的标签,得到字符图像数据集;
步骤B2:构建采用共享参数、双塔结构的文字比对自监督模型,文字比对自监督模型包括编码器和投影模块;
编码器用于对输入的字符图像进行编码;编码器包括十层结构:前七层结构均为ResNet结构,ResNet结构之后连接一个最大池化层;后两层结构为全连接层,激活函数为ReLu;
投影模块包括两层全连接网络结构,第一层全连接网络结构的激活函数为ReLu,第二层全连接网络结构的激活函数为tanh;
步骤B3:通过字符图像数据集对文字比对自监督模型进行训练;对于给定的字符图像x,记编码器的输出为
Figure QLYQS_3
,投影模块的输出为/>
Figure QLYQS_4
;文字比对自监督模型的损失函数/>
Figure QLYQS_5
为:
Figure QLYQS_6
其中,
Figure QLYQS_7
、/>
Figure QLYQS_8
分别为与字符图像x具有相同标签的字符图像、与字符图像x具有不同标签的字符图像,/>
Figure QLYQS_9
为与字符图像x具有不同标签的字符图像的总数量,/>
Figure QLYQS_10
表示转置。
2.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:文字比对自监督模型进行训练时,每批数据包括128个字符图像,采用Adam优化器,学习速率设置为0.001。
3.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤B1中,利用添加噪声、改变亮度和对比度,或者采用形态学算法对字符图像进行数据增广。
4.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤A1中,通过扫描仪将纸质文档转化为扫描版图像,并进行透视变换校正扫描版图像中的畸变和倾斜。
5.根据权利要求1所述的基于自监督学习模型的文档图像内容比对方法,其特征在于:步骤A2中提取字符图像并依次排序时,利用文本检测工具进行字符检测,得到每个独立字符的左上角坐标和右下角坐标,根据字符左上角坐标和右下角坐标,将每个字符图像抠出,归一化到统一尺寸后,根据左上角坐标的坐标值,按照从上到下、从左到右的顺序进行排序,形成字符图像序列。
CN202310185709.2A 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法 Active CN115861663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310185709.2A CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310185709.2A CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Publications (2)

Publication Number Publication Date
CN115861663A CN115861663A (zh) 2023-03-28
CN115861663B true CN115861663B (zh) 2023-05-23

Family

ID=85659536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310185709.2A Active CN115861663B (zh) 2023-03-01 2023-03-01 一种基于自监督学习模型的文档图像内容比对方法

Country Status (1)

Country Link
CN (1) CN115861663B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636708A (zh) * 2013-11-11 2015-05-20 方正国际软件(北京)有限公司 一种局部文档图像的比对方法及系统
CN111930894B (zh) * 2020-08-13 2022-10-28 腾讯科技(深圳)有限公司 长文本匹配方法及装置、存储介质、电子设备
EP4057226A1 (en) * 2021-03-09 2022-09-14 Samsung Electronics Co., Ltd. Method and apparatus for estimating pose of device
US20220383108A1 (en) * 2021-05-21 2022-12-01 Nec Laboratories America, Inc. Information-aware graph contrastive learning
US11587291B2 (en) * 2021-06-30 2023-02-21 Tencent America LLC Systems and methods of contrastive point completion with fine-to-coarse refinement
CN113901907A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 图文匹配模型训练方法、图文匹配方法及装置
CN115687567A (zh) * 2022-10-14 2023-02-03 中电万维信息技术有限责任公司 一种不需要标注数据的短文本搜索相似长文本方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011427A (zh) * 2021-03-17 2021-06-22 中南大学 基于自监督对比学习的遥感图像语义分割方法

Also Published As

Publication number Publication date
CN115861663A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Shanthi et al. A novel SVM-based handwritten Tamil character recognition system
US8761500B2 (en) System and methods for arabic text recognition and arabic corpus building
Pareek et al. Gujarati handwritten character recognition from text images
US11790675B2 (en) Recognition of handwritten text via neural networks
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
Singh et al. An application of SVM in character recognition with chain code
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN113792659B (zh) 文档识别方法、装置及电子设备
US11715288B2 (en) Optical character recognition using specialized confidence functions
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Cojocaru et al. Watch your strokes: improving handwritten text recognition with deformable convolutions
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN113657377B (zh) 一种机打票据图像结构化识别方法
CN118135584A (zh) 一种基于深度学习的手写表单自动识别方法和系统
Hemanth et al. CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION.
Rahiman et al. Printed Malayalam character recognition using back-propagation neural networks
CN117576699A (zh) 一种基于深度学习的机车工单信息智能识别方法及系统
CN115861663B (zh) 一种基于自监督学习模型的文档图像内容比对方法
Liebl et al. On the accuracy of CRNNs for line-based OCR: A multi-parameter evaluation
Mostafa et al. An end-to-end ocr framework for robust arabic-handwriting recognition using a novel transformers-based model and an innovative 270 million-words multi-font corpus of classical arabic with diacritics
CN112560866B (zh) 一种基于背景抑制的ocr识别方法
CN112001416B (zh) 一种自适应答题纸序列纠正方法
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
Aparna et al. A complete OCR system development of Tamil magazine documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240612

Address after: Room 204-a10, embedded R & D building, future center, Institute of advanced technology, University of science and technology of China

Patentee after: Anhui Yunxi Quantum Technology Co.,Ltd.

Country or region after: China

Address before: 230000 future center of Institute of advanced technology, University of science and technology of China, No. 5089, Wangjiang West Road, high tech Zone, Hefei, Anhui b1205-b1208

Patentee before: Artificial Intelligence Research Institute of Hefei comprehensive national science center (Artificial Intelligence Laboratory of Anhui Province)

Country or region before: China