CN110688889B - 一种图文内容比对方法及装置 - Google Patents

一种图文内容比对方法及装置 Download PDF

Info

Publication number
CN110688889B
CN110688889B CN201910723288.8A CN201910723288A CN110688889B CN 110688889 B CN110688889 B CN 110688889B CN 201910723288 A CN201910723288 A CN 201910723288A CN 110688889 B CN110688889 B CN 110688889B
Authority
CN
China
Prior art keywords
file
comparison
difference
original
original file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910723288.8A
Other languages
English (en)
Other versions
CN110688889A (zh
Inventor
兰可
谭龙田
陈彦宇
马雅奇
谭泽汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201910723288.8A priority Critical patent/CN110688889B/zh
Publication of CN110688889A publication Critical patent/CN110688889A/zh
Application granted granted Critical
Publication of CN110688889B publication Critical patent/CN110688889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种图文内容比对方法及装置,该方法包括:获取待比对的原文件和对比文件;将所述原文件和对比文件分别按照页码拆分成多张图片;将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;采用边缘检测算法在对比文件中标记出被修改的内容。本发明提供的技术方案利用图像的差异检测和边缘检测确定出原文件和对比文件的不同,并标记出来,提高了比对速度和准确率。

Description

一种图文内容比对方法及装置
技术领域
本发明涉及智能识别技术领域,尤其涉及一种图文内容比对方法及装置。
背景技术
在文档有更新时,若是想知道修改了哪些内容,需要通过将更新后的文档与更新前的文档进行对比,来查看及核对内容改动点。
现有的文档比对工作主要是依靠人工完成,当文档的篇幅过长或是文档中包含图片信息等的时候,仅依靠人工完成相关的比对工作,由于工作量大,查找速度慢,而且容易出现漏检或误检等情况。
因此,需要提供一种图文内容比对方法及装置来解决现有技术的不足。
发明内容
为了解决现有技术中的问题,本发明提供了一种图文内容比对方法及装置。
本申请提供了一种图文内容比对方法,包括:
获取待比对的原文件和对比文件;
将所述原文件和对比文件分别按照页码拆分成多张图片;
将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
采用边缘检测算法在对比文件中标记出被修改的内容。
进一步地,在获取待比对的原文件和对比文件之前,所述方法还包括:
检测所述原文件和对比文件的文件格式;
若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
若所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
进一步地,在将所述原文件和对比文件分别按照页码拆分成多张图片之后,所述方法还包括:
根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
若所述数量一致,则判定所述原文件和对比文件的页数一致;
否则,不一致。
进一步地,所述方法还包括:
若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测。
进一步地,在将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像之前,所述方法还包括:
对差异检测设置检测精度,并将所述检测精度作为差值阈值;所述检测精度的范围为1~255。
进一步地,将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像,包括:
将原文件和对比文件拆分后的所有图片分别转换成灰度图;
分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
进一步地,所述将原文件和对比文件拆分后的所有图片分别转换成灰度图,包括:
按照下式所示转换成灰度图:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
进一步地,所述采用边缘检测算法在对比文件中标记出被修改的内容,包括:
利用边缘检测算法确定出各图片中的被修改内容的边缘坐标信息;
根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
利用最小外接矩形将每个差异位置进行标记。
本申请还提供了一种图文内容比对装置,包括:
获取模块,用于获取待比对的原文件和对比文件;
拆分模块,用于将所述原文件和对比文件分别按照页码拆分成多张图片;
差异检测模块,用于将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
确定模块,用于采用边缘检测算法在对比文件中标记出被修改的内容。
进一步地,所述装置还包括:
格式检测模块,用于检测所述原文件和对比文件的文件格式;
第一判定模块,用于若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
格式转换模块,用于若所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
进一步地,所述装置还包括:
第一判断模块,用于根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
第二判定模块,用于若所述数量一致,则判定所述原文件和对比文件的页数一致;
第三判定模块,用于若所述页数不一致,则判定所述原文件和对比文件的页数不一致。
进一步地,所述装置还包括:
第二判断模块,用于若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
第三判定模块,用于若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测。
进一步地,所述装置还包括:
精度设置模块,用于对差异检测设置检测精度,并将所述检测精度作为差值阈值;所述检测精度的范围为1~255。
进一步地,所述差异检测模块包括:
转换子模块,用于将原文件和对比文件拆分后的所有图片分别转换成灰度图;
差值子模块,用于分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断子模块,用于判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
判定子模块,用于选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
进一步地,所述转换子模块具体用于执行以下计算:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
进一步地,确定模块包括:
坐标确定子模块,用于利用边缘检测算法确定出各图片中的被修改内容的边缘坐标信息;
位置确定子模块,用于根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
标记子模块,用于利用最小外接矩形将每个差异位置进行标记。
本发明的技术方案与最接近的现有技术相比具有如下优点:
本发明提供的技术方案首先获取待比对的原文件和对比文件,然后将原文件和对比文件分别按照页码拆分成多张图片,再将拆分的图片按照对应页面进行差异检测,得到差异图像,最后采用边缘检测算法在对比文件中标记出被修改的内容。本发明提供的技术方案利用图像的差异检测和边缘检测确定出原文件和对比文件的不同,并标记出来,与现有技术中人工检测的速度慢且容易出现漏检或误检相比,可以自动标记出被改动内容,提高了比对速度和准确率。
附图说明
图1是本发明实施例提供的图文内容比对方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种图文内容比对方法,该方法可以包括以下步骤:
获取待比对的原文件和对比文件;
将所述原文件和对比文件分别按照页码拆分成多张图片;
将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
采用边缘检测算法在对比文件中标记出被修改的内容。
在本申请实施例中,首先获取待比对的原文件和对比文件,然后将原文件和对比文件分别按照页码拆分成多张图片,再将拆分的图片按照对应页面进行差异检测,得到差异图像,最后采用边缘检测算法在对比文件中标记出被修改的内容。本发明提供的技术方案利用图像的差异检测和边缘检测确定出原文件和对比文件的不同,并标记出来,与现有技术中人工检测的速度慢且容易出现漏检或误检相比,提高了比对速度,还可以自动标记出被改动内容,提高了准确率。
在本申请一些实施例中,在获取待比对的原文件和对比文件之前,还需要先检测原文件和对比文件的文件格式,若是符合预设文件格式就不进行格式转换,否则需要进行格式转换。具体地流程包括:
检测所述原文件和对比文件的文件格式;
若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
若是所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
其中,预设文件格式可以是pdf(Portable Document Format,便携式文档格式)格式,也可以是图片格式,也就是不可编辑的文件格式。具体地格式选取可以根据具体需求确定。
在一个具体地实施方式中,选取预设文件格式为pdf格式,检测甲文件和乙文件的不同,其中乙文件是对比文件。
首先检测甲乙文件的文件格式,若是都是pdf格式,则不需要转换,可以后续使用,若是甲文件是word格式,乙文件是pdf格式,则需要将甲文件转换成pdf格式的文件。
其中文件的转换可以通过文件转换工具进行转换。
在本申请一些实施例中,将原文件和对比文件拆分成多张图片后,还需判断两文件拆分后的页数是否一致,页数一致后还需判断像素是否一致。
具体地,判断两文件拆分后的页数是否一致,包括:
根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
若所述数量一致,则判定所述原文件的对比文件的页数一致;
否则,不一致。
进一步地,页数一致后还需判断像素是否一致,包括:
若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测。
通过判断数量和像素,可以判断出原文件和对比文件拆分后的图片的页数和大小是否一致,以便后续进行差异检测。
在本申请一些实施例中,当判断出原文件和对比文件的页数和大小均一致,设定差异检测的检测精度,并将检测精度作为差值阈值,以便后续进行差异检测后的图片选取。
其中检测精度的范围可以是1~255。
检测精度可以手动设置,也可以使用系统自带检测精度100,检测精度的设定可根据需求进行设定。
在本发明的一个具体实施方式中,将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像,具体包括:
将原文件和对比文件拆分后的所有图片分别转换成灰度图;
分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
具体地,将原文件拆分后的所有图片分别转换成灰度图,同时将对比文件拆分后的所有图片分别转换成灰度图,然后将对应页码的灰度图相减,筛选灰度图相减后的差值图像中差异值的像素点大于或等于差值阈值的像素点,并将包含上述像素点的差值图像作为差异图像。
在本申请实施例中,通过设置检测精度,也就是差值阈值,可以大幅度地减少数据量,剔除其中不想管的信息,保留图片中重要的结构属性。使得后续进行处理或计算时,工作量更少。
进一步地,得到的拆分后的各图片本身是RGB图像,将RGB图像转换成灰度图像,可以根据下式所示进行转换:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
在本发明的一个具体实施方式中,采用边缘检测算法在对比文件中标记出被修改的内容,包括:
利用边缘检测算法确定出各图片中的被修改内容的坐标信息;
根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
利用最小外接矩形将每个差异位置进行标记。
边缘检测的方法有很多,例如Laplacian算子、Roberts算子、Sobel算子、log(Laplacian-Gauss)算子、Kirsch算子和Prewitt算子等,可以根据实际情况进行选择。
通过边缘检测算法确定出各图片被修改的内容的边缘坐标信息,然后确定出差异位置,最后用最小外接矩形将每个差异位置进行标记。
其中,被修改内容包括增加、删除或修改的内容。可以是文字内容,也可以是图片内容。
本发明的原理如下所示:
本发明涉及的图文内容比对方法旨在核查文档、图纸等修改前后的变动点,解决人工核对易发生的漏检、误检问题,辅助用户进行核对,降低了工作量,提高工作效率。
首先,用户通过点击“更改前文件”和“更改后文件”,分别上传修改前、后的文件。上传的文件格式必须是预设文件格式,如果用户上传其他格式的文件,进行后续操作时,系统会提示“改前文件选择有误”或者“改后文件选择有误”。如果用户没有上传文件就进行后续操作,系统会提示“未上传改前文件”或者“未上传改后文件”。
用户正确上传修改前、后文件后,可以在“检测精度”的文本框中输入合适的数值,输入范围是1-255,若用户不输入,则默认为100。该数值与图像检测算法中设置的阈值相关联,数值越小,检测结果中标记的更改点越多。若检测精度数值输入有误,则会提示异常。若两份文件之间有颜色改动,需要设置较小的检测精度,如1-10之间;若两份文件只有图文内容、位置变动,则可选用默认值,或将精度值设置在100-150之间。
检测精度设置好后,点击“对比”,后台会将上传的修改前、后的文件分别拆分成多张图片,此时需要检测两文档拆分后的图片的数量和大小是否均一致,若是确定都一致,将两份文件对应页码的图片逐一采用差分算法进行差异检测;然后采用边缘检测算法查找差异位置的最小外接矩形,并将其标记在修改后的图片上,另存为一张新图片;最后将新生成的图片按照页码顺序合并成一个新的预设文件格式的文件,即含有差异标记的结果文件。
检测完成后,该结果文件将会展示在系统页面上,用户可以在网页上预览结果文件,也可以点击“下载”将文件保存到本地。
基于相同的发明构思本发明还提供了一种图文内容比对装置,该装置包括:
获取模块,用于获取待比对的原文件和对比文件;
拆分模块,用于将所述原文件和对比文件分别按照页码拆分成多张图片;
差异检测模块,用于将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
确定模块,用于采用边缘检测算法在对比文件中标记出被修改的内容。
可选的,所述装置还包括:
格式检测模块,用于检测所述原文件和对比文件的文件格式;
第一判定模块,用于若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
格式转换模块,用于若所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
可选的,所述装置还包括:
第一判断模块,用于根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
第二判定模块,用于若所述数量一致,则判定所述原文件和对比文件的页数一致;
第三判定模块,用于若所述页数不一致,则判定所述原文件和对比文件的页数不一致。
可选的,所述装置还包括:
第二判断模块,用于若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
第三判定模块,用于若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测。
可选的,所述装置还包括:
精度设置模块,用于对差异检测设置检测精度,并将所述检测精度作为差值阈值;所述检测精度的范围为1~255。
可选的,所述差异检测模块包括:
转换子模块,用于将原文件和对比文件拆分后的所有图片分别转换成灰度图;
差值子模块,用于分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断子模块,用于判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
判定子模块,用于选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
可选的,所述转换子模块具体用于执行以下计算:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
可选的,确定模块包括:
坐标确定子模块,用于利用边缘检测算法确定出各图片中的被修改内容的边缘坐标信息;
位置确定子模块,用于根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
标记子模块,用于利用最小外接矩形将每个差异位置进行标记。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种图文内容比对方法,其特征在于,包括:
获取待比对的原文件和对比文件;
将所述原文件和对比文件分别按照页码拆分成多张图片;
将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
采用边缘检测算法在对比文件中标记出被修改的内容;
其中,在将所述原文件和对比文件分别按照页码拆分成多张图片之后,所述方法还包括:
根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
若所述数量一致,则判定所述原文件和对比文件的页数一致;
否则,不一致;
所述方法还包括:
若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测;
其中,所述采用边缘检测算法在对比文件中标记出被修改的内容,包括:
利用边缘检测算法确定出各图片中的被修改内容的边缘坐标信息;
根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
利用最小外接矩形将每个差异位置进行标记;
其中,利用最小外接矩形将每个差异位置进行标记之后,所述方法还包括:
将每个标记后的图片另存为新图片;
将所有所述新图片按照页码顺序合并成一个文件,作为差异检测结果文件。
2.根据权利要求1所述的一种图文内容比对方法,其特征在于,在获取待比对的原文件和对比文件之前,所述方法还包括:
检测所述原文件和对比文件的文件格式;
若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
若所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
3.根据权利要求1所述的一种图文内容比对方法,其特征在于,在将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像之前,所述方法还包括:
对差异检测设置检测精度,并将所述检测精度作为差值阈值;所述检测精度的范围为1~255。
4.根据权利要求3所述的一种图文内容比对方法,其特征在于,将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像,包括:
将原文件和对比文件拆分后的所有图片分别转换成灰度图;
分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
5.根据权利要求4所述的一种图文内容比对方法,其特征在于,所述将原文件和对比文件拆分后的所有图片分别转换成灰度图,包括:
按照下式所示转换成灰度图:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
6.一种图文内容比对装置,其特征在于,包括:
获取模块,用于获取待比对的原文件和对比文件;
拆分模块,用于将所述原文件和对比文件分别按照页码拆分成多张图片;
差异检测模块,用于将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测,得到差异图像;
确定模块,用于采用边缘检测算法在对比文件中标记出被修改的内容;
所述装置还包括:
第一判断模块,用于根据所述原文件和对比文件拆分后的图片的数量,判断所述原文件和对比文件的页数是否一致;
第二判定模块,用于若所述数量一致,则判定所述原文件和对比文件的页数一致;
第三判定模块,用于若所述页数不一致,则判定所述原文件和对比文件的页数不一致;
所述装置还包括:
第二判断模块,用于若所述原文件和对比文件的页数一致,则判断原文件和对比文件的拆分后的多张图片的像素是否相同;
第三判定模块,用于若所述原文件和对比文件的拆分后的多张图片的像素相同,则将所述原文件和对比文件的拆分后的多张图片按照对应页码进行差异检测;
其中,所述确定模块包括:
坐标确定子模块,用于利用边缘检测算法确定出各图片中的被修改内容的边缘坐标信息;
位置确定子模块,用于根据所述坐标信息确定出对比文件的各图片与原文件的各图片的差异位置;
标记子模块,用于利用最小外接矩形将每个差异位置进行标记;
所述确定模块还包括:
另存子模块,用于将每个标记后的图片另存为新图片;
合并子模块,用于将所有所述新图片按照页码顺序合并成一个文件,作为差异检测结果文件。
7.根据权利要求6所述的一种图文内容比对装置,其特征在于,所述装置还包括:
格式检测模块,用于检测所述原文件和对比文件的文件格式;
第一判定模块,用于若所述原文件和对比文件的文件格式为预设文件格式,则不进行格式转换;
格式转换模块,用于若所述原文件和/或对比文件的文件格式不为预设文件格式,则将所述原文件和/或对比文件的文件格式转换成预设文件格式。
8.根据权利要求6所述的一种图文内容比对装置,其特征在于,所述装置还包括:
精度设置模块,用于对差异检测设置检测精度,并将所述检测精度作为差值阈值;所述检测精度的范围为1~255。
9.根据权利要求8所述的一种图文内容比对装置,其特征在于,所述差异检测模块包括:
转换子模块,用于将原文件和对比文件拆分后的所有图片分别转换成灰度图;
差值子模块,用于分别将原文件和对比文件对应页码的灰度图相减,得到差值图像;
判断子模块,用于判断所述差值图像中的各差异值的像素点是否大于或等于所述差值阈值;
判定子模块,用于选取各差值图像中大于或等于所述差值阈值的差异值的像素点,将包含所述像素点的差值图像作为差异图像。
10.根据权利要求9所述的一种图文内容比对装置,其特征在于,所述转换子模块具体用于执行以下计算:
Gray=R*0.299+G*0.587+B*0.114
其中,Gray为灰度图;R为图片中的红色通道;G为图片中的绿色通道;B为图片中的蓝色通道。
CN201910723288.8A 2019-08-06 2019-08-06 一种图文内容比对方法及装置 Active CN110688889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723288.8A CN110688889B (zh) 2019-08-06 2019-08-06 一种图文内容比对方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723288.8A CN110688889B (zh) 2019-08-06 2019-08-06 一种图文内容比对方法及装置

Publications (2)

Publication Number Publication Date
CN110688889A CN110688889A (zh) 2020-01-14
CN110688889B true CN110688889B (zh) 2023-04-18

Family

ID=69108163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723288.8A Active CN110688889B (zh) 2019-08-06 2019-08-06 一种图文内容比对方法及装置

Country Status (1)

Country Link
CN (1) CN110688889B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084748A (zh) * 2020-09-19 2020-12-15 神思电子技术股份有限公司 一种文本比对方法
CN112632952A (zh) * 2020-12-08 2021-04-09 中国建设银行股份有限公司 一种对比文件的方法和装置
CN113627320B (zh) * 2021-08-09 2023-09-26 东云睿连(武汉)计算技术有限公司 一种基于计算机视觉的工程图纸比对装置和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102770816A (zh) * 2010-01-26 2012-11-07 踏途音乐公司 具有改进的用户界面的数字点播设备和相关方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5277750B2 (ja) * 2008-06-25 2013-08-28 富士ゼロックス株式会社 画像処理プログラム、画像処理装置及び画像処理システム
US8472726B2 (en) * 2011-01-07 2013-06-25 Yuval Gronau Document comparison and analysis
CN103914496B (zh) * 2013-01-09 2017-04-19 北大方正集团有限公司 一种页面校对的方法和装置
CN104982026B (zh) * 2014-02-03 2018-06-05 株式会社隆创 图像检查装置和图像检查方法
CN107797754B (zh) * 2015-03-03 2021-02-09 Oppo广东移动通信有限公司 一种文本复制的方法及装置和介质产品
CN105094674B (zh) * 2015-07-27 2019-02-05 联想(北京)有限公司 一种信息处理方法及电子设备
CN105824792B (zh) * 2016-03-18 2018-09-21 中国银联股份有限公司 文本比对方法和设备
CN108074214B (zh) * 2017-12-20 2020-01-10 江苏省质量和标准化研究院 一种标准资源加工去污处理方法
CN108805098A (zh) * 2018-06-21 2018-11-13 云城(北京)数据科技有限公司 纸面文档与电子文档的比对方法、装置和系统
CN109447063A (zh) * 2018-09-29 2019-03-08 佛山市云米电器科技有限公司 一种基于图像处理的厨房油烟浓度检测方法
CN109919963B (zh) * 2019-03-14 2023-03-24 吉林大学 一种车漆缺陷位置检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102770816A (zh) * 2010-01-26 2012-11-07 踏途音乐公司 具有改进的用户界面的数字点播设备和相关方法
CN105354940A (zh) * 2010-01-26 2016-02-24 踏途音乐公司 具有改进的用户界面的数字点播设备和相关方法

Also Published As

Publication number Publication date
CN110688889A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110688889B (zh) 一种图文内容比对方法及装置
US8718364B2 (en) Apparatus and method for digitizing documents with extracted region data
US10346703B2 (en) Method and apparatus for information recognition
US11929048B2 (en) Method and device for marking target cells, storage medium and terminal device
CN108549643B (zh) 翻译处理方法和装置
WO2018233055A1 (zh) 保单信息录入的方法、装置、计算机设备及存储介质
US10482344B2 (en) System and method for performing optical character recognition
US10332236B2 (en) Method and apparatus for adsorbing straight line/line segment, method and apparatus for constructing polygon
CN110197238B (zh) 一种字体类别的识别方法、系统及终端设备
JP2016110647A (ja) 画像処理装置及び画像処理方法
CN109389659B (zh) Ppt中数学公式的渲染方法、装置、存储介质及终端设备
CN110968374A (zh) 一种文档信息的显示方法、装置、电子设备及存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN108804978B (zh) 一种版面分析方法及装置
US9613427B2 (en) Information processing method and electronic device
RU2571379C2 (ru) Интеллектуальная обработка электронного документа
US10248857B2 (en) System and method for detecting and annotating bold text in an image document
US10902253B2 (en) Continuously self-adapting arrangement for automatically acquiring data and corresponding method
CN113130023A (zh) Edc系统中图文识别录入方法及系统
CN111898641A (zh) 一种目标模型检测、装置、电子设备及计算机可读存储介质
US20190325210A1 (en) Information processing apparatus and non-transitory computer readable medium
CN110728120A (zh) 证件识别过程中自动填入拼音的方法、装置和存储介质
CN117094288B (zh) 图纸格式转换方法、装置、可读存储介质及电子设备
CN115265620B (zh) 一种仪器显示数据的获取录入方法、装置和存储介质
CN115641601A (zh) 车辆零件文档处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant