CN112632952A - 一种对比文件的方法和装置 - Google Patents

一种对比文件的方法和装置 Download PDF

Info

Publication number
CN112632952A
CN112632952A CN202011443584.1A CN202011443584A CN112632952A CN 112632952 A CN112632952 A CN 112632952A CN 202011443584 A CN202011443584 A CN 202011443584A CN 112632952 A CN112632952 A CN 112632952A
Authority
CN
China
Prior art keywords
file
data block
comparison
block group
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011443584.1A
Other languages
English (en)
Inventor
杨芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011443584.1A priority Critical patent/CN112632952A/zh
Publication of CN112632952A publication Critical patent/CN112632952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对比文件的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:能够在获取第一文件之后,自动检测并获取其关联的第二文件;将两个对比文件对应地划分为多个数据块,利用图像处理模型或者文本处理模型依次对比后获得不一致的目标数据块组,进一步地获取目标数据块组中的不一致的目标数据以及在文件中的位置信息,并根据位置信息标记两个文件不一致的区域;从而降低了人力成本,提高了对比文件的准确性,降低了未能检测出文件被恶意修改的风险。

Description

一种对比文件的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种对比文件的方法和装置。
背景技术
在各行各业中,通常需要利用签合同的方法来规范合同双方的权利和义务,在金融行业中,合同在各种经济活动中更为广泛使用。
在现有技术中至少存在如下问题:为了确保合同准确性和经济活动的安全性,往往需要人工检查签订版合同文件的内容与原始未签订版合同文件的内容是否一致,以防止签订版的合同文件存在被恶意修改的内容,这样的检查对于银行业务中的合同(例如借贷合同)尤为重要;利用人工检查合同内容除了浪费人力资源,还存在人工检查对于合同中微小差别的识别率较低的问题,从而造成不必要的经济纠纷。
发明内容
有鉴于此,本发明实施例提供一种对比文件的方法和装置,能够在获取第一文件之后,自动检测并获取其关联的第二文件;将两个对比文件对应地划分为多个数据块,利用图像处理模型或者文本处理模型依次对比后获得不一致的目标数据块组,进一步地获取目标数据块组中的不一致的目标数据以及在文件中的位置信息,并根据位置信息标记两个文件不一致的区域;从而降低了人力成本,提高了对比文件的准确性,降低了未能检测出文件被恶意修改的风险。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对比文件的方法,其特征在于,包括:获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
可选地,所述对比文件的方法,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
监控所述第一文件的存储位置,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件。
可选地,所述对比文件的方法,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
所述第一文件的文件名、所述第二文件的文件名包含相同的唯一标识。
可选地,所述对比文件的方法,其特征在于,
将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;包括:
将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块;形成一个或多个对比图像数据块组。
可选地,所述对比文件的方法,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,包括:获取所述对比图像数据块组,基于像素分别对比所述对比图像数据块组,将包含不一致像素的所述对比图像数据块组作为目标数据块组。
可选地,所述对比文件的方法,其特征在于,
利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。
可选地,所述对比文件的方法,其特征在于,
根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域,包括:利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的位置范围,以标记不一致的区域。
可选地,所述对比文件的方法,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,还包括:利用文本处理模型,基于文本对比所述对比数据块组,将包含不一致文本的所述对比数据块组作为目标数据块组。
为实现上述目的,根据本发明实施例的第二方面,提供了一种对比文件的装置,其特征在于,包括:获取对比文件模块、执行文件对比模块和标记文件模块;其中,
所述获取对比文件模块,用于获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;
所述执行文件对比模块,用于对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;
所述标记文件模块,用于获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
可选地,所述对比文件的装置,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
监控所述第一文件的存储位置,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件。
可选地,所述对比文件的装置,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
所述第一文件的文件名、所述第二文件的文件名包含相同的唯一标识。
可选地,所述对比文件的装置,其特征在于,
将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;包括:将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块;形成一个或多个对比图像数据块组。
可选地,所述对比文件的装置,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,包括:获取所述对比图像数据块组,基于像素分别对比所述对比图像数据块组,将包含不一致像素的所述对比图像数据块组作为目标数据块组。
可选地,所述对比文件的装置,其特征在于,
利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。
可选地,所述对比文件的装置,其特征在于,
根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域,包括:利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的位置范围,以标记不一致的区域。
可选地,所述对比文件的装置,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,还包括:
利用文本处理模型,基于文本对比所述对比数据块组,将包含不一致文本的所述对比数据块组作为目标数据块组。
为实现上述目的,根据本发明实施例的第三方面,提供了一种对比文件的电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述对比文件的方法中任一所述的方法。
为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述对比文件的方法中任一所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够在获取第一文件之后,自动检测并获取其关联的第二文件;将两个对比文件对应地划分为多个数据块,利用图像处理模型或者文本处理模型依次对比后获得不一致的目标数据块组,进一步地获取目标数据块组中的不一致的目标数据以及在文件中的位置信息,并根据位置信息标记两个文件不一致的区域;从而降低了人力成本,提高了对比文件的准确性,降低了未能检测出文件被恶意修改的风险。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明一个实施例提供的一种对比文件的方法的流程示意图;
图2是本发明一个实施例提供的一种对比文件的客户端的页面示意图;
图3是本发明一个实施例提供的一种利用图像对比文件的流程示意图;
图4是本发明一个实施例提供的一种对比文件的装置的结构示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明实施例提供了一种对比文件的方法,该方法可以包括以下步骤:
步骤S101:获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组。
具体地,获取第一文件和第二文件,第一文件和第二文件为需要对比的一组文件,例如:银行借贷业务中的借贷合同文件的未签字版(第一文件)和签字版(第二文件);其中,所述第一文件的文件名、所述第二文件的文件名包含相同的唯一标识;例如:第一文件名为“ABC流动资金贷款合同.pdf”;第二文件名为“ABC流动资金贷款合同_1.pdf”,“ABC流动资金贷款合同”即为唯一标识;可以理解的是,通过相同的唯一标识,易于确定和选择待对比的一组文件。
进一步地,获取第一文件以及所述第一文件对应的第二文件,包括:监控所述第一文件的存储位置,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件;具体地,例如:将第一文件存储于设定文件服务器的目录AAA中(其中,设定的目录可以通过数据库获取,或者通过配置文件获取),基于第一文件(例如:未签字版的贷款合同文件)生成第二文件(例如:签字版的贷款合同文件)之后,可以通过客户端的页面上传第二文件到设定目录AAA中;监控目录AAA,例如第一文件“ABC流动资金贷款合同.pdf”已经存在于目录AAA,当客户端上传第二文件“ABC流动资金贷款合同_1.pdf”到目录AAA以后,根据两个文件所包含的唯一标识判断,第二文件为第一文件所对应的文件,则获取上述第一文件和第二文件,以执行下一步地对比操作;即,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件。优选地,第一文件或第二文件可以为一个多页文件(例如:包含多页的合同文本)中的一页;另外还可以将对比文本模块集成于一个应用系统中,例如将“对公信贷合同对比”模块集成到“对公信贷管理系统”中,用户可以通过对公信贷管理系统的客户端显示如图2所示的页面,如图2所示,其中“合同文本名称”下面的各个文件为第一文件,用户可以通过“上传”按钮选择对应于第一文件的第二文件并上传,可以理解的是,用户点击上传之后,第二文件将存储于设定目录(例如:第一文件所存储的文件服务器上的目录)。用户还可以通过点击“比对结果调阅”按钮获取标记过的第一文件和第二文件,并获取的对比结果。
进一步地,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组。优选地,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块有两种方法:
第一种方法:将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块;形成一个或多个对比图像数据块组。优选地,在将所述第一文件和所述第二文件转换为图像格式时,使所述第一文件和所述第二文件的图像尺寸一致,即使两个文件的图像的原点坐标重合,并进一步地,将两个图像划分为多个数据块组,例如:将第一文件的图像基于区域划分为四个数据块:数据块A、数据块B、数据块C、数据块D;同时将第二文件的图像基于与第一文件的图像相同的区域划分为四个数据块:数据块A’、数据块B’、数据块C’、数据块D’;则:数据块A与数据块A’形成了对比数据块组,也即对比图像数据块组;其中,转换图像并划分图像所使用的方法可以用现有的图像软件工具。
第二种方法:获取所述第一文件和所述第二文件中的文本数据,基于相同的区域划分多个文本数据块;将相同区域的文本数据块作为对比数据块组,获取文本并划分划分多个文本数据块所使用的方法可以用现有的文本软件工具。
步骤S102:对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组。
具体地,根据步骤S101的描述,基于第一文件和第二文件形成了一个或多个对比数据块组,进一步地,对个各个对比数据块组,以获取数据块组中包含不一致数据的一组,作为目标数据块组,可以理解的是,通过划分对比数据块组,提高了对比的效率,缩小了确定不一致的对比数据块组的范围。
进一步地,对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组有两种方法:
第一种方法:当对比数据块组为对比图像数据块组时,获取所述对比图像数据块组,基于像素分别对比所述对比图像数据块组,将包含不一致像素(即不一致数据)的所述对比图像数据块组作为目标数据块组。具体地,在对比两个图像数据块时,获取两个图像数据块的像素值,并进行对比,即基于像素对比所述对比图像数据块组;根据像素对比的差异阈值,判断对比图像数据块组是否包含不一致的数据,若判断得到不一致的对比图像数据块组,则选取该对比图像数据块组作为目标数据块组,以进一步处理。即,将不一致的所述对比数据块组作为目标数据块组。
第二种方法:当对比数据块组为文本格式时,获取两个数据块的文本,转化成二进制的数值,并进行二进制数值的对比,根据二进制数值的差异阈值,判断对比数据块组是否包含不一致的数据,若判断得到不一致的对比数据块组,则选取该对比数据块组作为目标数据块组以进一步处理。
步骤S103:获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
具体地,根据步骤S102所描述的方法,确定包含不一致数据的目标数据块组,进一步地,获取各个数据块中不一致的数据作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件中的位置信息可以使用如下两种方法:
第一种方法:利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。具体地,例如,图像处理模型以利用光学字符识别(Optical Character Recognition,OCR)模型为例,利用OCR模型对比图像数据块的文本进行识别,并对比,其中,对比包括去除噪音的操作,例如:若接收到的OCR模型在识别和对比图像数据块的文本后,返回的对比信息为一个字的不一致,并且经过计算,该字不能与前后字组成词语,则认为该字的不一致可能为识别过程中的噪音,因此执行去除操作。进一步地,在确定不一致的目标数据之后,计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息(例如:坐标值),可以理解的是,在对比的预处理过程中,使第一文件图像与第二文件图像的原点坐标重合,并计算目标数据对于第一文件或第二文件的相对坐标;从而降低了计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息(例如:坐标值)的复杂度。
第二种方法:利用文本处理模型,获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息。具体地,利用文本处理模型(例如:文本对比工具)计算并获取所述目标数据块组中不一致的目标数据,并计算所述目标数据在所述第一文件、所述第二文件中的位置信息(例如:不一致的目标数据的文本的行列信息)。
进一步地,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
具体地,根据上述两种方法获得目标数据的位置信息后,可以根据目标数据的位置信息(坐标值或行列信息),利用图像处理模型建立新图层,在第一文件和第二文件中绘制图形(例如:绘制四边形)标记不一致的区域,即,利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的位置范围,以标记不一致的区域。
优选地,在标记之后,将标记过的第一文件和第二文件存储于设定的目录中,以供工作人员获取和查阅。
如图3所示,本发明实施例提供了一种利用图像对比文件的方法,该方法可以包括以下步骤:
步骤S301:将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块;形成一个或多个对比图像数据块组。
具体地,关于基于第一文件、第二文件形成一个或多个对比图像数据块组的描述与步骤S101中的第一种方法一致,在此不再赘述。
步骤S302:获取所述对比图像数据块组,基于像素分别对比所述对比图像数据块组,将包含不一致像素的所述对比图像数据块组作为目标数据块组。
具体地,关于基于像素对比所述对比图像数据块组的描述与步骤S102中的第一种方法一致,在此不再赘述。
步骤S303:利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。
具体地,关于确定不一致的目标数据的方法以及计算位置信息的描述与步骤S103中的第一种方法一致,在此不再赘述。
步骤S304:利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的范围,以标记不一致的区域。
具体地,关于标记不一致的区域的具体描述与步骤S103中的描述一致,在此不再赘述。
如图4所示,本发明实施例提供了一种文件对比的装置400,包括:获取对比文件模块401、执行文件对比模块402和标记文件模块403;其中,
所述获取对比文件模块401,用于获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;
所述执行文件对比模块402,用于对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;
所述标记文件模块403,用于获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
可选地,所述获取对比文件模块401,还用于监控所述第一文件的存储位置,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件。
可选地,所述获取对比文件模块401,还包括:所述第一文件的文件名、所述第二文件的文件名包含相同的唯一标识。
可选地,所述获取对比文件模块401,还用于将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块;形成一个或多个对比图像数据块组。
可选地,所述执行文件对比模块402,还用于对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,包括:基于像素对比所述对比图像数据块组,将不一致的所述对比图像数据块组作为目标数据块组。
可选地,所述标记文件模块403,还用于获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第二文件中的位置信息,包括:利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。
可选地,所述标记文件模块403,还用于根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域,包括:利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的位置范围,以标记不一致的区域。
可选地,所述执行文件对比模块402,还用于对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,还包括:利用文本处理模型,基于文本对比所述对比数据块组,将包含不一致文本的所述对比数据块组作为目标数据块组。
本发明实施例还提供了一种对比文件的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例提供的方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例提供的方法。
图5示出了可以应用本发明实施例的对比文件的方法或对比文件的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如:企业管理系统客户端应用、网页浏览器应用、搜索类应用、即时通信工具和邮箱客户端等。
终端设备501、502、503可以是具有显示屏并且支持各种客户端应用的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所使用的客户端应用提供支持的后台管理服务器。后台管理服务器可以对接收到第一文件和第二文件进行对比和计算,并提供标记不一致的文件供终端设备查阅。
需要说明的是,本发明实施例所提供的对比文件的方法一般由终端设备501、502、503执行,相应地,对比文件的装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取对比文件模块、执行文件对比模块和标记文件模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,标记文件模块还可以被描述为“根据不一致的目标数据在对比文件中的位置信息,标记所述目标数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
通过本发明的一个实施例,能够在获取第一文件之后,自动检测并获取其关联的第二文件;将两个对比文件对应地划分为多个数据块,利用图像处理模型或者文本处理模型依次对比后获得不一致的目标数据块组,进一步地获取目标数据块组中的不一致的目标数据以及在文件中的位置信息,并根据位置信息标记两个文件不一致的区域;从而降低了人力成本,提高了对比文件的准确性,降低了未能检测出文件被恶意修改的风险。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (11)

1.一种文件对比的方法,其特征在于,包括:
获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;
获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
2.根据权利要求1所述的方法,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
监控所述第一文件的存储位置,当检测到存在于所述第一文件对应的所述第二文件时,获取所述第一文件和所述第二文件。
3.根据权利要求1所述的方法,其特征在于,
获取第一文件以及所述第一文件对应的第二文件,包括:
所述第一文件的文件名、所述第二文件的文件名包含相同的唯一标识。
4.根据权利要求1所述的方法,其特征在于,
将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;包括:
将所述第一文件和所述第二文件转换为图像格式,并将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个图像数据块,形成一个或多个对比图像数据块组。
5.根据权利要求1或4所述的方法,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,包括:
获取所述对比图像数据块组,基于像素分别对比所述对比图像数据块组,将包含不一致像素的所述对比图像数据块组作为所述目标数据块组。
6.根据权利要求5所述的方法,其特征在于,
利用图像处理模型,识别所述目标数据块组中的所述对比图像数据块的文本,通过对比和去除噪音,确定不一致的文本作为目标数据,并计算所述目标数据在所述第一文件、所述第二文件的图像中的位置信息。
7.根据权利要求1所述的方法,其特征在于,
根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域,包括:
利用图像处理模型,根据所述位置信息,分别在所述第一文件、所述第二文件中绘制图像指示所述目标数据存在的位置范围,以标记不一致的区域。
8.根据权利要求1所述的方法,其特征在于,
对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组,还包括:
利用文本处理模型,基于文本对比所述对比数据块组,将包含不一致文本的所述对比数据块组作为目标数据块组。
9.一种文件对比的装置,其特征在于,包括:获取对比文件模块、执行文件对比模块和标记文件模块;其中,
所述获取对比文件模块,用于获取第一文件以及所述第一文件对应的第二文件,将所述第一文件和所述第二文件基于对应的相同区域划分为一个或多个数据块,形成一个或多个对比数据块组;
所述执行文件对比模块,用于对比所述对比数据块组,将包含不一致数据的所述对比数据块组作为目标数据块组;
所述标记文件模块,用于获取所述目标数据块组中不一致的目标数据,计算所述目标数据在所述第一文件、所述第二文件中的位置信息,根据所述位置信息在所述第一文件和所述第二文件中标记不一致区域。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202011443584.1A 2020-12-08 2020-12-08 一种对比文件的方法和装置 Pending CN112632952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011443584.1A CN112632952A (zh) 2020-12-08 2020-12-08 一种对比文件的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011443584.1A CN112632952A (zh) 2020-12-08 2020-12-08 一种对比文件的方法和装置

Publications (1)

Publication Number Publication Date
CN112632952A true CN112632952A (zh) 2021-04-09

Family

ID=75309548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011443584.1A Pending CN112632952A (zh) 2020-12-08 2020-12-08 一种对比文件的方法和装置

Country Status (1)

Country Link
CN (1) CN112632952A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449341A (zh) * 2021-07-13 2021-09-28 北京明朝万达科技股份有限公司 一种文件数据追溯方法、装置、设备及存储介质
CN114048707A (zh) * 2021-11-17 2022-02-15 北京字跳网络技术有限公司 信息处理方法、装置、终端和存储介质
WO2024112593A1 (en) * 2022-11-22 2024-05-30 Docusign, Inc. Detecting object burn-in on documents in a document management system

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577319A (zh) * 2012-08-07 2014-02-12 腾讯科技(深圳)有限公司 源代码文件检测方法及装置、文件发布系统
CN108446394A (zh) * 2018-03-26 2018-08-24 网易(杭州)网络有限公司 文件差异的对比方法和装置
WO2018184284A1 (zh) * 2017-04-08 2018-10-11 大连万达集团股份有限公司 用于检查bim模型文件是否变化的方法
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN110162509A (zh) * 2019-04-26 2019-08-23 平安普惠企业管理有限公司 文件比对方法、装置、计算机设备及存储介质
CN110688889A (zh) * 2019-08-06 2020-01-14 珠海格力电器股份有限公司 一种图文内容比对方法及装置
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN111460763A (zh) * 2020-03-02 2020-07-28 南京南瑞继保电气有限公司 文件差异的标注方法、装置、设备及计算机可读存储介质
CN111737965A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 文档的比对方法、装置、电子设备和可读存储介质
CN111914597A (zh) * 2019-05-09 2020-11-10 杭州睿琪软件有限公司 一种文档对照识别方法、装置、电子设备和可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577319A (zh) * 2012-08-07 2014-02-12 腾讯科技(深圳)有限公司 源代码文件检测方法及装置、文件发布系统
WO2018184284A1 (zh) * 2017-04-08 2018-10-11 大连万达集团股份有限公司 用于检查bim模型文件是否变化的方法
CN108446394A (zh) * 2018-03-26 2018-08-24 网易(杭州)网络有限公司 文件差异的对比方法和装置
CN111090982A (zh) * 2018-10-24 2020-05-01 迈普通信技术股份有限公司 文本比较方法、装置、电子设备及计算机可读存储介质
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN110162509A (zh) * 2019-04-26 2019-08-23 平安普惠企业管理有限公司 文件比对方法、装置、计算机设备及存储介质
CN111914597A (zh) * 2019-05-09 2020-11-10 杭州睿琪软件有限公司 一种文档对照识别方法、装置、电子设备和可读存储介质
CN110688889A (zh) * 2019-08-06 2020-01-14 珠海格力电器股份有限公司 一种图文内容比对方法及装置
CN111460763A (zh) * 2020-03-02 2020-07-28 南京南瑞继保电气有限公司 文件差异的标注方法、装置、设备及计算机可读存储介质
CN111737965A (zh) * 2020-05-29 2020-10-02 北京百度网讯科技有限公司 文档的比对方法、装置、电子设备和可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449341A (zh) * 2021-07-13 2021-09-28 北京明朝万达科技股份有限公司 一种文件数据追溯方法、装置、设备及存储介质
CN114048707A (zh) * 2021-11-17 2022-02-15 北京字跳网络技术有限公司 信息处理方法、装置、终端和存储介质
WO2024112593A1 (en) * 2022-11-22 2024-05-30 Docusign, Inc. Detecting object burn-in on documents in a document management system

Similar Documents

Publication Publication Date Title
CN109308681B (zh) 图像处理方法和装置
CN112632952A (zh) 一种对比文件的方法和装置
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CA3018437C (en) Optical character recognition utilizing hashed templates
US9588952B2 (en) Collaboratively reconstituting tables
CN113377653B (zh) 生成测试用例的方法和装置
CN111402120A (zh) 一种标注图像处理方法及装置
CN113377958A (zh) 一种文档分类方法、装置、电子设备以及存储介质
CN109472540B (zh) 业务处理方法和装置
US20230196004A1 (en) Systems and methods for conversion of documents to reusable content types
CN115719444A (zh) 图像质量确定方法、装置、电子设备和介质
CN115756461A (zh) 标注模板生成方法、图像识别方法、装置和电子设备
CN111353039A (zh) 文件类别检测方法和装置
CN115422123A (zh) 数据处理方法、装置、电子设备及存储介质
CN114882283A (zh) 样本图像生成方法、深度学习模型的训练方法和装置
CN114138712A (zh) 文件处理方法、处理装置、电子设备及存储介质
CN110427891B (zh) 用于识别合同的方法、装置、系统及介质
CN113920519A (zh) 文件检测方法、终端设备及存储介质
CN113344064A (zh) 事件处理方法和装置
CN111401137A (zh) 证件栏位识别的方法和装置
CN111178352A (zh) 一种验证码字符识别的方法和装置
CN109784332B (zh) 一种文档图像倾斜检测的方法和装置
CN110969041A (zh) 图形编码的识别方法和装置
CN114791996B (zh) 信息处理方法、装置、系统、电子设备及存储介质
CN110991270B (zh) 文本识别的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination