CN112784220A - 一种纸质合同防篡改校验方法及系统 - Google Patents

一种纸质合同防篡改校验方法及系统 Download PDF

Info

Publication number
CN112784220A
CN112784220A CN202010536424.5A CN202010536424A CN112784220A CN 112784220 A CN112784220 A CN 112784220A CN 202010536424 A CN202010536424 A CN 202010536424A CN 112784220 A CN112784220 A CN 112784220A
Authority
CN
China
Prior art keywords
line
unit
paragraph
paper contract
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010536424.5A
Other languages
English (en)
Other versions
CN112784220B (zh
Inventor
胡为民
郑喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Original Assignee
Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dib Enterprise Risk Management Technology Co ltd filed Critical Shenzhen Dib Enterprise Risk Management Technology Co ltd
Priority to CN202010536424.5A priority Critical patent/CN112784220B/zh
Publication of CN112784220A publication Critical patent/CN112784220A/zh
Application granted granted Critical
Publication of CN112784220B publication Critical patent/CN112784220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种纸质合同防篡改校验方法,该方法基于一系统实现,系统包括有录入单元、OCR识别单元、存储单元、读取单元和校验单元,方法包括如下步骤:步骤S1,将纸质合同的原始电子文档保存于存储单元;步骤S2,获取纸质合同的扫描件;步骤S3,OCR识别单元利用OCR识别技术对扫描件进行文字识别,将识别得到的文字信息保存为目标文件;步骤S4,读取单元向存储单元获取原始电子文档,然后读取原始电子文档的文字信息并保存为参照文件;步骤S5,校验单元对目标文件与参照文件中的文字信息进行逐行比较,对目标文件中与参照文件不同的文字进行标示。本发明实现了对纸质合同的自动校验功能,其实现过程不仅省时省力,而且检查效率高,检查结果准确可靠。

Description

一种纸质合同防篡改校验方法及系统
技术领域
本发明涉及文件校验方法,尤其涉及一种纸质合同防篡改校验方法及系统。
背景技术
现有技术中,企业单位在生产经营活动过程中,经常需要与其他单位签订各项合同,对于重要的合同,一般要双方往往经过多论协商沟通,最终以双方盖章后的纸版本为准。但实际上甲乙双方的盖章时间不一致,往往是在一方盖完章后再给另一方盖章,而当甲方收到乙方已盖章的合同时,为避免合同内容被事先篡改而造成履约风险,一般是采用人工检查的方式,核验该合同内容与事先达成一致的电子版是否一致,此过程费时费力,无法保证全面检查,尤其对于一些页数较多、条款数量大的合同而言,很难做到准确校验,不仅效率低下,还会影响签约进程。
发明内容
本发明要解决的技术问题在于,针对现有技术的不足,提供一种能够对纸质合同进行自动校验,不仅省时省力,而且检查效率高、检查结果准确可靠的纸质合同防篡改校验方法及系统。
为解决上述技术问题,本发明采用如下技术方案。
一种纸质合同防篡改校验方法,该方法基于一系统实现,所述系统包括有录入单元、OCR识别单元、存储单元、读取单元和校验单元,所述方法包括如下步骤:步骤S1,将所述纸质合同的原始电子文档保存于所述存储单元;步骤S2,获取所述纸质合同的扫描件;步骤S3,所述OCR识别单元利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;步骤S4,所述读取单元向所述存储单元获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;步骤S5,所述校验单元对所述目标文件与所述参照文件中的文字信息进行逐行比较,对所述目标文件中与所述参照文件不同的文字进行标示。
优选地,所述文字信息包括行标志、行宽度标志、行高度标志、页标志以及文字内容。
优选地,所述步骤S1中,所述原始电子文档的格式为WORD格式或者PDF格式。
优选地,所述步骤S2中,所述扫描件通过扫描仪对所述纸质合同进行扫描后得到,或者对所述纸质合同拍照合并形成PDF格式文件后得到。
优选地,所述步骤S3中,首先构建一个总列表listIn和一个段落列表listPara,所述OCR识别单元对所述扫描件进行文字识别的过程包括:步骤S30,将所述OCR识别单元识别的每行文字信息按照预设顺序写入所述总列表listIn中;步骤S31,将当前行作为新段落的开始行,写入所述段落列表listPara中;步骤S32,读取下一行进行判断处理:步骤S320,判断当前行高与上一行高之差是否达到预设的行高阈值,若是,则表示字体大小发生变化,上一段落已结束,将当前行作为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;步骤S321,判断当前行缩进是否超过两个字段,若是,则表示上一段落已经结束,将当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;步骤S322,判断当前行的终止位置坐标是否大于上一行终止位置坐标两个字符,若是,则表示上一段落已经结束,当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;步骤S323,判断当前行终止位置坐标是否小于上一行终止位置坐标两个字符,若是,则表示当前行为段落结束行,先将当前行写入所述段落列表listPara中,然后调取下一行作为当前行,并执行步骤S33;若否,则执行步骤S34;步骤S33,将所述段落列表listPara中的内容合并后作为段落写入预设的输出列表listOut中,同时清空所述段落列表listPara,返回至所述步骤S31;步骤S34,若所述步骤S320、所述步骤S321、所述步骤S322和所述步骤S323的判断结果皆为否,说明当前行是段落中的一行,将当前行直接写入所述段落列表listPara中,然后调取下一行作为当前行,返回至所述步骤S32;循环执行所述步骤S31至步骤S34,直至所述总列表listIn中的全部文当前行识别完成,将所述输出列表listOut的输出结果保存为目标文件。
优选地,所述步骤S4中,所述读取单元基于PDFBOX、iText或者POI文档处理技术向所述存储单元获取原始电子文档。
优选地,所述步骤S5中,所述校验单元利用预设的diff-utils工具对所述目标文件与所述参照文件中的文字信息进行逐行比较,根据所述diff-utils工具输出的比较结果生成文档差异表。
优选地,所述步骤S5中,所述校验单元展示出所述扫描件与所述原始电子文档,利用不同颜色对所述扫描件与所述原始电子文档中新增行、删除行以及行内修改的文字内容进行标示,以供人工判断所述纸质合同是否被篡改。
优选地,所述步骤S5中,所述校验单元采用HTML格式展示出所述扫描件与所述原始电子文档。
一种纸质合同防篡改校验系统,所述系统包括有录入单元、OCR识别单元、存储单元、读取单元和校验单元,其中:所述存储单元用于保存所述纸质合同的原始电子文档;所述录入单元用于录入所述纸质合同的扫描件;所述OCR识别单元用于利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;所述读取单元用于向所述存储单元获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;所述校验单元用于对所述目标文件与所述参照文件中的文字信息进行逐行比较,以及对所述目标文件中与所述参照文件不同的文字进行标示。
本发明公开的纸质合同防篡改校验方法中,先保存所述纸质合同的原始电子文档,然后通过扫描方式得到所述纸质合同的扫描件,然后对扫描件进行文字识别,再将识别的文字信息与原始电子文档中的文字信息进行比较,根据对比结果,将所述目标文件中与所述参照文件存在差异的文字标示出来。相比现有技术而言,本发明实现了对纸质合同的自动校验功能,其实现过程不仅省时省力,而且检查效率高,检查结果准确可靠,较好地满足了企业需要和市场需求。
附图说明
图1为本发明纸质合同防篡改校验方法的流程图;
图2为本发明纸质合同防篡改校验系统的组成框图。
具体实施方式
下面结合附图和实施例对本发明作更加详细的描述。
本发明公开了一种纸质合同防篡改校验方法,结合图1和图2所示,该方法基于一系统实现,所述系统包括有录入单元1、OCR识别单元2、存储单元3、读取单元4和校验单元5,所述方法包括如下步骤:
步骤S1,将所述纸质合同的原始电子文档保存于所述存储单元3;
步骤S2,获取所述纸质合同的扫描件;
步骤S3,所述OCR识别单元2利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;
步骤S4,所述读取单元4向所述存储单元3获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;
步骤S5,所述校验单元5对所述目标文件与所述参照文件中的文字信息进行逐行比较,对所述目标文件中与所述参照文件不同的文字进行标示。
上述方法中,先保存所述纸质合同的原始电子文档,然后通过扫描方式得到所述纸质合同的扫描件,然后对扫描件进行文字识别,再将识别的文字信息与原始电子文档中的文字信息进行比较,根据对比结果,将所述目标文件中与所述参照文件存在差异的文字标示出来。相比现有技术而言,本发明实现了对纸质合同的自动校验功能,其实现过程不仅省时省力,而且检查效率高,检查结果准确可靠,较好地满足了企业需要和市场需求。
作为一种优选方式,所述文字信息包括行标志、行宽度标志、行高度标志、页标志以及文字内容。
进一步地,所述步骤S1中,所述原始电子文档的格式为WORD格式或者PDF格式。
关于对扫描件的处理,本实施例中,所述步骤S2中,所述扫描件通过扫描仪对所述纸质合同进行扫描后得到,或者对所述纸质合同拍照合并形成PDF格式文件后得到。
实际应用过程中,由于OCR识别技术是按行识别文字的,所以会导致段落信息丢失,进而影响最终比对效果,为了克服这些缺陷,本实施例需要根据每行字符数、标点符号的特征通过算法进行文字段落恢复,具体的段落识别策略如下:
所述步骤S3中,首先构建一个总列表listIn和一个段落列表listPara,所述OCR识别单元2对所述扫描件进行文字识别的过程包括:
步骤S30,将所述OCR识别单元2识别的每行文字信息按照预设顺序写入所述总列表listIn中;
步骤S31,将当前行作为新段落的开始行,写入所述段落列表listPara中;
步骤S32,读取下一行进行判断处理:
步骤S320,判断当前行高与上一行高之差是否达到预设的行高阈值,若是,则表示字体大小发生变化,上一段落已结束,将当前行作为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S321,判断当前行缩进是否超过两个字段,若是,则表示上一段落已经结束,将当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S322,判断当前行的终止位置坐标是否大于上一行终止位置坐标两个字符,若是,则表示上一段落已经结束,当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S323,判断当前行终止位置坐标是否小于上一行终止位置坐标两个字符,若是,则表示当前行为段落结束行,先将当前行写入所述段落列表listPara中,然后调取下一行作为当前行,并执行步骤S33;若否,则执行步骤S34;
步骤S33,将所述段落列表listPara中的内容合并后作为段落写入预设的输出列表listOut中,同时清空所述段落列表listPara,返回至所述步骤S31;
步骤S34,若所述步骤S320、所述步骤S321、所述步骤S322和所述步骤S323的判断结果皆为否,说明当前行是段落中的一行,将当前行直接写入所述段落列表listPara中,然后调取下一行作为当前行,返回至所述步骤S32;
循环执行所述步骤S31至步骤S34,直至所述总列表listIn中的全部文当前行识别完成,将所述输出列表listOut的输出结果保存为目标文件。
本实施例中,所述步骤S4中,所述读取单元4基于PDFBOX、iText或者POI文档处理技术向所述存储单元3获取原始电子文档。
为了方便后续环节中对差异位置进行标示,本实施例的所述步骤S5中,所述校验单元5利用预设的diff-utils工具对所述目标文件与所述参照文件中的文字信息进行逐行比较,根据所述diff-utils工具输出的比较结果生成文档差异表。
为了清楚指示差异位置,本实施例的所述步骤S5中,所述校验单元5展示出所述扫描件与所述原始电子文档,利用不同颜色对所述扫描件与所述原始电子文档中新增行、删除行以及行内修改的文字内容进行标示,以供人工判断所述纸质合同是否被篡改。
进一步地,所述步骤S5中,所述校验单元5采用HTML格式展示出所述扫描件与所述原始电子文档。
为了更好地描述本发明的技术方案,本发明还公开了一种纸质合同防篡改校验系统,请参见图2,所述系统包括有录入单元1、OCR识别单元2、存储单元3、读取单元4和校验单元5,其中:
所述存储单元3用于保存所述纸质合同的原始电子文档;
所述录入单元1用于录入所述纸质合同的扫描件;
所述OCR识别单元2用于利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;
所述读取单元4用于向所述存储单元3获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;
所述校验单元5用于对所述目标文件与所述参照文件中的文字信息进行逐行比较,以及对所述目标文件中与所述参照文件不同的文字进行标示。
本发明公开的纸质合同防篡改校验方法及系统,其实际应用过程中可参考如下实施例:
实施例一
步骤1,通过技术手段保存一份最终版合同电子文档,如利用合同管理系统进行电子文档保存,文档的格式可以是WORD或PDF格式;
步骤2,将需要盖章的纸质版合同扫描成电子文件,具体方法可以采用手机拍照、高拍仪拍照或扫描仪扫描等手段将纸质合同生成JPG或PNG图片,生成的图片要求按顺序命名或者按顺序合并成一个PDF文件,以便后续程序能按正确地按页码顺序处理文档;
步骤3,采用通用OCR识别技术对合同扫描件逐张图片进行文字识别。由于OCR是按行识别文字的,会导致段落信息丢失,影响最终比对效果,需要根据每行字符数、标点符号特征通过算法进行文字段落恢复,段落识别策略:
a、将OCR识别的每行结果(文字行左上角左标left、top,文当前行宽度width、高度height)按页号+top坐标顺序放到一个总列表listIn中,再从该列表第一行开始处理;
b、将当前行作为新段落开始,放到段落列表listPara中,再取下一行进行判断处理;
c、若当前行高与上一行高相差超高一定阈值(可配参数),则表示字体大小发现变化,上一段落已结束,当前行为新段落第一行,转至g处理;
d、若当前行缩进超过两个字段(字符宽度=width/当前行字符数,当前行缩进=当前行left-上一行left),则表示上一段落已结束,当前行为新段落第一行,转至g处理;
e、若当前行终止坐标(left+width)超过上一行终止坐标两个字符,则表示上一段落已结束,当前行为新段落第一行(考虑上一行为标题或段落最后一行两种情况),转至g处理;
f、若当前行终止坐标小于上一行终止坐标两个字符,则表示当前行为段落结束行,先将当前行加listPara中,取出下一行作为当前行,转至g处理;
g、如果c、d、e、f任一情况成立,将listPara内容合并作为段落输出到listOut中,同时清空列表listPara,并转入b处理;
h、如果c、d、e、f均不成立,说明当前行是段落中的一行,将当前行加入到listPara中,取下一行,转至c判断处理;
I、循环处理完listIn中的所有文当前行后,将listOut内容输出,保存为“文本文件1”;
步骤4,进行比对前,系统利用PDFBOX、iText、POI等文档处理技术从最终版电子版文档读取所有文本信息,并保存为“文本文件2”;
步骤5,采用google的diff-utils工具逐行比较“文本文件1”或“文本文件2”的差异,根据diff-utils返回结果,生成文档差异表,并采用HTML格式展示处两份文档的差异,用不同颜色标识新增行、删除行、行内修改的文字,以供人工判断合同是否被实质篡改。
本发明公开的纸质合同防篡改校验方法及系统,其相比现有技术而言的有益效果在于,本发明通过技术手段实现了纸质合同与电子合同的自动比较,并使得检查效率大幅提高,如果自建OCR识别服务器,通常一份合同几秒钟之内即可完成比对。此外,由于纸质合同在OCR识别过程中,虽然有个别文字由于中文相似性,系统可能会识别成错误的文字,但是这些文字往往是单个出现,并不影响阅读,人为粗略查看时,可以很轻松地判断出重要内容是否被修改,从而达到盖章前的合同风险防范。
以上所述只是本发明较佳的实施例,并不用于限制本发明,凡在本发明的技术范围内所做的修改、等同替换或者改进等,均应包含在本发明所保护的范围内。

Claims (10)

1.一种纸质合同防篡改校验方法,其特征在于,该方法基于一系统实现,所述系统包括有录入单元(1)、OCR识别单元(2)、存储单元(3)、读取单元(4)和校验单元(5),所述方法包括如下步骤:
步骤S1,将所述纸质合同的原始电子文档保存于所述存储单元(3);
步骤S2,获取所述纸质合同的扫描件;
步骤S3,所述OCR识别单元(2)利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;
步骤S4,所述读取单元(4)向所述存储单元(3)获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;
步骤S5,所述校验单元(5)对所述目标文件与所述参照文件中的文字信息进行逐行比较,对所述目标文件中与所述参照文件不同的文字进行标示。
2.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述文字信息包括行标志、行宽度标志、行高度标志、页标志以及文字内容。
3.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述步骤S1中,所述原始电子文档的格式为WORD格式或者PDF格式。
4.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述步骤S2中,所述扫描件通过扫描仪对所述纸质合同进行扫描后得到,或者对所述纸质合同拍照合并形成PDF格式文件后得到。
5.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述步骤S3中,首先构建一个总列表listIn和一个段落列表listPara,所述OCR识别单元(2)对所述扫描件进行文字识别的过程包括:
步骤S30,将所述OCR识别单元(2)识别的每行文字信息按照预设顺序写入所述总列表listIn中;
步骤S31,将当前行作为新段落的开始行,写入所述段落列表listPara中;
步骤S32,读取下一行进行判断处理:
步骤S320,判断当前行高与上一行高之差是否达到预设的行高阈值,若是,则表示字体大小发生变化,上一段落已结束,将当前行作为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S321,判断当前行缩进是否超过两个字段,若是,则表示上一段落已经结束,将当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S322,判断当前行的终止位置坐标是否大于上一行终止位置坐标两个字符,若是,则表示上一段落已经结束,当前行记为新段落的第一行,然后执行步骤S33;若否,则执行步骤S34;
步骤S323,判断当前行终止位置坐标是否小于上一行终止位置坐标两个字符,若是,则表示当前行为段落结束行,先将当前行写入所述段落列表listPara中,然后调取下一行作为当前行,并执行步骤S33;若否,则执行步骤S34;
步骤S33,将所述段落列表listPara中的内容合并后作为段落写入预设的输出列表listOut中,同时清空所述段落列表listPara,返回至所述步骤S31;
步骤S34,若所述步骤S320、所述步骤S321、所述步骤S322和所述步骤S323的判断结果皆为否,说明当前行是段落中的一行,将当前行直接写入所述段落列表listPara中,然后调取下一行作为当前行,返回至所述步骤S32;
循环执行所述步骤S31至步骤S34,直至所述总列表listIn中的全部文本行识别完成,将所述输出列表listOut的输出结果保存为目标文件。
6.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述步骤S4中,所述读取单元(4)基于PDFBOX、iText或者POI文档处理技术向所述存储单元(3)获取原始电子文档。
7.如权利要求1所述的纸质合同防篡改校验方法,其特征在于,所述步骤S5中,所述校验单元(5)利用预设的diff-utils工具对所述目标文件与所述参照文件中的文字信息进行逐行比较,根据所述diff-utils工具输出的比较结果生成文档差异表。
8.如权利要求7所述的纸质合同防篡改校验方法,其特征在于,所述步骤S5中,所述校验单元(5)展示出所述扫描件与所述原始电子文档,利用不同颜色对所述扫描件与所述原始电子文档中新增行、删除行以及行内修改的文字内容进行标示,以供人工判断所述纸质合同是否被篡改。
9.如权利要求8所述的纸质合同防篡改校验方法,其特征在于,所述步骤S5中,所述校验单元(5)采用HTML格式展示出所述扫描件与所述原始电子文档。
10.一种纸质合同防篡改校验系统,其特征在于,所述系统包括有录入单元(1)、OCR识别单元(2)、存储单元(3)、读取单元(4)和校验单元(5),其中:
所述存储单元(3)用于保存所述纸质合同的原始电子文档;
所述录入单元(1)用于录入所述纸质合同的扫描件;
所述OCR识别单元(2)用于利用OCR识别技术对所述扫描件进行文字识别,将识别得到的文字信息保存为目标文件;
所述读取单元(4)用于向所述存储单元(3)获取原始电子文档,然后读取所述原始电子文档的文字信息并保存为参照文件;
所述校验单元(5)用于对所述目标文件与所述参照文件中的文字信息进行逐行比较,以及对所述目标文件中与所述参照文件不同的文字进行标示。
CN202010536424.5A 2020-06-12 2020-06-12 一种纸质合同防篡改校验方法及系统 Active CN112784220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010536424.5A CN112784220B (zh) 2020-06-12 2020-06-12 一种纸质合同防篡改校验方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010536424.5A CN112784220B (zh) 2020-06-12 2020-06-12 一种纸质合同防篡改校验方法及系统

Publications (2)

Publication Number Publication Date
CN112784220A true CN112784220A (zh) 2021-05-11
CN112784220B CN112784220B (zh) 2021-10-19

Family

ID=75750096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010536424.5A Active CN112784220B (zh) 2020-06-12 2020-06-12 一种纸质合同防篡改校验方法及系统

Country Status (1)

Country Link
CN (1) CN112784220B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221797A (zh) * 2021-05-24 2021-08-06 厦门科路德科技有限公司 一种印刷文件的防伪识别方法、装置以及设备
CN113420657A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 智能核验方法、装置、计算机设备及存储介质
CN113516044A (zh) * 2021-05-18 2021-10-19 山东新一代信息产业技术研究院有限公司 一种基于ocr与哈希算法的纸质合同信用增强方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033543A (zh) * 2015-03-11 2016-10-19 株式会社理光 文档修改检测方法、文档原稿提供装置、文档复制件检测装置、以及文档修改检测系统
CN109614971A (zh) * 2018-12-05 2019-04-12 山东政法学院 一种比对式文件检验仪
US10353997B1 (en) * 2018-04-09 2019-07-16 Amazon Technologies, Inc. Freeform annotation transcription
CN111144402A (zh) * 2019-11-27 2020-05-12 深圳壹账通智能科技有限公司 Ocr识别准确率的计算方法、装置、设备以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033543A (zh) * 2015-03-11 2016-10-19 株式会社理光 文档修改检测方法、文档原稿提供装置、文档复制件检测装置、以及文档修改检测系统
US10353997B1 (en) * 2018-04-09 2019-07-16 Amazon Technologies, Inc. Freeform annotation transcription
CN109614971A (zh) * 2018-12-05 2019-04-12 山东政法学院 一种比对式文件检验仪
CN111144402A (zh) * 2019-11-27 2020-05-12 深圳壹账通智能科技有限公司 Ocr识别准确率的计算方法、装置、设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516044A (zh) * 2021-05-18 2021-10-19 山东新一代信息产业技术研究院有限公司 一种基于ocr与哈希算法的纸质合同信用增强方法及系统
CN113221797A (zh) * 2021-05-24 2021-08-06 厦门科路德科技有限公司 一种印刷文件的防伪识别方法、装置以及设备
CN113221797B (zh) * 2021-05-24 2024-01-19 厦门科路德科技有限公司 一种印刷文件的防伪识别方法、装置以及设备
CN113420657A (zh) * 2021-06-23 2021-09-21 平安科技(深圳)有限公司 智能核验方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112784220B (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN112784220B (zh) 一种纸质合同防篡改校验方法及系统
JP4829920B2 (ja) フォーム自動埋込方法及び装置、グラフィカルユーザインターフェース装置
CN110569341B (zh) 配置聊天机器人的方法、装置、计算机设备和存储介质
CN107423732A (zh) 基于Android平台的车辆VIN识别方法
CN111914597B (zh) 一种文档对照识别方法、装置、电子设备和可读存储介质
WO2014086277A1 (zh) 方便电子化的专业笔记本及其页码自动识别方法
CN110728687B (zh) 文件图像分割方法、装置、计算机设备和存储介质
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
TW200540728A (en) Text region recognition method, storage medium and system
US9575935B2 (en) Document file generating device and document file generation method
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN113221632A (zh) 文档图片识别方法、装置以及计算机设备
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
CN111858977B (zh) 票据信息采集方法、装置、计算机设备和存储介质
CN111046644A (zh) 一种答题卡模板生成方法、识别方法、装置及存储介质
CN112749649A (zh) 一种智能识别并生成电子合同的方法及系统
CN110197140B (zh) 基于文字识别的材料审核方法及设备
CN108647570B (zh) 斑马线检测方法、装置及计算机可读存储介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN113569677A (zh) 一种基于扫描件的纸质试验报告生成方法
CN112418813A (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
JP2008282094A (ja) 文字認識処理装置
KR100957508B1 (ko) 광학 문자 인식 시스템 및 방법
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN114529933A (zh) 一种合同数据差异性的比对方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant