CN102117414B - 基于文件特征用多级图像比较认证打印文件的方法和装置 - Google Patents

基于文件特征用多级图像比较认证打印文件的方法和装置 Download PDF

Info

Publication number
CN102117414B
CN102117414B CN201010622636.1A CN201010622636A CN102117414B CN 102117414 B CN102117414 B CN 102117414B CN 201010622636 A CN201010622636 A CN 201010622636A CN 102117414 B CN102117414 B CN 102117414B
Authority
CN
China
Prior art keywords
file destination
unit
image
source document
destination image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010622636.1A
Other languages
English (en)
Other versions
CN102117414A (zh
Inventor
明伟
田宜彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Laboratory USA Inc
Original Assignee
Konica Minolta Laboratory USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Laboratory USA Inc filed Critical Konica Minolta Laboratory USA Inc
Publication of CN102117414A publication Critical patent/CN102117414A/zh
Application granted granted Critical
Publication of CN102117414B publication Critical patent/CN102117414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本发明涉及一种用于使用多级图像比较来对打印文件进行认证的方法和装置。该文件认证方法包括在诸如块(例如段落、图形、图像)、行、词和字符级别的多个级别上将目标文件图像(扫描图像)与原始文件图像进行比较。段落级别的比较确定目标和原始图像是否具有相同的段落数目以及段落是否具有相同的尺寸和位置,行级别的比较确定目标和原始图像是否具有相同的行数目以及行是否具有相同的尺寸和位置,等等。出于比较的目的,对目标和原始图像执行文件分割以将它们分割成段落单元、行单元等。可以预先分割原始文件并且存储分割信息以备以后使用。认证处理被设计为当在较高级别上检测到更改时停止,因此不执行较低级别的比较。

Description

基于文件特征用多级图像比较认证打印文件的方法和装置
技术领域
本发明涉及一种用于通过比较文件的扫描图像和文件的原始数字版本来检测打印文件中的更改的方法。具体地,本发明涉及一种使用基于文件特性的多级比较的图像比较方法。
背景技术
闭环处理指的是打印原始数字文件(其可包括文本、图形、图像等),使用该文件的打印的硬副本(诸如分送、复制等),并且随后将文件的硬副本扫描回数字形式。对扫描的数字文件进行认证指的是确定扫描文件是否是原始数字文件的可信副本,即具有硬副本的形式的文件是否已被更改。已经提出了各种类型的文件认证和更改检测方法。许多文件认证方法中的目的在于检测进行了什么更改(添加、删除)。可替选地,一些文件认证方法确定文件是否已被更改,而不确定进行了什么更改。
一种类型的文件认证方法执行扫描文件与原始数字文件的图像比较。这有时被称为基于像素的更改检测方法。在另一类型的文件认证方法中,表示文件内容或者与其相关的数据被编码为条形码,并且这种条形码被打印在文件自身上以在以后协助文件认证。
在传统的基于像素的更改检测方法中,逐个像素地比较原始数字图像和扫描图像以确定扫描图像中是否存在更改。打印机和扫描仪的高空间分辨率导致了高分辨率的扫描图像。传统的更改检测方法中的整个图像的详尽的图像比较处理是计算密集的。
发明内容
本发明涉及一种改进的用于通过执行扫描文件与原始数字文件的多级比较来对文件进行认证的方法。
本发明的目的在于提供一种具有改进的性能的基于图像比较的更改检测方法。
在后面的描述中将阐述本发明的另外的特征和优点,并且其中一部分通过该描述而是明显的,或者可以通过实施本发明来被认识到。通过所撰写的说明书及其权利要求以及附图中具体指出的结构,将实现和达到本发明的这些目的和其他优点。
为了实现这些和/或其他目的,如所实施的和广泛描述的,本发明提供了一种在数据处理装置中实现的用于通过将目标文件图像与原始文件图像进行比较来对目标文件图像进行认证的方法,其包括:在第一级上将目标文件图像与原始文件图像进行比较,包括(a)将目标文件图像分割成多个第一级单元,(b)将原始文件图像分割成多个第一级单元,(c)将目标文件图像中的多个第一级单元与原始文件图像中的多个第一级单元进行比较以检测目标文件图像中的更改,并且如果在步骤(c)中未检测到更改,则在第二级上将目标文件图像与原始文件图像进行比较,包括(d)将目标文件图像分割成多个第二级单元,其中第二级单元小于第一级单元,(e)将原始文件图像分割成多个第二级单元,其中第二级单元小于第一级单元,以及(f)将目标文件图像中的多个第二级单元与原始文件图像中的多个第二级单元进行比较以检测目标文件图像中的更改。
此外,步骤(c)可以包括(c1)将目标文件图像中的第一级单元的计数与原始文件图像中的第一级单元的计数进行比较以检测目标文件图像中的更改,以及(c2)如果在步骤(c1)中未检测到更改,则将目标文件图像中的每个第一级单元的尺寸和位置与原始文件图像中的相应的第一级单元的尺寸和位置进行比较以检测目标文件图像中的更改。步骤(f)可以包括(f1)将目标文件图像中的第二级单元的计数与原始文件图像中的第二级单元的计数进行比较以检测目标文件图像中的更改,以及(f2)如果在步骤(f1)中未检测到更改,则将目标文件图像中的每个第二级单元的尺寸和位置与原始文件图像中的相应的第二级单元的尺寸和位置进行比较以检测目标文件图像中的更改。
目标文件图像和原始文件图像中的第一级单元可以是块单元,每个块单元包含文本段落、图形对象或图像对象,并且其中目标文件图像和原始文件图像中的第二级单元可以是行单元,每个行单元包含文本行;或者可以是词单元,每个词单元包含文本词;或者可以是字符单元,每个字符单元包含文本字符。
在另一方面,本发明提供了一种计算机程序产品,其包括具有嵌入在其中的使数据处理装置执行以上方法的计算机可读程序代码的计算机可用介质(例如存储器或存储设备)。
将理解,前面的一般描述和后面的详细描述是示例性的和解释性的,意在提供对要求保护的本发明的进一步的解释。
附图说明
图1a、1b和1c分别示意性地图示了被分割成块单元、行单元和词单元的文件图像。
图2a图示了根据本发明的实施例的使用多级比较的文件认证方法。
图2b图示了文件认证方法的另外的处理步骤。
具体实施方式
这里描述的更改检测方法可以由软件或固件实现,该软件或固件存储在存储器中并且由诸如计算机、具有数据处理部分的打印机或扫描仪等的任何适当的数据处理装置执行。在这一点上,被编码为用于实现以下描述的方法的计算机可执行软件可以被存储在由适当的数据处理装置的中央处理单元(CPU)或微处理单元(MPU)访问的计算机存储器中。计算机连接到用于存储文件和其他数据的大容量存储设备。打印和扫描步骤可以由任何打印机和扫描仪或者在单个设备中组合了打印部分和扫描部分的全能设备执行。这些设备和装置的结构是公知的并且在这里不做详细描述。
本发明的实施例提供了一种基于图像比较方法的文件更改检测方法(还被称为文件认证方法),其在多个级别上执行图像比较。更具体地,该文件认证方法从高级别的比较(即较粗糙的比较)到较低级别的比较(即较精细的比较)逐步地在多个级别上将扫描的数字文件图像(在这里被称为目标文件图像)与原始的数字文件图像(在这里被称为原始文件图像)比较,以检测目标文件图像中的更改。例如,高级别的比较可以是块级别上的比较,以确定目标文件图像是否具有与原始文件图像相同的块数目以及目标文件图像和原始文件图像中的块是否具有大致相同的尺寸和位置。每个块单元可以包含文本段落、图像或图形对象等。较低级别的比较可以是行级别上的比较,以确定目标文件图像和原始文件图像是否具有相同的行数目以及目标文件图像和原始文件图像中的行是否具有大致相同的尺寸和位置。更低级别的比较可以是词级别、字符级别等上的比较。
认证处理可以被设计为,一旦在某一级别上检测到更改,则处理停止并且向用户提供已检测到更改的消息,从而不会执行较低级别上的进一步的比较。可替选地,该处理可以被设计为交互式的,从而当检测到更改时,数据处理装置向用户通知结果,并且用户可以选择继续进一步的比较还是停止。
多级图像比较方法基于如下假定:文件结构通常是分级的,并且文件的版面结构通常也是分级的。该方法利用了文件的分级特性来提供不同级别的认证解决方案。
为了执行多级图像比较,目标文件图像和原始文件图像在不同的级别上被分割成不同级别的单元,包括块单元、行单元、词单元和字符单元。每个这样分割的单元由其边界框定义,该边界框是从所有的侧边来确定单元的界限的框(优选地是矩形的)。该处理被称为图像分割。通常,较低级别的单元的边界框小于较高级别的单元的边界框,并且较高级别的单元的边界框将完全包围许多个较低级别的单元的边界框。
图1a、1b和1c示意性地图示了图像分割。在图1a中,所示出的文件图像的页面(由实线边界表示)被分割成多个块单元,每个块单元由虚线矩形表示。在图1b中,所示出的文件图像的页面被分割成多个行单元,每个行单元由虚线矩形表示。在图1c中,所示出的文件图像的页面(仅示出了几行文本)被分割成多个词单元,每个词单元由虚线矩形表示。
许多方法可用于实现图像分割。在一种方法中,通过沿竖直轴绘制每行像素中的非白色像素的数目的图线,生成了水平直方图(或者水平投影)。该水平直方图将趋向于具有对应于文本行之间的白色空间的具有低值的分区,以及对应于文本行的具有较高值的分区(宽度大致相等)。因此这些直方图可以用于识别文件分割的行单元。此外,如果在文件中段落间距不同于行间距,则可以根据这些直方图来识别块(例如段落)单元(其中直方图中的较大的间隙将指出段落中断并且直方图中的较小的间隙将指出行中断)。行的另外的开始和结束信息可以有助于块提取。此外,在多个对象以及复杂的版面设计的情况中,可以通过分析直方图的分布来识别一些区域中的不同类型的对象的存在,并且随后可以通过分析该区域中的竖直投影来提取数据块。
此外,对于已识别的每个行单元,可以通过沿水平轴绘制每列像素中的非白色像素的数目的图线来生成竖直直方图(或者竖直投影)。该竖直投影将趋向于具有对应于文本字符之间的白色空间的具有低值的分区,以及对应于字符的具有较高值的分区。此外,竖直直方图中的较大的白色空间可以对应于词之间的白色空间并且可以用于识别词。因此,使用竖直和水平直方图,文件中的文本可以被分割成块(例如段落)单元、行单元、词单元和字符单元。
在另一文件分割方法中,对图像执行形态学膨胀操作,从而邻近的字符合并成对应于词单元的阴暗块。膨胀是形态学图像处理中的公知的技术,其通常导致图像的阴暗区域的扩大。一旦字符被合并成词单元,则可以进一步对它们进行分组以形成行单元和块(例如段落)单元。
在另一文件分割方法中,连接的图像成分(例如二值图像的情况中的连接的像素组)可以被识别为对应于字符,并且根据这些连接的图像成分形成字符单元。一旦形成了字符单元,则它们可以被分组以形成词单元、行单元和块(例如段落)单元。
还存在其他文件分割方法。一些这种方法是基于知识的,其使用文件结构的知识来分割图像。
根据本发明的实施例,多级认证方法将目标文件图像和原始文件图像分割成不同级别的单元,并且比较这两个图像中的每个级别的单元的数目(计数)以及这两个图像中的每个单元的边界框尺寸和位置。该处理开始于较高级别的单元(块单元、行单元等),并且一旦找到更改,则可以在任何级别上停止。
更具体地,如图2a中所示,该处理首先将目标文件图像和原始文件图像分割成块单元,每个块单元由边界框定义(步骤S201)。比较目标文件图像和原始文件图像中的块单元的计数。如果计数不同(步骤S202中的“否”),则判断目标文件已被更改,并且可以显示适当的消息或者可以执行另外的处理(后面描述的步骤A)。如果目标文件图像和原始文件图像中的块单元的计数是相同的(步骤S202中的“是”),则比较目标文件图像和原始文件图像中的相应的边界框的尺寸和位置(步骤S203)。如果目标文件图像和原始文件图像中的任何相应的边界框的尺寸和位置不同(步骤S204中的“否”),则判断目标文件已被更改,并且可以显示适当的消息或者可以执行另外的处理(步骤A)。
当比较目标文件图像和原始文件图像中的相应的边界框的尺寸和位置时,可以给出例如几个像素的公差,从而如果尺寸差或者位置差在该公差内,则出于比较的目的,两个边界框被视为具有相同的尺寸和位置。
步骤S201至S204可以被共同称为“将目标文件图像和原始文件图像分割成块单元并且比较这些块单元以检测更改”的步骤。
如果目标文件图像和原始文件图像中的所有相应的边界框具有相同的尺寸和位置(步骤S204中的“是”),则该处理继续,并且将目标文件图像和原始文件图像分割成行单元,每个行单元由边界框定义(步骤S205)。与块级别的比较相似,在行级别上,该处理首先确定目标文件图像和原始文件图像中的行单元的数目(计数)是否相同(步骤S206),并且随后比较目标文件图像和原始文件图像中的相应的边界框的尺寸和位置(步骤S207、S208)。如果行单元的计数不同(步骤S206中的“否”)或者如果任何相应的边界框的尺寸和位置不同(步骤S208中的“否”),则判断目标文件已被更改,并且可以显示适当的消息或者可以执行另外的处理(步骤A)。
步骤S205至S208可以被共同称为“将目标文件图像和原始文件图像分割成行单元并且比较这些行单元以检测更改”的步骤。
在行级别的比较之后并且如果未检测到更改(步骤S208中的“是”),则在步骤S209至S212中执行词级别的比较。在词级别的比较之后并且如果未检测到更改(步骤S212中的“是”),则在步骤S213至S216中执行字符级别的比较。这两个级别的比较包括与块级别和行级别的比较相似的步骤,并且它们的详细描述被省略。步骤S209至S212可以被共同称为“将目标文件图像和原始文件图像分割成词单元并且比较这些词单元以检测更改”的步骤。步骤S213至S216可以被共同称为“将目标文件图像和原始文件图像分割成字符单元并且比较这些字符单元以检测更改”的步骤。
如果在块级别、行级别、词级别和字符级别的检测步骤中均未检测到更改(步骤S216中的“是”),则该处理继续执行另外的更改检测步骤(精细检查)(步骤S217)。精细检查步骤按非分级的方式执行目标文件图像和原始文件图像或者它们的选定部分的全面比较。精细检查步骤可以使用已知的图像比较方法,诸如两个位图图像的直接的逐个像素的比较,使用每个文本字符的中心线(骨架)的骨架比较,边缘提取和边缘图比较,相似度检查,竖直和水平方向上的直方图的比较,分解方法(执行傅立叶变换或余弦变换并且对变换形式进行比较)等。可以被用作精细检查步骤的一种图像比较方法是如2009年6月30日提交的本申请人共同所有的共同未决的题为“Method for Detecting Alterations in Printed Document UsingImage Comparison Analyses”的美国专利申请No.12/495749中描述的比较质心位置的方法。可以使用其他适当的图像比较方法用于精细检查步骤,包括在未来开发的方法。精细检查步骤S217包括显示适当的消息以指出比较结果,例如是否检测到任何更改、更改的区域的位置等。
在任何级别上,如果检测到更改,即步骤S202、S204、S206、S208、S210、S212、S214和S216中的“否”,则如图2b中所示执行后继的处理。根据实现方案,图2b中的一些步骤是可选的。在简单的实现方案中,该处理显示消息(S218)并且终止。该消息可以是指出已检测到更改的普通消息,或者另外指出诸如“块计数不同”的更改类型的特定消息。该消息还可以包括用于指出检测到的更改在文件图像中所处的位置的图像。例如,如果目标文件图像中的第三个块具有不同于原始文件图像中的第三个块的尺寸,则可以显示如下图像,其示出了指出目标文件图像或原始文件图像中的第三个块的突出显示的框。当然,为了生成这些特定消息,图2a中的更改检测步骤将需要使用不同的标志或其他手段来指出已检测到的不同类型的更改。
在另一实现方案中,该处理可以尝试进一步确定更改的性质。在一个示例中,如果目标文件图像和原始文件图像中的块的计数是不同的,则该处理可以尝试通过比较块单元的尺寸和位置来确定是否删除或添加了整个块。例如,如果确定目标文件图像和原始文件图像中的块单元1至3具有相同的尺寸和位置,并且目标文件图像中的块单元4至6具有与原始文件图像中的块单元5至7相同的尺寸,则该处理向用户显示如下消息,其表明原始文件图像中的块单元4可能在目标文件图像中已被删除。
在更具交互性的实现方案中,步骤S218中显示的消息包括提示用户输入指令,诸如终止处理或者执行进一步的检测(精细检查)。如图2b中所示,如果接收到执行精细检查的用户指令(步骤S219中的“是”),则执行精细检查处理(步骤S220),其可能与精细检查步骤S217相似或相同。
可替选地,精细检查步骤S217和S220可以是可选的,并且用户可以设定安全级别参数以确定用于执行精细检查的条件。例如,安全参数可以被设定在如下级别:如果块级别、行级别、词级别和字符级别的检测未检测到更改,则不执行精细检查。或者,安全参数可以被设定在如下级别:如果检测到块级别、行级别和词级别的更改,则将执行精细检查,但是当仅检测到字符级别的更改等时,将不执行精细检查。图2a和2b中的流程图将据此进行修改以适应这种灵活性。
可以实现可替选的检测标准。例如,根据检测到的更改的性质,认证处理可以被设计为生成两种类型的消息,诸如“警报”和“错误”。在一个示例中,当对块进行分组时,较严格或者较宽容的阈值可以导致不同的分组结果。因此,当在较宽容的阈值下找到分组差异时,生成错误消息,但是当在较严格的阈值下找到分组差异时,生成警报消息。在另一示例中,当在目标文件中检测到额外的块,但是其尺寸是小的并且其位置处于页面的边缘时,由于其是噪声的可能性较大,因此仅生成警报消息。当使用两个级别的消息(“警报”和“错误”)时,该处理可以被设计为在检测到错误时停止,但是在仅检测到警报时继续(同时显示适当的消息)。
在图2a中示出的处理中,可以预先执行原始文件图像的分割并且将结果与原始文件图像关联地存储在数据库中。因此,如果请求针对同一原始文件图像对多个目标文件图像进行认证时,从数据库取回所存储的分割信息,并且不需要重复原始文件图像的分割处理。可替选地,如图2a中所示,在认证处理时,对于目标文件图像和原始文件图像独立地执行文件分割。
此外,如果原始文件的诸如Word或PDF版本的源版本是可用的,则可以利用该源版本来完成原始文件图像的分割。
而且,当原始文件图像的文件分割已经可用时,目标文件图像的分割可以利用原始文件图像的已知分割。因此,该处理可以尝试在原始文件图像的已知单元的位置处寻找目标文件图像中的相同的块单元、行单元等,而非尝试通过刻划来分割目标文件图像。换言之,该处理尝试验证原始文件图像中的同一分割是否也存在于目标文件图像中。
关于原始文件图像的分割信息可以被存储为允许解析的文件格式,诸如XML、SGML等。因此,如果仅请求针对文件的特定区域的认证,则可以解析存储分割信息的文件并且可以找到相应的戳记以便于执行指定区域的认证。
根据以上描述,可以看出,根据本发明的实施例的多级比较方法利用文件版面的分级性质,从而可以在不执行全面的图像比较的情况下快速地检测某些更改。这提高了文件认证的性能。
上述文件认证处理是相对鲁棒性的并且可抵抗由打印和扫描处理引起的文件图像质量的劣化。这是因为块单元、行单元、词单元和字符单元的数目在打印和扫描过程中不应改变,即使字符因打印和扫描而变宽或变窄。此外,如果字符因打印和扫描而变宽或变窄,则这些改变趋向于在整个图像中是一致的。因此,因字符变宽或变窄引起的边界框的尺寸的任何改变在整个图像中是相对一致的。此外,即使打印机或扫描仪具有不均匀的特性,其导致了图像中的不一致的尺寸改变,但是预期仍不会出现相邻单元之间的突然的尺寸改变。
对于本领域的技术人员将明显的是,在不偏离本发明的精神或范围的情况下,可以对本发明的使用多级图像比较的文件认证方法进行各种修改和变化。因此,本发明旨在涵盖落入所附权利要求及其等同物的范围内的修改和变化。

Claims (14)

1.一种在数据处理装置中实现的用于通过将目标文件图像与原始文件图像进行比较来对所述目标文件图像进行认证的方法,包括:
在第一级上将所述目标文件图像与所述原始文件图像进行比较,包括
a、将所述目标文件图像分割成多个第一级单元,
b、将所述原始文件图像分割成多个第一级单元,
c、将所述目标文件图像中的多个第一级单元与所述原始文件图像中的多个第一级单元进行比较以检测所述目标文件图像中的更改,以及
如果在步骤c中未检测到更改,则在第二级上将所述目标文件图像与所述原始文件图像进行比较,包括
d、将所述目标文件图像分割成多个第二级单元,其中所述第二级单元小于所述第一级单元,
e、将所述原始文件图像分割成多个第二级单元,其中所述第二级单元小于所述第一级单元,以及
f、将所述目标文件图像中的多个第二级单元与所述原始文件图像中的多个第二级单元进行比较以检测所述目标文件图像中的更改,
其中,步骤c包括
c1、将所述目标文件图像中的第一级单元的计数与所述原始文件图像中的第一级单元的计数进行比较以检测所述目标文件图像中的更改,以及
c2、如果在步骤c1中未检测到更改,则将所述目标文件图像中的每个第一级单元的尺寸和位置与所述原始文件图像中的相应的第一级单元的尺寸和位置进行比较以检测所述目标文件图像中的更改,以及
其中,步骤f包括
f1、将所述目标文件图像中的第二级单元的计数与所述原始文件图像中的第二级单元的计数进行比较以检测所述目标文件图像中的更改,以及
f2、如果在步骤f1中未检测到更改,则将所述目标文件图像中的每个第二级单元的尺寸和位置与所述原始文件图像中的相应的第二级单元的尺寸和位置进行比较以检测所述目标文件图像中的更改。
2.根据权利要求1所述的方法,其中所述目标文件图像和所述原始文件图像中的第一级单元是块单元,每个块单元包含文本段落、图形对象或图像对象,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是行单元,每个行单元包含文本行;或者是词单元,每个词单元包含文本词;或者是字符单元,每个字符单元包含文本字符。
3.根据权利要求1所述的方法,其中所述目标文件图像和所述原始文件图像中的第一级单元是行单元,每个行单元包含文本行,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是词单元,每个词单元包含文本词;或者是字符单元,每个字符单元包含文本字符。
4.根据权利要求1所述的方法,其中所述目标文件图像和所述原始文件图像中的第一级单元是词单元,每个词单元包含文本词,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是字符单元,每个字符单元包含文本字符。
5.根据权利要求1所述的方法,进一步包括
如果在步骤f中未检测到更改,则执行所述目标文件图像和所述原始文件图像或者它们的选定部分的全面比较以检测所述目标文件图像中的更改。
6.根据权利要求1所述的方法,其中如果在步骤c或步骤f中检测到更改,则显示指出已检测到更改的消息。
7.根据权利要求6所述的方法,其中所述消息进一步指出更改的类型。
8.一种在数据处理装置中实现的用于通过将目标文件图像与原始文件图像进行比较来对所述目标文件图像进行认证的设备,包括:
用于在第一级上将所述目标文件图像与所述原始文件图像进行比较的装置,包括
用于将所述目标文件图像分割成多个第一级单元的子装置,
用于将所述原始文件图像分割成多个第一级单元的子装置,
用于将所述目标文件图像中的多个第一级单元与所述原始文件图像中的多个第一级单元进行比较以检测所述目标文件图像中的更改的子装置,以及
用于如果所述用于将所述目标文件图像中的多个第一级单元与所述原始文件图像中的多个第一级单元进行比较以检测所述目标文件图像中的更改的子装置未检测到更改,则在第二级上将所述目标文件图像与所述原始文件图像进行比较的装置,包括
用于将所述目标文件图像分割成多个第二级单元的子装置,其中所述第二级单元小于所述第一级单元,
用于将所述原始文件图像分割成多个第二级单元的子装置,其中所述第二级单元小于所述第一级单元,以及
用于将所述目标文件图像中的多个第二级单元与所述原始文件图像中的多个第二级单元进行比较以检测所述目标文件图像中的更改的子装置,
其中,所述用于将所述目标文件图像中的多个第一级单元与所述原始文件图像中的多个第一级单元进行比较以检测所述目标文件图像中的更改的子装置包括
用于将所述目标文件图像中的第一级单元的计数与所述原始文件图像中的第一级单元的计数进行比较以检测所述目标文件图像中的更改的部件,以及
用于如果所述用于将所述目标文件图像中的第一级单元的计数与所述原始文件图像中的第一级单元的计数进行比较以检测所述目标文件图像中的更改的部件未检测到更改,则将所述目标文件图像中的每个第一级单元的尺寸和位置与所述原始文件图像中的相应的第一级单元的尺寸和位置进行比较以检测所述目标文件图像中的更改的部件,以及
其中,所述用于将所述目标文件图像中的多个第二级单元与所述原始文件图像中的多个第二级单元进行比较以检测所述目标文件图像中的更改的子装置包括
用于将所述目标文件图像中的第二级单元的计数与所述原始文件图像中的第二级单元的计数进行比较以检测所述目标文件图像中的更改的部件,以及
用于如果所述用于将所述目标文件图像中的第二级单元的计数与所述原始文件图像中的第二级单元的计数进行比较以检测所述目标文件图像中的更改的部件未检测到更改,则将所述目标文件图像中的每个第二级单元的尺寸和位置与所述原始文件图像中的相应的第二级单元的尺寸和位置进行比较以检测所述目标文件图像中的更改的部件。
9.根据权利要求8所述的设备,其中所述目标文件图像和所述原始文件图像中的第一级单元是块单元,每个块单元包含文本段落、图形对象或图像对象,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是行单元,每个行单元包含文本行;或者是词单元,每个词单元包含文本词;或者是字符单元,每个字符单元包含文本字符。
10.根据权利要求8所述的设备,其中所述目标文件图像和所述原始文件图像中的第一级单元是行单元,每个行单元包含文本行,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是词单元,每个词单元包含文本词;或者是字符单元,每个字符单元包含文本字符。
11.根据权利要求8所述的设备,其中所述目标文件图像和所述原始文件图像中的第一级单元是词单元,每个词单元包含文本词,以及其中所述目标文件图像和所述原始文件图像中的第二级单元是字符单元,每个字符单元包含文本字符。
12.根据权利要求8所述的设备,进一步包括
用于如果所述用于将所述目标文件图像中的多个第二级单元与所述原始文件图像中的多个第二级单元进行比较以检测所述目标文件图像中的更改的子装置未检测到更改,则执行所述目标文件图像和所述原始文件图像或者它们的选定部分的全面比较以检测所述目标文件图像中的更改的装置。
13.根据权利要求8所述的设备,进一步包括
用于如果所述用于将所述目标文件图像中的多个第一级单元与所述原始文件图像中的多个第一级单元进行比较以检测所述目标文件图像中的更改的子装置、或所述用于将所述目标文件图像中的多个第二级单元与所述原始文件图像中的多个第二级单元进行比较以检测所述目标文件图像中的更改的子装置检测到更改,则显示指出已检测到更改的消息的装置。
14.根据权利要求13所述的设备,其中,所述消息进一步指出更改的类型。
CN201010622636.1A 2009-12-29 2010-12-28 基于文件特征用多级图像比较认证打印文件的方法和装置 Active CN102117414B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/648,931 US8000528B2 (en) 2009-12-29 2009-12-29 Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
US12/648,931 2009-12-29

Publications (2)

Publication Number Publication Date
CN102117414A CN102117414A (zh) 2011-07-06
CN102117414B true CN102117414B (zh) 2015-09-02

Family

ID=43708930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010622636.1A Active CN102117414B (zh) 2009-12-29 2010-12-28 基于文件特征用多级图像比较认证打印文件的方法和装置

Country Status (4)

Country Link
US (1) US8000528B2 (zh)
EP (1) EP2341466B1 (zh)
JP (1) JP2011159283A (zh)
CN (1) CN102117414B (zh)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
TW201132098A (en) * 2010-03-08 2011-09-16 Storewell Media Mfg Ltd Licensing identification and management system and the coding method of an anti-counterfeit label thereof
US8862976B1 (en) * 2010-04-12 2014-10-14 Google Inc. Methods and systems for diagnosing document formatting errors
US8331670B2 (en) * 2011-03-22 2012-12-11 Konica Minolta Laboratory U.S.A., Inc. Method of detection document alteration by comparing characters using shape features of characters
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US20130050765A1 (en) * 2011-08-31 2013-02-28 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document authentication using image comparison on a block-by-block basis
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
US8959082B2 (en) 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
JP2013132042A (ja) * 2011-11-25 2013-07-04 Ricoh Co Ltd 画像検査装置、画像形成装置、画像検査方法及びプログラム
US8687886B2 (en) 2011-12-29 2014-04-01 Konica Minolta Laboratory U.S.A., Inc. Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US20130173298A1 (en) 2011-12-30 2013-07-04 Elwha LLC, a limited liability company of State of Delaware Evidence-based healthcare information management protocols
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US11461862B2 (en) 2012-08-20 2022-10-04 Black Hills Ip Holdings, Llc Analytics generation for patent portfolio management
US9349237B2 (en) * 2012-12-28 2016-05-24 Konica Minolta Laboratory U.S.A., Inc. Method of authenticating a printed document
US9781664B2 (en) 2012-12-31 2017-10-03 Elwha Llc Cost-effective mobile connectivity protocols
US9876762B2 (en) 2012-12-31 2018-01-23 Elwha Llc Cost-effective mobile connectivity protocols
US8965288B2 (en) 2012-12-31 2015-02-24 Elwha Llc Cost-effective mobile connectivity protocols
US9713013B2 (en) 2013-03-15 2017-07-18 Elwha Llc Protocols for providing wireless communications connectivity maps
US9832628B2 (en) 2012-12-31 2017-11-28 Elwha, Llc Cost-effective mobile connectivity protocols
US9451394B2 (en) 2012-12-31 2016-09-20 Elwha Llc Cost-effective mobile connectivity protocols
US9635605B2 (en) 2013-03-15 2017-04-25 Elwha Llc Protocols for facilitating broader access in wireless communications
US9980114B2 (en) 2013-03-15 2018-05-22 Elwha Llc Systems and methods for communication management
US9706060B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for facilitating broader access in wireless communications
US9866706B2 (en) 2013-03-15 2018-01-09 Elwha Llc Protocols for facilitating broader access in wireless communications
US9596584B2 (en) 2013-03-15 2017-03-14 Elwha Llc Protocols for facilitating broader access in wireless communications by conditionally authorizing a charge to an account of a third party
US9843917B2 (en) 2013-03-15 2017-12-12 Elwha, Llc Protocols for facilitating charge-authorized connectivity in wireless communications
US9706382B2 (en) 2013-03-15 2017-07-11 Elwha Llc Protocols for allocating communication services cost in wireless communications
US9807582B2 (en) 2013-03-15 2017-10-31 Elwha Llc Protocols for facilitating broader access in wireless communications
US9693214B2 (en) 2013-03-15 2017-06-27 Elwha Llc Protocols for facilitating broader access in wireless communications
US9781554B2 (en) 2013-03-15 2017-10-03 Elwha Llc Protocols for facilitating third party authorization for a rooted communication device in wireless communications
US9813887B2 (en) 2013-03-15 2017-11-07 Elwha Llc Protocols for facilitating broader access in wireless communications responsive to charge authorization statuses
US9767190B2 (en) 2013-04-23 2017-09-19 Black Hills Ip Holdings, Llc Patent claim scope evaluator
JP5735126B2 (ja) * 2013-04-26 2015-06-17 株式会社東芝 システムおよび筆跡検索方法
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
US9813891B2 (en) 2013-09-30 2017-11-07 Elwha Llc Mobile device sharing facilitation methods and systems featuring a subset-specific source identification
US9805208B2 (en) 2013-09-30 2017-10-31 Elwha Llc Mobile device sharing facilitation methods and systems with recipient-dependent inclusion of a data selection
US9740875B2 (en) 2013-09-30 2017-08-22 Elwha Llc Mobile device sharing facilitation methods and systems featuring exclusive data presentation
US9774728B2 (en) 2013-09-30 2017-09-26 Elwha Llc Mobile device sharing facilitation methods and systems in a context of plural communication records
US9826439B2 (en) 2013-09-30 2017-11-21 Elwha Llc Mobile device sharing facilitation methods and systems operable in network equipment
US9838536B2 (en) 2013-09-30 2017-12-05 Elwha, Llc Mobile device sharing facilitation methods and systems
CN104837007B (zh) * 2014-02-11 2018-06-05 阿里巴巴集团控股有限公司 一种数字图像质量分级的方法和装置
EP2921989A1 (en) 2014-03-17 2015-09-23 Université de Genève Method for object recognition and/or verification on portable devices
CN105117704B (zh) * 2015-08-25 2018-05-29 电子科技大学 一种基于多特征的文本图像一致性比较方法
US10062001B2 (en) * 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US9965871B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Multi-binarization image processing
US10579707B2 (en) * 2017-12-29 2020-03-03 Konica Minolta Laboratory U.S.A., Inc. Method for inferring blocks of text in electronic documents
US10956730B2 (en) * 2019-02-15 2021-03-23 Wipro Limited Method and system for identifying bold text in a digital document
US11308492B2 (en) * 2019-07-03 2022-04-19 Sap Se Anomaly and fraud detection with fake event detection using pixel intensity testing
US11113689B2 (en) * 2019-07-03 2021-09-07 Sap Se Transaction policy audit

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542655A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置和信息处理方法、以及存储媒体、程序
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
CN101561877A (zh) * 2008-04-14 2009-10-21 富士施乐株式会社 图像处理器及图像处理方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE502658C2 (sv) * 1994-02-28 1995-12-04 Non Stop Info Ab Förfarande och kontrollanordning för avläsning av identitets -och värdehandlingar.
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US6562077B2 (en) * 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
DE19958553A1 (de) * 1999-12-04 2001-06-07 Luratech Ges Fuer Luft Und Rau Verfahren zur Kompression von gescannten Farb- und/oder Graustufendokumenten
JP3937687B2 (ja) * 2000-05-09 2007-06-27 キヤノン株式会社 画像処理装置及び画像処理方法、記録媒体
JP3425408B2 (ja) * 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
US7131112B1 (en) * 2000-11-21 2006-10-31 Microsoft Corporation Managing code changes for software development
JP2005012530A (ja) * 2003-06-19 2005-01-13 Ricoh Co Ltd 改ざん検証用文書作成システム、改ざん検証システムおよび改ざん防止システム
JP2006065524A (ja) * 2004-08-26 2006-03-09 Hitachi Ltd 文書処理装置および方法
JP4920928B2 (ja) * 2005-08-08 2012-04-18 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
JP4757008B2 (ja) * 2005-12-13 2011-08-24 キヤノン株式会社 文書管理方法及び装置
JP2008020974A (ja) * 2006-07-11 2008-01-31 Hitachi Ltd 文書管理システムおよびその方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1542655A (zh) * 2003-04-30 2004-11-03 ������������ʽ���� 信息处理装置和信息处理方法、以及存储媒体、程序
CN1625206A (zh) * 2003-11-20 2005-06-08 佳能株式会社 图像处理装置及其控制方法
CN101561877A (zh) * 2008-04-14 2009-10-21 富士施乐株式会社 图像处理器及图像处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征的纹理图像分割技术研究;夏勇;《中国博士学位论文全文数据库信息科技辑》;20080315;90-100 *

Also Published As

Publication number Publication date
JP2011159283A (ja) 2011-08-18
CN102117414A (zh) 2011-07-06
EP2341466A3 (en) 2015-10-14
EP2341466B1 (en) 2018-06-27
US20110158483A1 (en) 2011-06-30
US8000528B2 (en) 2011-08-16
EP2341466A2 (en) 2011-07-06

Similar Documents

Publication Publication Date Title
CN102117414B (zh) 基于文件特征用多级图像比较认证打印文件的方法和装置
US9922247B2 (en) Comparing documents using a trusted source
US11348353B2 (en) Document spatial layout feature extraction to simplify template classification
US8965127B2 (en) Method for segmenting text words in document images
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
US6151423A (en) Character recognition with document orientation determination
US8401293B2 (en) Word recognition of text undergoing an OCR process
US5539841A (en) Method for comparing image sections to determine similarity therebetween
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
Mehri et al. Texture feature benchmarking and evaluation for historical document image analysis
US10127673B1 (en) Word bounding box detection
US8687886B2 (en) Method and apparatus for document image indexing and retrieval using multi-level document image structure and local features
Lin et al. Reconstruction of shredded document based on image feature matching
US9436882B2 (en) Automated redaction
Jain et al. Passive classification of source printer using text-line-level geometric distortion signatures from scanned images of printed documents
Anh et al. A hybrid method for table detection from document image
Colter et al. Tablext: A combined neural network and heuristic based table extractor
US20130050765A1 (en) Method and apparatus for document authentication using image comparison on a block-by-block basis
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
US10997407B2 (en) Detecting document objects
US8116567B2 (en) Digitizing documents
Eskenazi et al. When document security brings new challenges to document analysis
US9053359B2 (en) Method and system for document authentication using Krawtchouk decomposition of image patches for image comparison
Kumar et al. Line based robust script identification for indianlanguages
Sarungbam et al. Script identification and language detection of 12 Indian languages using DWT and template matching of Frequently Occurring Character (s)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant