CN109543501B - 图像处理装置、图像处理方法和存储介质 - Google Patents
图像处理装置、图像处理方法和存储介质 Download PDFInfo
- Publication number
- CN109543501B CN109543501B CN201811107931.6A CN201811107931A CN109543501B CN 109543501 B CN109543501 B CN 109543501B CN 201811107931 A CN201811107931 A CN 201811107931A CN 109543501 B CN109543501 B CN 109543501B
- Authority
- CN
- China
- Prior art keywords
- image
- similarity
- document
- block
- document image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00355—Mark-sheet input
- H04N1/00376—Means for identifying a mark sheet or area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00002—Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
- H04N1/00005—Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for relating to image data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00912—Arrangements for controlling a still picture apparatus or components thereof not otherwise provided for
- H04N1/00938—Software related arrangements, e.g. loading applications
- H04N1/00949—Combining applications, e.g. to create workflows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/407—Control or modification of tonal gradation or of extreme levels, e.g. background level
- H04N1/4072—Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/407—Control or modification of tonal gradation or of extreme levels, e.g. background level
- H04N1/4072—Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original
- H04N1/4074—Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original using histograms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Character Input (AREA)
Abstract
本发明提供一种图像处理装置、图像处理方法和存储介质。可以高度准确和简单地搜索与同扫描图像有关的文档相同的种类的文档。该图像处理装置包括:计算单元,其被构造为通过如下方式计算输入文档图像与多个文档图像中的各个文档图像之间的相似度:在输入文档图像和所述多个文档图像中,在对作为相似度的计算目标的、包括特定区域的各个范围进行改变的同时反复进行相似度的计算;以及确定单元,其被构造为,将所计算的相似度是所述多个文档图像中最高的文档图像确定为,与输入文档图像匹配的文档图像。
Description
技术领域
本发明涉及文档图像的搜索技术。
背景技术
传统上,存在如下业务流程:通过由图像读取设备扫描诸如估价单和订单的商务表单等的纸质文档并且生成纸质文档的数字数据来对图像数据进行文档管理等。通常,通过扫描诸如商务表单等的文档而获得的图像(扫描图像)的数据,依据附接的商务表单的种类和内容等,存储在具有文件名和元信息的预定文件夹中。这里,用户需要时间和精力来手动创建文件名和元信息,指定作为存储目的地的文件夹(发送目的地),并创建新文件夹。特别地,在诸如此类的输入工作由显示在MFP等中的触摸面板上的软键盘进行的情况下,负载变得更重。对于诸如此类的问题,存在一种称为扫描辅助的技术,用于减少用户的输入工作的负担。作为公开扫描辅助的一个,例如,有日本特开第2011-15348号公报。在日本特开第2011-15348号公报中,首先,文档的种类和各种设置(例如,文件名设置、元信息设置和存储目的地设置)的规则彼此相关联并且被预先登记。然后,在扫描目标文档的情况下,从扫描图像中指定文档的种类,并且作为文件名、元信息或存储目的地的候选,向用户推荐,通过使用与各种文档相关联地预先登记的设置规则而创建的字符串信息。
在上述的日本特开第2011-15348号公报的方法中,需要指定预先登记的多个种类文档图像(登记图像)中的哪一个与商务表单等的扫描图像类似。关于这一点,例如,存在一种方法,其中求出扫描图像与登记图像之间的相似度,并且基于相似度指定文档图像。在这种情况下,在确定扫描图像和文档图像二者是否是“同一”文档图像的条件下,通过求出整个图像的相似度来进行比较就足够了。然而,为了确定二者是否是“同一种类”文档图像,需要通过集中注意文档所具有的特征(基于该特征来进行上述确定),来求出相似度。这里,“同一种类”意味着文档的主要结构匹配,尽管文档内的字符串的内容是不同的。主要结构是指,例如,在文档的上部描述的文档标题、项目等的基本布局,并且在主要结构匹配的情况下,即使详情不匹配,也可以将文档视为同一种类的文档。关于这一点,例如,日本特开第2004-348706号公报考虑到文档的一部分可能存在差异,公开了一种原始电子文档的搜索技术,具体地,公开了通过如下方式进行搜索的方法:通过针对扫描图像内的各个分割区域,求出与登记图像的相似度,并通过对获得的相似度进行加权。
在几乎所有情况下,可以被视为同一种类的文档是以同一版式(format)创建的。因此,在针对同一种类的文档生成扫描图像的文件名等的情况下,用户应用共同规则的可能性很强。然而,在确定文档是否是同一种类的文档的情况下,通常,对于各个种类的文档,应该附加重要性的文档部分是不同的,而且,并不罕见的是,即使原始版式相同,各个组件的具体布置也不同。在这种情况下,上述的日本特开第2004-348706号公报的技术不可能充分地应对这种情况。此外,难以在文档内的部分区域中预先固定对相似度进行确定的目标部分,并且在使用户逐个指定的情况下,在处理大量商务表单等时,需要花费很多时间和精力,因此,用户的负担很重。
因此,本发明的目的在于,使得可以高度准确和简单地搜索与同扫描图像有关的文档相同种类的文档。
发明内容
根据本发明的图像处理装置是如下图像处理装置,该图像处理装置包括处理器和用于存储计算机可执行程序的存储器,并且处理器执行计算机可执行程序以进行:计算步骤,通过如下方式计算输入文档图像与多个文档图像中的各个文档图像之间的相似度:在输入文档图像和所述多个文档图像中,在对作为相似度的计算目标的、包括特定区域的各个范围进行改变的同时反复进行相似度的计算;以及确定步骤,将所计算的相似度是所述多个文档图像中最高的文档图像确定为,与输入文档图像匹配的文档图像。
根据下面参照附图对示例性实施例的描述,本发明的其他特征将变得清楚。
附图说明
图1是MFP的硬件构造图;
图2是示出扫描辅助处理的流程图;
图3A和图3B是示出区域分割处理的结果的示例的图;
图4A至图4F是解释匹配处理的概要的图;
图5是示出呈现扫描辅助信息的UI画面的示例的图;
图6A至图6C是解释类似文档图像的思路的图;
图7是示出匹配处理的流程的流程图;
图8是示出偏移量估计处理的流程的流程图;
图9是解释块对的确定方法的图;
图10是示出依据块对的交叠状态而设置权重时的表的示例的图;
图11是示出依据块对的位置而设置权重时的表的示例的图;
图12A和图12B是各自示出了偏移量的直方图的示例的图;
图13是示出相似度估计处理的流程的流程图;
图14是示出根据第一实施例的求出个体相似度的处理的流程的流程图;
图15A和图15B是交叠面积的说明图;
图16A和图16B是示出临时相似度的计算范围顺序改变的方式的图;
图17A和图17B是解释临时相似度的计算范围的变化的影响的图;
图18A至图18C是解释相似度的校正的图;
图19是示出根据第二实施例的求出个体相似度的处理的流程的流程图;以及
图20A和图20B是示出与登记图像相关联地登记的预定区域的具体示例的图。
具体实施方式
在下文中,参照附图,依据优选实施例详细解释本发明。以下实施例中所示的构造仅仅是示例性的,并且本发明不限于示意性示出的构造。
[第一实施例]
图1是作为根据本实施例的图像处理装置的MFP 100的硬件构造图。MFP 100包括控制单元110、操作单元120、打印机单元121、扫描器单元122和调制解调器123。控制单元100包括以下单元111至119中的各个并控制整个MFP 100的操作。CPU 111读取存储在ROM112中的控制程序,CPU 111进行并控制包括扫描辅助的各种功能。RAM 113用作CPU 111的临时存储区域,例如主存储器和工作区域。在本实施例中,一个CPU 111通过使用一个存储器(RAM 113或HDD 114)进行稍后描述的流程图中所示的各个处理,但不限于此。例如,还可以使多个CPU或多个RAM或HDD彼此协作地进行各个处理。HDD 114是被构造为存储图像数据和各种程序的大容量存储单元。操作单元I/F 115是连接操作单元120和控制单元110的接口。操作单元120包括触摸面板、键盘等,并接收用户的操作、输入和指令。打印机I/F 116是连接打印机单元121和控制单元110的接口。用于打印的图像数据,经由打印机I/F 116从控制单元110传输到打印机单元121并被打印在诸如纸张等的打印介质上。扫描器I/F 117是连接扫描器单元122和控制单元110的接口。扫描器单元122扫描放置在未示意性地示出的文档台或ADF(自动文档馈送器)上的文档(例如商务表单),生成文档图像并经由扫描器I/F117将文档图像输入到控制单元110。除了从打印机单元121打印和输出(复印)在扫描器单元122中生成的文档图像的数据之外,MFP 100还可以进行文件发送或邮件发送。调制解调器I/F 118是连接调制解调器123和控制单元110的接口。调制解调器123与PSTN上的传真设备进行文档图像的数据的传真通信。网络I/F 119是将控制单元110(MFP 100)连接到LAN的接口。MPF 100通过使用网络I/F 119将文档图像的数据发送到LAN上的文件服务器130,接收各种信息等。作为上述的图像处理装置的MFP 100的硬件构造是示例,并且,MFP 100可以根据需要包括其他构造,或者不需要包括该构造的一部分。
(扫描辅助功能)
对由MFP 100所具有的扫描辅助功能进行解释。控制单元110将由扫描器单元122读取的文档图像的数据加载到RAM 113上并分析该数据,且生成推荐给用户的信息(即,作为文档图像的文件名或文件夹路径的候选的字符串信息)作为扫描辅助。文档图像的分析包括三个处理。第一处理是文本块提取处理,以提取文档图像内被估计并识别为一个连续字符串(文本块)的团块(mass)。第二处理是光学字符识别处理(以下称为OCR处理),以从提取的文本块中提取字符串信息。第三处理是匹配处理,以求出登记的文档图像与新扫描的文档图像之间的相似度。
控制单元110生成用于扫描辅助的UI画面并在操作单元120的触摸面板110上显示UI画面。然后,控制单元110基于经由UI画面输入的用户指令进行上述分析处理,基于分析结果进行文档图像数据的发送处理等。
接着,解释MFP 100中的扫描辅助功能的操作控制。图2是示出扫描辅助处理中的控制流程的流程图。通过CPU 111执行存储在控制单元110中的HDD 1114中的控制程序来实现这一系列处理。下面给出详细解释。
在经由操作单元120接收到用于扫描文档的用户指令的情况下,扫描器单元122在步骤201进行文档的扫描并生成文档图像。将由此生成的文档图像与在后面将描述的匹配处理中作为输入文档图像登记在数据库中的文档图像组进行比较。在下文中,在该步骤中生成的搜索目标输入文档图像被称为“查询图像”,并且在数据库中登记的文档图像被称为“登记图像”。
在随后的步骤202,对所生成的查询图像进行上述文本块提取处理(区域分割处理)。具体地,首先,进行诸如图像信号的二值化、在扫描时偏移的图像的倾斜的校正以及向图像变为直立的方向的旋转等的预处理,并且将状态校正为更容易进行文本块提取处理的状态。然后,通过对校正后的查询图像进行边缘提取等,将查询图像分割为以对象为单位的块,并且从块中指定具有文本属性的块。更详细地,如下地指定具有文本属性的块。
首先,通过对二值化为白色和黑色的查询图像进行轮廓线跟踪,提取由黑色像素轮廓围绕的像素的团块。然后,对于面积大于预定面积的黑色像素的团块,也对位于其内部的白色像素进行轮廓线跟踪,并提取白色像素的团块,而且,从面积大于或等于预定面积的白色像素的团块的内部递归地提取黑色像素的团块。如此获得的黑色像素的团块,根据大小和形状被分类,并被分类为具有不同属性的区域。例如,纵横比接近1并且尺寸在预定范围内的团块被认为是对应于字符的像素的团块。此外,将彼此相邻的字符可以对齐分组的部分视为字符区域(TEXT)。将平坦的像素的团块视为线区域(LINE)。将由如下的黑色像素的团块占据的范围视为表区域(TABLE):该黑色像素的团块包括呈对齐状态的、尺寸大于或等于预定尺寸的白色像素的矩形团块。将分散有形状不定的像素的团块的区域视为照片区域(PHOTO)。然后,将除了上述那些之外的任意形状的像素的团块视为图片区域(PICTURE)。从针对对象的各个属性分割为区域的那些块中,将被确定具有字符属性的块指定为文本块。图3A和图3B是示出区域分割处理的结果的示例的图。图3A示出了查询图像,并且,图3B示出了将查询图像分割为以对象为单位的块的结果。查询图像被分成上述五种块:TEXT、PICTURE、PHOTO、LINE和TABLE。关于在该步骤获得的各个文本块的信息(指示各个块的属性和位置的信息)被用于OCR处理、将要描述的相似度的计算等。仅在该步骤提取文本块的原因是,字符串的位置很好地表示文档图像的结构并且与扫描辅助信息密切相关。因此,不排除在后续处理中利用关于被确定为具有诸如照片区域和表区域等的其他属性的块的信息。
接下来,在步骤203,进行如下匹配处理,以从存储在作为登记图像数据库(下文中,登记图像DB)的HDD 114中的多个登记图像中确定与查询图像最相似的登记图像。在登记图像DB中,登记过去处理的文档图像,这些文档图像通过稍后描述的步骤210的添加或更新处理而登记。这里,参照图4A至图4F解释匹配处理的概要。图4A示出了查询图像,并且,图4B和图4C示出了彼此不同的登记图像(登记图像_1和登记图像_2)。这里,查询图像的许多部分的字符串的内容和布置与登记图像_1的内容和布置匹配,但较少部分的字符串的内容和布置与登记图像_2的内容和布置匹配。即,查询图像与登记图像_1之间的相似度高于查询图像与登记图像_2之间的相似度。因此,在图4A至图4F中的示例中,选择图4B中的登记图像_1作为与查询图像匹配(相似度高)的登记图像。
这里,还解释了使用文本块估计相似度的概要。在图4D中,用虚线矩形指示从图4A中的查询图像中提取的文本块。虚线矩形指示各个文本块,并且,矩形内的三位数字是用于唯一识别各个文本块的数字。类似地,在图4E中,用虚线矩形指示从图4B中的登记图像_1中提取的文本块,并且在图4F中,类似地用虚线矩形指示从图4C中的登记图像2中提取的文本块。通过集中注意文本块的形状和布置如何类似,来进行使用文本块估计相似度。这里,查询图像中的文本块的形状和布置与登记图像_1中的文本块的形状和布置之间的比较指示,存在许多相互匹配的文本块。即,查询图像的000、001、002和003的形状和布置与登记图像_1中的004、003、000和001的形状和布置相同。与此相对照,在登记图像_2的情况下,存在一些形状和布置彼此有些类似的文本块,但是不存在形状和布置相互匹配的文本块。以这种方式,通过集中注意文本块的形状和布置来求出相似度。稍后将描述使用文本块的相似度估计处理的详情。在匹配处理的结果中,包括用于识别登记图像的ID信息、文本块的形状和布置与查询图像的文本块的形状和布置的匹配程度高的登记图像中的相似度、登记图像中的设置规则、以及关于与查询图像的对应性的信息等。如前所述,设置规则是指定字符串在文档图像中位于哪个位置(例如,由x坐标和y坐标指定)的信息被用于什么(例如,文件名或文件夹路径)。关于与查询图像的对应性的信息是指示登记图像中的实际用于创建文件名等的文本块对应于查询图像的哪个文本块的信息。通过使用上述的图4A和图4B中的示例给出解释。这里,在登记图像_1中,假设对应于字符串“Bill”的文本块(004)和对应于字符串“ID9631”的文本块(003)是用于创建文件名的文本块。在这种情况下,查询图像中的字符串“Bill”的文本块(000)对应于004的文本块。将这两个块关联在像这样的对应性关系中的信息是一条对应性信息。类似地,字符串“ID9400”的文本块(001)对应于003的文本块,因此,将两个块相关联的信息也是一条对应性信息。解释返回到图2中的流程。
在步骤204,确定匹配处理是否成功。具体地,进行确定通过匹配处理获得的最高相似度是否超过预定阈值的阈值处理,并且在最高相似度高于阈值的情况下,确定匹配处理成功。在确定结果指示匹配处理成功(最高相似度高于预定阈值)的情况下,处理进行到步骤205。另一方面,在匹配处理失败(最高相似度低于或等于预定阈值)的情况下,则处理进行到步骤207。
在步骤205,基于在步骤203获得的匹配处理结果,生成扫描辅助信息并在UI画面上显示扫描辅助信息。具体地,首先,通过使用包括在匹配处理结果中的关于与查询图像的对应性的信息,通过仅将查询图像内的特定文本块视为目标来进行OCR处理,所述特定文本块对应于匹配的登记图像中实际使用的字符串的文本块。然后,依据匹配处理结果中包括的设置规则,通过OCR处理获得的结果(字符串信息)作为扫描辅助信息与查询图像一起显示在触摸面板上。例如,在OCR处理结果用于在匹配的登记图像中创建文件名的情况下,通过使用通过对查询图像的OCR处理获得的字符串信息所创建的文件名,在查询图像上被显示为扫描辅助信息。此外,在OCR处理结果用于在匹配的登记图像中创建文件夹路径的情况下,通过使用通过对查询图像的OCR处理获得的字符串信息所创建的文件夹路径,在查询图像上被显示为扫描辅助信息。通过仅将基于对应性信息的特定文本块取为OCR处理的目标,可以以高于对查询图像内的所有文本块进行OCR处理的情况下的速度的速度进行处理,因此,减少了响应用户所花费的时间,并且将导致可用性的改善。此外,仅将有限的部分取为目标,因此,节省了计算资源。
这里,示出了显示扫描辅助信息的UI画面的具体示例。图5是作为扫描辅助信息向用户呈现作为文件名候选的字符串信息的UI画面的示例。在UI画面500上,查询图像501内的各个文本块以灰色突出显示。尽管有一部分是字符串部分,但是该部分未突出显示,这指示该部分未被识别为文本块。这里,在文本框502中,使用基于匹配的登记图像对文本块501和502进行OCR处理的结果的“Order sheet_Tokyo Shokai Inc.”的字符串被显示为文件名候选。即,包括在匹配处理结果中的基于关于与查询图像的对应性的信息的两个文本块的OCR处理结果,即“Order sheet(订单)”和“Tokyo Shokai Inc.”由下划线(在条形图下)“_”作为分隔符链接,并推荐作为文件名候选。当用户在该状态下按下OK按钮505的情况下,作为查询图像501的文件名,确定在文本框502中显示的一组字符串的内容。在用户不采用推荐文件名候选的情况下,可以通过按下文本框502将推荐文件名编辑为任意字符串。
在步骤206,确定是否原样地采用在步骤205呈现的扫描辅助信息。在图5中的示例中,在UI画面500上没有编辑扫描辅助信息并且按原样按下OK按钮505的情况下(在原样采用扫描辅助信息的情况下),处理进行到步骤208。另一方面,在按下文本框502的情况下,处理进行到步骤207,并且模式进入编辑模式。
在步骤207,由用户进行文件名等的直接设置(在步骤204处为“否”的情况下)或扫描辅助信息的编辑(在步骤206处为“否”的情况下)。具体地,对用户在UI画面500上指定的文本块进行OCR处理,并且通过使用OCR结果创建文件名等。
在步骤208,确定是否存在未呈现的扫描辅助信息。在存在未呈现的扫描辅助信息的情况下,处理返回到步骤205并且呈现下一个扫描辅助信息。例如,在OCR处理结果不仅利用匹配的登记图像中的文件名而且利用匹配的登记图像中的文件夹路径的情况下,在呈现文件名候选之后,呈现文件夹路径候选。另一方面,在不存在未呈现的扫描辅助信息的情况下,处理进行到步骤209。
在步骤209,确定是否进行用于后续扫描辅助处理的反馈处理。在原样采用在步骤205生成的扫描辅助信息的情况下(步骤206的“是”),确定不需要反馈处理并且终止该处理。另一方面,在用户在步骤207直接设置文件名等或者在不采用所生成的扫描辅助信息进行编辑的情况下,确定需要反馈处理并且处理进行到步骤210。
在步骤210,进行反馈处理。例如,在匹配的登记图像不正确的情况下,将此次处理的查询图像与用于创建文件名等的OCR处理结果相互关联,并将此次处理的查询图像登记为新的登记图像。此外,在匹配的登记图像正确但改变设置规则的情况下,通过将改变后的内容作为新设置规则来更新匹配的登记图像的内容。通过如上所述添加或更新登记图像,可以提高在执行下一个和随后的扫描辅助功能时呈现给用户的扫描辅助信息的精度。
以上是扫描辅助处理中的控制的内容。
(匹配处理)
接下来,详细解释作为本实施例的特征的匹配处理。在描述匹配处理的详情之前,解释在该处理中期望匹配的登记图像,即,期望被视为与查询图像的文档相同的种类的文档。该匹配处理旨在生成扫描辅助信息。因此,基本的思路是,在文档图像之间很大可能被用于生成扫描辅助信息的区域彼此类似的情况下,文档被视为同一种类的文档并设置了高的相似度。解释具体文档图像的示例。图6A至图6C中的各个示出了通过扫描不同文档获得的文档图像。这里,图6A中的文档图像600和图6B中的文档图像610在上部的三分之一部分区域601中彼此类似。另一方面,图6A中的文档图像600和图6B中的文档图像610与图6C中的文档图像620在上部的三分之一部分区域601中不类似。这里所指的相似性意味着文档图像的结构相互匹配,但是其中描述的字符串的内容(例如,公司名称(company name)等)不必相互匹配。原因在于,在需要字符串的内容匹配的情况下,扫描辅助功能的应用范围非常有限,并且在文档图像的结构相互匹配的情况下,认为即使文档内描述的字符串不同,应用相同设置规则的可能性也很高。在图6A至图6C中,在上部的三分之一区域601中,描述了针对生成诸如公司名称和文档标题等的扫描辅助信息而言是有用的信息。对于这种针对生成扫描辅助信息而言是有用的信息的部分,期望在计算相似度时设置重的权重。另一方面,在图6A中的文档图像600与图6C中的文档图像620之间,下部的三分之二部分区域602相互类似,但是在这些部分中,仅描述诸如项目名称和金额(amount of money)等的信息,并且这些部分依赖于项目的数量等而扩展或收缩。事实上,在上部的三分之一部分区域601中相互类似的文档图像600与文档图像610之间,下部的三分之二部分区域602之间的相似度不高。即,在图6A至图6C中的示例中,在下部的三分之二部分区域602中描述的信息对于扫描辅助信息的生成是无用的,因此,期望在计算相似度时设置轻的权重。综上所述,在图6A至图6C的示例中,期望计算相似度,使得从整个图像来看文档图像600与文档图像610之间的相似度变得高,并且,从整个图像来看文档图像600和610与文档图像620之间的相似度变得低。即,通过在文档的上部之间的相似度高的情况下将文档图像视为同一种类的文档图像,可以提高匹配处理的精度。如上所述,在以生成扫描辅助信息为前提的情况下,考虑到存在附加重要性的部分和未附加重要性的部分,需要进行相似度的估计。此外,估价单等具有各种版式,因此,附加重要性的部分依赖于文档的种类而变化(重要性附加于上部或下部)。以上是在匹配处理中估计相似度的基本思路。考虑到上述情况,参照图7所示的流程图解释根据本实施例的匹配处理的详情。
首先,在步骤701,从RAM 113获取在步骤202进行的查询图像的文本块提取处理的结果。在随后的步骤702,对提取的文本块进行预处理。具体地,进行去除作为字符串是无意义的短字符串的文本块(去除噪声块)的处理,以及用于沿竖直方向从上到下重新布置文本块的排序处理。
在完成预处理的情况下,在步骤703,从存储在登记图像DB中的登记图像组中选择并读取关于集中注意的一个登记图像(关注的登记图像)的信息。在该信息中,包括关于关注的登记图像中的文本块的信息和与关注的登记图像相关联的、有关扫描辅助信息的信息(指示OCR处理结果使用什么的信息)。关于登记图像本身的信息不一定需要包括在内。然后,在步骤704,进行查询图像与关注的登记图像之间的偏移量的估计处理。此外,在步骤705,进行查询图像与关注的登记图像之间的相似度的估计处理。稍后将描述偏移量估计处理和相似度估计处理的详情。
在步骤706,确定在登记图像DB中存储的登记图像组中是否存在未处理的登记图像。在存在未处理的登记图像的情况下,处理返回到步骤703,并且选择下一个关注的登记图像并继续处理。另一方面,在对所有登记图像完成与查询图像的相似度的估计处理的情况下,处理进行到步骤707。
在步骤707,从对其进行了相似度的估计的所有登记图像,将具有最高相似度的登记图像确定为与查询图像匹配的可能性强的候选图像(以下,匹配候选图像)。在随后的步骤708,从登记图像DB获取先前针对所确定的匹配候选图像描述的设置规则。
最后,在步骤709,生成指示查询图像中的文本块组的信息(下文中,块对应性信息),该文本块组对应于用于在匹配候选图像中创建文件名等的文本块组。通过针对用于匹配候选图像的各个文本块的查询图像的文本块,进行与稍后将描述的偏移量估计处理中的块对的确定(步骤802)相同的处理,可以实现块对应性信息的生成。然而,稍后将描述的步骤802与该步骤的不同之处在于,在步骤802找到对应于查询图像的文本块的登记图像的文本块,但是在该步骤处找到对应于登记图像的文本块的查询图像的文本块。生成的块对应性信息与匹配候选图像的设置规则一起存储在RAM 113中。
以上是匹配处理的内容。
(偏移量估计处理)
继上文之后,解释上述步骤704的偏移量估计处理的详情。图8是示出偏移量估计处理的流程的流程图。这里介绍的估计偏移量的方法是示例,并且可以使用其他方法。以下,沿着图8的流程给出解释。
首先,在步骤801,从RAM 113获取关于查询图像中的文本块和在步骤703选择的关注的登记图像中的文本块的信息。在随后的步骤802,确定查询图像中的文本块与关注的登记图像中的文本块之间的对应性关系中的块对。这里,通过使用图9解释块对的确定方法。图9是通过切出如下图形的一部分而获得的图,在该图形中,在同一坐标系中绘制查询图像中的文本块和登记图像中的文本块。在图9中,实线矩形901指示查询图像的文本块,虚线矩形902、903和904指示位于查询图像的文本块901周围的登记图像的文本块组。此外,在图9中,单点划线圆905指示以查询图像的文本块901的左上顶点为中心并且以预定距离为半径的范围。首先,为了确定块对,搜索左上顶点位于圆905内的登记图像的文本块。在图9中的示例中,文本块902和903对应于此。接下来,分别求出查询图像的文本块901与左上顶点位于圆905内的登记图像的文本块902之间的交叠率,以及文本块901与左顶点位于圆905内的文本块903之间的交叠率。按如下求出交叠率。首先,将查询图像的文本块的左上顶点和登记图像的文本块的左上顶点置于相同位置,并计算两个文本块的公共部分的区域。然后,将通过将公共部分的面积除以两个文本块中的面积较大的文本块的面积而获得的值取为交叠率。以这种方式,求出查询图像的文本块与登记图像的各个文本块的交叠率,并且将交叠率大于或等于预定条件的文本块的组合视为块对。作为此时的预定条件,可以设置如下条件,例如具有大于或等于通过将最大交叠率乘以系数α而获得的值的值并且具有高于或等于预定阈值的交叠率。在这种情况下,系数α是用于获得,具有接近最大交叠率的交叠率且小于1.0的值的组合的系数(例如,使用0.5与0.8之间的值)。此外,预定阈值是指定保证是块对的底线的值,并且,使用小于1.0的值,例如,0.3与0.7之间的值。对查询图像的所有文本块进行上述处理,并获得块对的组。
在步骤803,从在步骤802处确定的块对的组中,选择集中注意的一个块对。然后,在步骤804,设置关注的块对的权重。权重设置是基于关注的块对的交叠状态和关注的块对的位置(竖直方向的坐标)而进行的。首先,解释基于交叠状态的权重设置。此时,在关注的块对中的查询图像的文本块没有与其他登记图像的文本块成对的情况下,进行设置使得权重变重。类似地,在关注的块对中的登记图像的文本块没有与其他查询图像的文本块成对的情况下,进行设置使得权重变重。具体地,例如,预先准备如图10所示的表(以下为权重表),并且利用其进行设置。在图10所示的权重表中,横轴表示关注的块对中的查询图像的文本块与其他登记图像的文本块成对的数量。此外,纵轴表示关注的块对中的登记图像的文本块与其他查询图像的文本块成对的数量。然后,由所述对的其他文本块与别的文本块成对的数量越小,分配的权重值越高。这里,解释利用权重表的设置方法,但也可以通过使用计算式来确定权重。在使用计算式的情况下,在将求出的权重取为W的条件下,可以通过下面的式(1)求出与上述表中的权重相同的权重。
W=(1/(N+1)+1/(M+1))/2···式(1)
在上述式(1)中,N指示关注的块对中的查询图像的文本块与其他登记图像的文本块成对的数量。此外,M指示关注的块对中的登记图像的文本块与其他查询图像的文本块成对的数量。
接下来,解释基于块对的位置(竖直方向的坐标)的权重设置。在这种情况下,进行设置,使得依据关注的块对中的查询图像的文本块的左上顶点的Y坐标(在文档图像的竖直方向上)而设置不同的权重。例如,在文档的上部描述使用针对扫描辅助信息而言是有用的信息的版式的文档的情况下,如在前面描述的图6A至图6C中的具体示例中那样,进行设置,使得随着Y坐标指示文档的上部的越高的位置,设置越重的权重。图11示出了在依据块对的位置(Y坐标)而确定权重时使用的LUT(Look Up Table,查找表)的示例。如在该LUT中,还可以将预定位置或更下的位置处的位置的权重值设置为“0”。基于块对的位置而设置权重的原因在于,可以说,文档内的如下位置针对定位而言也是有用的:该位置包括生成扫描辅助信息所使用的信息的可能性强。在使用基于块对的交叠状态的权重设置和基于块对的位置(Y坐标)的权重设置二者的情况下,可以通过进行通过两种方法获得的权重值的乘法等来确定最终权重。
在步骤805,生成在稍后描述的步骤807处的偏移量候选确定处理中使用的偏移量的直方图。具体地,首先,求出关注的块对中的左上顶点的X方向上的差分量(偏移量)和Y方向上的差分量(偏移量)。然后,在步骤804处设置的权重用于所获得的偏移量,并且在偏移量的直方图中对施加了权重的偏移量进行投票表决(vote)。此时直方图的bin(区间)的范围是任意的。
在步骤806,确定是否已经处理了所有的块对。在存在未处理的块对的情况下,处理返回到步骤803,并且选择下一关注的块对并继续处理。另一方面,在已经处理了所有的块对的情况下,处理进行到步骤807。在确定进行到步骤807的阶段,意味着X方向和Y方向上的偏移量的直方图完成。图12A和图12B示出了偏移量的直方图的示例。横轴表示偏移量,并且,纵轴表示相关值(直方图的频率)。图12A是仅存在一个数据点1201作为大峰值的类型的偏移量的直方图,并且,图12B是这样的类型的偏移量的直方图,其中除了作为最大峰值点的数据点1202之外,存在局部峰值点1203至1205。在存在噪声影响的问题的情况下,还可以对生成的偏移量的直方图应用平滑。
在步骤807,分析生成的偏移量的直方图,并且针对X方向和Y方向中的各个确定查询图像与关注的登记图像之间的偏移量候选。例如,在上述的图12A中的偏移量的直方图的情况下,数据点1201单独作为大峰存在,因此,与数据点1201相对应的偏移量被确定为偏移量候选。此外,在上述的图12B中的偏移量的直方图的情况下,满足预定条件的所有峰值点被确定为偏移量候选。此时的预定条件是,例如,超过了最大峰值点的预定比率(例如,70%),超过了预定阈值(例如,相关值:15),峰值点是例如从最高峰值点或次高峰值点开始的第五最高峰值点,等等。依赖于条件,例如,对应于图12B中的数据点1203、1204和1205的偏移量也可以被确定为偏移量候选。然后,通过分别在X方向和Y方向上进行诸如此类的处理,确定在查询图像与关注的登记图像之间分别在X方向和Y方向上的偏移量候选(X_Shift和Y_shift)。
最后,在步骤808,通过组合分别在X方向和Y方向上确定的偏移量候选,确定在查询图像与关注的登记图像之间的综合(synthetic)偏移量候选(S_Shift)。例如,假设存在两个X_Shift1和X_Shift2作为X方向上的偏移量候选,并且存在三个Y_Shift1、Y_Shift2和Y_Shift3作为Y方向上的偏移量候选。在这种情况下,在对X方向上的两个偏移候选和Y方向上的三个偏移量候选简单地进行组合的条件下,获得下面的六(2×3)个综合偏移量候选S_Shift1到S_Shift6。
S_Shift1=(X_Shift1,Y_Shift1)
S_Shift2=(X_Shift1,Y_Shift2)
S_Shift3=(X_Shift1,Y_Shift3)
S_Shift4=(X_Shift2,Y_Shift1)
S_Shift5=(X_Shift2,Y_Shift2)
S_Shift6=(X_Shift2,Y_Shift3)
然而,在下面将说明的相似度估计处理中,针对各个S_shift的算术运算处理变得需要,因此,在S_shifts的数量大的情况下,处理负荷变重。因此,也可以仅选择与X方向上的最大峰值点的偏移量和Y方向上的最大峰值点的偏移量相关的一对作为S_shift。这以在X方向和Y方向上的最大峰值点同时都不正确的可能性微弱为前提。这里,假设X方向上的最大峰值点的偏移量是X_Shift1,并且Y方向上的最大峰值点的偏移量是Y_Shift1。在这种情况下,四个偏移量候选,即S_Shift1到S_Shift4,就足够了,因此,可以减少处理负荷。还可以通过其他方法缩小综合偏移量候选的数量。由此确定的关于综合偏移量候选S_shift的信息被存储在RAM 113中。
以上是偏移量估计处理的内容。
(相似度估计处理)
接下来,解释先前描述的步骤705的相似度估计处理的详情。图13是示出相似度估计处理的流程的流程图。这里介绍的估计相似度的方法是示例,并且可以使用其他方法。以下,沿着图13的流程给出解释。
首先,在步骤1301,从RAM 113获取关于通过上述偏移量估计处理获得的所有综合偏移量候选S_shift的信息。继上文之后,从所有获取的综合偏移量候选S_shift中选择集中注意的一个综合偏移量候选S_shiftI(I<综合偏移量候选的总数)。
在步骤1303,通过使用关注的综合偏移量候选S_shiftI,对查询图像进行定位。具体地,进行如下处理:基于S_shiftI,使包括在查询图像中的各个文本块的坐标位置,在X方向和Y方向二者上同时均匀地平移。在随后的步骤1304,进行如下处理(下文中,个体相似度计算处理):计算定位后的查询图像与关注的登记图像之间的相似度。稍后将描述个体相似度计算处理的详情。
在步骤1305,确定是否已经针对所有的综合偏移量候选S_shift完成了个体相似度的计算。在存在未处理的综合偏移量候选S_shift的情况下,处理返回到步骤1302,并且选择下一个关注的综合偏移量候选S_shiftI并继续处理。另一方面,在已经针对所有综合偏移量候选S_shift完成了个体相似度的计算的情况下,处理进行到步骤1306。
在步骤1306,在针对各个综合偏移量候选S_shift计算的个体相似度中,最高的一个被确定为查询图像与关注的登记图像之间的最终相似度。此外,在计算最高个体相似度的情况下的综合偏移量候选S_shift被取为与最终相似度相对应的最终综合偏移量。由此确定的关于最终相似度的信息与关于对应综合偏移量的信息、关于定位后的查询图像中的文本块的位置信息以及关于关注的登记图像的信息相关联地存储在RAM 113中。
通过上述处理,获得查询图像与其文档结构被估计为最接近查询图像的文档结构的登记图像之间的相似度。
(个体相似度计算处理)
继上文之后,参照图14中的流程详细解释在上述的步骤1304中求得定位后的查询图像与关注的登记图像之间的个体相似度的处理。
首先,在步骤1401,获取关于定位后的查询图像中的文本块和关注的登记图像中的文本块的信息。在随后的步骤1402,对指示要求出的相似度的变量S的值和指示其计算过程中的临时相似度的变量Tmp的值进行初始化(将“0”设置为初始值)。
在步骤1403,从定位后的查询图像中包括的文本块中选择集中注意的文本块。在本实施例中,假设在上部区域中具有固定结构的文档,因此,选择其左上顶点位于最上部(在Y轴的负方向上)的文本块。已经在先前描述的步骤702进行了排序处理,因此,从顶部开始按顺序选择所获取的文本块就足够了。
在步骤1404,进行对所关注的登记图像中的文本块的搜索,该文本块对应于定位后的查询图像的关注文本块。这里,在定位后的查询图像的关注的文本块和关注的登记图像中的文本块组在同一的坐标系中绘制的情况下,对应文本块指的是关注的登记图像的、与查询图像的关注的文本块交叠的文本块。在这种情况下,对应文本块的数量不限于一个,并且存在找到多个对应文本块的情况。此外,还对各个登记图像中的文本块进行了排序处理,因此,搜索范围可以是限制的范围。
在步骤1405,求出其中已经通过搜索找到的关注的登记图像的文本块与定位后的查询图像的关注文本块交叠的面积。在求出交叠面积的情况下,已经在定位后的查询图像中进行了文本块的定位,因此,不再需要在前述的步骤802处进行的将左上顶点放置在相同位置的处理。图15A和图15B是交叠面积的说明图。在图15A中的示例中,由实线矩形指示的定位后的查询图像的文本块1501和由虚线矩形指示的登记图像的文本块1502交叠,并且交叠面积是阴影区域1503的面积。此外,在图15B的示例中,由实线矩形指示的定位后的查询图像的文本块1504和由虚线指示的登记图像的两个文本块1505和1506交叠,并且,交叠面积为两个阴影区域1507和1508的总值。
在步骤1406,进行用于计算临时相似度Tmp的准备处理。具体地,进行以下三个处理。
1)通过将在步骤1405求出的交叠面积与通过直到上一次例程的例程求出的交叠面积的累积值相加来求出总交叠面积OverlapArea的处理
2)求出查询图像的已处理文本块的总面积TotalArea_Q的处理
3)求出存在高于存在于查询图像的已处理文本块的最低处的文本块的登记图像的文本块的总面积TotalArea_R的处理
在上述的处理3)中,作为查询图像的文本块的位置,使用其最下端的坐标,并且作为登记图像的文本块的位置,使用其左上坐标。
在步骤1407,确定是否满足临时相似度Tmp的计算开始条件。计算开始条件是确定是否可以计算可靠的临时相似度Tmp的条件。在文本块的数量小的情况下或者在已经处理的查询图像的文本块存在的范围窄的情况下,认为获得的临时相似度Tmp的可靠度低。因此,计算开始条件被取为例如以下内容。
·是否在查询图像中已经处理了预定数量的(例如,一到三个)文本块
·在查询图像中是否已经处理了直到与页面顶端相距预定距离(例如,页面高度的10%)的文本块
·在查询图像中是否已经处理了直到与最上部的文本块相距预定距离(例如,页面高度的10%)的文本块
·查询图像的已处理文本块的总面积是否超过预定阈值
上述计算开始条件可以单独使用,也可以组合使用多个计算开始条件。此外,还可以利用多个条件的多个组合。在确定结果指示不满足计算开始条件的情况下,处理进行到步骤1411。另一方面,在满足计算开始条件的情况下,处理进行到步骤1408。
在步骤1408,计算临时相似度Tmp。通过使用下面的式(2)可以求出临时相似度Tmp,其定量地指示查询图像中的文本块组的布置和形状与关注的登记图像的文本块组的布置和形状有多相似。
临时相似度Tmp=OverlapArea/TotalArea_L···式(2)
在上述的式(2)中,TotalArea_L指示值较大的TotalArea_Q或TotalArea_R。在查询图像或登记图像的文本块的面积大的情况下,结构彼此不匹配的文档图像交叠的可能性变大并且OverlapArea变大。因此,OverlapArea的值除以值较大的TatalArea_Q或TotalArea_R的值。还可以通过例如下面的式(2)'或式(2)"求出临时相似度Tmp。
临时相似度Tmp=OverlapArea×2/(TotalArea_Q+TotalArea_R)
···式(2)'
临时相似度Tmp=(OverlapArea/TotalArea_Q)×(OverlapArea/TotalArea_R)···式(2)"
在步骤1409,进行将在步骤1408求出的临时相似度Tmp与当前相似度S进行比较的处理。在临时相似度Tmp的值较大的情况下,处理进行到步骤1410。另一方面,在临时相似度Tmp的值较小(或相等)的情况下,处理进行到步骤1411。在步骤1408中求出的临时相似度Tmp的历史被存储在RAM 113中,用于稍后描述的校正处理(步骤1412)。然后,在步骤1410,更新相似度S的值。具体地,相似度S的值被当前临时相似度Tmp的值改写。
在步骤1411,确定是否已经处理了定位后的查询图像的所有文本块。在存在未处理的文本块的情况下,处理返回到步骤1403,并且选择下一个关注的文本块并继续处理。另一方面,在已经处理了所有文本块的情况下,处理进行到步骤1412。
在步骤1412,进行相似度S的校正处理。在解释校正处理之前,解释在到目前为止的处理中反复计算临时相似度Tmp的含义。图16A和图16B示出了作为临时相似度Tmp的计算目标的图像范围(计算范围)顺序改变的方式。在图16A和图16B中,图16A示出了登记图像,并且,图16B示出了查询图像和六种双向箭头,即长度不同的双向箭头1601至1606,分别指示临时相似度Tmp的计算范围。所有计算范围都包括文档图像的上部区域,因此,即使在重要头信息(header information)的位置等依据文档内容稍微改变的情况下,也可以应对该变化。各个计算范围1601至1606的临时相似度Tmp的值例如如下。
计算范围1601的Tmp值为:0.60
计算范围1602的Tmp值为:0.64
计算范围1603的Tmp值为:0.65
计算范围1604的Tmp值为:0.75
计算范围1605的Tmp值为:0.5
计算范围1606的Tmp值为:0.4
尽管可以包括由文本块的提取错误、变化、提取的文本块的长度或大小的差异等导致的错误,但是临时相似度Tmp的值相对高达计算范围1604的部分。即,可以说计算与文档版式的固定结构相对应的相似度(在图16A和图16B的示例中,将重要性附加到存在诸如文档标题和公司名称等的重要信息的上部区域)。在该示例中,计算范围1604的临时相似度Tmp的值是最大值,因此,这将是最终的相似度S。如上所述,通过改变计算范围使得总是包括文档内的特定图像区域(下文中,特定区域),可以计算与文档版式的固定结构相对应的相似度。图17A和图17B示出了另一具体示例。在图17A和图17B中,图17A是登记图像,并且图17B是查询图像。两个图像在一般结构中匹配,但在写入项目名称的部分不同。因此,在计算范围稍微改变的情况下,计算结果将大不相同,如下所示。
计算范围1701的Tmp值为:0.75
计算范围1702的Tmp值为:0.18
从图17A和图17B中显而易见,计算范围1701与计算范围1702之间的差异不大。然而,有许多文本块仅存在于图17B中的查询图像中,因此,临时相似度Tmp的值低。如上所述,即使在计算范围略微不同的情况下,计算结果也可能大不相同,因此,已知在通过将固定范围取为所有文档图像中的目标来求出相似度的情况下不能保证精度。在图17A和图17B中的示例中,下部区域1703也具有固定结构,因此,也可以将下部区域代替上部区域取为文档内的特定区域,其中,该特定区域总是被包括在计算范围内。此外,还可以将通过包括上部区域而获得的计算结果与通过包括下部区域而获得的计算结果进行整合。在整合时,可以通过后述的校正处理,通过考虑上部的结构与下部的结构总共匹配多少来获得最终的相似度。例如,假设存在具有仅在上部与查询图像的固定结构匹配的固定结构的登记图像A和并且具有在上部和下部都与查询图像的固定结构匹配的固定结构的登记图像B。然后,在登记图像A的上部的结构类似于登记图像B的结构的情况下,使登记图像B的相似度高于登记图像A的相似度,等等。
最后,在步骤1412,基于通过反复计算获得的临时相似度Tmp的分布,进行相似度S的校正处理。相似度S是通过多次进行临时相似度Tmp的计算而获得的值中的最大值,并且不能反映临时相似度Tmp的分布情况。例如,即使Tmp值相同,也存在Tmp值仅在S值附近高的情况,并且存在Tmp值在包括S值的更宽范围内高的情况。然后,在后者的情况下,希望依据Tmp值的分布情况校正S值。图18A至图18C示出了其具体示例。在图18A至图18C中,图18A是查询图像,并且,图18B和图18C是与图18A中的查询图像的相似度S为0.8的登记图像。图18B中的查询图像整体上具有与图18A中的查询图像相同的结构,并且,仅描述了项目名称的部分是不同的。另一方面,在图18C中的登记图像中,仅上部的结构与图18A中的查询图像的结构相同,并且,下部的结构不同。在诸如此类的情况下,期望类似于图18A的图18B的相似度S整体上高于图18C的相似度S。这里,在图18B中的登记图像中,假设临时相似度Tmp在由双向箭头1801指示的范围(范围与整个页面的比率:25%)中超过0.7。此外,在图18C中的登记图像中,假设临时相似度Tmp在由双向箭头1802指示的范围(范围与整个页面的比率:15%)中超过0.7。在这种情况下,通过使用例如下面的式(3)来校正相似度S。
校正后的相似度S=MIN(1,相似度S×预定增益×MAX(临时相似度Tmp高于或等于预定阈值/预定的归一化系数的范围的比率-1,0)+相似度S)
在上述的式(3)中,MIN(A,B)是输出A或B的较小的值的函数,并且MAX(A,B)是输出A或B的较大的值的函数。预定增益是定义校正强度的值,并且例如是约0.05至约0.5的值。预定的归一化系数是在临时相似度Tmp高于或等于预定阈值的范围的比率达到该值的情况下确定是否校正相似度S的值,并且,例如,为约0.05至约0.2的值。在图18A至图18C中的示例中,在假设预定阈值是0.7并且预定增益和归一化系数都是0.1的情况下,校正后的相似度S将分别为如下。
·在图18B中的登记图像的情况下
校正后的相似度S=MIN(0.8×0.1×MAX(0.25/0.1-1,0)+0.8)=0.92
·在图18C中的登记图像的情况下
校正后的相似度S=MIN(0.8×0.1×MAX(0.15/0.1-1,0)+0.8)=0.84
如上所述,在临时相似度Tmp高于或等于预定阈值的范围的比率大于预定的归一化系数的情况下,校正后的相似度S的值变大。相反,在比率小于归一化系数的情况下,校正后的相似度S的值变小。此外,临时相似度Tmp高于或等于预定阈值的范围的比率越大,校正后的相似度S的值变得越大。此外,在图18A至图18C中的示例中,图18B中的登记图像(该图像的临时相似度Tmp的值大于或等于0.7的范围的比率是25%)的校正后的相似度S的值大于图18C中的登记图像(该图像的临时相似度Tmp的值大于或等于0.7的范围的比率是15%)的校正后的相似度S的值。校正方法不限于使用上述的式(3)的方法。例如,还可以通过临时相似度Tmp的一半以上的平均值等来估计查询图像与登记图像之间相似的区域的宽度,并因此进行校正,使得估计宽度越宽,相似度S的值就变得越大。
以上是个体相似度计算处理的内容。由此,获得定位后的查询图像与关注的登记图像之间的相似度。
在本实施例的个体相似度计算处理中,使用文本块,但是不限于此。例如,还可以通过利用通过进行分辨率转换降低分辨率的文档图像的像素值,具体地通过利用亮度值或相关系数的差的绝对值之和,比较文档图像的外观本身来求出相似度。可选地,还可以通过利用通过OCR处理获得的字符串信息,具体地通过利用作为用于计算所获得的字符串之间的距离的量度的Levenshtein距离等,来比较文档中描述的内容本身来求出相似度。
此外,在本实施例的匹配处理中,文档图像本身被用作登记图像,但是不限于此。例如,可以使用任何特征量,只要可以利用该特征量进行匹配处理即可,例如各个文档图像的文本块提取处理结果。
如上所述,根据本实施例,可以在包括识别文档图像是否是同一种类时而言是重要的特定区域(固定结构部分)、但不包括对于识别而言不重要的区域(虽然文档图像是同一种类但存在差异的部分)的状态下计算文档图像之间的相似度。由此,可以以高精度搜索文档种类与扫描图像有关的文档的种类是相同的文档,因此,还可以提高呈现给用户的扫描辅助信息的精度。此外,用户不必逐个指定特定区域,因此,还可以减少用户的负担。
[第二实施例]
接下来,作为第二实施例解释一个方面,其中可以灵活地改变临时相似度Tmp的计算范围。除了个体相似度计算处理之外的内容与第一实施例的内容相同。在下文中,参照对应于在前面描述的图14中的流程的图19中的流程,解释了本实施例中的个体相似度计算处理。
步骤1901和步骤1902分别对应于图14的流程中的步骤1401和步骤1402。即,在获取关于定位后的查询图像和关注的登记图像的文本块的信息的情况下(步骤1901),将指示相似度的变量S的值和指示临时相似度的变量Tmp的值进行初始化(步骤1902)。
在步骤1903,获取关于特定区域的信息,该特定区域总是被包括在临时相似度Tmp的计算范围中。例如,作为特定区域的信息,有如下信息:
·由应用程序等预先确定的关于位置(例如文档图像的上部区域和下部区域)的信息
·关于依据由用户经由操作单元120的UI(用户界面)指定的内容(例如,在将查询图像侧作为基准的情况下,重要性附加到上部,重要性附加到下部,等等)设置的区域的位置的信息
·关于与登记图像相关联地登记并包括用于生成扫描辅助信息的文本块的预定区域的位置的信息。
这里,通过使用图20A和图20B来解释与登记图像相关联地登记的预定区域的具体示例。在图20A和图20B中,对于共同的登记图像,各种形状的区域被关联为特定区域。首先,图20A是在由虚线指示的文本块2001、2002和2003用于生成扫描辅助信息的情况下的特定区域的示例。在图20A中,由单点划线指示的特定区域2004的Y坐标(竖直方向)是文本块2001的顶侧,并且,文本块2003的底侧及其X坐标(水平方向)是文档图像的左端和右端。在文档图像中,固定结构和非固定结构切换的部分在许多情况下位于竖直方向,并且它们在水平方向上切换并不常见,因此,在水平方向上,认为特定区域的左端和右端被视为如上所述的文档图像的左端和右端。然而,特定区域可以是诸如由双点划线指示的特定区域2005等的区域,其X坐标(水平方向)是文本块2001至2003的最左端和最右端。图20B是在使用由虚线指示的文本块2001和2002以及文本块2006用于生成扫描辅助信息的情况下的特定区域的示例。在图20B中,由单点划线指示的特定区域2007的Y坐标(竖直方向)是文本块2001的顶侧,并且,文本块2006的底侧和X坐标(水平方向)是文档图像的左端和右端。在特定区域2007的情况下,文本块2002和文本块2006彼此相距很大,因此,包括许多对于生成扫描辅助信息不重要的文本块。因此,在用于生成扫描辅助信息的文本块彼此相距很大的情况下,还可以对文本块进行分组并将特定区域分割为两个特定区域,例如由双点划线指示的特定区域2008和2009。在这种情况下,特定区域2009的Y坐标分别是附加于边缘的文本块2006的顶端和底端。原因是文本块2006自身形成一个区域,因为该区域的高度太窄,因此,除非附加边缘,否则不能获得稳定的特定区域。通过如上动态地获取关于特定区域的信息,与第一实施例相比,可以应对包括各种结构的文档图像。
在步骤1904,基于在步骤1903处获取的关于特定区域的信息,设置多个相似度计算范围。在这种情况下,相似度计算范围仅需要包括特定区域并且可以具有任何形状。例如,在特定区域2004或2007的情况下,该区域被视为基准计算范围,并且计算范围每次在Y方向(竖直方向)上延伸预定宽度(例如,页面的1%),因此设置多个计算范围。此外,在特定区域2005的情况下,该区域被视为基准计算范围,并且计算范围每次分别在X方向(水平方向)和Y方向(竖直方向)上延伸预定宽度,因此,设置多个计算范围。此时,设置组合了仅在X方向上延伸的计算范围、仅在Y方向上延伸的计算范围以及在X方向和Y方向上都延伸的计算范围的计算范围。此外,在存在两个特定区域的情况下,例如特定区域2008和2009的情况,两个区域都被视为基准计算范围,并且对于各个区域,计算范围每次被延伸预定宽度,因此设置了多个计算范围。即,通过考虑基于特定区域2008在Y方向上的扩展、基于特定区域2009在Y方向上的扩展以及这两个区域的同时扩展来设置多个计算范围。
在步骤1905,从多个设置计算范围中选择集中注意的一个计算范围。然后,在步骤1906,获取关于定位后的查询图像的文本块和关注的登记图像的文本块的信息,其包括在所选择的关注的计算范围中。此外,在步骤1907,与图14中的流程的步骤1403的情况一样,从定位后的查询图像中的文本块确定集中注意的文本块。步骤1908至步骤1910的各个处理分别对应于图14的流程中的步骤1404至步骤1406的处理。即,进行如下步骤:搜索关注的登记图像的文本块(该文本块对应于定位后的查询图像的关注的文本块)(步骤1908),计算交叠面积(步骤1909),以及用于计算临时相似度Tmp的准备处理(步骤1910)。
在步骤1911,确定是否已经处理了定位后的查询图像的所有文本块。在存在未处理的文本块的情况下,处理返回到步骤1907,并且确定下一个关注的文本块并继续处理。另一方面,在已经处理了所有文本块的情况下,处理进行到步骤1912。
步骤1912至步骤1914的各个处理分别对应于图14的流程中的步骤1408至步骤1410的处理。即,进行临时相似度Tmp的计算(步骤1912),计算出的临时相似度Tmp与当前相似度S之间的比较处理(步骤1913),以及相似度S的值的更新(步骤1914)。在计算临时相似度Tmp时,QueryArea的定义是包括在相似度计算范围内的查询图像的文本块的总面积。类似地,RegistArea的定义是包括在相似度计算范围中的登记图像的文本块的总面积。
在步骤1914,确定是否已经针对在步骤1904处设置的所有计算范围完成了临时相似度Tmp的计算。在存在未处理的计算范围的情况下,处理返回到步骤1905,并且确定下一个关注的计算范围并继续处理。另一方面,在针对所有计算范围完成了临时相似度Tmp的计算的情况下,处理进行到步骤1915。
最后,在步骤1915,如在图14中的流程的步骤1412的情况一样,进行基于临时相似度Tmp的分布的相似度S的校正处理。以上是根据本实施例的相似度计算处理的内容。
根据本实施例,可以在第一实施例的图14中的流程的步骤1403处灵活地改变基准位置(上部或下部),因此,可以应对更多种类的文档图像。此外,在本实施例的情况下,用户还可以指定特定区域,因此,可以将本实施例应用于具有特殊版式的商务表单等。此外,还可以基于针对在登记图像中生成扫描辅助信息而实际使用的文本块来确定特定区域,并且在这种情况下,针对各个登记图像进行特定区域的切换。此时针对切换而使用的文本块是针对生成扫描辅助信息而实际使用的文本块,因此,期望所设置的计算范围更适合于计算相似度。因此,这导致相似度计算处理的精度的提高。
(其它实施例)
还可以通过读出并执行记录在存储介质(也可更完整地称为"非暂时性计算机可读存储介质")上的计算机可执行指令(例如,一个或更多个程序)以执行上述实施例中的一个或更多个的功能,和/或包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如,专用集成电路(ASIC))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能,并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法,来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如,中央处理单元(CPU)、微处理单元(MPU)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)TM)、闪存装置以及存储卡等中的一个或更多个。
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
根据本发明,可以高度准确和简单地搜索与同扫描图像有关的文档相同的种类的文档。
虽然针对示例性实施例描述了本发明,但是,应该理解,本发明不限于公开的示例性实施例。下述权利要求的范围应当被赋予最宽的解释,以涵盖所有这类修改以及等同的结构和功能。
Claims (15)
1.一种图像处理装置,所述图像处理装置包括:
提取单元,其被构造为通过对输入文档图像进行区域分割处理,来提取具有预定属性的至少一个块;
计算单元,其被构造为,针对输入文档图像和多个文档图像中的各个文档图像来计算多个不同范围的临时相似度,并且基于所计算的临时相似度来确定输入文档图像与多个文档图像中的各个文档图像之间的相似度,其中,基于作为所述输入文档图像和所述多个文档图像中的各个文档图像中的计算目标的所述多个不同范围中的各个范围中包括的提取的至少一个块的形状和布置,来计算所述临时相似度中的各个相似度;以及
确定单元,其被构造为,将所确定的相似度是所述多个文档图像中最高的文档图像确定为,与输入文档图像匹配的文档图像。
2.根据权利要求1所述的图像处理装置,其中,
所述多个不同范围中的各个范围包括特定区域,所述特定区域具有所述输入文档图像和所述多个文档图像的版式中的固定结构。
3.根据权利要求1所述的图像处理装置,其中,
所述临时相似度中的至少一个相似度依据所述临时相似度的分布来校正。
4.根据权利要求1所述的图像处理装置,其中,所述预定属性是文本属性。
5.根据权利要求4所述的图像处理装置,所述图像处理装置还包括:
估计单元,其被构造为,通过获取关于块对的信息并基于所获取的关于块对的信息,来估计输入文档图像与所述多个文档图像中的各个文档图像之间的偏移量,所述关于块对的信息指示,输入文档图像中具有所述文本属性的至少一个块与所述多个文档图像中的各个文档图像中具有所述文本属性的至少一个块之间的对应性关系,其中,
计算单元进行:
依据估计的偏移量,对包括在输入文档图像中的具有所述文本属性的至少一个块进行定位;并且
基于所述定位后的具有所述文本属性的至少一个块的形状和布置,来计算临时相似度。
6.根据权利要求5所述的图像处理装置,其中,
估计单元为所述块对中的各个块设置权重,通过使用该权重生成各个块对中的偏移量的直方图,并基于直方图来估计输入文档图像与所述多个文档图像中的各个文档图像之间的最终偏移量。
7.根据权利要求6所述的图像处理装置,其中,
基于各个块对的交叠状态或各个块对的位置,来进行权重设置。
8.根据权利要求7所述的图像处理装置,其中,
在基于各个块对的交叠状态的权重设置中,所述对的具有文本属性的其他块,与具有文本属性的别的块成对的数量越小,设置的权重值就越高。
9.根据权利要求7所述的图像处理装置,其中,
所述多个不同范围中的各个范围包括特定区域,所述特定区域具有所述输入文档图像和所述多个文档图像的版式中的固定结构,并且其中,
在基于各个块对的位置的权重设置中,对于所述特定区域中包括的块对,设置比所述特定区域中不包括的块对的权重值高的权重值。
10.根据权利要求9所述的图像处理装置,其中,
各个块对的位置,由文档图像的竖直方向的坐标来指定,并且依据坐标而设置不同的权重值。
11.根据权利要求1所述的图像处理装置,所述图像处理装置还包括:
登记单元,其被构造为将输入文档图像登记为所述多个文档图像。
12.根据权利要求1所述的图像处理装置,其中,
所述多个文档图像被预先登记为包括关于各个文档图像内的文本块的位置信息的图像数据,并且
计算单元通过使用预先登记的、关于文本块的位置信息,来计算所述多个文档图像的所述临时相似度。
13.根据权利要求1所述的图像处理装置,其中,在不使用所述输入文档图像的所述多个不同范围中的各个范围包括的提取的至少一个块中描述的字符串的内容的情况下,计算所述临时相似度。
14.一种图像处理方法,所述图像处理方法包括以下步骤:
通过对输入文档图像进行区域分割处理,来提取具有预定属性的至少一个块;
针对输入文档图像和多个文档图像中的各个文档图像来计算多个不同范围的临时相似度;
基于所计算的临时相似度来确定输入文档图像与多个文档图像中的各个文档图像之间的相似度,其中,基于作为所述输入文档图像和所述多个文档图像中的各个文档图像中的计算目标的所述多个不同范围中的各个范围中包括的提取的至少一个块的形状和布置,来计算所述临时相似度中的各个相似度;以及
将所确定的相似度是所述多个文档图像中最高的文档图像确定为,与输入文档图像匹配的文档图像。
15.一种非暂时性计算机可读存储介质,其存储用于使计算机进行包括以下步骤的方法的程序:
通过对输入文档图像进行区域分割处理,来提取具有预定属性的至少一个块;
针对输入文档图像和多个文档图像中的各个文档图像来计算多个不同范围的临时相似度;
基于所计算的临时相似度来确定输入文档图像与多个文档图像中的各个文档图像之间的相似度,其中,基于作为所述输入文档图像和所述多个文档图像中的各个文档图像中的计算目标的所述多个不同范围的各个范围中包括的提取的至少一个块的形状和布置,来计算所述临时相似度中的各个相似度;以及
将所确定的相似度是所述多个文档图像中最高的文档图像确定为,与输入文档图像匹配的文档图像。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017181695A JP7013182B2 (ja) | 2017-09-21 | 2017-09-21 | 情報処理装置、情報処理方法およびプログラム |
JP2017-181695 | 2017-09-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543501A CN109543501A (zh) | 2019-03-29 |
CN109543501B true CN109543501B (zh) | 2023-07-04 |
Family
ID=65719329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811107931.6A Active CN109543501B (zh) | 2017-09-21 | 2018-09-21 | 图像处理装置、图像处理方法和存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10817559B2 (zh) |
JP (1) | JP7013182B2 (zh) |
KR (1) | KR102403964B1 (zh) |
CN (1) | CN109543501B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7013182B2 (ja) * | 2017-09-21 | 2022-01-31 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
JP2021027556A (ja) | 2019-08-08 | 2021-02-22 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7486954B2 (ja) * | 2020-01-08 | 2024-05-20 | Tis株式会社 | 帳票処理プログラム、帳票処理装置及び帳票処理方法 |
JP7391672B2 (ja) * | 2020-01-21 | 2023-12-05 | キヤノン株式会社 | 文書を電子化するための画像処理システム、その制御方法及びプログラム |
JP7516170B2 (ja) | 2020-03-12 | 2024-07-16 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
US20210286991A1 (en) * | 2020-03-12 | 2021-09-16 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and storage medium |
KR102284781B1 (ko) * | 2020-05-19 | 2021-08-02 | (주)가온아이 | 문서의 스캔 이미지에 대한 보정이 가능한 전자 장치 및 그 동작 방법 |
CN112783840B (zh) * | 2020-06-08 | 2024-06-25 | 北京金山办公软件股份有限公司 | 一种存储文档的方法、装置、电子设备及存储介质 |
CN112000834B (zh) * | 2020-08-26 | 2024-08-09 | 北京百度网讯科技有限公司 | 文档处理方法、装置、系统、电子设备及存储介质 |
CN112052835B (zh) * | 2020-09-29 | 2022-10-11 | 北京百度网讯科技有限公司 | 信息处理方法、信息处理装置、电子设备和存储介质 |
JP2022100071A (ja) | 2020-12-23 | 2022-07-05 | キヤノン株式会社 | 画像処理装置、画像処理システム、その制御方法及びプログラム |
JP2022101136A (ja) * | 2020-12-24 | 2022-07-06 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN113095316B (zh) * | 2021-04-15 | 2023-04-07 | 西安电子科技大学 | 基于多级融合和角点偏移的图像旋转目标检测方法 |
JP2022170175A (ja) * | 2021-04-28 | 2022-11-10 | キヤノン株式会社 | 情報処理装置、情報処理方法、及びプログラム |
KR102394483B1 (ko) * | 2021-09-02 | 2022-05-04 | (주)가온아이 | 전자 문서에 오류가 있는지 여부를 판단하는 오류 판단 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426884A (zh) * | 2015-11-10 | 2016-03-23 | 佛山科学技术学院 | 一种基于全幅特征提取的快速文档类型识别方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322512A (ja) * | 1999-05-13 | 2000-11-24 | Canon Inc | 帳票処理装置及び帳票処理方法 |
JP4140221B2 (ja) * | 2001-09-18 | 2008-08-27 | 富士ゼロックス株式会社 | 画像照合装置および画像照合プログラム |
JP2004334337A (ja) | 2003-04-30 | 2004-11-25 | Canon Inc | 画像処理装置 |
JP2004348706A (ja) | 2003-04-30 | 2004-12-09 | Canon Inc | 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム |
JP4366119B2 (ja) * | 2003-05-29 | 2009-11-18 | キヤノン株式会社 | 文書処理装置 |
JP4328692B2 (ja) * | 2004-08-11 | 2009-09-09 | 国立大学法人東京工業大学 | 物体検出装置 |
JP2007172077A (ja) | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
JP4859025B2 (ja) * | 2005-12-16 | 2012-01-18 | 株式会社リコー | 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体 |
US7639893B2 (en) * | 2006-05-17 | 2009-12-29 | Xerox Corporation | Histogram adjustment for high dynamic range image mapping |
JP2008181460A (ja) * | 2007-01-26 | 2008-08-07 | Ricoh Co Ltd | 文書画像検索装置および文書画像検索方法 |
JP4420085B2 (ja) * | 2007-08-20 | 2010-02-24 | ソニー株式会社 | データ処理装置、データ処理方法、プログラムおよび記録媒体 |
JP5006764B2 (ja) * | 2007-11-08 | 2012-08-22 | キヤノン株式会社 | 画像処理装置、画像処理方法、プログラム、および記憶媒体 |
JP5111268B2 (ja) | 2008-07-09 | 2013-01-09 | キヤノン株式会社 | 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体 |
JPWO2010122721A1 (ja) * | 2009-04-22 | 2012-10-25 | 日本電気株式会社 | 照合装置、照合方法および照合プログラム |
JP4934701B2 (ja) * | 2009-06-30 | 2012-05-16 | 株式会社日立製作所 | ステレオ画像処理装置およびステレオ画像処理方法 |
JP4940270B2 (ja) | 2009-07-06 | 2012-05-30 | シャープ株式会社 | 画像形成装置 |
JP2011141664A (ja) * | 2010-01-06 | 2011-07-21 | Canon Inc | 文書比較装置、文書比較方法、及びプログラム |
US8582890B2 (en) * | 2010-10-15 | 2013-11-12 | DigitalOptics Corporation Europe Limited | Image sharpening via gradient environment detection |
JP6511986B2 (ja) * | 2015-06-26 | 2019-05-15 | 富士通株式会社 | プログラム生成装置、プログラム生成方法および生成プログラム |
WO2017009900A1 (ja) | 2015-07-10 | 2017-01-19 | 株式会社日立製作所 | 文書処理システム及び文書処理方法 |
DE112016002782T5 (de) * | 2016-08-24 | 2018-07-05 | Google LLC (n.d.Ges.d. Staates Delaware) | Änderungserkennungsbasiertes System zur Aktualisierung von Kartenschnittstellen |
JP7013182B2 (ja) * | 2017-09-21 | 2022-01-31 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2017
- 2017-09-21 JP JP2017181695A patent/JP7013182B2/ja active Active
-
2018
- 2018-09-05 US US16/122,624 patent/US10817559B2/en active Active
- 2018-09-20 KR KR1020180112578A patent/KR102403964B1/ko active IP Right Grant
- 2018-09-21 CN CN201811107931.6A patent/CN109543501B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426884A (zh) * | 2015-11-10 | 2016-03-23 | 佛山科学技术学院 | 一种基于全幅特征提取的快速文档类型识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109543501A (zh) | 2019-03-29 |
KR102403964B1 (ko) | 2022-06-02 |
US20190087444A1 (en) | 2019-03-21 |
US10817559B2 (en) | 2020-10-27 |
JP2019057173A (ja) | 2019-04-11 |
JP7013182B2 (ja) | 2022-01-31 |
KR20190033451A (ko) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543501B (zh) | 图像处理装置、图像处理方法和存储介质 | |
US20240236245A1 (en) | Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium | |
US7593961B2 (en) | Information processing apparatus for retrieving image data similar to an entered image | |
JP5059545B2 (ja) | 画像処理装置及び画像処理方法 | |
JP4533273B2 (ja) | 画像処理装置及び画像処理方法、プログラム | |
US20040218838A1 (en) | Image processing apparatus and method therefor | |
US10142499B2 (en) | Document distribution system, document distribution apparatus, information processing method, and storage medium | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US20210286991A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US11907651B2 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20130050765A1 (en) | Method and apparatus for document authentication using image comparison on a block-by-block basis | |
JP2018042067A (ja) | 画像処理システム、画像処理方法、情報処理装置 | |
JP3733310B2 (ja) | 文書書式識別装置および識別方法 | |
JP2007041709A (ja) | 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP6700705B2 (ja) | 振り分けシステム、情報処理方法、及びプログラム | |
JP6757203B2 (ja) | 画像検出装置とその制御方法、及びプログラム | |
JP2001034763A (ja) | 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法 | |
JP7516170B2 (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2009140478A (ja) | 画像処理装置及び画像処理方法 | |
JP2002170079A (ja) | 文書書式識別装置および識別方法 | |
JP2020047138A (ja) | 情報処理装置 | |
JPH05128307A (ja) | 文字認識装置 | |
JP2008123446A (ja) | ログ情報管理システム、ログ情報管理装置、ログ情報管理方法及びログ情報管理プログラム | |
JP2004030340A (ja) | 帳票識別装置及びその識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |