KR102403964B1 - 화상 처리 장치, 화상 처리 방법, 및 저장 매체 - Google Patents

화상 처리 장치, 화상 처리 방법, 및 저장 매체 Download PDF

Info

Publication number
KR102403964B1
KR102403964B1 KR1020180112578A KR20180112578A KR102403964B1 KR 102403964 B1 KR102403964 B1 KR 102403964B1 KR 1020180112578 A KR1020180112578 A KR 1020180112578A KR 20180112578 A KR20180112578 A KR 20180112578A KR 102403964 B1 KR102403964 B1 KR 102403964B1
Authority
KR
South Korea
Prior art keywords
similarity
image
blocks
document image
document
Prior art date
Application number
KR1020180112578A
Other languages
English (en)
Other versions
KR20190033451A (ko
Inventor
준야 아라카와
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20190033451A publication Critical patent/KR20190033451A/ko
Application granted granted Critical
Publication of KR102403964B1 publication Critical patent/KR102403964B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00355Mark-sheet input
    • H04N1/00376Means for identifying a mark sheet or area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
    • H04N1/00005Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for relating to image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00912Arrangements for controlling a still picture apparatus or components thereof not otherwise provided for
    • H04N1/00938Software related arrangements, e.g. loading applications
    • H04N1/00949Combining applications, e.g. to create workflows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/407Control or modification of tonal gradation or of extreme levels, e.g. background level
    • H04N1/4072Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/407Control or modification of tonal gradation or of extreme levels, e.g. background level
    • H04N1/4072Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original
    • H04N1/4074Control or modification of tonal gradation or of extreme levels, e.g. background level dependent on the contents of the original using histograms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)

Abstract

스캔 화상에 관한 문서의 종류와 동일 종류의 문서를 고정밀도로 그리고 간단하게 검색할 수 있게 한다. 화상 처리 장치는, 입력 문서 화상과 복수의 문서 화상에서 유사도의 산출 대상인 특정 영역을 포함하는 각각의 범위를 변경하면서 유사도의 산출을 반복적으로 행함으로써 입력 문서 화상과 복수의 문서 화상 각각 사이의 유사도를 산출하도록 구성되는 산출 유닛; 및 복수의 문서 화상 중 산출된 유사도가 장 높은 문서 화상을 입력 문서 화상과 일치하는 문서 화상으로서 결정하도록 구성되는 결정 유닛을 포함한다.

Description

화상 처리 장치, 화상 처리 방법, 및 저장 매체{IMAGE PROCESSING APPARATUS, IMAGE PROCESSING METHOD, AND STORAGE MEDIUM}
본 발명은 문서 화상의 검색 기술에 관한 것이다.
종래, 견적서 및 주문서와 같은 비지니스 폼 등의 종이 문서를 화상 판독 장치에서 스캔해서 종이 문서의 디지털 데이터를 생성함으로써 화상 데이터에 의해 문서 관리 등을 행하는 업무 흐름이 존재한다. 일반적으로, 비지니스 폼 같은 문서를 스캔해서 얻은 화상(스캔 화상)의 데이터는 비지니스 폼 등의 종류 및 내용에 따른 파일명 및 메타 정보가 붙은 상태로 소정의 폴더에 저장된다. 여기서, 파일명 및 메타 정보를 수동으로 작성하고, 저장처(송신처)인 폴더를 지정하며, 새로운 폴더를 생성하는 것은 유저의 시간 및 노력을 필요로 한다. 특히, MFP 등에서, 터치 패널 상에 표시된 소프트웨어 키보드에 의해 이와 같은 입력 작업을 행하는 경우에는, 부하가 커진다. 이와 같은 문제에 대하여는, 유저의 입력 작업의 부하를 경감하기 위한 스캔 어시스트라고 분리는 기술이 존재한다. 이 스캔 어시스트를 개시하는 것으로서는, 예를 들어 일본 특허 공개 공보 제2011-15348호가 있다. 일본 특허 공개 공보 제2011-15348호에서는, 먼저, 미리 문서의 종류와, 파일명 설정, 메타 정보 설정, 및 저장처 설정과 같은 각종 설정을 위한 룰을 서로 연관지어 등록해 둔다. 그리고, 대상 문서가 스캔되는 경우, 그 스캔 화상으로부터 그 문서의 종류를 특정하고, 미리 여러 종류의 문서와 연관지어서 등록해 둔 설정 룰을 이용해서 작성한 문자열 정보를 파일명, 메타 정보 또는 저장처의 후보로서 유저에게 권장한다.
상술한 일본 특허 공개 공보 제2011-15348호의 방법에서는, 비지니스 폼 등의 스캔 화상이, 미리 등록된 복수 종류의 문서 화상(등록 화상) 중 어느 것과 유사한지를 특정할 필요가 있다. 이 점에 관하여, 예를 들어 스캔 화상과 등록 화상 사이의 유사도를 구하고, 유사도에 기초해서 문서 화상을 특정하는 방법이 있다. 이 경우에, 스캔 화상과 문서 화상의 양자가 "동일"한 문서 화상인지를 판정하는 조건에서는, 화상 전체의 유사도를 구하여 비교하면 충분하다. 그러나, 양자가 "동일 종류"의 문서 화상인지를 판정하기 위해서는, 판단의 기초가 되는 문서가 갖는 특징에 주목해서 유사도를 구할 필요가 있다. 여기서, "동일 종류"란, 문서 내의 문자열의 내용은 상이하지만, 문서의 주요 구조가 일치하는 것을 의미한다. 주요 구조란, 예를 들어 문서의 상부에 기재된 문서 타이틀, 항목 등의 기본적인 레이아웃을 지칭하고, 주요 구조가 일치하는 경우에는 세부사항이 일치하지 않아도 문서를 동일 종류의 문서인 것으로 간주할 수 있다. 이 점에 관해서, 예를 들어 일본 특허 공개 공보 제2004-348706호는, 문서의 일부에 차이가 있을 수 있는 것을 고려한 오리지날 전자 문서의 검색 기술, 구체적으로는, 스캔 화상 내의 각각의 분할된 영역마다 등록 화상과의 유사도를 구하고, 얻어진 유사도에 가중치 부여를 행해서 검색하는 방법을 개시하고 있다.
거의 모든 경우에, 동일 종류인 것으로 간주될 수 있는 문서는 동일한 포맷으로 작성된다. 결과적으로, 동일 종류의 문서에 대해서, 스캔 화상의 파일명 등을 생성하는 경우에, 유저는 공통 룰을 적용할 가능성이 높다. 그러나, 문서가 동일 종류의 문서인지를 판정하는 경우에, 통상적으로 문서의 어디를 중시할 것인지는 문서의 종류마다 상이하며, 또한 오리지날 포맷이 동일해도 각 요소의 구체적인 배치가 상이한 것도 드물지 않다. 이러한 상황에서, 상술한 일본 특허 공개 공보 제2004-348706호의 기술은 이러한 경우에 충분히 대응할 수 없다. 또한, 유사도 판정의 대상 부분을, 문서 내의 일부 영역에 미리 고정해 두는 것도 곤란하고, 유저가 하나씩 지정하도록 하는 경우에는, 많은 비지니스 폼 등을 처리할 때에 많은 시간과 노력이 요구되며, 따라서 유저의 부하가 크다.
결과적으로, 본 발명의 목적은, 스캔 화상에 관한 문서와 동일 종류의 문서를 고정밀도로 그리고 간단하게 검색할 수 있게 하는 것이다.
본 발명에 따른 화상 처리 장치는, 프로세서; 및 컴퓨터 실행가능 프로그램을 저장하는 메모리를 포함하는 화상 처리 장치이며, 상기 프로세서는, 컴퓨터 실행가능 프로그램이, 입력 문서 화상과 복수의 문서 화상에서 유사도의 산출 대상인 특정 영역을 포함하는 각각의 범위를 변경하면서 유사도의 산출을 반복적으로 행함으로써 입력 문서 화상과 복수의 문서 화상 각각 사이의 유사도를 산출하는 산출 단계; 및 복수의 문서 화상 중 산출된 유사도가 가장 높은 문서 화상을 입력 문서 화상에 매칭되는 문서 화상으로서 결정하는 결정 단계를 실행하게 한다.
본 발명의 추가적인 특징은 첨부된 도면을 참고한 예시적인 실시형태에 대한 이하의 설명으로부터 명확해질 것이다.
도 1은 MFP의 하드웨어 구성도이다.
도 2는 스캔 어시스트 처리의 흐름을 도시하는 흐름도이다.
도 3a 및 도 3b는 영역 분할 처리의 결과의 일례를 도시하는 도면이다.
도 4a 내지 도 4f는 매칭 처리의 개요를 설명하는 도면이다.
도 5는 스캔 어시스트 정보를 제시하는 UI 화면의 일례를 도시하는 도면이다.
도 6a 내지 도 6c는 유사한 문서 화상의 사고 방식을 설명하는 도면이다.
도 7은 매칭 처리의 흐름을 도시하는 흐름도이다.
도 8은 시프트량 추정 처리의 흐름을 도시하는 흐름도이다.
도 9는 한 쌍의 블록의 결정 방법을 설명하는 도면이다.
도 10은 한 쌍의 블록의 중복 상태에 따라서 가중치를 설정할 때의 테이블의 일례를 도시하는 도면이다.
도 11은 한 쌍의 블록의 위치에 따라서 가중치를 설정할 때의 테이블의 일례를 도시하는 도면이다.
도 12a 및 도 12b는 시프트량의 히스토그램의 일례를 각각 도시하는 도면이다.
도 13은 유사도 추정 처리의 흐름을 도시하는 흐름도이다.
도 14는 제1 실시형태에 따른 개별 유사도를 구하는 처리의 흐름을 도시하는 흐름도이다.
도 15a 및 도 15b는 중복 면적의 설명도이다.
도 16a 및 도 16b는 임시 유사도의 산출 범위가 순차적으로 변화하는 모습을 도시하는 도면이다.
도 17a 및 도 17b는 임시 유사도의 산출 범위의 변화의 영향을 설명하는 도면이다.
도 18a 내지 도 18c는 유사도의 보정을 설명하는 도면이다.
도 19는 제2 실시형태에 따른 개별 유사도를 구하는 처리의 흐름을 도시하는 흐름도이다.
도 20a 및 도 20b는 등록 화상에 관련지어서 등록되는 소정의 영역의 구체예를 도시하는 도면이다.
이하, 첨부된 도면을 참고하여, 본 발명을 바람직한 실시형태에 따라 상세하게 설명한다. 이하의 실시형태에 도시된 구성은 예시일뿐이며, 본 발명은 개략적으로 도시된 구성으로 한정되는 것은 아니다.
[제1 실시형태]
도 1은 본 실시형태에 따른 화상 처리 장치로서의 MFP(100)의 하드웨어 구성도이다. MFP(100)는, 제어 유닛(110), 조작 유닛(120), 프린터 유닛(121), 스캐너 유닛(122), 및 모뎀(123)을 포함한다. 제어 유닛(110)은, 이하의 각 유닛(111 내지 119)을 포함하며, MFP(100) 전체의 동작을 제어한다. CPU(111)는, ROM(112)에 저장된 제어 프로그램을 판독하고, 스캔 어시스트를 포함하는 각종 기능을 실행 및 제어한다. RAM(113)은, CPU(111)의 주메모리 및 워크 에어리어 등의 일시 저장 영역으로서 사용된다. 본 실시형태에서는, 1개의 CPU(111)가 1개의 메모리(RAM(113) 또는 HDD(114))를 사용해서 후술하는 흐름도에 나타내는 각 처리를 실행하지만, 이는 한정되지 않는다. 예를 들어, 복수의 CPU나 복수의 RAM 또는 HDD를 서로 협동시켜서 각 처리를 실행하게 해도 된다. HDD(114)는, 화상 데이터 및 각종 프로그램을 저장하도록 구성되는 대용량 저장 유닛이다. 조작 유닛 I/F(115)는, 조작 유닛(120)과 제어 유닛(110)을 접속하는 인터페이스이다. 조작 유닛(120)은, 터치 패널, 키보드 등을 포함하며, 유저에 의한 조작, 입력, 및 지시를 접수한다. 프린터 I/F(116)는, 프린터 유닛(121)과 제어 유닛(110)을 접속하는 인터페이스이다. 인쇄용의 화상 데이터는 프린터 I/F(116)를 통해서 제어 유닛(110)으로부터 프린터 유닛(121)에 전송되며, 종이 등의 기록 매체 위에 인쇄된다. 스캐너 I/F(117)는, 스캐너 유닛(122)과 제어 유닛(110)을 접속하는 인터페이스이다. 스캐너 유닛(122)은, 개략적으로 도시하지 않은 원고대나 ADF(Auto Document Feeder)에 세트된 비지니스 폼 같은 문서를 스캔하고, 문서 화상을 생성하며, 문서 화상을 스캐너 I/F(117)를 통해서 제어 유닛(110)에 입력한다. MFP(100)는, 스캐너 유닛(122)에서 생성된 문서 화상의 데이터를 프린터 유닛(121)으로부터 인쇄 및 출력(카피)하는 것 외에, 파일 송신 또는 메일 송신을 행할 수 있다. 모뎀 I/F(118)은, 모뎀(123)과 제어 유닛(110)을 접속하는 인터페이스이다. 모뎀(123)은, PSTN 상의 팩시밀리 장치와의 사이에서 문서 화상의 데이터의 팩시밀리 통신을 행한다. 네트워크 I/F(119)는, 제어 유닛(110)(MFP(100))을 LAN에 접속하는 인터페이스이다. MFP(100)는, 네트워크 I/F(119)를 사용해서 LAN 상의 파일 서버(130)에 문서 화상의 데이터를 송신하고, 각종 정보를 수신하는 등을 행한다. 이상 설명한 화상 처리 장치로서의 MFP(100)의 하드웨어 구성은 일례이며, MFP(100)는 필요에 따라서 다른 구성을 포함하거나 일부의 구성을 포함하지 않아도 된다.
(스캔 어시스트 기능)
MFP(100)가 갖는 스캔 어시스트 기능에 대해서 설명한다. 제어 유닛(110)은, 스캐너 유닛(122)에 의해 판독된 문서 화상의 데이터를 RAM(113)에 전개해서 데이터를 해석하고, 스캔 어시스트로서 유저에게 권장되는 정보, 즉 문서 화상의 파일명이나 폴더 경로의 후보인 문자열 정보를 생성한다. 문서 화상의 해석은 3개의 처리를 포함한다. 제1 처리는 문서 화상 내에서 하나의 연속적인 문자열로서 추정 및 인식되는 덩어리를 추출하는 텍스트 블록 추출 처리이다. 제2 처리는 추출된 텍스트 블록으로부터 문자열 정보를 추출하는 광학 문자 인식 처리(이하, OCR 처리)이다. 제3 처리는, 등록된 문서 화상과 새롭게 스캔된 문서 화상 사이의 유사도를 구하는 매칭 처리이다.
제어 유닛(110)은, 스캔 어시스트를 위한 UI 화면을 생성하고, UI 화면을 조작 유닛(120)의 터치 패널(110) 상에 표시한다. 그리고, 제어 유닛(110)은, UI 화면을 통해서 입력된 유저 지시에 기초한 상술한 해석 처리, 해석 결과에 기초하는 문서 화상 데이터의 송신 처리 등을 행한다.
이어서, 계속해서, MFP(100)에서의 스캔 어시스트 기능의 동작 제어에 대해서 설명한다. 도 2는 스캔 어시스트 처리에서의 제어의 흐름을 나타내는 흐름도이다. 이 일련의 처리는, 제어 유닛(110)에서, CPU(111)가 HDD(114)에 저장된 제어 프로그램을 실행함으로써 실현된다. 이하, 상세하게 설명한다.
조작 유닛(120)을 통해서 문서를 스캔하는 유저 지시가 접수되는 경우, 단계 201에서는, 스캐너 유닛(122)이 문서의 스캔을 행하고 문서 화상을 생성한다. 이렇게 해서 생성된 문서 화상은, 입력 문서 화상으로서, 후술하는 매칭 처리에서, 데이터베이스에 등록된 문서 화상 군과 비교된다. 이 후, 본 단계에서 생성되는 검색 대상 입력 문서 화상을 "쿼리 화상"이라 칭하고, 데이터베이스에 등록된 문서 화상을 "등록 화상"이라 칭한다.
계속되는 단계 202에서는, 생성된 쿼리 화상에 대하여 상술한 텍스트 블록 추출 처리(영역 분할 처리)를 행한다. 구체적으로는, 먼저, 화상 신호의 2치화, 스캔시에 어긋난 화상의 기울기 수정, 및 화상이 바로 서는 방향으로의 회전 등의 전처리를 행하고, 상태는 텍스트 블록 추출 처리를 행하기 쉬운 상태로 보정된다. 그리고, 보정된 쿼리 화상에 대하여 에지 추출 등을 행함으로써, 쿼리 화상을 오브젝트 단위의 블록으로 분할하고, 블록으로부터 텍스트 속성의 블록을 특정한다. 더 상세하게는, 이하와 같이 해서 텍스트 속성을 갖는 블록이 특정된다.
먼저, 흑색 및 백색으로 2치화된 쿼리 화상에 대하여 윤곽선 추적을 행함으로써, 흑색 화소 윤곽으로 둘러싸이는 화소의 덩어리를 추출한다. 그리고, 면적이 소정의 면적보다 큰 흑색 화소의 덩어리에 대해서는, 그 내부에 위치되는 백색 화소에 대해서도 윤곽선 추적을 행하고, 백색 화소의 덩어리를 추출하고, 또한 면적이 소정의 면적 이상인 백색 화소의 덩어리의 내부로부터 재귀적으로 흑색 화소의 덩어리를 추출한다. 이렇게 해서 얻어진 흑색 화소의 덩어리는 크기 및 형상에 따라 분류되고, 상이한 속성을 갖는 영역으로 분류된다. 예를 들어, 종횡비가 1에 가깝고, 크기가 소정의 범위 내인 덩어리를 문자에 대응하는 화소의 덩어리로 한다. 또한, 서로 인접하는 문자가 정렬 상태로 그룹화될 수 있는 부분을 문자 영역(TEXT)으로 한다. 편평한 화소 덩어리를 선 영역(LINE)으로 한다. 크기가 소정의 크기 이상인 백색 화소의 직사각형 덩어리를 정렬 상태로 포함하는 흑색 화소의 덩어리가 차지하는 범위를 표 영역(TABLE)으로 한다. 부정형의 화소 덩어리가 산재해 있는 영역을 사진 영역(PHOTO)으로 한다. 그리고, 상술한 것 이외의 임의의 형상의 화소 덩어리를 그림 영역(PICTURE)으로 한다. 각각의 오브젝트 속성마다 영역으로 분할된 것 중, 문자 속성을 갖는 것으로 판정된 블록이 텍스트 블록으로서 특정된다. 도 3a 및 도 3b는 영역 분할 처리의 결과의 일례를 도시하는 도면이다. 도 3a는 쿼리 화상을 도시하며, 도 3b는 당해 쿼리 화상을 오브젝트 단위의 블록으로 분할한 결과를 나타낸다. 쿼리 화상은 상술한 5 종류의 블록: TEXT, PICTURE, PHOTO, LINE, 및 TABLE으로 분할된다. 이 단계에서 얻어진 각각의 텍스트 블록에 대한 정보(각 블록의 속성 및 위치를 나타내는 정보)는 후술하는 OCR 처리, 유사도 계산 등에서 사용된다. 본 단계에서 텍스트 블록만이 추출되는 이유는, 문자열의 위치가 문서 화상의 구조를 잘 표현하고 스캔 어시스트 정보와 밀접하게 관련되기 때문이다. 결과적으로, 사진 영역이나 표 영역 등의 다른 속성을 갖는 것으로 판정된 블록에 대한 정보를 후속 처리에서 이용하는 것이 배제되지 않는다.
이어서, 단계 203에서는, 등록 화상 데이터베이스로서의 HDD(114)(이하, 등록 화상 DB)에 저장된 복수의 등록 화상 중에서 쿼리 화상과 가장 유사한 등록 화상을 결정하는 매칭 처리가 실행된다. 등록 화상 DB에는, 후술하는 단계 210에서의 추가 또는 갱신 처리에 의해 등록된 과거에 처리된 문서 화상이 등록되어 있다. 여기서, 매칭 처리의 개요에 대해서 도 4a 내지 도 4f를 참조하여 설명한다. 도 4a는 쿼리 화상을 나타내고, 도 4b 및 도 4c는 서로 상이한 등록 화상(등록 화상_1 및 등록 화상_2)을 나타낸다. 여기서, 쿼리 화상은, 등록 화상_1과 문자열의 내용 및 배치가 일치하는 부분이 많지만, 등록 화상_2와는 문자열의 내용 및 배치가 일치하는 부분이 적다. 즉, 쿼리 화상과 등록 화상_1 사이의 유사도는 쿼리 화상과 등록 화상_2 사이의 유사도보다 높다. 그 때문에, 도 4a 내지 도 4f의 예에서는, 도 4b의 등록 화상_1이 쿼리 화상과 일치하는(유사도가 높은) 등록 화상으로서 선택된다.
여기서, 텍스트 블록을 사용한 유사도 추정의 개요에 대해서도 설명한다. 도 4d에서, 도 4a의 쿼리 화상으로부터 추출된 텍스트 블록은 점선 직사각형으로 나타낸다. 점선 직사각형은 각각의 텍스트 블록을 나타내고, 직사각형 내의 3자리 숫자는 각각의 텍스트 블록을 고유하게 식별하는 번호이다. 마찬가지로, 도 4e에서, 도 4b의 등록 화상_1로부터 추출된 텍스트 블록은 점선 직사각형으로 나타내며, 도 4f에서, 도 4c의 등록 화상_2로부터 추출된 텍스트 블록은 마찬가지로 점선 직사각형으로 나타낸다. 텍스트 블록을 사용한 유사도의 추정은 텍스트 블록의 형상과 배치가 얼마나 유사한지에 착안해서 행해진다. 여기서, 쿼리 화상에서의 텍스트 블록의 형상 및 배치와 등록 화상_1에서의 텍스트 블록의 형상 및 배치 사이를 비교하면 서로 일치하는 텍스트 블록이 많다. 즉, 쿼리 화상의 000, 001, 002, 및 003의 형상 및 배치는 등록 화상_1의 004, 003, 000, 및 001의 형상 및 배치와 동일하다. 이에 대해, 등록 화상_2의 경우에는, 형상 및 배치가 서로 약간 유사한 일부의 텍스트 블록이 존재하지만, 형상 및 배치가 서로 일치하는 텍스트 블록은 존재하지 않는다. 이와 같이, 텍스트 블록의 형상 및 배치에 착안해서 유사도가 구해진다. 텍스트 블록을 사용한 유사도 추정 처리의 상세에 대해서는 후술한다. 매칭 처리의 결과에는, 등록 화상을 식별하는 ID 정보, 쿼리 화상의 형상 및 배치와 텍스트 블록의 형상 및 배치의 일치도가 높은 등록 화상에서의 유사도, 등록 화상에서의 설정 룰, 쿼리 화상과의 대응 정보 등이 포함된다. 전술한 바와 같이, 설정 룰은, 문서 화상 내의 어디(예를 들어 x 좌표와 y 좌표에 의해 특정된)에 있는 문자열을 무엇(예를 들어, 파일명이나 폴더 경로)에 이용할지를 특정하는 정보이다. 쿼리 화상과의 대응 정보는, 등록 화상에서 파일명 등의 작성 등에 실제로 사용된 텍스트 블록이 쿼리 화상의 어느 텍스트 블록에 대응하는지를 나타내는 정보이다. 상술한 도 4a 및 도 4b의 예를 사용하여 설명한다. 여기서, 등록 화상_1에서, 문자열 "청구서"에 대응하는 텍스트 블록(004)과 문자열 "ID9631"에 대응하는 텍스트 블록(003)이 파일명의 작성에 이용된 텍스트 블록인 것으로 한다. 이 경우, 004의 텍스트 블록에는, 쿼리 화상에서의 문자열 "청구서"의 텍스트 블록(000)이 대응한다. 이렇게 대응 관계에 있는 2개의 블록을 연관시키는 정보가 1개의 대응 정보이다. 마찬가지로, 003의 텍스트 블록에는, 문자열 "ID9400"의 텍스트 블록(001)이 대응하므로, 양 블록을 연관시키는 정보도 1개의 대응 정보이다. 도 2의 플로우 설명으로 되돌아간다.
단계 204에서는, 매칭 처리에 성공했는지 여부가 판정된다. 구체적으로는, 매칭 처리에 의해 얻어진 가장 높은 유사도가 소정의 임계치를 초과하는지를 판정하는 임계치 처리를 행하고, 가장 높은 유사도가 임계치보다 큰 경우에는 매칭 처리에 성공했는지가 판단된다. 판정의 결과가 매칭 처리에 성공했다(가장 높은 유사도가 소정의 임계치보다 크다)고 나타내는 경우에는, 처리는 단계 205로 진행한다. 한편, 매칭 처리에 실패한(가장 높은 유사도가 소정의 임계치 이하) 경우에는, 처리는 단계 207로 진행한다.
단계 205에서는, 단계 203에서 얻어진 매칭 처리 결과에 기초하여, 스캔 어시스트 정보가 생성되어, UI 화면 상에 표시된다. 상세하게는, 먼저, 매칭 처리 결과에 포함되는 쿼리 화상과의 대응 정보를 사용하여, 매칭된 등록 화상에서 실제로 이용된 문자열의 텍스트 블록에 대응하는, 쿼리 화상 내의 특정 텍스트 블록만을 대상으로 하여 OCR 처리를 행한다. 그리고, 매칭 처리 결과에 포함되는 설정 룰에 따라, OCR 처리에 의해 얻어진 결과(문자열 정보)를 스캔 어시스트 정보로서 쿼리 화상과 함께 터치 패널에 표시한다. 예를 들어, 매칭된 등록 화상에서 OCR 처리 결과를 파일명의 작성에 사용하는 경우에는, 쿼리 화상에 대한 OCR 처리에 의해 얻은 문자열 정보를 사용해서 작성한 파일명을 당해 쿼리 화상에 관한 스캔 어시스트 정보로서 표시한다. 또한, 매칭된 등록 화상에서 OCR 처리 결과를 폴더 경로의 작성에 사용하는 경우에는, 쿼리 화상에 대한 OCR 처리에 의해 얻은 문자열 정보를 사용해서 작성한 폴더 경로를 당해 쿼리 화상에 관한 스캔 어시스트 정보로서 표시한다. 대응 정보에 기초하는 특정 텍스트 블록만을 OCR 처리의 대상으로 함으로써, 쿼리 화상 내의 모든 텍스트 블록에 대하여 OCR 처리를 행하는 경우보다 고속으로 처리를 행할 수 있으므로, 유저에의 응답에 걸리는 시간이 감소되고, 유용성의 향상으로 연결된다. 또한, 한정된 부분만을 대상으로 하기 때문에, 계산 리소스가 절약된다.
여기서, 스캔 어시스트 정보가 표시되는 UI 화면의 구체예를 나타낸다. 도 5는, 파일명의 후보인 문자열 정보를 스캔 어시스트 정보로서 유저에게 제시하는 UI 화면의 일례이다. UI 화면(500)에서는, 쿼리 화상(501) 내의 각각의 텍스트 블록이 회색으로 강조된다. 문자열 부분이지만 강조되지 않는 부분이 있으며, 이것은 이 부분이 텍스트 블록으로서 인식되지 않는 것을 나타낸다. 여기서, 텍스트 박스(502)에는, 매칭된 등록 화상에 기초하여 텍스트 블록(501 및 502)에 대해 OCR 처리를 행한 결과를 사용한 "주문서_주식회사 도쿄상회"의 문자열이 파일명 후보로서 표시된다. 즉, 매칭 처리 결과에 포함되는 쿼리 화상과의 대응 정보에 기초하는 2개의 텍스트 블록의 OCR 처리 결과, 즉 "주문서"와 "주식회사 도쿄상회"가 구획 문자로서의 언더라인(언더바) "_"에 의해 연결되고 파일명 후보로서 권장된다. 이 상태에서 유저가 OK 버튼(505)을 누르는 경우, 쿼리 화상(501)의 파일명으로서, 텍스트 박스(502)에 표시되어 있는 한 무리의 문자열의 내용이 결정된다. 유저가 권장된 파일명 후보를 채용하지 않을 경우에는, 텍스트 박스(502)를 누름으로써 권장된 파일명을 임의의 문자열로 편집하는 것이 가능해진다.
단계 206에서는, 단계 205에서 제시된 스캔 어시스트 정보가 그대로 채용될지가 판정된다. 도 5의 예에서는, UI 화면(500)에서 스캔 어시스트 정보가 편집되지 않고 그대로 OK 버튼(505)이 눌러지는 경우(스캔 어시스트 정보가 그대로 채용는 경우), 처리는 단계 208로 진행한다. 한편, 텍스트 박스(502)가 눌러지는 경우에는, 처리는 단계 207로 진행하고, 모드는 편집 모드로 이행한다.
단계 207에서는, 유저에 의해, 파일명 등의 직접 설정(단계 204에서 아니오의 경우) 혹은 스캔 어시스트 정보의 편집(단계 206에서 아니오의 경우)이 이루어진다. 구체적으로는, UI 화면(500)에서 유저가 지정한 텍스트 블록에 대하여 OCR 처리를 행하고, OCR 결과를 사용해서 파일명 등을 작성한다.
단계 208에서는, 제시되지 않은 스캔 어시스트 정보가 있는지가 판정된다. 제시되지 않은 스캔 어시스트 정보가 있는 경우, 처리는 단계 205로 되돌아가고 다음 스캔 어시스트 정보가 제시된다. 예를 들어, 매칭된 등록 화상에서 파일명뿐만 아니라 폴더 경로에도 OCR 처리 결과가 이용되는 경우에는, 파일명 후보의 제시에 이어, 폴더 경로 후보가 제시된다. 한편, 제시되지 않은 스캔 어시스트 정보가 없는 경우, 처리는 단계 209로 진행한다.
단계 209에서는, 후속 스캔 어시스트 처리를 위한 피드백 처리가 행해질 것인지가 판정된다. 단계 205에서 생성된 스캔 어시스트 정보가 그대로 채용되는 경우(단계 206에서 예), 피드백 처리는 불필요하다고 판단되고, 본 처리가 종료된다. 한편, 단계 207에서 유저가 파일명 등을 직접 설정하거나 생성된 스캔 어시스트 정보를 채용하지 않고 편집을 행하는 경우에는, 피드백 처리가 필요하다고 판단하고, 처리는 단계 210로 진행한다.
단계 210에서는, 피드백 처리가 실행된다. 예를 들어, 매칭된 등록 화상이 올바르지 않은 경우에는, 금회 처리한 쿼리 화상과 그 파일명 등의 작성에서 사용한 OCR 처리 결과를 서로 연관지어서, 새로운 등록 화상으로서 등록한다. 또한, 매칭된 등록 화상이 올바르지만 설정 룰이 변경된 경우에는, 변경 후의 내용을 새로운 설정 룰로 하여 매칭된 등록 화상의 내용을 갱신한다. 상술한 바와 같이 하여 등록 화상을 추가 또는 갱신함으로써, 다음번 및 이후의 스캔 어시스트 기능의 실행 시에 유저에게 제시하는 스캔 어시스트 정보의 정밀도를 향상시킬 수 있다.
이상이, 스캔 어시스트 처리에서의 제어의 내용이다.
(매칭 처리)
이어서, 본 실시형태의 특징인 매칭 처리에 대해서 상세하게 설명한다. 매칭 처리의 상세에 대해서 설명하기 전에, 본 처리에서 매칭시키고 싶은 등록 화상, 즉 쿼리 화상의 문서와 동일 종류라고 간주하고 싶은 문서에 대해서 설명한다. 본 매칭 처리는 스캔 어시스트 정보의 생성을 목적으로 한다. 그 때문에, 문서 화상 사이에서 스캔 어시스트 정보의 생성에 이용될 가능성이 높은 영역이 서로 유사할 경우에는, 문서가 동일 종류의 문서인 것으로 간주하고, 높은 유사도가 설정되는 것이 기본적인 사고 방식이다. 구체적인 문서 화상의 예에 대해서 설명한다. 도 6a 내지 도 6c 각각은, 상이한 문서를 스캔해서 얻은 문서 화상을 나타내고 있다. 여기서, 도 6a의 문서 화상(600)과 도 6b의 문서 화상(610)은 상부 3분의 1 영역(601)에서 서로 유사하다. 한편, 도 6a의 문서 화상(600) 및 도 6b의 문서 화상(610)은 도 6c의 문서 화상(620)과는 상부 3분의 1 영역(601)에서 유사하지 않다. 여기에서 말하는 유사란 문서 화상의 구조가 서로 일치하는 것을 의미하지만, 그 내부에 기재된 문자열의 내용(예를 들어, 회사명 등)이 서로 일치할 필요는 없다. 그 이유는, 문자열의 내용의 일치가 요구되는 경우 스캔 어시스트 기능의 적용 범위가 극도로 한정되며, 문서 화상의 구조가 서로 일치하는 경우 문서 내에 기재된 문자열이 상이해도 동일한 설정 룰이 적용될 가능성이 높다고 생각되기 때문이다. 도 6a 내지 도 6c에서, 상부 3분의 1 영역(601)에, 회사명 및 문서 타이틀 등의 스캔 어시스트 정보의 생성에 유용한 정보가 기재되어 있다. 이러한 스캔 어시스트 정보의 생성에 유용한 정보가 기재되어 있는 부분은, 유사도의 산출에서의 가중치를 높게 설정하는 것이 요망된다. 한편, 도 6a의 문서 화상(600)과 도 6c의 문서 화상(620) 사이에서는, 하부 3분의 2 영역(602)이 서로 유사하지만, 이 부분에는 품명 및 금액과 같은 정보만이 기재되어 있고, 이 부분은 품목의 수 등에 따라 확장 또는 축소된다. 실제로, 상부 3분의 1 영역(601)에서 서로 유사한 문서 화상(600)과 문서 화상(610) 사이에서는, 하부 3분의 2 영역(602) 사이의 유사도는 높지 않다. 즉, 도 6a 내지 도 6c의 예에서는, 하부 3분의 2 영역(602)에 기재되어 있는 정보는 스캔 어시스트 정보의 생성에 유용하지 않으므로, 유사도의 산출에서 가중치를 가볍게 설정하는 것이 요망된다. 이상을 요약하면, 도 6a 내지 도 6c의 예에서는, 문서 화상(600)과 문서 화상(610) 사이에서의 유사도가 화상 전체로서 높아지고, 문서 화상(600, 610)과 문서 화상(620) 사이의 유사도가 화상 전체로서 낮아지도록, 유사도를 산출하는 것이 요망된다. 즉, 문서의 상부 사이의 유사도가 높은 경우에 문서 화상을 동일 종류의 문서 화상인 것으로 간주함으로써, 매칭 처리의 정밀도를 향상시킬 수 있다. 상술한 바와 같이, 스캔 어시스트 정보가 생성되는 것을 전제로 하는 경우, 문서 중에 중시하는 부분과 중시하지 않는 부분이 있다는 관점에서 유사도의 추정을 행하는 것이 필요하다. 또한, 견적서 등에는 다양한 포맷이 있으므로, 중시해야 할 부분은 문서의 종류에 따라 변화한다(상부 또는 하부를 중시하게 된다). 이상이 매칭 처리에서의 유사도 추정의 기본적인 사고 방식이다. 이상을 근거로, 본 실시형태에 따른 매칭 처리의 상세에 대해서 도 7에 나타내는 흐름도를 참조하면서 설명한다.
먼저, 단계 701에서는, 단계 202에서 실행된 쿼리 화상에 대한 텍스트 블록 추출 처리의 결과가 RAM(113)으로부터 취득된다. 계속되는 단계 702에서는, 추출된 텍스트 블록에 대하여 전처리가 실시된다. 구체적으로는, 문자열로서 의미 없는 짧은 문자열의 텍스트 블록을 제거하는 처리(노이즈 블록의 제거) 및 수직 방향을 따라서 위에서 아래로 텍스트 블록를 재배열하는 소트 처리가 실행된다.
전처리가 끝나면, 단계 703에서, 등록 화상 DB에 저장되어 있는 등록 화상 군으로부터 주목하는 1개의 등록 화상(주목 등록 화상)의 정보가 선택되어 판독된다. 이 정보에는, 주목 등록 화상에서의 텍스트 블록의 정보나 주목 등록 화상에 연관지어지는 스캔 어시스트에 관련한 정보(OCR 처리 결과를 무엇에 이용할지를 나타내는 정보)가 포함된다. 등록 화상 자체의 정보가 반드시 포함될 필요는 없다. 그리고, 단계 704에서는, 쿼리 화상과 주목 등록 화상 사이에서의 시프트량의 추정 처리가 행해진다. 또한, 단계 705에서는, 쿼리 화상과 주목 등록 화상 사이에서의 유사도의 추정 처리가 행해진다. 시프트량 추정 처리 및 유사도 추정 처리의 상세에 대해서는 후술한다.
단계 706에서는, 등록 화상 DB에 저장된 등록 화상 군 중에 미처리의 등록 화상이 있는지가 판정된다. 미처리의 등록 화상이 있으면, 처리는 단계 703으로 되돌아가고, 다음 주목 등록 화상을 선택해서 처리를 계속한다. 한편, 모든 등록 화상에 대해서, 쿼리 화상과의 유사도 추정 처리가 종료되면, 처리는 단계 707로 진행한다.
단계 707에서는, 유사도 추정이 이루어진 모든 등록 화상 중에서, 최대의 유사도를 갖는 등록 화상이, 쿼리 화상에 매칭될 가능성이 높은 후보 화상(이하, 매칭 후보 화상)으로서 결정된다. 계속되는 단계 708에서는, 결정된 매칭 후보 화상에 관한 전술한 설정 룰이, 등록 화상 DB로부터 취득된다.
최후에, 단계 709에서, 매칭 후보 화상에서 파일명 등의 작성에 이용된 텍스트 블록 군에 대응하는, 쿼리 화상에서의 텍스트 블록 군을 나타내는 정보(이하, 블록 대응 정보)가 생성된다. 이 블록 대응 정보의 생성은, 매칭 후보 화상의 각각의 텍스트 블록마다, 쿼리 화상의 텍스트 블록에 대하여, 후술하는 시프트량 추정 처리에서의 한 쌍의 블록의 결정(단계 802)과 동일한 처리를 행함으로써 시행할 수 있다. 그러나, 후술하는 단계 802는, 단계 802에서는 쿼리 화상의 텍스트 블록에 대응하는 등록 화상의 텍스트 블록을 찾지만, 본 단계에서는 등록 화상의 텍스트 블록에 대응하는 쿼리 화상의 텍스트 블록을 찾는 점에서, 본 단계와 상이하다. 생성된 블록 대응 정보는, 매칭 후보 화상의 설정 룰과 함께 RAM(113)에 저장된다.
이상이 매칭 처리의 내용이다.
(시프트량 추정 처리)
계속해서, 상술한 단계 704에서의 시프트량 추정 처리의 상세에 대해서 설명한다. 도 8은 시프트량 추정 처리의 흐름을 나타내는 흐름도이다. 여기에서 소개하는 시프트량 추정의 방법은 일례이며, 다른 방법을 사용해도 상관없다. 이하, 도 8의 플로우에 따라 설명한다.
먼저, 단계 801에서는, 쿼리 화상에서의 텍스트 블록과 단계 703에서 선택된 주목 등록 화상에서의 텍스트 블록에 대한 정보가 RAM(113)으로부터 취득된다. 계속되는 단계 802에서는, 쿼리 화상에서의 텍스트 블록과 주목 등록 화상에서의 텍스트 블록 사이에서 대응 관계에 있는 한 쌍의 블록이 결정된다. 여기서, 한 쌍의 블록의 결정 방법에 대해서 도 9를 사용해서 설명한다. 도 9는, 쿼리 화상에서의 텍스트 블록과 등록 화상에서의 텍스트 블록을 동일한 좌표계에 묘화했을 때의 그 일부분을 잘라내서 얻은 도면이다. 도 9에서, 실선의 직사각형(901)은 쿼리 화상의 텍스트 블록을 나타내고, 파선의 직사각형(902, 903, 904)은 쿼리 화상의 텍스트 블록(901)의 주위에 위치되는 등록 화상의 텍스트 블록 군을 나타낸다. 또한, 도 9에서, 일점 쇄선의 원(905)은, 쿼리 화상의 텍스트 블록(901)의 좌측 상단 정점을 중심으로 해서 소정의 거리를 반경으로 한 범위를 나타내고 있다. 먼저, 한 쌍의 블록을 결정하기 위해서, 그 좌측 상단 정점이 원(905) 내에 위치하는, 등록 화상의 텍스트 블록을 찾는다. 도 9의 예에서는, 텍스트 블록(902, 903)이 이에 해당하게 된다. 이어서, 쿼리 화상의 텍스트 블록(901)과 원(905) 내에 좌측 상단 정점이 위치되는 등록 화상의 텍스트 블록(902) 사이의 중복율, 및 텍스트 블록(901)과 원(905) 내에 좌측 상단 정점이 위치되는 텍스트 블록(903) 사이의 중복율을 각각 구한다. 중복율은 이하와 같이 구해진다. 먼저, 쿼리 화상의 텍스트 블록의 좌측 상단 정점과 등록 화상의 텍스트 블록의 좌측 상단 정점은 동일한 위치에 배치되며, 양쪽 텍스트 블록의 공통 부분의 면적을 먼저 산출한다. 그리고, 공통 부분의 면적을 양쪽 텍스트 블록 중 면적이 더 큰 텍스트 블록의 면적으로 나누어 구한 값을 중복율로 한다. 이렇게 해서, 쿼리 화상의 텍스트 블록과 등록 화상의 각각의 텍스트 블록의 중복율을 구하고, 중복율이 소정의 조건 이상인 텍스트 블록의 조합을 한 쌍의 블록으로 한다. 이때의 소정의 조건으로서, 예를 들어 최대 중복율에 계수(α)를 곱하여 얻은 값 이상의 값을 갖고, 소정의 임계치 이상의 중복율을 갖는 조건을 설정할 수 있다. 이 경우, 계수(α)는 최대 중복율과 가까운 중복율을 갖는 조합을 얻기 위한 계수이며, 1.0 미만의 값, 예를 들어 0.5 내지 0.8의 값이 사용된다. 또한, 소정의 임계치는 한 쌍의 블록인 것을 보증하는 최저 라인을 규정하는 값으로, 1.0 미만, 예를 들어 0.3 내지 0.7의 값이다. 상술한 처리는 쿼리 화상의 모든 텍스트 블록에 대해 행해지며, 블록 쌍의 군이 얻어진다.
단계 803에서는, 단계 802에서 결정된 블록 쌍의 군 중에서, 주목하는 하나의 블록 쌍을 선택한다. 그리고, 단계 804에서는, 주목하는 블록 쌍에 대한 가중치가 설정된다. 가중치의 설정은, 주목하는 블록 쌍의 중복 상태 및 주목하는 블록 쌍의 위치(수직 방향의 좌표)에 기초한다. 먼저, 중복 상태에 기초하는 가중치의 설정에 대해서 설명한다. 이때, 주목하는 블록 쌍에서의 쿼리 화상의 텍스트 블록이 다른 등록 화상의 텍스트 블록과 쌍이 되지 않는 경우에는, 가중치가 커지도록 설정이 행해진다. 마찬가지로, 주목하는 블록 쌍에서의 등록 화상의 텍스트 블록이 다른 쿼리 화상의 텍스트 블록과 쌍이 되지 않는 경우에는, 가중치가 커지도록 설정이 행해진다. 구체적으로는, 예를 들어 도 10에 도시하는 바와 같은 테이블(이하, 가중치 테이블)을 미리 준비하고, 이것을 이용해서 설정을 행한다. 도 10에 도시하는 가중치 테이블에서는, 횡축은, 주목하는 블록 쌍에서의 쿼리 화상의 텍스트 블록이 다른 등록 화상의 텍스트 블록과 쌍이 되는 개수를 나타낸다. 또한, 종축은, 주목하는 블록 쌍에서의 등록 화상의 텍스트 블록이 다른 쿼리 화상의 텍스트 블록과 쌍이 되는 개수를 나타내고 있다. 그리고, 쌍의 상대방 텍스트 블록이 다른 텍스트 블록과 쌍이 되는 개수가 적을수록, 높은 가중치가 할당된다. 여기에서는, 가중치 테이블을 이용하는 설정 방법을 설명했지만, 계산식을 사용해서 가중치를 결정할 수도 있다. 계산식을 사용하는 경우에는, 구하는 가중치를 W로 한 조건에서, 이하의 식 (1)에 의해 상술한 테이블의 것과 동일한 가중치를 구할 수 있다.
W = (1/(N+1)+1/(M+1))/2 ... 식 (1)
상술한 식 (1)에서, N은 주목하는 블록 쌍에서 쿼리 화상의 텍스트 블록이 다른 등록 화상의 텍스트 블록과 쌍이 되는 개수를 나타낸다. 또한, M은 주목하는 블록 쌍에서 등록 화상의 텍스트 블록이 다른 쿼리 화상의 텍스트 블록과 쌍이 되는 개수를 나타낸다.
이어서, 한 쌍의 블록의 위치(수직 방향의 좌표)에 기초한 가중치의 설정에 대해서 설명한다. 이 경우, 주목 블록 쌍에서의 쿼리 화상의 텍스트 블록의 좌측 상단 정점의 Y 좌표(문서 화상의 수직 방향)에 따라서 상이한 가중치가 설정되도록 설정을 행한다. 예를 들어, 전술한 도 6a 내지 도 6c의 구체예에서와 같이, 문서의 상부에 스캔 어시스트 정보에 유용한 정보가 기재되는 포맷을 사용한 문서의 경우에는, Y 좌표가 문서의 보다 높은 상부의 위치를 나타낼수록 가중치가 커지도록 설정이 행해진다. 도 11은, 한 쌍의 블록의 위치(Y 좌표)에 따라서 가중치를 결정할 때에 사용하는 LUT(Look Up Table)의 일례를 나타낸다. 이 LUT에서와 같이, 소정의 위치 이하의 위치의 가중치를 "0"으로 설정해도 된다. 한 쌍의 블록의 위치에 기초하여 가중치를 설정하는 이유는, 스캔 어시스트 정보의 생성에 이용되는 정보가 포함될 가능성이 높은 문서 내의 위치가 위치결정에도 유용하다고 말할 수 있기 때문이다. 한 쌍의 블록의 중복 상태에 기초하는 가중치의 설정과 한 쌍의 블록의 위치(Y 좌표)에 기초하는 가중치의 설정의 양쪽 모두를 이용하는 경우에는, 양쪽의 방법에 의해 얻어진 가중치를 곱하거나 하여 최종적인 가중치를 결정하면 된다.
단계 805에서는, 후술하는 단계 807에서의 시프트량 후보 결정 처리에서 사용하는 시프트량의 히스토그램이 생성된다. 구체적으로는, 먼저, 주목하는 블록 쌍에서의 좌측 상단 정점의 X 방향의 차분량(시프트량)과 Y 방향의 차분량(시프트량)을 구한다. 그리고, 얻어진 시프트량에 단계 804에서 설정된 가중치를 사용하여, 가중치가 적용된 시프트량을 시프트량의 히스토그램에 투표한다. 이때의 히스토그램의 빈(bin)의 범위는 임의이다.
단계 806에서는, 모든 블록 쌍이 처리되었는지가 판정된다. 미처리의 블록 쌍이 있는 경우, 처리는 단계 803로 복귀하고, 주목하는 다음 블록 쌍을 선택해서 처리를 계속한다. 한편, 모든 쌍의 블록이 처리된 경우, 처리는 단계 807로 진행한다. 단계 807에의 이행이 결정된 단계에서, X 방향 및 Y 방향의 시프트량의 히스토그램이 완성되게 된다. 도 12a 및 도 12b는 시프트량의 히스토그램의 예를 나타낸다. 횡축은 시프트량을 나타내며, 종축은 상관 값(히스토그램의 빈도)을 나타낸다. 도 12a는 1개의 데이터 점(1201)만이 큰 피크로서 존재하는 타입의 시프트량의 히스토그램이며, 도 12b는 최대 피크 점인 데이터 점(1202) 이외에 국소적인 피크 점(1203 내지 1205)이 존재하는 타입의 시프트량의 히스토그램이다. 노이즈의 영향이 염려될 경우에는, 생성된 시프트량의 히스토그램에 대하여 스무싱(smoothing)을 적용해도 된다.
단계 807에서는, 생성된 시프트량의 히스토그램을 분석하고, X 방향 및 Y 방향 각각에 대해서 쿼리 화상과 주목 등록 화상 사이의 시프트량 후보가 결정된다. 예를 들어, 상술한 도 12a의 시프트량의 히스토그램의 경우, 데이터 점(1201)이 큰 피크로서 단독으로 존재하므로, 당해 데이터 점(1201)에 대응하는 시프트량이 시프트량 후보로서 결정된다. 또한, 상술한 도 12b의 시프트량의 히스토그램의 경우, 소정의 조건을 만족시키는 피크 점이 모두 시프트량 후보로서 결정된다. 이때의 소정의 조건은, 예를 들어 최대 피크 점의 소정의 비율(예를 들어, 70%)을 초과하고 있는 것, 소정의 임계치(예를 들어, 상관 값: 15)를 초과하고 있는 것, 피크 점이 예를 들어 가장 높은 피크 점으로부터 5번째로 가장 높은 피크 점 이내의 피크 점인 것 등이다. 조건에 따라, 예를 들어 도 12b에서의 데이터 점(1203, 1204, 1205)에 대응하는 시프트량도 시프트량 후보로서 결정될 수 있다. 그리고, 이러한 처리를 X 방향과 Y 방향 각각에 대해서 행함으로써, 쿼리 화상과 주목 등록 화상 사이의 X 방향 및 Y 방향 각각에 관한 시프트량 후보(X_Shift 및 Y_shift)가 결정된다.
최후에, 단계 808에서, X 방향 및 Y 방향 각각에서 결정된 시프트량 후보를 조합함으로써, 쿼리 화상과 주목 등록 화상 사이의 종합 시프트량 후보(S_Shift)가 결정된다. 예를 들어, X 방향의 시프트량 후보로서 X_Shift1 및 X_Shift2의 2개 있고, Y 방향의 시프트량 후보로서 Y_Shift1, Y_Shift2 및 Y_Shift3의 3개가 있는 것으로 한다. 이 경우, X 방향의 2개의 시프트량 후보 및 Y 방향의 3개의 시프트량 후보를 단순하게 조합한 조건에서는, 이하의 6개(2×3)의 종합 시프트량 후보(S_Shift1 내지 S_Shift6)가 얻어지게 된다.
S_Shift1 = (X_Shift1, Y_Shift1)
S_Shift2 = (X_Shift1, Y_Shift2)
S_Shift3 = (X_Shift1, Y_Shift3)
S_Shift4 = (X_Shift2, Y_Shift1)
S_Shift5 = (X_Shift2, Y_Shift2)
S_Shift6 = (X_Shift2, Y_Shift3)
단, 다음에 설명하는 유사도 추정 처리에서는, 각각의 S_shift 마다의 연산 처리가 필요해지기 때문에, S_shift의 수가 많은 경우 처리 부하가 높아진다. 결과적으로, X 방향의 최대 피크 점의 시프트량과 Y 방향의 최대 피크 점의 시프트량과 관련된 한 쌍만을 S_shift로서 선택해도 된다. 이것은, X 방향과 Y 방향의 양쪽 모두의 최대 피크 점이 동시에 틀릴 가능성이 낮은 것을 전제로 하고 있다. 여기서, X 방향의 최대 피크 점의 시프트량이 X_Shift1이고, Y 방향의 최대 피크 점의 시프트량이 Y_Shift1인 것으로 한다. 이 경우, 4개의 시프트량 후보, 즉 S_Shift1 내지 S_Shift4이면 충분하므로, 처리 부하를 경감할 수 있다. 또한, 다른 방법에 의해 종합 시프트량 후보의 수를 좁힐 수도 있다. 이렇게 해서 결정된 종합 시프트량 후보(S_shift)의 정보는 RAM(113)에 저장된다.
이상이 시프트량 추정 처리의 내용이다.
(유사도 추정 처리)
계속해서, 전술한 단계 705에서의 유사도 추정 처리의 상세에 대해서 설명한다. 도 13은 유사도 추정 처리의 흐름을 나타내는 흐름도이다. 여기에서 소개하는 유사도 추정의 방법은 일례이며, 다른 방법을 사용해도 된다. 이하, 도 13의 플로우에 따라 설명한다.
먼저, 단계 1301에서는, 상술한 시프트량 추정 처리에 의해 얻어진 모든 종합 시프트량 후보(S_shift)의 정보가 RAM(113)으로부터 취득된다. 계속해서, 취득한 모든 종합 시프트량 후보(S_shift) 중에서, 주목하는 1개의 종합 시프트량 후보(S_shiftI)(I < 종합 시프트량 후보의 총 수)가 선택된다.
단계 1303에서는, 주목하는 종합 시프트량 후보(S_shiftI)를 사용하여, 쿼리 화상에 대하여 위치결정을 행한다. 구체적으로는, 쿼리 화상에 포함되는 각각의 텍스트 블록의 좌표 위치를, S_shiftI에 기초하여 X 방향 및 Y 방향의 양 방향 모두로 동시에 균일하게 이동시키는 처리를 행한다. 계속되는 단계 1304에서는, 위치결정 후의 쿼리 화상과 주목 등록 화상 사이의 유사도를 산출하는 처리(이하, 개별 유사도 산출 처리)가 실행된다. 개별 유사도 산출 처리의 상세에 대해서는 후술한다.
단계 1305에서는, 모든 종합 시프트량 후보(S_shift)에 대해서 개별 유사도의 산출이 완료되었는지가 판정된다. 미처리의 종합 시프트량 후보(S_shift)가 있으면, 처리는 단계 1302에 되돌아가고, 다음 주목하는 종합 시프트량 후보(S_shiftI)를 선택해서 처리를 계속한다. 한편, 모든 종합 시프트량 후보(S_shift)에 대해서 개별 유사도의 산출이 완료된 경우, 처리는 단계 1306로 진행한다.
단계 1306에서는, 각각의 종합 시프트량 후보(S_shift)에 대해 산출된 개별 유사도 중, 최대의 것이 쿼리 화상과 주목 등록 화상 사이의 최종적인 유사도인 것으로 결정된다. 또한, 최대의 개별 유사도가 산출되었을 경우의 종합 시프트량 후보(S_shift)는, 최종적인 유사도에 대응하는 최종적인 종합 시프트량이 된다. 이렇게 해서 결정된, 최종적인 유사도의 정보는, 대응하는 종합 시프트량의 정보, 위치결정 후의 쿼리 화상에서의 텍스트 블록의 위치 정보, 및 주목 등록 화상의 정보와 연관지어져 RAM(113)에 저장된다.
이상과 같은 처리에 의해, 쿼리 화상과 그 문서 구조가 쿼리 화상의 것에 가장 가깝다고 추정되는 등록 화상 사이의 유사도가 얻어진다.
(개별 유사도 산출 처리)
계속해서, 상술한 단계 1304에서의, 위치결정 후의 쿼리 화상과 주목 등록 화상 사이의 개별 유사도를 구하는 처리에 대해서, 도 14의 플로우를 참조하여 상세하게 설명한다.
먼저, 단계 1401에서는, 위치결정 후의 쿼리 화상에서의 텍스트 블록과 주목 등록 화상에서의 텍스트 블록의 정보가 취득된다. 계속되는 단계 1402에서는, 구하는 유사도를 나타내는 변수(S), 및 그 산출 과정에서의 일시적인 유사도를 나타내는 변수(Tmp)의 값이 초기화(초기값으로서 "0"이 설정)된다.
단계 1403에서는, 위치결정 후의 쿼리 화상에 포함되는 텍스트 블록으로부터 주목하는 텍스트 블록이 선택된다. 본 실시형태에서는, 상부 영역에 고정된 구조를 갖는 문서를 상정하고 있으므로, 좌측 상단 정점이 최상부(Y축의 마이너스 방향)에 있는 텍스트 블록이 선택된다. 전술한 단계 702에서 소트 처리가 실행되었기 때문에, 취득한 텍스트 블록을 위에서부터 순서대로 선택하면 된다.
단계 1404에서는, 위치결정 후의 쿼리 화상의 주목 텍스트 블록에 대응하는, 주목 등록 화상에서의 텍스트 블록의 검색이 실행된다. 여기서, 대응하는 텍스트 블록은, 위치결정 후의 쿼리 화상의 주목 텍스트 블록과 주목 등록 화상의 텍스트 블록 군을 동일한 좌표계에 묘화하는 경우에, 쿼리 화상의 주목 텍스트 블록과 중복하는 주목 등록 화상에서의 텍스트 블록을 지칭한다. 이 경우에, 대응하는 텍스트 블록의 수는 1개로 한정되지 않고, 복수의 대응하는 텍스트 블록을 찾는 경우가 있다. 또한, 각 등록 화상에서의 텍스트 블록에 대해 소트 처리도 행해지기 때문에, 검색 범위는 한정된 범위일 수 있다.
단계 1405에서는, 검색에 의해 찾은 주목 등록 화상의 텍스트 블록이, 위치결정 후의 쿼리 화상의 주목 텍스트 블록과 중복하는 면적이 구해진다. 이 중복 면적을 구하는 경우에는, 위치결정 후의 쿼리 화상에서는 텍스트 블록의 위치결정이 이미 행해졌기 때문에, 전술한 단계 802에서 행해지는, 좌측 상단 정점을 동일한 위치에 배치시키는 처리는 더 이상 불필요하다. 도 15a 및 도 15b는 중복 면적의 설명도이다. 도 15a의 예에서는, 실선의 직사각형에 의해 나타내는 위치결정 후의 쿼리 화상의 텍스트 블록(1501)과, 파선의 직사각형에 의해 나타내는 등록 화상의 텍스트 블록(1502)이 중복하고 있고, 중복 면적은 음영 영역(1503)의 면적이 된다. 또한, 도 15b의 예에서는, 실선의 직사각형에 의해 나타내는 위치결정 후의 쿼리 화상의 텍스트 블록(1504)과, 파선으로 나타내는 등록 화상의 2개의 텍스트 블록(1505 및 1506)이 중복하고 있고, 중복 면적은 2개의 음영 영역(1507 및 1508)의 합계값이 된다.
단계 1406에서는, 임시 유사도(Tmp)를 산출하기 위한 준비 처리가 실행된다. 구체적으로는, 이하의 3개의 처리가 실행된다.
1) 단계 1405에서 구한 중복 면적을 전회의 루틴까지의 루틴에 의해 구한 중복 면적의 누적값에 가산함으로써 총 중복 면적(OverlapArea)을 구하는 처리
2) 쿼리 화상의 처리 완료된 텍스트 블록의 총 면적(TotalArea_Q)을 구하는 처리
3) 쿼리 화상의 처리 완료된 텍스트 블록 중 가장 아래에 존재하는 텍스트 블록보다 높게 존재하는 등록 화상의 텍스트 블록의 총 면적(TotalArea_R)을 구하는 처리
상술한 처리 3)에서, 쿼리 화상의 텍스트 블록 위치로서, 그 최하단의 좌표를 사용하고, 등록 화상의 텍스트 블록의 위치로서, 그 좌측 상단 좌표를 사용한다.
단계 1407에서는, 임시 유사도(Tmp)의 산출 개시 조건이 만족되어 있는지가 판정된다. 산출 개시 조건은, 신뢰할 수 있는 임시 유사도(Tmp)를 산출할 수 있는지를 판단하기 위한 조건이다. 텍스트 블록의 수가 적은 경우, 또는 처리 완료된 쿼리 화상의 텍스트 블록이 존재하는 범위가 좁은 경우에는, 얻어지는 임시 유사도(Tmp)의 신뢰도가 낮다고 생각된다. 결과적으로, 산출 개시 조건은 예를 들어 이하의 내용인 것으로 한다.
· 쿼리 화상에서, 소정의 수(예를 들어, 1 내지 3개)의 텍스트 블록이 처리되었는지 여부
· 쿼리 화상에서, 페이지의 상단으로부터 소정의 거리(예를 들어, 페이지 높이의 10%) 이격된 텍스트 블록까지 처리되었는지 여부
· 쿼리 화상에서, 최상부의 텍스트 블록으로부터 소정의 거리(예를 들어, 페이지 높이의 10%) 이격된 텍스트 블록까지 처리되었는지 여부
· 쿼리 화상의 처리 완료된 텍스트 블록의 총 면적이 소정의 임계치를 초과했는지 여부
상술한 산출 개시 조건은 단독으로 또는 복수의 산출 개시 조건의 조합으로 사용될 수 있다. 또한, 복수를 조건의 복수의 조합을 사용하는 것도 가능하다. 판정의 결과가 산출 개시 조건이 만족되지 않는다고 나타내는 경우에는, 처리는 단계 1411로 진행한다. 한편, 산출 개시 조건이 만족되는 경우, 처리는 단계 1408로 진행한다.
단계 1408에서는, 임시 유사도(Tmp)가 산출된다. 임시 유사도(Tmp)는, 쿼리 화상에서의 텍스트 블록 군의 배치 및 형상과, 주목 등록 화상에서의 텍스트 블록 군의 배치 및 형상이 얼마나 유사한지를 정량적으로 나타내는, 이하의 식 (2)를 사용해서 구할 수 있다.
임시 유사도(Tmp) = OverlapArea/TotalArea_L ... 식 (2)
상기 식 (2)에서, TotalArea_L은, TotalArea_Q 및 TotalArea_R 중 값이 큰 것을 나타낸다. 쿼리 화상 또는 등록 화상의 텍스트 블록의 면적이 넓을 경우에는, 구조가 서로 일치하지 않는 문서 화상이 중복할 가능성이 높아지고, OverlapArea가 커진다. 그 때문에, TotalArea_Q 또는 TotalArea_R 중 값이 큰 쪽의 값에 의해 OverlapArea의 값을 나눈다. 임시 유사도(Tmp)는, 예를 들어 이하의 식 (2)' 또는 식 (2)''에 의해서도 구할 수 있다.
임시 유사도(Tmp)=OverlapArea × 2/(TotalArea_Q + TotalArea_R) ... 식 (2)'
임시 유사도(Tmp)=(OverlapArea/TotalArea_Q) × (OverlapArea/TotalArea_R) ... 식 (2)''
단계 1409에서는, 단계 1408에서 구한 임시 유사도(Tmp)와 현재의 유사도(S)를 비교하는 처리가 행해진다. 임시 유사도(Tmp)의 값이 더 큰 경우에는, 처리는 단계 1410로 진행한다. 한편, 임시 유사도(Tmp)의 값이 더 작(혹은 동등한) 경우에는, 처리는 단계 1411로 진행한다. 단계 1408에서 구한 임시 유사도(Tmp)의 이력은, 후술하는 보정 처리(단계 1412)에서 이용하기 위해서 RAM(113)에 저장된다. 그리고, 단계 1410에서는, 유사도(S)의 값이 갱신된다. 구체적으로는, 유사도(S)의 값이, 현재의 임시 유사도(Tmp)의 값에 의해 덮어쓰인다.
단계 1411에서는, 위치결정 후의 쿼리 화상의 모든 텍스트 블록이 처리되었는지가 판정된다. 미처리의 텍스트 블록이 있으면, 처리는 단계 1403로 복귀하고, 다음 주목 텍스트 블록을 선택해서 처리를 계속한다. 한편, 모든 텍스트 블록이 처리된 경우, 처리는 단계 1412로 진행한다.
단계 1412에서는, 유사도(S)의 보정 처리가 실행된다. 이 보정 처리의 설명 전에, 지금까지의 처리에서 임시 유사도(Tmp)의 반복 산출의 의미에 대해서 설명한다. 도 16a 및 도 16b는, 임시 유사도(Tmp)의 산출 대상인 화상 범위(산출 범위)가 순차적으로 변화하는 모습을 나타낸다. 도 16a 및 도 16b에서, 도 16a는 등록 화상을 나타내고, 도 16b는 쿼리 화상을 나타내며, 길이가 상이한 6종류의 양방향 화살표, 즉 양방향 화살표(1601 내지 1606)는 임시 유사도(Tmp)의 산출 범위를 각각 나타내고 있다. 모든 산출 범위는 문서 화상의 상부 영역을 포함하고 있으므로, 중요한 헤더 정보 등의 위치가 문서 내용에 따라 다소 변화해도, 그 변화에 대처할 수 있게 된다. 산출 범위(1601 내지 1606) 각각에 대한 임시 유사도(Tmp)의 값은 예를 들어 이하와 같다.
산출 범위(1601)의 Tmp 값: 0.60
산출 범위(1602)의 Tmp 값: 0.64
산출 범위(1603)의 Tmp 값: 0.65
산출 범위(1604)의 Tmp 값: 0.75
산출 범위(1605)의 Tmp 값: 0.5
산출 범위(1606)의 Tmp 값: 0.4
텍스트 블록의 추출 미스, 변동, 추출된 텍스트 블록의 길이나 크기의 차이 등에 의한 오차가 포함될 수 있지만, 산출 범위(1604)의 부분까지의 임시 유사도(Tmp)의 값이 상대적으로 높다. 즉, 문서 포맷의 고정된 구조(도 16a 및 도 16b의 예에서는, 문서 타이틀 및 회사명 같은 중요한 정보가 존재하는 상부 영역을 중시)에 대응하는 유사도가 산출된다고 말할 수 있다. 이 예에서는, 산출 범위(1604)의 임시 유사도(Tmp)의 값이 최대값이므로, 이것이 최종적인 유사도(S)가 된다. 상술한 바와 같이, 문서 내의 특정 화상 영역(이하, 특정 영역)을 반드시 포함하도록 하면서 산출 범위를 변경함으로써, 문서 포맷의 고정된 구조에 대응한 유사도를 산출할 수 있게 된다. 도 17a 및 도 17b는 다른 구체예를 나타낸다. 도 17a 및 도 17b에서, 도 17a는 등록 화상이며, 도 17b는 쿼리 화상이다. 양쪽 화상은 전체적인 구조가 일치하고 있으나, 품명이 쓰여 있는 부분이 상이하다. 그 때문에, 산출 범위가 조금 바뀌는 경우에는, 산출 결과는 이하와 같이 크게 달라진다.
산출 범위(1701)의 Tmp 값: 0.75
산출 범위(1702)의 Tmp 값: 0.18
도 17a 및 도 17b로부터 명백한 바와 같이, 산출 범위(1701)와 산출 범위(1702) 사이의 차이는 크지 않다. 그러나, 도 17b의 쿼리 화상에만 존재하는 텍스트 블록이 다수 있기 때문에, 임시 유사도(Tmp)의 값이 낮다. 상술한 바와 같이, 산출 범위가 조금 상이한 경우에도, 산출 결과가 크게 상이할 수 있기 때문에, 모든 문서 화상에서 고정된 범위를 대상으로 해서 유사도를 구할 경우에는, 정확도가 보장될 수 없다는 것을 안다. 도 17a 및 도 17b의 예에서는, 하부 영역(1703)도 고정된 구조를 갖기 때문에, 산출 범위에 반드시 포함시키는 문서 내의 특정 영역으로서, 상부 영역이 아니고 하부 영역을 취하는 것도 가능할 수 있다. 또한, 상부 영역을 포함하여 얻은 산출 결과와 하부 영역을 포함하여 얻은 산출 결과를 통합하는 것도 가능할 수 있다. 통합 시에는, 후술하는 보정 처리에 의해, 상부의 구조가 하부의 구조와 총 얼마나 일치하는지를 고려해서 최종적인 유사도를 얻는 것이 가능하다. 예를 들어, 상부에만 쿼리 화상에 일치하는 고정된 구조를 갖는 등록 화상 A와, 상부와 하부의 양쪽에서 쿼리 화상에 일치하는 고정된 구조를 갖는 등록 화상 B가 있는 것으로 한다. 그리고, 등록 화상 A의 상부의 구조가 등록 화상 B의 상부의 구조와 유사한 경우에, 등록 화상 B의 유사도를 등록 화상 A의 유사도보다 높게 하는 등이다.
최후에, 단계 1412에서, 반복된 산출에 의해 얻어진 임시 유사도(Tmp)의 분포에 기초하여, 유사도(S)의 보정 처리가 실행된다. 유사도(S)는, 임시 유사도(Tmp)의 산출을 복수 회 행함으로써 얻어진 유사도 중의 최대값이며, 임시 유사도(Tmp)의 분포 상황을 반영할 수는 없다. 예를 들어, Tmp 값이 동일해도, Tmp 값이 S 값의 부근서만 높은 경우가 있으며, S 값을 포함하는 더 넓은 범위에서 Tmp 값이 높은 경우가 있다. 그리고, 후자의 경우에는, S 값을 Tmp 값의 분포 상황에 따라서 보정하는 것이 바람직하다. 도 18a 내지 도 18c는 그 구체예를 나타낸다. 도 18a 내지 도 18c에서, 도 18a는 쿼리 화상이며, 도 18b 및 도 18c는 도 18a의 쿼리 화상과의 유사도(S)가 0.8인 등록 화상이다. 도 18b의 등록 화상은, 도 18a의 쿼리 화상과 전체적으로 동일한 구조를 갖고, 품명이 기재되어 있는 부분만이 상이하다. 한편, 도 18c의 등록 화상에서는, 상부의 구조만이 도 18a의 쿼리 화상과 동일하고, 하부의 구조는 상이하다. 이러한 경우에는, 전체적으로 도 18a와 유사한 도 18b의 유사도(S)가 도 18c의 유사도(S)보다 높아지는 것이 바람직하다. 여기서, 도 18b의 등록 화상에서는, 양방향 화살표(1801)로 나타내는 범위(페이지 전체에 대한 범위의 비율: 25%)에서, 임시 유사도(Tmp)가 0.7을 초과하는 것으로 한다. 또한, 도 18c의 등록 화상에서는, 양방향 화살표(1802)로 나타내는 범위(페이지 전체에 대한 범위의 비율: 15%)에서, 임시 유사도(Tmp)가 0.7을 초과하는 것으로 한다. 이 경우, 예를 들어 이하의 식 (3)을 사용해서 유사도(S)를 보정한다.
보정 후의 유사도(S) = MIN(1, 유사도(S) × 소정의 게인 × MAX(임시 유사도(Tmp)가 소정의 임계치 이상이 되는 범위의 비율/소정의 정규화 계수 - 1, 0) + 유사도(S))
상술한 식 (3)에서, MIN(A, B)은 A 또는 B 중 작은 쪽의 값을 출력하는 함수이며, MAX(A, B)는 A 또는 B 중 큰 쪽의 값을 출력하는 함수이다. 소정의 게인은, 보정의 강도를 정의하는 값이며, 예를 들어 약 0.05 내지 0.5의 값이다. 소정의 정규화 계수는, 임시 유사도(Tmp)가 소정의 임계치 이상이 되는 범위의 비율이 어느 정도가 되면 유사도(S)를 보정할지를 정하는 값이며, 예를 들어 약 0.05 내지 0.2의 값이다. 도 18a 내지 도 18c의 예에서, 소정의 임계치가 0.7이고, 소정의 게인 및 정규화 계수의 양자 모두가 0.1인 경우, 보정 후의 유사도(S)는 각각 이하와 같이 된다.
· 도 18b의 등록 화상의 경우
보정 후의 유사도(S) = MIN(0.8×0.1×MAX(0.25/0.1-1, 0)+0.8=0.92
· 도 18c의 등록 화상의 경우
보정 후의 유사도(S) = MIN(0.8×0.1×MAX(0.15/0.1-1, 0)+0.8=0.84
상술한 바와 같이, 임시 유사도(Tmp)가 소정의 임계치 이상이 되는 범위의 비율이 소정의 정규화 계수보다 큰 경우, 보정 후의 유사도(S)의 값은 커진다. 반대로, 그 비율이 정규화 계수보다 작은 경우, 보정 후의 유사도(S)의 값은 작아진다. 또한, 임시 유사도(Tmp)가 소정의 임계치 이상이 되는 범위의 비율이 클수록, 보정 후의 유사도(S)의 값이 커진다. 도 18a 내지 도 18c의 예에서도, 임시 유사도(Tmp)의 값이 0.7 이상인 범위의 비율이 25%인 도 18b의 등록 화상의 보정 후의 유사도(S)의 값이, 임시 유사도(Tmp)의 값이 0.7 이상인 범위의 비율이 15%인 도 18c의 등록 화상의 보정 후의 유사도(S)의 값보다 크다. 보정 방법은 상기 식 (3)을 사용하는 방법으로 한정되지 않는다. 예를 들어, 임시 유사도(Tmp)의 상위 절반의 평균에 의해, 쿼리 화상과 등록 화상 사이에서 유사한 영역의 폭을 추정하고, 추정된 폭이 넓을수록 유사도(S)의 값이 커지도록 보정을 행해도 된다.
이상이 개별 유사도 산출 처리의 내용이다. 이에 의해, 위치결정 후의 쿼리 화상과 주목 등록 화상 사이의 유사도가 얻어진다.
본 실시형태의 개별 유사도 산출 처리에서는, 텍스트 블록을 이용하고 있지만, 이것에 한정되지 않는다. 예를 들어, 해상도 변환을 행함으로써 해상도가 저하된 문서 화상의 화소값을 이용함으로써, 구체적으로는 휘도값의 차의 절대값의 합이나 상관 계수를 이용함으로써 문서 화상의 외관 자체를 비교하여 유사도를 구할 수도 있다. 혹은, OCR 처리에서 얻어진 문자열 정보를 이용함으로써, 구체적으로는 얻어진 문자열 사이의 거리를 계산하는 척도인 레벤슈타인 거리(Levenshtein distance) 등을 이용함으로써, 문서에 기재된 내용 자체를 비교하여 유사도를 구해도 된다.
또한, 본 실시형태의 매칭 처리에서는, 등록 화상으로서 문서 화상 자체를 사용하지만, 이는 한정되지 않는다. 예를 들어, 각 문서 화상의 텍스트 블록 추출 처리 결과 같은 매칭 처리에 이용할 수 있는 특징량이라면 어떠한 특징량도 사용할 수 있다.
상기와 같이, 본 실시형태에 따르면, 동일 종류의 문서 화상인지를 식별할 때에 중요한 특정 영역(고정된 구조 부분)이 포함되지만, 식별 시에 중요하지 않은 영역(문서 화상이 동일 종류인 경우에도 차이가 있는 부분)이 포함되지 않는 상태에서, 문서 화상 사이의 유사도를 산출할 수 있게 된다. 이에 의해, 스캔 화상에 관련 문서와 동일 종류의 문서를 고정밀도로 검색할 수 있고, 따라서 유저에게 제시되는 스캔 어시스트 정보의 정밀도도 향상시킬 수 있다. 또한, 유저는 특정 영역을 차례대로 지정할 필요가 없기 때문에, 유저의 부하도 경감할 수 있다.
[제2 실시형태]
이어서, 임시 유사도(Tmp)의 산출 범위를 유연하게 변경할 수 있도록 한 양태를 제2 실시형태로서 설명한다. 또한, 개별 유사도 산출 처리 이외의 내용은 제1 실시형태의 것과 동일하다. 이하에서는, 전술한 도 14의 플로우에 대응하는 도 19의 플로우를 참조하여, 본 실시형태에서의 개별 유사도 산출 처리에 대해서 설명한다.
단계 1901 및 단계 1902는, 각각 도 14의 플로우에서의 단계 1401 및 단계 1402에 대응한다. 즉, 위치결정 후의 쿼리 화상과 주목 등록 화상의 텍스트 블록에 대한 정보가 취득되면(단계 1901), 유사도를 나타내는 변수(S)와 임시 유사도를 나타내는 변수(Tmp)의 값이 초기화된다(단계 1902).
단계 1903에서는, 임시 유사도(Tmp)의 산출 범위에 항상 포함되는 특정 영역에 대한 정보가 취득된다. 특정 영역에 대한 정보로서는, 예를 들어 이하와 같은 정보가 있다:
· 어플리케이션 등에 의해 미리 정해져 있는, 문서 화상의 상부 영역 및 하부 영역 등의 위치 정보
· 조작 유닛(120)의 UI(유저 인터페이스)를 통해 유저가 지정한 내용(예를 들어, 쿼리 화상측을 기준으로 해서 상부 중시, 하부 중시 등)에 따라서 설정된 영역의 위치 정보
· 등록 화상에 연관지어져 등록되며, 스캔 어시스트 정보의 생성에 이용된 텍스트 블록을 포함하는 소정의 영역의 위치 정보.
여기서, 등록 화상에 연관지어져 등록되는 소정의 영역의 구체예를 도 20a 및 도 20b를 사용하여 설명한다. 도 20a 및 도 20b에서는, 공통의 등록 화상에 대하여, 다양한 형상의 영역이 특정 영역으로서 연관지어 진다. 먼저, 도 20a는, 파선으로 나타내는 텍스트 블록(2001, 2002 및 2003)이 스캔 어시스트 정보의 생성에 이용되는 경우의 특정 영역의 일례이다. 도 20a에서, 일점 쇄선으로 나타내는 특정 영역(2004)의 Y 좌표(수직 방향)가 텍스트 블록(2001)의 상변과 텍스트 블록(2003)의 하변이며, 그 X 좌표(수평 방향)가 문서 화상의 좌측 단부와 우측 단부이다. 문서 화상 중에서, 고정된 구조와 고정되지 않은 구조가 전환되는 부분은 수직 방향에 위치되는 경우가 많고, 수평 방향에서 전환되는 경우는 적기 때문에, 수평 방향에서 특정 영역의 좌측 단부 및 우측 단부는 상술한 바와 같이 문서 화상의 좌측 단부 및 우측 단부로서 간주하는 것이 생각된다. 단, 특정 영역은, X 좌표(수평 방향)가 텍스트 블록(2001 내지 2003)의 최좌측 단부와 최우측 단부인, 이점 쇄선으로 나타내는 특정 영역(2005) 같은 영역일 수 있다. 도 20b는, 파선으로 나타내는 텍스트 블록(2001, 2002) 및 텍스트 블록(2006)이 스캔 어시스트 정보의 생성에 이용되는 경우의 특정 영역의 일례이다. 도 20b에서, 일점 쇄선으로 나타내는 특정 영역(2007)의 Y 좌표(수직 방향)가 텍스트 블록(2001)의 상변 및 텍스트 블록(2006)의 하변이며, X 좌표(수평 방향)가 문서 화상의 좌측 단부와 우측 단부이다. 특정 영역(2007)의 경우, 텍스트 블록(2002) 및 텍스트 블록(2006)은 서로 크게 이격되어 있으므로, 스캔 어시스트 정보의 생성에서 중요하지 않은 텍스트 블록도 많이 포함한다. 결과적으로, 스캔 어시스트 정보의 생성에 이용된 텍스트 블록이 서로 크게 이격되어 있는 경우에는, 텍스트 블록을 그룹화하고, 특정 영역을 이점 쇄선으로 나타내는 특정 영역(2008 및 2009)과 같은 2개의 특정 영역으로 나누어도 된다. 이 경우에, 특정 영역(2009)의 Y 좌표는, 각각 마진이 붙여진 텍스트 블록(2006)의 상단과 하단이다. 그 이유는, 텍스트 블록(2006)은 그 자체로 1개의 영역을 형성하고, 따라서 마진이 붙여지지 않는 한 영역의 높이가 지나치게 좁아서 안정된 특정 영역이 획득되지 않기 때문이다. 이상과 같은 특정 영역에 대한 정보를 동적으로 취득함으로써, 제1 실시형태에 비하여, 다양한 구조를 포함하는 문서 화상에 대처하는 것이 가능해진다.
단계 1904에서는, 단계 1903에서 취득된 특정 영역에 대한 정보에 기초하여, 복수의 유사도 산출 범위가 설정된다. 이 경우의 유사도 산출 범위는, 특정 영역을 포함하면 되고, 어떤한 형상도 가질 수 있다. 예를 들어, 특정 영역(2004 또는 2007)의 경우에는, 당해 영역을 기준 산출 범위로 하고, 산출 범위를 Y 방향(수직 방향)으로 매번 소정의 폭(예를 들어, 페이지의 1%)만큼 확대하며, 따라서 복수의 산출 범위를 설정한다. 또한, 특정 영역(2005)의 경우에는, 당해 영역을 기준 산출 범위로 하고, 산출 범위를 X 방향(수평 방향) 및 Y 방향(수직 방향)에서 매번 소정의 폭만큼 확대하고, 따라서 복수의 산출 범위를 설정한다. 이때, X 방향으로만 확대한 산출 범위, Y 방향으로만 확대한 산출 범위, 및 X 방향과 Y 방향의 양 방향으로 동시에 확대한 산출 범위를 조합한 산출 범위를 설정한다. 또한, 특정 영역(2008 및 2009)의 경우와 같이 2개의 특정 영역이 있는 경우에는, 양쪽의 영역을 기준 산출 범위로 하고, 각각의 영역에 대해서 산출 범위를 매번 소정의 폭만큼 확대하고, 따라서 복수의 산출 범위를 설정한다. 즉, 특정 영역(2008)에 기초하는 Y 방향으로의 확대, 특정 영역(2009)에 기초하는 Y 방향으로의 확대, 및 양쪽의 영역의 동시 확대를 고려하여, 복수의 산출 범위를 설정한다.
단계 1905에서는, 설정된 복수의 산출 범위 중에서 주목하는 1개의 산출 범위가 선택된다. 그리고, 단계 1906에서는, 선택된 주목 산출 범위에 포함되는, 위치결정 후의 쿼리 화상의 텍스트 블록과 주목 등록 화상의 텍스트 블록에 대한 정보가 취득된다. 또한, 단계 1907에서는, 도 14의 플로우의 단계 1403의 경우와 마찬가지로, 위치결정 후의 쿼리 화상에서의 텍스트 블록 중에서 주목하는 텍스트 블록이 결정된다. 단계 1908 내지 단계 1910의 각 처리는, 도 14의 플로우에서의 단계 1404 내지 단계 1406에 각각 대응한다. 즉, 위치결정 후의 쿼리 화상의 주목 텍스트 블록에 대응하는, 주목 등록 화상의 텍스트 블록의 검색(단계 1908), 중복 면적의 산출(단계 1909), 및 임시 유사도(Tmp)를 산출하기 위한 준비 처리(단계 1910)가 실행된다.
단계 1911에서는, 위치결정 후의 쿼리 화상의 모든 텍스트 블록이 처리되었는지가 판정된다. 미처리 텍스트 블록이 있는 경우, 처리는 단계 1907로 복귀하고, 다음 주목하는 텍스트 블록을 결정해서 처리를 계속한다. 한편, 모든 텍스트 블록이 처리된 경우, 처리는 단계 1912로 진행한다.
단계 1912 내지 단계 1914의 각 처리는, 도 14의 플로우에서의 단계 1408 내지 단계 1410에 각각 대응한다. 즉, 임시 유사도(Tmp)의 산출(단계 1912), 산출된 임시 유사도(Tmp)와 현재의 유사도(S) 사이의 비교 처리(단계 1913), 및 유사도(S)의 값의 갱신(단계 1914)이 실행된다. 임시 유사도(Tmp)의 산출에서, QueryArea의 정의는, 유사도 산출 범위에 포함되는 쿼리 화상의 텍스트 블록의 총 면적이다. 마찬가지로, RegistArea의 정의는, 유사도 산출 범위에 포함되는 등록 화상의 텍스트 블록의 총 면적이다.
단계 1914에서는, 단계 1904에서 설정된 모든 산출 범위에 대해서 임시 유사도(Tmp)의 산출이 완료되었는지가 판정된다. 미처리 산출 범위가 있는 경우, 처리는 단계 1905로 되돌아가고, 다음 주목하는 산출 범위를 결정해서 처리를 계속한다. 한편, 모든 산출 범위에 대해서 임시 유사도(Tmp)의 산출이 완료된 경우, 처리는 단계 1915로 진행한다.
최후에, 단계 1915에서, 도 14의 플로우의 단계 1412의 경우와 마찬가지로, 임시 유사도(Tmp)의 분포에 기초하는 유사도(S)의 보정 처리가 실행된다. 이상이, 본 실시형태에 따른 유사도 산출 처리의 내용이다.
본 실시형태에 따르면, 제1 실시형태의 도 14의 플로우의 단계 1403에서의 기준 위치(상부 또는 하부)를 유연하게 변경할 수 있기 때문에, 보다 많은 종류의 문서 화상에 대처하는 것이 가능해진다. 또한, 본 실시형태의 경우, 유저가 특정 영역을 지정하는 것도 가능하므로, 특수한 포맷의 비지니스 폼 등에도 본 실시형태를 적용할 수 있다. 또한, 등록 화상에서 스캔 어시스트 정보의 생성에 실제로 이용된 텍스트 블록에 기초하여 특정 영역을 정하는 것도 가능하고, 이 경우에는, 각각의 등록 화상마다 특정 영역의 전환이 행해진다. 이때에 전환에 이용한 텍스트 블록은 스캔 어시스트 정보의 생성에 실제로 이용된 것이기 때문에, 설정되는 산출 범위는 유사도의 산출에 더 적합한 것이 예상된다. 그 때문에, 이는 유사도 산출 처리의 정밀도의 향상으로 이어진다.
(다른 실시형태)
본 발명의 실시형태(들)는, 전술한 실시형태(들) 중 하나 이상의 기능을 실행하기 위해 저장 매체(보다 완전하게는 '비일시적 컴퓨터 판독가능 저장 매체'라 칭할수도 있음)에 기록된 컴퓨터 실행가능 명령어(예를 들어, 하나 이상의 프로그램)를 판독 및 실행하고 그리고/또는 전술한 실시형태(들) 중 하나 이상의 기능을 실행하는 하나 이상의 회로(예를 들어, 주문형 집적 회로(ASIC))를 포함하는 시스템 또는 장치의 컴퓨터에 의해, 그리고 예를 들어 전술한 실시형태(들) 중 하나 이상의 기능을 실행하기 위해 저장 매체로부터 컴퓨터 실행가능 명령어를 판독 및 실행함으로써 그리고/또는 전술한 실시형태(들) 중 하나 이상의 기능을 실행하기 위해 하나 이상의 회로를 제어함으로써 상기 시스템 또는 장치의 컴퓨터에 의해 실행되는 방법에 의해 실현될 수도 있다. 컴퓨터는 하나 이상의 프로세서(예를 들어, 중앙 처리 유닛(CPU), 마이크로 처리 유닛(MPU))를 포함할 수 있고 컴퓨터 실행가능 명령어를 판독 및 실행하기 위한 별도의 컴퓨터 또는 별도의 프로세서의 네트워크를 포함할 수 있다. 컴퓨터 실행가능 명령어는 예를 들어 네트워크 또는 저장 매체로부터 컴퓨터에 제공될 수 있다. 저장 매체는, 예를 들어 하드 디스크, 랜덤 액세스 메모리(RAM), 리드 온리 메모리(ROM), 분산형 컴퓨팅 시스템의 스토리지, 광디스크(예를 들어, 콤팩트 디스크(CD), 디지털 다기능 디스크(DVD) 또는 블루레이 디스크(BD)TM), 플래시 메모리 디바이스, 메모리 카드 등 중 하나 이상을 포함할 수 있다.
(기타의 실시예)
본 발명은, 상기의 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 저장 매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실현가능하다.
또한, 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 실행가능하다.
본 발명에 따르면, 스캔 화상에 관련한 문서의 종류와 동일 종류의 문서를 고정밀도로 그리고 간단하게 검색할 수 있다.
본 발명을 예시적인 실시형태를 참고하여 설명하였지만, 본 발명은 개시된 예시적인 실시형태로 한정되지 않음을 이해해야 한다. 이하의 청구항의 범위는 이러한 모든 변형과 동등한 구조 및 기능을 포함하도록 최광의로 해석되어야 한다.

Claims (15)

  1. 화상 처리 장치이며,
    입력 문서 화상에 대해서 영역 분할 처리를 행함으로써 미리 정해진 속성을 갖는 하나 이상의 블록을 추출하도록 구성되는 추출 유닛;
    입력 문서 화상과 복수의 문서 화상 각각에 대해서, 복수의 상이한 범위에 대한 임시 유사도를 산출하고, 산출된 상기 임시 유사도에 기초하여 상기 입력 문서 화상과 상기 복수의 문서 화상 각각 사이의 유사도를 결정하도록 구성되는 산출 유닛 (상기 임시 유사도 각각은, 상기 입력 문서 화상과 상기 복수의 문서 화상 각각에서의 유사도의 산출 대상인 복수의 상이한 범위 각각에 포함된 하나 이상의 추출된 블록의 배열과 형상에 기초하여 산출됨); 및
    상기 복수의 문서 화상 중, 결정된 상기 유사도가 가장 높은 문서 화상을, 상기 입력 문서 화상에 매칭되는 문서 화상으로서 결정하도록 구성되는 결정 유닛을 포함하는, 화상 처리 장치.
  2. 제1항에 있어서,
    상기 복수의 상이한 범위 각각은 상기 입력 문서 화상과 상기 복수의 문서 화상의 포맷에 있어서 고정된 구조를 갖는 특정 영역을 포함하는, 화상 처리 장치.
  3. 제1항에 있어서,
    상기 임시 유사도 중 하나 이상은 상기 임시 유사도의 분포에 따라 보정되는, 화상 처리 장치.
  4. 제1항에 있어서,
    상기 미리 정해진 속성은 텍스트 속성인, 화상 처리 장치.
  5. 제4항에 있어서,
    상기 입력 문서 화상에서의 상기 텍스트 속성을 갖는 하나 이상의 블록과 상기 복수의 문서 화상 각각에서의 상기 텍스트 속성을 갖는 하나 이상의 블록 사이의 대응 관계를 나타내는 한 쌍의 블록에 대한 정보를 취득함으로써, 그리고 취득된 한 쌍의 블록에 대한 정보에 기초하여, 상기 입력 문서 화상과 상기 복수의 문서 화상 각각 사이의 시프트량을 추정하도록 구성되는 추정 유닛을 더 포함하며,
    상기 산출 유닛은,
    추정된 상기 시프트량에 따라, 상기 입력 문서 화상에 포함되는 상기 텍스트 속성을 갖는 하나 이상의 상기 블록의 위치결정을 행하고;
    상기 위치결정 후의 상기 텍스트 속성을 갖는 하나 이상의 상기 블록의 형상과 배치에 기초하여 상기 임시 유사도의 산출을 행하는, 화상 처리 장치.
  6. 제5항에 있어서,
    상기 추정 유닛은, 상기 한 쌍의 블록의 각각의 블록에 가중치를 설정하고, 상기 가중치를 사용하여 한 쌍의 블록의 각각에서의 시프트량의 히스토그램을 생성하며, 상기 히스토그램에 기초하여 상기 입력 문서 화상과 상기 복수의 문서 화상 각각 사이의 최종적인 시프트량을 추정하는, 화상 처리 장치.
  7. 제6항에 있어서,
    상기 가중치의 설정은, 상기 한 쌍의 블록의 각각의 중복 상태 또는 상기 한 쌍의 블록의 각각의 위치에 기초하여 행해지는, 화상 처리 장치.
  8. 제7항에 있어서,
    상기 한 쌍의 블록의 각각의 중복 상태에 기초하는 상기 가중치의 설정에서는, 상기 쌍의 텍스트 속성을 갖는 상대방 블록이 텍스트 속성을 갖는 다른 블록과 쌍이 되는 개수가 적을수록, 높은 가중치가 설정되는, 화상 처리 장치.
  9. 제7항에 있어서,
    상기 복수의 상이한 범위 각각은 상기 입력 문서 화상과 상기 복수의 문서 화상의 포맷에 있어서 고정된 구조를 갖는 특정 영역을 포함하고,
    상기 한 쌍의 블록의 각각의 상기 위치에 기초하는 상기 가중치의 설정에서는, 상기 특정 영역에 포함되는 한 쌍의 블록에 대하여, 상기 특정 영역에 포함되지 않는 한 쌍의 블록의 가중치보다 높은 가중치가 설정되는, 화상 처리 장치.
  10. 제9항에 있어서,
    상기 한 쌍의 블록의 각각의 위치는 문서 화상에서의 수직 방향의 좌표에 의해 특정되며, 상기 좌표에 따라 상이한 가중치가 설정되는, 화상 처리 장치.
  11. 제1항에 있어서,
    상기 입력 문서 화상을 상기 복수의 문서 화상으로서 등록하도록 구성되는 등록 유닛을 더 포함하는, 화상 처리 장치.
  12. 제1항에 있어서,
    상기 복수의 문서 화상은, 각각의 문서 화상 내의 텍스트 블록에 대한 위치 정보를 포함하는 화상 데이터로서 미리 등록되어 있으며,
    상기 산출 유닛은, 미리 등록되어 있는 텍스트 블록에 대한 상기 위치 정보를 사용함으로써 상기 복수의 문서 화상의 상기 임시 유사도를 산출하는, 화상 처리 장치.
  13. 제1항에 있어서,
    상기 임시 유사도는 상기 입력 문서 화상의 복수의 상이한 범위 각각에 포함된 하나 이상의 추출된 블록에 기재된 문자열의 내용을 사용하지 않고 산출되는, 화상 처리 장치.
  14. 입력 문서 화상에 대해서 영역 분할 처리를 행함으로써 미리 정해진 속성을 갖는 하나 이상의 블록을 추출하는, 추출 단계;
    상기 입력 문서 화상과 복수의 문서 화상 각각에 대해서, 복수의 상이한 범위에 대한 임시 유사도를 산출하는, 산출 단계,
    산출된 상기 임시 유사도에 기초하여 상기 입력 문서 화상과 상기 복수의 문서 화상 각각 사이의 유사도를 결정하는, 결정 단계 (상기 임시 유사도 각각은, 상기 입력 문서 화상과 상기 복수의 문서 화상 각각에서의 유사도의 산출 대상인 복수의 상이한 범위 각각에 포함된 하나 이상의 추출된 블록의 배열과 형상에 기초하여 산출됨); 및
    상기 복수의 문서 화상 중, 결정된 상기 유사도가 가장 높은 문서 화상을, 상기 입력 문서 화상에 매칭되는 문서 화상으로서 결정하는 결정 단계를 포함하는, 화상 처리 방법.
  15. 컴퓨터가 방법을 실행하게 하는 프로그램을 저장하는 비일시적 컴퓨터 판독가능 저장 매체이며, 상기 방법은,
    입력 문서 화상에 대해서 영역 분할 처리를 행함으로써 텍스트 속성을 갖는 하나 이상의 블록을 추출하는, 추출 단계;
    상기 입력 문서 화상과 복수의 문서 화상 각각에 대해서, 복수의 상이한 범위에 대한 임시 유사도를 산출하는, 산출 단계,
    산출된 상기 임시 유사도에 기초하여 상기 입력 문서 화상과 상기 복수의 문서 화상 각각 사이의 유사도를 결정하는, 결정 단계 (상기 임시 유사도 각각은, 상기 입력 문서 화상과 상기 복수의 문서 화상 각각에서의 유사도의 산출 대상인 복수의 상이한 범위 각각에 포함된 하나 이상의 추출된 블록의 배열과 형상에 기초하여 산출됨); 및
    상기 복수의 문서 화상 중, 결정된 상기 유사도가 가장 높은 문서 화상을, 상기 입력 문서 화상에 매칭되는 문서 화상으로서 결정하는 결정 단계를 포함하는, 비일시적 컴퓨터 판독가능 저장 매체.
KR1020180112578A 2017-09-21 2018-09-20 화상 처리 장치, 화상 처리 방법, 및 저장 매체 KR102403964B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017181695A JP7013182B2 (ja) 2017-09-21 2017-09-21 情報処理装置、情報処理方法およびプログラム
JPJP-P-2017-181695 2017-09-21

Publications (2)

Publication Number Publication Date
KR20190033451A KR20190033451A (ko) 2019-03-29
KR102403964B1 true KR102403964B1 (ko) 2022-06-02

Family

ID=65719329

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180112578A KR102403964B1 (ko) 2017-09-21 2018-09-20 화상 처리 장치, 화상 처리 방법, 및 저장 매체

Country Status (4)

Country Link
US (1) US10817559B2 (ko)
JP (1) JP7013182B2 (ko)
KR (1) KR102403964B1 (ko)
CN (1) CN109543501B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7013182B2 (ja) * 2017-09-21 2022-01-31 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP2021027556A (ja) 2019-08-08 2021-02-22 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP7486954B2 (ja) 2020-01-08 2024-05-20 Tis株式会社 帳票処理プログラム、帳票処理装置及び帳票処理方法
JP7391672B2 (ja) * 2020-01-21 2023-12-05 キヤノン株式会社 文書を電子化するための画像処理システム、その制御方法及びプログラム
KR102284781B1 (ko) * 2020-05-19 2021-08-02 (주)가온아이 문서의 스캔 이미지에 대한 보정이 가능한 전자 장치 및 그 동작 방법
CN112000834A (zh) * 2020-08-26 2020-11-27 北京百度网讯科技有限公司 文档处理方法、装置、系统、电子设备及存储介质
CN112052835B (zh) * 2020-09-29 2022-10-11 北京百度网讯科技有限公司 信息处理方法、信息处理装置、电子设备和存储介质
JP2022100071A (ja) 2020-12-23 2022-07-05 キヤノン株式会社 画像処理装置、画像処理システム、その制御方法及びプログラム
CN113095316B (zh) * 2021-04-15 2023-04-07 西安电子科技大学 基于多级融合和角点偏移的图像旋转目标检测方法
JP2022170175A (ja) * 2021-04-28 2022-11-10 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
KR102394483B1 (ko) * 2021-09-02 2022-05-04 (주)가온아이 전자 문서에 오류가 있는지 여부를 판단하는 오류 판단 서비스를 제공하기 위한 서비스 제공 서버 및 그 동작 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334337A (ja) 2003-04-30 2004-11-25 Canon Inc 画像処理装置
JP2007172077A (ja) 2005-12-19 2007-07-05 Fuji Xerox Co Ltd 画像検索システム及び方法及びプログラム
WO2010122721A1 (ja) * 2009-04-22 2010-10-28 日本電気株式会社 照合装置、照合方法および照合プログラム
JP2011141664A (ja) * 2010-01-06 2011-07-21 Canon Inc 文書比較装置、文書比較方法、及びプログラム
WO2017009900A1 (ja) 2015-07-10 2017-01-19 株式会社日立製作所 文書処理システム及び文書処理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322512A (ja) 1999-05-13 2000-11-24 Canon Inc 帳票処理装置及び帳票処理方法
JP4140221B2 (ja) * 2001-09-18 2008-08-27 富士ゼロックス株式会社 画像照合装置および画像照合プログラム
JP2004348706A (ja) 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP4366119B2 (ja) * 2003-05-29 2009-11-18 キヤノン株式会社 文書処理装置
JP4328692B2 (ja) * 2004-08-11 2009-09-09 国立大学法人東京工業大学 物体検出装置
JP4859025B2 (ja) 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US7639893B2 (en) * 2006-05-17 2009-12-29 Xerox Corporation Histogram adjustment for high dynamic range image mapping
JP2008181460A (ja) 2007-01-26 2008-08-07 Ricoh Co Ltd 文書画像検索装置および文書画像検索方法
JP4420085B2 (ja) * 2007-08-20 2010-02-24 ソニー株式会社 データ処理装置、データ処理方法、プログラムおよび記録媒体
JP5006764B2 (ja) * 2007-11-08 2012-08-22 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、および記憶媒体
JP5111268B2 (ja) 2008-07-09 2013-01-09 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP4934701B2 (ja) * 2009-06-30 2012-05-16 株式会社日立製作所 ステレオ画像処理装置およびステレオ画像処理方法
JP4940270B2 (ja) 2009-07-06 2012-05-30 シャープ株式会社 画像形成装置
US8582890B2 (en) * 2010-10-15 2013-11-12 DigitalOptics Corporation Europe Limited Image sharpening via gradient environment detection
JP6511986B2 (ja) * 2015-06-26 2019-05-15 富士通株式会社 プログラム生成装置、プログラム生成方法および生成プログラム
CN105426884A (zh) * 2015-11-10 2016-03-23 佛山科学技术学院 一种基于全幅特征提取的快速文档类型识别方法
DE112016002782T5 (de) * 2016-08-24 2018-07-05 Google LLC (n.d.Ges.d. Staates Delaware) Änderungserkennungsbasiertes System zur Aktualisierung von Kartenschnittstellen
JP7013182B2 (ja) * 2017-09-21 2022-01-31 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334337A (ja) 2003-04-30 2004-11-25 Canon Inc 画像処理装置
JP2007172077A (ja) 2005-12-19 2007-07-05 Fuji Xerox Co Ltd 画像検索システム及び方法及びプログラム
WO2010122721A1 (ja) * 2009-04-22 2010-10-28 日本電気株式会社 照合装置、照合方法および照合プログラム
JP2011141664A (ja) * 2010-01-06 2011-07-21 Canon Inc 文書比較装置、文書比較方法、及びプログラム
WO2017009900A1 (ja) 2015-07-10 2017-01-19 株式会社日立製作所 文書処理システム及び文書処理方法

Also Published As

Publication number Publication date
US10817559B2 (en) 2020-10-27
CN109543501B (zh) 2023-07-04
US20190087444A1 (en) 2019-03-21
JP7013182B2 (ja) 2022-01-31
KR20190033451A (ko) 2019-03-29
CN109543501A (zh) 2019-03-29
JP2019057173A (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
US20210209359A1 (en) Image processing apparatus, control method for image processing apparatus, and non-transitory storage medium
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
JP5111268B2 (ja) 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US20040218838A1 (en) Image processing apparatus and method therefor
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US20040220962A1 (en) Image processing apparatus, method, storage medium and program
US11908215B2 (en) Information processing apparatus, information processing method, and storage medium
JP2008022159A (ja) 文書処理装置及び文書処理方法
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US11907651B2 (en) Information processing apparatus, information processing method, and storage medium
JP4261988B2 (ja) 画像処理装置及び方法
JP4811133B2 (ja) 画像形成装置及び画像処理装置
JP2010231637A (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
JP2019153919A (ja) 画像処理装置、その制御方法、及びプログラム
US20230273952A1 (en) Image processing apparatus, image processing method, and storage medium
JPWO2020044537A1 (ja) 画像照合装置、画像照合方法、及びプログラム
JP6869394B1 (ja) 検証装置、検証方法、及び、検証プログラム
US10922538B2 (en) Information processing apparatus that determines whether a PDF file is searchable, and method and storage medium thereof
JP6798309B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2004280691A (ja) 文書ファイリング装置
JP2021144673A (ja) 画像処理装置、画像処理方法、およびプログラム
JPH05128307A (ja) 文字認識装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right