JP2006031181A - Image retrieval system, method, storage medium, and program - Google Patents

Image retrieval system, method, storage medium, and program Download PDF

Info

Publication number
JP2006031181A
JP2006031181A JP2004206439A JP2004206439A JP2006031181A JP 2006031181 A JP2006031181 A JP 2006031181A JP 2004206439 A JP2004206439 A JP 2004206439A JP 2004206439 A JP2004206439 A JP 2004206439A JP 2006031181 A JP2006031181 A JP 2006031181A
Authority
JP
Japan
Prior art keywords
document
page
image
similarity
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004206439A
Other languages
Japanese (ja)
Inventor
Masahiro Matsushita
昌弘 松下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004206439A priority Critical patent/JP2006031181A/en
Publication of JP2006031181A publication Critical patent/JP2006031181A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image retrieval system which precisely retrieves an original electronic document, when the original electronic document is retrieved from printed matter, even if the printed matter is a document comprising a plurality of pages or having addition, removal, alteration or replacement of pages, and also provide a method, a recording medium and a program therefor. <P>SOLUTION: Image data groups including a plurality of document images each comprising a plurality of pages are stored in a client PC 102 or the like in association with their feature quantities. An MFP 100 electronically reads printed matter having a plurality of pages in units of pages, converts them to electronic data, and extracts the feature quantities. Then, the feature quantities of the electronic data are compared, for each page, with the feature quantity of each document image included in the image data groups to compute similarity, and a document image corresponding to the electronic data is retrieved, as the candidate image data, from the image data groups based on the similarity. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、画像検索装置、方法、記憶媒体及びプログラムに関し、特に、複写機等の画像入力装置で読み取った紙文書から、それに対する印刷、配信、蓄積、編集等に活用可能なオリジナルの電子データを検索する画像検索装置、方法、記憶媒体及びプログラムに関する。   The present invention relates to an image search apparatus, method, storage medium, and program, and in particular, original electronic data that can be used for printing, distribution, storage, editing, and the like from a paper document read by an image input device such as a copying machine. The present invention relates to an image search device, a method, a storage medium, and a program.

近年、オフィスのペーパレス化が唱えられ、電子文書の利用が盛んになりつつある。その一方で、紙文書には、目が疲れにくい、全体を概観しやすい、書き込める等の電子文書にはないメリットがある。そのため、現在、多くのオフィスでは、電子文書と紙文書のそれぞれのメリットを生かし、電子文書と紙文書が併用されている状況にある。そこで、このような状況において紙文書と電子文書との取り扱いの差異を軽減するために、電子文書から紙文書へ、或いは紙文書から電子文書への相互の移行が容易にできるような環境が求められている。   In recent years, the use of electronic documents has become popular as paperless offices have been advocated. On the other hand, paper documents have advantages not found in electronic documents, such as less eye fatigue, easy overview, and writing. For this reason, many offices are currently using both electronic documents and paper documents by taking advantage of the merits of electronic documents and paper documents. Therefore, in order to reduce the difference in handling between paper documents and electronic documents in such a situation, an environment that facilitates mutual transition from electronic documents to paper documents or from paper documents to electronic documents is required. It has been.

電子文書から紙文書への移行は、一般に電子文書をプリンタを用いて紙に印刷することで容易に達成できる。それに対して、紙文書から電子文書への移行は、紙文書をスキャナを用いて読み取り、画像データとして電子化する方法が一般的に行われている。   Transition from an electronic document to a paper document can generally be easily achieved by printing the electronic document on paper using a printer. On the other hand, a method of shifting from a paper document to an electronic document is generally performed by reading the paper document using a scanner and digitizing it as image data.

しかしながら、紙文書に対応するオリジナルの電子文書が既に存在している場合は、紙文書を改めて電子文書に移行するよりも、紙文書に対応するオリジナルの電子文書を用いて、紙文書を電子文書に移行するほうが望ましい。   However, if the original electronic document corresponding to the paper document already exists, the original electronic document corresponding to the paper document is used to convert the paper document to the electronic document, rather than transferring the paper document to the electronic document again. It is better to move to.

これを実現する方法として、例えば、電子文書をラスタ画像に変換して電子文書と対応付けて保存し、紙文書をスキャンして得られたラスタ画像と、電子文書を変換したラスタ画像とを、その特徴量の類似性を比較することにより、紙文書のラスタ画像からオリジナルの電子文書を検索することを可能にする方法が知られている(例えば、特許文献1参照。)。   As a method for realizing this, for example, an electronic document is converted into a raster image, stored in association with the electronic document, a raster image obtained by scanning a paper document, and a raster image obtained by converting the electronic document, A method is known that makes it possible to search an original electronic document from a raster image of a paper document by comparing the similarity of the feature amounts (see, for example, Patent Document 1).

例えば、会議で発表する時に用いた資料を紙文書として出席者に配布されることは一般的に行われているが、上記方法により、配布された紙文書からオリジナルの電子文書を取り出すことが可能になる。そのため、会議の出席者は、配布された紙文書を利用して、対応するオリジナルの電子文書を編集したり、会議に出席していない人にその電子文書から得られる紙文書を配布したりすることが可能になる。   For example, materials used for presentations at meetings are generally distributed to attendees as paper documents, but the original electronic document can be extracted from the distributed paper documents using the method described above. become. Therefore, meeting attendees can use the distributed paper document to edit the corresponding original electronic document or distribute the paper document obtained from the electronic document to those who are not attending the meeting. It becomes possible.

また、オリジナル文書が紙文書である場合に、その紙文書をスキャンして得られたラスタ画像データをオリジナルのラスタ画像データとして記憶しておき、配布された紙文書をスキャンして得られたラスタ画像データと、オリジナルのラスタ画像データとを比較することにより、オリジナル文書を検索する方法が知られている(例えば、特許文献2参照。)。   Further, when the original document is a paper document, raster image data obtained by scanning the paper document is stored as original raster image data, and the raster document obtained by scanning the distributed paper document is stored. A method for searching an original document by comparing image data with original raster image data is known (see, for example, Patent Document 2).

現状では、製品のパンフレットのように、社外から紙文書としてオリジナル文書を入手する場合も多くある。このような場合、オリジナルの紙文書のコピーが何世代にも渡って行われると画質が劣化することから、このようにして、オリジナル文書のラスタ画像データを保持しておき、オリジナルのラスタ画像データを検索することには意味がある。   At present, original documents are often obtained as paper documents from outside the company, such as product brochures. In such a case, if the original paper document is copied for generations, the image quality deteriorates. Thus, the raster image data of the original document is retained in this way, and the original raster image data is stored. It makes sense to search for.

さらに、紙原稿をスキャンして得られたラスタ画像データをオリジナルのラスタ画像データと比較してオリジナル文書を検索する際に、ページごとにスキャンして得られたラスタ画像データとオリジナル画像データとの比較を行うことによって、紙原稿をすべてスキャンしなくてもオリジナル原稿を検索する方法が知られている(例えば、特許文献3参照)。
特開2001−256256号公報 特開平5−37748号公報 特願2003−143493号公報
Further, when the original document is searched by comparing the raster image data obtained by scanning the paper document with the original raster image data, the raster image data obtained by scanning each page and the original image data are searched. A method is known in which an original document is searched by performing comparison without scanning all paper documents (see, for example, Patent Document 3).
JP 2001-256256 A JP-A-5-37748 Japanese Patent Application No. 2003-143493

しかしながら、一般的な紙文書には、1ページのみで構成される文書よりも、複数ページから構成される文書が多い。これに対し、特許文献1に記載の技術によれば、全ページ分のラスタ画像の特徴量を比較条件とするために、スキャンした紙文書のラスタ画像を一時的に記憶保持しておくメモリが全ページ分必要になり、メモリ容量が増加するという課題があった。   However, general paper documents include more documents composed of a plurality of pages than documents composed of only one page. On the other hand, according to the technique described in Patent Document 1, in order to use the feature values of raster images for all pages as a comparison condition, there is a memory that temporarily stores and holds raster images of scanned paper documents. There is a problem that the memory capacity increases because all pages are required.

仮に、特許文献1に記載の技術において、全ページ分のラスタ画像の特徴量を比較条件としないでオリジナルの電子文書を特定するためには、比較先画像となるオリジナル文書それぞれの全ページとのラスタ画像を比較する必要があり、処理時間が増加するという課題が生じる。   In the technique described in Patent Document 1, in order to specify an original electronic document without using the feature values of raster images for all pages as a comparison condition, it is necessary to compare all the pages of each original document as a comparison destination image. Raster images need to be compared, which causes a problem that processing time increases.

また、特許文献2に記載の技術によれば、先頭ページ等の特定ページのみを比較条件とすることによって、使用するメモリを低減する方法が示されている。しかし、オフィスで使用される文書には類似する文書も多く、先頭ページ等の特定ページのみを比較条件とするだけではオリジナルの文書を適切に特定できない場合があり、オリジナル文書を精度よく検索することができないという課題があった。   Further, according to the technique described in Patent Document 2, a method of reducing the memory to be used by using only a specific page such as the first page as a comparison condition is shown. However, there are many similar documents used in the office, and there are cases where the original document cannot be specified properly only by using only a specific page such as the first page as a comparison condition. There was a problem that it was not possible.

また、特許文献3に記載の技術によれば、先頭ページから順に比較する際に、候補を絞っていくことによって、処理に必要とするメモリ容量を増加させない方法が示されている。しかし、紙文書は、取り扱われているうちに得てして、ばらばらになりがちである。例えば、紙文書中の一部のページを紛失してしまったり、順番が入れ替わってしまったり、場合によっては他の文書のページが混ざってしまうことさえある。そのため、スキャンした紙文書の中にそのようなページが存在すると、特許文献3に記載の技術では、本来は候補となるべきオリジナル文書が検索途中で候補からはずれてしまい、オリジナル文書を適切に検索できなくなるという課題があった。   Further, according to the technique described in Patent Document 3, a method is shown in which the memory capacity required for processing is not increased by narrowing down candidates when sequentially comparing from the first page. However, paper documents tend to get while being handled and fall apart. For example, some pages in a paper document may be lost, the order may be changed, or pages from other documents may be mixed. Therefore, if such a page exists in a scanned paper document, the technique described in Patent Document 3 causes the original document that should originally be a candidate to be removed from the candidate during the search, and the original document is appropriately searched. There was a problem that it could not be done.

さらに、オリジナル文書が特定された時点で紙文書のスキャンを終了するために、そのページ以降に存在する紙文書の追加、欠落、変更、入れ替えを検出することができず、オリジナル原稿との差異を適切に認識することができないという課題があった。   Furthermore, since the scanning of the paper document is completed when the original document is specified, the addition, omission, change, or replacement of the paper document existing after that page cannot be detected, and the difference from the original document can be detected. There was a problem that it could not be properly recognized.

本発明は、このような事情を考慮してなされたものであり、印刷物からオリジナルの電子文書を検索する場合に、その印刷物が複数のページから構成される文書の場合や、その印刷物にページの追加、欠落、変更、入れ替えがある場合であっても、オリジナルの電子文書を精度良く検索することができる画像検索装置、方法、記録媒体及びプログラムを提供することを目的とする。   The present invention has been made in consideration of such circumstances, and when searching for an original electronic document from a printed matter, the case where the printed matter is a document composed of a plurality of pages, or a page of the printed matter. An object of the present invention is to provide an image search apparatus, method, recording medium, and program capable of accurately searching an original electronic document even when there are additions, omissions, changes, and replacements.

上記課題を解決するために、本発明に係る画像検索装置は、
複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶する記憶手段と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取手段と、
前記電子データの特徴量を抽出する抽出手段と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索手段と
を備えることを特徴とする。
In order to solve the above problems, an image search device according to the present invention provides:
Storage means for storing a plurality of document images composed of a plurality of pages in association with respective feature amounts;
Reading means for electronically reading a plurality of pages of printed matter on a page basis and converting it into electronic data;
Extraction means for extracting feature quantities of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images And a search means for searching for a document image corresponding to the electronic data as candidate data.

また、上記課題を解決するために、本発明に係る画像検索方法は、
複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶装置に記憶する記憶工程と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取工程と、
前記電子データの特徴量を抽出する抽出工程と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索工程と
を有することを特徴とする。
In addition, in order to solve the above problem, an image search method according to the present invention includes:
A storage step of storing a plurality of document images of a plurality of pages in a storage device in association with respective feature amounts;
A reading step of electronically reading a plurality of pages of printed matter in units of pages and converting it into electronic data;
An extraction step of extracting a feature amount of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images And a search step of searching for a document image corresponding to electronic data as candidate data.

さらに、上記課題を解決するために、本発明に係るプログラムは、
コンピュータに、
複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶装置に記憶する記憶手順と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取手順と、
前記電子データの特徴量を抽出する抽出手順と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索手順と
を実行させることを特徴とする。
Furthermore, in order to solve the above-described problem, a program according to the present invention provides:
On the computer,
A storage procedure for storing a plurality of document images composed of a plurality of pages in a storage device in association with respective feature amounts;
A reading procedure for electronically reading a multi-page printed matter page by page and converting it into electronic data;
An extraction procedure for extracting feature quantities of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images And a search procedure for searching for a document image corresponding to electronic data as candidate data.

さらにまた、本発明は、上記プログラムを格納したことコンピュータ読み取り可能な記憶媒体であることを特徴とする。   Furthermore, the present invention is a computer-readable storage medium storing the program.

本発明によれば、印刷物から電子文書を検索する場合に、その印刷物が複数のページから構成される文書の場合や、その印刷物にページの追加、欠落、変更、入れ替えがある場合であっても、電子文書を精度良く検索することができる。   According to the present invention, when searching for an electronic document from a printed material, even if the printed material is a document composed of a plurality of pages, or there are additions, omissions, changes, and replacements of pages in the printed material. The electronic document can be searched with high accuracy.

また、本発明によれば、印刷物から電子文書を検索する場合に、当該印刷物にページの追加、欠落、変更、入れ替えがあった場合、その状態を好適に検出することができる。   In addition, according to the present invention, when an electronic document is searched from a printed material, if a page is added, missing, changed, or replaced on the printed material, the state can be suitably detected.

以下、図面を参照して、本発明の一実施形態について詳細に説明する。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

<第1の実施形態>
図1は、本発明の第1の実施形態に係る画像処理システムの構成を示すブロック図である。図1に示すように、第1の実施形態に係る画像処理システムは、オフィス10とオフィス20とをインターネット等のネットワーク104で接続された環境で実現する。
<First Embodiment>
FIG. 1 is a block diagram showing a configuration of an image processing system according to the first embodiment of the present invention. As shown in FIG. 1, the image processing system according to the first embodiment is realized in an environment in which an office 10 and an office 20 are connected by a network 104 such as the Internet.

オフィス10内に構築されたLAN107には、複数種類の機能を実現する複合機であるMFP(Multi−Function Peripheral)100、MFP100を制御するマネージメントPC101、クライアントPC102、文書管理サーバ106a及びそのデータベース105a、及びプロキシサーバ103aが接続されている。また、オフィス20内に構築されたLAN108には、文書管理サーバ106b及びそのデータベース105bが接続されている。   The LAN 107 constructed in the office 10 includes an MFP (Multi-Function Peripheral) 100 that is a multi-function machine that realizes a plurality of functions, a management PC 101 that controls the MFP 100, a client PC 102, a document management server 106a, and a database 105a thereof. And a proxy server 103a. A document management server 106b and its database 105b are connected to the LAN 108 built in the office 20.

オフィス10内のLAN107及びオフィス20内のLAN108は、双方のオフィスのプロキシサーバ103a、bを介してネットワーク104に接続されている。   The LAN 107 in the office 10 and the LAN 108 in the office 20 are connected to the network 104 via proxy servers 103a and 103b in both offices.

MFP100は、特に、紙文書を電子的に読み取る画像読取部と、画像読取部から得られる画像信号に対する画像処理を実行する画像処理部とを有している。そして、MFP100は、この画像信号をLAN109を介してマネージメントPC101に送信することができる。   In particular, MFP 100 includes an image reading unit that electronically reads a paper document and an image processing unit that performs image processing on an image signal obtained from the image reading unit. Then, the MFP 100 can transmit this image signal to the management PC 101 via the LAN 109.

マネージメントPC101は、通常のPCで実現することが可能であり、内部に画像記憶部、画像処理部、表示部、入力部等の各種構成要素を有する。尚、その構成要素の一部をMFP100に一体化して構成するようにしてもよい。   The management PC 101 can be realized by a normal PC and includes various components such as an image storage unit, an image processing unit, a display unit, and an input unit. Note that some of the components may be integrated with the MFP 100.

尚、ネットワーク104は、典型的にはインターネット、LAN、WAN、電話回線、専用デジタル回線、ATM、フレームリレー回線、通信衛星回線、ケーブルテレビ回線、データ放送用無線回線等のいずれか、又はこれらの組み合わせにより実現されるいわゆる通信ネットワークであり、データの送受信が可能であれば良い。   The network 104 is typically the Internet, a LAN, a WAN, a telephone line, a dedicated digital line, ATM, a frame relay line, a communication satellite line, a cable TV line, a data broadcasting wireless line, or the like. It is a so-called communication network realized by a combination, and it is sufficient if data can be transmitted and received.

また、マネージメントPC101、クライアントPC102、文書管理サーバ等の各種端末はそれぞれ、汎用コンピュータに搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等)を有している。   In addition, various terminals such as the management PC 101, client PC 102, and document management server are standard components (for example, CPU, RAM, ROM, hard disk, external storage device, network interface, display, keyboard) mounted on a general-purpose computer. , Mouse etc.).

次に、MFP100の詳細構成について、図2を用いて説明する。図2は、本発明の第1の実施形態におけるMFP100の細部構成を示すブロック図である。   Next, a detailed configuration of the MFP 100 will be described with reference to FIG. FIG. 2 is a block diagram showing a detailed configuration of the MFP 100 according to the first embodiment of the present invention.

図2において、原稿台とオートドキュメントフィーダ(ADF)を含む画像読取部110は、束状の、或いは1枚の原稿画像を光源(不図示)で照射し、原稿反射像をレンズで固体撮像素子上に結像し、固体撮像素子からラスタ状の画像読取信号を所定密度(例えば、600DPI)のラスタ画像として得る。   In FIG. 2, an image reading unit 110 including a document table and an auto document feeder (ADF) irradiates a bundle or one document image with a light source (not shown), and reflects a document reflection image with a lens as a solid-state image sensor. An image is formed above, and a raster-like image reading signal is obtained from the solid-state imaging device as a raster image having a predetermined density (for example, 600 DPI).

尚、第1の実施形態では、画像読取部110で読み取られる印刷物として、紙文書を例に挙げて説明するが、紙以外の記録媒体(例えば、OHPシート、フィルム等の透過原稿、布等)からなる印刷物を画像読取部110の読み取り対象としても良い。   In the first embodiment, a paper document is described as an example of a printed matter read by the image reading unit 110. However, a recording medium other than paper (for example, an OHP sheet, a transparent original such as a film, a cloth, or the like). The printed material may be a reading target of the image reading unit 110.

また、MFP100は、画像読取信号に対応する画像を印刷部112で記録媒体に印刷する複写機能を有している。そして、原稿画像を1つ複写する場合、MFP100は、画像読取信号をデータ処理部115で画像処理して記録信号を生成し、これを印刷部112によって記録媒体上に印刷させる。一方、原稿画像を複数複写する場合、MFP100は、記憶部111に一旦1つ分の記録信号を記憶保持させた後、これを印刷部112に順次出力して記録媒体上に印刷させる。   The MFP 100 also has a copying function for printing an image corresponding to the image reading signal on a recording medium by the printing unit 112. When copying one original image, the MFP 100 performs image processing on the image reading signal by the data processing unit 115 to generate a recording signal, and causes the printing unit 112 to print it on a recording medium. On the other hand, when copying a plurality of document images, the MFP 100 once stores and holds one recording signal in the storage unit 111 and then sequentially outputs the recording signal to the printing unit 112 to print it on a recording medium.

一方、クライアントPC102から出力される記録信号は、LAN107及びネットワークIF114を介してデータ処理部115が受信し、データ処理部115は、その記録信号を印刷部112で記録可能なラスタデータに変換した後、印刷部112によって記録媒体上に印刷させる。   On the other hand, the recording signal output from the client PC 102 is received by the data processing unit 115 via the LAN 107 and the network IF 114, and the data processing unit 115 converts the recording signal into raster data that can be recorded by the printing unit 112. The printing unit 112 prints on the recording medium.

MFP100への操作者の指示は、MFP100に装備されたキー操作部とマネージメントPC101に接続されたキーボード及びマウスからなる入力部113から行われ、これら一連の動作はデータ処理部115内の制御部(不図示)で制御される。また、操作入力の状態表示及び処理中の画像データの表示は、表示部116で行われる。   An operator's instruction to the MFP 100 is performed from a key operation unit equipped in the MFP 100 and an input unit 113 including a keyboard and a mouse connected to the management PC 101. These series of operations are performed by a control unit (in the data processing unit 115). (Not shown). Further, the display of the operation input status and the image data being processed is performed on the display unit 116.

記憶部111は、マネージメントPC101からも制御され、MFP100とマネージメントPC101とのデータの送受信及び制御は、ネットワークIF117及びLAN109を介して行われる。   The storage unit 111 is also controlled by the management PC 101, and data transmission / reception and control between the MFP 100 and the management PC 101 are performed via the network IF 117 and the LAN 109.

データベース118は、画像読取部110で読み取った紙文書の文書画像、その文書画像に関する情報、及び、クライアントPC102内のハードディスク内、或いはオフィス10、20内の文書管理サーバ106a、bのデータベース105a、b内の電子文書の画像画像に関する情報を登録、管理する。   The database 118 is a document image of a paper document read by the image reading unit 110, information about the document image, and databases 105a and b of the document management servers 106a and 106b in the hard disk in the client PC 102 or in the offices 10 and 20. Registers and manages information related to image images in the electronic document.

尚、MFP100では、後述する各種処理を実行するための各種操作・表示をユーザに提供するユーザインタフェースを、表示部116及び入力部113によって実現する。   In MFP 100, display unit 116 and input unit 113 realize a user interface that provides a user with various operations and displays for executing various processes described below.

本実施形態に係る画像処理システムで実行する処理としては、大きく分けて、画像データを登録する登録処理と、所望の画像データを検索する検索処理との2つがある。尚、本実施形態では、画像処理システム全体の処理効率を向上するために、以下に説明する各種処理を、画像処理システムを構成する各種端末に分散させて実行するようにしているが、1つの端末(例えば、MFP100)上で実行するようにしても構わない。   The processing executed by the image processing system according to the present embodiment can be broadly divided into a registration processing for registering image data and a search processing for searching for desired image data. In this embodiment, in order to improve the processing efficiency of the entire image processing system, various processes described below are executed by being distributed to various terminals constituting the image processing system. It may be executed on a terminal (for example, MFP 100).

最初に、第1の実施形態に係る画像処理システムにおける登録処理の詳細について説明する。   First, details of registration processing in the image processing system according to the first embodiment will be described.

[登録処理の概要]
登録対象の画像データの登録方法としては、文書作成アプリケーション等で作成された電子ファイルをオリジナル文書として登録する場合と、紙文書をスキャンした電子ファイルをオリジナル文書として登録する場合とがある。
[Overview of registration process]
As registration methods of image data to be registered, an electronic file created by a document creation application or the like is registered as an original document, and an electronic file obtained by scanning a paper document is registered as an original document.

(A)電子文書の登録処理の概要
まず、マネージメントPC101の制御のもとに、電子文書をオリジナル文書としてMFP100内のデータベース118に登録する登録処理の概要について図3Aを用いて説明する。図3Aは、本発明の第1の実施形態に係る画像処理システムにおける電子文書の登録処理を説明するためのフローチャートである。尚、登録対象の電子文書は、クライアントPC102内のハードディスク内、オフィス10、20内の文書管理サーバ106a、bのデータベース105a、b内のいずれかに格納されている。
(A) Outline of Electronic Document Registration Process First, an outline of a registration process for registering an electronic document as an original document in the database 118 in the MFP 100 under the control of the management PC 101 will be described with reference to FIG. 3A. FIG. 3A is a flowchart for explaining the electronic document registration process in the image processing system according to the first embodiment of the present invention. The electronic document to be registered is stored in either the hard disk in the client PC 102 or the databases 105a and 105b of the document management servers 106a and 106b in the offices 10 and 20.

そこで、まず、マネージメントPC101は、これらの格納元から定められた順序に従って電子文書を一つずつ取得し、ネットワークI/F114を介して記憶部111に格納する(ステップS3101)。次に、全ての電子文書の取得が終了したか否かを判定する(ステップS3102)。その結果、電子文書の取得が終了して新たな電子文書を取得しない場合(Yes)は、登録処理を終了する。一方、電子文書の取得が終了していない場合(No)はステップS3103に進む。   Therefore, first, the management PC 101 acquires electronic documents one by one according to the order determined from these storage sources, and stores them in the storage unit 111 via the network I / F 114 (step S3101). Next, it is determined whether or not all electronic documents have been acquired (step S3102). As a result, when the acquisition of the electronic document ends and no new electronic document is acquired (Yes), the registration process ends. On the other hand, if the acquisition of the electronic document has not been completed (No), the process proceeds to step S3103.

ステップS3103では、取得した電子文書に固有の文書IDを発行し、その電子文書(電子ファイル)の格納場所を示すアドレスと対応付けて、データベース118内のアドレス情報として登録する。ここで、文書IDとは、データベース118内に格納される電子文書を識別するためのIDであり、電子文書を一つ登録するごとに、使用されていないIDが発行される。また、アドレスとは、URLや、サーバ名、ホスト名、共有名、ディレクトリ、ファイル名等からなる電子文書の格納先を示すフルパス情報である。図4は、第1の実施形態において登録される文書IDとアドレスからなるアドレス情報の一例を示す図である。   In step S3103, a unique document ID is issued to the acquired electronic document, and is registered as address information in the database 118 in association with an address indicating the storage location of the electronic document (electronic file). Here, the document ID is an ID for identifying an electronic document stored in the database 118, and an unused ID is issued each time one electronic document is registered. The address is full path information indicating a storage destination of an electronic document including a URL, a server name, a host name, a shared name, a directory, and a file name. FIG. 4 is a diagram illustrating an example of address information including a document ID and an address registered in the first embodiment.

次に、取得した電子文書を、データ処理部115で1ページずつラスタ画像に変換して画像を生成し、記憶部111に格納する(ステップS3104)。その後、電子文書の各ページのラスタ画像への変換が終了したか否かを判定する(ステップS3105)。その結果、変換が終了したと判定された場合(Yes)は、ステップS3101に戻って次の電子文書を取得する。一方、変換が終了していないと判定された場合(No)は、ステップS3106に進む。   Next, the acquired electronic document is converted into a raster image page by page by the data processing unit 115 to generate an image, and is stored in the storage unit 111 (step S3104). Thereafter, it is determined whether or not the conversion of each page of the electronic document into a raster image has been completed (step S3105). As a result, if it is determined that the conversion has been completed (Yes), the process returns to step S3101 to acquire the next electronic document. On the other hand, if it is determined that the conversion has not ended (No), the process proceeds to step S3106.

ステップS3106では、記憶部111に格納されている1ページ分のラスタ画像に対して、ブロックセレクション(BS)処理を行う。この処理は、マネージメントPC101の制御によって実行される。   In step S3106, block selection (BS) processing is performed on the raster image for one page stored in the storage unit 111. This process is executed under the control of the management PC 101.

具体的には、マネージメントPC101のCPUによって、記憶部111に格納された処理対象のラスタ画像を、文字/線画部分とハーフトーン画像部分とに領域分割する。次いで、文字/線画部分については、さらに段落で塊として纏まっているブロック毎に、或いは線で構成された表や図形毎に分割する。一方、ハーフトーン画像部分については、矩形に分離されたブロックの画像部分、背景部分等のブロックに分割する。   More specifically, the CPU of the management PC 101 divides the raster image to be processed stored in the storage unit 111 into a character / line image portion and a halftone image portion. Next, the character / line drawing portion is further divided for each block grouped as a lump in the paragraph, or for each table or figure composed of lines. On the other hand, the halftone image part is divided into blocks such as an image part of a block separated into a rectangle and a background part.

次に、ステップS3106におけるブロックセレクション処理の処理対象のページ画像のページ番号、そのページ中の各ブロックを特定するブロックIDを発行し、各ブロックの属性(画像、文字等)、サイズやオリジナル文書内の位置(ページ内の座標)と各ブロックを関連付けてデータベース118にブロック情報として記憶(登録)する(ステップS3107)。図5は、第1の実施形態においてデータベース118に登録されたブロック情報の一例を示す図である。   Next, the page number of the page image to be processed in the block selection process in step S3106, the block ID for specifying each block in the page, is issued, the attribute (image, character, etc.), size, and original document in each block. Is stored (registered) in the database 118 as block information in association with each block (step S3107). FIG. 5 is a diagram illustrating an example of block information registered in the database 118 in the first embodiment.

次に、データ処理部115において、各ブロックの種別に応じて各ブロックの特徴量情報を抽出する特徴量情報抽出処理を行う(ステップS3108)。特に、文字ブロックについては、OCR処理を施して文字コードを抽出し、これを文字特徴量とする。また、画像ブロックについては、色に関する画像特徴量を抽出する。   Next, the data processing unit 115 performs feature amount information extraction processing for extracting feature amount information of each block according to the type of each block (step S3108). In particular, for character blocks, a character code is extracted by performing OCR processing, and this is used as a character feature amount. For image blocks, image feature values relating to colors are extracted.

次に、それぞれのブロックに対応する特徴量をページ単位にまとめ、文書ID、ページ番号、ブロックIDに関連付けてデータベース118に特徴量情報として記憶する(ステップS3109)。図6及び図7は、それぞれ第1の実施形態においてデータベース118に記憶される色特徴量情報及び文字特徴量の一例を示す図である。   Next, the feature amounts corresponding to the respective blocks are collected in units of pages, and stored as feature amount information in the database 118 in association with the document ID, page number, and block ID (step S3109). 6 and 7 are diagrams illustrating examples of color feature amount information and character feature amounts stored in the database 118 in the first embodiment, respectively.

その後、ステップS3104に戻って、次のページの処理を行う。   Thereafter, the process returns to step S3104 to process the next page.

(B)紙文書の登録処理の概要
次に、マネージメントPC101の制御のもとに、紙文書をオリジナル文書としてMFP100内のデータベース118に登録する登録処理の概要について、図3Bを用いて説明する。図3Bは、本発明の第1の実施形態の紙文書の登録処理を説明するためのフローチャートである。尚、この処理は、画像読取部110のADFに、登録対象の紙文書がセットされ、入力部113の登録ボタンが操作された時点で開始される。
(B) Outline of Paper Document Registration Process Next, an outline of a registration process for registering a paper document as an original document in the database 118 in the MFP 100 under the control of the management PC 101 will be described with reference to FIG. 3B. FIG. 3B is a flowchart for explaining a paper document registration process according to the first embodiment of this invention. This process starts when a paper document to be registered is set in the ADF of the image reading unit 110 and the registration button of the input unit 113 is operated.

まず、入力部113から紙文書からのオリジナル文書の登録処理がオペレータから指示されると、マネージメントPC101は、新たに文書IDを発行し、データベース118内の紙文書の電子データの格納場所を決定し、文書IDと紙文書の電子データの格納場所を示すアドレスと対応付けて、データベース118内のアドレス情報として登録する(ステップS3201)。尚、紙文書の電子データの格納場所は複数ページに対応するために、新たにディレクトリが作成され、アドレス情報には、このディレクトリを指し示すアドレスが格納される。   First, when the operator instructs the registration process of the original document from the paper document from the input unit 113, the management PC 101 issues a new document ID and determines the storage location of the electronic data of the paper document in the database 118. The document ID is registered as address information in the database 118 in association with the address indicating the storage location of the electronic data of the paper document (step S3201). Since the storage location of the electronic data of the paper document corresponds to a plurality of pages, a new directory is created, and an address indicating this directory is stored in the address information.

次に、マネージメントPC101の指示に従い、MFP100の画像読取部110を動作させ、1ページずつ、紙文書をラスタ走査して得られたラスタ画像を記憶部111に読み込む(ステップS3202)。この際、ステップS3201で作成したディレクトリに、1ページ分のラスタ画像を順次電子ファイルとして格納する。尚、電子ファイルのファイル名はページ番号を含むようにし、そのファイル名を参照するだけで、そのファイルのページが識別できるように構成されている。   Next, in accordance with an instruction from the management PC 101, the image reading unit 110 of the MFP 100 is operated, and a raster image obtained by raster scanning a paper document page by page is read into the storage unit 111 (step S3202). At this time, raster images for one page are sequentially stored as electronic files in the directory created in step S3201. The file name of the electronic file includes a page number, and the page of the file can be identified only by referring to the file name.

また、オリジナル文書が紙文書である場合の電子データのファイル形式は、例えば、BMP形式とするが、これに限定されるものではなく、色情報を保存しておくことが可能なファイル形式(例えば、GIF、JPEG等)であればどのようなものでも良い。一方、オリジナル文書が電子データである場合のその電子データのファイル形式は、その電子データを作成したアプリケーション(例えば、マイクロソフト社のMS−Wordや、米アドビシステム社のアクロバット等)で作成されたファイル形式(*.docや*.pdf等)となる。   The file format of the electronic data when the original document is a paper document is, for example, the BMP format, but is not limited to this, and is a file format that can store color information (for example, GIF, JPEG, etc.) may be used. On the other hand, when the original document is electronic data, the file format of the electronic data is a file created by an application that created the electronic data (for example, MS-Word of Microsoft Corporation, Acrobat of Adobe Systems Inc., etc.). Format (* .doc, * .pdf, etc.).

次に、画像読取部110から全てのページの読み込みが終了したか否かを判定する(ステップS3203)。その結果、読み込みが終了した場合(Yes)が、本処理を終了する。一方、読み込みが終了していない場合(No)は、ステップS3204に進む。   Next, it is determined whether all pages have been read from the image reading unit 110 (step S3203). As a result, when the reading is finished (Yes), this processing is finished. On the other hand, if the reading has not been completed (No), the process proceeds to step S3204.

ステップS3204では、記憶部111に格納されている1ページ分のラスタ画像に対して、ブロックセレクション(BS)処理を行う。尚、この処理は、ステップS3106の処理と同様であるため、その詳細な説明は省略する。   In step S 3204, block selection (BS) processing is performed on the raster image for one page stored in the storage unit 111. Since this process is the same as the process of step S3106, detailed description thereof is omitted.

次に、ステップS3204におけるブロックセレクション処理の処理対象のページ画像中の各ブロックに基づいて、ブロック情報を生成して、データベース118に記憶する(ステップS3205)。尚、この処理は、ステップS3107の処理と同様であるため、その詳細な説明は省略する。   Next, block information is generated based on each block in the page image to be processed in step S3204 and stored in the database 118 (step S3205). Since this process is the same as the process of step S3107, detailed description thereof is omitted.

次に、データ処理部115において、各ブロックの種別に応じて、各ブロックの特徴量情報を抽出する特徴量情報抽出処理を行う(ステップS3206)。尚、この処理は、ステップS3108の処理と同じ処理であるため、その詳細な説明は省略する。   Next, the data processing unit 115 performs feature amount information extraction processing for extracting feature amount information of each block according to the type of each block (step S3206). Note that this process is the same as the process of step S3108, and thus detailed description thereof is omitted.

次に、それぞれのブロックに対応する特徴量をページ単位にまとめ、文書ID、ページ番号、ブロックIDに関連付けてデータベース118に特徴量情報として記憶する(ステップS3207)。尚、この処理は、ステップS3109と同じ処理であるため、その詳細な説明は省略する。   Next, the feature amounts corresponding to the respective blocks are collected in units of pages, and stored as feature amount information in the database 118 in association with the document ID, page number, and block ID (step S3207). Since this process is the same as that in step S3109, detailed description thereof is omitted.

その後、ステップS3202に戻って、次のページの処理を行う。   Thereafter, the process returns to step S3202, and the next page is processed.

(C)検索処理の概要
次に、紙文書に基づいて対応するオリジナルの電子ファイル、若しくは画像データを検索し、印刷等を行う検索処理の概要について図3Cを用いて説明する。図3Cは、本発明の第1の実施形態における検索処理を説明するためのフローチャートである。
(C) Outline of Search Process Next, an outline of a search process for searching for a corresponding original electronic file or image data based on a paper document and performing printing or the like will be described with reference to FIG. 3C. FIG. 3C is a flowchart for explaining search processing according to the first embodiment of the present invention.

まず、MFP100の画像読取部110を動作させ、1ページ分の紙文書をラスタ走査して得られたラスタ画像を記憶部111に読み込む(ステップS3301)。次に、画像読取部110から全てのページの読み込みが終了したか否かを判定する(ステップS3302)。その結果、読み込みが終了した場合(Yes)は、ステップS3307に進む。一方、読み込みが終了していない場合(No)は、ステップS3303に進む。   First, the image reading unit 110 of the MFP 100 is operated to read a raster image obtained by raster scanning one page of paper document into the storage unit 111 (step S3301). Next, it is determined whether all pages have been read from the image reading unit 110 (step S3302). As a result, when the reading is completed (Yes), the process proceeds to step S3307. On the other hand, if the reading has not been completed (No), the process proceeds to step S3303.

ステップS3303では、記憶部111に格納されている1ページ分のラスタ画像に対して、ブロックセレクション(BS)処理を行う。尚、この処理は、ステップS3106と同じ処理であるため、その詳細な説明は省略する。但し、このブロックセレクション処理によって生成する各ブロックの属性、サイズ、位置は一時記憶するだけであり、その紙文書に対するブロック情報は記憶部111に保存しておく必要はない。   In step S3303, block selection (BS) processing is performed on the raster image for one page stored in the storage unit 111. Since this process is the same as that in step S3106, detailed description thereof is omitted. However, the attribute, size, and position of each block generated by this block selection process are only temporarily stored, and block information for the paper document need not be stored in the storage unit 111.

次に、各ブロックの特徴量情報を抽出する特徴量情報抽出処理を行う(ステップS3304)。尚、この処理は、ステップS3108の処理と同様であるため、その詳細な説明は省略する。但し、この処理によって生成する各ブロックの特徴量は一時記憶するだけであり、その紙文書に対する特徴量情報を記憶部111に保存しておく必要はない。   Next, feature amount information extraction processing for extracting feature amount information of each block is performed (step S3304). Since this process is the same as the process of step S3108, detailed description thereof is omitted. However, the feature amount of each block generated by this process is only temporarily stored, and it is not necessary to store the feature amount information for the paper document in the storage unit 111.

次に、入力した紙文書のページ画像(比較元画像)に対する特徴量情報と、データベース118に格納されている電子文書の文書IDに対応するオリジナル文書(比較先画像)のすべてのページに対する特徴量情報を比較する(ステップS3305)。   Next, feature amount information for the page image (comparison source image) of the input paper document and feature amounts for all pages of the original document (comparison destination image) corresponding to the document ID of the electronic document stored in the database 118 The information is compared (step S3305).

次に、ステップS3305の比較結果からその類似度を算出し、当該類似度が第1の閾値よりも高い電子文書の文書ID及びページを検索結果リストに追加する(ステップS3306)。ここで、検索結果リストとは、検索結果を管理するリストであり、入力した紙文書のページ番号と、候補となるオリジナル文書の文書IDと、オリジナル文書の該ページのページ番号と、類似度等とからなり、記憶部111に格納される。図8は、第1の実施形態における検索結果リストの構成例を示す図である。   Next, the similarity is calculated from the comparison result of step S3305, and the document ID and page of the electronic document whose similarity is higher than the first threshold are added to the search result list (step S3306). Here, the search result list is a list for managing search results. The page number of the input paper document, the document ID of the candidate original document, the page number of the page of the original document, the similarity, etc. And is stored in the storage unit 111. FIG. 8 is a diagram illustrating a configuration example of a search result list according to the first embodiment.

そして、ステップS3301に戻って、次のページの紙文書を読み取る。   Then, the process returns to step S3301 to read the paper document of the next page.

一方、ステップS3302において、画像読取部110から全てのページの紙文書の読み込みが終了した場合(Yes)はステップS3307に進むが、ここでは検索結果リストを評価して、文書候補リストを作成する。尚、文書候補リストは、候補となるオリジナル文書の文書IDと類似度合計とを含んでおり、記憶部111に格納される。また、この類似度合計が第2の閾値を下回る場合には、文書候補リストから削除される。図9は、第1の実施形態における文書候補リストの構成例を示す図である。   On the other hand, in step S3302, when the reading of the paper documents of all pages from the image reading unit 110 is completed (Yes), the process proceeds to step S3307. Here, the search result list is evaluated to create a document candidate list. Note that the document candidate list includes the document ID of the original document as a candidate and the total similarity, and is stored in the storage unit 111. When the similarity total is below the second threshold, the similarity is deleted from the document candidate list. FIG. 9 is a diagram illustrating a configuration example of a document candidate list in the first embodiment.

次いで、文書候補リスト中の候補数が1つであるか否かが判断される(ステップS3308)。その結果、候補数が1つである場合(Yes)はステップS3310に進み、候補数が2つ以上の場合(No)はステップS3309に進む。   Next, it is determined whether or not the number of candidates in the document candidate list is one (step S3308). As a result, when the number of candidates is one (Yes), the process proceeds to step S3310, and when the number of candidates is two or more (No), the process proceeds to step S3309.

ステップS3309では、文書候補リストに登録されている文書のサムネイル画像を含むユーザインタフェースを表示部116や入力部113で実現し、このユーザインタフェースによって、オリジナル文書候補の表示/選択を行う。特に、この選択は、オリジナル文書候補のサムネイル画像を表示部116に表示し、複数のオリジナル文書候補の中からユーザが所望のオリジナル文書候補のサムネイル画像を選択させることで実現する。そして、このユーザインタフェースによってオリジナル文書が選択されると、そのオリジナル文書の文書IDを特定する。尚、このユーザインタフェースの構成の詳細については後述する。   In step S3309, a user interface including thumbnail images of documents registered in the document candidate list is realized by the display unit 116 and the input unit 113, and original document candidates are displayed / selected by this user interface. In particular, this selection is realized by displaying thumbnail images of original document candidates on the display unit 116 and allowing the user to select thumbnail images of desired original document candidates from among a plurality of original document candidates. When the original document is selected by this user interface, the document ID of the original document is specified. Details of the configuration of this user interface will be described later.

そして最後に、ステップS3310では、特定されたオリジナル文書の文書IDに対して、データベース118内のアドレス情報の文書IDに対応したアドレスを参照して、記憶部111に、オリジナル文書(電子ファイル若しくは画像データ)を読み込み、オペレータの指示に基づいて、そのオリジナル文書の印刷、配信、蓄積、編集のいずれかの処理を実行する。   Finally, in step S3310, the original document (electronic file or image) is stored in the storage unit 111 with reference to the address corresponding to the document ID of the address information in the database 118 with respect to the document ID of the specified original document. Data) is read and the original document is printed, distributed, stored, or edited based on the operator's instructions.

(D)文書情報抽出
次に、紙文書に対応するオリジナルの電子ファイル、若しくは画像データの検索結果から、紙文書のページの増加、削除、変更、差し換えの情報を抽出する処理の概要を説明する。
(D) Document Information Extraction Next, an outline of processing for extracting information on increase, deletion, change, and replacement of pages of a paper document from an original electronic file or image data search result corresponding to the paper document will be described. .

前述したように、図3Cに示す検索処理の結果、図9に示すような文書候補リストが得られる。以下では、一例として文書ID0001で示される文書が検出されたものとする。そこで、以下の処理では、図8に示す検索結果リストのうち、画像ID0001の部分を抽出し、図21A、Bで示されるページ対応表を作成する。   As described above, a document candidate list as shown in FIG. 9 is obtained as a result of the search process shown in FIG. 3C. In the following, it is assumed that the document indicated by the document ID 0001 is detected as an example. Therefore, in the following processing, the part of the image ID 0001 is extracted from the search result list shown in FIG. 8, and the page correspondence table shown in FIGS. 21A and 21B is created.

図21Aは、処理文書のページ番号順に並べた表を示す図であり、処理文書のページ番号、検出文書のページ番号、類似度からなる。図21Bは、検出文書のページ番号順に並べた表を示す図であり、検出文書のページ番号、処理文書のページ番号からなる。尚、該当するページが無い部分は、「X」を記載する。   FIG. 21A is a diagram showing a table arranged in the order of page numbers of processed documents, and includes a page number of processed documents, a page number of detected documents, and a similarity. FIG. 21B is a diagram showing a table arranged in the order of page numbers of detected documents, and includes a page number of detected documents and a page number of processed documents. In addition, “X” is described in a portion where there is no corresponding page.

図21Aにおける「X」の部分は処理文書にのみあるページであり、処理文書の3ページ目に他の文書のページが混ざっていることを表している。また、図21Bにおける「X」の部分は検出文書のみにあるページであり、検出文書の4ページ目が欠落していることを表している。   The portion “X” in FIG. 21A is a page that exists only in the processed document, indicating that the third page of the processed document is mixed with pages of other documents. Further, “X” in FIG. 21B is a page that exists only in the detected document, indicating that the fourth page of the detected document is missing.

図21AのX以外の部分は、処理文書の2ページ目と処理文書の4ページ目を入れ替えればソートすることができ、ページの順番が入れ替わっていることを表している。   The portion other than X in FIG. 21A indicates that the second page of the processed document and the fourth page of the processed document can be sorted, and the page order is switched.

また、図21Aに示す類似度で、第3の閾値(本実施形態では、80)を下回っているページ(処理文書の4ページ目)は、改編されていることを表している。   In addition, a page (fourth page of the processed document) that is below the third threshold (80 in the present embodiment) with the similarity shown in FIG. 21A indicates that the page has been reorganized.

[各処理の詳細]
以下、各処理の詳細について説明する。
[Details of each process]
Details of each process will be described below.

まず、ステップS3106、ステップS3204及びステップS3303のブロックセレクション処理の詳細について説明する。ここで、図10は、本発明の第1の実施形態における画像ブロック抽出例を示す図である。   First, details of the block selection process in steps S3106, S3204, and S3303 will be described. Here, FIG. 10 is a diagram showing an example of image block extraction in the first embodiment of the present invention.

ブロックセレクション処理とは、例えば、図10におけるラスタ画像10Aを10Bに示すように、意味のあるブロック毎の塊として認識し、該ブロック各々の属性(文字(TEXT)/図画(PICTURE)/写真(PHOTO)/線(LINE)/表(TABLE)等)を判定し、異なる属性を持つブロックに分割する処理である。   In block selection processing, for example, the raster image 10A in FIG. 10 is recognized as a block for each meaningful block as shown in 10B, and the attribute (character (TEXT) / drawing (PICTURE) / photograph ( (PHOTO) / line (LINE) / table (TABLE), etc.), and is divided into blocks having different attributes.

ここで、ブロックセレクション処理の一実施例について詳細に説明する。   Here, an embodiment of the block selection process will be described in detail.

まず、入力画像を白黒画像に二値化し、輪郭線追跡を行って黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行って白画素の塊を抽出し、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。   First, an input image is binarized into a black and white image, and contour tracking is performed to extract a block of pixels surrounded by a black pixel contour. For a black pixel block having a large area, the white pixel block is extracted by tracing the outline of the white pixel inside, and recursively from the inside of the white pixel block having a certain area or more. A black pixel block is extracted.

このようにして得られた黒画素の塊を、大きさ及び形状で分類し、異なる属性を持つブロックへ分類する。例えば、縦横比が1に近く、大きさが一定の範囲のブロックは文字相当の画素塊とし、近接する文字が整列良くグループ化可能な部分を文字ブロックとする。また、扁平な画素塊を線ブロック、一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表ブロック、不定形の画素塊が散在している領域を写真ブロック、それ以外の任意形状の画素塊を図画ブロックとする。   The blocks of black pixels obtained in this way are classified by size and shape, and are classified into blocks having different attributes. For example, a block whose aspect ratio is close to 1 and whose size is constant is a pixel block corresponding to a character, and a portion where adjacent characters can be grouped with good alignment is a character block. In addition, the flat pixel block is a line block, the area occupied by the black pixel block that is larger than a certain size and contains rectangular white pixel blocks in a well-aligned manner is a table block, and the area where irregular pixel blocks are scattered is a photo block The pixel block having any other shape is used as a graphic block.

次に、ステップS3108、ステップS3206及びステップS3304の特徴量情報抽出処理の詳細について説明する。尚、特徴量情報抽出処理においては、画像ブロック及び文字ブロックでそれぞれ処理方法が異なるので、それぞれ別に説明する。例えば、図10における10Bに示す例の場合、画像ブロックには写真ブロックと図画ブロックとがあるものとするが、用途や目的に応じて、画像ブロックを写真ブロック及び図画ブロックの少なくとも一方にすることも可能である。   Next, details of the feature amount information extraction processing in steps S3108, S3206, and S3304 will be described. In the feature amount information extraction process, the processing method is different for each of the image block and the character block, and will be described separately. For example, in the case of the example shown in 10B in FIG. 10, the image block includes a photographic block and a graphic block, but the image block is set to at least one of the photographic block and the graphic block according to the use and purpose. Is also possible.

まず、画像ブロックに対する特徴量情報抽出処理について説明する。尚、1文書に複数の画像ブロックが存在する場合は、その総数分だけ、以下の処理を繰り返すようにする。また、本実施形態では、一例として、画像の色に関する色特徴量を抽出する色特徴量情報抽出処理を行う。   First, feature amount information extraction processing for an image block will be described. When a plurality of image blocks exist in one document, the following processing is repeated for the total number of the image blocks. In the present embodiment, as an example, color feature amount information extraction processing for extracting a color feature amount related to the color of an image is performed.

この色特徴量情報抽出処理の詳細について、図11を用いて説明する。図11は、本発明の第1の実施形態における色特徴量情報抽出処理の詳細を説明するためのフローチャートである。尚、以下で説明する処理では、処理対象画像を複数のメッシュブロックに分割した各メッシュブロックの色ヒストグラム中の最頻色を有する色と、各メッシュブロックの位置情報を対応づけた情報とを色特徴情報として抽出する。   Details of the color feature amount information extraction processing will be described with reference to FIG. FIG. 11 is a flowchart for explaining details of the color feature amount information extraction processing according to the first embodiment of the present invention. In the process described below, the color having the most frequent color in the color histogram of each mesh block obtained by dividing the processing target image into a plurality of mesh blocks and the information in which the position information of each mesh block is associated with each other are colored. Extracted as feature information.

まず、画像を複数のメッシュブロックに分割する(ステップS1101)。図12は、第1の実施形態において画像を複数のメッシュブロックへの分割例を示す図である。図12に示すように、本実施形態では、画像を縦横をそれぞれ9メッシュブロックに分割する。特に、本実施形態では、表記の都合上9×9=81メッシュブロックに分割している例を示しているが、実際には、15×15=225メッシュブロック程度であることが好ましい。   First, the image is divided into a plurality of mesh blocks (step S1101). FIG. 12 is a diagram illustrating an example of dividing an image into a plurality of mesh blocks in the first embodiment. As shown in FIG. 12, in this embodiment, the image is divided into 9 mesh blocks in the vertical and horizontal directions. In particular, in the present embodiment, an example in which it is divided into 9 × 9 = 81 mesh blocks is shown for convenience of description, but actually, it is preferable that the number is about 15 × 15 = 225 mesh blocks.

次に、処理対象となる着目メッシュブロックを左上端のブロックに設定する(ステップS1102)。尚、この着目メッシュブロックの設定は、例えば、図13に示すように、予め処理順序が決定された順序決定テーブルを参照して行う。すなわち、図13は、第1の実施形態において用いられる順序決定テーブルの一例を示す図である。図13に示す例では、左上端から右へ走査し、その行を終えると次の行の左端から右へスキャンする走査例を示している。   Next, the target mesh block to be processed is set as the upper left block (step S1102). The mesh block of interest is set with reference to an order determination table in which the processing order is determined in advance as shown in FIG. 13, for example. That is, FIG. 13 is a diagram illustrating an example of an order determination table used in the first embodiment. The example shown in FIG. 13 shows a scanning example in which scanning is performed from the upper left end to the right, and when the line is completed, scanning is performed from the left end of the next line to the right.

次いで、未処理の着目メッシュブロックの有無を判定する(ステップS1103)。その結果、未処理の着目メッシュブロックがない場合(No)は、処理を終了する。一方、未処理の着目メッシュブロックがある場合(Yes)は、ステップS1104に進む。   Next, the presence / absence of an unprocessed target mesh block is determined (step S1103). As a result, if there is no unprocessed target mesh block (No), the process is terminated. On the other hand, when there is an unprocessed target mesh block (Yes), the process proceeds to step S1104.

ステップS1104では、着目メッシュブロックの全画素の各濃度値を、図14に示す色空間を分割して作った部分空間である色ビンへ射影し、色ビンに対する色ヒストグラムを生成する。すなわち、図14は、本発明の第1の実施形態の色空間上の色ビンの構成の一例を示す図である。   In step S1104, the density values of all the pixels of the target mesh block are projected onto a color bin, which is a partial space created by dividing the color space shown in FIG. 14, and a color histogram for the color bin is generated. That is, FIG. 14 is a diagram illustrating an example of the configuration of the color bins on the color space according to the first embodiment of this invention.

尚、本実施形態では、図14に示すように、RGB色空間を3×3×3=27に分割した色ビンへ着目メッシュブロックの全画素の濃度値を射影する場合を示しているが、実際には、RGB色空間を6×6×6=216程度に分割した色ビンへ着目メッシュブロックの全画素の濃度値を射影するほうが好ましい。   In the present embodiment, as shown in FIG. 14, the density values of all the pixels of the target mesh block are projected onto the color bin obtained by dividing the RGB color space into 3 × 3 × 3 = 27. Actually, it is preferable to project the density values of all pixels of the target mesh block into color bins obtained by dividing the RGB color space into about 6 × 6 × 6 = 216.

その後、色ヒストグラムの最頻色ビンの色ビンIDをその着目メッシュブロックの代表色と決定し、その着目メッシュブロックとその位置に対応づけて記憶部111に記憶する(ステップS1105)。   Thereafter, the color bin ID of the most frequent color bin of the color histogram is determined as the representative color of the target mesh block, and stored in the storage unit 111 in association with the target mesh block and its position (step S1105).

そして、図13に示す順序決定テーブルを参照して、次の処理対象となる着目メッシュブロックを設定する(ステップS1106)。その後、ステップS1103に戻って、未処理の着目メッシュブロックがなくなるまで、上述したステップS1103〜ステップS1106の処理を繰り返す。   Then, the target mesh block to be processed next is set with reference to the order determination table shown in FIG. 13 (step S1106). Thereafter, the process returns to step S1103, and the above-described processing of steps S1103 to S1106 is repeated until there is no unprocessed target mesh block.

以上の処理によって、処理対象画像(画像ブロック)のメッシュブロック毎の代表色と各メッシュブロックの位置情報が対応付けられた情報を色特徴量情報として抽出することができる。   Through the above processing, information in which the representative color for each mesh block of the processing target image (image block) and the position information of each mesh block are associated can be extracted as color feature amount information.

次に、文字ブロックに対する特徴量情報抽出処理について説明する。尚、1文書に複数の文字ブロックが存在する場合は、その総数分だけ、以下で説明する処理を繰り返す。また、文字ブロックに対する文字特徴量情報は、その文字ブロックにOCR(文字認識)処理を施して得られる文字コードとする。   Next, feature amount information extraction processing for character blocks will be described. If there are a plurality of character blocks in one document, the process described below is repeated for the total number of character blocks. The character feature amount information for the character block is a character code obtained by performing OCR (character recognition) processing on the character block.

ここで、OCR(文字認識)処理は、文字ブロックから文字単位で切り出された文字画像に対し、パターンマッチングの一手法を用いて文字認識を行い、対応する文字コードを取得するものである。この文字認識処理は、文字画像から得られる特徴を数十次元の数値列に変換した観測特徴ベクトルと、あらかじめ字種毎に求められている辞書特徴ベクトルとを比較し、最も距離の近い字種を認識結果とするものである。特徴ベクトルの抽出には種々の公知手法があり、例えば、文字をメッシュ状に分割し、各メッシュブロック内の文字線を方向別に線素としてカウントしたメッシュ数次元ベクトルを特徴とする方法がある。   Here, in the OCR (character recognition) process, character recognition is performed on a character image cut out from a character block in character units using a pattern matching technique, and a corresponding character code is acquired. This character recognition process compares an observed feature vector obtained by converting a feature obtained from a character image into a numerical sequence of several tens of dimensions with a dictionary feature vector obtained in advance for each character type. Is the recognition result. There are various known methods for extracting a feature vector. For example, there is a method characterized by dividing a character into meshes and using a mesh number-dimensional vector obtained by counting character lines in each mesh block as line elements according to directions.

ブロックセレクション処理(ステップS3106、ステップS3204あるいはステップS3303)で抽出された文字ブロックに対して文字認識を行う場合は、まず、該当文字ブロックに対して横書き/縦書きの判定を行い、各々対応する方向に文字列を切り出し、その後、文字列から文字を切り出して文字画像を取得する。   When character recognition is performed on the character block extracted in the block selection process (step S3106, step S3204, or step S3303), horizontal / vertical writing is first determined for the corresponding character block, and the corresponding direction is determined. A character string is cut out, and then a character image is obtained by cutting out the character from the character string.

ここで、横書き/縦書きの判定は、該当文字ブロック内で画素値に対する水平/垂直の射影を取り、水平射影の分散が大きい場合は横書き、垂直射影の分散が大きい場合は縦書きと判定する。また、文字列及び文字への分解は、横書きの文字ブロックである場合には、その水平方向の射影を利用して行を切り出し、さらに切り出された行に対する垂直方向の射影から、文字を切り出すことで行う。一方、縦書きの文字ブロックに対しては、水平と垂直を逆にすれば良い。   Here, horizontal / vertical writing is determined by taking a horizontal / vertical projection of the pixel value in the corresponding character block, and determining horizontal writing when the horizontal projection variance is large and vertical writing when the vertical projection variance is large. . In the case of a horizontally written character block, the character string and character are decomposed by cutting out the line using the horizontal projection and cutting out the character from the vertical projection of the cut out line. To do. On the other hand, for vertically written character blocks, horizontal and vertical may be reversed.

次に、ステップS3305の比較処理の詳細について、図15を用いて説明する。図15は、本発明の第1の実施形態における比較処理の詳細を説明するためのフローチャートである。   Next, details of the comparison processing in step S3305 will be described with reference to FIG. FIG. 15 is a flowchart for explaining details of the comparison processing in the first embodiment of the present invention.

まず、比較先文書を管理する文書候補リストの先頭から文書IDを順番に取得する(ステップS1501)。次に、全ての文書IDを取得したか否かを判定する(ステップS1502)。その結果、全ての文書IDを取得した場合(Yes)は、本処理を終了する。一方、全ての文書IDを取得していない場合(No)は、ステップS1503に進む。   First, document IDs are acquired in order from the top of a document candidate list for managing comparison target documents (step S1501). Next, it is determined whether all document IDs have been acquired (step S1502). As a result, when all the document IDs have been acquired (Yes), this process ends. On the other hand, if all document IDs have not been acquired (No), the process proceeds to step S1503.

ステップS1503では、レイアウトの比較を行う。ここで、レイアウトとは、ブロック情報にあるブロックの属性、サイズ、位置のことである。具体的には、各ブロックの属性、サイズ、位置と、ステップS1501で取得した文書ID及び現在処理中のページ番号に対応したブロック情報中の各ブロックの属性、サイズ、位置を比較し、レイアウトが同じであるかどうかを判定する。   In step S1503, layouts are compared. Here, the layout refers to the attribute, size, and position of the block in the block information. Specifically, the attribute, size, and position of each block are compared with the attribute, size, and position of each block in the block information corresponding to the document ID acquired in step S1501 and the currently processed page number. Determine if they are the same.

その結果、比較元画像(紙文書)と比較先画像(オリジナル文書)のレイアウトが同じである場合(Yes)は、ステップS1504に進む。一方、比較元画像と比較先画像のレイアウトが同じでない場合(No)は、ステップS1501に戻る。   As a result, if the comparison source image (paper document) and the comparison destination image (original document) have the same layout (Yes), the process proceeds to step S1504. On the other hand, when the layouts of the comparison source image and the comparison destination image are not the same (No), the process returns to step S1501.

ステップS1504では、比較元画像(紙文書)と比較先画像(オリジナル文書)のページ同士の比較を行うページ比較処理を実行する。この比較は、ブロックの属性に合わせ、文字、画像それぞれに応じた特徴量を用いて、複合的に比較を行い、類似度を算出する。尚、この処理の詳細については後述する。   In step S1504, a page comparison process for comparing pages of the comparison source image (paper document) and the comparison destination image (original document) is executed. This comparison is performed in a composite manner using feature amounts corresponding to characters and images according to the block attributes, and the similarity is calculated. Details of this process will be described later.

次に、算出された類似度が第1の閾値以上であるか否かを判定する(ステップS1505)。その結果、類似度が第1の閾値未満である場合(No)は、ステップS1501に戻る。一方、類似度が第1の閾値以上である場合(Yes)は、ステップS1506に進む。   Next, it is determined whether or not the calculated similarity is greater than or equal to a first threshold (step S1505). As a result, when the similarity is less than the first threshold (No), the process returns to step S1501. On the other hand, if the similarity is greater than or equal to the first threshold (Yes), the process proceeds to step S1506.

ステップS1506では、現在処理中の文書IDと類似度を検索結果リストに追加し、ステップS1501へ戻る。   In step S1506, the currently processed document ID and similarity are added to the search result list, and the process returns to step S1501.

次に、ステップS1504のページ比較処理の詳細について、図16を用いて説明する。図16は、本発明の第1の実施形態における比較処理の詳細を説明するためのフローチャートである。   Next, details of the page comparison process in step S1504 will be described with reference to FIG. FIG. 16 is a flowchart for explaining details of the comparison processing in the first embodiment of the present invention.

まず、ブロック情報を参照して、処理対象となる文書ID、ページ番号に対応する電子データ中で、未比較のブロックの有無を判定する(ステップS1601)。その結果、未比較のブロックがない場合(No)は、ステップS1605に進む。一方、未比較のブロックがある場合(Yes)は、ステップS1602に進む。   First, block information is referenced to determine whether there is an uncompared block in the electronic data corresponding to the document ID and page number to be processed (step S1601). As a result, if there is no uncompared block (No), the process proceeds to step S1605. On the other hand, if there is an uncompared block (Yes), the process proceeds to step S1602.

ステップS1602では、比較対象のブロックの属性を判定する。その結果、属性が画像ブロックである場合は、ステップS1603へ進む。一方、属性が文字ブロックである場合は、ステップS1604へ進む。   In step S1602, the attribute of the comparison target block is determined. As a result, if the attribute is an image block, the process advances to step S1603. On the other hand, if the attribute is a character block, the process advances to step S1604.

属性が画像ブロックである場合は、色に関する特徴量情報で比較先ブロックとの類似比較である色特徴量情報比較処理を行う(ステップS1603)。尚、この処理の詳細については後述するが、この処理によって得られる類似度は、比較先の文書ID、ページ番号、ブロックIDに対応させて記憶部111に一時記憶される。   If the attribute is an image block, color feature amount information comparison processing that is a similarity comparison with the comparison target block is performed with the feature amount information about the color (step S1603). Although details of this processing will be described later, the similarity obtained by this processing is temporarily stored in the storage unit 111 in association with the document ID, page number, and block ID of the comparison destination.

一方、属性が文字ブロックである場合は、文字の特徴量情報での比較元ブロックと比較先ブロックとの類似比較である文字特徴量情報比較処理を行う(ステップS1604)。尚、この処理の詳細については後述するが、これによって得られる類似度は、比較先の文書ID、ページ番号、ブロックIDに対応させて記憶部111に一時記憶する。   On the other hand, if the attribute is a character block, a character feature information comparison process that is a similarity comparison between the comparison source block and the comparison target block in the character feature information is performed (step S1604). Although details of this processing will be described later, the similarity obtained thereby is temporarily stored in the storage unit 111 in association with the document ID, page number, and block ID of the comparison destination.

また、ステップS1601において、全てのブロックとの比較が終了した場合(No)はステップS1605に進むこととなるが、ステップS1605では、ステップS1603及びステップS1604の処理によって記憶部111に記憶されている、比較先文書(オリジナル文書)のページに含まれる全てのブロックの類似度を統合し、検索条件である紙文書とオリジナル文書中のページとの類似度(統合類似度)を算出する統合処理を行う。   In step S1601, when comparison with all the blocks is completed (No), the process proceeds to step S1605. In step S1605, the process is performed in steps S1603 and S1604. An integration process is performed to integrate the similarities of all blocks included in the pages of the comparison target document (original document) and calculate the similarity (integrated similarity) between the paper document as a search condition and the pages in the original document. .

次に、ステップS1603の色特徴量情報比較処理の詳細について図17を用いて説明する。図17は、本発明の第1の実施形態における色特徴量情報比較処理の詳細を説明するためのフローチャートである。   Next, details of the color feature amount information comparison processing in step S1603 will be described with reference to FIG. FIG. 17 is a flowchart for explaining details of the color feature amount information comparison processing according to the first embodiment of the present invention.

まず、比較元画像と比較先画像の色特徴量を色特徴量情報から読み出す(ステップS1701)。次に、処理対象とする画像中の着目メッシュブロックを先頭に設定する(ステップS1702)。さらに、比較元画像の色特徴量と、比較対象の色特徴量の類似度を示す類似距離を0にリセットする(ステップS1703)。   First, the color feature amounts of the comparison source image and the comparison destination image are read from the color feature amount information (step S1701). Next, the target mesh block in the image to be processed is set at the head (step S1702). Further, the similarity distance indicating the similarity between the color feature amount of the comparison source image and the color feature amount of the comparison target is reset to 0 (step S1703).

その後、未比較の着目メッシュブロックの有無を判定する(ステップS1704)。その結果、未比較の着目メッシュブロックがない場合(No)は、ステップS1708に進む。一方、未比較の着目メッシュブロックがある場合(Yes)は、ステップS1705に進む。   Thereafter, the presence / absence of an uncompared target mesh block is determined (step S1704). As a result, when there is no uncompared target mesh block (No), the process proceeds to step S1708. On the other hand, if there is an uncompared target mesh block (Yes), the process proceeds to step S1705.

ステップS1705では、比較元画像と比較先画像のそれぞれの色特徴量から、それぞれの着目メッシュブロックの色ビンIDを取得する。次いで、図18に示す色ビンペナルティマトリックスを参照して、取得した色ビンID間に対応する着目メッシュブロックの局所的類似距離を取得する(ステップS1706)。そして、取得した局所的類似距離を直前の処理で取得している類似距離に累積加算し、この類似距離は記憶部111に記憶する(ステップS1707)。   In step S1705, the color bin ID of each target mesh block is acquired from the color feature amounts of the comparison source image and the comparison destination image. Next, the local similarity distance of the target mesh block corresponding to the acquired color bin ID is acquired with reference to the color bin penalty matrix shown in FIG. 18 (step S1706). Then, the acquired local similarity distance is cumulatively added to the similarity distance acquired in the immediately preceding process, and the similarity distance is stored in the storage unit 111 (step S1707).

ここで、色ビンペナルティマトリックスについて、図18を用いて説明する。図18は、本発明の第1の実施形態で使用される色ビンペナルティマトリックスの一構成例を示す図である。色ビンペナルティマトリックスは、色ビンID同士の局所的類似距離を管理するマトリックスである。図18によれば、色ビンペナルティマトリックスは、同一色ビンIDではその類似距離は0となり、色ビンID同士の差が大きくなるほど、すなわち、類似度が低くなるほど、その類似距離が大きくなるように構成されている。また、色ビンペナルティマトリックスは、同一色ビンIDの対角位置はすべて類似距離が0であり、それを境として対象性を有している。   Here, the color bin penalty matrix will be described with reference to FIG. FIG. 18 is a diagram illustrating a configuration example of the color bin penalty matrix used in the first embodiment of the present invention. The color bin penalty matrix is a matrix that manages the local similarity distance between the color bin IDs. According to FIG. 18, the similarity distance of the color bin penalty matrix is 0 for the same color bin ID, and the similarity distance increases as the difference between the color bin IDs increases, that is, the similarity decreases. It is configured. Further, the color bin penalty matrix has a similarity distance of 0 for all diagonal positions of the same color bin ID, and has a target property with that as a boundary.

このように、第1の実施形態に係る画像処理システムでは、図18に示すような色ビンペナルティマトリックスを参照するだけで、色ビンID同士の類似距離を取得することができるので、処理の高速化を図ることができる。   As described above, in the image processing system according to the first embodiment, the similarity distance between the color bin IDs can be acquired only by referring to the color bin penalty matrix as shown in FIG. Can be achieved.

そして、図13に示す順序決定テーブルを参照して、次の処理対象となる着目メッシュブロックを設定する(ステップS1707)。その後、ステップS1704に戻る。   Then, the target mesh block to be processed next is set with reference to the order determination table shown in FIG. 13 (step S1707). Thereafter, the process returns to step S1704.

一方、ステップS1704で未比較の着目メッシュブロックがないと判断された場合(No)、記憶部111に記憶されている類似距離を類似度に変換し、ブロックIDと対にして出力する(ステップS1708)。尚、類似度への変換は、例えば、類似距離が最小値のときを類似度100%、類似距離が最大値のときを類似度0%として、その範囲内の類似距離に対する類似度は、最小値或いは最大値に対する差に基づいて算出するようにすれば良い。   On the other hand, if it is determined in step S1704 that there is no uncompared target mesh block (No), the similarity distance stored in the storage unit 111 is converted into a similarity and output as a pair with the block ID (step S1708). ). The conversion to similarity is, for example, 100% similarity when the similarity distance is the minimum value, 0% similarity when the similarity distance is the maximum value, and the similarity to the similarity distance within the range is the minimum What is necessary is just to calculate based on the difference with respect to a value or a maximum value.

次に、ステップS1604の文字特徴量情報比較処理の詳細について説明する。この処理では、比較元画像と比較先画像中のそれぞれの文字ブロック内の各文字コード同士の比較を行い、その一致度から類似度を算出する。尚、検索条件とする紙文書とオリジナル文書との比較である場合、類似度は100%となるのが理想的であるが、実際には、検索条件となる紙文書中の文字ブロックに対するOCR処理では誤認識が発生する場合がある。そのため、オリジナル文書との比較であっても、類似度は100%にならないことはあるが、100%に近いような値であれば同一の文書とみなせばよい。   Next, details of the character feature amount information comparison processing in step S1604 will be described. In this process, the character codes in the character blocks in the comparison source image and the comparison target image are compared with each other, and the similarity is calculated from the matching degree. It should be noted that when comparing a paper document as a search condition with an original document, the similarity is ideally 100%. However, in actuality, OCR processing is performed on a character block in a paper document as a search condition. In some cases, misrecognition may occur. Therefore, even when compared with the original document, the degree of similarity may not be 100%, but if the values are close to 100%, they can be regarded as the same document.

次に、ステップS1605の統合処理の詳細について説明する。この統合処理では、比較先画像であるオリジナル文書内で占めている割合の大きいブロックの類似度が、オリジナル文書全体の類似度としてより大きく反映されるような、算出されたブロック毎の類似度の統合を行う。   Next, details of the integration processing in step S1605 will be described. In this integration processing, the similarity of the calculated block-by-block similarity is such that the similarity of the block that accounts for a large proportion in the original document that is the comparison target image is more largely reflected as the similarity of the entire original document. Perform integration.

例えば、オリジナル文書中のブロックB1〜B6に対し、ブロック毎の類似率がn1〜n6と算出されたとする。このときオリジナル文書全体の総合類似率Nは、以下の式で表現される。   For example, it is assumed that the similarity ratio for each block is calculated as n1 to n6 for the blocks B1 to B6 in the original document. At this time, the overall similarity N of the entire original document is expressed by the following equation.

N=w1*n1+w2*n2+w3*n3+ ・・・ +w6*n6…(1)
ここで、w1〜W6は、各ブロックの類似率を評価する重み係数である。
N = w1 * n1 + w2 * n2 + w3 * n3 + ... + w6 * n6 (1)
Here, w1 to W6 are weighting factors for evaluating the similarity of each block.

重み係数w1〜w6は、ブロックのオリジナル文書内占有率により算出する。例えば、ブロック1〜6のサイズをS1〜S6とすると、ブロック1の占有率w1は、
w1=S1/(S1+S2+・・・+S6) …(2)
として算出することができる。
The weighting factors w1 to w6 are calculated based on the occupation ratio of the block in the original document. For example, if the sizes of the blocks 1 to 6 are S1 to S6, the occupation ratio w1 of the block 1 is
w1 = S1 / (S1 + S2 + ... + S6) (2)
Can be calculated as

このような占有率を用いた重み付け処理により、オリジナル文書内で大きな領域を占めるブロックの類似度がより、オリジナル文書全体の類似度に反映することができる。   By the weighting process using such an occupancy rate, the similarity of blocks that occupy a large area in the original document can be reflected in the similarity of the entire original document.

次に、ステップS3309の候補表示/選択処理時のユーザインタフェースの一例について、図19を用いて説明する。図19は、本発明の第1の実施形態におけるユーザインタフェースの一例を示す図である。   Next, an example of a user interface at the time of candidate display / selection processing in step S3309 will be described with reference to FIG. FIG. 19 is a diagram illustrating an example of a user interface according to the first embodiment of the present invention.

図19において、1901は表示領域であり、例えばタッチパネルで構成されており、ユーザが直接画面に触れることで選択指示が可能である。また、1902〜1911は、検索結果として出力するオリジナル文書(電子ファイル、若しくは画像データ)候補の所定ページのサムネイル画像群である。このサムネイル画像の表示は、1902から番号順に類似度の高い順で表示されている。   In FIG. 19, reference numeral 1901 denotes a display area, which is composed of, for example, a touch panel, and a user can make a selection instruction by directly touching the screen. Reference numerals 1902 to 1911 denote thumbnail images of predetermined pages of original document (electronic file or image data) candidates to be output as search results. The thumbnail images are displayed in descending order of similarity starting from 1902 in numerical order.

この例では、最大10枚のサムネイル画像が表示され、オリジナル文書候補が10以上である場合には、上位10までのサムネイル画像が表示される。そして、このサムネイル画像群1902〜1911から、所望するサムネイル画像をタッチ等することにより選択することで、所望のオリジナル文書を選択することが可能である。そして、その選択したオリジナル文書に対する各種処理を実行することが可能となる。   In this example, a maximum of 10 thumbnail images are displayed, and when the number of original document candidates is 10 or more, the top 10 thumbnail images are displayed. A desired original document can be selected by selecting a desired thumbnail image from the thumbnail image groups 1902 to 1911 by touching or the like. Then, various processes can be executed on the selected original document.

また、図19において、1912は文書中の何ページ目の候補が表示されているかを示すものである。また、これを選択することで、他のページの候補を切り替えて表示させることができる。   In FIG. 19, reference numeral 1912 denotes the number of pages in the document on which candidates are displayed. Further, by selecting this, other page candidates can be switched and displayed.

以上説明したように、第1の実施形態によれば、複数ページからなる紙文書から対応するオリジナル文書を検索する場合には、データベースの全データと比較を行う。すなわち、本実施形態では、検索元文書の2ページ目をデータベース中の文書の2ページ目のみと比較するというような単純な処理ではない。従って、処理対象となる文書が、ページの追加、欠落、変更、入れ替え等がある状態であっても、オリジナルの原稿を適切に検出することができる。   As described above, according to the first embodiment, when searching for a corresponding original document from a paper document composed of a plurality of pages, comparison is made with all data in the database. In other words, this embodiment is not a simple process of comparing the second page of the search source document with only the second page of the document in the database. Therefore, even if the document to be processed is in a state where pages are added, missing, changed, replaced, etc., the original document can be detected appropriately.

また、文書を検出した後も、処理対象の文書の全ページに対してページの比較を行うことにより、印刷物にページの追加、欠落、変更、入れ替え等があった場合であっても、その状態を好適に検出することができる。   Even after a document is detected, by comparing the pages for all the pages of the processing target document, even if there are pages added, missing, changed, replaced, etc. Can be suitably detected.

<第2の実施形態>
上述した第1の実施形態では、処理対象となる文書の全ページに対して、データベース中の全ページと比較を行っているが、第2の実施形態では、処理するページが進むに連れて、比較するデータを絞っていく処理について説明する。以下、第2の実施形態に係る検索処理について、図面を用いて詳細に説明する。
<Second Embodiment>
In the first embodiment described above, all pages of the document to be processed are compared with all pages in the database. However, in the second embodiment, as the page to be processed advances, Processing for narrowing down the data to be compared will be described. Hereinafter, search processing according to the second embodiment will be described in detail with reference to the drawings.

尚、第2の実施形態に係る画像処理システムの構成、MFPの詳細構成、電子文書の登録処理、紙文書の登録処理に関しては、前述した第1の実施形態と同様であるため、ここでは詳細な説明については省略する。   Note that the configuration of the image processing system, the detailed configuration of the MFP, the electronic document registration process, and the paper document registration process according to the second embodiment are the same as those in the first embodiment described above. The detailed description is omitted.

第2の実施形態における検索処理について、図3Dを用いて説明する。図3Dは、本発明の第2の実施形態における検索処理を説明するためのフローチャートである。   Search processing in the second embodiment will be described with reference to FIG. 3D. FIG. 3D is a flowchart for explaining search processing according to the second embodiment of the present invention.

まず、入力部113からオリジナル文書(電子ファイル、若しくは画像データ)の検索がオペレータから指示されると、マネージメントPC101の制御に従って比較先リストの初期化を行う(ステップS3401)。   First, when a search for an original document (electronic file or image data) is instructed from the input unit 113 by the operator, the comparison destination list is initialized under the control of the management PC 101 (step S3401).

尚、比較先リストとは、比較処理で比較対象となるオリジナル文書の絞り込みを行うためのリストであり、比較対象となるオリジナル文書の文書IDと、その文書と画像読取部110から読み込む紙文書との各ページの類似度の合計と、検索されたページの類似度の平均からなり、記憶部111に格納される。図20は、第2の実施形態で使用される比較先リストの構成例を示す図である。比較先リストの初期化では、データベース118に格納されている電子文書の文書IDを全て比較先リストに格納し、その類似度合計の値に0を設定する。   The comparison destination list is a list for narrowing down the original documents to be compared in the comparison process. The document ID of the original document to be compared, the paper document read from the image reading unit 110, And the average of the similarities of the retrieved pages, which are stored in the storage unit 111. FIG. 20 is a diagram illustrating a configuration example of a comparison destination list used in the second embodiment. In the initialization of the comparison destination list, all the document IDs of the electronic documents stored in the database 118 are stored in the comparison destination list, and 0 is set as the value of the total similarity.

そして、次のステップS3402からステップS3407までの処理は、第1の実施形態におけるステップS3301からステップS3306までの処理と同様であるため、ここでは詳細な説明は省略する。   Since the processing from the next step S3402 to step S3407 is the same as the processing from step S3301 to step S3306 in the first embodiment, detailed description thereof is omitted here.

そして、ステップS3407において検索結果リストの追加を行った後、比較先リストの更新を行う(ステップS3408)。比較先リストの更新では、類似度の合計が第2の閾値を下回った候補、及び検索されたページの類似度の平均が第1の閾値を下回った候補に関しては、候補から削除される。そして、それ以外の候補について、類似度の合計と類似度の平均が改めて計算され、リストの更新がされる。尚、図20は、(A)から(D)へと、比較先リストが順次更新された結果例を示している。   Then, after the search result list is added in step S3407, the comparison destination list is updated (step S3408). In the update of the comparison destination list, candidates whose total similarity is below the second threshold and candidates whose average similarity of the searched pages is below the first threshold are deleted from the candidates. For the other candidates, the sum of the similarities and the average of the similarities are calculated again, and the list is updated. FIG. 20 shows an example of the result of sequentially updating the comparison destination list from (A) to (D).

そして、ステップS3402に戻って、次のページの紙文書を読み取る。   Then, the process returns to step S3402 to read the paper document of the next page.

また、ステップS3403において画像読取部110から全てのページの紙文書の読み込みが終了した場合(Yes)は、ステップS3409に進む。尚、ステップS3409からステップS3412までの処理は、上述した第1の実施形態におけるステップS3307からステップS3310までの処理と同様であるため、ここでは詳細な説明は省略する。   If reading of paper documents for all pages from the image reading unit 110 is completed in step S3403 (Yes), the process advances to step S3409. Note that the processing from step S3409 to step S3412 is the same as the processing from step S3307 to step S3310 in the first embodiment described above, and thus detailed description thereof is omitted here.

以上説明したように、第2の実施形態によれば、複数ページからなる紙文書から対応するオリジナル文書を検索する場合は、比較処理に基づいて比較対象を絞り込み、比較対象を絞り込んだデータの全ページと比較を行う。すなわち、本実施形態では、検索元文書の2ページ目をデータベース中の文書の2ページ目のみと比較するというような単純な処理ではない。従って、処理対象となる文書に、ページの追加、欠落、変更、入れ替えがある場合であっても、オリジナルの原稿を適切に検出することができる。また、比較対象を絞り込んでいくことにより、比較処理の負荷が軽減され、処理速度が大幅に向上する。但し、処理対象となる文書にページの追加があった場合は、検索すべき文書が検索中に比較対象からはずれてしまう場合もある。   As described above, according to the second embodiment, when searching for a corresponding original document from a paper document composed of a plurality of pages, the comparison target is narrowed down based on the comparison process, and all of the data with the comparison target narrowed down is searched. Compare with page. In other words, this embodiment is not a simple process of comparing the second page of the search source document with only the second page of the document in the database. Therefore, even when a document to be processed includes pages added, missing, changed, or replaced, the original document can be detected appropriately. Further, by narrowing down the comparison targets, the load of comparison processing is reduced, and the processing speed is greatly improved. However, if a page is added to the document to be processed, the document to be searched may be excluded from the comparison target during the search.

また、文書を検出した後も処理対象の文書の全ページに対してページの比較を行うことにより、印刷物にページの追加、欠落、変更、入れ替えがあった場合であっても、その状態を適切に検出することができる。   Even after a document is detected, the page is compared against all pages of the document to be processed, so that even if pages are added, missing, changed, or replaced, the status is appropriately Can be detected.

<第3の実施形態>
次いで、第3の実施形態では、最初のページの比較処理の結果を次ページ以降の比較対象とする処理について説明する。尚、第3実施形態に係る画像処理システムの構成、MFPの詳細構成、電子文書の登録処理、紙文書の登録処理に関しては、前述した第1の実施形態と同様であるため、ここでは詳細な説明については省略する。
<Third Embodiment>
Next, in the third embodiment, a description will be given of a process in which the result of the comparison process for the first page is used as a comparison target for the subsequent pages. The configuration of the image processing system, the detailed configuration of the MFP, the electronic document registration process, and the paper document registration process according to the third embodiment are the same as those in the first embodiment described above, and are described in detail here. The explanation is omitted.

以下、第3の実施形態における検索処理について、図3Eを用いて説明する。図3Eは、本発明の第3の実施形態における検索処理を説明するためのフローチャートである。   Hereinafter, search processing according to the third embodiment will be described with reference to FIG. 3E. FIG. 3E is a flowchart for explaining search processing according to the third embodiment of the present invention.

まず、比較先リストの初期化を行うが(ステップS3501)、当該処理は前述した第2の実施形態のステップS3401と同様の処理であるため、その詳細な説明は省略する。また、続くステップS3502からステップS3507までの処理は、第1の実施形態におけるステップS3301からステップS3306までの処理と同様であるため、その詳細な説明は省略する。   First, the comparison destination list is initialized (step S3501). Since this processing is the same as step S3401 of the second embodiment described above, detailed description thereof is omitted. Further, the subsequent processing from step S3502 to step S3507 is the same as the processing from step S3301 to step S3306 in the first embodiment, and thus detailed description thereof is omitted.

そして、ステップS3507において、検索結果リストの追加を行った後、処理中のページが1ページ目であるか否かを判断する(ステップS3508)。その結果、処理中のページが1ページ目であると判断された場合(Yes)は、ステップS3509に進む。一方、処理中のページが2ページ目以降であると判断された場合(No)は、ステップS3502に戻る。尚、ステップS3509の比較先リスト更新処理は、前述した第2の実施形態のステップS3408と同様の処理であるため、その詳細な説明は省略する。そして、ステップS3502に戻って、次のページの紙文書を読み取る。   In step S3507, after the search result list is added, it is determined whether the page being processed is the first page (step S3508). As a result, if it is determined that the page being processed is the first page (Yes), the process proceeds to step S3509. On the other hand, if it is determined that the page being processed is the second page or later (No), the process returns to step S3502. Note that the comparison destination list update process in step S3509 is the same process as step S3408 in the second embodiment described above, and thus detailed description thereof is omitted. Then, returning to step S3502, the paper document of the next page is read.

一方、ステップS3503において、画像読取部110から全てのページの紙文書の読み込みが終了したと判断された場合(No)は、ステップS3510に進む。尚、その後のステップS3510からステップS3513までの処理は、第1の実施形態におけるステップS3307からステップS3310までの処理と同様であるため、その詳細な説明は省略する。   On the other hand, if it is determined in step S3503 that the reading of the paper documents for all pages from the image reading unit 110 has been completed (No), the process proceeds to step S3510. Since the subsequent processing from step S3510 to step S3513 is the same as the processing from step S3307 to step S3310 in the first embodiment, detailed description thereof will be omitted.

以上説明したように、第3の実施形態によれば、複数ページからなる紙文書から対応するオリジナル文書を検索する場合には、最初のページの比較処理に基づいて比較対象を絞り込み、次ページ以降は比較対象を絞り込んだデータの全ページと比較を行う。すなわち、本実施形態では、検索元文書の2ページ目をデータベース中の文書の2ページ目のみと比較するというような単純な処理ではない。従って、処理対象となる文書が、ページの追加、欠落、変更、入れ替え等がある状態であっても、オリジナルの原稿を適切に検出することができる。   As described above, according to the third embodiment, when a corresponding original document is searched from a paper document composed of a plurality of pages, the comparison target is narrowed down based on the comparison process of the first page, and the subsequent pages. Compares with all pages of the data narrowed down. In other words, this embodiment is not a simple process of comparing the second page of the search source document with only the second page of the document in the database. Therefore, even if the document to be processed is in a state where pages are added, missing, changed, replaced, etc., the original document can be detected appropriately.

また、検索したい書類を画像読取部110にセットする際に、途中のページに他の書類が混ざっている可能性があっても、少なくとも最初のページは検索したい書類のうちの1ページである可能性が高い。従って、最初のページで比較対象を絞り込むことにより、オリジナル原稿の検出精度を下げることなく、全文書の全ページを比較対象とした処理と比べて比較処理の負荷が軽減され、処理速度の向上も見込まれる。   Further, when a document to be searched is set in the image reading unit 110, at least the first page may be one of the documents to be searched even if there is a possibility that other documents are mixed in the middle page. High nature. Therefore, by narrowing down the comparison target on the first page, the load of the comparison process is reduced and the processing speed is improved as compared with the process for comparing all pages of all documents without lowering the original document detection accuracy. Expected.

また、文書を検出した後も処理対象の文書の全ページに対してページの比較を行うことにより、印刷物にページの追加、欠落、変更、入れ替えがあった場合、その状態を好適に検出することができる。   In addition, by comparing the pages for all pages of the document to be processed even after the document is detected, if the page has been added, missing, changed, or replaced, it is preferable to detect the state. Can do.

<第4の実施形態>
第4の実施形態は、比較対象の文書が所定数(本実施形態では4)を下回るまでは、比較対象の絞り込みを行い、そのページの比較処理の結果を次ページ以降の比較対象とする処理である。尚、第4の実施形態に係る画像処理システムの構成、MFPの詳細構成、電子文書の登録処理、紙文書の登録処理に関しては、第1の実施形態と同様であるため、ここでは詳細な説明は省略する。以下、第4の実施形態における検索処理について、図3Fを用いて説明する。
<Fourth Embodiment>
In the fourth embodiment, until the number of comparison target documents falls below a predetermined number (4 in the present embodiment), the comparison target is narrowed down, and the comparison processing result of the page is used as the comparison target for the next page and subsequent pages. It is. Note that the configuration of the image processing system, the detailed configuration of the MFP, the electronic document registration processing, and the paper document registration processing according to the fourth embodiment are the same as those in the first embodiment, and thus are described in detail here. Is omitted. Hereinafter, search processing according to the fourth embodiment will be described with reference to FIG. 3F.

図3Fは、本発明の第4の実施形態における検索処理を説明するためのフローチャートである。   FIG. 3F is a flowchart for explaining search processing according to the fourth embodiment of the present invention.

まず、比較先リストの初期化を行うが(ステップS3601)、当該処理は、第2の実施形態のステップS3401と同様の処理であるため、ここでは詳細な説明は省略する。また、続くステップS3602からステップS3607までの処理は、第1の実施形態におけるステップS3301からステップS3306までの処理と同様であるため、その詳細な説明は省略する。   First, the comparison destination list is initialized (step S3601). Since this processing is the same as step S3401 of the second embodiment, detailed description thereof is omitted here. Further, the subsequent processing from step S3602 to step S3607 is the same as the processing from step S3301 to step S3306 in the first embodiment, and thus detailed description thereof is omitted.

そして、ステップS3607において検索結果リストの追加を行った後、比較先リストに含まれる候補数が所定数(本実施形態では、4)以上であるか否かが判断される(ステップS3608)。その結果、比較先リストに含まれる候補数が所定数(本実施形態では、4)以上であった場合(Yes)は、ステップS3609に進む。一方、比較先リストに含まれる候補数が所定数(本実施形態では、4)未満であった場合(No)は、ステップS3602に戻る。   Then, after the search result list is added in step S3607, it is determined whether or not the number of candidates included in the comparison destination list is equal to or greater than a predetermined number (4 in the present embodiment) (step S3608). As a result, when the number of candidates included in the comparison destination list is equal to or greater than a predetermined number (4 in the present embodiment) (Yes), the process proceeds to step S3609. On the other hand, when the number of candidates included in the comparison destination list is less than a predetermined number (4 in the present embodiment) (No), the process returns to step S3602.

ステップS3609では比較先リストの更新処理が行われるが、当該処理は第2の実施形態のステップS3408と同様の処理であるため、その詳細な説明は省略する。そして、ステップS3602に戻って、次のページの紙文書を読み取る。   In step S3609, a comparison destination list update process is performed. Since this process is the same process as step S3408 in the second embodiment, a detailed description thereof will be omitted. Then, the process returns to step S3602, and the paper document of the next page is read.

一方、ステップS3603で、画像読取部110から全てのページの紙文書の読み込みが終了した場合(Yes)は、ステップS3610に進む。続くステップS3610からステップS3613までの処理は、第1の実施形態におけるステップS3307からステップS3310までの処理と同様であるため、その詳細な説明は省略する。   On the other hand, in step S3603, when reading of all pages of the paper document from the image reading unit 110 is completed (Yes), the process proceeds to step S3610. The subsequent processing from step S3610 to step S3613 is the same as the processing from step S3307 to step S3310 in the first embodiment, and thus detailed description thereof is omitted.

以上説明したように、第4の実施形態によれば、複数ページからなる紙文書から対応するオリジナル文書を検索する場合には、比較対象の候補数が所定数(本実施形態では、4)を下回るまで比較対象を絞り込み、次ページ以降は比較対象を絞り込んだデータの全ページと比較を行う。すなわち、本実施形態では、検索元文書の2ページ目をデータベース中の文書の2ページ目のみと比較するというような単純な処理ではない。従って、処理対象となる文書が、ページの追加、欠落、変更、入れ替え等がある状態であっても、オリジナルの原稿を適切に検出することができる。   As described above, according to the fourth embodiment, when a corresponding original document is searched from a paper document consisting of a plurality of pages, the number of candidates for comparison is a predetermined number (4 in this embodiment). The comparison target is narrowed down until it falls below, and after the next page, comparison is made with all pages of the data with the comparison target narrowed down. In other words, this embodiment is not a simple process of comparing the second page of the search source document with only the second page of the document in the database. Therefore, even if the document to be processed is in a state where pages are added, missing, changed, replaced, etc., the original document can be detected appropriately.

また、検索したい書類を画像読取部110にセットする際、例えば、途中のページには他の書類が混ざっている可能性はあっても、前の方のページは検索したい書類のうちの1ページである可能性が高い。また、最初のページのみで絞り込みを行うと、最初のページが表紙だったような場合、充分な絞り込みが行われず、処理速度が思ったほど上がらない場合もある。そこで、本実施形態によれば、オリジナル原稿の検出精度を下げることなく、比較処理の負荷が軽減され、処理速度の向上が見込まれる。   Further, when setting a document to be searched in the image reading unit 110, for example, even if there is a possibility that other documents are mixed in the middle page, the previous page is one page of the documents to be searched. Is likely. In addition, if narrowing is performed only on the first page, if the first page is a cover, sufficient narrowing may not be performed and the processing speed may not increase as expected. Therefore, according to the present embodiment, the load of comparison processing is reduced and the processing speed is expected to be improved without lowering the original document detection accuracy.

また、文書を検出した後も処理対象の文書の全ページに対してページの比較を行うことにより、印刷物にページの追加、欠落、変更、入れ替えがあった場合であっても、その状態を好適に検出することができる。   Even after a document is detected, by comparing pages for all pages of the document to be processed, even if there are pages added, missing, changed, or replaced on the printed matter, the state is suitable. Can be detected.

<その他の実施形態>
上述した実施形態において、図11の色特徴量情報抽出処理では、処理対象画像の最頻色を色特徴情報として抽出する例を説明したが、これに限定されるものではなく、例えば、平均色を色特徴情報として抽出するようにしても良い。
<Other embodiments>
In the above-described embodiment, the example of extracting the most frequent color of the processing target image as the color feature information has been described in the color feature amount information extraction process of FIG. 11. However, the present invention is not limited to this. May be extracted as color feature information.

また、画像特徴量として色特徴量を用いたが、これに限定されるものではなく、例えば、最頻輝度、平均輝度等の輝度特徴量、共起行列、コントラスト、エントロピ、Gabor変換等で表現されるテクスチャ特徴量、エッジ、フーリエ記述子等の形状特徴量等の複数種類の画像特徴量を1つ、或いは、任意に組み合わせた画像特徴量を用いても良い。   In addition, although the color feature amount is used as the image feature amount, the present invention is not limited to this. For example, the feature amount is represented by luminance feature amounts such as mode luminance and average luminance, co-occurrence matrix, contrast, entropy, Gabor conversion, and the like. A plurality of types of image feature amounts such as texture feature amounts, shape features such as edges and Fourier descriptors, or any combination of image feature amounts may be used.

さらに、上述した実施形態では、ブロックセレクション処理を行い、処理対象の文書を文字ブロックと画像ブロックに分割し、これらの各ブロックの特徴量を複合的に用いて検索を行ったが、文書全体を1つの画像とみなし、オリジナル文書の検索を行うようにしてもよい。さらにまた、精度が許容される範囲であれば、文書中の画像ブロックのみを利用して、オリジナル文書の検索を行うようにしてもよい。   Further, in the above-described embodiment, the block selection process is performed, the document to be processed is divided into the character block and the image block, and the search is performed using the feature amount of each block in combination. The original document may be searched by regarding it as one image. Furthermore, if the accuracy is within the allowable range, the original document may be searched using only the image block in the document.

さらにまた、上述した実施形態では、電子文書をラスタ画像に変換して処理を行ったが、電子文書から直接、文字コードや画像を抜き出して比較してもよい。さらにまた、上述した実施形態では、文字特徴量としては文字コードを採用したが、例えば、単語辞書とのマッチングを予め行って単語の品詞を抽出しておき、名詞である単語を文字特徴量としても良い。   Furthermore, in the above-described embodiment, processing is performed by converting an electronic document into a raster image. However, character codes and images may be directly extracted from the electronic document and compared. Furthermore, in the embodiment described above, a character code is used as the character feature amount. However, for example, the word part of speech is extracted by matching with a word dictionary in advance, and a word that is a noun is used as the character feature amount. Also good.

さらにまた、上述した実施形態では、図3CのステップS3305、図3DのステップS3406、図3EのステップS3506、及び図3FのステップS3606の比較処理では、画像若しくは文字の特徴量を用いて比較処理を実行していたが、それ以外に画像データ同士を直接比較する構成を用いても良い。   Furthermore, in the embodiment described above, in the comparison processing in step S3305 in FIG. 3C, step S3406 in FIG. 3D, step S3506 in FIG. 3E, and step S3606 in FIG. However, a configuration for directly comparing the image data may be used.

さらにまた、上述した実施形態では、画像読取部110(スキャナ)と印刷部112(プリンタ)が一体に構成されているMFP100を例に挙げて説明したが、画像読取部110と印刷部112をそれぞれ個別の機器として、LAN107、若しくはクライアントPC102等に接続して構成するようにしても良い。この場合、MFP100のそれ以外の構成要素は、マネージメントPC101に含まれることになり、画像読取部110(スキャナ)と印刷部112(プリンタ)との接続は、ネットワークI/F114を介して、LAN107経由で接続されることになる。   Furthermore, in the above-described embodiment, the MFP 100 in which the image reading unit 110 (scanner) and the printing unit 112 (printer) are integrally configured has been described as an example. However, the image reading unit 110 and the printing unit 112 are respectively configured. As an individual device, it may be configured to be connected to the LAN 107 or the client PC 102 or the like. In this case, the other components of the MFP 100 are included in the management PC 101, and the connection between the image reading unit 110 (scanner) and the printing unit 112 (printer) is via the LAN 107 via the network I / F 114. Will be connected.

尚、上述した第1〜第3の閾値については固定にする必要はなく、使用する文書の種類等によって、ユーザや管理者等が任意に設定するようにしてもよい。   The first to third thresholds described above do not need to be fixed, and may be arbitrarily set by a user, an administrator, or the like depending on the type of document to be used.

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラム若しくは記憶媒体(記録媒体)等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。   Although the embodiment has been described in detail above, the present invention can take an embodiment as, for example, a system, apparatus, method, program, or storage medium (recording medium). The present invention may be applied to a system composed of a single device or an apparatus composed of a single device.

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。   In the present invention, a software program (in the embodiment, a program corresponding to the flowchart shown in the figure) that realizes the functions of the above-described embodiment is directly or remotely supplied to the system or apparatus, and the computer of the system or apparatus Is also achieved by reading and executing the supplied program code.

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。   Accordingly, since the functions of the present invention are implemented by computer, the program code installed in the computer also implements the present invention. In other words, the present invention includes a computer program itself for realizing the functional processing of the present invention.

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。   In that case, as long as it has the function of a program, it may be in the form of object code, a program executed by an interpreter, script data supplied to the OS, or the like.

プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。   As a recording medium for supplying the program, for example, floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, MO, CD-ROM, CD-R, CD-RW, magnetic tape, nonvolatile memory card ROM, DVD (DVD-ROM, DVD-R) and the like.

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。   As another program supply method, a client computer browser is used to connect to an Internet homepage, and the computer program of the present invention itself or a compressed file including an automatic installation function is downloaded from the homepage to a recording medium such as a hard disk. Can also be supplied. It can also be realized by dividing the program code constituting the program of the present invention into a plurality of files and downloading each file from a different homepage. That is, a WWW server that allows a plurality of users to download a program file for realizing the functional processing of the present invention on a computer is also included in the present invention.

また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。   In addition, the program of the present invention is encrypted, stored in a storage medium such as a CD-ROM, distributed to users, and key information for decryption is downloaded from a homepage via the Internet to users who have cleared predetermined conditions. It is also possible to execute the encrypted program by using the key information and install the program on a computer.

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。   In addition to the functions of the above-described embodiments being realized by the computer executing the read program, the OS running on the computer based on the instruction of the program is a part of the actual processing. Alternatively, the functions of the above-described embodiment can be realized by performing all of them and performing the processing.

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。   Furthermore, after the program read from the recording medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the function expansion board or The CPU or the like provided in the function expansion unit performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing.

本発明の第1の実施形態に係る画像処理システムの構成を示すブロック図である。1 is a block diagram illustrating a configuration of an image processing system according to a first embodiment of the present invention. 本発明の第1の実施形態におけるMFP100の細部構成を示すブロック図である。FIG. 2 is a block diagram illustrating a detailed configuration of the MFP 100 according to the first embodiment of the present invention. 本発明の第1の実施形態に係る画像処理システムにおける電子文書の登録処理を説明するためのフローチャートである。5 is a flowchart for explaining electronic document registration processing in the image processing system according to the first embodiment of the present invention; 本発明の第1の実施形態の紙文書の登録処理を説明するためのフローチャートである。It is a flowchart for demonstrating the registration process of the paper document of the 1st Embodiment of this invention. 本発明の第1の実施形態における検索処理を説明するためのフローチャートである。It is a flowchart for demonstrating the search process in the 1st Embodiment of this invention. 本発明の第2の実施形態における検索処理を説明するためのフローチャートである。It is a flowchart for demonstrating the search process in the 2nd Embodiment of this invention. 本発明の第3の実施形態における検索処理を説明するためのフローチャートである。It is a flowchart for demonstrating the search process in the 3rd Embodiment of this invention. 本発明の第4の実施形態における検索処理を説明するためのフローチャートである。It is a flowchart for demonstrating the search process in the 4th Embodiment of this invention. 第1の実施形態において登録される文書IDとアドレスからなるアドレス情報の一例を示す図である。It is a figure which shows an example of the address information which consists of document ID and address registered in 1st Embodiment. 第1の実施形態においてデータベース118に登録されたブロック情報の一例を示す図である。It is a figure which shows an example of the block information registered into the database 118 in 1st Embodiment. 第1の実施形態においてデータベース118に記憶される色特徴量情報の一例を示す図である。It is a figure which shows an example of the color feature-value information memorize | stored in the database 118 in 1st Embodiment. 第1の実施形態においてデータベース118に記憶される文字特徴量の一例を示す図である。It is a figure which shows an example of the character feature-value memorize | stored in the database 118 in 1st Embodiment. 第1の実施形態における検索結果リストの構成例を示す図である。It is a figure which shows the structural example of the search result list | wrist in 1st Embodiment. 第1の実施形態における文書候補リストの構成例を示す図である。It is a figure which shows the structural example of the document candidate list | wrist in 1st Embodiment. 本発明の第1の実施形態における画像ブロック抽出例を示す図である。It is a figure which shows the example of image block extraction in the 1st Embodiment of this invention. 本発明の第1の実施形態における色特徴量情報抽出処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the color feature-value information extraction process in the 1st Embodiment of this invention. 第1の実施形態において画像を複数のメッシュブロックへの分割例を示す図である。It is a figure which shows the example of a division | segmentation into the some mesh block in 1st Embodiment. 第1の実施形態において用いられる順序決定テーブルの一例を示す図である。It is a figure which shows an example of the order determination table used in 1st Embodiment. 本発明の第1の実施形態の色空間上の色ビンの構成の一例を示す図である。It is a figure which shows an example of a structure of the color bin on the color space of the 1st Embodiment of this invention. 本発明の第1の実施形態における比較処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the comparison process in the 1st Embodiment of this invention. 本発明の第1の実施形態における比較処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the comparison process in the 1st Embodiment of this invention. 本発明の第1の実施形態における色特徴量情報比較処理の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of the color feature-value information comparison process in the 1st Embodiment of this invention. 本発明の第1の実施形態で使用される色ビンペナルティマトリックスの一構成例を示す図である。It is a figure which shows one structural example of the color bin penalty matrix used in the 1st Embodiment of this invention. 本発明の第1の実施形態におけるユーザインタフェースの一例を示す図である。It is a figure which shows an example of the user interface in the 1st Embodiment of this invention. 第2の実施形態で使用される比較先リストの構成例を示す図である。It is a figure which shows the structural example of the comparison destination list used by 2nd Embodiment. 処理文書のページ番号順に並べた表を示す図である。It is a figure which shows the table | surface arranged in order of the page number of the process document. 検出文書のページ番号順に並べた表を示す図である。It is a figure which shows the table | surface arranged in order of the page number of the detected document.

符号の説明Explanation of symbols

100 MFP
101 マネージメントPC
102 クライアントPC
103a、103b プロキシサーバ
104 ネットワーク
105a、105b データベース
106a、106b 文書管理サーバ
107、108、109 LAN
110 画像読取部
111 記憶部
112 印刷部
113 入力部
114、117 ネットワークI/F
115 データ処理部
116 表示部
118 データベース
100 MFP
101 Management PC
102 Client PC
103a, 103b Proxy server 104 Network 105a, 105b Database 106a, 106b Document management server 107, 108, 109 LAN
110 Image Reading Unit 111 Storage Unit 112 Printing Unit 113 Input Unit 114, 117 Network I / F
115 Data Processing Unit 116 Display Unit 118 Database

Claims (14)

複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶する記憶手段と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取手段と、
前記電子データの特徴量を抽出する抽出手段と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索手段と
を備えることを特徴とする画像検索装置。
Storage means for storing a plurality of document images composed of a plurality of pages in association with respective feature amounts;
Reading means for electronically reading a plurality of pages of printed matter on a page basis and converting it into electronic data;
Extraction means for extracting feature quantities of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images An image search apparatus comprising: search means for searching for a document image corresponding to electronic data as candidate data.
前記検索手段が、前記電子データに含まれるすべてのページと、前記記憶手段に記憶されたそれぞれの文書画像のすべてのページとを比較してページごとに類似度を算出し、それぞれのページごとの類似度を統合した統合類似度を算出し、該統合類似度に基づいて該電子データに対応する文書画像を候補データとして検索することを特徴とする請求項1に記載の画像検索装置。   The search means compares all pages included in the electronic data with all pages of the respective document images stored in the storage means to calculate a similarity for each page, and for each page The image search apparatus according to claim 1, wherein an integrated similarity obtained by integrating similarities is calculated, and a document image corresponding to the electronic data is searched as candidate data based on the integrated similarity. 前記検索手段が、前記電子データの最初のページから順に、前記複数の文書画像のそれぞれのページと比較して類似度を算出し、該類似度が所定値未満の文書画像を候補データから削除しつつ、最後のページまで候補データを検索することを特徴とする請求項1に記載の画像検索装置。   The search means calculates a similarity by comparing with each page of the plurality of document images in order from the first page of the electronic data, and deletes a document image having the similarity less than a predetermined value from the candidate data. 2. The image search apparatus according to claim 1, wherein the candidate data is searched up to the last page. 前記検索手段は、前記電子データの最初のページと前記複数の文書画像のページとを比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索し、前記電子データに含まれる2ページ目から順に、前記候補データに含まれるそれぞれの文書画像のページと比較して類似度を算出し、該類似度が所定値未満の文書画像を候補データから削除しつつ最後のページまで候補データを検索することを特徴とする請求項1に記載の画像検索装置。   The search means calculates the similarity by comparing the first page of the electronic data and the pages of the plurality of document images, and corresponds to the electronic data from the plurality of document images based on the similarity The document image to be searched is searched as candidate data, and the degree of similarity is calculated in comparison with the page of each document image included in the candidate data in order from the second page included in the electronic data. The image search apparatus according to claim 1, wherein the candidate data is searched to the last page while deleting less than less document images from the candidate data. 前記検索手段が、前記電子データの最初のページから順に、前記複数の文書画像それぞれのページと比較して類似度を算出し、該類似度が所定値未満の文書画像を候補データから削除しつつ所定のページまで候補データを検索することを特徴とする請求項1に記載の画像検索装置。   The search means calculates the similarity by comparing with the respective pages of the plurality of document images in order from the first page of the electronic data, and deletes the document image having the similarity less than a predetermined value from the candidate data. The image search apparatus according to claim 1, wherein candidate data is searched up to a predetermined page. 前記検索手段が、前記候補データの候補数が所定数を下回ったときのページまで検索することを特徴とする請求項5に記載の画像検索装置。   The image search apparatus according to claim 5, wherein the search means searches to a page when the number of candidates for the candidate data falls below a predetermined number. 前記検索手段によって算出されたページごとの前記類似度に基づいて、前記印刷物のページの追加、欠落、入れ替え、差し換えを検出する検出手段をさらに備えることを特徴とする請求項1から6までのいずれか1項に記載の画像検索装置。   7. The apparatus according to claim 1, further comprising detection means for detecting addition, omission, replacement, and replacement of pages of the printed material based on the similarity for each page calculated by the search means. The image search device according to claim 1. 前記抽出手段が、
前記電子データを複数のブロックに分割するブロックセレクション手段と、
前記ブロックの種別を特定する特定手段と、
特定されたブロックの種別に基づいて各ブロックの特徴量を抽出する第1の抽出手段と、
抽出された各ブロックの特徴量をページ単位にまとめて前記電子データの特徴量を抽出する第2の抽出手段と
を備えることを特徴とする請求項1から7までのいずれか1項に記載の画像検索装置。
The extraction means comprises:
Block selection means for dividing the electronic data into a plurality of blocks;
A specifying means for specifying the type of the block;
First extraction means for extracting the feature amount of each block based on the identified block type;
8. The apparatus according to claim 1, further comprising: a second extracting unit configured to extract the feature values of the electronic data by collecting the feature values of the extracted blocks in units of pages. Image search device.
前記特徴量が、画像を複数のメッシュブロックに分割した各メッシュブロックの色ヒストグラム中の代表色と各メッシュブロックの位置情報とを対応付けた色特徴情報であることを特徴とする請求項1から8までのいずれか1項に記載の画像検索装置。   The feature amount is color feature information in which a representative color in a color histogram of each mesh block obtained by dividing an image into a plurality of mesh blocks and position information of each mesh block are associated with each other. 9. The image search device according to any one of up to 8. 前記類似度が、前記電子データと前記文書画像のそれぞれの前記メッシュブロック上の色特徴情報から取得される色ビンID間の類似距離であることを特徴とする請求項9に記載の画像検索装置。   The image search apparatus according to claim 9, wherein the similarity is a similarity distance between color bin IDs acquired from color feature information on each mesh block of the electronic data and the document image. . 前記検索手段によって前記候補データが複数検索されたか否かを判定する判定手段と、
前記候補データが複数検索された場合、複数の前記候補データのサムネイル画像を一覧表示する表示手段と、
一覧表示された複数の候補データのサムネイル画像の中から一の候補データを選択させる選択手段と
をさらに備えることを特徴とする請求項1から10までのいずれか1項に記載の画像検索装置。
Determination means for determining whether or not a plurality of candidate data are searched by the search means;
When a plurality of candidate data are searched, display means for displaying a list of thumbnail images of the plurality of candidate data;
11. The image search apparatus according to claim 1, further comprising selection means for selecting one candidate data from thumbnail images of a plurality of candidate data displayed in a list.
複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶装置に記憶する記憶工程と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取工程と、
前記電子データの特徴量を抽出する抽出工程と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索工程と
を有することを特徴とする画像検索方法。
A storage step of storing a plurality of document images of a plurality of pages in a storage device in association with respective feature amounts;
A reading step of electronically reading a plurality of pages of printed matter in units of pages and converting it into electronic data;
An extraction step of extracting a feature amount of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images And a search step for searching for a document image corresponding to electronic data as candidate data.
コンピュータに、
複数ページからなる複数の文書画像を、それぞれの特徴量と対応付けて記憶装置に記憶する記憶手順と、
複数ページの印刷物をページ単位に電子的に読み取って電子データに変換する読取手順と、
前記電子データの特徴量を抽出する抽出手順と、
前記電子データの特徴量と前記記憶手段に記憶されたそれぞれの文書画像の特徴量とをページごとに比較して類似度を算出し、該類似度に基づいて前記複数の文書画像の中から前記電子データに対応する文書画像を候補データとして検索する検索手順と
を実行させるためのプログラム。
On the computer,
A storage procedure for storing a plurality of document images composed of a plurality of pages in a storage device in association with respective feature amounts;
A reading procedure for electronically reading a multi-page printed matter page by page and converting it into electronic data;
An extraction procedure for extracting feature quantities of the electronic data;
The feature amount of the electronic data and the feature amount of each document image stored in the storage unit are compared for each page to calculate a similarity, and based on the similarity, the plurality of document images And a search procedure for searching a document image corresponding to electronic data as candidate data.
請求項13に記載されたプログラムを格納したことを特徴とするコンピュータ読み取り可能な記憶媒体。   A computer-readable storage medium storing the program according to claim 13.
JP2004206439A 2004-07-13 2004-07-13 Image retrieval system, method, storage medium, and program Withdrawn JP2006031181A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004206439A JP2006031181A (en) 2004-07-13 2004-07-13 Image retrieval system, method, storage medium, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206439A JP2006031181A (en) 2004-07-13 2004-07-13 Image retrieval system, method, storage medium, and program

Publications (1)

Publication Number Publication Date
JP2006031181A true JP2006031181A (en) 2006-02-02

Family

ID=35897485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206439A Withdrawn JP2006031181A (en) 2004-07-13 2004-07-13 Image retrieval system, method, storage medium, and program

Country Status (1)

Country Link
JP (1) JP2006031181A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020816A (en) * 2007-07-13 2009-01-29 Canon Inc Document recognition device, document recognition method, and computer program
JP2009199357A (en) * 2008-02-21 2009-09-03 Fuji Xerox Co Ltd Information processing apparatus, information processing system and program
JP2009284084A (en) * 2008-05-20 2009-12-03 Sharp Corp Image collating method, image collating apparatus, image data output apparatus, program, and storage medium
CN101043567B (en) * 2006-03-23 2010-05-26 佳能株式会社 Document management apparatus and document management system control method
US8005830B2 (en) 2007-04-04 2011-08-23 Nec Corporation Similar files management apparatus and method and program therefor
US8351706B2 (en) 2007-07-24 2013-01-08 Sharp Kabushiki Kaisha Document extracting method and document extracting apparatus
US8390844B2 (en) 2006-10-03 2013-03-05 Sharp Kabushiki Kaisha Image processing apparatus for creating a job log
US8958108B2 (en) 2013-03-29 2015-02-17 Brother Kogyo Kabushiki Kaisha Apparatus and program product for processing page images with defined page order to increase editing flexibilty
CN110502658A (en) * 2019-08-21 2019-11-26 江西博微新技术有限公司 File and picture page number moving method, server and storage medium
JP2020126325A (en) * 2019-02-01 2020-08-20 株式会社オービック Data collation device, data collation method, and data collation program
JP7480536B2 (en) 2020-03-12 2024-05-10 富士フイルムビジネスイノベーション株式会社 Document processing device and program

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043567B (en) * 2006-03-23 2010-05-26 佳能株式会社 Document management apparatus and document management system control method
US8390844B2 (en) 2006-10-03 2013-03-05 Sharp Kabushiki Kaisha Image processing apparatus for creating a job log
US8005830B2 (en) 2007-04-04 2011-08-23 Nec Corporation Similar files management apparatus and method and program therefor
JP2009020816A (en) * 2007-07-13 2009-01-29 Canon Inc Document recognition device, document recognition method, and computer program
US8351706B2 (en) 2007-07-24 2013-01-08 Sharp Kabushiki Kaisha Document extracting method and document extracting apparatus
JP2009199357A (en) * 2008-02-21 2009-09-03 Fuji Xerox Co Ltd Information processing apparatus, information processing system and program
JP2009284084A (en) * 2008-05-20 2009-12-03 Sharp Corp Image collating method, image collating apparatus, image data output apparatus, program, and storage medium
US8958108B2 (en) 2013-03-29 2015-02-17 Brother Kogyo Kabushiki Kaisha Apparatus and program product for processing page images with defined page order to increase editing flexibilty
JP2020126325A (en) * 2019-02-01 2020-08-20 株式会社オービック Data collation device, data collation method, and data collation program
JP7257800B2 (en) 2019-02-01 2023-04-14 株式会社オービック Data collation device, data collation method, and data collation program
CN110502658A (en) * 2019-08-21 2019-11-26 江西博微新技术有限公司 File and picture page number moving method, server and storage medium
JP7480536B2 (en) 2020-03-12 2024-05-10 富士フイルムビジネスイノベーション株式会社 Document processing device and program

Similar Documents

Publication Publication Date Title
JP4405831B2 (en) Image processing apparatus, control method therefor, and program
JP4533273B2 (en) Image processing apparatus, image processing method, and program
US7593961B2 (en) Information processing apparatus for retrieving image data similar to an entered image
JP4012140B2 (en) Image processing apparatus, information processing apparatus, control method therefor, and program
JP4920928B2 (en) Image processing apparatus, control method therefor, and program
US7272269B2 (en) Image processing apparatus and method therefor
JP4181892B2 (en) Image processing method
JP5036430B2 (en) Image processing apparatus and control method thereof
JP2006120125A (en) Document image information management apparatus and document image information management program
US20070070408A1 (en) Image album creating system, image album creating method and image album creating program
JP4502385B2 (en) Image processing apparatus and control method thereof
JP2004265384A (en) Image processing system, information processing device, control method, computer program, and computer-readable storage medium
JP2005149096A (en) Image processing system and image processing method
JP2006023940A (en) Image processing system and image processing method
JP5132416B2 (en) Image processing apparatus and control method thereof
JP2006031181A (en) Image retrieval system, method, storage medium, and program
US20040021790A1 (en) Method of and system for processing image information on writing surface including hand-written information
JP4261988B2 (en) Image processing apparatus and method
JP4960796B2 (en) Image processing apparatus, image processing method, program thereof, and storage medium
US8181108B2 (en) Device for editing metadata of divided object
JP2006333248A (en) Image processing apparatus, image processing method, program and storage medium
JP4047222B2 (en) Image processing apparatus, control method therefor, and program
JP2007048057A (en) Image processor
JP2006166207A (en) Information processor, information processing method, storage medium, and program
JP2008107901A (en) Image processing apparatus, method for controlling the same, and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071002