JP2009048618A - Document extracting method, document extracting apparatus, computer program, and recording medium - Google Patents
Document extracting method, document extracting apparatus, computer program, and recording medium Download PDFInfo
- Publication number
- JP2009048618A JP2009048618A JP2008162324A JP2008162324A JP2009048618A JP 2009048618 A JP2009048618 A JP 2009048618A JP 2008162324 A JP2008162324 A JP 2008162324A JP 2008162324 A JP2008162324 A JP 2008162324A JP 2009048618 A JP2009048618 A JP 2009048618A
- Authority
- JP
- Japan
- Prior art keywords
- document
- data
- document data
- input
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Editing Of Facsimile Originals (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、原稿のデータベースから特定の原稿を検索する技術に関し、より詳しくは、スキャナで原稿を読み取った画像等の原稿データに基づいて、読み取った原稿に対応する原稿データをデータベースから検索する原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体に関する。 The present invention relates to a technique for retrieving a specific document from a database of documents, and more specifically, a document for retrieving document data corresponding to a read document from the database based on document data such as an image read by the scanner. The present invention relates to an extraction method, a document extraction device, a computer program, and a recording medium.
従来、文書又は写真等でなる原稿をスキャナを用いて読み取ったデータ、又はパーソナルコンピュータ(PC)等を用いて電子的に作成した原稿データをデータベースに蓄積しておき、新たに原稿を読み取り、読み取った原稿に対応する原稿データをデータベースから抽出する技術が利用されている。原稿データを抽出する方法としては、例えば、読み取った原稿からOCR(Optical Character Reader)を用いてキーワードを抽出し、キーワードに基づいて原稿の類似度を判定する方法、原稿を罫線のある帳票原稿に限定しておき、罫線の特徴を抽出して原稿の類似度を判定する方法等が提案されている。 Conventionally, data obtained by reading an original composed of a document or a photograph using a scanner, or original data created electronically using a personal computer (PC) or the like is stored in a database, and a new original is read and read. A technique for extracting original data corresponding to an original from a database is used. As a method for extracting manuscript data, for example, a keyword is extracted from a read manuscript using an OCR (Optical Character Reader), and the similarity of the manuscript is determined based on the keyword. For example, a method has been proposed in which the feature of a ruled line is extracted to determine the similarity of documents.
特許文献1には、原稿(文書)を特徴付けるデスクリプタとデスクリプタで特徴付けられる原稿のリストとを関連付けておき、読み取った原稿(入力文書)からデスクリプタを生成し、生成したデスクリプタを用いて原稿の照合を行う技術が開示されている。原稿のデスクリプタは、原稿の読み取りに伴って生じる歪み等に対して不変であるように定められる。一の原稿について複数のデスクリプタを生成し、読み取った原稿から生成したデスクリプタの夫々に関連付けられている原稿に対して投票を行い、最高得票数を得た原稿又は得票数が所定の閾値を越えた原稿を選択する。
特許文献2には、原稿の画像データを予め記憶しておき、読み取った原稿のビットマップデータと予め記憶してある原稿のビットマップデータとの間で1ビット単位でパターンマッチングを行うことにより、原稿の検索を行う技術が開示されている。また特許文献2には、複数ページよりなる原稿の場合、検索用に表紙のページのみを読み取り、読み取ったページの画像データと、記憶してある各原稿の1枚目の画像データとを比較することにより、原稿を検索してもよいことが記載されている。
In
特許文献3には、文書画像を予め記憶しておき、読み取った原稿の画像の特徴量と記憶してある文書画像の全てのページの特徴量とを比較して類似度を求め、類似度が閾値よりも高い文書画像を抽出することにより、文書画像を検索する技術が開示されている。この技術では、複数の文書画像が候補となった場合は、文書画像を表示してユーザによる選択を受け付け、また文書画像に含まれるページの類似度の平均が閾値を下回った場合は、その文書画像を候補から削除して絞り込みを行う。
通常、文書等の原稿は複数ページで構成されていることが多い。特許文献1に開示された技術を始めとする従来の技術は、スキャナで読み取った原稿との照合を行って所望の原稿データをデータベースから抽出することは可能であるものの、複数ページで構成されている原稿については、ページ毎に照合を行って原稿データを抽出する必要がある。従って、紛失又は汚れ等によって照合元の原稿に欠落が生じた場合は、複数ページで構成されている原稿に係る原稿データを全てのページに亘って抽出することができないという問題がある。特許文献1には、この問題の解決手段については何ら開示されていない。
Usually, a document such as a document is often composed of a plurality of pages. Although the conventional technique including the technique disclosed in
また特許文献2に記載されているような、複数ページより構成されている原稿のビットマップデータを比較する技術では、ページ毎に比較を行うので、原稿に含まれるページ数及び原稿数が増えるほど比較の処理に時間がかかってしまうという問題がある。また、ビットマップデータの比較を行う場合は、比較する二つの画像データの位置合わせを精度良く行う必要がある。しかし、実際には、正確に位置合わせを行うことは困難であり、その結果、精度良く原稿を検索することができないという問題がある。
Further, in the technique for comparing bitmap data of documents composed of a plurality of pages as described in
また特許文献3に記載の技術では、文書画像の文字領域における特徴量として、OCRを用いて文字コードを抽出しているので、抽出する文字コードによっては、類似判定の精度が低下するという問題がある。この精度低下を補うために、多くの文字コードを抽出することが考えられるが、その場合、文字コードを格納しておくメモリ容量が大きくなり、また、多くのデータを用いて検索を行うので、処理に時間がかかるという問題がある。また、特許文献2及び3の技術においては、秘密情報を含む原稿が検索されることに関しては考慮されていないので、秘密情報を含む原稿が容易に出力されてしまう虞があるという問題がある。
In the technique described in
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、原稿の一部に基づいて原稿の他の部分のデータをも抽出できるようにすることにより、複数ページで構成される原稿に係る原稿データを容易にデータベースから抽出することが可能となる原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体を提供することにある。 The present invention has been made in view of such circumstances, and an object of the present invention is to make it possible to extract data of other parts of a document based on a part of the document, thereby allowing a plurality of pages to be extracted. It is an object to provide a document extraction method, a document extraction device, a computer program, and a recording medium that can easily extract document data relating to a document composed of
本発明の他の目的とするところは、原稿データを抽出する際に、目的とは異なる原稿データを間違って抽出してしまう愚を避けることが可能となる原稿抽出装置を提供することにある。 Another object of the present invention is to provide a document extraction device that can avoid the foolishness of erroneously extracting document data different from the purpose when document data is extracted.
また本発明の他の目的とするところは、原稿を出力するための条件を定めておくことにより、秘密情報を保護することができる原稿抽出装置を提供することにある。 Another object of the present invention is to provide a document extraction device that can protect confidential information by setting conditions for outputting a document.
本発明に係る原稿抽出方法は、記憶手段で記憶してある原稿データの中から特定の原稿データを抽出する方法において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、新たな原稿データである入力原稿データを取得し、取得した入力原稿データから特徴点を抽出し、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出することを特徴とする。 The document extraction method according to the present invention is a method of extracting specific document data from document data stored in a storage means, and includes a document index indicating a document composed of a plurality of pages. Stored in association with the document data corresponding to each page by the storage means, calculated based on the feature points extracted from the document data, and storing the feature data indicating the characteristics of the document data in association with the document data To acquire input document data as new document data, extract feature points from the acquired input document data, and generate feature data indicating features of the input document data based on the extracted feature points Then, by comparing the generated feature data with the feature data stored in the storage means, it is related to the feature data stored in the storage means. The similarity between the document data and the input document data is determined, a document index associated with the document data determined to be document data having a high similarity with the input document data is acquired, and the document index indicated by the acquired document index is obtained. A plurality of document data corresponding to a plurality of contained pages is extracted.
本発明に係る原稿抽出装置は、原稿データを記憶する原稿記憶手段を備え、該原稿記憶手段が記憶している原稿データの中から特定の原稿データを抽出する原稿抽出装置において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、新たな原稿データである入力原稿データを取得する取得手段と、該取得手段が取得した入力原稿データから特徴点を抽出する手段と、該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段とを備えることを特徴とする。 An original extracting apparatus according to the present invention includes original storing means for storing original data. In the original extracting apparatus for extracting specific original data from original data stored in the original storing means, a plurality of pages are used. Means for storing a document index indicating a document to be constructed in association with document data corresponding to each page included in the document, and a feature point extracted from the document data, and indicating characteristics of the document data Feature data storage means for storing feature data in association with the original data, acquisition means for acquiring input original data as new original data, and means for extracting feature points from the input original data acquired by the acquisition means And generating means for generating feature data indicating the characteristics of the input document data based on the feature points extracted by the means, and the generating means The similarity between the document data associated with the feature data stored in the feature data storage means and the input document data is determined by comparing the collected data with the feature data stored in the feature data storage means A document index associated with the document data determined by the determination unit, and a document indicated by the document index acquired by the unit. And an extraction means for extracting a plurality of document data corresponding to a plurality of contained pages.
本発明に係る原稿抽出装置は、前記特徴データ記憶手段は、一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、前記生成手段は、入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、前記判定手段は、前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段とを有することを特徴とする。 The document extraction device according to the present invention is configured such that the feature data storage means stores a plurality of feature data indicating characteristics of the document data in association with one document data, and the generation means includes: A plurality of feature data indicating features of input document data are generated, and the determination unit associates each of the plurality of feature data generated by the generation unit with feature data matching the feature data. A means for voting the received original data, and the original data having the maximum number of votes or the original data having a predetermined number or more of the original data stored in the original storage means, Means for determining that the document data has high similarity to the data.
本発明に係る原稿抽出装置は、前記取得手段は、複数の入力原稿データを取得する手段を有し、前記判定手段は、複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、前記抽出手段は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有することを特徴とする。 In the document extraction apparatus according to the present invention, the acquisition unit includes a unit that acquires a plurality of input document data, and the determination unit stores the document storage unit for each of the plurality of input document data. Means for determining the similarity between the document data and the input document data, and the extraction unit is configured to match document indexes associated with document data having a high similarity with each of the plurality of input document data. And a means for extracting a plurality of document data corresponding to a plurality of pages included in the document indicated by the document index.
本発明に係る原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数個取得された場合、又は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスの内で前記複数の入力原稿データに共通した原稿インデックスが複数個取得された場合に、更なる入力原稿データを要求する手段を更に備えることを特徴とする。 The document extracting apparatus according to the present invention is a document having a high similarity to each of a plurality of input document data when a plurality of document indexes associated with document data having a high similarity to the input document data are acquired. The apparatus further comprises means for requesting further input document data when a plurality of document indexes common to the plurality of input document data are obtained from the document indexes associated with the data.
本発明に係る原稿抽出装置は、前記取得手段は、原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあることを特徴とする。 The document extraction device according to the present invention is characterized in that the acquisition means is configured to acquire input document data by optically reading the document.
本発明に係る原稿抽出装置は、原稿インデックスに関連付けて、当該原稿インデックスが示す原稿に含まれる各ページに対応する原稿データを出力するために必要な所定の出力条件を記憶する手段と、前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段とを更に備えることを特徴とする。 The document extracting apparatus according to the present invention stores, in association with the document index, a predetermined output condition necessary for outputting document data corresponding to each page included in the document indicated by the document index, and the extraction A means for determining whether or not an output condition associated with the document index associated with the document data extracted by the means is satisfied, and a document index when the output condition is determined to be satisfied Means for outputting a plurality of document data corresponding to a plurality of pages included in the document, and a plurality corresponding to a plurality of pages included in the document indicated by the document index when it is determined that the output condition is not satisfied And a means for prohibiting the output of the original data.
本発明に係る原稿抽出装置は、前記抽出手段が抽出した複数の原稿データに基づいた複数の画像を形成する手段を更に備えることを特徴とする。 The document extraction device according to the present invention is characterized by further comprising means for forming a plurality of images based on the plurality of document data extracted by the extraction means.
本発明に係るコンピュータプログラムは、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムにおいて、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むことを特徴とする。 A computer program according to the present invention is a computer program for causing a computer to extract specific document data from document data stored inside or outside the computer, and causes the computer to extract feature points from input document data. A procedure for causing the computer to generate feature data indicating the characteristics of the input document data based on the extracted feature points; and a computer for generating generated feature data and feature data indicating the characteristics of the stored document data. A procedure for determining the similarity between the stored document data and the input document data by comparing, and a document associated with the document data that the computer determines to be document data having a high similarity with the input document data The procedure to get the index and the computer Characterized in that it comprises a procedure for extracting a plurality of original data corresponding to a plurality of pages included in the document indicated by the index.
本発明に係るコンピュータでの読み取りが可能な記録媒体は、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムを記録してあるコンピュータでの読み取りが可能な記録媒体において、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むコンピュータプログラムを記録してあることを特徴とする。 The computer-readable recording medium according to the present invention can be read by a computer in which a computer program for extracting specific document data from document data stored inside or outside the computer is recorded. In a possible recording medium, a procedure for causing the computer to extract feature points from the input document data that has been input, and a procedure for causing the computer to generate feature data indicating the characteristics of the input document data based on the extracted feature points; A procedure for causing the computer to determine the degree of similarity between the stored document data and the input document data by comparing the generated feature data with the feature data indicating the characteristics of the stored document data; Related to manuscript data determined to be manuscript data with high similarity to data A computer program including a procedure for acquiring a document index and a procedure for extracting a plurality of document data corresponding to a plurality of pages included in a document indicated by the acquired document index is recorded on the computer. Features.
本発明においては、原稿に含まれる各ページに対応する原稿データを記憶しておき、更に、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データと、原稿を示す原稿インデックスとを原稿データに関連付けて記憶しておく。原稿抽出装置は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。 In the present invention, document data corresponding to each page included in the document is stored, and further, feature data indicating the characteristics of the document data calculated based on the feature points extracted from the document data, and the document The document index shown is stored in association with the document data. When the original document data is acquired, the document extraction device generates feature data from the input document data, determines the similarity with the document data based on the feature data, and the document data having a high similarity with the input document data A document index associated with the document index is acquired, and a plurality of document data associated with the acquired document index is extracted. Thus, a document including pages corresponding to the document data determined to be similar to the input document data is specified, and document data corresponding to all pages included in the specified document is extracted.
また本発明においては、原稿抽出装置は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。 In the present invention, the document extraction device stores a plurality of feature data for one document data and determines the same for each feature data generated for the input document data in order to determine the similarity of the document data. Document data that has voted on document data associated with feature data and obtained a maximum number of votes or a number of votes equal to or greater than a predetermined amount is document data having a high degree of similarity to input document data. Since it is determined that the document data in which a lot of feature data matches among the plurality of feature data has a high similarity, it is possible to perform a more reliable similarity determination.
また本発明においては、原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて一の原稿を抽出することが可能となる。 In the present invention, the document extracting apparatus acquires a plurality of input document data, and associates the document index associated with the document data having a high degree of similarity with each input document data with the matched document index. The plurality of document data thus obtained is extracted. Thereby, it is possible to extract one original based on a plurality of pages.
また本発明においては、原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、更に原稿の他のページに対応する入力原稿データを要求する。これにより、原稿の他のページに対応する入力原稿データが更に取得され、原稿の他のページをも利用して原稿インデックスの絞込みが行われる。 In the present invention, when there are a plurality of document indexes associated with document data having a high degree of similarity to the input document data, the document extraction device further requests input document data corresponding to other pages of the document. As a result, input document data corresponding to other pages of the document is further acquired, and the document index is narrowed down using the other pages of the document.
また本発明においては、原稿抽出装置は、入力原稿データを取得する取得手段として、原稿を光学的に読み取るスキャナを備えることにより、原稿の一部をスキャナで読み取ることによって原稿データの抽出を行う。 In the present invention, the document extraction apparatus includes a scanner that optically reads a document as an acquisition unit that acquires input document data, and extracts document data by reading a part of the document with the scanner.
また本発明においては、原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、出力条件が満たされた場合に原稿データを出力し、出力条件が満たされない場合は原稿データの出力を禁止することにより、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。 Also, in the present invention, the document extraction device sets an output condition for each document index in advance, and outputs document data when the output condition is satisfied, and prohibits output of document data when the output condition is not satisfied. Thus, only the document corresponding to the document index that satisfies the output condition is output.
更に本発明においては、原稿抽出装置は、原稿データに基づいて画像を形成する手段を備えることにより、抽出した原稿データに基づいた画像を形成することができる。 Furthermore, in the present invention, the document extraction device includes means for forming an image based on the document data, so that an image based on the extracted document data can be formed.
本発明にあっては、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、全てのページに亘った原稿データを容易に抽出することが可能となる。 In the present invention, it is possible to extract document data corresponding to all pages of a document based on input document data corresponding to a part of a document composed of a plurality of pages. Therefore, even if a document composed of a plurality of pages is lost or lost due to dirt, document data covering all pages can be easily stored from a database in which document data is stored in advance. It becomes possible to extract.
また本発明にあっては、原稿データの類似度を判定する際に、複数の特徴データに基づいてより確からしい類似度判定を行うことができるので、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定するのを抑制することが可能となる。 Further, according to the present invention, when determining the similarity of document data, it is possible to perform a more reliable similarity determination based on a plurality of feature data. It is possible to suppress erroneously determining that the document data is high.
また本発明にあっては、複数のページに基づいて一の原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを抽出することが可能となる。 In the present invention, it is possible to extract one original based on a plurality of pages, and it is possible to further reduce the possibility of erroneously extracting original data different from the purpose. For example, even when there are similar documents, it is possible to extract target document data.
また本発明にあっては、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。 Further, according to the present invention, by using a plurality of pages, it is possible to perform a more reliable similarity determination, and it is possible to extract desired document data with high accuracy.
また本発明にあっては、原稿の一部をスキャナで読み取ることによって、例えば、通信ネットワークを介して接続されているサーバ装置に記憶されている原稿データの抽出を行うことができ、写真又は文書等からなる原稿の一部から手軽に原稿全体のデータを取得することが可能となる。 In the present invention, by scanning a part of a document with a scanner, for example, document data stored in a server device connected via a communication network can be extracted, and a photograph or document can be extracted. Thus, it is possible to easily acquire data of the entire original from a part of the original including the above.
また本発明にあっては、出力条件が満たされた場合に原稿の出力を可能とするので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止し、原稿に含まれる秘密情報を保護することが可能となる。 Further, according to the present invention, since the output of a document is possible when the output condition is satisfied, a document with high importance can be easily output by setting the output condition for a document with high importance. And the confidential information contained in the document can be protected.
更に本発明にあっては、デジタル複写機又はスキャナを備えた複合機等の画像形成装置を用い、画像形成装置に記憶されている原稿データ又は通信ネットワークを介して画像形成装置に接続されているサーバ装置に記憶されている原稿データから抽出した原稿データに基づいた画像を形成することができるので、画像形成によって、写真又は文書等からなる原稿を手軽に取得することが可能となる等、本発明は優れた効果を奏する。 Further, in the present invention, an image forming apparatus such as a digital copying machine or a multifunction machine equipped with a scanner is used, and is connected to the image forming apparatus via document data stored in the image forming apparatus or a communication network. Since an image based on the document data extracted from the document data stored in the server device can be formed, it is possible to easily acquire a document composed of a photograph or a document by image formation. The invention has an excellent effect.
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
(実施の形態1)
実施の形態1では、本発明の原稿抽出装置がカラー画像を形成する画像形成装置である形態を示す。図1は、実施の形態1に係る本発明の原稿抽出装置100の内部の機能構成を示すブロック図である。本発明の原稿抽出装置100は、原稿抽出装置100を構成する各部の動作を制御する制御部11、半導体メモリ又はハードディスク等で構成される記憶部(記憶手段)12、及びカラー画像を光学的に読み取るカラー画像入力部13を備えている。カラー画像入力部13には、読み取ったカラー画像に応じた画像データを生成する処理を行うカラー画像処理部2が接続されている。カラー画像入力部13は、写真又は文書等からなる原稿をカラー画像として読み取り、記憶部12は、カラー画像入力部13が原稿を読み取ってカラー画像処理部2が生成した画像データである原稿データを記憶する。記憶部12は本発明における原稿記憶手段として機能し、カラー画像入力部13は本発明における取得手段として機能する。またカラー画像処理部2には、カラー画像処理部2が生成した画像データに基づいてカラー画像を形成するカラー画像形成部14が接続されている。カラー画像入力部13、カラー画像処理部2及びカラー画像形成部14には、使用者からの操作を受け付ける操作パネル15が接続されている。
Hereinafter, the present invention will be specifically described with reference to the drawings showing embodiments thereof.
(Embodiment 1)
In the first embodiment, the document extracting apparatus of the present invention is an image forming apparatus that forms a color image. FIG. 1 is a block diagram showing an internal functional configuration of an original extracting
カラー画像入力部13は、CCD(Charge Coupled Device )を備えたスキャナにて構成されており、紙等の記録担体上に形成されたカラー画像である原稿からの反射光像をR(赤)G(緑)B(青)に分解してCCDで読み取り、RGBのアナログ信号に変換してカラー画像処理部2へ出力する構成となっている。カラー画像処理部2は、カラー画像入力部13から入力されたRGBのアナログ信号に対して後述する画像処理を行ってデジタルの画像データを生成し、更にデジタルのC(シアン)M(マゼンタ)Y(イエロー)K(黒)信号からなる画像データを生成してカラー画像形成部14へ出力する。カラー画像形成部14は、カラー画像処理部2から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式によりカラー画像を形成する。操作パネル15は、原稿抽出装置100の操作に必要な情報を表示する液晶ディスプレイ等の表示部と、原稿抽出装置100の動作を制御する指示を使用者の操作により受け付けるタッチパネル又はテンキー等の受付部とを含んで構成されている。
The color
カラー画像処理部2は、カラー画像入力部13から入力されたアナログ信号をA/D変換部20でデジタル信号に変換し、シェーディング補正部21、入力階調補正部22、領域分離処理部23、原稿抽出処理部24、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に送り、デジタルのCMYK信号からなる画像データをカラー画像形成部14へ出力する構成となっている。
The color
A/D変換部20は、カラー画像入力部13からカラー画像処理部2へ入力されたRGBのアナログ信号を受け付け、RGBのアナログ信号をデジタルのRGB信号へ変換し、RGB信号をシェーディング補正部21へ出力する。
The A /
シェーディング補正部21は、A/D変換部20から入力されたRGB信号に対して、カラー画像入力部13の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。シェーディング補正部21は、次に、歪みを取り除いたRGB信号を入力階調補正部22へ出力する。
The
入力階調補正部22は、シェーディング補正部21から入力されたRGB信号に対して、カラーバランスを調整する。更に、シェーディング補正部21から入力階調補正部22へ入力されたRGB信号はRGBの反射率信号であり、入力階調補正部22は、シェーディング補正部21から入力されたRGB信号を、カラー画像処理部2で処理しやすい濃度信号等の信号へ変換する。入力階調補正部22は、次に、処理を行ったRGB信号を領域分離処理部23へ出力する。
The input
領域分離処理部23は、入力階調補正部22から入力されたRGB信号が表す画像中の各画素を、文字領域、網点領域、又は写真領域のいずれかに分離し、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒生成下色除去部26、空間フィルタ処理部27、及び階調再現処理部29へ出力する。領域分離処理部23は、また、入力階調補正部22から入力されたRGB信号を原稿抽出処理部24へ出力する。
The region
原稿抽出処理部24は、記憶部12と接続されており、RGB信号でなる画像データである原稿データを記憶部12との間で入出力する処理、及び後述する本発明の原稿抽出方法に係る処理を実行する。原稿抽出処理部24は、また、領域分離処理部23から入力されたRGB信号でなる画像データ又は記憶部12から入力された原稿データである画像データを色補正部25へ出力する。なお、原稿抽出装置100は、原稿抽出処理部24を領域分離処理部23の後段に設けるのではなく、入力階調補正部22と並列して設けた形態であってもよい。
The document
色補正部25は、原稿抽出処理部24から入力されたRGB信号をCMY信号へ変換し、色再現の忠実化実現のために、不要吸収成分を含むCMY色材の分光特性に基づいた色濁りをCMY信号から取り除く処理を行う。色補正部25は、次に、色補正を行ったCMY信号を黒生成下色除去部26へ出力する。
The
黒生成下色除去部26は、色補正部25から入力されたCMYの3色信号からK信号を生成する黒生成処理を行い、元のCMY信号から黒生成処理によって得られたK信号を差し引くことによって、CMYの3色信号をCMYKの4色信号へ変換する。黒生成処理の一例としては、スケルトンブラックにより黒生成を行う方法がある。この方法では、スケルトンカーブの入出力特性をy=f(x)、変換前のデータをC,M,Y、UCR(Under Color Removal )率をα(0<α<1)とすると、変換後のデータC’,M’,Y’,K’は下記の式で表される。
K’=f(min(C,M,Y))
C’=C−αK’
M’=M−αK’
Y’=Y−αK’
The black generation and under
K ′ = f (min (C, M, Y))
C ′ = C−αK ′
M ′ = M−αK ′
Y ′ = Y−αK ′
ここで、UCR率α(0<α<1)は、CMYが重なっている部分をKに置き換えてCMYをどの程度削減するかを示す。前記第1式は、CMYの各信号強度の内の最も小さい信号強度に応じてK信号が生成されることを示している。黒生成下色除去部26は、次に、CMY信号を変換したCMYK信号を空間フィルタ処理部27へ出力する。
Here, the UCR rate α (0 <α <1) indicates how much CMY is reduced by replacing the portion where CMY overlaps with K. The first equation indicates that the K signal is generated according to the smallest signal strength among the CMY signal strengths. Next, the black generation and under
空間フィルタ処理部27は、黒生成下色除去部26から入力されたCMYK信号が表す画像に対して、領域分離処理部23から入力された領域識別信号に基づいてデジタルフィルタによる空間フィルタ処理を行うことにより、画像のぼやけ又は粒状性劣化を改善する。例えば、領域分離処理部23にて文字に分離された領域に対しては、空間フィルタ処理部27は、文字の再現性を高めるために、高周波成分の強調量が大きいフィルタを用いて空間フィルタ処理を行う。また領域分離処理部23にて網点に分離された領域に対しては、空間フィルタ処理部27は、入力網点成分を除去するためのローパス・フィルタ処理を行う。空間フィルタ処理部27は、次に、処理後のCMYK信号を出力階調補正部28へ出力する。
The spatial
出力階調補正部28は、空間フィルタ処理部27から入力されたCMYK信号に対して、カラー画像形成部14の特性値である網点面積率に変換する出力階調補正処理を行い、出力階調補正処理後のCMYK信号を階調再現処理部29へ出力する。
The output
階調再現処理部29は、出力階調補正部28から入力されたCMYK信号に対して、領域分離処理部23から入力された領域識別信号に基づいて、画素の階調数を減少させながら領域に応じた階調を表現できるように処理を行う。例えば、領域分離処理部23にて文字に分離された領域に対しては、階調再現処理部29は、高域周波成分の再現に適した高解像度のスクリーンによる二値化又は低階調化の処理を行う。また領域分離処理部23にて網点に分離された領域に対しては、階調再現処理部29は、最終的に画像を画素に分離して夫々の階調を再現できるように処理する階調再現処理を行う。階調再現処理部29は、次に、処理後の画像データをカラー画像形成部14へ出力する。
The gradation
カラー画像形成部14は、カラー画像処理部2から入力されたCMYK信号でなる画像データに基づいて、紙等の記録担体上にCMYKのカラー画像を形成する。原稿データである画像データに基づいて画像を形成することにより、カラー画像形成部14は、写真又は文書等からなる原稿を出力する。
The color
次に、原稿抽出処理部24の構成及び原稿抽出処理部24が行う処理を説明する。図2は、原稿抽出処理部24の構成を示すブロック図である。原稿抽出処理部24は、入力された原稿データが表す原稿上の文字又は図形等に対応する特徴点を抽出する特徴点抽出部241、特徴点から原稿データの特徴を示す特徴データを算出する特徴データ算出部242、特徴データに基づいて、記憶部12が記憶する原稿データに対して投票を行う投票処理部243、投票結果に基づいて原稿データの類似度を判定する類似度判定処理部244、及び記憶部12から特定の原稿データを抽出する原稿抽出部245を備えている。
Next, the configuration of the document
図3は、特徴点抽出部241の構成を示すブロック図である。特徴点抽出部241は、原稿データを無彩化する無彩化処理部2410、原稿データの解像度を所定の解像度に変換する解像度変換部2411、原稿データの空間周波数特性を補正するフィルタ処理部2412、原稿データを二値化する二値化処理部2413、及び文字等の重心を抽出する重心抽出部2414を備えている。
FIG. 3 is a block diagram showing a configuration of the feature
無彩化処理部2410は、入力された原稿データがカラー画像データである場合に、カラー画像を無彩化して、輝度信号又は明度信号に変換し、変換後の原稿データを解像度変換部2411へ出力する。例えば、輝度信号Yは、各画素RGBの色成分の強度を夫々Rj、Gj、Bjとし、各画素の輝度をYjとして、Yj=0.30×Rj+0.59×Gj+0.11×Bjで表すことができる。また他の方法として、RGB信号をCIE(Commission International de l'Eclairage )1976L* a* b* 信号に変換することによってカラー画像を無彩化する方法を利用しても良い。
When the input document data is color image data, the
解像度変換部2411は、入力された原稿データの解像度が所定の解像度になるように原稿データを変倍して、原稿データの解像度を変換し、原稿データをフィルタ処理部2412へ出力する。これにより、カラー画像入力部13で光学的に原稿が変倍されて原稿データの解像度が変化した場合であっても、その影響を受けることなく特徴点の抽出を行うことが可能となる。また解像度変換部2411は、カラー画像入力部13で等倍時に読み込まれる解像度よりも低解像度に変換する。例えば、カラー画像入力部13で600dpi(dot per inch)で読み込んだ原稿データを300dpiに変換する。これにより、後段における処理量を低減することができる。
The
フィルタ処理部2412は、入力された原稿データの空間周波数特性を画像の強調化処理及び平滑化処理等によって補正し、補正後の画像を二値化処理部2413へ出力する。フィルタ処理部2412での処理は、カラー画像入力部13の空間周波数特性が機種ごとに異なることを吸収するために行われる。カラー画像入力部13が備えるCCDが出力する画像信号には、レンズ又はミラー等の光学系部品、CCDの受光面のアパーチャ開口度、転送効率、残像、物理的な走査による積分効果及び走査むら等に起因して画像がぼやける劣化が生ずる。フィルタ処理部2412は、境界又はエッジ等の強調処理を行うことにより、原稿データに生じた劣化を修復する。また、フィルタ処理部2412は、後段で処理される特徴点の抽出処理に不要な高周波成分を抑制するための平滑化処理を行う。
The
図4は、フィルタ処理部2412が利用する空間フィルタの例を示す説明図である。図に示すように、空間フィルタは、例えば、7×7の大きさを有し、強調処理及び平滑化処理を行うための混合フィルタである。入力された原稿データの画素を走査し、空間フィルタによる演算処理をすべての画素に対して行う。なお、空間フィルタの大きさは、7×7の大きさに限定されるものではなく、3×3、5×5などの大きさであってもよい。また、フィルタ係数の数値は一例であって、これに限定されるものではなく、カラー画像入力部13の機種又は特性などに応じて適宜設定することができる。
FIG. 4 is an explanatory diagram illustrating an example of a spatial filter used by the
二値化処理部2413は、入力された原稿データに含まれる各画素の輝度値又は明度値を所定の閾値と比較することにより原稿データを二値化し、二値化した原稿データを重心抽出部2414へ出力する。
The
重心抽出部2414は、二値化処理部2413から入力された原稿データの各画素について、二値化された画素値に応じたラベルを付すラベリングを行う。即ち、ラベルには二種類のラベルがあり、画素値が0又は1で表される場合に、0の画素には一方のラベルが付され、1の画素には他方のラベルが付される。重心抽出部2414は、次に、同一ラベルが付された画素が連結した連結領域を特定し、特定した連結領域の重心を特徴点として抽出し、抽出した特徴点を特徴データ算出部242へ出力する。なお、特徴点は、原稿データが表す二値画像上での座標値で表すことができる。
The center-of-
図5は、連結領域の特徴点の例を示す説明図である。図5において、特定された連結領域は、文字「A」であり、同一ラベルが付された画素の集合として特定される。この文字「A」の重心の位置は、図5中の黒丸で示される位置となり、この重心が特徴点となる。図6は、文字列に対する特徴点の抽出結果の例を示す説明図である。複数の文字から構成される文字列の場合、文字の種類により夫々異なる位置に特徴点が抽出される。特徴点は、文字に対してのみではなく、同様にして図形又は写真の部分に対しても抽出することができる。なお、ここで示した特徴点の抽出方法は一例であり、他の方法を用いて特徴点を抽出してもよい。例えば、文字列を単語に分解し、各単語の重心を特徴点として抽出する処理を行ってもよい。 FIG. 5 is an explanatory diagram illustrating an example of feature points of a connected region. In FIG. 5, the identified connected area is the letter “A”, and is identified as a set of pixels with the same label. The position of the center of gravity of the letter “A” is a position indicated by a black circle in FIG. 5, and this center of gravity is a feature point. FIG. 6 is an explanatory diagram illustrating an example of a feature point extraction result for a character string. In the case of a character string composed of a plurality of characters, feature points are extracted at different positions depending on the character type. The feature points can be extracted not only for characters but also for a figure or a photograph part in the same manner. The feature point extraction method shown here is merely an example, and feature points may be extracted using other methods. For example, a process of decomposing a character string into words and extracting the centroid of each word as a feature point may be performed.
特徴データ算出部242は、特徴点抽出部241から入力された特徴点に基づき、入力された原稿データの特徴を示す特徴データを算出する処理を行う。ここに、特徴データの算出例を示す。特徴データ算出部242は、特徴点抽出部241から入力された特徴点の夫々を順に注目特徴点とし、注目特徴点に近接する4つの他の特徴点を抽出する。
The feature
図7は、注目特徴点と抽出した特徴点とを示す説明図である。特徴データ算出部242は、図7に示すように、1つの特徴点を注目特徴点とし、この注目特徴点の周辺に近接する特徴点を、注目特徴点からの距離が近いものから順に所定数(ここでは4点)だけ周辺特徴点として抽出する。図7に示す例では、特徴点aを注目特徴点P1とした場合には図中の閉曲線C1で囲まれる特徴点b,c,d,eの4点が周辺特徴点として抽出され、特徴点bを注目特徴点P2とした場合には図中の閉曲線C2で囲まれる特徴点a,c,e,fの4点が周辺特徴点として抽出される。
FIG. 7 is an explanatory diagram showing the feature point of interest and the extracted feature points. As shown in FIG. 7, the feature
また、特徴データ算出部242は、抽出した周辺特徴点4点の中から、3点の組み合わせを抽出する。図8は、注目特徴点P1に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図8(a)〜図8(d)に示すように、図7に示した特徴点aを注目特徴点P1とした場合、周辺特徴点b,c,d,eの中から3点を選択した全ての組み合わせ、即ち、周辺特徴点b,c,d、周辺特徴点b,c,e、周辺特徴点b,d,e、周辺特徴点c,d,eの各組み合わせが抽出される。
In addition, the feature
次に、特徴データ算出部242は、抽出した各組み合わせについて、幾何学的変形に対する不変量(特徴量の1つ)Hijを算出する。ここで、iは注目特徴点を示す数(iは1以上の整数)であり、jは周辺特徴点3点の組み合わせを示す数(jは1以上の整数)である。本実施の形態では周辺特徴点同士を結ぶ線分の長さのうちの2つの比を不変量Hijとする。なお、線分の長さは、各周辺特徴点の座標値に基づいて算出すればよい。例えば、図8(a)に示した例では、特徴点bと特徴点cとを結ぶ線分の長さをA11、特徴点bと特徴点dとを結ぶ線分の長さをB11とし、不変量H11をH11=A11/B11により求める。また、図8(b)に示した例では、特徴点bと特徴点cとを結ぶ線分の長さをA12、特徴点bと特徴点eとを結ぶ線分の長さをB12とし、不変量H12をH12=A12/B12により求める。また、図8(c)に示した例では、特徴点bと特徴点dとを結ぶ線分の長さをA13、特徴点bと特徴点eとを結ぶ線分の長さをB13とし、不変量H13をH13=A13/B13により求める。また、図8(d)に示した例では、特徴点cと特徴点dとを結ぶ線分の長さをA14、特徴点cと特徴点eとを結ぶ線分の長さをB14とし、不変量H14をH14=A14/B14により求める。このようにして、図8(a)〜図8(d)に示した例では、不変量H11,H12,H13,H14が算出される。以上の例では、注目特徴点に1番目,2番目,3番目に近い周辺特徴点3点の組み合わせをj=1とし、注目特徴点に1番目,2番目,4番目に近い周辺特徴点3点の組み合わせをj=2とし、注目特徴点に1番目,3番目,4番目に近い周辺特徴点3点の組み合わせをj=3とし、注目特徴点に2番目,3番目,4番目に近い周辺特徴点3点の組み合わせをj=4とした。また、3点の周辺特徴点の中で注目特徴点に最も近い周辺特徴点と2番目に近い周辺特徴点とを結ぶ線分をAij、注目特徴点に最も近い周辺特徴点と3番目に近い周辺特徴点とを結ぶ線分をBijとした。なお、周辺特徴点3点の組み合わせの順番又は不変量Hijの算出に用いる線分を定めるためには、以上の例で用いた方法に限ることなく、周辺特徴点間を結ぶ線分の長さを基準にして定める方法等、任意の方法を用いて定めればよい。
Next, the feature
次に、特徴データ算出部242は、下記式の余りの値をハッシュ値(特徴データ)Hiとして算出し、記憶部12に記憶させる。なお、下記式のDは余りが取り得る値の範囲をどの程度に設定するかに応じて予め設定される定数である。
(Hi1×103 +Hi2×102 +Hi3×101 +Hi4×100 )/D
Next, the feature
(Hi1 × 10 3 + Hi2 × 10 2 + Hi3 × 10 1 + Hi4 × 10 0 ) / D
また、特徴データ算出部242は、1つの注目特徴点に対する周辺特徴点の抽出及びハッシュ値Hiの算出が終了した後、他の特徴点を次の注目特徴点とし、次の注目特徴点について周辺特徴点の抽出及びハッシュ値の算出を行い、各特徴点を注目特徴点としたハッシュ値を算出する。
Also, after the feature
図7に示した例では、特徴データ算出部242は、特徴点aを注目特徴点P1とした周辺特徴点の抽出及びハッシュ値H1の算出が終了した後に、特徴点bを注目特徴点P2とした周辺特徴点の抽出及びハッシュ値H2の算出を行う。図7に示すように、特徴点bを注目特徴点P2とした場合、特徴点a,c,e,fの4点が周辺特徴点として抽出される。図9は、注目特徴点P2に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図9(a)〜図9(d)に示すように、特徴データ算出部242は、周辺特徴点a,c,e,fの内の3点の組み合わせ、即ち、周辺特徴点a,e,f、周辺特徴点a,c,e、周辺特徴点a,f,c、周辺特徴点e,f,cの各組み合わせを抽出し、各組み合わせについて不変量Hijを算出する。図8に示した注目特徴点P1の場合と同様に、注目特徴点P2の場合でも、図9(a)に示すようにH21=A21/B21により不変量H21が算出され、図9(b)に示すようにH22=A22/B22により不変量H22が算出され、図9(c)に示すようにH23=A23/B23により不変量H23が算出され、図9(d)に示すようにH24=A24/B24により不変量H24が算出される。また特徴データ算出部242は、不変量H21,H22,H23,H24からハッシュ値H2を算出し、記憶部12に記憶させる。更に特徴データ算出部242は、各特徴点を注目特徴点として同様の処理を繰り返し、各特徴点を注目特徴点とした場合のハッシュ値Hiを夫々に求めて記憶部12に記憶させる。
In the example illustrated in FIG. 7, the feature
以上の如くにして、特徴データ算出部242は、特徴点の夫々についてハッシュ値Hiである特徴データを計算し、計算した複数の特徴データを原稿データの特徴データとする。特徴データ算出部242は、本発明における生成手段として機能する。
As described above, the feature
なお、ここで示した特徴データの算出方法は一例であり、他の方法を用いて特徴データを算出してもよい。例えば、他の所定のハッシュ関数を用いて特徴データを算出してもよい。また、注目特徴点に近接する特徴点を抽出する際に、5点又は6点等、4点以外の数の特徴点を抽出して特徴データを算出してもよい。また、抽出した5つの特徴点から更に3つの特徴点を抽出し、3点間の距離に基づいて特徴データを算出し、5つの特徴点から更に3つの特徴点を抽出できる組み合わせの数だけ特徴データを算出する等、一の注目特徴点について複数の特徴データを算出する処理を行ってもよい。 Note that the feature data calculation method shown here is merely an example, and feature data may be calculated using another method. For example, the feature data may be calculated using another predetermined hash function. Further, when extracting feature points close to the feature point of interest, feature data may be calculated by extracting a number of feature points other than four, such as five or six points. In addition, three more feature points are extracted from the five extracted feature points, feature data is calculated based on the distance between the three points, and the number of features that can be extracted from the five feature points is the number of combinations. A process of calculating a plurality of feature data for one target feature point, such as calculating data, may be performed.
特徴データ算出部242が算出する特徴データは、原稿データに関連付けられて記憶部12で記憶されている。記憶部12は、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。記憶部12は、本発明における特徴データ記憶手段として機能する。
The feature data calculated by the feature
図10は、記憶部12が記憶する原稿データを示す概念図である。原稿に含まれる各ページに対応する複数の原稿データが記憶されており、各原稿データには、原稿データを個別に示すID1,ID2,…のページインデックスが付されている。図11は、記憶部12が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すDoc1,Doc2,…の原稿インデックスが記録されており、原稿に含まれる各ページに対応する原稿データを示すページインデックスが、原稿インデックスに関連付けられて記録されている。テーブルには更に各原稿のページ数が記録されており、ページ数と同数のページインデックスが原稿インデックスに関連付けられている。ページインデックスが原稿インデックスに関連付けられていることによって、図10に示す如く、記憶部12は原稿インデックス及び原稿データを互いに関連付けて記憶する。
FIG. 10 is a conceptual diagram showing document data stored in the
図12は、記憶部12が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容例を示す概念図である。図中には、ハッシュ値である特徴データをE=127として算出した場合の例を示している。0〜126の夫々の特徴データが記録されており、原稿データのページインデックスが、その原稿データについて算出された特徴データに関連付けて記録されている。複数の原稿データで同一の特徴データが算出されることがあるので、各特徴データには、複数のページインデックスが関連付けられている。また一の原稿データについて複数の特徴データが算出されるので、一の原稿データのページインデックスが複数の特徴データに関連付けられている。ページインデックスが特徴データに関連付けられていることによって、記憶部12は特徴データ及び原稿データを互いに関連付けて記憶する。
FIG. 12 is a conceptual diagram illustrating an example of the contents of a feature table that associates document data and feature data stored in the
投票処理部243は、特徴データ算出部242が算出した特徴データに基づいて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データと一致する特徴データに関連付けられたページインデックスが示す原稿データに投票する。一の特徴データに複数のページインデックスが関連付けられている場合は、その特徴データに関連付けられた全ての原稿データに対して投票が行われる。入力された原稿データについて特徴データ算出部242は複数の特徴データを算出するので、各特徴データについて投票が行われ、入力された原稿データに類似する原稿データに対しては複数回の投票が行われる。投票処理部243は、特徴データ算出部242が算出した複数の特徴データについて投票を行った結果を類似度判定処理部244へ出力する。
The
類似度判定処理部244は、投票処理部243から入力された投票結果に基づいて、入力された原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定し、判定結果を原稿抽出部245へ出力する。具体的には、類似度判定処理部244は、記憶部12に記憶された各原稿データの得票数を検査し、得票数が最大である原稿データを、入力された原稿データに類似する原稿データであると判定する。あるいは、類似度判定処理部244は、特徴データ算出部242が算出した特徴データの数である最大可能得票数で各原稿データの得票数を除算して得票数を正規化し、正規化した得票数が所定の閾値以上である原稿データを、入力された原稿データに類似する原稿データであると判定する処理を行ってもよい。入力された原稿データに類似する原稿データがある場合は、類似度判定処理部244が出力する判定結果には、類似する原稿データのページインデックスが含まれる。投票処理部243及び類似度判定処理部244は、本発明における判定手段として機能する。
The similarity
原稿抽出部245は、類似度判定処理部244から入力された判定結果に含まれるページインデックスに基づいて、記憶部12が記憶する原稿テーブルを検索し、ページインデックスに関連付けられた原稿インデックスを取得する。これにより、入力された原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定される。原稿抽出部245は、次に、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し、抽出した複数の原稿データを色補正部25へ出力する。これにより、特定された原稿に含まれる全てのページに対応する原稿データが抽出される。原稿抽出部245は、本発明における抽出手段として機能する。
The
次に、以上の構成でなる本発明の原稿抽出装置100が実行する処理を説明する。原稿抽出装置100は、複数のページで構成される原稿を読み取って原稿データを登録する処理と、原稿の一部を読み取って原稿の全てのページに対応する原稿データを抽出する処理とを実行する。原稿の一部から原稿の全てのページに対応する原稿データを抽出する処理は、本発明の原稿抽出方法に係る処理である。図13は、原稿データを登録する処理の手順を示すフローチャートである。
Next, processing executed by the
原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの登録指示の受付を随時待ち受けている(S11)。登録指示の受付がない場合は(S11:NO)、制御部11は、登録指示の受付の待ち受けを続行する。原稿データの登録指示を受け付けた場合は(S11:YES)、複数のページでなる原稿を使用者が原稿抽出装置100にセットし、カラー画像入力部13は、各ページを光学的に読み取ることによって、RGB信号でなる画像データである複数の原稿データを取得する(S12)。カラー画像入力部13は、原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に原稿データを処理し、制御部11は、記憶部12に原稿データを記憶させる(S13)。
The
原稿抽出処理部24では、特徴点抽出部241が前述の処理によって一の原稿データについて複数の特徴点を抽出し(S14)、特徴データ算出部242は、前述の処理によって夫々の特徴点について特徴データを計算することにより、一の原稿データの特徴を示す複数の特徴データを算出する(S15)。制御部11は、次に、一の原稿データを示すページインデックスを生成し、記憶部12に記憶した原稿データにページインデックスを付加することによって、ページインデックスを設定する(S16)。このとき、制御部11は、原稿データが入力された順番、又は日時等に基づいて、一意のページインデックスを生成する。制御部11は、次に、特徴データ算出部242が算出した特徴データと原稿データのページインデックスとを関連付けることによって、図12に示す如き特徴テーブルを更新する(S17)。
In the document
制御部11は、次に、入力された全ての原稿データについて特徴データを関連付ける処理が終了したか否かを判定する(S18)。まだ特徴データを関連付ける処理を行っていない原稿データがある場合は(S18:NO)、制御部11は、処理をステップS14へ戻し、特徴点抽出部241は、まだ特徴点の抽出を行っていない原稿データについて特徴点を抽出する。全ての原稿データについて処理が終了している場合は(S18:YES)、取得した複数の原稿データに対応する複数のページで構成される原稿を示す原稿インデックスを生成することによって、原稿インデックスを設定する(S19)。ここで、制御部11は、日時等から原稿インデックスを生成する。なお、制御部11は、使用者が希望する原稿インデックスを操作パネル15で受け付ける処理を行ってもよい。
Next, the
制御部11は、次に、生成した原稿インデックスと原稿データのページインデックスとを関連付けることによって、記憶部12が記憶する原稿テーブルを更新し(S20)、処理を終了する。以上の処理により、複数のページからなる原稿の原稿データが記憶部12に記憶される。
Next, the
図14は、原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている(S31)。抽出指示の受付がない場合は(S31:NO)、制御部11は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は(S31:YES)、複数のページでなる原稿に含まれる一部のページを原稿抽出装置100に使用者がセットし、カラー画像入力部13は、セットされたページを光学的に読み取ることによって、RGB信号でなる画像データである入力原稿データを取得する(S32)。
FIG. 14 is a flowchart showing a procedure of processing for extracting document data. The
カラー画像入力部13は、入力原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に入力原稿データを処理し、原稿抽出処理部24では、特徴点抽出部241が入力原稿データについて複数の特徴点を抽出する(S33)。特徴データ算出部242は、特徴点抽出部241が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する(S34)。
The color
投票処理部243は、次に、特徴データ算出部242が算出した各特徴データについて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う(S35)。類似度判定処理部244は、投票処理部243での投票結果に基づいて、入力原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定する(S36)。このとき、類似度判定処理部244は、最低限の得票数を得た原稿データの内で得票数が最大である原稿データ、又は正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。
Next, the
制御部11は、次に、類似度判定処理部244での判定結果が、類似度が高い原稿データがあることを示しているか否かを判定する(S37)。判定結果が、類似度が高い原稿データがないことを示している場合は(S37:NO)、制御部11は、使用者がカラー画像入力部13に読み取らせた原稿と類似する原稿がないことを示す情報を出力する(S38)。具体的には、制御部11は、類似する原稿がないことを示す文字情報を操作パネル15の表示部に表示させるか、又は類似する原稿がないことを文字で表した画像をカラー画像形成部14に形成させる。ステップS38が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
Next, the
ステップS37で、判定結果が、類似度が高い原稿データがあることを示している場合は(S37:YES)、原稿抽出部245は、記憶部12が記憶する原稿テーブルを検索し、類似度判定処理部244が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する(S39)。制御部11は、次に、複数のページに対応する複数の入力原稿データを取得しているか否かを判定する(S40)。取得した入力原稿データが一のページに対応する入力原稿データである場合は(S40:NO)、原稿抽出部245は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する(S43)。これにより、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データが全て抽出される。
If it is determined in step S37 that the determination result includes document data having a high degree of similarity (S37: YES), the
原稿抽出部245は、抽出した原稿データを色補正部25へ出力し、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に原稿データを処理し、カラー画像処理部2はカラー画像形成部14へ原稿データを出力する。カラー画像形成部14は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う(S44)。ステップS44が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
The
ステップS40で複数のページに対応する複数の入力原稿データを取得している場合は(S40:YES)、制御部11は、各入力原稿データについて取得した原稿インデックスが一致しているか否かを判定する(S41)。原稿インデックスが一致していない場合は(S41:NO)、制御部11は、処理をステップS38へ進め、類似する原稿がないことを出力する。
When a plurality of input document data corresponding to a plurality of pages is acquired in step S40 (S40: YES), the
ステップS41で原稿インデックスが一致している場合は(S41:YES)、制御部11は、全ての入力原稿データについて類似度を判定する処理が終了したか否かを判定する(S42)。まだ類似度を判定する処理を行っていない入力原稿データがある場合は(S42:NO)、制御部11は、処理をステップS33へ戻し、特徴点抽出部241は、まだ特徴点の抽出を行っていない入力原稿データについて特徴点を抽出する。全ての入力原稿データについて処理が終了している場合は(S42:YES)、原稿抽出装置100は、処理をステップS43へ進め、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データを抽出して原稿を出力する。
If the document indexes match in step S41 (S41: YES), the
なお、以上の処理においては、入力原稿データとの類似度が高い原稿データが一つであるとしているが、原稿抽出装置100は、正規化された得票数が所定の閾値以上である原稿データが複数ある場合に、複数の原稿データを入力原稿データとの類似度が高い原稿データであると判定する処理を行ってもよい。この場合は、複数の原稿データの夫々に係る原稿を共に出力する処理を行ってもよく、又、類似度が高いと判定された各原稿データに対応するページのイメージを操作パネル15の表示部で表示し、正当な原稿データを使用者に選択させる処理を行ってもよい。
In the above processing, it is assumed that there is one document data having a high similarity to the input document data. However, the
以上詳述した如く、本発明においては、原稿抽出装置100は、原稿に含まれる各ページに対応する原稿データを記憶部12に記憶しておき、更に原稿データの特徴を示す特徴データ、及び原稿を示す原稿インデックスを原稿データに関連付けて記憶しておく。原稿抽出装置100は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。即ち、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。
As described above in detail, in the present invention, the
また本発明の原稿抽出装置100は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。従って、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定することによって目的とは異なる原稿データを抽出してしまう愚を可及的に避けることが可能となる。
The
また本発明の原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを確実に抽出することが可能となる。 The document extraction device of the present invention acquires a plurality of input document data, and when document indexes associated with document data having a high degree of similarity with each input document data match, the document index is associated with the matched document index. A plurality of document data is extracted. Thereby, it is possible to extract a document based on a plurality of pages, and it is possible to further reduce the possibility of erroneously extracting document data different from the purpose. For example, even when there are similar documents, it is possible to reliably extract target document data.
また本発明においては、原稿データが表す原稿上の文字、図形及び写真等の重心に対応した特徴点を原稿データから抽出し、抽出した複数の特徴点の相対的な位置関係に基づいて、数値で表される特徴データを算出する。このようにして算出した特徴データを原稿データ間で比較することにより原稿データの検索を行うので、従来のビットマップデータを比較することによる検索、又は原稿から抽出した多量の文字コードである特徴量を比較することによる検索に比べて、原稿データの検索処理を行うために必要なデータ量が大幅に削減される。従って、本発明においては、従来技術に比べて、原稿データを検索する処理に必要な時間が削減される。また本発明においては、複数の特徴点の相対的な位置関係に基づいて求めた特徴データを比較することによって原稿データの検索を行うので、原稿データ間で画像の位置合わせを行う必要がない。従って、本発明では、従来技術に比べて高精度で原稿データを検索することができる。 In the present invention, a feature point corresponding to the center of gravity of a character, a figure, a photograph, or the like on the document represented by the document data is extracted from the document data, and a numerical value is calculated based on the relative positional relationship of the extracted feature points. The feature data represented by is calculated. Since the document data is searched by comparing the feature data calculated in this way between the document data, the search is performed by comparing the conventional bitmap data, or a feature amount that is a large amount of character code extracted from the document. Compared with the search by comparing the document data, the amount of data necessary for performing the document data search process is greatly reduced. Therefore, in the present invention, the time required for the process of searching for document data is reduced as compared with the prior art. In the present invention, since document data is searched by comparing feature data obtained based on the relative positional relationship between a plurality of feature points, it is not necessary to perform image alignment between document data. Therefore, in the present invention, document data can be searched with higher accuracy than in the prior art.
なお、本実施の形態においては、カラー画像データである原稿データを扱う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、モノクロの原稿データを扱う形態であってもよい。
In the present embodiment, the document data that is color image data is handled. However, the present invention is not limited to this, and the
また本実施の形態においては、本発明における取得手段としてスキャナであるカラー画像入力部13を用いた形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、取得手段として、外部のスキャナ又はPCから原稿データを受信するインタフェースを備えた形態であってもよい。また本発明に係る原稿データは、原稿を光学的に取り込んだ画像データに限るものではなく、アプリケーションプログラムを利用したPCで作成したテキストデータ等のアプリケーションデータであってもよい。この場合は、原稿抽出装置100は、取得手段であるインタフェースでアプリケーションデータである原稿データを受け付け、本発明に係る処理を実行する。
In the present embodiment, the color
また本実施の形態においては、取得した原稿データを登録し、登録した原稿データの中から必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、予め原稿データを記憶している記憶部12を取り付けられる等の方法により、登録の処理を行うことなく原稿データを抽出する処理を行う形態であってもよい。また本実施の形態においては、原稿抽出装置100で内蔵する記憶部12に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。
In the present embodiment, the acquired document data is registered, and necessary document data is extracted from the registered document data. However, the present invention is not limited to this. The
(実施の形態2)
実施の形態2においては、入力画像データとの類似度が高い原稿データが複数ある場合に、更に入力画像データを取得して画像データの絞込みを行う形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図1〜図3を用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る記憶部12での記憶内容は、図11及び図12を用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図13のフローチャートを用いて説明した実施の形態1の場合と同様である。
(Embodiment 2)
In the second embodiment, when there are a plurality of document data having a high similarity to the input image data, the input image data is further acquired to narrow down the image data. The internal configuration of the document extracting apparatus according to the present embodiment is the same as that of the first embodiment described with reference to FIGS. In addition, the storage contents in the
図15及び図16は、実施の形態2に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている(S501)。抽出指示の受付がない場合は(S501:NO)、制御部11は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は(S501:YES)、複数のページでなる原稿に含まれる一部のページを原稿抽出装置100に使用者がセットし、カラー画像入力部13は、セットされた一のページを光学的に読み取ることによって、RGB信号でなる画像データである入力原稿データを取得する(S502)。
15 and 16 are flowcharts showing a procedure of processing for extracting document data performed by the document extraction apparatus according to the second embodiment. The
カラー画像入力部13は、入力原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に入力原稿データを処理し、原稿抽出処理部24では、特徴点抽出部241が入力原稿データについて複数の特徴点を抽出する(S503)。特徴データ算出部242は、特徴点抽出部241が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する(S504)。
The color
投票処理部243は、次に、特徴データ算出部242が算出した各特徴データについて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う(S505)。類似度判定処理部244は、投票処理部243での投票結果に基づいて、入力原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定する(S506)。ステップS506では、類似度判定処理部244は、正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。
Next, the
制御部11は、次に、類似度判定処理部244での判定結果が、入力原稿データとの類似度が高い原稿データがあることを示しているか否かを判定する(S507)。判定結果が、類似度が高い原稿データがないことを示している場合は(S507:NO)、制御部11は、使用者がカラー画像入力部13に読み取らせた原稿と類似する原稿がないことを示す情報を出力する(S508)。ステップS508が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
Next, the
ステップS507で、判定結果が、入力原稿データとの類似度が高い原稿データがあることを示している場合は(S507:YES)、原稿抽出部245は、記憶部12が記憶する原稿テーブルを検索し、類似度判定処理部244が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する(S509)。入力原稿データとの類似度が高い原稿データが複数ある場合は、ステップS509では複数の原稿インデックスが取得される。制御部11は、次に、現在処理中の入力原稿データが、複数のページでなる原稿の内の2ページ目以降のページを読み取った入力原稿データであるか否かを判定する(S510)。現在処理中の入力原稿データが原稿の1ページ目を読み取った入力原稿データである場合は(S510:NO)、制御部11は、ステップS509で取得した原稿インデックスが複数個あるか否かを判定する(S515)。ステップS509で取得した原稿インデックスが単数である場合は(S515:NO)、原稿抽出部245は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する(S516)。
If it is determined in step S507 that the determination result includes document data having a high similarity to the input document data (S507: YES), the
原稿抽出部245は、抽出した原稿データを色補正部25へ出力し、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に原稿データを処理し、カラー画像処理部2はカラー画像形成部14へ原稿データを出力する。カラー画像形成部14は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う(S517)。ステップS517が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
The
ステップS510で、現在処理中の入力原稿データが原稿の2ページ目以降のページを読み取った入力原稿データである場合は(S510:YES)、制御部11は、原稿からこれまで読み取ったページに対応する入力原稿データに関して取得した原稿インデックスの内、これまで読み取った全ページに共通する原稿インデックスがあるか否かを判定する(S511)。全ページに共通する原稿インデックスがない場合は(S511:NO)、制御部11は、処理をステップS508へ進め、類似する原稿がないことを出力する。
In step S510, when the input document data currently being processed is input document data obtained by reading the second and subsequent pages of the document (S510: YES), the
これまで読み取った全ページに共通する原稿インデックスがある場合は(S511:YES)、制御部11は、全ページに共通する原稿インデックスが複数個あるか否かを判定する(S512)。全ページに共通する原稿インデックスが単数である場合は(S512:NO)、制御部11は、処理部ステップS516へ進め、原稿抽出部245は、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し(S516)、カラー画像形成部14は、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行い(S517)、原稿抽出装置100は処理を終了する。
If there is a document index common to all the pages read so far (S511: YES), the
ステップS515において、取得した原稿インデックスが複数個ある場合(S515:YES)、又はステップS512において、これまで読み取った全ページに共通する原稿インデックスが複数個ある場合は(S512:YES)、制御部11は、原稿の他のページの要求を示す情報を出力する処理を行う(S513)。具体的には、制御部11は、原稿に含まれる新たなページの読取を要求する文字情報を操作パネル15の表示部に表示させる。
When there are a plurality of document indexes acquired in step S515 (S515: YES), or when there are a plurality of document indexes common to all the pages read so far (S512: YES), the
制御部11は、次に、原稿に含まれる他のページが原稿抽出装置100に使用者によりセットされているか否かを判定する(S514)。原稿に含まれる他のページが原稿抽出装置100にセットされている場合は(S514:YES)、制御部11は、処理をステップS502へ戻し、カラー画像入力部13は、原稿に含まれる他のページに対応する入力原稿データを取得する。
Next, the
原稿に含まれる他のページが原稿抽出装置100にセットされていない場合は(S514:NO)、制御部11は、処理をステップS516へ進める。なお、ステップS514では、制御部11は、ステップS513の処理が終了してから所定時間が経過しても原稿の他のページがセットされない場合、又は使用者が操作パネル15を操作することにより原稿読取の終了指示を受けつけた場合に、原稿の他のページがセットされていないと判定する処理を行ってもよい。制御部11が処理をステップS516へ進めることにより、原稿抽出部245は、これまで読み取った全ページに共通する複数の原稿インデックスの夫々に関連付けられた各ページインデックスが示す原稿データを抽出し(S516)、カラー画像形成部14は、抽出した原稿データに対応する原稿を出力する原稿出力処理を行う(S517)。これにより、原稿抽出装置100は、複数の原稿インデックスに対応する複数の原稿を出力する。ステップS517が終了した後は、原稿抽出装置100は処理を終了する。
If another page included in the document is not set in the document extraction apparatus 100 (S514: NO), the
以上詳述した如く、本実施の形態に係る原稿抽出装置は、原稿の内で読みとったページに対応する入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、原稿の他のページに対応する入力原稿データを要求し、原稿の他のページを読み取った入力画像データを取得する。更に本実施の形態に係る原稿抽出装置は、読み取った全ページに共通して入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データの原稿インデックスが複数ある場合に、原稿の他のページをも利用して原稿インデックスの絞込みが行われ、入力原稿データに類似する原稿データの原稿インデックスが確定するまで絞込みが繰り返される。従って、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。 As described above in detail, the document extraction apparatus according to the present embodiment has a plurality of document indexes associated with document data having high similarity to input document data corresponding to pages read in the document. Input document data corresponding to another page of the document is requested, and input image data obtained by reading another page of the document is acquired. Furthermore, the document extraction apparatus according to the present embodiment acquires a document index associated with document data having a high similarity to the input document data in common for all read pages, and a plurality of document indexes associated with the acquired document index. Original data is extracted. As a result, when there are a plurality of document indexes of document data determined to be similar to the input document data, the document index is narrowed down using other pages of the document, and the document data similar to the input document data is retrieved. The narrowing is repeated until the document index is determined. Therefore, by using a plurality of pages, it is possible to perform a more reliable similarity determination, and it is possible to extract desired document data with high accuracy.
(実施の形態3)
実施の形態1及び2においては、一ページに対応する入力原稿データに基づいていずれの原稿をも出力できる形態を示したが、実施の形態3においては、特定の原稿について出力の条件をより厳しくした形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図1〜図3を用いて説明した実施の形態1の場合と同様である。
(Embodiment 3)
In the first and second embodiments, a form in which any original can be output based on the input original data corresponding to one page has been shown. However, in the third embodiment, the output conditions for a specific original are more stringent. Shows the form. The internal configuration of the document extracting apparatus according to the present embodiment is the same as that of the first embodiment described with reference to FIGS.
図17は、実施の形態3に係る記憶部12が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すDoc1,Doc2,…の原稿インデックスに関連付けて、ページインデックス及びページ数が記録されており、更に、原稿を出力するために必要となる出力条件が原稿インデックスに関連付けて記録されている。図17に示す例では、Doc1〜Doc4の原稿インデックスには出力条件が関連付けられておらず、Doc21及びDoc51の原稿インデックスに出力条件が関連付けられている。Doc21の原稿インデックスには、原稿インデックスに関連付けられたID21〜ID28のページインデックスの内、ID21及びID25に対応する原稿データが共に入力原稿データと類似となることが出力条件として関連付けられている。またDoc51の原稿インデックスには、原稿インデックスに関連付けられたID51〜ID55のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似となることが出力条件として関連付けられている。また、本実施の形態に係る記憶部11が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容は、図12を用いて説明した実施の形態1の場合と同様である。
FIG. 17 is a conceptual diagram illustrating a content example of a document table that associates document data and a document stored in the
また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図13のフローチャートを用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る原稿抽出装置が行う原稿データを抽出する処理は、図14のフローチャートを用いて説明した実施の形態1の場合、又は図15及び図16を用いて説明した実施の形態2の場合とほぼ同様であるが、ステップS44又はステップS517の原稿出力処理の内容が実施の形態1又は2と異なる。 The process of registering document data by the document extraction apparatus according to the present embodiment is the same as that in the first embodiment described with reference to the flowchart of FIG. The document data extraction process performed by the document extraction apparatus according to the present embodiment is the same as that in the first embodiment described with reference to the flowchart of FIG. 14 or the embodiment described with reference to FIGS. Although it is almost the same as in the case of 2, the content of the document output process in step S44 or step S517 is different from that in the first or second embodiment.
図18は、実施の形態3に係る原稿抽出装置が行う原稿出力処理の手順を示すフローチャートである。本実施の形態に係る原稿抽出装置100は、原稿データを抽出する処理において、図13に示したステップS31〜S43、又は図14及び図15に示したステップS501〜S516の処理を実行する。ステップS44又はステップS517の原稿出力処理では、制御部11は、まず、原稿抽出部245がステップS43又はステップS516で抽出した原稿データの内、一の原稿データに関連付けられた原稿インデックスを選択する(S61)。制御部11は、次に、記憶部12に記憶している原稿テーブルを検索し、選択した原稿インデックスに出力条件が関連付けられているか否かを判定する(S62)。選択した原稿インデックスに出力条件が関連付けられている場合は(S62:YES)、制御部11は、原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する(S63)。
FIG. 18 is a flowchart illustrating a procedure of document output processing performed by the document extraction apparatus according to the third embodiment. The
例えば、図17に示すDoc21の原稿インデックスが選択されている場合は、ステップS37又はステップS507で、ID21及びID25に対応する原稿データが共に入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。ID21及びID25のいずれかに対応する原稿データが、入力原稿データと類似する原稿データとは判定されなかったときは、出力条件は満たされていないと判定される。またDoc21の原稿インデックスが選択されている場合は、ステップS37又はステップS507で、ID51〜ID55のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。三個未満のページインデックスに対応する原稿データしか、入力原稿データと類似する原稿データとして判定されていないときには、出力条件は満たされていないと判定される。
For example, when the document index of
ステップS62で原稿インデックスに出力条件が関連付けられていない場合(S62:NO)、又はステップS63で原稿インデックスに関連付けられた出力条件が満たされている場合は(S63:YES)、カラー画像形成部14は、選択した原稿インデックスに関連付けられた各ページインデックスが示す原稿データに基づいた画像を形成することにより、選択した原稿インデックスに対応する原稿を出力する(S64)。例えば、図17に示すDoc1〜Doc4の原稿インデックスに対応する原稿は、出力条件が定められていないので、無条件に出力される。またDoc21及びDoc51の原稿インデックスに対応する原稿は、出力条件が見たされている場合に出力される。ステップS64が終了した後は、制御部11は、処理を次のステップS65へ進める。ステップS63で原稿インデックスに関連付けられた出力条件が満たされていない場合は(S63:NO)、選択した原稿インデックスに対応する原稿を出力することなく、制御部11は、処理を次のステップS65へ進める。このようにして、制御部11は、出力条件が満たされていない原稿データの出力を禁止する。
When the output condition is not associated with the document index in step S62 (S62: NO), or when the output condition associated with the document index is satisfied in step S63 (S63: YES), the color
制御部11は、次に、ステップS43又はステップS516で抽出された全原稿データに対する処理が終了したか否かを判定する(S65)。処理がまだ終了していない原稿データがまだある場合は(S65:NO)、制御部11は、処理をステップS61へ戻し、ステップS43又はステップS516で抽出された原稿データに関連付けられた原稿インデックスの内でまだ選択していない原稿インデックスを選択する。ステップS43又はステップS516で抽出された全原稿データに対する処理が終了した場合は(S65:YES)、制御部11は、原稿出力処理を終了し、処理を原稿データを抽出する処理へ戻す。原稿出力処理が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
Next, the
以上詳述した如く、本実施の形態に係る原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、原稿出力処理を行う際には、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。実施の形態1及び2では、一ページに対応する入力原稿データに基づいて原稿を出力することができるので、秘密情報を含むような重要度の高い原稿であっても、原稿の一ページに基づいて全原稿ページを容易に出力することが可能となっていた。本実施の形態においては、原稿抽出装置は、出力条件が定められている原稿については、出力条件が満たされた場合に出力するので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止することができる。
As described above in detail, the document extraction apparatus according to the present embodiment sets output conditions for each document index in advance, and when performing document output processing, only the document corresponding to the document index that satisfies the output conditions. Is output. In
例えば、出力条件として、複数のページで入力原稿データと原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の一ページに基づいて重要度の高い原稿の全ページが出力されることを防止することができる。また出力条件として、入力原稿データと特定の原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の特定のページを所有していない使用者は原稿を原稿抽出装置から抽出することができなくなる。特定の原稿データとしては、複数ページからなる原稿の主な内容とは関連性の無い照合用の内容を表す原稿データを登録しておけばよい。照合用の内容としては、原稿の主な内容が日本文である場合に照合用の内容を英文とする等、原稿の主な内容とは全く異なるフォーマットとしておくことがより望ましい。 For example, as an output condition, it is necessary to determine that input document data and document data are similar in a plurality of pages, so that all pages of a highly important document based on one page of the document Can be prevented from being output. Further, since it is necessary to determine that the input document data and the specific document data are similar as output conditions, a user who does not own a specific page of the document can extract the document from the document extraction device. Can no longer be extracted from. As specific manuscript data, manuscript data representing contents for collation not related to the main contents of a manuscript composed of a plurality of pages may be registered. It is more desirable that the collation contents have a completely different format from the main contents of the manuscript, such as when the main content of the manuscript is Japanese, the collation content is English.
以上のようにして、本実施の形態に係る原稿抽出装置は、照合用の特定の原稿データを所有している特定の使用者に対して、出力条件が定められている原稿を抽出することを可能とし、照合用の特定の原稿データを所有していないその他の使用者では重要度の高い原稿を出力できないようにする。従って、本実施の形態においては、秘密情報が含まれる重要度の高い原稿に対して出力条件を定めておくことにより、原稿に含まれる秘密情報を保護することが可能となる。 As described above, the document extraction apparatus according to the present embodiment extracts a document having an output condition for a specific user who owns specific document data for collation. It is possible to prevent other users who do not have specific document data for collation from outputting highly important documents. Therefore, in the present embodiment, it is possible to protect confidential information included in a document by setting output conditions for a highly important document including confidential information.
(実施の形態4)
実施の形態1〜3では、本発明の原稿抽出装置が画像形成装置である形態を示したが、実施の形態4においては、本発明の原稿抽出装置がスキャナ装置である形態を示す。図19は、実施の形態4に係る本発明の原稿抽出装置300の内部の機能構成を示すブロック図である。本発明の原稿抽出装置300は、原稿抽出装置300を構成する各部の動作を制御する制御部31、半導体メモリ又はハードディスク等で構成される記憶部32、及びカラー画像を光学的に読み取るカラー画像入力部33を備えている。カラー画像入力部33にはA/D変換部34が接続されており、A/D変換部34にはシェーディング補正部35が接続され、シェーディング補正部35には原稿抽出処理部36が接続されている。原稿抽出処理部36には、原稿データを外部へ送信する送信部37が接続されている。記憶部32、カラー画像入力部33、A/D変換部34、シェーディング補正部35、原稿抽出処理部36、及び送信部37は、制御部31に接続されており、更に制御部31には、使用者からの操作を受け付ける操作部38が接続されている。
(Embodiment 4)
In the first to third embodiments, the document extracting apparatus of the present invention is an image forming apparatus. In the fourth embodiment, the document extracting apparatus of the present invention is a scanner apparatus. FIG. 19 is a block diagram showing an internal functional configuration of the
記憶部32は、実施の形態1〜3で説明した原稿抽出装置100が備える記憶部12と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。また送信部37には、外部のPC又は画像形成装置等が接続されている。
The
カラー画像入力部33は、CCDを備えたスキャナにて構成されており、原稿からの反射光像をRGBに分解してCCDで読み取り、RGBのアナログ信号に変換してA/D変換部34へ出力する。A/D変換部34は、RGBのアナログ信号をデジタルのRGB信号へ変換し、RGB信号をシェーディング補正部35へ出力する。
The color
シェーディング補正部35は、A/D変換部34から入力されたRGB信号に対して、カラー画像入力部33の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。更にシェーディング補正部35は、RGB信号のカラーバランスを調整する処理を行い、RGBの反射率信号を濃度信号へ変換する処理を行う。シェーディング補正部35は、次に、処理後のRGB信号でなる画像データである原稿データを原稿抽出処理部36へ出力する。
The
原稿抽出処理部36は、実施の形態1〜3で説明した原稿抽出装置100が備える原稿抽出処理部24と同様に構成されており、原稿抽出処理部24と同様の処理を実行する。即ち、原稿抽出処理部36は、シェーディング補正部35から入力された原稿データを入力原稿データとして、図14、又は図15及び図16のフローチャートで示した処理と同様の処理を行って、記憶部32から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。
The document
制御部31は、原稿抽出処理部36が抽出した複数の原稿データを送信部37に外部へ送信させることにより、抽出した原稿データを出力する。送信部37は、外部のPC又は画像形成装置等の装置へ複数の原稿データを送信し、外部の装置は複数の原稿データに基づいて画像を形成する等の処理を実行する。
The
以上詳述した如く、本実施の形態においても、実施の形態1〜3と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。 As described above in detail, in the present embodiment as well, in the same manner as in the first to third embodiments, all pages of a document are supported based on input document data corresponding to a part of a document composed of a plurality of pages. Document data can be extracted. Therefore, also in the present embodiment, even when a document composed of a plurality of pages is lost due to loss or dirt, all the documents of the document are stored in the database in which the document data is stored in advance. Document data over a page can be easily extracted.
(実施の形態5)
実施の形態5では、汎用のコンピュータを用いて本発明の原稿抽出装置を実現した形態を示す。図20は、実施の形態5に係る本発明の原稿抽出装置400の内部構成を示すブロック図である。本実施の形態に係る本発明の原稿抽出装置400は、PC等の汎用コンピュータを用いて構成されており、演算を行うCPU41と、演算に伴って発生する一時的な情報を記憶するRAM42と、光ディスク等の本発明の記録媒体5から情報を読み取るCD−ROMドライブ等のドライブ部43と、ハードディスク等の記憶部44とを備えている。CPU41は、本発明の記録媒体5から本発明のコンピュータプログラム51をドライブ部43に読み取らせ、読み取ったコンピュータプログラム51を記憶部44に記憶させる。コンピュータプログラム51は必要に応じて記憶部44からRAM42へロードされ、ロードされたコンピュータプログラム51に基づいてCPU41は原稿抽出装置400に必要な処理を実行する。
(Embodiment 5)
In the fifth embodiment, a form in which the document extraction apparatus of the present invention is realized using a general-purpose computer will be described. FIG. 20 is a block diagram showing the internal configuration of the
また原稿抽出装置400は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部45と、各種の情報を表示する液晶ディスプレイ等の表示部46とを備えている。更に原稿抽出装置400は、画像形成装置等の原稿を出力する外部の出力装置61に接続された送信部47と、スキャナ装置等の原稿データを入力する外部の入力装置62に接続された受信部48とを備えている。送信部47は、原稿データを出力装置61へ送信し、出力装置61は原稿データに基づいて原稿を出力する。入力装置62は、原稿を光学的に読み取って原稿データを生成し、生成した原稿データを原稿抽出装置400へ送信し、受信部48は、入力装置62から送信された原稿データを受信する。受信部48は、本発明における取得手段として機能する。
The
記憶部44は、実施の形態1〜3で説明した原稿抽出装置100が備える記憶部12と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。
The
CPU41は、本発明のコンピュータプログラム51をRAM42にロードし、ロードしたコンピュータプログラム51に従って、本発明の原稿抽出方法に係る処理を実行する。即ち、受信部48で入力装置62から原稿データが入力された場合に、入力された原稿データを入力原稿データとして、CPU41は、図14、又は図15及び図16のフローチャートで示した処理と同様の処理を行って、記憶部44から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。CPU41は、抽出した複数の原稿データを送信部47から出力装置61へ送信し、出力装置61は、原稿データに基づいて複数ページからなる原稿を出力する。なお、CPU41は、原稿データとして、アプリケーションプログラムを利用して作成したテキストデータ等のアプリケーションデータを扱う処理を行ってもよい。
The
以上詳述した如く、本実施の形態においても、実施の形態1〜4と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。 As described above in detail, in the present embodiment as well, in the same manner as in the first to fourth embodiments, all pages of a document are supported based on input document data corresponding to a part of a document composed of a plurality of pages. Document data can be extracted. Therefore, also in the present embodiment, even when a document composed of a plurality of pages is lost due to loss or dirt, all the documents of the document are stored in the database in which the document data is stored in advance. Document data over a page can be easily extracted.
なお、本実施の形態においては、原稿抽出装置400で内蔵する記憶部44に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置400は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の図示しない外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。
In the present embodiment, an embodiment has been described in which processing for extracting necessary document data from document data stored in the
なお、本発明のコンピュータプログラム51を記録してある本発明の記録媒体5は、磁気テープ、磁気ディスク、可搬型のハードディスク、CD−ROM/MO/MD/DVD等の光ディスク、又はICカード(メモリカードを含む)/光カード等のカード型記録媒体のいずれの形態であってもよい。また本発明の記録媒体5は、原稿抽出装置400に装着され、記録媒体5の記録内容をCPU41が読み出すことが可能な半導体メモリ、即ちマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等であってもよい。
The
また、本発明のコンピュータプログラム51は、インターネット又はLAN等の通信ネットワークを介して原稿抽出装置400に接続された図示しない外部のサーバ装置から原稿抽出装置400へダウンロードされて記憶部44に記憶される形態であってもよい。この形態の場合は、コンピュータプログラム51をダウンロードするために必要なプログラムは、予め記憶部44に記憶されてあるか、又は所定の記録媒体からドライブ部43を用いて読み出されて記憶部44に記憶され、必要に応じてRAM42にロードされるものであればよい。
The
100、300、400 原稿抽出装置
11、31 制御部
12、32、44 記憶部(記憶手段)
13、33 カラー画像入力部
24、36 原稿抽出処理部
242 特徴データ算出部
243 投票処理部
244 類似度判定処理部
245 原稿抽出部
41 CPU
5 記録媒体
51 コンピュータプログラム
100, 300, 400
13, 33 Color
5 Recording
Claims (10)
複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、
原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、
新たな原稿データである入力原稿データを取得し、
取得した入力原稿データから特徴点を抽出し、
抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、
生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、
入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、
取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出すること
を特徴とする原稿抽出方法。 In a method for extracting specific document data from document data stored in a storage means,
A document index indicating a document composed of a plurality of pages is stored in a storage unit in association with document data corresponding to each page included in the document,
Feature data that is calculated based on the feature points extracted from the document data and indicates the features of the document data is stored in association with the document data in a storage unit,
Input document data that is new document data is acquired,
Extract feature points from the acquired input document data,
Based on the extracted feature points, generate feature data indicating the features of the input document data,
By comparing the generated feature data with the feature data stored in the storage means, the similarity between the document data associated with the feature data stored in the storage means and the input document data is determined,
Obtain a document index associated with document data determined to be document data having a high degree of similarity to the input document data,
A document extraction method comprising: extracting a plurality of document data corresponding to a plurality of pages included in a document indicated by an acquired document index.
複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、
原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、
新たな原稿データである入力原稿データを取得する取得手段と、
該取得手段が取得した入力原稿データから特徴点を抽出する手段と、
該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、
該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、
入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、
該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段と
を備えることを特徴とする原稿抽出装置。 In a document extraction device comprising document storage means for storing document data, and extracting specific document data from document data stored in the document storage means,
Means for storing a document index indicating a document composed of a plurality of pages in association with document data corresponding to each page included in the document;
Feature data storage means for storing the feature data calculated based on the feature points extracted from the document data and indicating the features of the document data in association with the document data;
Acquisition means for acquiring input original data which is new original data;
Means for extracting feature points from the input document data acquired by the acquisition means;
Generating means for generating feature data indicating the characteristics of the input document data based on the feature points extracted by the means;
Document data associated with the feature data stored in the feature data storage means and input document data by comparing the feature data generated by the generation means with the feature data stored in the feature data storage means Determining means for determining the similarity to
Means for obtaining a document index associated with the document data determined by the determination means as document data having a high similarity to the input document data;
An original extracting apparatus comprising: extraction means for extracting a plurality of original data corresponding to a plurality of pages included in the original indicated by the original index acquired by the means.
一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、
前記生成手段は、
入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、
前記判定手段は、
前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、
前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段と
を有することを特徴とする請求項2に記載の原稿抽出装置。 The feature data storage means includes
A plurality of feature data indicating characteristics of the document data are stored in association with one document data;
The generating means includes
It is configured to generate a plurality of feature data indicating the features of the input document data,
The determination means includes
A means for voting on the document data associated with the feature data matching the feature data for each of the plurality of feature data generated by the generation means;
Among the document data stored in the document storage unit, the document data having the maximum number of votes or the document data having a number of votes equal to or more than a predetermined amount is determined to be document data having high similarity to the input document data. The document extracting device according to claim 2, further comprising:
複数の入力原稿データを取得する手段を有し、
前記判定手段は、
複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、
前記抽出手段は、
複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有すること
を特徴とする請求項2又は3に記載の原稿抽出装置。 The acquisition means includes
Means for acquiring a plurality of input document data;
The determination means includes
Means for determining the similarity between the original data stored in the original storage means and the input original data for each of a plurality of input original data;
The extraction means includes
When document indexes associated with document data having high similarity with each of the plurality of input document data match each other, a plurality of document data corresponding to a plurality of pages included in the document indicated by the document index is extracted. The document extracting device according to claim 2 or 3, further comprising: means.
を特徴とする請求項4に記載の原稿抽出装置。 When a plurality of document indexes associated with document data having a high degree of similarity with input document data is acquired, or among document indexes associated with document data having a high similarity with each of the plurality of input document data 5. The document extracting apparatus according to claim 4, further comprising means for requesting further input document data when a plurality of document indexes common to the plurality of input document data are acquired.
原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあること
を特徴とする請求項2乃至5のいずれか一つに記載の原稿抽出装置。 The acquisition means includes
6. The document extraction device according to claim 2, wherein input document data is acquired by optically reading a document.
前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、
前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、
前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段と
を更に備えることを特徴とする請求項2乃至6のいずれか一つに記載の原稿抽出装置。 Means for storing predetermined output conditions necessary for outputting document data corresponding to each page included in the document indicated by the document index in association with the document index;
Means for determining whether an output condition associated with a document index associated with the document data extracted by the extraction unit is satisfied;
Means for outputting a plurality of document data corresponding to a plurality of pages included in a document indicated by a document index when it is determined that the output condition is satisfied;
The apparatus further comprises means for prohibiting output of a plurality of document data corresponding to a plurality of pages included in a document indicated by a document index when it is determined that the output condition is not satisfied. The document extraction device according to any one of 2 to 6.
を特徴とする請求項2乃至6のいずれか一つに記載の原稿抽出装置。 The document extracting apparatus according to claim 2, further comprising a unit that forms a plurality of images based on the plurality of document data extracted by the extracting unit.
コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
を含むことを特徴とするコンピュータプログラム。 In a computer program for causing a computer to extract specific document data from document data stored inside or outside the computer,
A procedure for causing a computer to extract feature points from input document data;
A procedure for causing the computer to generate feature data indicating the features of the input document data based on the extracted feature points;
A procedure for causing the computer to determine the degree of similarity between the stored document data and the input document data by comparing the generated feature data with the feature data indicating the characteristics of the stored document data;
A procedure for causing a computer to acquire a document index associated with document data determined to be document data having high similarity to input document data;
A computer program comprising: causing a computer to extract a plurality of document data corresponding to a plurality of pages included in a document indicated by an acquired document index.
コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
を含むコンピュータプログラムを記録してあることを特徴とするコンピュータでの読み取りが可能な記録媒体。 In a computer-readable recording medium in which a computer program for extracting specific document data from document data stored inside or outside the computer is recorded in a computer,
A procedure for causing a computer to extract feature points from input document data;
A procedure for causing the computer to generate feature data indicating the features of the input document data based on the extracted feature points;
A procedure for causing the computer to determine the degree of similarity between the stored document data and the input document data by comparing the generated feature data with the feature data indicating the characteristics of the stored document data;
A procedure for causing a computer to acquire a document index associated with document data determined to be document data having high similarity to input document data;
A computer-readable recording comprising a computer recorded with a computer program including a procedure for extracting a plurality of document data corresponding to a plurality of pages included in a document indicated by an acquired document index Medium.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008162324A JP4340714B2 (en) | 2007-07-24 | 2008-06-20 | Document extraction method, document extraction apparatus, computer program, and recording medium |
CN2008101316932A CN101354717B (en) | 2007-07-24 | 2008-07-23 | Document extracting method and document extracting apparatus |
US12/178,482 US8351706B2 (en) | 2007-07-24 | 2008-07-23 | Document extracting method and document extracting apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007192192 | 2007-07-24 | ||
JP2008162324A JP4340714B2 (en) | 2007-07-24 | 2008-06-20 | Document extraction method, document extraction apparatus, computer program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009048618A true JP2009048618A (en) | 2009-03-05 |
JP4340714B2 JP4340714B2 (en) | 2009-10-07 |
Family
ID=40307526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008162324A Active JP4340714B2 (en) | 2007-07-24 | 2008-06-20 | Document extraction method, document extraction apparatus, computer program, and recording medium |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4340714B2 (en) |
CN (1) | CN101354717B (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440622A (en) * | 2013-07-31 | 2013-12-11 | 北京中科金财科技股份有限公司 | Image data optimization method and device |
CN109284787B (en) * | 2018-08-02 | 2022-02-25 | 广东南天司法鉴定所 | Method and device for automatically collecting handwritten ink mark color level |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3182362B2 (en) * | 1997-02-07 | 2001-07-03 | 松下電器産業株式会社 | Simple filing device |
JP4165435B2 (en) * | 2004-04-13 | 2008-10-15 | 富士ゼロックス株式会社 | Image forming apparatus and program |
-
2008
- 2008-06-20 JP JP2008162324A patent/JP4340714B2/en active Active
- 2008-07-23 CN CN2008101316932A patent/CN101354717B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101354717B (en) | 2010-09-29 |
CN101354717A (en) | 2009-01-28 |
JP4340714B2 (en) | 2009-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8351706B2 (en) | Document extracting method and document extracting apparatus | |
JP4565015B2 (en) | Image processing apparatus, image forming apparatus, image processing system, image processing program, and recording medium thereof | |
JP4362528B2 (en) | Image collation apparatus, image collation method, image data output processing apparatus, program, and recording medium | |
JP4310356B2 (en) | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, computer program, and recording medium | |
JP4604100B2 (en) | Image processing method, image processing apparatus, image forming apparatus, program, and storage medium | |
JP4469885B2 (en) | Image collation apparatus, image collation method, image data output processing apparatus, program, and recording medium | |
JP4436858B2 (en) | Image processing apparatus, image forming apparatus, image transmitting apparatus, image reading apparatus, image processing system, image processing method, image processing program, and recording medium thereof | |
JP4399486B2 (en) | Image processing apparatus, external storage apparatus, image forming apparatus, image transmission apparatus, image reading apparatus, image processing system, image processing method, program, and recording medium thereof | |
JP4362538B2 (en) | Image processing apparatus, image forming apparatus, image transmitting apparatus, image reading apparatus, image processing system, image processing method, image processing program, and recording medium thereof | |
US8103108B2 (en) | Image processing apparatus, image forming apparatus, image processing system, and image processing method | |
US20090028436A1 (en) | Image processing apparatus, image forming apparatus and image reading apparatus including the same, and image processing method | |
JP4378413B2 (en) | Image processing apparatus, image forming apparatus, image reading apparatus, image processing system, image processing method, image processing program, and recording medium thereof | |
JP4970301B2 (en) | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, image processing system, program, and recording medium | |
JP4457140B2 (en) | Image processing method, image processing apparatus, image forming apparatus, image reading apparatus, computer program, and recording medium | |
JP4362537B2 (en) | Image processing apparatus, image forming apparatus, image transmitting apparatus, image reading apparatus, image processing system, image processing method, image processing program, and recording medium thereof | |
JP4336729B2 (en) | Image processing apparatus, image forming apparatus, image transmitting apparatus, image reading apparatus, image processing system, image processing program, and recording medium thereof | |
JP4486995B2 (en) | Image processing system | |
JP4487000B2 (en) | Image processing apparatus, image forming apparatus, image processing method, image processing system, image processing program, and recording medium thereof | |
JP4340714B2 (en) | Document extraction method, document extraction apparatus, computer program, and recording medium | |
JP4393556B2 (en) | Image processing method, image processing apparatus, image reading apparatus, image forming apparatus, computer program, and computer-readable recording medium | |
JP4487003B2 (en) | Image data output processing apparatus, image data output processing method, program, and recording medium | |
JP2008154216A (en) | Image processing method and device, image forming device, document reading device, computer program, and recording medium | |
JP2008245147A (en) | Image processor, image reader, image forming apparatus, image processing method, computer program and recording medium | |
JP4378408B2 (en) | Image processing apparatus, image reading apparatus, and image forming apparatus | |
JP2008123456A (en) | Image processing method, image processing device, image forming device, computer program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090317 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090609 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090706 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4340714 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120710 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130710 Year of fee payment: 4 |