JP5251161B2 - Information processing apparatus, information processing system, and program - Google Patents
Information processing apparatus, information processing system, and program Download PDFInfo
- Publication number
- JP5251161B2 JP5251161B2 JP2008040559A JP2008040559A JP5251161B2 JP 5251161 B2 JP5251161 B2 JP 5251161B2 JP 2008040559 A JP2008040559 A JP 2008040559A JP 2008040559 A JP2008040559 A JP 2008040559A JP 5251161 B2 JP5251161 B2 JP 5251161B2
- Authority
- JP
- Japan
- Prior art keywords
- page
- document
- image
- electronic document
- read
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、情報処理装置、情報処理システム及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing system, and a program.
近年、紙文書を電子化して電子文書として保管するシステムが普及している。このようなシステムでは、複数のページからなる文書は、多くの場合、PDF等のように複数ページを1つのファイルとして扱えるフォーマットで保存される。 In recent years, systems that digitize paper documents and store them as electronic documents have become widespread. In such a system, a document composed of a plurality of pages is often stored in a format that can handle a plurality of pages as one file, such as PDF.
また、このように保管された電子文書を印刷し、印刷結果の紙文書に対して記入を行い、その記入結果を電子化して元の電子文書の更新版として保管するシステムも存在する。 There is also a system that prints an electronic document stored in this way, fills in a paper document as a print result, digitizes the entry result, and stores it as an updated version of the original electronic document.
例えば特許文献1に開示されるシステムは、データベースに登録された電子文書を印刷する場合には、その電子文書自体の画像に、その電子文書を特定するバーコード等の画像コードを付加して印刷する。また、この装置は、紙文書の画像を読み取った場合に、その画像中の画像コードからその紙文書に対応する電子文書を特定し、読み取った画像をその電子文書に対応づけて(例えばその電子文書の改訂版として)、データベースに登録する。
For example, when printing an electronic document registered in a database, the system disclosed in
また、複数ページからなる電子文書に対するページの追加を紙の文書を用いて指示する場合、元の電子文書に対応する紙文書の全ページを用意し、追加する紙のページをその紙文書内の追加したい位置に挿入し、これをスキャナで読み取って得た電子文書を元の電子文書と置き換えることが行われている。 In addition, when using a paper document to instruct the addition of a page to a multi-page electronic document, all pages of the paper document corresponding to the original electronic document are prepared, and the added paper page is included in the paper document. An electronic document obtained by inserting it at a position to be added and reading it with a scanner is replaced with the original electronic document.
本発明は、電子文書の全ページに対応する紙文書を用意しなくても、一部のページに対応する紙文書を読み取るだけで電子文書の中で所定のページ位置に読み取られたページ追加できるようにすることを目的とする。 According to the present invention, even if a paper document corresponding to all pages of an electronic document is not prepared, it is possible to add a page read at a predetermined page position in the electronic document only by reading a paper document corresponding to some pages. The purpose is to do so.
請求項1に係る発明は、原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、を備え、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とする
情報処理装置である。
According to a first aspect of the present invention, there is provided specifying means for specifying a corresponding electronic document corresponding to a document from electronic documents stored in a storage device based on a read image of each page of the document read by the document reading device. Searching for a corresponding image having a similarity equal to or higher than a predetermined threshold with respect to a read image of the page for each page of the original document from the images of the pages of the corresponding electronic document; A means for adding, to the corresponding electronic document in the storage means, a read image in which the corresponding image is not found by the search means among the read images of each page of the document, the page of the read image in the document and and a additional means for adding the read image to a page position specified by the order relationship between the corresponding image is found pages, the specifying unit, the first page of the document The corresponding electronic document is identified by comparing the image with the image of the first page of each electronic document stored in the storage device, and the adding means searches for the first page of the corresponding electronic document by searching the search means. A page having the corresponding image as the first page other than is found in the document, and a page in which the corresponding image is not found is set in advance in the document immediately before and after the found page. If present, the read image of the page for which the corresponding image is not found is inserted into the predetermined one immediately before and immediately after the first page in the corresponding electronic document, and the search means searches The first page of the read original corresponds to the first page of the corresponding electronic document, and other than the first page of the original If none is found the corresponding image for the page, the additional means, the read image of each page except the first page is added after the last page of the corresponding electronic document, wherein the < An information processing apparatus.
請求項2に係る発明は、請求項1に係る発明において、複数の原稿からなる原稿束が前記原稿読取装置により読み取られた場合に、前記原稿読取装置から受信した各ページの読取画像の中から所定の区切り画像又は前記記憶装置に記憶された各電子文書の代表ページの画像を探索し、探索された区切り画像又は代表ページの画像により前記原稿読取手段が出力した各ページの読取画像を原稿単位に分割する分割手段、を更に備え、前記特定手段は前記分割手段が原稿単位に分割した読取画像に基づき、当該原稿に対応する対応電子文書を特定する、ことを特徴とする。 According to a second aspect of the present invention, in the first aspect of the invention, when a bundle of originals composed of a plurality of originals is read by the original reading device, the read image of each page received from the original reading device. A search is made for a predetermined delimiter image or a representative page image of each electronic document stored in the storage device, and the read image of each page output by the original reading unit based on the searched delimiter image or representative page image Dividing means, and the specifying means specifies the corresponding electronic document corresponding to the document based on the read image divided by the dividing unit into document units.
請求項3に係る発明は、請求項1〜2のいずれか1項に係る発明において、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つかった読取画像について、当該読取画像と前記対応画像との類似度が前記しきい値以上であって、かつ、所定の第2のしきい値以下の場合は、前記記憶手段内の前記対象電子文書における前記対応画像を当該読取画像に差し替える差替手段、を更に備える。 According to a third aspect of the present invention, in the invention according to any one of the first and second aspects, the read image of the read image of each page of the document in which the corresponding image is found by the search unit. When the similarity between the corresponding image and the corresponding image is equal to or higher than the threshold and equal to or lower than a predetermined second threshold, the corresponding image in the target electronic document in the storage unit is the read image. It further comprises replacement means for replacing with.
請求項4に係る発明は、原稿を読み取る原稿読取装置と、1以上のページの画像を含む1以上の電子文書を記憶する記憶装置と、前記原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、前記記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、を有する情報処理装置と、を含み、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とする情報処理システムである。
The invention according to
請求項5に係る発明は、コンピュータを原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶装置内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段、として機能させるためのプログラムであって、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とするプログラムである。
According to the fifth aspect of the invention, the computer specifies a corresponding electronic document corresponding to the original document from the electronic documents stored in the storage device based on the read image of each page of the original document read by the original reading device. Means for searching for a corresponding image having a similarity equal to or higher than a predetermined threshold with respect to the read image of the page, from the images of the pages of the corresponding electronic document, A means for adding, to the corresponding electronic document in the storage device, a read image in which the corresponding image is not found by the search means among the read images of each page of the document, the page of the read image in the document program der for the addition means for adding the read image to a page position specified by the order relation between the corresponding image is found pages, to function as a The specifying unit specifies the corresponding electronic document by comparing the image of the first page of the document with the image of the first page of each electronic document stored in the storage device, and the adding unit includes the As a result of the search by the search means, a page having the corresponding image as the first page other than the first page of the corresponding electronic document is found in the original, and is determined in advance in the original immediately before and after the found page. On the other hand, if there is a page for which the corresponding image is not found, the read image of the page for which the corresponding image is not found is stored in advance in the corresponding electronic document immediately before and after the first page. The first page of the read original corresponds to the first page of the corresponding electronic document by the search by the search means. And when the corresponding image is not found for any page other than the first page of the document, the adding unit converts the read image of each page other than the first page to the last page of the corresponding electronic document. It is a program characterized by being added after .
請求項1又は4又は5に係る発明によれば、電子文書の全ページに対応する紙の原稿を用意しなくても、一部のページに対応する紙文書を読み取るだけで電子文書の中で所定のページ位置に読み取られたページを追加することができる。
According to the invention according to
請求項2に係る発明によれば、紙の原稿をまとめて原稿読取手段に読み取らせても、個々の電子文書を特定することができる。 According to the second aspect of the present invention, individual electronic documents can be specified even when paper originals are collectively read by the original reading means.
請求項3に係る発明によれば、電子文書中のページを紙の原稿により差し替えることができる。
According to the invention of
図1を参照して、実施形態のシステムの一例を概略的に説明する。図1のシステムは、ローカルエリアネットワーク等のネットワーク60を介して相互に接続された文書登録・更新システム10,文書管理システム20,複合機(スキャナ、プリンタ、コピー機等の機能を兼ね備えた装置)30,画像検索システム40及び類似度判定システム50を備える。
With reference to FIG. 1, an example of the system of the embodiment will be schematically described. The system shown in FIG. 1 includes a document registration /
文書登録・更新システム10は、文書管理システム20への電子文書の登録、及び文書管理システム20に登録された電子文書の更新を行うシステムである。文書登録・更新システム10の詳細は後で説明する。電子文書は、電子的なデータからなる文書であり、典型的には1つのファイルである。なお、電子文書に対立する概念として紙文書がある。紙文書は、1又は複数枚の用紙上に表示された画像からなる文書である。
The document registration /
文書管理システム20は、ユーザ達から登録された電子文書を記憶したデータベースである。各電子文書は、それぞれ1以上のページの画像データを含んでいる。文書管理システム20は、各電子文書をそれぞれ一意な文書ID(識別情報)に対応づけて記憶している。電子文書は、例えば、PDF(Portable Document Format)等のマルチページファイル形式(すなわち複数のページの画像を1ファイルに含みうるファイル形式)の文書データである。
The
複合機30は、ADF(Auto Document Feeder。自動原稿送り装置)を備えている。ADFは、1つの例では、原稿台と、原稿送り機構と、原稿の表裏両面を同時に読み取る読取装置とを備える。このようなADFによれば、原稿送り機構が原稿台上の原稿束から原稿を1枚ずつ送るのと連動して、読取装置がそれら各原稿の両面を読み取り、それら各面の画像データを生成する。このようなADFとしては、既存のものを用いればよい。また、ADFが備える読取装置は必ずしも両面同時読み取り可能なものに限らない。読取装置が片面読み取りのものであれば、原稿台にセットした原稿をいったん全部送って読み取った後、原稿を裏返して原稿台にセットしてもう一度読み取りを行うことで、各原稿の両面の画像を読み取ることができる。また、複合機30が備えるADFは、必ずしも読取装置を備えていなくてもよい。ADFが読取装置を備えない場合は、ADFが1枚ずつ送った原稿の画像が、複合機30のプラテンに設けられたスキャナ機構により読み取られる。
The
なお、読取装置としては、イメージスキャナ、書画カメラ、デジタルカメラなど、原稿を画像として読み取るものであればよく、複合機のスキャナ機構に限定されない。 The reading device is not limited to the scanner mechanism of the multifunction device as long as it can read a document as an image, such as an image scanner, a document camera, or a digital camera.
また複合機30は、スキャン、プリント、コピーなどの一般的な機能に加え、スキャンにより生成されたスキャン画像データを登録又は更新のために文書登録・更新システム10に送信する機能を備える。この機能は、例えば、複合機30のCPU(中央演算処理装置)により実行される文書送信プログラムにより実現される。例えば、複合機30の操作画面に表示されるメニューの中の1つのメニュー項目にそのプログラムが対応づけられており、そのメニュー項目がユーザにより選択されると、そのプログラムが実行され、複合機30が文書送信モードへと遷移する。文書送信モードでは、例えば複合機30は紙文書の読み取り待ちの状態となる。この状態で、ユーザがADFに原稿束をセットして、複合機30のスタートボタンを押下すると、原稿束内の原稿が1枚ずつ読み取られ、この読み取りの結果得られる原稿束の各ページの画像データが文書送信プログラムによりマルチページのスキャン画像データにまとめられ、文書登録・更新システム10に送信される。ADFにセットされる原稿束に複数の紙文書が含まれる場合があり、そのような場合、文書登録・更新システム10に送信されるスキャン画像データはそれら複数の紙文書の読取結果をまとめたものとなる。ADFにセットされた原稿束を読み取り、その読取結果のスキャン画像データを文書登録・更新システム10に送信し終わると、複合機30は文書送信モードから通常のモードに戻る。なお、原稿が片面ずつしか読み取れない場合は、文書送信プログラムは、いったんADFにセットされた原稿束を読み取って、その結果得られた表面の読取結果を記憶し、その後裏返してセットされた原稿束を読み取って、その結果得られた裏面の読取結果を記憶している表面の読取結果と組み合わせて並べ替えることで、ページ順に並んだマルチページのスキャン画像データを生成することができる。
In addition to general functions such as scanning, printing, and copying, the
以上では、ADFにセットされた原稿束を読み取る例を説明したが、文書送信プログラムは、複合機30のプラテンに置かれた原稿を読み取ることにより得られたスキャン画像データを文書登録・更新システム10に送信してもよい。
In the above, an example in which a document bundle set in the ADF is read has been described. However, the document transmission program uses the scanned image data obtained by reading the document placed on the platen of the
また、別の例として、複合機30の文書送信プログラムは、複合機30内の記憶装置に保存されているスキャン画像データの一覧を操作画面に提示し、その中でユーザが選択したスキャン画像データを文書登録・更新システム10に送信してもよい。
As another example, the document transmission program of the
文書登録・更新システム10は、複合機30から送られてきたスキャン画像データ内に含まれる各文書(これら各文書のことを以下では「スキャン文書」と呼ぶ)について、それぞれ当該スキャン文書に対応する電子文書が文書管理システム20に登録済みであるか否かを判定する。この判定は、例えば、画像検索システム40が、当該スキャン文書の代表ページと同じ画像の代表ページを持つ電子文書を文書管理システム20から探索することにより行われる。代表ページとしては、例えば電子文書の先頭(すなわち表紙)ページを用いることができる。文書管理の現場でも、作成者や作成日などといった書誌事項を記入した表紙ページを用意し、この表紙ページにより個々の文書を識別している例は多い。
The document registration /
スキャン文書の代表ページと同じ画像を代表ページとして持つ電子文書が文書管理システム20内から見つかれば、当該スキャン文書は登録済みと判定され、そうでなければ未登録と判定される。登録済みと判定された場合は、文書登録・更新システム10は、スキャン文書の画像を用いて、文書管理システム20内の当該文書に対応する電子文書を更新する。未登録と判定された場合は、文書登録・更新システム10は、当該スキャン文書を新規の電子文書として文書管理システム20に登録する。
If an electronic document having the same image as the representative page of the scanned document as a representative page is found from within the
ユーザは、文書管理システム20に登録された電子文書を更新したい場合、その電子文書の代表ページと、更新対象のページ(例えば変更又は追加されるページ)とを含む紙文書を用意し、その紙文書を複合機30に文書管理モードで読み込ませればよい。代表ページが文書の先頭ページである場合、紙文書は、例えば、代表ページの後に更新対象のページが来るという順番になるようにセットすればよい。
When a user wants to update an electronic document registered in the
また、電子文書中の特定のページ位置に新たにページを追加する場合には、そのページ位置を特定する必要がある。そこで、このような場合には、代表ページと追加対象のページだけでなく、追加対象のページの直前又は直後(又はその両方)のページも含んだ紙文書を複合機30に読み込ませればよい。紙文書におけるそれらページの順序は、ページ追加後の電子文書におけるそれら各ページの順序と一致するようにしておけばよい。
In addition, when a new page is added to a specific page position in the electronic document, it is necessary to specify the page position. In such a case, a paper document including not only the representative page and the page to be added but also the page immediately before or immediately after the page to be added (or both) may be read into the
また、複数の電子文書の更新を一度に行いたい場合には、それら各電子文書についてそれぞれ代表ページと更新対象のページ(及び必要があれば更新対象のページの位置を特定するための他のページ)を含む紙文書を用意し、それらを束ねた原稿束を複合機30に読み込ませればよい。ここで、原稿束に含まれる各文書は、それぞれ代表ページ及び更新対象のページ(及びもしあれば、更新対象のページの位置を特定するための他のページ)が、更新後の電子文書における対応ページと同じ順序となるようにセットしておけばよい。
In addition, if you want to update multiple electronic documents at the same time, the representative page and the update target page for each electronic document (and other pages for specifying the location of the update target page if necessary) ) Is prepared, and a document bundle obtained by bundling them is read into the
画像検索システム40は、文書登録・更新システム10から受け取ったスキャン画像データの各ページの画像と、文書管理システム20に登録された各電子文書の代表ページの画像とを比較する。そして、この比較に基づき、スキャン画像データの中から、各電子ページの代表ページと同じ画像を持つページを探す。代表ページが例えば文書の先頭のページや末尾のページであれば、スキャン画像データ中から電子文書の代表ページに対応するページが見つかれば、そのページはスキャン画像データに含まれる個々のスキャン文書の区切りとなる。例えば文書の先頭ページが代表ページであるとする。この場合、スキャン画像データ中のあるページAがある電子文書の代表ページと一致すれば、スキャン画像データのうち、そのページAから次に他の電子文書の代表ページと一致するページの直前までの各ページは、1つのスキャン文書のページと判定できる。そして、ページAに一致する代表ページを持つ電子文書は、ページAから始まるスキャン文書に対応する対応電子文書と判定される。この対応電子文書は、そのスキャン文書により更新される対象となる。この更新の処理については、後で詳しく説明する。
The
なお、スキャン画像データ中からどの電子文書の代表ページに一致する画像を持つページも見つからなければ、そのスキャン画像データは文書管理システム20に未登録の新たな文書ということになる。この場合、文書登録・更新システム10は、そのスキャン画像データに一意な文書IDを付与し、文書管理システム20に登録する。
If no page having an image that matches the representative page of any electronic document is found in the scanned image data, the scanned image data is a new document not registered in the
以上では、各電子文書の代表ページの画像と一致するページをスキャン画像データから探索したが、完全な「一致」ではなく、類似度がしきい値(後述の処理で用いられるしきい値と区別するために「第1のしきい値」と呼ぶ)以上の代表ページを持つページを探索してもよい。なお、スキャン画像データ中の同一ページに対し類似度が第1のしきい値以上の代表ページを持つ電子文書が複数見つかった場合は、例えば、その中で類似度が最も高い電子文書を、その同一ページに対応する電子文書と判定すればよい。また、この代わりに、類似度が第1のしきい値以上の各電子文書の情報を複合機30に送り、ユーザがその中からスキャンした文書に対応するものを選択してもよい。
In the above description, a page that matches the image of the representative page of each electronic document is searched from the scanned image data. However, it is not a complete “match”, but the similarity is a threshold value (distinguishable from a threshold value used in processing described later). (Referred to as a “first threshold value”) may search for a page having a representative page or more. In addition, when a plurality of electronic documents having a representative page whose similarity is equal to or higher than the first threshold for the same page in the scanned image data are found, for example, the electronic document having the highest similarity is selected What is necessary is just to determine with the electronic document corresponding to the same page. Alternatively, information on each electronic document having a similarity equal to or higher than the first threshold value may be sent to the
類似度判定システム50は、スキャン画像データ中の各スキャン文書について、それぞれ、当該スキャン文書に含まれる各ページの画像と、画像検索システム40により特定された当該スキャン文書に対応する電子文書(「対応電子文書」と呼ぶ)内の各ページの画像とを比較し、両者の類似度を計算する。そして、スキャン文書に含まれるページごとに、対応電子文書内で当該ページの画像に対して所定のしきい値(他のしきい値との区別のために「第2のしきい値」と呼ぶ)以上の類似度を持つページを探す。そのようなページが見つかれば、見つかったページはスキャン文書中のページに対応するページと判定される。そのようなページが見つからなければ、スキャン文書中のページは、対応電子文書に追加されるページと判定すればよい。
For each scanned document in the scanned image data, the
なお、画像検索システム40及び類似度判定システム50における画像同士の比較、及び類似度の計算には、従来公知の手法を用いればよい。
It should be noted that conventionally known methods may be used for comparison between images and calculation of similarity in the
次に、図2を参照して、文書登録・更新システム10の内部構成の例を説明する。図2の例では、文書登録・更新システム10は、スキャン画像処理部102,コード解析部104,画像検索I/F(インタフェース)部106,文書管理I/F部108,分割管理テーブル110,類似判定I/F部112及び類似ページ管理テーブル114を備える。
Next, an example of the internal configuration of the document registration /
スキャン画像処理部102は、複合機30からスキャン画像データを受け取る。また、そのスキャン画像データをPDF等の所定のファイル形式に変換してもよい。
The scan
コード解析部104は、スキャン画像データ中の各ページの画像からQRコード(登録商標)等の文書識別のためのコード画像を検出し、そのコード画像が示す文書IDを求める。すなわち、この例の文書登録・更新システム10は、画像検索システム40により代表ページを用いて対応電子文書の探索する他に、ページに含まれる文書IDのコード画像に基づき対応電子文書を探索することができる。どちらの方式を用いるかは、システム管理者あるいはユーザが文書登録・更新システム10に設定しておけばよい。コード画像を用いる方式が選択されている場合は、スキャン画像処理部102はスキャン画像データ中の各ページの画像をコード解析部104に渡す。コード解析部104は、公知の手法によりそれら各ページの画像からコード画像を探し、コード画像が見つかればそのコード画像が示す文書IDの値を公知の手法により求める。そして、求めた文書IDを、その文書IDを見つけたページに対応づけて、文書管理I/F部108に渡す。
The
一方、画像検索システム40により対応電子文書を求める方式が選択されている場合は、スキャン画像処理部102が取得したスキャン画像データの各ページの画像が画像検索I/F部106に渡される。
On the other hand, when the method for obtaining the corresponding electronic document is selected by the
画像検索I/F部106は、受け取った各ページの画像を、例えばページの順番に画像検索システム40に渡す。画像検索システム40は、文書管理システム20に登録された各電子文書の中から、画像検索I/F部106から渡されたページの画像と一致する(又は第1のしきい値以上の類似度を持つ)代表ページを持つ電子文書を探す。そして、そのような電子文書が見つかれば、その電子文書の文書IDを画像検索I/F部106に返す。画像検索I/F部106は、受け取った文書IDを画像検索I/F部106から受け取ったページに対応づけて、文書管理I/F部108に渡す。
The image search I /
文書管理I/F部108は、画像検索I/F部106又はコード解析部104から受け取った文書IDに対応する対応電子文書を文書管理システム20から取得し、その対応電子文書を、スキャン文書に基づき更新する。この更新のために、分割管理テーブル110及び類似ページ管理テーブル114を用いる。分割管理テーブル110は、複合機30から送られてきたスキャン画像データを、スキャン文書単位に分割するための管理情報を記憶するテーブルである。また、類似ページ管理テーブル114は、スキャン文書とこれに対応する対応電子文書との間で、画像が類似するページ同士の関係を管理するためのテーブルである。これらテーブル110及び114については、後で詳しく説明する。
The document management I /
類似判定I/F部112は、文書管理I/F部108からスキャン文書と対応電子文書とを受け取り、類似度判定システム50にそれら両者間のページ同士の類似度を計算させる。計算された類似度の情報は、類似判定I/F部112から文書管理I/F部108に返される。文書管理I/F部108は、この類似度に基づき、類似ページ管理テーブル114に情報を登録していく。
The similarity determination I /
次に、図3を参照して、文書登録・更新システム10における文書更新処理の全体的な処理手順を説明する。
Next, with reference to FIG. 3, an overall processing procedure of the document update processing in the document registration /
ユーザが原稿束を複合機30に読み取らせ、文書登録・更新システム10への送信を指示すると、読取結果のスキャン画像データがネットワーク60経由でそのシステム10に送られる。システム10では、スキャン画像処理部102がそのスキャン画像データを受信する(S1)。このスキャン画像データは、文書登録・更新システム10に登録された設定情報に従い(S2)、コード解析部104による画像検索システム40による画像検索処理(S3)又は識別コード検出処理(S4)に渡される。これらステップS3又はS4では、複数の紙文書に対応するページを含んでいるスキャン画像データを個々の文書(スキャン文書)単位に分割する。
When the user causes the
ステップS3では、画像検索I/F部106が図4に例示するような処理を実行する。図4の手順は、文書の先頭ページをその文書の代表ページとする場合の例である。末尾ページを代表ページとする場合の手順は、同様の考え方で構成できるので、説明を省略する。
In step S3, the image search I /
図4の手順では、まず受け取ったスキャン画像データの最初のページから順次画像を取り出し(S22)、そのページの画像を画像検索システム40に渡して対応電子文書を検索させる(S23)。画像検索システム40は、受け取ったページの画像と、文書管理システム20に登録された各電子文書の先頭ページ(例えば表紙ページ)の画像とを比較し、受け取ったページと一致する(或いは第1のしきい値以上の類似度を持つ。以下「一致する」と総称)画像の先頭ページを探す。そのような先頭ページが見つかれば(S24の判定結果がY)、画像検索システム40は、その先頭ページを含む電子文書の文書IDを画像検索I/F部106に返す。その電子文書が、ステップS22で取り出したページに対応する対応電子文書である。画像検索I/F部106は、受け取った文書IDとステップS22で取り出したページのページ番号(スキャン画像データ内の最初のページからの通し番号)とのペアを文書管理I/F部108に渡す。文書管理I/F部108は、その文書ID(S25)とページ番号(S26)を保持し、分割管理テーブル110に新たなエントリを作成して、その新エントリにページ番号と文書IDのペアを書き込む(S27)。
In the procedure of FIG. 4, first, images are sequentially extracted from the first page of the received scanned image data (S22), and the images on the pages are passed to the
分割管理テーブル110のデータ構造の一例を図5に示す。例示するように、分割管理テーブル110には、スキャン画像データ内でのページ番号と、対応電子文書の文書IDとのペアが登録される。 An example of the data structure of the division management table 110 is shown in FIG. As illustrated, a pair of a page number in the scanned image data and a document ID of the corresponding electronic document is registered in the division management table 110.
すなわち、この手順では、スキャン画像データ中からいずれかの電子文書の先頭ページと画像が一致するページを見つけ出すと、そのページをスキャン画像データに含まれる各文書の先頭ページと判断するのである。ユーザが、複合機30に読み込ませる原稿束を、その束に含まれる各文書がそれぞれ当該文書の先頭ページの後に変更ページ又は追加ページが続く順番にセットしていれば、このような手順により文書ごとの区切りを検出できる。分割管理テーブル110に登録される情報は、スキャン画像データ中の文書ごとの区切りと、区切られた各文書が文書管理システム20内のどの電子文書に対応するかと、を示すことになる。
That is, in this procedure, when a page whose image matches the first page of any electronic document is found from the scanned image data, the page is determined as the first page of each document included in the scanned image data. If the user has set the original bundle to be read by the
なお、ステップS22で取り出したページの画像に対応する先頭ページを持つ電子文書が見つからなかった場合(ステップS24の判定結果がNの場合)、そのページの画像は文書の先頭ページに該当しないので、ステップS25〜S27は飛ばして、ステップS21に戻る。 If an electronic document having the first page corresponding to the image of the page extracted in step S22 is not found (if the determination result in step S24 is N), the image on that page does not correspond to the first page of the document. Steps S25 to S27 are skipped and the process returns to step S21.
ステップS27の処理が終わると、画像検索I/F部106は、スキャン画像データの全ページをチェックし終えたか否かを判定し(S21)、まだチェックし終えていなければ、スキャン画像データから次のページ(すなわち未チェックのページの中の最初)を取り出し(S22)、同様のチェック処理(S23〜S27)を繰り返す。そして、スキャン画像データの最後のページまでチェックを完了すると(S21の判定結果がY)、図4の手順は終了する。
When the process of step S27 is completed, the image search I /
以上のような手順により、スキャン画像データが文書ごとに分割されることになる。例えば、図6に例示する7ページのスキャン画像データ200を受け取った場合、文書登録・更新システム10は、第1ページ202から順に、画像検索システム40に検索を依頼する。その結果、第1ページ202が文書管理システム20内の電子文書212(文書ID=00001)の先頭ページに画像が一致すると、図5に例示する分割管理テーブル110の1行目のエントリが作成される。次に、第2ページ204に画像が一致する先頭ページを持つ電子文書を検索するが、そのようなものは見つからないので、第2ページ204の情報は分割管理テーブル110には登録されない。そのような検索処理を繰り返すと、第4ページ206が電子文書214(文書ID=00002)の、第6ページ208が電子文書216(文書ID=00003)の、それぞれ先頭ページの画像に一致することが判明し、その結果図5のテーブルの2行目及び3行目のエントリが生成されることになる。そして、その結果、スキャン画像データ200は、3つのスキャン文書222,224及び226に分割される。
The scanned image data is divided for each document by the above procedure. For example, when the 7-page scanned
以上画像検索処理(S3)について説明したが、識別コード検出処理(S4)では、同様の分割管理テーブル110の作成を、スキャン画像データの各ページのコード画像に基づいて行う。例えば、コード解析部104は、そのスキャン画像データの各ページの画像からコード画像を検出し、そのコード画像を解析して文書IDを求める。追加されるページには文書IDのコード画像は含まれないが、各スキャン文書の先頭ページには含まれている。文書管理I/F部108は、コード解析部104がスキャン画像データ中のあるページから文書IDを求めると、そのページの番号と文書IDとを分割管理テーブル110へ登録する。なお、電子文書の先頭ページ以外の各ページにも文書IDのコード画像が含まれる場合は、スキャン画像データのあるページから文書IDを検出した後、更に別のページから同じ文書IDを検出したとしても分割管理テーブル110へは登録しないようにすればよい。
The image search process (S3) has been described above. In the identification code detection process (S4), the same division management table 110 is created based on the code image of each page of the scanned image data. For example, the
再び図3の手順の説明に戻ると、画像検索処理(S3)又は識別コード検出処理(S4)により分割管理テーブル110が完成すると、文書管理I/F部108は、そのテーブル110を参照してスキャン画像データをスキャン文書単位に分割する(S5)。そして文書管理I/F部108は、最初のスキャン文書(分割管理テーブル110の最初のエントリに対応)を取り出し(S7)、これに対応する対応電子文書の文書IDを分割管理テーブル110から求め、その文書IDを文書管理システム20に送って、対応電子文書のデータを得る(S8)。そして、スキャン文書と対応電子文書とを類似判定I/F部112に渡し、ページごとの類似判定処理を実行させる(S9)。
Returning to the description of the procedure in FIG. 3 again, when the division management table 110 is completed by the image search process (S3) or the identification code detection process (S4), the document management I /
図7に、この類似判定処理の手順の一例を示す。この手順では、類似判定I/F部112は、スキャン文書の第2ページから順に1ページずつ画像を取り出し(S32)、取り出したページ(「現ページ」と呼ぶ)の画像と対応電子文書の先頭ページ以外の各ページの画像を類似度判定システム50に渡す(先頭ページ同士は画像検索処理により一致すると判明しているので省略している)。類似度判定システム50は、現ページの画像を、対象電子文書の各ページの画像と順に比較し、その比較によりそれぞれ類似度を計算する。そして、現ページに対して類似度が第2のしきい値(前述)以上となる対応電子文書のページ(「類似ページ」と呼ぶ)を探す(S33)。現ページに対する類似ページが見つかれば(S34の判定結果がY)、類似度判定システム50は対応電子文書内でのその類似ページのページ番号とこれに対応する類似度を類似判定I/F部112に返す。類似判定I/F部112は、スキャン文書内での現ページのページ番号、対応電子文書内での類似ページのページ番号、及び類似度を文書管理I/F部108に渡す。文書管理I/F部114は、それらの値を保持し(S35,36,37)、類似ページ管理テーブル114に新たなエントリを作成し、そのエントリにそれらの値を書き込む(S38)。そして、ステップS31に戻って、現在処理しているスキャン文書中のすべてのページのチェックが終わったかどうかを判定し、終わっていなければ次のページを現ページとして取り出し(S32)、ステップS33以降の処理を繰り返す。
FIG. 7 shows an example of the procedure of this similarity determination process. In this procedure, the similarity determination I /
なお、ステップS33において、現ページに対して第2のしきい値以上の類似度を持つページが対応電子文書内に複数見つかった場合は、例えばそれら複数の中で最も類似度が高いページを1つ、類似ページとして選択してもよい。また、この代わりに、それら複数のページの番号と類似度をすべて類似判定I/F部112に通知し、文書登録・更新システム10がその中から現ページに対応するものを判定してもよい。
In step S33, when a plurality of pages having a similarity equal to or higher than the second threshold with respect to the current page are found in the corresponding electronic document, for example, the page having the highest similarity among the plurality of pages is set to 1. Alternatively, it may be selected as a similar page. Alternatively, all the numbers and similarities of the plurality of pages may be notified to the similarity determination I /
現ページに対応する類似ページが見つからなかった場合は(S34の判定結果がN)、類似判定I/F部112は、ステップS35−S37を飛ばし、ステップS31に戻る。
When the similar page corresponding to the current page is not found (the determination result of S34 is N), the similarity determination I /
以上の処理をスキャン文書の全ページについて繰り返すことで、スキャン文書と対応電子文書との間のページ同士の類似関係を示す類似ページ管理テーブル114が完成する。 By repeating the above process for all pages of the scanned document, the similar page management table 114 indicating the similar relationship between the pages of the scanned document and the corresponding electronic document is completed.
図8に、類似ページ管理テーブル114のデータ内容の一例を示す。この例ではスキャン文書中の第2ページと対応電子文書の第2ページが類似度95%で、スキャン文書中の第5ページと対応電子文書の第3ページが類似度100%(すなわち画像が一致)となっている。この例では、スキャン文書中の第3及び第4ページは、新たに追加されるページである。 FIG. 8 shows an example of data contents of the similar page management table 114. In this example, the second page in the scanned document and the second page of the corresponding electronic document have a similarity of 95%, and the fifth page in the scanned document and the third page of the corresponding electronic document have a similarity of 100% (that is, the images match). ). In this example, the third and fourth pages in the scanned document are newly added pages.
また図3の手順に戻ると、上述の類似判定処理(S9)により、スキャン文書と対応電子文書とについての類似ページ管理テーブル114が完成すると、次に文書管理I/F部108は、そのテーブル114を参照して、対応電子文書に対してページの変更又は追加を行う(S10)。
Returning to the procedure of FIG. 3, when the similar page management table 114 for the scanned document and the corresponding electronic document is completed by the similarity determination process (S9) described above, the document management I /
図9を参照して、このステップS10の詳細な手順の一例を説明する。この手順では、2つの変数cnt及びpgを用いる。変数cnt及びpgは、この手順の開始時に、類似ページ管理テーブル114の行数(すなわちスキャン文書と対応電子文書との間で相互に類似するページの数)、及びスキャン文書の総ページ数に、それぞれ初期化される(S41,S42)。これら変数は、後述する処理の進行に伴って減らされていく。この手順では、そのような変数を用いることで、対応電子文書の後ろのページから順に画像の変更や追加を行っていく。以下、詳細に説明する。 With reference to FIG. 9, an example of the detailed procedure of step S10 will be described. This procedure uses two variables, cnt and pg. The variables cnt and pg are set to the number of rows in the similar page management table 114 (that is, the number of pages similar to each other between the scanned document and the corresponding electronic document) and the total number of pages of the scanned document at the start of this procedure. Each is initialized (S41, S42). These variables are reduced as the processing described later proceeds. In this procedure, by using such variables, images are changed or added sequentially from the page behind the corresponding electronic document. Details will be described below.
変数の初期化の後、文書管理I/F部108は、変数cntが0であるか判定する(S43)。この時点でcntが0であれば、それはスキャン文書と対応電子文書との間には先頭ページ同士以外に類似するページが存在しないことを意味する。その場合、更に変数pgが1であるか判定する(S44)。この時点で変数pgが1であれば、それは、当該スキャン文書は対応電子文書の先頭ページに対応するページを含むのみであり、変更や追加のページを含まないことを意味する。この場合、当該スキャン文書についての処理は終了する。ステップS44にて変数pgが1でなければ(すなわちpgが2以上)、スキャン文書中に先頭ページ以外のページが含まれていることになる。この場合、この手順では、スキャン文書中の第2頁から第pgページ(すなわち最後のページ)までの各ページを、対応電子文書の末尾に追加する(S45)。
After the variable initialization, the document management I /
このステップS45の処理の例を、図10を参照して説明する。この例では、スキャン文書及びその対応電子文書が共に2ページの文書であり、スキャン文書の第2ページは、更新前の対応電子文書の第2ページに類似していない(類似度が第2のしきい値未満)とする。この場合、スキャン文書の第2ページは、対応電子文書の末尾に追加される。この更新の後、対応電子文書は3ページの文書となる。 An example of the process in step S45 will be described with reference to FIG. In this example, both the scanned document and the corresponding electronic document are two-page documents, and the second page of the scanned document is not similar to the second page of the corresponding electronic document before update (the similarity is the second). Less than the threshold). In this case, the second page of the scanned document is added to the end of the corresponding electronic document. After this update, the corresponding electronic document becomes a three-page document.
逆に言えば、図10の手順を用いる場合、ユーザは、電子文書の末尾に新たなページを追加したい場合、その電子文書の代表ページである先頭ページの印刷結果の後ろに、追加したいページの紙文書を付加して複合機30に読み取らせればよい。
Conversely, in the case of using the procedure of FIG. 10, when the user wants to add a new page to the end of the electronic document, the page of the page to be added is added after the print result of the first page which is the representative page of the electronic document. A paper document may be added and read by the
ステップS43で変数cntが0でないと判定された場合、文書管理I/F部108は、類似ページ管理テーブル114から第cnt行目のレコードを取得する(S47)。このステップで取得したレコードを注目レコードと呼び、注目レコード内の対応電子文書のページ番号及びスキャン文書のページ番号が示す各ページをそれぞれ注目ページと呼ぶこととする。
If it is determined in step S43 that the variable cnt is not 0, the document management I /
次に、注目レコード中の類似度が100%か否かを判定し(S48)、100%でなければ、対応電子文書の注目ページをスキャン文書の注目ページに差し替える(S49)。すなわち、この場合は、対応電子文書の注目ページとスキャン文書の注目ページとが完全には一致していないので、対応電子文書の注目ページに変更が加えられたものと判断して、スキャン文書の注目ページに置き換えるのである。一方、ステップS48で類似度が100%と判定された場合は、注目ページには変更がないので、ステップS49は飛ばす。ステップS48では注目ページの変更の有無を判断するために類似度が100%か否かを判定したがこれは一例に過ぎない。例えば実験等により求められる100%に近い値をしきい値として設定し、類似度がそのしきい値以下であればページ画像に変更有りと判定するようにしてもよい。 Next, it is determined whether or not the similarity in the record of interest is 100% (S48). If it is not 100%, the page of interest of the corresponding electronic document is replaced with the page of interest of the scanned document (S49). That is, in this case, since the target page of the corresponding electronic document and the target page of the scanned document do not completely match, it is determined that the target page of the corresponding electronic document has changed, and Replace with the page of interest. On the other hand, if it is determined in step S48 that the degree of similarity is 100%, there is no change in the page of interest, and step S49 is skipped. In step S48, it is determined whether or not the degree of similarity is 100% in order to determine whether or not the page of interest has changed, but this is only an example. For example, a value close to 100% obtained by experiment or the like may be set as a threshold value, and it may be determined that the page image has been changed if the similarity is equal to or less than the threshold value.
次に、文書管理I/F部108は、スキャン文書の注目ページの番号が変数pg(これはスキャン文書の未処理の最終ページの番号を示す)の値より小さいか否かを判定する(S50)。小さければ、スキャン文書の注目ページよりも後に未処理のページが存在するということである。そこで、スキャン文書の第pgページのページ画像を、対応電子文書の注目ページの後に追加する(S51)。そして、変数pgを1だけ減らし(S52)、ステップS50に戻る。変数pgがスキャン文書の注目ページの番号と等しくなるまで、すなわちスキャン文書内で注目ページの後に続いているページがすべて追加し終わるまで、ステップS50〜S52の処理ループが繰り返される。
Next, the document management I /
変数pgがスキャン文書の注目ページの番号と等しくなると、ステップS50の判定結果がNとなる。この場合文書管理I/F部108は変数cnt及びpgをそれぞれ1ずつ減らした後(S53,S54)、ステップS46に戻って変数cntが0になったか否かを判定する。すなわち、S50の判定結果がNになった段階で、ステップS47で類似ページ管理テーブル114から取得した注目レコードに関する処理(ページの変更又は追加)を終了し、変数cntを1減らして次のレコードの処理に移行するのである。
When the variable pg is equal to the number of the target page of the scanned document, the determination result in step S50 is N. In this case, the document management I /
ステップS46で変数cntが0でないと判定された場合は、ステップS47でそのcntが示すレコードを類似ページ管理テーブル114から取得し、ステップS48〜S54の処理を繰り返す。文書管理I/F部108は、変数cntが0になるまで、ステップS46〜S54の処理を繰り返す。
If it is determined in step S46 that the variable cnt is not 0, the record indicated by the cnt is acquired from the similar page management table 114 in step S47, and the processes in steps S48 to S54 are repeated. The document management I /
ステップS46で変数cntが0になったと判定すると、文書管理I/F部108は、そのときの変数pgの値が1であるか否かを判定する(S55)。変数pgが1でなければ、スキャン文書の先頭ページの後に追加ページが存在するので、それら追加ページ(すなわちスキャン文書の第2〜第pgページ)を、対応電子文書の先頭ページの後ろに追加して(S56)、処理を終了する。変数pgが1であれば、ステップS56を飛ばして処理を終了する。
If it is determined in step S46 that the variable cnt has become 0, the document management I /
以上、画像変更/追加処理(図3のS10)の詳細な手順の一例を説明した。この処理により、文書登録・更新システム10の記憶装置内に、更新後の対応電子文書が形成されることになる。文書管理I/F部108は、この更新後の対応電子文書により、文書管理システム20の対応電子文書を更新する(図3のS11)。この更新処理では、例えば、作成した更新後の対応電子文書を文書管理システム20内の対応電子文書に差し替えればよい。ただし、更新は差し替えに限らない。差替の代わりに、作成した更新後の対応電子文書を、文書管理システム20に対し、元の対応電子文書の新版として登録してもよい。また、作成した更新後の対応電子文書を、元の対応電子文書との関連づけをせずに、単に文書管理システム20に新規文書として登録してもよい。
The example of the detailed procedure of the image change / addition processing (S10 in FIG. 3) has been described above. By this processing, the updated corresponding electronic document is formed in the storage device of the document registration /
文書管理I/F部108は、スキャン画像データの分割結果であるすべてのスキャン文書についてステップS6〜S11の処理を繰り返す。そして、すべてのスキャン文書の処理が終了すると、一連の処理を終了する。
The document management I /
次に、図9の手順による電子文書更新の具体例を、図11を参照して説明する。この例では、「A,B,C,D,…」という多数のページからなる電子文書300を、「A,B’,あ,い,C,う」という6ページの紙文書により更新する。その紙文書(図ではその読取結果であるスキャン文書310を示している)は、対応電子文書300の第2ページをページ「B’」に変更し、その第2頁の後に新たなページ「あ」及び「い」を追加し、更に元々の第3ページ「C」の後に新たなページ「う」を追加することを意味している。このスキャン文書310について、図7の類似判定処理を行うと、図8に例示した類似ページ管理テーブルが得られる。
Next, a specific example of electronic document update according to the procedure of FIG. 9 will be described with reference to FIG. In this example, an
この例では、図9の手順では、まず変数cnt、pgが2,6にそれぞれ初期化される。そして、ステップS47で変数cnt=2に従い、図8のテーブルの2行目のレコード(すなわち「5,3,100%」)が注目レコードとして取り出され、これに基づきスキャン文書300の第5ページが対応電子文書300の第3ページに一致していることが分かる(S48の判定結果がY)。そのレコード内のスキャン文書のページ番号5はこの時点での変数pgの値6より小さいので(S50の判定結果がY)、スキャン文書の第6ページ「う」を、注目レコードが示す対応電子文書300のページ番号3のページ「C」の後ろに追加する(S51)。図11の文書302は、この時点の対応電子文書の状態を示す。次のステップS52で変数pgが6から5になり、ステップS50の判定結果がNとなる。
In this example, in the procedure of FIG. 9, first, variables cnt and pg are initialized to 2 and 6, respectively. In step S47, in accordance with the variable cnt = 2, the record in the second row of the table of FIG. 8 (ie, “5, 3, 100%”) is extracted as the target record, and based on this, the fifth page of the scanned
そこで、ステップS53及びS54で変数cnt、pgが1ずつ減らされ、それぞれ1,4になる。これは、注目レコードが図9のテーブルの1行目に移行し、スキャン文書310中の第5,6ページが処理済みとなって残りのページが4ページとなったことを意味する。
Therefore, in steps S53 and S54, the variables cnt and pg are decremented by 1 to become 1 and 4, respectively. This means that the record of interest has moved to the first row of the table of FIG. 9, the fifth and sixth pages in the scanned
次に、ステップS47で図8のテーブルの1行目が注目レコードとして取り出され、これに基づきスキャン文書310の第2ページが対応電子文書300の第2ページに類似している(完全一致はしていない)ことが分かる(S48の判定結果がN)。そこで、対応電子文書300の第2ページ「B」が、スキャン文書の第2ページ「B’」に差し替えられる(S49)。図11の文書304は、この時点の対応電子文書300の状態を示す。
Next, in step S47, the first line of the table of FIG. 8 is extracted as a record of interest, and based on this, the second page of the scanned
そして、そのレコード内のスキャン文書のページ番号2はこの時点での変数pgの値が5より小さいので(S50の判定結果がY)、スキャン文書の第4ページ「い」を、対応電子文書304のページ番号2のページの後ろに追加する(S51)。図11の文書306は、この時点の対応電子文書の状態を示す。
Since the
次のステップS52で変数pgが4から3に減るが、注目レコードが示すスキャン文書のページ番号2はまだpgの値3より小さいので、スキャン文書の第3ページ「あ」を、対応電子文書306のページ番号2のページの直後に追加する(S51)。ページ「あ」は、この前に追加したページ「い」の前に追加されることになる。図11の文書308は、この時点の対応電子文書の状態を示す。
In the next step S52, the variable pg is decreased from 4 to 3, but the
次のステップS52で変数pgが3から2に減るので、ステップS50の判定結果がNとなり、ステップS53及びS54で変数cnt、pgが1ずつ減らされそれぞれ0,1になる。すると、ステップS46の判定結果がYとなり、更にステップS55の判定結果がYとなるので、図9の一連の処理が終了する。したがって、図11の例では、文書308が、対応電子文書300の最終的な更新結果となる。
Since the variable pg is decreased from 3 to 2 in the next step S52, the determination result in step S50 is N. In steps S53 and S54, the variables cnt and pg are decreased by 1 to 0 and 1, respectively. Then, the determination result in step S46 becomes Y, and further, the determination result in step S55 becomes Y. Therefore, the series of processes in FIG. 9 ends. Therefore, in the example of FIG. 11, the
以上、図9及び図11を用いて説明した例は、文書管理システム20内の電子文書にページを追加する場合に、追加ページのページ位置を、その電子文書におけるその追加ページの直前のページにより示す場合の例である。当業者ならば、この例の手順から、追加ページのページ位置をその追加ページの直後に来るページにより示す場合の手順も理解できるであろう。
As described above, in the example described with reference to FIGS. 9 and 11, when adding a page to the electronic document in the
以上では、文書管理システム20に登録されている電子文書の更新について説明した。文書管理システム20に新規の電子文書を登録する場合は、その電子文書に対応する新規の紙文書を複合機30に読み込ませればよい。この場合、スキャン画像データは図3の手順のステップS3又はS4では分割されず、1つのスキャン文書として扱われる。そして、ステップS8でそのスキャン文書に対応する電子文書が文書管理システム20から見つからないことが分かる。この場合に、文書登録・更新システム10が、そのスキャン文書を新規文書として文書管理システム20に追加すればよい。
The update of the electronic document registered in the
また、新規に登録する文書を、更新する文書群の前に添付するようにしてもよい。この場合、スキャン画像データの先頭に新規登録の文書のページ群が位置し、その後に更新対象の既存電子文書の先頭ページが来る。この場合、文書登録・更新システム10は、ステップS3又はS4でスキャン画像データを文書単位に分割したあと、その分割結果の中の最初の文書の先頭ページより前に位置するページ群を、新規登録対象の文書と判定し、文書管理システム20に登録すればよい。なお、これは文書の先頭ページを代表ページとする場合の例である。文書の末尾のページを代表ページとする場合には、更新する文書群の後に新規登録対象の文書を添付すればよい。
Also, a newly registered document may be attached before the document group to be updated. In this case, the page group of the newly registered document is positioned at the top of the scanned image data, and the top page of the existing electronic document to be updated follows. In this case, the document registration /
この例では、既登録の文書群の前又は後ろに添付したページ群を文書管理システム20に新規登録したが、これは一例に過ぎない。そのような添付ページ群の取扱としては、この他にも、単に誤りと判断してそれら添付ページ群のスキャン画像を破棄する方法、或いは既登録の文書群のうちの先頭の文書に対しそれら添付ページを追加する方法なども考えられる。どのような取扱をするかは、本システムを利用する現場の要望によって変わってくる。そこで、そのような添付ページ群の取扱方法をいくつか文書登録・更新システム10に実装しておき、それらのうちいずれを用いるかを当該システム10の管理者が設定するようにしてもよい。
In this example, a page group attached before or after an already registered document group is newly registered in the
また、以上の例では、個々の電子文書中の先頭(又は末尾)ページにより区切ることで、スキャン画像データを文書単位に分割したが、これも一例に過ぎない。この代わりに、ユーザが複合機30に読み込ませる原稿束の中に、文書を区切る所定の区切り紙を入れてもよい。この場合、文書登録・更新システム10は区切り紙の画像を記憶しており、スキャン画像データ中から区切り紙の画像に対応するページを見つけると、そのページの前と後ろが別々の文書となるよう区切る。なお、このように区切り紙を用いる場合でも、個々のスキャン文書に対する対応電子文書の特定には、電子文書の代表ページの画像を用いる。
In the above example, the scan image data is divided into document units by dividing the scanned image data by the first (or last) page in each electronic document, but this is only an example. Instead of this, a predetermined separator sheet that separates the documents may be put in a bundle of documents that the user reads into the
以上に例示した実施形態及び各変形例のシステムは、例えば、汎用のコンピュータに上述の各機能モジュールの処理を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、図12に示すように、CPU1000等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)1002およびリードオンリメモリ(ROM)1004等のメモリ(一次記憶)、HDD(ハードディスクドライブ)1006を制御するHDDコントローラ1008、各種I/O(入出力)インタフェース1010、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース1012等が、たとえばバス1014を介して接続された回路構成を有する。また、そのバス1014に対し、例えばI/Oインタフェース1010経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ1016、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ1018、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAM1002に読み出されCPU1000等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。なお、それら機能モジュール群のうちの一部又は全部を、専用LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)又はFPGA(Field Programmable Gate Array)等のハードウエア回路として構成してもよい。
The system of the embodiment and each modification exemplified above is realized, for example, by causing a general-purpose computer to execute a program representing the processing of each functional module described above. Here, for example, as shown in FIG. 12, the computer includes a microprocessor such as a
なお、図1及び図2に示したシステム構成はあくまで一例に過ぎない。例えば、図1に例示した各システム10〜50のうちの2以上が1つのハードウエア装置上に実装されていてもよい。また、個々のシステム10〜50においても、そのシステム内の構成要素がそれぞれ別々のハードウエア装置に実装され、ネットワークを介して相互に通信を行いながら、上述の処理を実現してもよい。
The system configuration shown in FIGS. 1 and 2 is only an example. For example, two or more of the
10 文書登録・更新システム、20 文書管理システム、30 複合機、40 画像検索システム、50 類似度判定システム。 10 Document registration / update system, 20 Document management system, 30 MFP, 40 Image search system, 50 Similarity determination system.
Claims (5)
前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、
前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、
を備え、
前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
前記追加手段は、
前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
ことを特徴とする情報処理装置。 A specifying means for specifying a corresponding electronic document corresponding to the original document from electronic documents stored in a storage device based on a read image of each page of the original document read by the original reading device;
Search means for searching for a corresponding image having a degree of similarity equal to or higher than a predetermined threshold with respect to each page of the original document, from among images of each page of the corresponding electronic document;
Means for adding, to the corresponding electronic document in the storage means, a read image in which the corresponding image is not found by the search means among the read images of each page of the original, Adding means for adding the read image to a page position specified by the order relationship between the page and the page where the corresponding image is found;
With
The specifying unit specifies the corresponding electronic document by comparing the image of the first page of the document with the image of the first page of each electronic document stored in the storage device,
The additional means includes
As a result of the search by the search means, a page having the corresponding image as the first page other than the first page of the corresponding electronic document is found in the manuscript, and in the manuscript, immediately before and immediately after the found page. On the other hand, if there is a page for which the corresponding image is not found, the read image of the page for which the corresponding image is not found is displayed as the read image immediately before and after the first page in the corresponding electronic document. Insert it into one of the predetermined,
As a result of the search by the search means, it is found that the first page of the read original corresponds to the first page of the corresponding electronic document, and the corresponding image is found for all pages other than the first page of the original. If not, the adding means adds the read image of each page other than the first page to the back of the last page of the corresponding electronic document.
An information processing apparatus characterized by that.
前記特定手段は前記分割手段が原稿単位に分割した読取画像に基づき、当該原稿に対応する対応電子文書を特定する、ことを特徴とする請求項1記載の情報処理装置。 When a document bundle consisting of a plurality of documents is read by the document reading device, a predetermined separator image or each electronic document stored in the storage device is read out from the read images of each page received from the document reading device. A division unit that searches for an image of the representative page and divides the read image of each page output by the document reading unit by the searched separator image or the image of the representative page into document units;
The information processing apparatus according to claim 1, wherein the specifying unit specifies a corresponding electronic document corresponding to the document based on the read image divided by the dividing unit into document units.
を更に備える請求項1〜2のいずれか1項に記載の情報処理装置。 Of the scanned images of each page of the document, for the scanned image in which the corresponding image is found by the search unit, the similarity between the scanned image and the corresponding image is greater than or equal to the threshold value, and a predetermined first A replacement unit that replaces the corresponding image in the corresponding electronic document in the storage unit with the read image when the threshold value is equal to or less than a threshold value of
The information processing apparatus according to claim 1, further comprising:
1以上のページの画像を含む1以上の電子文書を記憶する記憶装置と、
前記原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、前記記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、
前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、
前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、
を有する情報処理装置と、
を含み、
前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
前記追加手段は、
前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
ことを特徴とする情報処理システム。 An original reading device for reading an original;
A storage device for storing one or more electronic documents including images of one or more pages;
Identifying means for identifying a corresponding electronic document corresponding to the original document from electronic documents stored in the storage device based on a read image of each page of the original document read by the original reading device;
Search means for searching for a corresponding image having a degree of similarity equal to or higher than a predetermined threshold with respect to each page of the original document, from among images of each page of the corresponding electronic document;
Means for adding, to the corresponding electronic document in the storage means, a read image in which the corresponding image is not found by the search means among the read images of each page of the original, Adding means for adding the read image to a page position specified by the order relationship between the page and the page where the corresponding image is found;
An information processing apparatus having
Including
The specifying unit specifies the corresponding electronic document by comparing the image of the first page of the document with the image of the first page of each electronic document stored in the storage device,
The additional means includes
As a result of the search by the search means, a page having the corresponding image as the first page other than the first page of the corresponding electronic document is found in the manuscript, and in the manuscript, immediately before and immediately after the found page. On the other hand, if there is a page for which the corresponding image is not found, the read image of the page for which the corresponding image is not found is displayed as the read image immediately before and after the first page in the corresponding electronic document. Insert it into one of the predetermined,
As a result of the search by the search means, it is found that the first page of the read original corresponds to the first page of the corresponding electronic document, and the corresponding image is found for all pages other than the first page of the original. If not, the adding means adds the read image of each page other than the first page to the back of the last page of the corresponding electronic document.
An information processing system characterized by this.
原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段、
前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段、
前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段、
として機能させるためのプログラムであって、
前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
前記追加手段は、
前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
ことを特徴とするプログラム。 Computer
Identification means for identifying a corresponding electronic document corresponding to the original document from electronic documents stored in the storage device, based on a read image of each page of the original document read by the original reading device;
Search means for searching for a corresponding image having a similarity equal to or higher than a predetermined threshold for each page of the original document from images of each page of the corresponding electronic document;
Means for adding, to the corresponding electronic document in the storage means, a read image in which the corresponding image is not found by the search means among the read images of each page of the original, Adding means for adding the read image to a page position specified by the order relationship between the page and the page where the corresponding image is found;
A program for functioning as,
The specifying unit specifies the corresponding electronic document by comparing the image of the first page of the document with the image of the first page of each electronic document stored in the storage device,
The additional means includes
As a result of the search by the search means, a page having the corresponding image as the first page other than the first page of the corresponding electronic document is found in the manuscript, and in the manuscript, immediately before and immediately after the found page. On the other hand, if there is a page for which the corresponding image is not found, the read image of the page for which the corresponding image is not found is displayed as the read image immediately before and after the first page in the corresponding electronic document. Insert it into one of the predetermined,
As a result of the search by the search means, it is found that the first page of the read original corresponds to the first page of the corresponding electronic document, and the corresponding image is found for all pages other than the first page of the original. If not, the adding means adds the read image of each page other than the first page to the back of the last page of the corresponding electronic document.
A program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008040559A JP5251161B2 (en) | 2008-02-21 | 2008-02-21 | Information processing apparatus, information processing system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008040559A JP5251161B2 (en) | 2008-02-21 | 2008-02-21 | Information processing apparatus, information processing system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009199357A JP2009199357A (en) | 2009-09-03 |
JP5251161B2 true JP5251161B2 (en) | 2013-07-31 |
Family
ID=41142781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008040559A Expired - Fee Related JP5251161B2 (en) | 2008-02-21 | 2008-02-21 | Information processing apparatus, information processing system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5251161B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014199507A (en) | 2013-03-29 | 2014-10-23 | ブラザー工業株式会社 | Image processing device and computer program |
KR101991088B1 (en) * | 2017-08-02 | 2019-06-19 | 이세희 | Numbering automating apparatus and method for automating numbering of document |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031181A (en) * | 2004-07-13 | 2006-02-02 | Canon Inc | Image retrieval system, method, storage medium, and program |
JP2007036406A (en) * | 2005-07-25 | 2007-02-08 | Konica Minolta Business Technologies Inc | Image editing device |
-
2008
- 2008-02-21 JP JP2008040559A patent/JP5251161B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009199357A (en) | 2009-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1480440B1 (en) | Image processing apparatus, control method therefor, and program | |
US20100088594A1 (en) | Thumbnail display method and image forming apparatus | |
US7978362B2 (en) | Image forming apparatus for printing image data in removable storage | |
US8045228B2 (en) | Image processing apparatus | |
JP2007034847A (en) | Retrieval apparatus and retrieval method | |
US8203734B2 (en) | Image formation using a portable storage medium | |
US11025788B2 (en) | Image processing apparatus, method for controlling the same, and storage medium | |
US8144988B2 (en) | Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program | |
US20080079999A1 (en) | Image forming apparatus | |
US20090150359A1 (en) | Document processing apparatus and search method | |
JP4360211B2 (en) | Document processing device | |
AU2009212993B2 (en) | Document processing system, search apparatus, information searching method, document processing method and program | |
US9898236B2 (en) | Image processing apparatus and program for printing template images using keyword data | |
US20140168684A1 (en) | Imaging forming apparatus and method | |
JP2009094598A (en) | Document managing device, document managing program, device for creating document with bookmark image, and program for creating document with bookmark image | |
CN111580758B (en) | Image forming apparatus having a plurality of image forming units | |
JP5251161B2 (en) | Information processing apparatus, information processing system, and program | |
US8194982B2 (en) | Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program | |
US8451461B2 (en) | Information processor, information processing system, and computer readable medium | |
JP2009094596A (en) | Document managing device, document managing program, device for creating document with bookmark image, and program for creating document with bookmark image | |
JP4765593B2 (en) | Image forming apparatus, image forming processing program, and image forming processing method | |
JP4827519B2 (en) | Image processing apparatus, image processing method, and program | |
JP4455358B2 (en) | Image processing apparatus and method | |
CN102257802A (en) | Image forming apparatus, control method for image forming apparatus, and storage medium | |
JP7314627B2 (en) | CONTROL DEVICE, IMAGE FORMING APPARATUS, CONTROL METHOD AND CONTROL PROGRAM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130131 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130401 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5251161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |