JP2002024258A - Image acquisition device and method, and computer- readable recording medium recorded with image acquisition processing program - Google Patents

Image acquisition device and method, and computer- readable recording medium recorded with image acquisition processing program

Info

Publication number
JP2002024258A
JP2002024258A JP2000207925A JP2000207925A JP2002024258A JP 2002024258 A JP2002024258 A JP 2002024258A JP 2000207925 A JP2000207925 A JP 2000207925A JP 2000207925 A JP2000207925 A JP 2000207925A JP 2002024258 A JP2002024258 A JP 2002024258A
Authority
JP
Japan
Prior art keywords
document
image
documents
break
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000207925A
Other languages
Japanese (ja)
Other versions
JP4023075B2 (en
Inventor
Masahiro Kato
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000207925A priority Critical patent/JP4023075B2/en
Publication of JP2002024258A publication Critical patent/JP2002024258A/en
Application granted granted Critical
Publication of JP4023075B2 publication Critical patent/JP4023075B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storing Facsimile Image Data (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To obtain image data of plural documents by the documents without using any document sectioning original when the unspecified documents are read by an image scanner having an automatic document feeding function. SOLUTION: Image data are generated by reading the documents by an image input part 10 and stored in an image storage part 20. Then a feature quantity calculation part 30 calculates a feature quantity needed to decide document sectioning is calculated from all the image data stored in the image storage part 20. A document sectioning decision part 40 decides the document sectioning according to the feature quantity calculated by the calculation part 30. When the document sectioning result displayed at a display part 80 is different from a desired result, the document sectioning is corrected through an input part 70.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、自動給紙機能を持
つイメージスキャナにより複数の文書の原稿を読み取る
ときに、文書区切り用原稿を用いることなく、各文書の
区切りを判定して原稿画像を取得する画像取得装置およ
び画像取得方法ならびに画像取得処理プログラムを記録
したコンピュータ読み取り可能な記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image scanner having an automatic paper feed function, which reads a plurality of documents by using a document delimiter. The present invention relates to an image acquisition apparatus and an image acquisition method to acquire an image, and a computer-readable recording medium recording an image acquisition processing program.

【0002】[0002]

【従来の技術】近年、1枚以上の紙原稿からなる文書を
複数部にわたり効率的に電子化する場合、自動給紙機能
を持つイメージスキャナを用いて当該原稿を連続的に読
み取る処理が広く行われている。この際、読み取った原
稿画像データを文書毎に管理するためには、文書と文書
との間を何らかの手段を用いて検出する必要がある。こ
のようなニーズに対し、従来から幾つかのアプローチが
提案されている。
2. Description of the Related Art In recent years, when a document composed of one or more paper originals is efficiently digitized over a plurality of copies, a process of continuously reading the originals using an image scanner having an automatic paper feed function is widely performed. Have been done. At this time, in order to manage the read document image data for each document, it is necessary to detect between documents by using some means. Several approaches have been proposed to meet such needs.

【0003】例えば、特開平1−162474号公報で
は、複数の文書原稿を読み取る前に文書間にあらかじめ
特定の文書区切り用原稿を挿入しておくことで、イメー
ジスキャナで連続的に原稿を読み取った場合でもこの文
書区切り用原稿を認識し、原稿の画像を文書単位に登録
する電子ファイル装置について示している。
For example, in Japanese Patent Laid-Open Publication No. 1-162474, a specific document delimiting document is inserted between documents before reading a plurality of document documents, so that the document can be read continuously by an image scanner. In this case, an electronic file device that recognizes the document for document separation and registers the image of the document for each document is shown.

【0004】また、特開平7−287747号公報で
は、あらかじめ文書区切りとなる原稿の裏面に文書区切
りマークを付加しておくことで、原稿の裏表両面をイメ
ージスキャナで読み取り、この文書区切りマークを認識
して文書の登録を行う電子ファイル装置について示して
いる。
In Japanese Patent Application Laid-Open No. 7-287747, a document delimiter mark is added to the back of a document serving as a document delimiter in advance, so that both sides of the document are read by an image scanner and the document delimiter mark is recognized. 1 shows an electronic file device for registering a document.

【0005】また別のアプローチとして、特開平10−
21380号公報では、イメージスキャナで読み取った
画像データからあらかじめ設定しておいた文字認識エリ
ア部分を切り出し、文字認識し、この文字認識結果に基
づき文書の区切りを判定する電子ファイル装置について
示している。
As another approach, Japanese Patent Laid-Open No.
Japanese Patent Application Laid-Open No. 21380 discloses an electronic file device that cuts out a previously set character recognition area from image data read by an image scanner, performs character recognition, and determines a document break based on the character recognition result.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、前記文
書区切り用原稿を用いて文書の区切りを判定する方法で
は、読み取る原稿の種類に依存しないという大きな利点
がある反面、原稿を読み取る作業を行う毎に、文書の数
に応じた文書区切り用原稿を準備して各文書間に挿入し
なければならず、文書数が増すに従いユーザの作業負担
も増大してしまうという問題点がある。
However, the method of determining a document break using the document for document break has a great advantage that it does not depend on the type of the document to be read. However, there is a problem in that a document for document separation corresponding to the number of documents must be prepared and inserted between the documents, and the user's work load increases as the number of documents increases.

【0007】また、文書区切りとなる原稿の裏面に文書
区切りマークを付加する方法では、文書区切り用原稿を
挿入する手間がないという利点はあるが、読み取り対象
の原稿に加筆できない制限があったり、もともと原稿の
両面に情報が記載されている場合には当該マークを付加
することができず、このような原稿から構成される文書
に対しては利用できないという問題点がある。
The method of adding a document break mark to the back side of a document serving as a document break has the advantage that there is no need to insert a document break document, but there is a limitation that a document to be read cannot be rewritten. Originally, when information is described on both sides of the original, the mark cannot be added, and there is a problem that the mark cannot be used for a document composed of such an original.

【0008】更に、文字認識を利用する方法では、原稿
のあらかじめ定められた位置にタイトルや総頁数など、
文書区切りを判定する際に利用可能な条件を満たす文字
列が存在する必要があり、任意の原稿に対して利用でき
るものではなく、どちらかといえば定型の文書に適した
方法であり、非定形文書に対しては利用が難しいという
問題点がある。
Further, in the method using character recognition, a title, a total number of pages, and the like are set at predetermined positions of a document.
There must be a character string that satisfies the conditions that can be used when determining document breaks, and it is not a method that can be used for arbitrary manuscripts. There is a problem that it is difficult to use a document.

【0009】本発明は上記の事情に鑑みてなされたもの
であり、自動給紙機能を持つイメージスキャナにより不
特定な複数の文書を読み取るとき、文書区切り用原稿を
用いることなく複数の文書の画像データを文書単位で取
得できる画像取得装置および画像取得方法ならびに画像
取得処理プログラムを記録したコンピュータ読み取り可
能な記録媒体の提供を目的としている。
The present invention has been made in view of the above circumstances, and when reading an unspecified plurality of documents by an image scanner having an automatic paper feed function, the images of the plurality of documents are used without using a document for document separation. It is an object of the present invention to provide an image acquisition device and an image acquisition method capable of acquiring data in document units, and a computer-readable recording medium on which an image acquisition processing program is recorded.

【0010】[0010]

【課題を解決するための手段】上述の目的を達成するた
めの本発明による画像処理装置は以下の横成を備える。
すなわち、本願請求項1に係る発明は、複数文書分の原
稿を順次読み取る原稿画像読取手段と、原稿画像読取手
段で読み取った原稿画像の特徴量を算出する特徴量算出
手段と、特徴量算出手段により算出した原稿画像の特徴
量に基づいて、原稿画像読取手段で読み取って得た原稿
画像の文書区切りを判定する文書区切り判定手段とを備
えている。これにより、あらかじめ文書区切り用原稿を
各文書間に挿入したり、文書区切りとなる原稿に手を加
えたりすることなく文書の区切りが判定できるため、ユ
ーザに強いる負担を大幅に軽減することができる。
An image processing apparatus according to the present invention for achieving the above object has the following features.
That is, the invention according to claim 1 of the present application is a document image reading means for sequentially reading documents of a plurality of documents, a feature value calculating means for calculating a feature value of a document image read by the document image reading means, and a feature value calculating means Document separation determining means for determining the document break of the document image read by the document image reading means based on the characteristic amount of the document image calculated by the above. This makes it possible to determine a document break without inserting a document break document between documents in advance or modifying a document serving as a document break, thereby greatly reducing the burden imposed on the user. .

【0011】また、本願請求項2に係る発明は、複数文
書分の原稿を順次読み取る原稿画像読取手段と、原稿画
像読取手段に読み取らせる文書数を入力する文書数入力
手段と、原稿画像読取手段で読み取って得た原稿画像の
特徴量を算出する特徴量算出手段と、文書数入力手段に
より入力された文書数と特徴量算出手段により算出した
原稿画像の特徴量とに基づいて、原稿画像読取手段で読
み取って得た原稿画像の文書区切りを判定する文書区切
り判定手段とを備えている。これにより、前記請求項1
に係る発明の利点に加え、あらかじめ文書の数がわかる
ことから、より精度の高い文書区切り判定を行うことが
可能となる。
According to a second aspect of the present invention, there is provided a document image reading means for sequentially reading a plurality of documents, a document number input means for inputting the number of documents to be read by the document image reading means, and a document image reading means. A feature amount calculating unit for calculating the feature amount of the document image obtained by reading the document image, and a document image reading based on the number of documents input by the document number input unit and the feature amount of the document image calculated by the feature amount calculating unit. Means for determining a document break of a document image read by the means. Thereby, said claim 1
In addition to the advantages of the invention according to the first aspect, the number of documents is known in advance, so that a more accurate document segmentation determination can be performed.

【0012】また、本願請求項3に係る発明は、特徴量
算出手段で複数の特徴量を算出するものである。これに
より、不特定種類の文書を読み取って文書区切り判定を
行う場合でも、単一の特徴量を用いる場合に比べて、よ
り精度の高い文書区切り判定を行うことができる。
The invention according to claim 3 of the present application calculates a plurality of feature amounts by the feature amount calculating means. As a result, even when a document of an unspecified type is read and the document segmentation is determined, the document segmentation determination with higher accuracy can be performed as compared with the case where a single feature amount is used.

【0013】また、本願請求項4に係るの発明は、文書
区切り判定手段が、特徴量算出手段において原稿画像か
ら算出した複数の特徴量から文書を区切るのに適した特
徴量を選択して、文書の区切りを判定するものである。
これにより、文書の種類によっては文書区切り判定時に
不必要となる特徴量を除外することで、文書区切り判定
処理自体を高速化するだけではなく、不必要な特徴量が
文書区切り判定に及ぼす悪影響を避けることができる。
In the invention according to claim 4 of the present application, the document segment determination means selects a feature value suitable for dividing a document from a plurality of feature values calculated from the document image by the feature value calculation device, This is to determine a document break.
This eliminates unnecessary features for document separation determination depending on the type of document, not only speeding up the document separation determination process itself, but also reduces the adverse effects of unnecessary features on document separation determination. Can be avoided.

【0014】また、本願請求項5に係る発明は、文書区
切り判定手段で選択した、文書を区切るのに適した特徴
量を、任意の文書種類名と対応させて登録する文書種類
登録手段をさらに有するものである。これにより、一度
文書区切り判定処理を実施した種類の文書であれば、後
に同種の文書を読み取る際に、登録した文書種類名を指
定するだけで常に文書区切り判定に最適な特徴量を選択
できるようになり、その都度特徴量を選択する方式に比
べ大幅に処理時間を省くことができる。また、原稿の一
部が汚れている揚合があるなど、原稿を読み込む際の外
的要因が変動したとても選択される特徴量は常に一定で
あることから、安定した文書区切り判定結果を得ること
ができる。
Further, the invention according to claim 5 of the present application further comprises a document type registration unit for registering a feature amount selected by the document break determination unit and suitable for separating a document in association with an arbitrary document type name. Have With this, if a document of the type that has undergone the document break determination process is used, when the same type of document is read later, it is possible to always select an optimal feature amount for the document break determination simply by specifying the registered document type name. Thus, the processing time can be greatly reduced as compared with the method of selecting the characteristic amount each time. In addition, external factors when reading the original, such as when the original is partially dirty, have changed. Can be.

【0015】また、本願請求項6に係る発明は、文書区
切り判定手段が、特徴量算出手段において各原稿画像か
ら算出した榎数の特徴量に対し、文書を区切るのにそれ
ぞれ適した重み付けを行った後で文書の区切りを判定す
ることを特徴としている。これにより、文書の種類が多
種多様な場合でも、各特徴量を絶妙に用いて統合的判定
を実施することができるため、より精度の高い文書区切
り判定を行うことができる。
[0015] In the invention according to claim 6 of the present application, the document segmentation judging means performs weighting suitable for segmenting the document, on the feature quantity of the number of characters calculated from each document image by the feature quantity calculating means. After that, the break of the document is determined. As a result, even when the types of documents are various, the integrated determination can be performed by using each characteristic amount exquisitely, so that a more accurate document segmentation determination can be performed.

【0016】また、本願請求項7に係る発明は、文書区
切り判定手段が設定した、文書を区切るのに最も適した
特徴量毎の重み付けを、任意の文書種類名と対応させて
登録する文書種類登録手段をさらに有するものである。
これにより、一度文書区切り判定処理を実施した種顛の
文書であれば、後に同種の文書を読み取る際に、登録し
た文書種類名を指定するだけで常に各特徴量に対して文
書区切り判定に最適な重み付けができるようになり、処
理時間短縮効果、および安定した文書区切り判定を得る
効果が期待できる。
The invention according to claim 7 of the present application provides a document type for registering a weight set for each feature amount most suitable for separating a document, set by a document separation determining unit, in association with an arbitrary document type name. It further has registration means.
As a result, if a document of the type that has been subjected to the document break determination process once, it will always be the best for the document break determination for each feature amount by simply specifying the registered document type name when reading the same type of document later. Weighting can be performed, and an effect of shortening the processing time and an effect of obtaining a stable document break determination can be expected.

【0017】また、本願請求項8に係る発明は、文書区
切り判定手段が判定した文書の区切り判定結果を表示
し、表示された判定結果に応じてユーザによる文書区切
り位置の修正を行う文書区切り修正手段をさらに有する
ものである。これにより、仮に文書区切り判定結果が所
望の結果と異なっていた場合でも、簡単に文書区切りを
修正することができる。
The invention according to claim 8 of the present application provides a document break correction in which a document break determination result determined by the document break determination means is displayed and a user corrects the document break position in accordance with the displayed determination result. Means. This makes it possible to easily correct the document break even if the result of the document break determination is different from the desired result.

【0018】また、本願請求項9に係る発明は、文書区
切り判定手段が判定した文書の区切り判定結果を表示
し、表示された判定結果に応じてユーザによる文書区切
り位置の修正を行う文書区切り修正手段をさらに有し、
この文書区切り修正手段において、ユーザが一部の文書
区切りに修正を加えた際に、当該修正された文書区切り
を算出するのに適した特徴量を選択し、当該選択された
特徴量に応じて、残りの文書区切りを再判定するもので
ある。これにより、仮に文書区切り判定結果の修正が必
要な場合でも、ユーザが文書区切りを1個所修正するだ
けで、その修正を反映させる場合に有効な特徴量を逆算
し、逆算された特徴量に基づいて他の修正が必要と判断
される文書区切りを自動的に修正させることができるた
め、ユーザに強いる負担を大幅に軽減することができ
る。
The invention according to a ninth aspect of the present invention provides a document break correction in which a result of a document break determined by the document break determining means is displayed, and a user corrects a document break position in accordance with the displayed determination result. Further comprising means,
In this document break correction means, when the user makes a correction to some of the document breaks, the user selects a feature amount suitable for calculating the corrected document break, and according to the selected feature amount. , The remaining document breaks are determined again. As a result, even if the document break determination result needs to be corrected, the user only needs to correct the document break at one place, and when the correction is reflected, the effective feature amount is back calculated and based on the back calculated feature amount. Therefore, a document break determined to require another correction can be automatically corrected, so that the burden imposed on the user can be greatly reduced.

【0019】また、本願請求項10に係る発明は、文書
区切り判定手段が判定した文書の区切り判定結果を表示
し、表示された判定結果に応じてユーザによる文書区切
り位置の修正を行う文書区切り修正手段をさらに有し、
この文書区切り修正手段において、ユーザが一部の文書
区切りに修正を加えた際に、当該修正された文書区切り
を算出するのに適したそれぞれの特徴量に対する重み付
けの係数を算出し、当該算出された係数により重み付け
られた特徴量を用いて、残りの文書区切りを再判定する
ものである。これにより、仮に文書区切り判定結果の修
正が必要な湯合でも、ユーザが文書区切りを1個所修正
するだけで、その修正を反映させる場合に有効な各特徴
量への重み係数を逆算し、逆算された係数により重み付
けされた特徴量に基づいて他の修正が必要と判断される
文書区切りを自動的に修正させることができるため、ユ
ーザに強いる負担を大幅に軽減することができる。
The invention according to claim 10 of the present application provides a document segmentation correction which displays a document segmentation determination result determined by the document segmentation determination means and corrects a document segmentation position by a user according to the displayed determination result. Further comprising means,
In this document break correction means, when the user makes a correction to a part of the document break, a weighting coefficient for each feature amount suitable for calculating the corrected document break is calculated. The remaining document breaks are re-determined using the feature weighted by the calculated coefficients. As a result, even if it is necessary to correct the document break determination result, the user only needs to correct the document break at one place, and the weighting coefficient for each feature amount effective in reflecting the correction is calculated backward. Since the document break that is determined to require another correction can be automatically corrected based on the feature weighted by the weighted coefficient, the burden imposed on the user can be greatly reduced.

【0020】また、本願請求項11に係る発明は、文書
区切り修正手段が、1個所の文書区切りに対して複数の
文書区切り候補を提示するものである。これにより、仮
に文書区切りの修正が必要な場合でも、ユーザは修正候
補を選択するだけであるため、文書区切りの修正処理に
おけるユーザに強いる負担を大幅に軽減することができ
る。
In the invention according to claim 11 of the present application, the document break correction means presents a plurality of document break candidates for one document break. Thus, even if the document break needs to be corrected, the user only has to select a correction candidate, so that the burden imposed on the user in the document break correction process can be greatly reduced.

【0021】また、本願請求項12に係る発明は、読み
取る文書の種類を入力する文書種類入力手段をさらに有
し、特徴量算出手段が、この文書種類入力手段で入力さ
れた文書の種類に応じて特徴量を算出するものである。
これにより、あらかじめ読み取る文書の種類が明らかな
湯合には、文書種類名を指定するだけで常に当該種類の
文書区切り判定に必要な特徴量だけを算出できるように
なり、不必要な特徴量を算出する時間を省くことができ
る。
Further, the invention according to claim 12 of the present application further comprises a document type input means for inputting the type of the document to be read, wherein the characteristic amount calculating means is adapted to respond to the type of the document input by the document type input means. Is used to calculate the feature amount.
As a result, in the case where the type of the document to be read is clear in advance, it is possible to always calculate only the characteristic amount necessary for the document segmentation determination of the type by simply designating the document type name. The calculation time can be saved.

【0022】また、本願請求項13に係る発明は、読み
取る文書の種顛を入力する文書種類入力手段をさらに有
し、文書区切り判定手段が、この文書種類入力手段で入
力された文書の種類に応じて特徴量を選択するものであ
る。これにより、あらかじめ読み取る文書の種類が明ら
かな場合には、文書種類名を指定するだけで常に当該種
類の文書区切り判定に適した特徴量を選択できるように
なるだけでなく、特徴量の選択に要する時間を省くこと
ができる。さらに、原稿の一部が汚れている場合がある
など、原稿を読み込む際の外的要因が変動したとても選
択される特徴量は常に一定であることから、常に安定し
た文書区切り判定結果を得ることができる。
The invention according to claim 13 of the present application further comprises a document type input means for inputting the type of the document to be read, and the document delimiter judging means determines the type of the document input by the document type input means. A feature amount is selected in accordance with this. In this way, when the type of a document to be read is clear in advance, not only is it possible to always select a feature amount suitable for determining the type of document delimiter simply by specifying the document type name, but also to select a feature amount. The time required can be saved. In addition, the external factors when reading the original, such as when the original is partially dirty, have fluctuated. Can be.

【0023】また、本願請求項14に係る発明は、読み
取る文書の種顛を入力する文書種類入力手段をさらに有
し、文書区切り判定手段が、この文書種類入力手段で入
力された文書の種類に応じて特徴量毎の重み付けを変更
するものである。これにより、あらかじめ読み取る文書
の種類が明らかな湯合には、文書種類名を指定するだけ
で常に各特徴量に対して文書区切り判定に最適な重み付
けができるようになるだけでなく、各特徴量に対する重
み係数を計算する時間を省くことができる。
The invention according to claim 14 of the present application further comprises a document type input means for inputting the type of the document to be read, and the document delimiter judging means determines the type of the document input by the document type input means. The weighting for each feature amount is changed accordingly. In this way, when the type of the document to be read in advance is clear, not only is it possible not only to specify the document type name but always to optimally weight each feature amount for the document segmentation determination, Can be saved in calculating the weighting factor for.

【0024】また、本願請求項15に係る発明は、文書
区切り判定手段が、特徴量算出手段で算出した特徴量か
ら構成されるパターン空間において、各画像データから
算出した特徴量に対応するサンプルをクラスタリング
し、得られたクラスタの数に応じて文書区切り数を設定
するものである。これにより、各クラスタが1つの文書
を表しているような場合には、精度の高い文書区切り判
定が可能となる。
Further, according to the invention according to claim 15 of the present invention, the document segmentation judging means sets a sample corresponding to the feature amount calculated from each image data in the pattern space constituted by the feature amount calculated by the feature amount calculating means. Clustering is performed, and the number of document breaks is set according to the number of obtained clusters. Thus, in a case where each cluster represents one document, highly accurate document segmentation determination can be performed.

【0025】また、本願請求項16に係る発明は、文書
区切り判定手段が、特徴量算出手段で算出した特徴量か
ら構成されるパターン空間において、各画像データから
算出した特徴量に対応するサンプルをクラスタリング
し、任意のクラスタに属するサンプルに対応する画像デ
ータを文書区切りであると判断するものである。これに
より、文書の表紙画像のように、あるクラスタが文書区
切りとして利用することが可能な画像から棉成されてい
るような場合には、このクラスタを利用して文書区切り
判定が可能となる。
In the invention according to claim 16 of the present application, in the pattern space constituted by the feature amount calculated by the feature amount calculating means, the document segmentation judging means extracts a sample corresponding to the feature amount calculated from each image data. Clustering is performed, and image data corresponding to a sample belonging to an arbitrary cluster is determined to be a document delimiter. As a result, when a certain cluster is made of an image that can be used as a document break, such as a cover image of a document, the document break can be determined using this cluster.

【0026】また、本願請求項17に係る発明は、文書
区切り判定手段が、特徴量算出手段で算出した原稿の画
像データの特徴量の値を原稿画像読取手段で原稿を読み
取った順序に並べたとき、任意の原稿の画像データから
算出した特徴量の値と、その直前に読み取った原稿もし
くは直後に読み取った原稿の少なくともどちらか一方の
画像データから算出した特徴量の値とを比較して、その
差分が所定のしきい値よりも大きな場合に当該画像デー
タを文書区切りであると判断するものである。これによ
り、文書区切り判定に用いる特徴量が1種類である場合
にも、その特徴量が文書の区切りを判定するのに適した
ものであれば、簡単に文書の区切りを判定できる。
According to the seventeenth aspect of the present invention, the document break determination means arranges the characteristic values of the image data of the document calculated by the characteristic value calculation means in the order of reading the document by the document image reading means. When comparing the value of the feature value calculated from the image data of an arbitrary document with the value of the feature value calculated from the image data of at least one of the document read immediately before or the document read immediately after, If the difference is larger than a predetermined threshold, the image data is determined to be a document break. As a result, even when only one type of feature is used for the document break determination, the break of the document can be easily determined if the feature is suitable for determining the break of the document.

【0027】また、本願請求項18に係る発明は、特徴
量算出手段で算出される特徴量が原稿画像の空間周波数
情報であることを特徴としている。これにより、例えば
原稿のスクリーン線数を特徴量として利用することがで
きる。
Further, the invention according to claim 18 of the present application is characterized in that the characteristic amount calculated by the characteristic amount calculating means is spatial frequency information of the document image. Thereby, for example, the screen ruling of the document can be used as the feature amount.

【0028】また、本願請求項19に係る発明は、特徴
量算出手段で算出される特徴量が原稿画像の濃度情報で
あることを特徴としている。これにより、例えば原稿を
カラーで読み取った場合には、RGB各プレーン画像の
画素の濃度値を判定することで、原稿の配色を特徴量と
して利用することができる。
Further, the invention according to claim 19 of the present application is characterized in that the characteristic amount calculated by the characteristic amount calculating means is density information of a document image. Thus, for example, when the document is read in color, the color arrangement of the document can be used as the feature amount by determining the density value of the pixel of each of the RGB plane images.

【0029】また、本願請求項20に係る発明は、特徴
量算出手段で算出される特徴量が原稿のレイアウト情報
であることを特徴としている。これにより、例えば原稿
の画像データを解析して得られる文字や写真の配置情
報、文字の組み方向、1行/1列の文字数、文字のサイ
ズ/書体などを特徴量として利用することができる。
Further, the invention according to claim 20 of the present application is characterized in that the characteristic amount calculated by the characteristic amount calculating means is the layout information of the document. As a result, for example, the arrangement information of characters and photographs obtained by analyzing the image data of the document, the combination direction of characters, the number of characters in one line / column, the size / type of characters, and the like can be used as the feature amounts.

【0030】また、本願請求項21に係る発明は、複数
文書分の原稿を順次読み取る原稿画像読取手段と、原稿
画像読取手段で読み取って得た原稿画像の特徴量を算出
する特徴量算出手段と、特徴量算出手段で算出した原稿
画像の特徴量に基づいて、原稿画像読取手段で読み取っ
て得た原稿画像の文書区切りを判定する文書区切り判定
手段と、原稿画像読み取り手段で読み取って得た原稿画
像を、文書区切り判定手段で判定した文書区切りに応じ
てそれぞれの文書毎に区切り、各文書に対応した原稿画
像を個別の電子ファイルとして格納する文書格納手段と
を備えている。これにより、あらかじめ文書区切り用原
稿を各文書間に挿入したり、文書区切りとなる原稿に手
を加えたりすることなく文書の区切りが判定できるた
め、複数の文書を的確に区分けしてその区分けした文書
毎に電子ファイルとして格納できるようになる。
According to a twenty-first aspect of the present invention, there is provided a document image reading means for sequentially reading documents of a plurality of documents, a feature value calculating means for calculating a feature value of a document image read by the document image reading means. A document segment determining unit that determines a document segment of the document image read by the document image reading unit based on the feature amount of the document image calculated by the feature value calculating unit; and a document obtained by the document image reading unit. Document storage means for dividing an image into each document according to the document break determined by the document break determination means, and storing a document image corresponding to each document as an individual electronic file. This makes it possible to determine a document break without inserting a document break manuscript between each document in advance or modifying a document serving as a document break, so that a plurality of documents can be accurately classified and classified. Each document can be stored as an electronic file.

【0031】また、本願請求項22に係る発明は、複数
文書分の原稿を順次読み取る行程と、読み取って得た原
稿画像の特徴量を算出する行程と、算出した原稿画像の
特徴量に基づいて、原稿画像における複数文書の文書区
切りを判定する行程とを備えた画像取得方法である。こ
れにより、あらかじめ文書区切り用原稿を各文書間に挿
入したり、文書区切りとなる原稿に手を加えたりするこ
となく文書の区切りが判定できるため、ユーザに強いる
負担を大幅に軽減することができる。
Further, the invention according to claim 22 of the present application is based on the step of sequentially reading the originals of a plurality of documents, the step of calculating the characteristic amount of the original image obtained by reading, and the step of reading the calculated characteristic amount of the original image. And a step of determining a document break of a plurality of documents in a document image. This makes it possible to determine a document break without inserting a document break document between documents in advance or modifying a document serving as a document break, thereby greatly reducing the burden imposed on the user. .

【0032】また、本願請求項23に係る発明は、複数
文書の原稿読み取りを行うにあたり、その読み取る文書
の文書数を入力する行程と、複数文書分の原稿を順次読
み取る行程と、読み取って得た原稿画像の特徴量を算出
する行程と、入力された文書数と算出された原稿画像の
特徴量とに基づいて、原稿画像における複数文書の文書
区切りを判定する行程とを備えた画像取得方法である。
これにより、前記請求項22に係る発明の利点に加え、
あらかじめ文書の数がわかることから、より精度の高い
文書区切り判定を行うことが可能となる。
Further, in the invention according to claim 23 of the present application, when reading a plurality of documents, a process of inputting the number of documents to be read and a process of sequentially reading documents of a plurality of documents are obtained by reading. An image acquisition method comprising: a step of calculating a feature amount of a document image; and a step of determining a document break of a plurality of documents in the document image based on the number of input documents and the calculated feature value of the document image. is there.
Thereby, in addition to the advantage of the invention according to claim 22,
Since the number of documents is known in advance, it is possible to perform more accurate document segmentation determination.

【0033】また、本願請求項24に係る発明は、複数
文書分の原稿を順次読み取る行程と、読み取って得た原
稿画像の特徴量を算出する行程と、算出された原稿画像
の特徴量に基づいて、原稿画像における複数文書の文書
区切りを判定する行程と、原稿画像を、判定した文書区
切りに応じてそれぞれの文書毎に区切り、各文書に対応
した原稿画像を個別の電子ファイルとして格納する行程
とを備える画像取得方法である。これにより、あらかじ
め文書区切り用原稿を各文書間に挿入したり、文書区切
りとなる原稿に手を加えたりすることなく文書の区切り
が判定できるため、複数の文書を的確に区分けしてその
区分けした文書毎に電子ファイルとして格納できるよう
になる。
Further, the invention according to claim 24 of the present application is a step of sequentially reading a document of a plurality of documents, a step of calculating a characteristic amount of the read original image, and a step of calculating the characteristic amount of the calculated original image. Determining the document breaks of a plurality of documents in a document image, and separating the document images into individual documents according to the determined document breaks, and storing the document images corresponding to the respective documents as individual electronic files. An image acquisition method comprising: This makes it possible to determine a document break without inserting a document break manuscript between each document in advance or modifying a document serving as a document break, so that a plurality of documents can be accurately classified and classified. Each document can be stored as an electronic file.

【0034】また、本願請求項25に係る発明は、複数
文書分の原稿を順次読み取る手順と、読み取って得た原
稿画像の特徴量を算出する手順と、算出した原稿画像の
特徴量に基づいて、原稿画像における複数文書の文書区
切りを判定する手順とをコンピュータに実行させる画像
取得処理プログラムを記録したコンピュータ読み取り可
能な記録媒体である。これらの手順の実行により、あら
かじめ文書区切り用原稿を各文書間に挿入したり、文書
区切りとなる原稿に手を加えたりすることなく文書の区
切りが判定できるため、ユーザに強いる負担を大幅に軽
減することができる。
According to a twenty-fifth aspect of the present invention, there is provided a procedure for sequentially reading manuscripts of a plurality of documents, a procedure for calculating the characteristic amount of the read manuscript image, and a method for calculating the characteristic amount of the manuscript image. And a computer-readable recording medium that records an image acquisition processing program for causing a computer to execute a procedure for determining document breaks of a plurality of documents in a document image. By executing these procedures, document breaks can be determined without inserting a document break document between documents in advance or modifying the document serving as a document break, greatly reducing the burden on the user. can do.

【0035】また、本願請求項26に係る発明は、複数
文書の原稿読み取りを行うにあたり、その読み取る文書
の文書数を入力する手順と、複数文書分の原稿を順次読
み取る手順と、読み取って得た原稿画像の特徴量を算出
する手順と、入力された文書数と算出された原稿画像の
特徴量とに基づいて、原稿画像における複数文書の文書
区切りを判定する手順とをコンピュータに実行させる画
像取得処理プログラムを記録したコンピュータ読み取り
可能な記録媒体である。これらの手順の実行により、前
記請求項25に係る発明の利点に加え、あらかじめ文書
の数がわかることから、より精度の高い文書区切り判定
を行うことが可能となる。
In the invention according to claim 26 of the present application, when reading a plurality of documents, a procedure for inputting the number of documents to be read, a procedure for sequentially reading the documents for a plurality of documents, and a procedure for reading the plurality of documents are provided. Image acquisition for causing a computer to execute a procedure for calculating a feature amount of a document image and a procedure for determining a document break of a plurality of documents in the document image based on the number of input documents and the calculated feature value of the document image It is a computer-readable recording medium on which a processing program is recorded. By executing these procedures, in addition to the advantage of the invention according to claim 25, since the number of documents is known in advance, it is possible to perform more accurate document segmentation determination.

【0036】また、本願請求項27に係る発明は、複数
文書分の原稿を順次読み取る手順と、読み取って得た原
稿画像の特徴量を算出する手順と、算出された原稿画像
の特徴量に基づいて、原稿画像における複数文書の文書
区切りを判定する手順と、原稿画像を、判定した文書区
切りに応じてそれぞれの文書毎に区切り、各文書に対応
した原稿画像を個別の電子ファイルとして格納する手順
とをコンピュータに実行させる画像取得処理プログラム
を記録したコンピュータ読み取り可能な記録媒体であ
る。これらの手順の実行により、あらかじめ文書区切り
用原稿を各文書間に挿入したり、文書区切りとなる原稿
に手を加えたりすることなく文書の区切りが判定できる
ため、複数の文書を的確に区分けしてその区分けした文
書毎に電子ファイルとして格納できるようになる。
The invention according to claim 27 of the present application provides a procedure for sequentially reading manuscripts of a plurality of documents, a procedure for calculating the characteristic amount of the read manuscript image, and a method for calculating the characteristic amount of the manuscript image. A procedure for determining document breaks of a plurality of documents in a document image, a procedure for separating the document images into respective documents according to the determined document breaks, and storing the document images corresponding to each document as individual electronic files And a computer-readable recording medium in which an image acquisition processing program for causing a computer to execute the above is recorded. By performing these procedures, document breaks can be determined without inserting a document break manuscript between each document in advance or modifying the manuscript serving as a document break, so that multiple documents can be accurately classified. The document can be stored as an electronic file for each of the classified documents.

【0037】[0037]

【発明の実施の形態】本発明の実施形態について、図面
を参照して詳細に説明する。図1は、本発明の一実施形
態に係る画像取得装置を説明する概略構成図である。す
なわち、本実施形態の画像取得装置は、画像入力部1
0、画像格納部20、特徴量算出部30、文書区切り判
定部40、文書格納部50、文書区切り修正部60、入
力部70、表示部80、本装置全体の動作を制御する制
御部90、および各部を結ぶバス100を備えている。
Embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a schematic configuration diagram illustrating an image acquisition device according to an embodiment of the present invention. That is, the image acquisition device according to the present embodiment includes the image input unit 1
0, an image storage unit 20, a feature amount calculation unit 30, a document break determination unit 40, a document storage unit 50, a document break correction unit 60, an input unit 70, a display unit 80, a control unit 90 for controlling the operation of the entire apparatus, And a bus 100 connecting the components.

【0038】画像入力部10は、自動給紙機能を持つイ
メージスキャナを備え、複数の文書の原稿を読み取り、
画像データ(原稿画像)として入力する。本装置のイメ
ージスキャナは、原稿の両面およびカラー原稿の読み取
りが可能であるものとする。なお、イメージスキャナは
本装置専用に接続されたものでもよいし、ネットワーク
スキャナとして稼動しているものを1ユーザとして利用
してもよい。
The image input unit 10 includes an image scanner having an automatic paper feed function, reads a plurality of document originals,
Input as image data (original image). The image scanner of this apparatus is capable of reading both sides of a document and a color document. It should be noted that the image scanner may be connected exclusively to this apparatus, or an image scanner operating as a network scanner may be used as one user.

【0039】画像格納部20は、画像入力部10で入力
した原稿の画像データを順次格納する。画像データを専
用に格納する画像メモリであってもよいし、様々な演算
処理を行うために利用されるRAMやハードディスク、
リムーバルディスクなど汎用の記録媒体であってもよ
い。
The image storage section 20 sequentially stores the image data of the document input by the image input section 10. An image memory for storing image data exclusively, a RAM or a hard disk used for performing various arithmetic processing,
A general-purpose recording medium such as a removable disk may be used.

【0040】特徴量算出部30は、画像入力部10で入
力中の画像データ、またはあらかじめ画像格納部20に
格納している画像データから、文書区切り判定に必要な
特徴量を算出する。
The feature amount calculation unit 30 calculates a feature amount necessary for document segmentation determination from image data being input by the image input unit 10 or image data stored in the image storage unit 20 in advance.

【0041】文書区切り判定部40は、特徴量算出部3
0で画像データから算出した特徴量に基づき、文書区切
りとなる画像データを判定する。
The document break determination unit 40 includes the feature amount calculation unit 3
At 0, image data serving as a document break is determined based on the feature amount calculated from the image data.

【0042】文書格納部50は、画像格納部20に格納
している画像データを、文書区切り判定部40による文
書区切り判定に従って文書単位で電子データとして格納
する。なお、文書格納部50は、画像格納部20と同様
に、画像データを専用に格納する画像メモリであっても
よいし、様々な演算処理を行うために利用されるRAM
やハードディスク、リムーバルディスクなど汎用の記録
媒体であってもよい。また、画像データ自体を格納する
ことなく、画像格納部20に格納している画像データを
文書単位で扱えるようにするための情報だけを格納する
ようにしてもよい。
The document storage section 50 stores the image data stored in the image storage section 20 as electronic data in document units according to the document break determination by the document break determination section 40. The document storage unit 50 may be an image memory for storing image data exclusively, as in the case of the image storage unit 20, or a RAM used for performing various arithmetic processing.
It may be a general-purpose recording medium such as a hard disk, a removable disk, or the like. Alternatively, only the information for enabling the image data stored in the image storage unit 20 to be handled in document units without storing the image data itself may be stored.

【0043】文書区切り修正部60は、文書区切り判定
部40で判定した文書区切りがユーザの所望するもので
はなかった場合に、これを修正する。より具体的には、
まず文書区切り判定部40による文書区切り判定結果を
表示部80を通してユーザに表示し、ユーザに文書区切
りの修正が必要かどうかを尋ねる。ユーザは表示部80
で表示された文書区切り判定結果を参照し、文書区切り
修正部60に対して入力部70を通して適切な指示を与
える。
The document break correction unit 60 corrects the document break determined by the document break determination unit 40 when it is not the one desired by the user. More specifically,
First, the result of the document break determination by the document break determination unit 40 is displayed to the user through the display unit 80, and the user is asked whether correction of the document break is necessary. The user operates the display unit 80
With reference to the document segmentation determination result displayed in step (1), an appropriate instruction is given to the document segmentation modification unit 60 through the input unit 70.

【0044】入力部70は、本装置を利用するユーザに
よるキーボードやマウス等からの一連の指示操作を受け
付け、表示部80は、本装置を利用するユーザに対して
その都度必要な情報を表示する。すなわち、入力部70
と表示部80が本装置とユーザとの間のインタフエース
の核となる。
The input unit 70 receives a series of instruction operations from a keyboard, a mouse, and the like by the user of the apparatus, and the display unit 80 displays necessary information to the user of the apparatus each time. . That is, the input unit 70
And the display unit 80 are the core of the interface between the apparatus and the user.

【0045】制御部90は、本実施形態に係る装置全体
の制御を行う。
The control section 90 controls the entire apparatus according to the present embodiment.

【0046】つぎに、図1に示す画像取得装置全体の動
作(画像取得方法)を図2に示すフローチャートを用い
て説明する。
Next, the operation (image acquiring method) of the entire image acquiring apparatus shown in FIG. 1 will be described with reference to the flowchart shown in FIG.

【0047】まず、ステップS101においてユーザに
より読み取り文書数が指定されたかどうかを判定する。
ここで、ユーザにより読み取り文書数が指定された場合
にはその値を保持する(ステップS102)。
First, in step S101, it is determined whether the number of documents to be read has been designated by the user.
Here, when the number of read documents is designated by the user, the value is held (step S102).

【0048】保存した文書数は、後に文書区切り判定で
利用する。ユーザによる読み取り文書数の指定がない場
合には、後の文書区切り判定処理で、文書区切りを判定
すると同時に文書数を判定する(ステップS103)。
The stored number of documents will be used later for determining a document break. If the number of documents to be read is not specified by the user, the number of documents is determined at the same time as the document break is determined in the later document break determination processing (step S103).

【0049】つづいて、ステップS104においてユー
ザにより文書区切り判定処理時に利用する画像データの
特徴量について指示があったかどうかを判定する。ユー
ザによる指示があった場合、その旨を文書区切り判定処
理時の条件として設定する(ステップS105)。
Subsequently, in step S104, it is determined whether or not the user has instructed the feature amount of the image data to be used in the document break determination processing. If there is an instruction from the user, the fact is set as a condition for the document break determination process (step S105).

【0050】特徴量の指示方法として、例えば画像デー
タに利用されている色相、スクリーン線数といった定量
的に表現が可能なものや、原稿のレイアウトや文字の組
み方向などいわば定性的なものを選択、または重み付け
を行って利用するようにしてもよい。また、直接これら
の特徴量を指定するのではなく、頻繁に利用される文書
の種類をあらかじめ登録しておき、これら文書の種類に
応じて特徴量の利用方法を変えてもよい。
As a method of designating the characteristic amount, a method that can be quantitatively expressed, for example, a hue and a screen ruling used in image data, and a qualitative method such as a layout of a document and a combination direction of characters are selected. Alternatively, weighting may be used. Instead of directly specifying these feature amounts, the types of frequently used documents may be registered in advance, and the method of using the feature amounts may be changed according to the types of these documents.

【0051】図3は、文書区切り判定処理に利用する画
像データの特徴量に関する指示の一例として、ユーザに
対し表示部80を通して当該指示を促す例を示す図であ
る。図3(a)および(b)では、本装置で読み取り対
象とする文書が定型文書であれ非定型文書であれ、あら
かじめ特定できるような場合の利用を想定したものであ
り、文書の種類を指定することで間接的に特徴量の利用
方法を決定する。
FIG. 3 is a diagram showing an example of prompting the user through the display unit 80 as an example of an instruction relating to the feature amount of image data used in the document break determination processing. 3A and 3B, it is assumed that the document to be read by the apparatus is a standard document or an atypical document, and is used in a case where the document can be specified in advance. By doing so, the method of using the feature amount is indirectly determined.

【0052】図3(a)では表紙がほぼ定型であるよう
な種類の文書を選択し、図3(b)では非定型で製品カ
タログのような種類の文書を選択している例を示してい
る。これに対し、図3(c)では文書区切りの判定に利
用する特徴量として画像データの色相やレイアウト構造
といった項目を直接指定する例を示している。
FIG. 3A shows an example in which a type of document whose cover is almost fixed is selected, and FIG. 3B shows an example in which a non-standard type of document such as a product catalog is selected. I have. On the other hand, FIG. 3C shows an example in which items such as the hue and the layout structure of the image data are directly designated as the feature amounts used for determining the document break.

【0053】ステップS104でユーザによる文書区切
り判定処理に利用する特徴量の指示がなかった場合に
は、所定の特徴量を用いて統合的に文書区切りを判定す
ることとする(ステップS106)。
If there is no instruction from the user for the feature value used in the document break determination process in step S104, the document break is determined in an integrated manner using a predetermined feature value (step S106).

【0054】つぎに、ステップS107では、画像入力
部10が複数文書分の原稿を読み取り、画像データを生
成する。このとき、1枚の原稿につき両面を読み取った
湯合には2枚の画像データを生成し、片面だけを読み取
った場合には1枚の画像データを生成する。そして、生
成した画像データを原稿を読み取った順序に従い画像格
納部20に格納する。
Next, in step S107, the image input unit 10 reads a plurality of documents and generates image data. At this time, two pieces of image data are generated when both sides are read for one document, and one image data is generated when only one side is read. Then, the generated image data is stored in the image storage unit 20 in the order in which the originals are read.

【0055】なお、原稿を読み取る際に原稿の両面を読
み取るかもしくは片面だけを読み取るかは、ユーザがそ
の都度指定してもよいし、本装置による原稿読み取りの
際の既定値としてあらかじめどちらか一方を設定してお
いてもよい。
[0055] Incidentally, the read or only one or single-sided reading both sides of a document when reading the document, the user may specify each time, whereas previously either as a default value when the document reading by the device May be set.

【0056】つぎに、ステップS108では、ステップ
S107で入力したすべての画像データから特徴量を算
出する。特徴量算出部30は、画像格納部20に格納さ
れている画像を順次取得し、特徴量を算出する。この特
徴量を算出する処理に比較的長い時間を要するようであ
れば、表示部80に特徴量算出処理の詳細な途中経過を
表示するようにしてもよい。なお、各画像から算出する
特徴量は、ステップS105およびステップS106で
導かれたものである。
Next, in step S108, a feature amount is calculated from all the image data input in step S107. The feature amount calculation unit 30 sequentially acquires the images stored in the image storage unit 20 and calculates the feature amount. If it takes a relatively long time to calculate the feature amount, the display unit 80 may display the detailed progress of the feature amount calculation process. Note that the feature amounts calculated from each image are derived in steps S105 and S106.

【0057】つぎに、ステップS109では、ステップ
S108で算出した特徴量に基づき、ステップS107
で入力した複数の文書の区切りを算出する。このとき、
ステップS102で入力する文書数がユーザにより指定
されている湯合には、この文書数を文書区切りを判断す
るために利用する。
Next, in step S109, based on the characteristic amount calculated in step S108, step S107
Calculate the breaks of multiple documents input in. At this time,
If the number of documents input in step S102 is specified by the user, the number of documents is used to determine a document break.

【0058】なお、ステップ8108の特徴量算出処理
と同様、文書区切り判定処理に比較的長い時間を要する
ようであれば、表示部80に文書区切り判定処理の詳細
な途中経過を表示するようにしてもよい。
If a relatively long time is required for the document segmentation determination process, similar to the feature amount calculation process in step 8108, a detailed progress of the document segmentation determination process is displayed on the display unit 80. Is also good.

【0059】そして、算出した文書区切りは表示部80
を通してユーザに通知する。ステップS109の文書区
切り判定処理については詳細を後述する。
The calculated document break is displayed on the display unit 80.
Notify the user through. Details of the document break determination processing in step S109 will be described later.

【0060】ステップS110では、ユ←ザが表示部8
0に表示されたステップS109による文書の区切り判
定結果を所望のものかどうか判定し、その結果を入力部
70を通して本装置に伝える。
In step S110, the user ← the user
It is determined whether or not the result of the document segmentation determination in step S109 displayed as 0 is the desired one, and the result is transmitted to the apparatus through the input unit 70.

【0061】ステップS109による文書区切りの判定
結果が所望のものではなく修正が必要であると判断した
湯合、ステップS111で文書区切りの修正処理を実施
する。
If it is determined that the result of the determination of the document break in step S109 is not the desired one and needs to be corrected, the process of correcting the document break is performed in step S111.

【0062】ここでは、ユーザがすべての文書区切りを
手動で修正してもよいし、ユーザが最初の文書区切りに
修正を加えた場合、この修正された文書区切りを算出す
るのに最も適した特徴量や、各特徴量に対する重み付け
の係数を逆算して、この結果に基づいてユーザの手を煩
わせることなく残りの文書区切りを再判定させるように
してもよい。
Here, the user may manually correct all document breaks, or if the user makes corrections to the first document break, a feature most suitable for calculating the corrected document break. The amount and the weighting coefficient for each feature amount may be calculated backward, and the remaining document breaks may be re-determined based on the result without bothering the user.

【0063】そして、入力した文書原稿すべてについて
正しく文書区切りの判定が完了した時点で、原稿画像デ
ータを文書単位で格納する(ステップS112)。な
お、上述のとおり、画像データ自体を格納することな
く、画像格納部20に格納している画像データを文書単
位で扱えるようにするための情報だけを格納するように
してもよい。
When the determination of the document break is completed for all the input document documents, the document image data is stored in document units (step S112). As described above, without storing the image data itself, only the information for enabling the image data stored in the image storage unit 20 to be handled in document units may be stored.

【0064】また、所望の文書区切りがすべて得られた
時点で、それぞれの文書区切りを算出するのに利用した
一連の特徴量や、特徴量に対する重み付けの係数に対
し、ステップS105で再利用できるように任意の文書
種類名を付加して記録するなどしてもよい。
When all the desired document breaks have been obtained, a series of feature amounts used to calculate each document break and a coefficient for weighting the feature amounts can be reused in step S105. May be added with an arbitrary document type name and recorded.

【0065】つぎに、ステップS109で示す文書区切
り判定の動作の詳細について、図4のフローチャートを
用いて説明する。まず、ステップS201では、ステッ
プS101と同様にユーザにより読み取り文書数が指定
されたかどうかを判定する。
Next, the details of the operation for determining a document break shown in step S109 will be described with reference to the flowchart of FIG. First, in step S201, it is determined whether the number of documents to be read has been designated by the user as in step S101.

【0066】ここで、ユーザにより読み取り文書数が指
定された場合には、後にステップS108で算出した特
徴量から構成されるパターン空間において実施する、ク
ラスタリングにおける最大クラスタ数を当該読み取り文
書数に設定する(ステップS202)。
If the number of documents to be read is specified by the user, the maximum number of clusters in clustering, which will be performed later in the pattern space composed of the feature amounts calculated in step S108, is set to the number of read documents. (Step S202).

【0067】ステップS201でユーザにより読み取り
文書数が指定されていないと判断した場合には、続くス
テップ8203でステップS104と同様にユーザによ
り文書区切り判定処理時に利用する画像データの特徴量
について指示があったかどうかを判定する。
If it is determined in step S201 that the number of documents to be read has not been specified by the user, then in step 8203, as in step S104, the user has instructed the feature amount of the image data to be used in the document break determination processing. Determine whether

【0068】ステップS203で、ユーザにより文書区
切り判定処理時に利用する画像データの特徴量について
指示があった場合、その指示と実際に読み取った原稿の
数から前記最大クラスタ数を所定値に設定する(ステッ
プS204)。逆に、ユーザからは何も指示を与えられ
ていない場合には、前記最大クラスタ数を実際に読み取
った原稿数に設定する(ステップS205)。
In step S203, when the user instructs the feature amount of the image data to be used in the document break determination process, the maximum number of clusters is set to a predetermined value based on the instruction and the number of the originals actually read (step S203). Step S204). Conversely, if no instruction has been given from the user, the maximum cluster number is set to the number of documents actually read (step S205).

【0069】つぎに、ステップS105で各特徴量に対
して重み付けを行うような設定が選択された湯合、ステ
ップS206で算出した各特徴量に対して重み付けを実
施する。
Next, when the setting for weighting each feature is selected in step S105, weighting is performed on each feature calculated in step S206.

【0070】つぎに、ステップS207で各特徴量を軸
としたパターン空間において、各原稿の画像データから
算出した特徴量の値を持つサンプル群に対してクラスタ
リングを実施する。このとき、結果として得られるクラ
スタの最大数がステップS202、ステップS204、
またはステップS205で設定した最大値を超えないよ
うにする。
Next, in step S207, clustering is performed on a sample group having the value of the feature calculated from the image data of each document in the pattern space around each feature. At this time, the maximum number of clusters obtained as a result is determined in steps S202, S204,
Alternatively, it does not exceed the maximum value set in step S205.

【0071】ステップS208では、ステップS207
で実施したクラスタリングの結果が良好かどうか判定す
る。
In step S208, step S207
It is determined whether or not the result of the clustering performed in is good.

【0072】図5は、このクラスタリング結果の良否判
定の様子をわかりやすく説明するために、2つの特徴量
(X1、X2)を軸とするパターン空間におけるサンプル
の分布例を示す図である。
FIG. 5 is a diagram showing an example of sample distribution in a pattern space having two feature amounts (X 1 , X 2 ) as axes, in order to easily explain the quality judgment of the clustering result. .

【0073】図5(a)は、良好にクラスタリングがで
きる例であり、例ではクラスタリングによりω1および
ω2という2つのクラスタが得られる様子を示してい
る。これに対し、図5(b)ではX1、X2という特徴量
からなるパターン空間では、同図中のサンプルに対し適
当なクラスタリングが困難である例を示している。
FIG. 5A shows an example in which good clustering can be performed. In this example, two clusters ω 1 and ω 2 are obtained by clustering. On the other hand, FIG. 5B shows an example in which it is difficult to perform appropriate clustering for the samples in FIG. 5 in the pattern space including the feature amounts of X 1 and X 2 .

【0074】つぎに、ステップS208でクラスタリン
グが良好であると判定した場合、ステップS209では
得られたクラスタの中で、文書の区切りとなり得る画像
データのサンプルから構成されるクラスタが存在するか
どうかを判定する。
Next, if it is determined in step S208 that the clustering is good, it is determined in step S209 whether or not any of the obtained clusters includes a cluster composed of image data samples that can serve as document delimiters. judge.

【0075】例えば、図5(a)におけるクラスタω1
に属すサンプルがクラスタ内でほぼ原稿の読み取り順に
連続しており、クラスタω2に属すサンプルがクラスタ
内で原稿の読み取り順に不連続であるような場合、クラ
スタω2に属すサンプルは例えば複数の文書を読み取っ
た際の表紙原稿画像のように、数ページに一度出現する
文書の区切りに相当する原稿のものである可能性があ
る。
For example, the cluster ω 1 in FIG.
Almost original is continuously reading order, if the sample belonging to the cluster omega 2 is such that it is discontinuous in the reading order of the document in the cluster, the sample, for example a plurality of documents belonging to the cluster omega 2 samples in the cluster belonging to There is a possibility that the document corresponds to a document break that appears once on several pages, such as a cover document image when the document is read.

【0076】ここでは、クラスタω2に属すサンプルが
このような文書区切りを表すものであると判定する(ス
テップS210)。これにより、同図の例では3つの文
書が存在することになる。
Here, it is determined that the sample belonging to the cluster ω 2 represents such a document break (step S210). Thus, there are three documents in the example of FIG.

【0077】これに対し、図5(a)におけるクラスタ
ω1およびω2に属すサンプルがそれぞれのクラスタ内で
原稿の読み取り順に連続しているような場合、どちらか
のクラスタが文書区切りを表すものであるという判断は
できない。このような場合、ω1およびω2という2つの
クラスタ自体がそれぞれ文書を表していると考えるほう
が妥当である。
On the other hand, when the samples belonging to the clusters ω 1 and ω 2 in FIG. 5A are continuous in the reading order of the original in each cluster, one of the clusters indicates a document break. Cannot be determined. In such a case, it is more appropriate to consider that the two clusters ω 1 and ω 2 each represent a document.

【0078】また、得られたクラスタの数がステップS
102で設定された文書数と一致する場合も、上記と同
様にそれぞれのクラスタ自体が個別の文書を表している
と考えるほうが妥当な場合がある。
The number of obtained clusters is determined in step S
Even when the number of documents coincides with the number set in step 102, it may be more appropriate to consider that each cluster itself represents an individual document as described above.

【0079】ここでは文書の区切りとなる原稿として、
各クラスタから読み取られた順序が最も先であるサンプ
ル、もしくは最も後であるサンプルに相当する画像デー
タを文書区切りであると設定する(ステップS21
1)。これにより、同図の例では2つの文書が存在する
ことになる。
Here, as a document serving as a document break,
Image data corresponding to the first sample or the last sample read from each cluster is set as a document break (step S21).
1). As a result, two documents exist in the example of FIG.

【0080】一方、図5(b)に示すように、ステップ
S208でクラスタリングが困難、またはクラスタリン
グの結果が良好ではないと判断した場合、各特徴量に対
する重み付けを変更して再クラスタリング処理が可能か
どうか判断する(ステップS212)。
On the other hand, as shown in FIG. 5B, if it is determined in step S208 that the clustering is difficult or the clustering result is not good, the re-clustering process can be performed by changing the weight for each feature amount. It is determined whether or not it is (step S212).

【0081】ここで、各特徴量に対する重み付けを変更
することで再クラスタリング処理が可能であると判断し
た場合には、ステップS206に戻って各特徴量に対す
る重み付けを変更した後、ステップS207以降の処理
を再実施する。この判断、および各特徴量に対する重み
付けの変更は入力部70を通してユーザが手動で実施し
てもよいし、あらかじめ設定しておいた手続きに沿って
自動化してもよい。
If it is determined that the re-clustering process can be performed by changing the weight for each feature, the process returns to step S206 to change the weight for each feature. Is performed again. This determination and the change of the weighting for each feature amount may be manually performed by the user through the input unit 70, or may be automated according to a preset procedure.

【0082】ステップS212において、各特徴量に対
する重み付けを変更して再クラスタリング処理を実施す
ることは困難であると判定した湯合、ステップS213
において1枚の原稿を1つの文書と設定するか、読み取
ったすべての原稿を1つの文書として設定する。これら
は、入力部70を通してその都度指示してもよいし、初
期値としてこのような状況になった場合にはどちらか一
方を設定しておいてもよい。
In step S212, it is determined that it is difficult to change the weight for each feature and perform the re-clustering process.
, One document is set as one document, or all read documents are set as one document. These may be designated each time through the input unit 70, or one of them may be set as an initial value when such a situation occurs.

【0083】なお、図5では、パターン空間におけるク
ラスタリングの例として、特徴量X 1およびX2を用いて
説明したが、ステップS105における特徴量の指定方
法によっては、より多くの特徴量を用いたり、逆に特徴
量が1種類となる場合がある。
In FIG. 5, the clock in the pattern space is
As an example of rastering, the feature quantity X 1And XTwoUsing
As described above, the method of specifying the feature amount in step S105
Depending on the method, more features may be used,
The amount may be one.

【0084】特徴量が1種類の場合はパターン空間にお
けるクラスタリング処理を行うことなく、図6に示すよ
うに当該特徴量とステップS107における原稿の読み
取り順序との関係から比較的簡単に文書区切りが判定で
きる。
When there is only one type of feature, the document break is determined relatively easily from the relationship between the feature and the reading order of the original in step S107, as shown in FIG. 6, without performing clustering processing in the pattern space. it can.

【0085】例えば、いま図6において特徴量X1が画
像データのレイアウト構造をある規則に従い数値化した
ものであると仮定する。このとき、図6(a)はサンプ
ルS1およびS7で表されるページを表紙またはそれに
準ずるページであり、それ以外のサンプルはほぼ同一の
レイアウト構造を持つページを表しているような2つの
文書が存在する例であるといえる。
For example, it is now assumed that the feature quantity X 1 in FIG. 6 is obtained by digitizing the layout structure of image data according to a certain rule. At this time, FIG. 6A shows the pages represented by the samples S1 and S7 as a cover or a page similar thereto, and the other samples are two documents each representing a page having substantially the same layout structure. This is an example that exists.

【0086】また、図6(b)はサンプルS1〜S8と
サンプルS9〜S7で表される2つの異なるレイアウト
横造を持つ文書が存在する例であるといえる。このよう
に、図6(a)および(b)では、どちらも特徴量X1
においてしきい値THを設定することで、文書の区切り
となる原稿を判定できるわけである。
FIG. 6B shows an example in which documents having two different layouts represented by samples S1 to S8 and samples S9 to S7 exist. As described above, in both FIGS. 6A and 6B, the feature amount X 1 is used.
By setting the threshold value TH in, the document serving as a document break can be determined.

【0087】なお、本発明では、上記動作を画像取得処
理プログラムとしてコンピュータで読み取り可能な記録
媒体(例えば、CD−ROM)に記録するようにしても
よい。
In the present invention, the above operation may be recorded on a computer-readable recording medium (for example, a CD-ROM) as an image acquisition processing program.

【0088】[0088]

【発明の効果】以上説明したように本発明によれば、自
動給紙機能を持つイメージスキャナにより不特定な複数
の文書を読み取るとき、文書区切り用原稿を用いること
なく複数の文書の画像データを文書単位で取得できるよ
うになる。これにより、大量の文書を竜子化する際に発
生するユーザの負担を大幅に軽減することができるよう
になる。また、文書の種類に応じて文書区切りを判定す
るための特徴量や特徴量に対する重みを変更するので、
あらかじめ文書区切りマーク等の所定の記号や文字列を
原稿に付加することなく様々な種類の文書に対応できる
ようになる。
As described above, according to the present invention, when a plurality of unspecified documents are read by an image scanner having an automatic sheet feeding function, the image data of the plurality of documents can be read without using a document separating document. It can be obtained for each document. As a result, it is possible to greatly reduce the burden on the user that occurs when converting a large number of documents into dragons. Also, since the feature amount for determining the document break and the weight for the feature amount are changed according to the type of the document,
Various types of documents can be handled without adding a predetermined symbol or character string such as a document delimiter mark to a document in advance.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本実施形態に係る画像処理装置を説明する概
略構成図である。
FIG. 1 is a schematic configuration diagram illustrating an image processing apparatus according to an embodiment.

【図2】 画像処理装置全体の動作を説明するフローチ
ャートである。
FIG. 2 is a flowchart illustrating an operation of the entire image processing apparatus.

【図3】 特徴量指示時の表示例を示す図である。FIG. 3 is a diagram showing a display example when a feature amount is instructed.

【図4】 文書区切り判定の動作を説明するフローチャ
ートである。
FIG. 4 is a flowchart illustrating an operation of document break determination.

【図5】 文書区切り判定を行う際の、複数の特徴量を
用いたクラスタリングを示す図である。
FIG. 5 is a diagram illustrating clustering using a plurality of feature amounts when performing document segmentation determination.

【図6】 文書区切り判定を行う際の、単一の特徴量を
用いたしきい値処理を説明する図である。
FIG. 6 is a diagram illustrating threshold processing using a single feature amount when performing document segmentation determination.

【符号の説明】[Explanation of symbols]

10…画像入力部、20…画像格納部、30…特徴量算
出部、40…文書区切り判定部、50…文書格納部、6
0…文書区切り修正部、70…入力部、80…表示部、
90…制御部、100…バス
DESCRIPTION OF SYMBOLS 10 ... Image input part, 20 ... Image storage part, 30 ... Feature amount calculation part, 40 ... Document separation determination part, 50 ... Document storage part, 6
0: Document break correction unit, 70: Input unit, 80: Display unit,
90: control unit, 100: bus

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/00 250 G06T 7/00 250 H04N 1/21 H04N 1/21 Fターム(参考) 5B009 SA00 5B050 BA10 BA16 EA04 EA09 FA02 FA13 GA08 5B075 ND07 NR12 PP02 PP03 PP04 PQ02 UU06 5C073 AA06 AB02 5L096 AA02 BA18 CA21 FA81 GA51 JA11 MA07 ──────────────────────────────────────────────────の Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06T 7/00 250 G06T 7/00 250 H04N 1/21 H04N 1/21 F-term (Reference) 5B009 SA00 5B050 BA10 BA16 EA04 EA09 FA02 FA13 GA08 5B075 ND07 NR12 PP02 PP03 PP04 PQ02 UU06 5C073 AA06 AB02 5L096 AA02 BA18 CA21 FA81 GA51 JA11 MA07

Claims (27)

【特許請求の範囲】[Claims] 【請求項1】 複数文書分の原稿を順次読み取る原稿画
像読取手段と、 前記原稿画像読取手段で読み取って得た原稿画像の特徴
量を算出する特徴量算出手段と、 前記特徴量算出手段により算出した原稿画像の特徴量に
基づいて、前記原稿画像読取手段で読み取って得た原稿
画像の文書区切りを判定する文書区切り判定手段とを備
えたことを特徴とする画像取得装置。
1. A document image reading means for sequentially reading documents of a plurality of documents; a feature value calculating means for calculating a feature value of a document image read by the document image reading means; An image acquisition device comprising: a document segment determining unit configured to determine a document segment of a document image read by the document image reading unit based on the feature amount of the document image.
【請求項2】 複数文書分の原稿を順次読み取る原稿画
像読取手段と、 前記原稿画像読取手段に読み取らせる文書数を入力する
文書数入力手段と、 前記原稿画像読取手段で読み取って得た原稿画像の特徴
量を算出する特徴量算出手段と、 前記文書数入力手段により入力された文書数と前記特徴
量算出手段により算出した原稿画像の特徴量とに基づい
て、前記原稿画像読取手段で読み取って得た原稿画像の
文書区切りを判定する文書区切り判定手段とを備えたこ
とを特徴とする画像取得装置。
2. A document image reading means for sequentially reading a plurality of documents, a document number input means for inputting the number of documents to be read by the document image reading means, and a document image obtained by reading the document image reading means. A feature amount calculating unit that calculates the feature amount of the document, and the document image reading unit reads the document number based on the number of documents input by the document number input unit and the feature amount of the document image calculated by the feature amount calculating unit. An image acquisition apparatus comprising: a document break determining unit that determines a document break of an obtained document image.
【請求項3】 前記特徴量算出手段は複数の特徴量を算
出することを特徴とする請求項1または請求項2記載の
画像取得装置。
3. The image acquisition apparatus according to claim 1, wherein said characteristic amount calculating means calculates a plurality of characteristic amounts.
【請求項4】 前記文書区切り判定手段は、前記特徴量
算出手段が原稿画像から算出した複数の特徴量から、文
書を区切るのに適した特徴量を選択して文書の区切りを
判定することを特徴とする請求項3に記載の画像取得装
置。
4. The method according to claim 1, wherein the document segment determining unit selects a feature amount suitable for dividing the document from a plurality of feature amounts calculated from the document image by the feature amount calculating unit to determine a document segment. The image acquisition device according to claim 3, wherein:
【請求項5】 前記文書区切り判定手段が選択した、文
書を区切るのに適した特徴量を、任意の文書種類名と対
応させて登録する文書種類登録手段を有することを特徴
とする請求項4記載の画像取得装置。
5. A document type registering means for registering a feature amount selected by the document segmentation determining means and suitable for separating a document in association with an arbitrary document type name. The image acquisition device according to the above.
【請求項6】 前記文書区切り判定手段は、前記特徴量
算出手段が各原稿画像から算出した複数の特徴量に対
し、文書を区切るのにそれぞれ適した重み付けを行った
後で文書の区切りを判定することを特徴とする請求項3
記載の画像取得装置。
6. The document delimiter determining means determines the document delimiter after weighting each of the plurality of feature values calculated from each document image by the feature value calculating means suitable for separating the document. 4. The method according to claim 3, wherein
The image acquisition device according to the above.
【請求項7】 前記文書区切り判定手段が設定した、文
書を区切るのに最も適した特徴量毎の重み付けを、任意
の文書種類名と対応させて登録する文書種類登録手段を
有することを特徴とする請求項6記載の画像取得装置。
7. A document type registering means for registering the weighting for each feature amount most suitable for separating a document set by the document segmentation determining means in association with an arbitrary document type name. The image acquisition device according to claim 6.
【請求項8】 前記文書区切り判定手段が判定した文書
の区切り判定結果を表示し、表示された判定結果に応じ
てユーザによる文書区切り位置の修正を行う文書区切り
修正手段を有することを特徴とする請求項1または請求
項2記載の画像取得装置。
8. A document delimiter for displaying a document delimiter determination result determined by the document delimiter determiner and correcting a document break position by a user according to the displayed determination result. The image acquisition device according to claim 1.
【請求項9】 前記文書区切り判定手段が判定した文書
の区切り判定結果を表示し、表示された判定結果に応じ
てユーザによる文書区切り位置の修正を行う文書区切り
修正手段を有し、 前記文書区切り修正手段は、ユーザが一部の文書区切り
に修正を加えた際に、当該修正された文書区切りを算出
するのに適した特徴量を選択し、当該選択された特徴量
に応じて、残りの文書区切りを再判定することを特徴と
する請求項3記載の画像取得装置。
9. A document delimiter that displays a result of document delimitation determined by the document delimiter and corrects a document break position by a user according to the displayed determination result. The correction means selects a feature amount suitable for calculating the corrected document break when the user corrects a part of the document break, and according to the selected feature amount, 4. The image acquisition apparatus according to claim 3, wherein a document break is determined again.
【請求項10】 前記文書区切り判定手段が判定した文
書の区切り判定結果を表示し、表示された判定結果に応
じてユーザによる文書区切り位置の修正を行う文書区切
り修正手段を有し、 前記文書区切り修正手段は、ユーザが一部の文書区切り
に修正を加えた際に、当該修正された文書区切りを算出
するのに適したそれぞれの特徴量に対する重み付けの係
数を算出し、当該算出された係数により重み付けられた
特徴量を用いて、残りの文書区切りを再判定することを
特徴とする請求項3記載の画像取得装置。
10. A document delimiter that displays a document delimiter determination result determined by the document delimiter determiner and corrects a document break position by a user according to the displayed determination result. The correction unit calculates a weighting coefficient for each feature amount suitable for calculating the corrected document break when the user makes a correction to a part of the document break, and calculates the weighted coefficient by the calculated coefficient. 4. The image acquisition apparatus according to claim 3, wherein the remaining document breaks are re-determined using the weighted feature amount.
【請求項11】 前記文書区切り修正手段は、1個所の
文書区切りに対して複数の文書区切り候補を提示するこ
とを特徴とする請求項8から請求項10のうちいずれか
1項に記載の画像取得装置。
11. The image according to claim 8, wherein the document break correction unit presents a plurality of document break candidates for one document break. Acquisition device.
【請求項12】 読み取る文書の種類を入力する文書種
類入力手段を有し、 前記特徴量算出手段は、前記文書種類入力手段により入
力された文書の種類に応じて特徴量を算出することを特
徴とする請求項1または請求項2記載の画像取得装置。
12. A document type input unit for inputting a type of a document to be read, wherein the characteristic amount calculating unit calculates a characteristic amount according to the type of the document input by the document type input unit. The image acquisition device according to claim 1 or 2, wherein
【請求項13】 読み取る文書の種類を入力する文書種
類入力手段を有し、 前記文書区切り判定手段は、前記文書種類入力手段によ
り入力された文書の種類に応じて特徴量を選択すること
を特徴とする請求項3記載の画像取得装置。
13. A document type input unit for inputting a type of a document to be read, wherein the document break determination unit selects a feature amount according to the type of the document input by the document type input unit. The image acquisition device according to claim 3, wherein
【請求項14】 読み取る文書の種類を入力する文書種
類入力手段を有し、 前記文書区切り判定手段は、前記文書種類入力手段によ
り入力された文書の種類に応じて特徴量毎の重み付けを
変更することを特徴とする請求項3記載の画像取得装
置。
14. A document type input unit for inputting a type of a document to be read, wherein the document break determination unit changes a weight for each feature amount according to the type of the document input by the document type input unit. The image acquisition device according to claim 3, wherein:
【請求項15】 前記文書区切り判定手段は、前記特徴
量算出手段で算出した特徴量から構成されるパターン空
間において、各画像データから算出した特徴量に対応す
るサンプルをクラスタリングし、得られたクラスタの数
に応じて文書区切り数を設定することを特徴とする請求
項1または請求項2記載の画像取得装置。
15. The document break determination unit clusters a sample corresponding to a feature amount calculated from each image data in a pattern space formed by the feature amount calculated by the feature amount calculation unit, and obtains a cluster. 3. The image acquisition apparatus according to claim 1, wherein the number of document breaks is set in accordance with the number of documents.
【請求項16】 前記文書区切り判定手段は、前記特徴
量算出手段で算出した特徴量から構成されるパターン空
間において、各画像データから算出した特徴量に対応す
るサンプルをクラスタリングし、任意のクラスタに属す
るサンプルに対応する画像データを文書区切りであると
判断することを特徴とする請求項1または請求項2記載
の画像取得装置。
16. The document break determination unit clusters a sample corresponding to a feature amount calculated from each image data in a pattern space configured by the feature amount calculated by the feature amount calculation unit, and forms a cluster into an arbitrary cluster. 3. The image acquisition apparatus according to claim 1, wherein the image data corresponding to the sample to which the image data belongs is determined to be a document delimiter.
【請求項17】 前記文書区切り判定手段は、前記特徴
量算出手段で算出した特徴量の値を前記原稿画像読取手
段で原稿を読み取った順序に並べたとき、任意の原稿の
画像データから算出した特徴量の値と、その直前に読み
取った原稿もしくは直後に読み取った原稿の少なくとも
どちらか一方の画像データから算出した特徴量の値とを
比較して、その差分が所定のしきい値よりも大きな場合
に、当該画像データを文書区切りであると判断すること
を特徴とする請求項1または請求項2記載の画像取得装
置。
17. The document separation determining unit calculates, when the values of the feature amounts calculated by the feature amount calculating unit are arranged in the order in which the document is read by the document image reading unit, from image data of an arbitrary document. The value of the feature value is compared with the value of the feature value calculated from the image data of at least one of the document read immediately before or the document read immediately after, and the difference is larger than a predetermined threshold value. 3. The image acquisition device according to claim 1, wherein in the case, the image data is determined to be a document delimiter.
【請求項18】 前記特徴量算出手段で算出される特徴
量は、原稿画像の空間周波数情報であることを特徴とす
る請求項1または請求項2記載の画像取得装置。
18. The image acquisition apparatus according to claim 1, wherein the feature amount calculated by the feature amount calculation unit is spatial frequency information of a document image.
【請求項19】 前記特徴量算出手段で算出される特徴
量は、原稿画像の濃度情報であることを特徴とする請求
項1または請求項2記載の画像取得装置。
19. The apparatus according to claim 1, wherein the characteristic amount calculated by the characteristic amount calculating unit is density information of a document image.
【請求項20】 前記特徴量算出手段で算出される特徴
量は、原稿のレイアウト情報であることを特徴とする請
求項1または請求項2記載の画像取得装置。
20. The apparatus according to claim 1, wherein the feature amount calculated by the feature amount calculation unit is layout information of a document.
【請求項21】 複数文書分の原稿を順次読み取る原稿
画像読取手段と、 前記原稿画像読取手段で読み取って得た原稿画像の特徴
量を算出する特徴量算出手段と、 前記特徴量算出手段で算出した原稿画像の特徴量に基づ
いて、前記原稿画像読取手段で読み取って得た原稿画像
の文書区切りを判定する文書区切り判定手段と、 前記原稿画像読み取り手段で読み取って得た原稿画像
を、前記文書区切り判定手段で判定した文書区切りに応
じてそれぞれの文書毎に区切り、各文書に対応した原稿
画像を個別の電子ファイルとして格納する文書格納手段
とを備えることを特徴とする画像取得装置。
21. A document image reading means for sequentially reading documents of a plurality of documents, a feature value calculating means for calculating a feature value of a document image read by the document image reading means, and a calculation by the feature value calculating means. Document delimiter determining means for determining a document break of a document image read by the document image reading means based on the feature amount of the read document image; and a document image obtained by reading the document image by the document image reading means. An image acquisition apparatus, comprising: a document storage unit that divides each document according to the document break determined by the break determination unit and stores a document image corresponding to each document as an individual electronic file.
【請求項22】 複数文書分の原稿を順次読み取る行程
と、 読み取って得た原稿画像の特徴量を算出する行程と、 算出した前記原稿画像の特徴量に基づいて、前記原稿画
像における複数文書の文書区切りを判定する行程とを備
えたことを特徴とする画像取得方法。
22. A process for sequentially reading the originals of a plurality of documents; a process for calculating the characteristic amount of the read original image; and a process for calculating the characteristic amount of the original image based on the calculated characteristic amount of the original image. Determining a document break.
【請求項23】 複数文書の原稿読み取りを行うにあた
り、その読み取る文書の文書数を入力する行程と、 前記複数文書分の原稿を順次読み取る行程と、 読み取って得た原稿画像の特徴量を算出する行程と、 入力された前記文書数と算出された前記原稿画像の特徴
量とに基づいて、前記原稿画像における複数文書の文書
区切りを判定する行程とを備えたことを特徴とする画像
取得方法。
23. In reading a plurality of documents, a process of inputting the number of documents to be read, a process of sequentially reading the documents of the plurality of documents, and calculating a characteristic amount of a document image obtained by reading. An image acquisition method, comprising: determining a document break of a plurality of documents in the document image based on the input number of documents and the calculated feature amount of the document image.
【請求項24】 複数文書分の原稿を順次読み取る行程
と、 読み取って得た原稿画像の特徴量を算出する行程と、 算出された前記原稿画像の特徴量に基づいて、前記原稿
画像における複数文書の文書区切りを判定する行程と、 前記原稿画像を、判定した前記文書区切りに応じてそれ
ぞれの文書毎に区切り、各文書に対応した原稿画像を個
別の電子ファイルとして格納する行程とを備えることを
特徴とする画像取得方法。
24. A process for sequentially reading documents of a plurality of documents, a process for calculating feature values of the read document images, a plurality of documents in the document images based on the calculated feature values of the document images. And a step of dividing the document image for each document according to the determined document break and storing the document image corresponding to each document as an individual electronic file. Characteristic image acquisition method.
【請求項25】 複数文書分の原稿を順次読み取る手順
と、 読み取って得た原稿画像の特徴量を算出する手順と、 算出した前記原稿画像の特徴量に基づいて、前記原稿画
像における複数文書の文書区切りを判定する手順とをコ
ンピュータに実行させる画像取得処理プログラムを記録
したコンピュータ読み取り可能な記録媒体。
25. A procedure for sequentially reading manuscripts for a plurality of documents, a procedure for calculating feature quantities of the read manuscript images, and A computer-readable recording medium in which an image acquisition processing program for causing a computer to execute a procedure for determining a document break is recorded.
【請求項26】 複数文書の原稿読み取りを行うにあた
り、その読み取る文書の文書数を入力する手順と、 前記複数文書分の原稿を順次読み取る手順と、 読み取って得た原稿画像の特徴量を算出する手順と、 入力された前記文書数と算出された前記原稿画像の特徴
量とに基づいて、前記原稿画像における複数文書の文書
区切りを判定する手順とをコンピュータに実行させる画
像取得処理プログラムを記録したコンピュータ読み取り
可能な記録媒体。
26. In reading a plurality of documents, a procedure for inputting the number of documents to be read, a procedure for sequentially reading the plurality of documents, and calculating a characteristic amount of the document image obtained by reading. An image acquisition processing program for causing a computer to execute a procedure and a procedure of determining a document break of a plurality of documents in the document image based on the input number of documents and the calculated feature amount of the document image. Computer readable recording medium.
【請求項27】 複数文書分の原稿を順次読み取る手順
と、 読み取って得た原稿画像の特徴量を算出する手順と、 算出された前記原稿画像の特徴量に基づいて、前記原稿
画像における複数文書の文書区切りを判定する手順と、 前記原稿画像を、判定した前記文書区切りに応じてそれ
ぞれの文書毎に区切り、各文書に対応した原稿画像を個
別の電子ファイルとして格納する手順とをコンピュータ
に実行させる画像取得処理プログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
27. A procedure for sequentially reading manuscripts of a plurality of documents, a procedure for calculating a feature amount of the manuscript image obtained by reading, a plurality of documents in the manuscript image based on the calculated feature amounts of the manuscript image. And executing a procedure of determining the document break of the document, and a procedure of separating the document image for each document according to the determined document break and storing the document image corresponding to each document as an individual electronic file. A computer-readable recording medium on which an image acquisition processing program to be recorded is recorded.
JP2000207925A 2000-07-10 2000-07-10 Image acquisition device Expired - Fee Related JP4023075B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000207925A JP4023075B2 (en) 2000-07-10 2000-07-10 Image acquisition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000207925A JP4023075B2 (en) 2000-07-10 2000-07-10 Image acquisition device

Publications (2)

Publication Number Publication Date
JP2002024258A true JP2002024258A (en) 2002-01-25
JP4023075B2 JP4023075B2 (en) 2007-12-19

Family

ID=18704608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000207925A Expired - Fee Related JP4023075B2 (en) 2000-07-10 2000-07-10 Image acquisition device

Country Status (1)

Country Link
JP (1) JP4023075B2 (en)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006011714A (en) * 2004-06-24 2006-01-12 Canon Inc Image processing apparatus and its control method and program
JP2008241905A (en) * 2007-03-26 2008-10-09 Kyocera Mita Corp Printing-condition switching device and image forming apparatus
JP2009163475A (en) * 2008-01-04 2009-07-23 Fuji Xerox Co Ltd Information processor, information processing system and information processing program
JP2010034734A (en) * 2008-07-28 2010-02-12 Kyocera Mita Corp Image processing apparatus
JP2010061551A (en) * 2008-09-05 2010-03-18 Canon Marketing Japan Inc System and method for electronic application document, and program
JP2010136006A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Apparatus and program for processing image
JP2010135962A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
JP2013235608A (en) * 2006-12-06 2013-11-21 Darnell Jones Marion Method performed on computer for managing fractional ownership of intellectual property
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US8885229B1 (en) 2013-05-03 2014-11-11 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9141926B2 (en) 2013-04-23 2015-09-22 Kofax, Inc. Smart mobile application development platform
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9396388B2 (en) 2009-02-10 2016-07-19 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
JP2017046278A (en) * 2015-08-28 2017-03-02 京セラドキュメントソリューションズ株式会社 Image processing apparatus
US9747269B2 (en) 2009-02-10 2017-08-29 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9910829B2 (en) 2003-12-19 2018-03-06 Kofax, Inc Automatic document separation
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11800032B2 (en) 2021-10-01 2023-10-24 Canon Kabushiki Kaisha Apparatus, information processing method, and storage medium

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910829B2 (en) 2003-12-19 2018-03-06 Kofax, Inc Automatic document separation
JP2006011714A (en) * 2004-06-24 2006-01-12 Canon Inc Image processing apparatus and its control method and program
JP4510535B2 (en) * 2004-06-24 2010-07-28 キヤノン株式会社 Image processing apparatus, control method therefor, and program
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
JP2013235608A (en) * 2006-12-06 2013-11-21 Darnell Jones Marion Method performed on computer for managing fractional ownership of intellectual property
JP2008241905A (en) * 2007-03-26 2008-10-09 Kyocera Mita Corp Printing-condition switching device and image forming apparatus
JP4492701B2 (en) * 2008-01-04 2010-06-30 富士ゼロックス株式会社 Information processing apparatus, information processing system, and information processing program
US8451461B2 (en) 2008-01-04 2013-05-28 Fuji Xerox Co., Ltd. Information processor, information processing system, and computer readable medium
JP2009163475A (en) * 2008-01-04 2009-07-23 Fuji Xerox Co Ltd Information processor, information processing system and information processing program
JP2010034734A (en) * 2008-07-28 2010-02-12 Kyocera Mita Corp Image processing apparatus
JP2010061551A (en) * 2008-09-05 2010-03-18 Canon Marketing Japan Inc System and method for electronic application document, and program
CN101753752A (en) * 2008-12-03 2010-06-23 富士施乐株式会社 Image processing apparatus and method for performing image processing
JP2010135962A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2010136006A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Apparatus and program for processing image
US8736912B2 (en) 2008-12-03 2014-05-27 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer readable medium
US8749854B2 (en) 2008-12-03 2014-06-10 Fuji Xerox Co., Ltd. Image processing apparatus, method for performing image processing and computer readable medium
CN101753752B (en) * 2008-12-03 2014-07-23 富士施乐株式会社 Image processing apparatus and method for performing image processing
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9747269B2 (en) 2009-02-10 2017-08-29 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9396388B2 (en) 2009-02-10 2016-07-19 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9158967B2 (en) 2012-01-12 2015-10-13 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8879120B2 (en) 2012-01-12 2014-11-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165187B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US10664919B2 (en) 2012-01-12 2020-05-26 Kofax, Inc. Systems and methods for mobile image capture and processing
US8971587B2 (en) 2012-01-12 2015-03-03 Kofax, Inc. Systems and methods for mobile image capture and processing
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US9342742B2 (en) 2012-01-12 2016-05-17 Kofax, Inc. Systems and methods for mobile image capture and processing
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9514357B2 (en) 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127441B2 (en) 2013-03-13 2018-11-13 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9754164B2 (en) 2013-03-13 2017-09-05 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9996741B2 (en) 2013-03-13 2018-06-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9141926B2 (en) 2013-04-23 2015-09-22 Kofax, Inc. Smart mobile application development platform
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
US9253349B2 (en) 2013-05-03 2016-02-02 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US9584729B2 (en) 2013-05-03 2017-02-28 Kofax, Inc. Systems and methods for improving video captured using mobile devices
US8885229B1 (en) 2013-05-03 2014-11-11 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9946954B2 (en) 2013-09-27 2018-04-17 Kofax, Inc. Determining distance between an object and a capture device based on captured image data
US9747504B2 (en) 2013-11-15 2017-08-29 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
JP2017046278A (en) * 2015-08-28 2017-03-02 京セラドキュメントソリューションズ株式会社 Image processing apparatus
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11800032B2 (en) 2021-10-01 2023-10-24 Canon Kabushiki Kaisha Apparatus, information processing method, and storage medium

Also Published As

Publication number Publication date
JP4023075B2 (en) 2007-12-19

Similar Documents

Publication Publication Date Title
JP2002024258A (en) Image acquisition device and method, and computer- readable recording medium recorded with image acquisition processing program
JP7013182B2 (en) Information processing equipment, information processing methods and programs
US7623259B2 (en) Image processing apparatus and image processing method to store image data for subsequent retrieval
US7272269B2 (en) Image processing apparatus and method therefor
US8203748B2 (en) Image processing apparatus, control method therefor, and program
JP5511450B2 (en) Image processing apparatus, image processing method, and program
JP2009122760A (en) Document processing apparatus, document processing method, and document processing program
JP2010074405A (en) Image processing apparatus and method
US20100011287A1 (en) Apparatus and method for editing document layout and storage medium
JP7102284B2 (en) File management device, file management method, and program
JP2009169675A (en) Document processing apparatus, document processing method and document processing program
US8611666B2 (en) Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
US20060023235A1 (en) Image processing apparatus, image forming apparatus, method for searching processed document, program for searching processed document, and recording medium
JP4811133B2 (en) Image forming apparatus and image processing apparatus
JP4386275B2 (en) Image processing apparatus, image processing method, image processing program, and computer-readable recording medium on which image processing program is recorded
JP4817882B2 (en) Image processing method and image processing apparatus
US20030237054A1 (en) Concept for automated scatter proofing of content elements used in personalized print jobs
JP6700705B2 (en) Distribution system, information processing method, and program
JP4241115B2 (en) Document filing device
JP5009864B2 (en) Candidate image display method, apparatus, and program
US8004712B2 (en) Image processing apparatus and method
JP2002027228A (en) Equipment and method of processing image, and recording medium
JP4569162B2 (en) Image processing method, image processing program, and image processing apparatus
JP2001016470A (en) Image processor
US10084939B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070911

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070924

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees