JP2005208978A - Document filing device and document filing method - Google Patents
Document filing device and document filing method Download PDFInfo
- Publication number
- JP2005208978A JP2005208978A JP2004015508A JP2004015508A JP2005208978A JP 2005208978 A JP2005208978 A JP 2005208978A JP 2004015508 A JP2004015508 A JP 2004015508A JP 2004015508 A JP2004015508 A JP 2004015508A JP 2005208978 A JP2005208978 A JP 2005208978A
- Authority
- JP
- Japan
- Prior art keywords
- document
- document data
- degree
- data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明は、文書ファイリング装置および文書ファイリング方法に関し、特に文書データを蓄積装置に蓄積し、この蓄積した文書データを再利用する文書ファイリング装置および文書ファイリング方法に関する。 The present invention relates to a document filing device and a document filing method, and more particularly to a document filing device and a document filing method for storing document data in a storage device and reusing the stored document data.
近年、1枚以上の紙原稿からなる文書を複数部に亘って効率的に電子化する場合、自動給紙機能を持つスキャナ装置を用いて当該原稿を連続的に読み取る処理が広く行われている。この際、読み取った原稿画像データ(文書データ)を文書毎に管理するためには、文書と文書との間の切れ目を何らかの手法を用いて検出する必要がある。 In recent years, when a document composed of one or more paper originals is efficiently digitized over a plurality of copies, a process of continuously reading the originals using a scanner device having an automatic paper feed function has been widely performed. . At this time, in order to manage the read document image data (document data) for each document, it is necessary to detect a break between the documents using some method.
文書と文書との間の切れ目を検出するために、従来は、複数の文書原稿を読み取る前に文書間にあらかじめ特定の文書区切り用原稿(例えば、白紙)を挿入しておき、スキャンシステム側でこの文書区切り用原稿を認識し、原稿の画像データを文書単位に登録するようにしていた(例えば、特許文献1参照)。また、あらかじめ文書区切りとなる原稿の裏面に文書区切り用マークを付加しておき、原稿の裏表両面をスキャナ装置で読み取ることによって当該文書区切り用マークを認識し、原稿の画像データを文書単位に登録するようにしていた(例えば、特許文献2参照)。 In order to detect a break between documents, conventionally, a specific document separator document (for example, a blank sheet) is inserted between documents before scanning a plurality of document documents, The document separation document is recognized, and the image data of the document is registered in units of documents (for example, see Patent Document 1). In addition, a document separator mark is added to the back side of the document to be used as a document separator in advance, and the document separator mark is recognized by reading both sides of the document with a scanner device, and the image data of the document is registered in document units. (For example, refer to Patent Document 2).
しかしながら、このように特定の文書区切り用原稿を挿入したり、原稿の裏面に文書区切り用マークを付加したりするのは人手による作業であるため、ユーザに強いる負担が大きいとともに非効率的であり、特に文書の数が多い場合、あるいは各々の文書のページ数が多い場合にはその作業自体が困難なものとなる。 However, inserting a specific document separation document or adding a document separation mark on the back of the document in this way is a manual operation, which places a heavy burden on the user and is inefficient. In particular, when the number of documents is large, or when the number of pages of each document is large, the operation itself becomes difficult.
そのため、自動給紙機能を持つスキャナ装置により複数の文書を一括して読み取り、読み取った原稿画像の特徴量を算出し、この算出した特徴量に基づいて文書単位の区切りを判定するようにしていた(例えば、特許文献3参照)。この方法によれば、あらかじめ文書区切り用原稿(例えば、白紙原稿)を各文書間に挿入したり、文書区切りとなる原稿に手を加えたりすることなく文書の区切りを自動的に判定できるため、ユーザに強いる負担を大幅に軽減することができる。 For this reason, a plurality of documents are collectively read by a scanner device having an automatic paper feed function, a feature amount of the read document image is calculated, and a document unit break is determined based on the calculated feature amount. (For example, refer to Patent Document 3). According to this method, it is possible to automatically determine a document break without inserting a document separator document (for example, a blank document) between each document in advance or modifying a document to be a document separator. The burden on the user can be greatly reduced.
しかしながら、特許文献3に係る従来技術では、物理特徴量を基準として区切り処理が行われ、その区切り結果は必ずしもユーザの意図を反映するものではないため、ユーザはどのような文書分離がなされたのか、自動区切りの処理結果を全て目視で確認する必要があり、また目視で確認した上で自動区切りの間違いを発見して手動で修正する必要があった。さらに、ユーザ自身が区切り位置を間違える可能性もある。 However, in the prior art according to Patent Document 3, separation processing is performed based on physical feature amounts, and the separation result does not necessarily reflect the user's intention, so what kind of document separation the user has made? Therefore, it is necessary to visually confirm all the processing results of the automatic separation, and it is necessary to manually correct by finding an automatic separation error after visual confirmation. Furthermore, there is a possibility that the user himself makes a mistake in the separation position.
本発明は、上記課題に鑑みてなされたものであって、その目的とするところは、全ての作業をユーザが自ら行う場合よりも作業が楽で、かつ自動区切りの処理結果を全て目視で確認する必要がない文書ファイリング装置および文書ファイリング方法を提供することにある。 The present invention has been made in view of the above problems, and its purpose is to make the work easier than when the user performs all the work by himself and confirm all the processing results of the automatic separation visually. An object of the present invention is to provide a document filing apparatus and a document filing method that do not need to be performed.
上記目的を達成するために、本発明では、入力される文書データの文書間の区切りらしさを評価し、この評価結果に基づいて文書の切れ目である可能性の高い箇所をユーザに提示する。そして、提示した箇所を文書の切れ目と確定する指示があったとき、前記入力される文書データを、前記区切りらしさの度合いと関連付けて蓄積する。 In order to achieve the above object, according to the present invention, the degree of delimitation between documents of input document data is evaluated, and a portion that is highly likely to be a break in the document is presented to the user based on the evaluation result. When there is an instruction to confirm the presented location as a document break, the input document data is stored in association with the degree of delimiter.
文書データを蓄積装置に蓄積し、この蓄積した文書データを再利用する文書ファイリング装置において、装置側はユーザに対して文書間の区切りらしさの度合いに基づいて、文書の切れ目である可能性の高い箇所を提示する。これをユーザは例えば目視で確認し、その提示箇所が文書の切れ目であると判断した場合にはその旨の指示を与えることで、装置側は提示箇所を文書の切れ目であると確定する。 In a document filing device that stores document data in a storage device and reuses the stored document data, the device side is likely to be a break between documents based on the degree of delimitation between documents for the user. Present the location. The user confirms this visually, for example, and when it is determined that the presentation location is a break in the document, by giving an instruction to that effect, the apparatus side determines that the presentation location is a break in the document.
本発明によれば、装置側が提示した箇所をユーザは文書の切れ目である否かを判断するだけで良いため、全ての作業をユーザが自ら行う場合よりも作業が楽で、かつユーザの意図も反映されるため、自動区切りの処理結果を全て目視で確認する必要がない。 According to the present invention, since the user only has to determine whether or not the location presented by the apparatus is a break in the document, the work is easier than the case where the user performs all the work himself and the user's intention is also Since it is reflected, it is not necessary to visually confirm all the processing results of automatic separation.
以下、本発明の実施の形態について図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の一実施形態に係る文書ファイリング装置の構成例を示すブロック図である。図1から明らかなように、本実施形態に係る文書ファイリング装置は、文書入力部11、特徴量抽出部12、区切り位置評価部13、文書蓄積部14、ユーザインターフェイス部15および文書出力部16を備え、これらの構成要素がバスライン17を介して相互に接続された構成となっている。
FIG. 1 is a block diagram illustrating a configuration example of a document filing apparatus according to an embodiment of the present invention. As is apparent from FIG. 1, the document filing apparatus according to this embodiment includes a
文書入力部11は、入力文書から文書データを取得して、これを本文書ファイリング装置に登録すべき文書データとして入力する。ここで、入力される文書データとしては、例えば、印刷物からスキャンされて取得された画像データ、デジタルカメラで撮影した画像データ、あるいはアプリケーションソフトウェアで作成したファイル等が挙げられる。これに対応して、文書入力部11としては、例えば、スキャナ装置とその制御手段、磁気ディスクやメモリカード等のリード/ライト装置とその制御手段、ネットワーク等を介してデータの授受を行うデータ転送装置、あるいはアプリケーションソフトウェアで作成したファイルをビットマップ画像にラスタライズする手段が用いられる。
The
特徴量抽出部12は、文書間の類似度を評価するために文書データから当該文書データ固有の特徴を示す量(以下、「特徴量」と記す)を取り出すものであり、例えば、画像特徴量抽出手段とフォーマット特徴量抽出手段とを備えている。画像特徴量抽出手段は、入力された文書データあるいは文書データをラスタライズして得られた画像データから、例えば、画像全体の色調、縦横比、輝度や色の分布状態、エッジの分布状態、平坦なエリアの分布状態など、その文書データの特徴量を抽出するものである。
The feature
本例に係る画像特徴量抽出手段は、一つの画像データにつき、Ij次元ベクトル(j=1,2,…,n、但し、1≦Ij、1≦n、nは整数)で表現されるn種類の特徴量を抽出するように構成されている。具体的には、例えば図2に示すように、文書データを輝度・色差系の色空間L* a* b* に変換した後、各々の色平面の文書データを縦x横y画素に縮小して得られた画素値を(x×y×3)次元ベクトルとして表現したものを特徴量として抽出する。フォーマット特徴量抽出手段の詳細については後述する。 The image feature quantity extraction means according to this example is represented by an Ij-dimensional vector (j = 1, 2,..., N, where 1 ≦ Ij, 1 ≦ n, n is an integer) for each image data. It is comprised so that the feature-value of a kind may be extracted. Specifically, for example, as shown in FIG. 2, after the document data is converted into a luminance / color-difference color space L * a * b * , the document data of each color plane is reduced to vertical x horizontal y pixels. A pixel value obtained as a feature value is extracted as an (x × y × 3) dimensional vector. Details of the format feature amount extraction means will be described later.
区切り位置評価部13は、特徴量抽出部12によって抽出され、文書データと関連付けられて文書蓄積部14に蓄積されている特徴量に基づいて、連続した文書データにおける「表紙度合い」、「裏表紙度合い」あるいは「文書の切れ目度合い」等の文書間の区切りらしさの度合いを示す指標値を求める。
The delimiter
ここでいう指標値とは、例えば、各文書データの特徴量がベクトル表現のもの(以下、この特徴量を「特徴ベクトル」と記す)であれば、連続した二つの文書データに関連付けられた特徴ベクトル間のユークリッド距離に基づいて評価される値である。具体的には、図3(A)に示すように、特徴ベクトル間のユークリッド距離が小さい場合を「表紙度合い」、「文書の切れ目度合い」が小さいとして評価し、図3(B)に示すように、特徴ベクトル間のユークリッド距離が離れている場合を「表紙度合い」、「文書の切れ目度合い」が大きいとして評価する。ただし、特徴ベクトル間の距離の定義についてはユークリッド距離に限られるものではない。 The index value here is, for example, a feature associated with two consecutive document data if the feature amount of each document data is a vector expression (hereinafter, this feature amount is referred to as a “feature vector”). It is a value evaluated based on the Euclidean distance between vectors. Specifically, as shown in FIG. 3A, the case where the Euclidean distance between the feature vectors is small is evaluated as “cover degree” and “document break degree” being small, and as shown in FIG. In addition, the case where the Euclidean distance between feature vectors is long is evaluated as “cover degree” and “document break degree” being large. However, the definition of the distance between feature vectors is not limited to the Euclidean distance.
また、指標値の「表紙度合い」は、文書の先頭ページ(表紙)であることの度合いを示し、「裏表紙度合い」は文書の最終ページ(裏表紙)であることの度合いを示す。一般的に、表紙には大きな文字による見出しがあったり、大きな空白部分があったり、右寄せ、左寄せ等の装飾が施されており、また裏表紙にはページの上部分のみに文字があったり、ページの下部分に大きな空白が存在したりするため、一定の大きさの文字が一定の量だけ存在する本文ページとは特徴量が大きくことなっている。 In addition, the “cover degree” of the index value indicates the degree of being the first page (cover) of the document, and the “back cover degree” indicates the degree of being the last page (back cover) of the document. In general, the front cover has large text headlines, large blank areas, right-aligned, left-aligned, etc., and the back cover has characters only on the top of the page, Since there is a large blank at the bottom of the page, the feature amount is different from that of a body page where a certain amount of characters of a certain size exist.
文書蓄積部14は、入力された文書データを特徴量抽出部12によって抽出されたn種類の特徴量、「表紙度合い」、「裏表紙度合い」あるいは「文書の切れ目度合い」等の文書間の区切りらしさの度合いを示す指標値および区切り位置と関連付けて記憶蓄積するものであり、ハードディスクドライブやDVD(Digital Versatile Disc)−RAM/±RW/±Rドライブ等の大容量記憶装置によって実現される。
The
ユーザインターフェイス部15は、連続して入力された文書データを所定の形式で表示するとともに、「表紙度合い」、「裏表紙度合い」あるいは「文書の切れ目度合い」などの指標値を所定の形式で表示するための表示手段と、文書単位の区切りをユーザが入力するための入力手段を備える。表示手段は、例えば、CRT(Cathode Ray Tube)とその制御手段からなり、入力手段は、例えば、CRT画面上に設置されたタッチパネルとその制御手段からなる。
The
文書出力部16は、出力が指示された文書データを所定の形式で出力するものであり、例えば、CRT(Cathode Ray Tube)とその制御手段、プリンタ装置とその制御手段、磁気ディスクやメモリカード等のリード/ライト装置とその制御手段、あるいはネットワーク等を介してデータの授受を行うデータ転送装置によって実現される。すなわち、文書出力部17からは、例えば、紙に印刷された文書、CRTに出力された画像データ、あるいはHTML(Hyper Text Markup Language)等により整形されたファイルが、出力結果として出力される。
The
ここで、先述した画像特徴量抽出手段と共に、特徴量抽出部12を構成するフォーマット特徴量抽出手段について説明する。このフォーマット特徴量抽出手段では、2つの文書画像に関して、画像そのものではなく、文字の高さ、字間、行間、縦書き・横書きなど、所謂文書フォーマットの特徴の類似性について比較する。このような比較方法は、ある2ページ分の文書画像が同一文書に属するのか、別々の異なる文書に属するのかを判定するのに有効である。
Here, the format feature quantity extraction means constituting the feature
何故なら、1つの文書ではその体裁を統一するのが一般であるから、上述したような文書フォーマットの特徴が等しいページ画像群は同一の文書に属すると考えることができるからである。反対に、異なる文書に属するページ画像間では、意図的に同一の文書フォーマットで作成された文書でない限り、上述したような文書フォーマットの特徴が等しくなることは極めて稀である。 This is because, since it is common for one document to have a uniform appearance, page image groups having the same document format characteristics as described above can be considered to belong to the same document. On the other hand, between the page images belonging to different documents, it is extremely rare that the features of the document format described above are equal unless the documents are intentionally created in the same document format.
スキャナ装置などにより入力された文書画像から、文字の高さ、字間、行間などの文書フォーマットの特徴を求める手法は周知である。一般的には、同一文書に属するページであっても、タイトル行、要約部、本文など、文書を構成する部位によってフォントの大きさや行間隔などは異なる。したがって、上述した文書フォーマットの特徴を抽出しても、文書を構成する部位によってその値は異なり、一貫しないのが普通である。フォーマット特徴の値が一貫しないと、2ページ分の文書画像が同一文書に属するのか、別々の異なる文書に属するのかを、文書フォーマットの特徴を比較することによって判定するのが困難になる。 A technique for obtaining document format features such as character height, character spacing, and line spacing from a document image input by a scanner device or the like is well known. In general, even for pages belonging to the same document, the font size, line spacing, and the like differ depending on the part constituting the document, such as the title line, summary section, and body. Therefore, even if the document format features described above are extracted, the values differ depending on the parts constituting the document and are generally not consistent. If the values of the format characteristics are not consistent, it is difficult to determine whether the document images for two pages belong to the same document or to different documents by comparing the characteristics of the document formats.
そこで、図4に示すように、ページ画像を複数の領域、例えばタイトル部、要約部、本文部に分割し、さらに本文部についても複数の領域に分割する。次に、分割した領域のそれぞれについて文字の高さ、字間、行間、縦書き・横書きなどの文書フォーマットの特徴量を求める。そして、それぞれの特徴量に関して、最も頻繁に出現する値を多数決原理に基づいて求め、これをそのページの特徴量とする。一般に、タイトル部や要約部がページ全体に占める面積は小さいので、最頻出の特徴量を用いるようにすることにより、タイトル部や要約部が特徴量に与える影響を排除することができるため、一貫した特徴量を得ることができる。 Therefore, as shown in FIG. 4, the page image is divided into a plurality of areas, for example, a title part, a summary part, and a text part, and the text part is also divided into a plurality of areas. Next, the feature amount of the document format such as character height, character spacing, line spacing, vertical writing / horizontal writing, etc. is obtained for each of the divided areas. For each feature quantity, the most frequently occurring value is obtained based on the majority rule, and this is used as the feature quantity of the page. In general, the title and summary sections occupy a small area, so using the most frequently used feature value eliminates the influence of the title and summary parts on the feature value. Can be obtained.
このようにすることにより、1つのページ画像から1つの文書フォーマットの特徴ベクトルを求めることができる。この文書フォーマットの特徴ベクトルVは、一例として、
V=(文字の高さ、字間、行間、{縦書き:0,横書き:1})
で表される。2つのページ画像A,Bを文書フォーマットの特徴に基づいて比較する場合は、上記のようにして求められたページ画像A,Bの特徴ベクトルをそれぞれVA,VBとし、2つの特徴ベクトルVA,VB間の距離Dを求める。
D=‖VA−VB‖
ただし、‖V‖はベクトルVのノルムを表す。上式において、距離Dが小さいほど2つのページ画像は類似していると判断する。
In this way, a feature vector of one document format can be obtained from one page image. As an example, the feature vector V of this document format is
V = (Character height, character spacing, line spacing, {vertical writing: 0, horizontal writing: 1})
It is represented by When comparing the two page images A and B based on the features of the document format, the feature vectors of the page images A and B obtained as described above are set as VA and VB, respectively, and the two feature vectors VA and VB are used. Find the distance D between them.
D = ‖VA-VB‖
However, ‖V‖ represents the norm of the vector V. In the above formula, it is determined that the two page images are more similar as the distance D is smaller.
次に、上記構成の本実施形態に係る文書ファイリング装置における文書データの文書間での分離処理の手順について、図5のフローチャートにしたがって説明する。 Next, a procedure for separating document data between documents in the document filing apparatus according to this embodiment having the above-described configuration will be described with reference to the flowchart of FIG.
ユーザは、例えば1ページ以上からなる紙原稿をADF(Automatic Document Feeder;自動給紙機構)にセットする。この際、紙原稿は単一の(1ページ以上からなる)文書、複数の(1ページ以上からなる)文書のいずれであっても良い。また、紙原稿をセットする際に、ユーザは文書の区切りを意識する必要はない。ADFにセットされた紙原稿は、ADFにより1ページずつスキャナ装置に送られる。このとき、スキャナ装置は、図1の文書入力部11として機能することになる。すなわち、文書入力部11からは、ADFにセットした紙原稿のページ数と同数の文書データが文書ファイリング装置に入力される。
For example, the user sets a paper document consisting of one or more pages in an ADF (Automatic Document Feeder). At this time, the paper document may be either a single document (consisting of one or more pages) or a plurality of documents (comprising one or more pages). Also, when setting a paper document, the user need not be aware of document separation. The paper document set in the ADF is sent to the scanner device page by page by the ADF. At this time, the scanner device functions as the
文書入力部11から文書データが入力されると(ステップS11)、入力された文書データが既に特徴量を抽出され、特徴量と関連付けられて文書蓄積部14に蓄積されている文書データであるか否かを判断する(ステップS12)。入力された文書データが未だ特徴量を抽出されていない文書データであれば、入力された文書データから特徴量を特徴量抽出部12によって抽出し(ステップS13)、しかる後ステップS14の処理に移行する。入力された文書データが既に特徴量を抽出された文書データであれば、直接ステップS14の処理に移行する。すなわち、入力された文書データが既に特徴量を抽出され、特徴量および属性情報と関連付けられて文書蓄積部14に蓄積されている文書データについては改めて特徴量を抽出する処理は行わない。
When document data is input from the document input unit 11 (step S11), whether the input document data has already been extracted with a feature amount and is stored in the
次に、特徴量抽出部12によって抽出された特徴量に基づいて、連続して入力された文書データあるいは蓄積されている連続した文書データにおける「表紙度合い」、「裏表紙度合い」あるいは「文書の切れ目度合い」などの指標値を区切り位置評価部13によって求め(ステップS14)、次いで求めた指標値に基づいて、連続して入力された文書データあるいは文書蓄積部14に蓄積されている連続した文書データを所定の形式でユーザインターフェイス部15の例えばCRT画面上に表示する(ステップS15)。
Next, based on the feature amount extracted by the feature
連続して入力された文書データあるいは文書蓄積部14に蓄積されている連続した文書データを表示する際には、例えば図6に示すように、文書データのサムネイル(縮小表示された画像)を、「表紙度合い」、「裏表紙度合い」が所定の基準値よりも大きい文書データについては大きいサムネイルで、「表紙度合い」、「裏表紙度合い」が所定の基準値以下の文書データについては小さいサムネイルで表示し、「文書の切れ目度合い」が所定の基準値よりも大きいところはサムネイル間の間隔Dを疎(大)に、「文書の切れ目度合い」が所定の基準値以下のところはサムネイル間の間隔dを密(小)にして表示する。また、「文書の切れ目度合い」が所定の基準値よりも極端に大きい個所については、前後のサムネイルをハイライト表示(図では、斜線で示す)する等、その旨を明示する。
When displaying continuously input document data or continuous document data stored in the
ユーザは、ユーザインターフェイス部15のCRT画面上に、連続して入力された文書データあるいは文書蓄積部14に蓄積されている連続した文書データが所定の形式で表示されたら、これを目視で確認する。このとき、ユーザの操作により、文書データのサムネイルの表示状態を変更可能になっている。例えば、連続して入力された文書データあるいは蓄積されている連続した文書データ間が所定のバネ定数で繋がっているようにシミュレートし、ユーザが任意の文書データのサムネイルを任意の方向にドラック操作することができる。
The user visually confirms when the continuously input document data or the continuous document data stored in the
したがって、ユーザインターフェイス部15のCRT画面上に、連続して入力された文書データあるいは文書蓄積部14に蓄積されている連続した文書データを所定の形式で表示した状態において、ユーザによって文書データのサムネイルの表示状態を変更する操作があったか否かを判断する(ステップS16)。もし、ユーザが任意の文書データのサムネイルを任意の方向にドラック操作した場合は、ドラック操作したサムネイルのみを移動するのではなく、所定のバネ定数にしたがって繋がれて並べられた文書データのサムネイルの動きをシミュレートし、並べられた文書データのサムネイルの位置や間隔がリアルタイムに変化するようにレイアウトの計算を行い(ステップS17)、しかる後ステップS15に戻る。
Therefore, in the state where the continuously input document data or the continuous document data stored in the
具体例を挙げて説明するならば、ユーザインターフェイス部15のCRT画面上において、図7(A)に示すように、ユーザが任意の文書データのサムネイル(図中、矢印で示す)をドラックし、任意の方向に移動させるドラック操作した場合には、ドラック操作したサムネイルのみを移動するのではなく、図7(B)に示すように、所定のバネ定数にしたがって繋がれて並べられた文書データのサムネイルの位置や間隔がリアルタイムに変化するように表示する。
To explain with a specific example, on the CRT screen of the
ユーザインターフェイス部15のCRT画面上に、連続して入力された文書データあるいは文書蓄積部14に蓄積されている連続した文書データをサムネイル表示した状態において、ユーザは、サムネイル表示について変更がなければ、そのサムネイル表示から判断して文書の切れ目の有無を判定する(ステップS18)。すなわち、文書の切れ目があった場合、ユーザはその個所が文書の切れ目であることを確定する操作を行う。これにより、入力された文書データと区切り位置とを関連付けて文書蓄積部14に蓄積する分離確定の処理が行われる(ステップS19)。
In the state in which the continuously input document data or the continuous document data stored in the
一方、図8(A)に示すように、「文書の切れ目度合い」が所定の基準値よりも大きいとしてハイライト表示する等、ユーザインターフェイス部15のCRT画面上に明示されているにもかかわらず、文書の切れ目でなかった場合には、ユーザはその個所が連続であると確定する操作を行う。これにより、図8(B)に示すように、連続して入力された文書データをそのまま文書蓄積部14に蓄積する連続確定の処理が行われる(ステップS20)。
On the other hand, as shown in FIG. 8 (A), although it is clearly displayed on the CRT screen of the
なお、文書データ間のバネ定数は一定の値でも良いし、各間隔毎に異なる値、例えば、「表紙度合い」、「裏表紙度合い」あるいは「文書の切れ目度合い」などの指標値に対応して異なった値を設定しても良い。 Note that the spring constant between the document data may be a constant value, or may correspond to an index value such as “cover cover degree”, “back cover degree”, or “document break degree”, which differs for each interval. Different values may be set.
また、文書データが配置された画面上に可視または不可視の仮想的な固定点を設け、その固定点と文書データとを所定のバネ定数で繋がっているように文書データのサムネイルの動きをシミュレートしても良いし、あるいは文書データ間あるいは文書データと文書データが配置された画面との間に所定の抵抗値を与えて文書データのサムネイルの動きをシミュレートしても良いし、さらには文書データに所定の質量を与えて文書データのサムネイルの動きをシミュレートしても良い。 In addition, a visible or invisible virtual fixed point is provided on the screen on which the document data is arranged, and the movement of the thumbnail of the document data is simulated so that the fixed point and the document data are connected with a predetermined spring constant. Alternatively, a predetermined resistance value may be given between the document data or between the document data and the screen on which the document data is arranged to simulate the movement of the thumbnail of the document data. A predetermined mass may be given to the data to simulate the movement of the thumbnail of the document data.
なお、上記実施形態では、入力される文書データから当該文書データ固有の特徴量を抽出し、この抽出した特徴量に基づいて区切りらしさを評価する場合を例に挙げて説明したが、この評価方法に限られるものではない。他の評価方法としては、一例として、OCR(Optical Character Reader;光学式文字読み取り装置)によって文書画像を取り込んで、文書の内容の類似度を評価してその類似度に基づいて区切りらしさを評価する方法が挙げられる。 In the above-described embodiment, a case has been described in which the characteristic amount unique to the document data is extracted from the input document data, and the degree of separation is evaluated based on the extracted characteristic amount. It is not limited to. As another evaluation method, for example, a document image is captured by an OCR (Optical Character Reader), the similarity of the contents of the document is evaluated, and the degree of separation is evaluated based on the similarity. A method is mentioned.
11…文書入力部、12…特徴量抽出部、13…区切り位置評価部、14…文書蓄積部、15…ユーザインターフェイス、16…文書出力部
DESCRIPTION OF
Claims (9)
前記文書入力手段により入力される文書データの文書間の区切りらしさを評価する評価手段と、
前記評価手段の評価結果に基づいて文書の切れ目である可能性の高い箇所を提示する提示手段と、
前記提示手段により提示した箇所を文書の切れ目と確定する指示があったとき、前記文書入力手段により入力される文書データを、前記評価手段によって評価された前記区切りらしさの度合いと関連付けて蓄積する蓄積手段と
を備えることを特徴とする文書ファイリング装置。 A document input means for inputting document data;
Evaluation means for evaluating the delimitation between documents of the document data input by the document input means;
Presenting means for presenting a portion that is likely to be a break in the document based on the evaluation result of the evaluation means;
Storage for storing the document data input by the document input unit in association with the degree of demarcation evaluated by the evaluation unit when there is an instruction to determine the location presented by the presentation unit as a break in the document And a document filing apparatus.
前記評価手段は、前記特徴量抽出手段により抽出される特徴量に基づいて前記区切りらしさを評価する
ことを特徴とする請求項1記載の文書ファイリング装置。 A feature amount extracting unit that extracts a feature amount specific to the document data from the document data input by the document input unit;
The document filing apparatus according to claim 1, wherein the evaluation unit evaluates the delimitation based on the feature amount extracted by the feature amount extraction unit.
ことを特徴とする請求項1記載の文書ファイリング装置。 The document filing apparatus according to claim 1, wherein the degree of separation is a cover degree, a back cover degree, or a document break degree.
ことを特徴とする請求項3記載の文書ファイリング装置。 The presenting means uses a large thumbnail for document data having a cover degree or back cover degree greater than a predetermined reference value, and is small for document data having the cover degree or back cover degree equal to or less than the predetermined reference value. The document filing apparatus according to claim 3, wherein the document filing apparatus is displayed as a thumbnail.
ことを特徴とする請求項4記載の文書ファイリング装置。 The presenting means narrows the interval between thumbnails when the degree of breaks in the document is larger than a predetermined reference value, and closes the interval between thumbnails when the degree of breaks in the document is less than the predetermined reference value. The document filing apparatus according to claim 4, wherein the document filing apparatus is displayed.
ことを特徴とする請求項1記載の文書ファイリング装置。 The evaluation means is characterized in that, when evaluating the degree of separation between documents of document data, a feature serving as a reference in performing the evaluation is extracted from data obtained by capturing at least a part of the document data as an image. The document filing apparatus according to claim 1.
前記第1ステップでの評価結果に基づいて文書の切れ目である可能性の高い箇所を提示する第2ステップと、
前記第2ステップで提示した箇所を文書の切れ目と確定する指示があったとき、前記入力される文書データを、前記第1ステップでの評価による前記区切りらしさの度合いと関連付けて蓄積する第3ステップと
を有することを特徴とする文書ファイリング方法。 A first step of evaluating the delimiter between documents of input document data;
A second step of presenting a portion that is likely to be a break in the document based on the evaluation result in the first step;
A third step of storing the input document data in association with the degree of delimitation by the evaluation in the first step when there is an instruction to determine the location presented in the second step as a document break; And a document filing method.
ことを特徴とする請求項7記載の文書ファイリング方法。 The said 1st step WHEREIN: The feature-value peculiar to the said document data is extracted from the said input document data, The degree of the said division | segmentation is evaluated based on this extracted feature-value. Document filing method.
ことを特徴とする請求項7記載の文書ファイリング方法。
In the first step, when evaluating the degree of separation between documents of document data, a feature serving as a reference in performing the evaluation is extracted from data obtained by capturing at least a part of the document data as an image. The document filing method according to claim 7.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015508A JP2005208978A (en) | 2004-01-23 | 2004-01-23 | Document filing device and document filing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004015508A JP2005208978A (en) | 2004-01-23 | 2004-01-23 | Document filing device and document filing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005208978A true JP2005208978A (en) | 2005-08-04 |
Family
ID=34900958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004015508A Withdrawn JP2005208978A (en) | 2004-01-23 | 2004-01-23 | Document filing device and document filing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005208978A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230108397A1 (en) * | 2021-10-01 | 2023-04-06 | Canon Kabushiki Kaisha | Apparatus, information processing method, and storage medium |
JP7476629B2 (en) | 2020-04-02 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | Document processing device and program |
-
2004
- 2004-01-23 JP JP2004015508A patent/JP2005208978A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7476629B2 (en) | 2020-04-02 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | Document processing device and program |
US20230108397A1 (en) * | 2021-10-01 | 2023-04-06 | Canon Kabushiki Kaisha | Apparatus, information processing method, and storage medium |
US11800032B2 (en) * | 2021-10-01 | 2023-10-24 | Canon Kabushiki Kaisha | Apparatus, information processing method, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7272269B2 (en) | Image processing apparatus and method therefor | |
US8331677B2 (en) | Combined image and text document | |
US7805022B2 (en) | Image processing apparatus, image processing method and computer program | |
CN107979709B (en) | Image processing apparatus, image processing system, control method, and computer readable medium | |
EP2549735A2 (en) | Method of editing static digital combined images comprising images of multiple objects | |
US7466873B2 (en) | Artifact removal and quality assurance system and method for scanned images | |
US8930814B2 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
US8952985B2 (en) | Digital comic editor, method and non-transitory computer-readable medium | |
JP2002063215A (en) | Method and system for displaying document, computer program and recording medium | |
KR102090973B1 (en) | Information processing apparatus, information processing method, and storage medium | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US8144988B2 (en) | Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program | |
US8605297B2 (en) | Method of scanning to a field that covers a delimited area of a document repeatedly | |
US20230206672A1 (en) | Image processing apparatus, control method of image processing apparatus, and storage medium | |
US9870632B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6322086B2 (en) | Display control device, display device, program, recording medium | |
CN101335811B (en) | Printing method, and printing apparatus | |
JP2005208978A (en) | Document filing device and document filing method | |
JP2005208977A (en) | Document filing device and method | |
JP4518212B2 (en) | Image processing apparatus and program | |
JP2009093628A (en) | Document data creating apparatus, document data creating method and document data creating program | |
US11380032B2 (en) | Image information processing apparatus, method and non-transitory computer readable medium storing program | |
CN108345577A (en) | Information processing equipment and method | |
JP3171626B2 (en) | Character recognition processing area / processing condition specification method | |
JP4329370B2 (en) | Image data classification apparatus and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061220 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090116 |