JP2001034763A - Document image processor, method for extracting its document title and method for attaching document tag information - Google Patents

Document image processor, method for extracting its document title and method for attaching document tag information

Info

Publication number
JP2001034763A
JP2001034763A JP2000053079A JP2000053079A JP2001034763A JP 2001034763 A JP2001034763 A JP 2001034763A JP 2000053079 A JP2000053079 A JP 2000053079A JP 2000053079 A JP2000053079 A JP 2000053079A JP 2001034763 A JP2001034763 A JP 2001034763A
Authority
JP
Japan
Prior art keywords
document
title
document image
tag information
character size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000053079A
Other languages
Japanese (ja)
Inventor
Hirosuke Monobe
裕亮 物部
Atsutsugu Hirose
篤嗣 広瀬
Akito Umebayashi
明人 梅林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2000053079A priority Critical patent/JP2001034763A/en
Publication of JP2001034763A publication Critical patent/JP2001034763A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a title area and a mark attached by a user from a document image and to utilize the title and the mark as document tag information. SOLUTION: First, a title area extracting means 104 extracts an area of an area average character size being larger than a prescribed extraction decision value as a title area. Thus, a plurality of title areas can be extracted from one document image. Next, a mark extracting means extracts a mark attached to an input image by a user, and a calculating means calculates the characteristic value of the mark. Then, a document tag information attaching means selects document tag information to be attached to the input image among standard tag information on the basis of the characteristic value and the attribute value of the standard tag information. Thus, it is possible to automatically attach the document tag information to the document image.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書画像を画像デ
ータとして記憶・管理する文書画像処理装置と文書画像
処理方法に関し、特に、上記文書画像からタイトル領域
やユーザが付したマークを抽出して文書タグ情報として
利用する上記装置と方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document image processing apparatus and a document image processing method for storing and managing document images as image data, and more particularly to extracting a title area and a mark given by a user from the document image. The present invention relates to the above-described apparatus and method used as document tag information.

【0002】[0002]

【従来の技術】データ記憶装置の容量が著しく増加して
きたことに伴って、スキャナ等から読み込んだ紙文書を
画像データである文書画像として記憶・管理する文書画
像処理装置が急速に普及してきている。
2. Description of the Related Art Along with a remarkable increase in the capacity of a data storage device, a document image processing device for storing and managing a paper document read from a scanner or the like as a document image as image data is rapidly spreading. .

【0003】このような文書画像処理装置では、データ
記憶装置に記憶された複数の文書画像の中から所望の文
書画像を検索できるようにするため各文書画像にタイト
ルやキーワード等の文書タグ情報となる文字列を対応付
けて登録するようにしている。
In such a document image processing apparatus, in order to search for a desired document image from a plurality of document images stored in a data storage device, each document image includes document tag information such as a title and a keyword. Are registered in association with each other.

【0004】この文書タグ情報を概念的に示したものが
図19である。この図に示すように、文書タグ情報、例
えば「極秘」191、「A社」192、「99年度」1
93、「新車」194は文書画像190に対してキーワ
ード的な役割を果たしている。このように各文書画像に
複数の文書タグ情報を付与しておくと、これら複数の文
書タグ情報から絞り込みを行うことにより、必要な文書
画像を素早く検索することができる。
FIG. 19 conceptually shows the document tag information. As shown in this figure, document tag information, for example, “Top Secret” 191, “Company A” 192, “FY 1999” 1
93, "new car" 194 plays a keyword role for the document image 190. When a plurality of document tag information is assigned to each document image in this way, a necessary document image can be quickly searched by narrowing down the plurality of document tag information.

【0005】従来このような文書タグ情報は、文書画像
を記憶する際にユーザが手入力していた。しかしなが
ら、上記の文書タグ情報の入力作業をユーザが行うこと
は、文書数が多くなると作業量が膨大になるため現実的
でない。そこで、近年では、文書画像に対して文字認識
を行い、この認識結果である文字列を文書タグ情報とす
ることによって、人手を介さずに文書タグ情報を付与で
きるようにした装置も出現している。
Conventionally, such document tag information has been manually input by a user when storing a document image. However, it is not realistic for the user to input the document tag information as the number of documents increases the amount of work. Therefore, in recent years, there has emerged an apparatus that performs character recognition on a document image and uses a character string as a result of the recognition as document tag information, so that the document tag information can be added without human intervention. I have.

【0006】例えば、特開平8−147313号公報で
はマークシート用紙を利用する手法が開示されている。
この手法では、先ず、ユーザが所定のフォーマットのマ
ークシート用紙に記載された、文書画像に付与したい文
書タグ情報のチェック欄に印を付ける。そして、このマ
ークシートを、紙文書より先に文書画像処理装置に読み
取らせることにより、予め登録されている文書タグ情報
の候補の中から付与すべき文書タグ情報を指定するので
ある。この手法によれば、キーボードやポインティング
デバイス等の入力装置を用いることなく、登録する文書
画像に対して文書タグ情報を自動的に付与することがで
きる。
For example, Japanese Patent Application Laid-Open No. 8-147313 discloses a method using mark sheet paper.
In this method, first, a user marks a check box of document tag information to be added to a document image, which is described on a mark sheet of a predetermined format. Then, by reading the mark sheet by the document image processing apparatus prior to the paper document, the document tag information to be added is designated from among the candidate document tag information registered in advance. According to this method, document tag information can be automatically added to a document image to be registered without using an input device such as a keyboard or a pointing device.

【0007】ところで、文書画像を効率良く検索するた
めには、適切な文書タグ情報を付与しておくことが重要
である。すなわち、ディスプレイに一覧表示された複数
の文書タグ情報の中から所望の文書画像に対応する文書
タグ情報を特定するのが一般的な検索形態であるが、こ
のような文書タグ情報を迅速に特定するためには、各文
書タグ情報が文書の内容を端的に表した内容でなければ
ならない。
In order to efficiently search for a document image, it is important to provide appropriate document tag information. That is, a general search mode is to specify document tag information corresponding to a desired document image from a plurality of document tag information listed on the display, but such document tag information is quickly specified. To do so, each document tag information must be a content that briefly represents the content of the document.

【0008】特開平8−202859号公報では、タイ
トル文字列が属する領域(以下「タイトル領域」とい
う。)を文書画像から抽出した後、このタイトル領域画
像に対して文字認識を行い、この認識結果であるタイト
ル文字列を文書タグ情報とする方法を提案している。タ
イトル文字列は文書の内容を端的に表した内容であるた
め、このようなタイトル領域抽出方法を採用した文書画
像処理装置によれば所望の文書画像に対応する文書タグ
情報を迅速に特定できる。
[0008] In Japanese Patent Application Laid-Open No. H8-202859, after an area to which a title character string belongs (hereinafter referred to as a "title area") is extracted from a document image, character recognition is performed on the title area image, and the recognition result is obtained. Are proposed as a method of using a title character string as document tag information. Since the title character string is a simple description of the content of the document, the document image processing apparatus employing such a title area extraction method can quickly specify document tag information corresponding to a desired document image.

【0009】[0009]

【発明が解決しようとする課題】上記特開平8−202
859号公報のタイトル領域抽出方法では、タイトル文
字が当該文書画像に属する全ての文字の中で最も大きい
サイズであるという観点から、文書画像を複数の領域
(隣接する文字矩形相互を統合した領域)に分割して各
領域内の平均文字サイズを算出し、この平均文字サイズ
が最も大きい領域をタイトル領域として抽出するように
している。従って、このようなタイトル領域抽出方法に
よって抽出されるタイトル領域の数は、1つの文書画像
につき当然1つとなる。
The above-mentioned Japanese Patent Application Laid-Open No. 8-202
In the title area extraction method disclosed in Japanese Patent No. 859, from the viewpoint that the title character has the largest size among all the characters belonging to the document image, the document image is divided into a plurality of areas (areas in which adjacent character rectangles are integrated). The average character size in each area is calculated, and the area having the largest average character size is extracted as a title area. Therefore, the number of title areas extracted by such a title area extraction method is naturally one for each document image.

【0010】しかしながら、近似した内容の複数の文書
が存在する場合、タイトルも近似した内容となるのが通
常であるため、上記従来のタイトル領域抽出方法には、
近似した内容の文書が多数存在する場合所望の文書画像
に対応する文書タグ情報を迅速に特定できないという問
題があった。
However, when there are a plurality of documents having similar contents, the title usually has similar contents.
When a large number of documents having similar contents exist, there is a problem that document tag information corresponding to a desired document image cannot be quickly specified.

【0011】上記問題を回避するため紙文書を作成する
段階で似た内容のタイトルを付けないようにしてもよい
が、このような準備作業をユーザに要求することは好ま
しくない。
[0011] To avoid the above-mentioned problem, it is possible not to give a title having similar contents at the stage of creating a paper document, but it is not preferable to request the user for such preparation work.

【0012】一方、マークシートを利用する上記特開平
8−147313号公報の手法では、画像管理装置をソ
フトウェア的に構築するときに、全ての文書タグ情報の
項目を記載したマークシート用紙の形式、読み取りの処
理等を定義する必要があるため、非常に手間がかかる。
また、後から新しい文書タグ情報の候補を追加登録する
場合には、文書タグ情報の項目が変化するため、上記の
マークシート用紙の形式、読み取りの処理等を作り直す
必要が生じる。
On the other hand, in the method disclosed in Japanese Patent Application Laid-Open No. Hei 8-147313 using a mark sheet, when the image management apparatus is constructed by software, the format and reading of the mark sheet paper in which all the items of the document tag information are described are described. Since it is necessary to define processing and the like, it is very troublesome.
When a new document tag information candidate is additionally registered later, since the items of the document tag information change, it is necessary to recreate the above-described mark sheet paper format, reading process, and the like.

【0013】更に、マークシート用紙を利用する場合に
は、常に同一の用紙を用いてチェック欄に印を付けるだ
けであるので、ユーザにとってはどの文書タグ情報を付
与したかが視覚的に分かりにくく、入力ミスを起こしや
すいという問題もあった。
Further, when using mark sheet paper, it is only necessary to always mark the check box using the same paper, so that it is difficult for the user to visually recognize which document tag information is added. There was also a problem that input errors were likely to occur.

【0014】本発明は上記のような事情に基づいて提案
されたものであって、1つの文書画像から複数のタイト
ル領域やユーザが付したマークを抽出して文書タグ情報
として利用できる文書画像処理装置、その文書タイトル
抽出方法及び文書タグ情報付与方法を提供することを目
的とするものである。
The present invention has been proposed based on the above-described circumstances, and is a document image processing apparatus capable of extracting a plurality of title areas and marks provided by a user from one document image and using the extracted mark areas as document tag information. It is an object of the present invention to provide an apparatus, a document title extracting method and a document tag information adding method.

【0015】[0015]

【課題を解決するための手段】本発明は上記目的を達成
するために以下のような手段を採用している。
The present invention employs the following means to achieve the above object.

【0016】第1に、図1に示すように、文書画像を複
数の領域に分割する領域分割手段103と、該領域分割
手段103によって分割された各領域について領域平均
文字サイズを算出した後、該領域平均文字サイズに基づ
いて全領域の中からタイトル領域を抽出するタイトル領
域抽出手段104とを備えた文書画像処理装置におい
て、次の手段を採用する。
First, as shown in FIG. 1, an area dividing means 103 for dividing a document image into a plurality of areas, and after calculating an area average character size for each area divided by the area dividing means 103, The following means is adopted in a document image processing apparatus provided with a title area extracting means 104 for extracting a title area from all areas based on the area average character size.

【0017】先ず、上記タイトル領域抽出手段104
が、全領域の文字の平均高さに相当する全平均文字サイ
ズを算出した後、該全平均文字サイズに抽出パラメータ
を乗算した抽出判定値と上記領域平均文字サイズとを比
較し、上記抽出判定値より大きい領域平均文字サイズの
領域をタイトル領域として抽出するようにしている。こ
のようにすれば、上記抽出判定値より大きい領域平均文
字サイズの領域であればタイトル領域として抽出される
ため、1つの文書画像から複数のタイトル領域を抽出で
きることになる。
First, the title area extracting means 104
Calculates a total average character size corresponding to the average height of characters in all regions, and then compares an extraction determination value obtained by multiplying the total average character size by an extraction parameter with the region average character size. An area having an average character size larger than the value is extracted as a title area. In this way, if the area has an average character size larger than the above-mentioned extraction determination value, it is extracted as a title area, so that a plurality of title areas can be extracted from one document image.

【0018】また、上記タイトル領域抽出手段104
が、複数段階の抽出パラメータを用いて複数段階の上記
抽出判定値を算出するようにしてもよい。このようにす
れば、複数段階の抽出判定値に基づいて抽出判定がなさ
れることになるため、タイトル領域だけでなくサブタイ
トル領域(タイトル文字より若干小さなサイズの文字か
らなるサブタイトル文字列が属する領域)をも抽出でき
る。
Further, the title area extracting means 104
However, the above-described extraction determination values in a plurality of stages may be calculated using the extraction parameters in a plurality of stages. With this configuration, the extraction determination is made based on the extraction determination values in a plurality of stages. Therefore, not only the title area but also the subtitle area (the area to which the subtitle character string composed of characters slightly smaller than the title character belongs) Can also be extracted.

【0019】更に、上記タイトル領域抽出手段104
が、領域平均文字サイズの最大値を全平均文字サイズで
除算した値に基づいて上記複数段階の抽出パラメータを
決定するようにしてもよい。抽出パラメータを固定値と
するのではなく領域平均文字サイズの最大値等に基づい
て算出した方が良好な抽出判定値が得られる。
Further, the title area extracting means 104
However, the plurality of stages of extraction parameters may be determined based on a value obtained by dividing the maximum value of the area average character size by the total average character size. A better extraction judgment value can be obtained by calculating the extraction parameter based on the maximum value of the average character size of the area, instead of using a fixed value.

【0020】上記全平均文字サイズ、領域平均文字サイ
ズを求めるについて、所定割合より大きい文字および所
定割合より小さい文字を除外したトリム平均を用いると
により精度を上げることができる。
In obtaining the total average character size and the area average character size, accuracy can be improved by using a trim average excluding characters larger than a predetermined ratio and characters smaller than a predetermined ratio.

【0021】また抽出された上記タイトル領域に含まれ
る文字の画像は、文字認識手段105により文字コード
列であるタイトル文字列に変換することができる。そし
て修正手段112によりこのタイトル文字列を修正する
ことにより、ユーザは文書画像のタイトルを適宜変更す
ることができる。
The extracted character image contained in the title area can be converted by the character recognition means 105 into a title character string which is a character code string. By modifying the title character string by the modifying means 112, the user can appropriately change the title of the document image.

【0022】第2に、図12に示すように、紙文書を読
み取って文書画像を生成、記憶する文書画像処理におい
て、先ず、標準タグ情報(文書タグ情報の候補)を、こ
の標準タグ情報の属性値とともに予め蓄積しておく標準
タグ情報蓄積手段1215を設ける。
Second, as shown in FIG. 12, in document image processing for reading a paper document to generate and store a document image, first, standard tag information (candidate of document tag information) is A standard tag information storage unit 1215 that stores the attribute value together with the attribute value is provided.

【0023】次に、ユーザが紙文書上に付した特定のマ
ークを抽出するマーク抽出手段1205を設ける。ここ
でマークとはスタンプ、シール、イラスト、一定の筆跡
による署名等、ユーザが紙文書を識別することを意図し
て付すマーク一般を指す。
Next, there is provided a mark extracting means 1205 for extracting a specific mark given by a user on a paper document. Here, the mark refers to a general mark, such as a stamp, a sticker, an illustration, or a signature with a certain handwriting, that the user intends to identify a paper document.

【0024】また、抽出された上記マークを構成する画
素の分布に基づいて、このマークの特徴を表す特徴値を
算出する算出手段120Aを設ける。
Further, a calculating means 120A is provided for calculating a characteristic value representing the characteristic of the mark based on the distribution of the pixels constituting the extracted mark.

【0025】そして、上記属性値と上記特徴値を比較し
て、最も類似度の高い標準タグ情報を選択し、上記文書
画像に対して付与する文書タグ情報付与手段1208を
設ける。
Then, a document tag information providing means 1208 for comparing the attribute value with the characteristic value, selecting standard tag information having the highest similarity, and providing the selected tag information to the document image is provided.

【0026】以上により、ユーザが書類の整理に際して
日常的に用いるマークを基に、文書画像に対して文書タ
グ情報を自動的に付与することが可能となり、オフィス
等における文書管理が簡便に行える。
As described above, the document tag information can be automatically added to the document image based on the mark that the user uses on a daily basis when organizing the document, and the document management in the office or the like can be easily performed.

【0027】[0027]

【発明の実施の形態】(実施の形態1)以下に本発明の
実施の形態を図面に従って詳細に説明する。実施の形態
1、2、3及び4では1つの紙文書から複数のタイトル
を抽出する文書画像処理装置に関して説明する。
(Embodiment 1) Embodiments of the present invention will be described below in detail with reference to the drawings. In the first, second, third and fourth embodiments, a document image processing apparatus that extracts a plurality of titles from one paper document will be described.

【0028】図1は、本発明を適用した文書画像処理装
置の概略機能ブロック図であり、以下、その構成を文書
画像登録手順とともに説明する。
FIG. 1 is a schematic functional block diagram of a document image processing apparatus to which the present invention is applied. The configuration will be described below together with a document image registration procedure.

【0029】まず、例えばスキャナ等の文書画像入力手
段101が紙文書を光電変換して多値画像データである
文書画像108aを得、該文書画像は画像処理手段11
1aで記憶に適した処理(例えば圧縮処理)がなされて
記憶手段108の文書画像エリアAaに登録される。も
ちろん画像処理手段111aを設けないで多値画像デー
タのまま文書画像エリアAaに登録しておいてもよい。
First, a document image input means 101 such as a scanner photoelectrically converts a paper document to obtain a document image 108a which is multi-valued image data.
At 1a, processing suitable for storage (for example, compression processing) is performed and registered in the document image area Aa of the storage unit 108. Of course, the multi-valued image data may be registered in the document image area Aa without providing the image processing unit 111a.

【0030】上記文書画像入力手段101よりの文書画
像は上記画像処理手段111aに入力されるとともに、
画像処理手段111bにも入力されここで2値画像デー
タに変換されて画像メモリ107に格納される。このよ
うに画像メモリ107に文書画像が格納された状態で、
文字矩形生成手段102は上記画像メモリ107に記憶
された文書画像を参照して、以下のラベリング処理を行
う。このラベリング処理とは、注目する黒画素(以下
「注目画素」という。)の上、右上、右、右下、下、左
下、左、左上の8方向に隣接する画素のうち黒画素につ
いて当該注目画素と同一のラベル値(識別情報)を与え
る処理である。すなわち、図7に示すようにW1・W2
・W3・W4・W6・W7・W8・W9の8画素が注目
画素W5に連結する場合、文字矩形生成手段2は、黒画
素であるW2・W3・W8に注目画素W5と同一のラベ
ル値を与える。このようなラベリング処理を行うことに
よって、文書画像内の黒画素連結成分(連続する黒画
素)毎に同一ラベル値を与えることができる。
The document image from the document image input means 101 is input to the image processing means 111a.
The data is also input to the image processing unit 111b, where it is converted into binary image data and stored in the image memory 107. With the document image stored in the image memory 107 in this manner,
The character rectangle generating means 102 performs the following labeling processing with reference to the document image stored in the image memory 107. This labeling processing means that the black pixel among the pixels adjacent to the black pixel of interest (hereinafter, referred to as “target pixel”) in eight directions adjacent to the upper, upper right, right, lower right, lower, lower left, lower left, and upper left directions. This is a process of giving the same label value (identification information) as that of the pixel. That is, as shown in FIG.
When the eight pixels W3, W4, W6, W7, W8, and W9 are connected to the target pixel W5, the character rectangle generation unit 2 assigns the same label value to the black pixels W2, W3, and W8 as the target pixel W5. give. By performing such labeling processing, the same label value can be given to each black pixel connected component (consecutive black pixels) in the document image.

【0031】次いで、文字矩形生成手段102は、上記
のように同一ラベル値を与えた黒画素連結成分を切り出
すことによって文字矩形を生成し、この文字矩形を領域
分割手段3に渡す。ここで、文字矩形とは黒画素連結成
分の外接矩形を意味する。尚、文字によっては1つの黒
画素連結成分で構成されていない場合もあり、このこと
を考慮して、上記ラベリング処理を行う前に文書画像中
の黒画素領域を膨張させる処理をしておくこともでき
る。すなわち、注目する黒画素に隣接する8個の画素を
黒画素に変換するという処理であり、この処理を適切な
回数(通常2、3回)だけ施すことにより、黒画素の領
域が拡大され1つの文字内で分離していた黒画素連結成
分を1つに結合することができる。このような処理を行
った上で、上記ラベリング処理を行うことにより、上記
文字矩形を正しく文字毎に生成することが可能となる。
Next, the character rectangle generating means 102 generates a character rectangle by cutting out the black pixel connected component having the same label value as described above, and passes this character rectangle to the area dividing means 3. Here, the character rectangle means a circumscribed rectangle of the black pixel connected component. Note that some characters may not be composed of one black pixel connected component. In consideration of this, a process of expanding a black pixel region in a document image should be performed before performing the labeling process. Can also. In other words, this is a process of converting eight pixels adjacent to the black pixel of interest into black pixels. By performing this process an appropriate number of times (usually two or three times), the area of the black pixels is enlarged to 1 Black pixel connected components separated in one character can be combined into one. By performing the labeling process after performing such a process, it is possible to correctly generate the character rectangle for each character.

【0032】上記文字矩形生成手段102の処理が終わ
ると領域分割手段103は、各文字矩形について近傍を
調べ、相互に隣接する文字矩形を統合することによって
文書画像の領域を分割する。例えば図8に示す文字矩形
C1〜C12を受けた領域分割手段103は、文字矩形
C1〜C4・C5〜C9・C10〜C12をそれぞれ統
合することによって文書画像を領域E1・E2・E3に
分割する。このような領域分割処理を行うことによっ
て、文書画像の領域を文字列毎に分割することができ
る。なお、文字矩形が相互に隣接している状態であるの
か、あるいは、行間であるのか等の区別は文字間、行間
に関する適当な閾値を用いて判定するようにしている。
When the processing of the character rectangle generating means 102 is completed, the area dividing means 103 examines the neighborhood of each character rectangle and divides the area of the document image by integrating the character rectangles adjacent to each other. For example, the region dividing means 103 receiving the character rectangles C1 to C12 shown in FIG. 8 divides the document image into regions E1, E2, and E3 by integrating the character rectangles C1 to C4, C5 to C9, and C10 to C12, respectively. . By performing such area division processing, the area of the document image can be divided for each character string. Whether the character rectangles are adjacent to each other or between lines is determined by using an appropriate threshold value between characters and lines.

【0033】以上の結果、文書画像内における全ての文
字サイズ(後述する)・分割された領域数・各領域内の
文字矩形の数などの情報が得られる。本発明では、分割
された各領域に対して1から始まる通し番号を付すとと
もに各領域に属する文字矩形に対しても1から始まる通
し番号を付すようにしており、以下、n番目の領域内の
文字矩形数をNumChar n 、n番目の領域内におけるm番
目の文字サイズをSizeCharn , m と表す。
As a result, information such as the total character size (to be described later) in the document image, the number of divided areas, and the number of character rectangles in each area can be obtained. In the present invention, a serial number starting from 1 is assigned to each divided area, and a serial number starting from 1 is assigned to a character rectangle belonging to each area. The number is represented by NumChar n and the m-th character size in the n-th area is represented by SizeChar n , m .

【0034】ところで図9に示すように、文字矩形の幅
W1〜W4および面積A1〜A4は同一ポイント数の文
字フォントを使用している場合であっても文字の種類に
依存して大きく変動するのに対して、文字矩形の高さH
1〜H4はこのような変動が小さい。従って本発明で
は、文字フォントのポイント数が比較的正確に反映され
る“文字矩形の高さ”を上記文字サイズとして採用する
ようにしている。
As shown in FIG. 9, the widths W1 to W4 and the areas A1 to A4 of the character rectangle vary greatly depending on the type of the character even when the character font having the same number of points is used. The height H of the character rectangle
Such fluctuations are small in 1 to H4. Therefore, in the present invention, "the height of the character rectangle" in which the point number of the character font is relatively accurately reflected is adopted as the character size.

【0035】ここで、タイトル領域抽出手段104は、
上記のように分割された全領域のうち所定の領域のみを
タイトル領域として抽出する。以下、このタイトル領域
抽出処理を図2に示すフローチャートに従って説明す
る。
Here, the title area extracting means 104
Only a predetermined area among all the areas divided as described above is extracted as a title area. Hereinafter, the title region extraction processing will be described with reference to the flowchart shown in FIG.

【0036】まず、タイトル領域抽出手段104は各領
域について領域平均文字サイズを算出する(図2、ステ
ップ1)。この領域平均文字サイズとは1領域に属する
全ての文字サイズの平均値であり、n番目の領域におけ
る領域平均文字サイズSizeReg n は、当該領域に属する
全ての文字サイズSizeCharn , m の加算値を当該領域内
の文字数NumChar n で除算した値となる。この関係を次
式に示す。
First, the title area extracting means 104 calculates an area average character size for each area (FIG. 2, step 1). This region average character size is the average value of all character sizes belonging to one region, and the region average character size SizeReg n in the n-th region is the sum of all character sizes SizeChar n and m belonging to the region. This is a value obtained by dividing by the number of characters in the area NumChar n . This relationship is shown in the following equation.

【0037】[0037]

【数1】 (Equation 1)

【0038】次いで、上記のように算出した各領域の領
域平均文字サイズSizeReg n と領域内の文字数NumChar
n とから、文書画像内の全平均文字サイズSizeAll を次
式によって算出する(図2、ステップ2)。
Next, the area average character size SizeReg n of each area calculated as described above and the number of characters in the area NumChar
From n , the total average character size SizeAll in the document image is calculated by the following formula (FIG. 2, step 2).

【0039】[0039]

【数2】 (Equation 2)

【0040】なお、領域平均文字サイズSizeReg n およ
び全平均文字サイズSizeAll の算出方法は上記した方法
に限定されるものではなく、例えば、後に説明するトリ
ム平均(最小値側および最大値側から所定割合例えば1
0%のデータを除外したうえで平均値を算出する方法)
を採用することもできる。
[0040] The area average character size SizeReg n and the method of calculating the total average character size SizeAll is not limited to the method described above, for example, a predetermined proportion of the trimmed mean (minimum value side and the maximum value side, which will be described later For example, 1
Method of calculating the average value after excluding 0% data)
Can also be adopted.

【0041】ここで、タイトル領域抽出手段104は、
以下に示す抽出判定式が成立するか否かに基づいてタイ
トル領域の抽出判定を行う。
Here, the title area extracting means 104
The extraction determination of the title area is performed based on whether or not the following extraction determination formula is satisfied.

【0042】[0042]

【数3】 (Equation 3)

【0043】すなわち、上記のように算出した全平均文
字サイズSizeAll に抽出パラメータαを乗算した値(抽
出判定値)と各領域の領域平均文字サイズSizeReg n
を比較し、この抽出判定式が成立する領域のみをタイト
ル領域として抽出する(図2、ステップ3→4→5)。
なお、抽出パラメータαは1.0 より大きな定数とし、1.
2 程度の値とするのが好ましい。
That is, the value (extraction judgment value) obtained by multiplying the total average character size SizeAll calculated as described above by the extraction parameter α is compared with the region average character size SizeReg n of each region, and this extraction judgment formula is established. Only the area to be extracted is extracted as a title area (FIG. 2, steps 3 → 4 → 5).
Note that the extraction parameter α is a constant larger than 1.0, and 1.
A value of about 2 is preferred.

【0044】以上の手順を繰り返し全ての領域について
抽出判定が行われると(図2、ステップ3で“N
O”)、タイトル領域抽出処理を終了し、ここで抽出さ
れた各タイトル領域画像108bは記憶手段108のタ
イトルエリアAbに登録される。
When the above procedure is repeated and extraction determination is performed for all the regions (FIG.
O "), the title area extraction processing is terminated, and each title area image 108b extracted here is registered in the title area Ab of the storage means 108.

【0045】次いで、文字認識手段105は、上記のよ
うに抽出されたタイトル領域画像を文書画像から切り出
し、このタイトル領域画像に対して文字認識を行うこと
によって文字コード列であるタイトル文字列を得る。こ
こで得られたタイトル文字列は修正手段112を介して
表示制御手段110に渡され、タイトル領域画像ととも
に図示しないディスプレイにリスト表示され、ユーザに
提示される(図10(I) 参照)。
Next, the character recognizing means 105 cuts out the title area image extracted as described above from the document image, and performs character recognition on the title area image to obtain a title character string as a character code string. . The title character string obtained here is passed to the display control means 110 via the correction means 112, displayed in a list on a display (not shown) together with the title area image, and presented to the user (see FIG. 10 (I)).

【0046】ユーザは表示された上記タイトル領域画像
及びタイトル文字列を確認し、このタイトル文字列を表
示された通りに登録したい場合は、指示入力手段109
により登録を指示する。するとこのタイトル文字列が上
記文字認識手段105から文書登録手段106に渡され
る。
The user checks the displayed title area image and the title character string, and if the user wants to register the title character string as displayed, the instruction input means 109
Indicates registration. Then, the title character string is passed from the character recognition means 105 to the document registration means 106.

【0047】一方、上記タイトル文字列に変更・修正を
加えたいときは、ユーザは上記指示入力手段109のポ
インティングデバイスにより、表示されたこのタイトル
文字列を例えばダブルクリックする。修正手段112は
このダブルクリックに基づいて、上記表示制御手段11
0に対して、例えば、ディスプレイ上の上記タイトル文
字列を点滅させ、また、カーソルを上記文字列内に表示
させるよう指示する。そしてユーザは上記指示入力手段
109のキーボードを操作し、修正文字列を上記修正手
段112に入力して上記カーソル以降の文字列を修正文
字列で置き換える。このようにして修正された文字列は
上記修正手段112から上記文字認識手段105に入力
され、上記タイトル文字列の修正が行われる。そして上
記と同様、ユーザが上記指示入力手段109により登録
を指示すると、この修正後のタイトル文字列が上記文字
認識手段105から上記文書登録手段106に渡され
る。
On the other hand, when the user wants to change or modify the title character string, the user double-clicks the displayed title character string by using the pointing device of the instruction input means 109, for example. The correction means 112, based on this double click,
For 0, for example, an instruction is made to blink the title character string on the display and to display a cursor in the character string. Then, the user operates the keyboard of the instruction input means 109 to input the correction character string to the correction means 112 and replace the character string after the cursor with the correction character string. The character string corrected in this way is input from the correction means 112 to the character recognition means 105, and the title character string is corrected. Then, similarly to the above, when the user instructs registration using the instruction input unit 109, the title character string after the correction is transferred from the character recognition unit 105 to the document registration unit 106.

【0048】尚、上記確認及び修正の処理を設けない場
合は、上記文字認識手段105が認識した内容をディス
プレイに表示しないでそのまま文書登録手段106に渡
すことになる。
If the confirmation and correction processing is not provided, the contents recognized by the character recognition means 105 are passed to the document registration means 106 without being displayed on the display.

【0049】上記タイトル文字列を受けた文書登録手段
106は、記憶手段108での文書画像108aの格納
ポインタ、上記タイトル領域画像108bの格納ポイン
タ・上記タイトル文字列・文書画像内におけるタイトル
領域の位置およびサイズからなる登録情報を記憶手段1
08上のテーブルエリアAcに形成された登録情報管理
テーブル108c(図5参照)に登録する。ここで、上
記文書画像108aの格納ポインタは上記記憶手段10
8の文書画像エリアAaより得られ、上記タイトル画像
108bの格納ポインタは上記記憶手段108のタイト
ルエリアAbより得られ、更に、タイトル領域の位置と
サイズは文字認識手段105より得られることになる。
Upon receipt of the title character string, the document registration means 106 stores the document image 108a in the storage means 108, the storage pointer of the title area image 108b, the title character string, and the position of the title area in the document image. Storage means 1 for storing registration information comprising
08 in the registration information management table 108c (see FIG. 5) formed in the table area Ac. Here, the storage pointer of the document image 108a is
8 is obtained from the document image area Aa, the storage pointer of the title image 108b is obtained from the title area Ab of the storage means 108, and the position and size of the title area are obtained from the character recognition means 105.

【0050】このように登録情報管理テーブル108c
が生成されると、以降に、キーボードやポインティング
デバイス等からなる指示入力手段109より文書画像の
検索が指示入力されると、表示制御手段110は、上記
のように記憶されたタイトル領域画像およびタイトル文
字列を上記ディスプレイにリスト表示する(図10(I)
)。
As described above, the registration information management table 108c
Is generated, thereafter, when an instruction to search for a document image is input from the instruction input unit 109 including a keyboard, a pointing device, and the like, the display control unit 110 transmits the title area image and the title stored as described above. A list of character strings is displayed on the display (FIG. 10 (I)).
).

【0051】そして上記リスト表示からユーザが所望の
タイトル(タイトル領域画像またはタイトル文字列)が
上記指示入力手段109により選択すると、上記表示制
御手段110はこのタイトルに対応する文書画像を上記
ディスプレイに表示する。このとき、図10(II)に示す
ように、矩形枠Fで囲むなどして文書画像内におけるタ
イトル領域を明示するのが好ましい。このような矩形枠
Fは、登録情報管理テーブル108cに登録されている
タイトル領域の位置およびサイズに基づいて生成でき
る。
When the user selects a desired title (title area image or title character string) from the list display by the instruction input means 109, the display control means 110 displays a document image corresponding to the title on the display. I do. At this time, as shown in FIG. 10 (II), it is preferable to clearly indicate the title area in the document image by surrounding it with a rectangular frame F or the like. Such a rectangular frame F can be generated based on the position and size of the title area registered in the registration information management table 108c.

【0052】また、上記のようにディスプレイに表示さ
れたリストからいずれか1つを選択する方法に加えて、
指示入力手段109より特定の文書タグ情報を入力し、
該文書タグ情報に該当するタイトルが登録情報管理テー
ブル108cに登録されているとき、対応する文書画像
を表示するようにしてもよいことはもちろんである。
In addition to the method of selecting any one from the list displayed on the display as described above,
By inputting specific document tag information from the instruction input means 109,
When a title corresponding to the document tag information is registered in the registration information management table 108c, it goes without saying that a corresponding document image may be displayed.

【0053】以上のように本実施の形態によれば、抽出
判定値より大きい領域平均文字サイズの領域であればタ
イトル領域として抽出する構成としているため、1つの
文書画像から複数のタイトル領域を抽出できる。従っ
て、似た内容の文書が多数存在する場合であっても、所
望の文書画像に対応する文書タグ情報(タイトル)を迅
速に特定できる。
As described above, according to the present embodiment, if a region having an average character size larger than the extraction determination value is extracted as a title region, a plurality of title regions are extracted from one document image. it can. Therefore, even when there are many documents having similar contents, the document tag information (title) corresponding to the desired document image can be quickly specified.

【0054】なお、上記の説明では、タイトル領域抽出
処理において抽出判定式の成立する領域が存在しなかっ
た場合の手順については言及していないが、このような
場合には、タイトル領域が抽出されなかった旨をディス
プレイ表示するとともに文書タグ情報となる文字列を入
力するようユーザに対して要求し、この要求に対してユ
ーザが文字列を入力すると、この文字列を当該文書画像
のタイトル文字列として用いるようにしている。
Although the above description does not refer to the procedure when there is no area where the extraction judgment formula is satisfied in the title area extraction processing, in such a case, the title area is extracted. Is displayed on the display and the user is requested to input a character string serving as document tag information. When the user inputs the character string in response to this request, the character string is changed to the title character string of the document image. Is used as

【0055】(実施の形態2)上記実施の形態1では、
抽出判定値より大きい領域平均文字サイズの領域であれ
ば、領域平均文字サイズの大小を区別することなく同様
にタイトル領域として抽出する構成としている。従っ
て、タイトル文字より若干小さなサイズの文字からなる
サブタイトル文字列はリスト表示せずタイトル文字列の
みをリスト表示する処理など、領域平均文字サイズの大
小に基づいた適切な処理を行うことができない。本実施
の形態では、複数段階の抽出パラメータを用いて複数段
階の抽出判定値を算出するとともにレベル属性(抽出し
た段階を示す情報)と対応付けてタイトル領域を抽出す
る構成とすることによって上記した問題を解消してお
り、以下、その構成を実施の形態1と異なる点のみ説明
する。
(Embodiment 2) In Embodiment 1 described above,
If the area has a region average character size larger than the extraction determination value, the region is similarly extracted as a title region without distinguishing the size of the region average character size. Therefore, it is not possible to perform an appropriate process based on the size of the area average character size, such as a process of displaying only a title character string in a list without displaying a subtitle character string composed of characters slightly smaller than the title character. In the present embodiment, the above is described by adopting a configuration in which a plurality of levels of extraction determination values are calculated using a plurality of levels of extraction parameters, and a title area is extracted in association with a level attribute (information indicating the level of the extracted level). Since the problem has been solved, only the configuration different from that of the first embodiment will be described below.

【0056】上記実施の形態1と同様の手順で領域平均
文字サイズSizeReg n および全平均文字サイズSizeAll
を算出したタイトル領域抽出手段104は、以下に示す
複数段階の抽出判定式が成立するか否かに基づいて複数
段階の抽出判定を行う。
The area average character size SizeReg n and the total average character size SizeAll are obtained in the same procedure as in the first embodiment.
The title region extracting means 104 that has calculated the above-mentioned formulas performs a multi-stage extraction judgment based on whether or not the following multi-stage extraction judgment formula holds.

【0057】[0057]

【数4】 (Equation 4)

【0058】上式におけるαp は、p段階(レベルp)
の抽出パラメータであり、〔数5〕の条件を満たすよう
に値を設定しておく。例えば、5段階の抽出判定を行う
場合には、α1=1.5 、α2=1.3 、α3=1.2 、α4=1.15、
α5=1.1 程度とするのが好ましい。
Α p in the above equation is a p-step (level p)
The value is set so as to satisfy the condition of [Equation 5]. For example, when performing five-stage extraction determination, α 1 = 1.5, α 2 = 1.3, α 3 = 1.2, α 4 = 1.15,
α 5 is preferably about 1.1.

【0059】[0059]

【数5】 (Equation 5)

【0060】図3に示すフローチャートを用いて説明す
ると、タイトル領域抽出手段104は、レベル1から順
に全レベルの抽出判定を行い(図3、ステップ14→1
5→14)、全レベルにおいて抽出判定式が成立しなか
った場合には、この領域をタイトル領域として抽出せ
ず、次の領域について抽出判定を行う(図3、ステップ
14→13→14→15)。一方、いずれかのレベルに
おいて抽出判定式が成立した場合には、この領域を当該
レベルのタイトル領域として(上記レベル属性を対応付
けて)抽出した後、次の領域について抽出判定を行う
(図3、ステップ15→16→13→14→15)。
Referring to the flowchart shown in FIG. 3, the title area extracting means 104 performs extraction determination of all levels in order from level 1 (FIG. 3, step 14 → 1).
5 → 14), if the extraction determination formula does not hold at all levels, this area is not extracted as a title area, and extraction determination is performed for the next area (FIG. 3, steps 14 → 13 → 14 → 15). ). On the other hand, if the extraction determination formula is satisfied at any level, this area is extracted as the title area of the level (in association with the level attribute), and then the extraction determination is performed for the next area (FIG. 3). Steps 15 → 16 → 13 → 14 → 15).

【0061】以上の手順を繰り返し全ての領域について
抽出判定が行われると(図3、ステップ13で“N
O”)、タイトル領域抽出処理を終了する。
When the above procedure is repeated to determine the extraction for all the regions (FIG.
O "), the title area extraction processing ends.

【0062】なお、抽出判定式の成立する領域が存在し
なかった場合ユーザが入力した文字列をタイトル文字列
として用いる点は上記実施の形態1と同様であり、この
タイトル文字列のレベル属性はレベル1、全レベル数も
1としている。
It is to be noted that the character string input by the user is used as the title character string when there is no area where the extraction judgment formula holds, as in the first embodiment, and the level attribute of this title character string is Level 1 and the total number of levels are also 1.

【0063】また、抽出された上記タイトル文字列を変
更・修正できる点についても実施の形態1と同様であ
る。
Also, the point that the extracted title character string can be changed / corrected is the same as in the first embodiment.

【0064】図6は、本実施の形態における登録情報管
理テーブル108cの説明図であり、上記実施の形態1
において示した構成(フィールド501〜505)に
「レベル属性」フィールド601と「全レベル数」フィ
ールド602とを加えた構成としている。そして文書登
録手段106は、例えば5段階の抽出判定においてレベ
ル1で抽出された領域がある場合、この領域に対応する
「全レベル数」フィールド602には“5”を、「レベ
ル属性」フィールド601には“1”をそれぞれ登録す
る。
FIG. 6 is an explanatory diagram of the registration information management table 108c according to the present embodiment.
(Fields 501 to 505), a "level attribute" field 601 and a "total number of levels" field 602 are added. For example, when there is an area extracted at level 1 in the five-stage extraction determination, the document registration unit 106 sets “5” in the “total level number” field 602 and “level attribute” field 601 corresponding to this area. Is registered as "1".

【0065】図11は、本実施の形態の検索時において
ディスプレイに表示される内容を示す図であり、上段に
リスト表示するタイトルのレベル属性を指示入力手段1
09より範囲指定できるようにしている。そして、表示
制御手段110は、登録情報管理テーブル108cの
「レベル属性」フィールド601と「全レベル数」フィ
ールド602とを参照することによって上記のように指
定された範囲内のタイトルのみをディスプレイにリスト
表示する。
FIG. 11 is a diagram showing the contents displayed on the display at the time of retrieval according to the present embodiment.
09 can be specified. Then, the display control unit 110 refers to the “level attribute” field 601 and the “total number of levels” field 602 of the registration information management table 108c to list only the titles within the range specified as described above on the display. indicate.

【0066】以上のように本実施の形態によれば、複数
段階の抽出パラメータを用いて複数段階の抽出判定値を
算出するとともにレベル属性と対応付けてタイトル領域
を抽出する構成としているため、サブタイトル文字列は
リスト表示せずタイトル文字列のみをリスト表示する処
理など領域平均文字サイズの大小に基づいて、異なる処
理を行うことができる。
As described above, according to the present embodiment, a plurality of levels of extraction determination values are calculated using a plurality of levels of extraction parameters, and the title area is extracted in association with the level attribute. Different processing can be performed based on the size of the area average character size, such as processing for displaying only the title character string in a list without displaying the character string in a list.

【0067】(実施の形態3)上記実施の形態2では、
複数段階の抽出パラメータを予め設定する(固定値とす
る)構成としているが、このような抽出パラメータは入
力された文書画像の特性に応じて決定するのが好まし
い。本実施の形態では、領域平均文字サイズの最大値を
全平均文字サイズで除算した値に基づいて複数段階の抽
出パラメータを決定する(図4、ステップ23参照)よ
うにしており、以下、その構成を実施の形態2と異なる
点のみ説明する。
(Embodiment 3) In Embodiment 2 described above,
Although the configuration is such that the extraction parameters in a plurality of stages are set in advance (fixed values), it is preferable that such extraction parameters are determined according to the characteristics of the input document image. In the present embodiment, a plurality of levels of extraction parameters are determined based on a value obtained by dividing the maximum value of the area average character size by the total average character size (see step 23 in FIG. 4). Only the points different from the second embodiment will be described.

【0068】上記の実施の形態2と同様の手順で領域平
均文字サイズSizeReg n および全平均文字サイズSizeAl
l を算出したタイトル領域抽出手段4は、まず、領域平
均文字サイズの最大値max {SizeReg n }を全平均文字
サイズSizeAll で除算した値α1 を次式によって算出す
る。
The area average character size SizeReg n and the total average character size SizeAl are obtained in the same procedure as in the second embodiment.
Title area extracting means 4 to calculate the l first calculates the maximum value max value alpha 1 for the {SizeReg n} divided by the total average character size SizeAll area average character size by the following equation.

【0069】[0069]

【数6】 (Equation 6)

【0070】次いで、タイトル領域抽出手段4は、上記
のように算出したα1 と当該抽出判定の全レベル数P(P
>=1)とから、各レベルの抽出パラメータαp を次式によ
って決定する。
Next, the title area extracting means 4 calculates α 1 calculated as described above and the total number of levels P (P
> = 1), the extraction parameter α p of each level is determined by the following equation.

【0071】[0071]

【数7】 (Equation 7)

【0072】例えばα1 が1.5 で5段階の抽出判定を行
う場合、各レベルの抽出パラメータα1 〜α5 は以下の
ようになる。
For example, when α 1 is 1.5 and five levels of extraction judgment are performed, the extraction parameters α 1 to α 5 of each level are as follows.

【0073】[0073]

【数8】 (Equation 8)

【0074】このように〔数7〕によれば、上記のよう
に算出したα1 から1.0 の間で等間隔になるように各レ
ベルの抽出パラメータαp を決定することができる。
As described above, according to [Equation 7], the extraction parameter α p of each level can be determined so as to be equally spaced between α 1 and 1.0 calculated as described above.

【0075】以降の手順は、上記のように決定した抽出
パラメータを用いて抽出判定を行う点を除いて実施の形
態2と同様であるため説明を省略する。
The subsequent procedure is the same as that of the second embodiment except that the extraction determination is performed using the extraction parameters determined as described above, and therefore the description is omitted.

【0076】ただし上記した方法には、文書画像内にタ
イトル領域が存在しない場合、α1が例えば1.03など1.0
付近の値となるため本文の領域をタイトル領域として
誤抽出してしまうという不具合がある。そこで本発明で
は、例えば1.05など所定値以下となる抽出パラメータは
採用しないようにしている。
[0076] However, in the method described above, if there is no title area in the document image, alpha 1, for example 1.03, such as 1.0
There is a problem that a text region is erroneously extracted as a title region because the value is in the vicinity. Therefore, in the present invention, an extraction parameter having a predetermined value or less, such as 1.05, is not adopted.

【0077】また、各レベル間の抽出パラメータの差が
例えば0.03など所定値以下となると、良好な抽出判定が
できないため、上記抽出パラメータの差が上記所定値
(0.03)となるように抽出パラメータの設定値を修正す
るようにしている。すなわち上記の場合、α1 から順に
0.03ずつ減算した値を各レベルの抽出パラメータとして
設定する。
If the difference between the extraction parameters at each level is equal to or less than a predetermined value, for example, 0.03, it is not possible to make a good extraction judgment. Therefore, the extraction parameter is set so that the difference between the extraction parameters becomes the predetermined value (0.03). The settings are modified. That is, in the above case, α 1
The value subtracted by 0.03 is set as the extraction parameter of each level.

【0078】以上の結果全レベル数Pが減少する場合も
あるが、このような場合には、実際のレベル数(全レベ
ル数Pから減少レベル数を減じた値)を全レベル数Pと
して登録情報管理テーブル108cの「全レベル数」フ
ィールド602に設定する。
As a result, the total number of levels P may decrease. In such a case, the actual number of levels (the value obtained by subtracting the number of reduced levels from the total number of levels P) is registered as the total number of levels P. This is set in the “all levels” field 602 of the information management table 108c.

【0079】以上のように本実施の形態によれば、抽出
パラメータを固定値とするのではなく、入力された文書
画像の特性に応じて決定する構成としているため良好な
抽出判定を行うことができる。
As described above, according to the present embodiment, the extraction parameters are determined not according to the fixed values but according to the characteristics of the input document image. it can.

【0080】(実施の形態4)上記の各実施の形態にお
いては、全平均文字サイズの算出に比較的サイズの大き
いタイトル領域の文字も算入され、また、サイズの小さ
いコンマ、ピリオド、句読点も算入されるので、精度が
低くなる傾向がある。そこで、文書画像の全文字から、
所定割合(例えば90%)より大きいサイズの文字と、
所定割合(例えば10%)より小さいサイズの文字を除
外した文字から全平均文字サイズを算出する、いわゆる
トリム平均を利用する。更に、領域平均文字サイズを算
出するときにも、同様の問題が発生するところから、領
域平均文字サイズの算出についても上記トリム平均を用
いることもできる。
(Embodiment 4) In each of the above embodiments, the characters in the title area having a relatively large size are included in the calculation of the total average character size, and commas, periods, and punctuation marks having small sizes are also included. Accuracy tends to be lower. Therefore, from all the characters in the document image,
A character having a size larger than a predetermined ratio (for example, 90%);
A so-called trim average is used in which a total average character size is calculated from characters excluding characters smaller than a predetermined ratio (for example, 10%). Further, the same problem occurs when calculating the area average character size. Therefore, the trim average can also be used for calculating the area average character size.

【0081】これによって、全平均文字サイズ、および
領域平均文字サイズとも、ピリオド、コンマ、句読点を
除外した文字サイズを求めることができ、より精度の高
い値が得られることになる。
As a result, the character size excluding the period, comma, and punctuation can be obtained for both the total average character size and the area average character size, and a value with higher precision can be obtained.

【0082】ここで、上記各実施の形態では領域平均文
字サイズより、全平均文字サイズを算出しているが、同
じ方法をこのトリム平均を用いる場合に適用すると、領
域毎にサイズの大きい文字と小さい文字を除外すること
になるため、全平均文字サイズの算出においてタイトル
領域に含まれるすべての文字を除外することができな
い。従ってここでは、全平均文字サイズを算出するとき
に、あらためて文書画像中の全文字を対象として処理を
行っている。
Here, in each of the above embodiments, the total average character size is calculated from the region average character size. However, if the same method is applied to the case where the trim average is used, a character having a large size for each region is used. Since small characters are excluded, it is not possible to exclude all characters included in the title area in calculating the total average character size. Therefore, here, when calculating the total average character size, processing is performed again for all characters in the document image.

【0083】但し、このトリム平均を用いる方式を使用
するにしても、上記抽出パラメータとして、実施の形態
1の所定値、あるいは実施の形態2、3の段階値のいず
れを用いてもよいことはもちろんである。
However, even if the method using this trim averaging is used, any of the predetermined values of the first embodiment or the step values of the second and third embodiments may be used as the extraction parameters. Of course.

【0084】なお、上記の各実施の形態の説明では、文
書画像となる文書の枚数については言及していないが、
紙文書の枚数は特に限定されるものではない。すなわ
ち、1枚であっても複数枚であっても、各頁に同じ抽出
パラメータを用いる限り同様の効果が得られる。特に、
実施の形態2、3においては、複数頁に対して同じ抽出
パラメータ用いることにより、論文データのように複数
頁にわたる単一文書から、タイトル、サブタイトルを正
しく抽出することができる。
Although the description of each of the above embodiments does not refer to the number of documents serving as document images,
The number of paper documents is not particularly limited. That is, the same effect can be obtained for one page or a plurality of pages as long as the same extraction parameter is used for each page. In particular,
In the second and third embodiments, by using the same extraction parameter for a plurality of pages, a title and a subtitle can be correctly extracted from a single document that covers a plurality of pages, such as paper data.

【0085】また、上記の説明では、文字矩形の高さを
文字サイズとして採用することとしているが、文字矩形
の幅・面積を文字サイズとして採用してもよい。
In the above description, the height of the character rectangle is adopted as the character size. However, the width and area of the character rectangle may be adopted as the character size.

【0086】尚、図1の説明において、記憶手段108
の前段と画像メモリ107の前段に画像処理手段111
a、111bを設けて、タイトル抽出用の文書画像は2
値画像データを用い、記憶手段108の文書画像エリア
Aaに登録される文書画像データとして、圧縮画像ある
いは多値画像データを用いることができるようになって
いる。これによって、上記のように抽出されたタイトル
に基づく検索処理の結果得られた文書画像をカラーで表
示する等の多様な表示方法が可能となる。
In the description of FIG. 1, the storage unit 108
Image processing means 111
a and 111b, and the document image for title extraction is 2
Compressed images or multi-valued image data can be used as document image data registered in the document image area Aa of the storage unit 108 using the value image data. As a result, various display methods are possible, such as displaying a document image obtained as a result of the search processing based on the title extracted as described above in color.

【0087】(実施の形態5)以下、実施の形態5及び
6ではユーザが紙文書に付したマークを文書タグ情報と
して自動的に付与する文書画像処理装置に関して説明す
る。
(Embodiment 5) Hereinafter, Embodiments 5 and 6 will be described with respect to a document image processing apparatus which automatically adds a mark given to a paper document by a user as document tag information.

【0088】先ず、紙文書を構成するいずれかのページ
にタイトルやキーワード等よりなるマークがユーザによ
って付される。ここで、マークとはスタンプ、シール、
イラスト、一定の筆跡による署名等、ユーザが紙文書を
識別することを意図して付すマーク一般を指すこととす
る。
First, a mark made up of a title, a keyword, or the like is added to one of the pages constituting the paper document by the user. Here, marks are stamps, stickers,
It refers to general marks, such as illustrations and signatures with certain handwriting, that the user attaches with the intention of identifying paper documents.

【0089】本発明の文書画像処理装置に、多数のペー
ジからなる紙文書を記憶させるにあたって、この紙文書
のどのページに上記マークが付されているかを判別する
必要がある。この際、上記紙文書の全ページを検索して
上記マークを検出する方法も考えられるが、検出処理に
時間がかかるという問題がある。
When storing a paper document including a large number of pages in the document image processing apparatus of the present invention, it is necessary to determine which page of the paper document has the mark. At this time, a method of detecting the mark by searching all the pages of the paper document is conceivable, but there is a problem that the detection process takes time.

【0090】このような問題を解決する方法としては、
例えば、1ページ目のみに上記マークの検出を行うよ
う、予め文書画像処理装置に設定しておくことなどが挙
げられる。
As a method for solving such a problem,
For example, the document image processing apparatus may be set in advance so that the mark is detected only on the first page.

【0091】本発明の実施の形態においては、図13
(b)に示すように、上記マークを付したページ(「以
下「文書タグ情報指定ページ」と呼ぶ)21、24に対
しては、右下の特定位置に特定の2次元コード画像26
を記載することによって、この文書タグ情報指定ページ
を判別することにしている。
In the embodiment of the present invention, FIG.
As shown in (b), for the pages (hereinafter referred to as “document tag information designation pages”) 21 and 24 to which the above-mentioned mark is attached, a specific two-dimensional code image 26
Is described, the document tag information designation page is determined.

【0092】図1は本発明の実施の形態5による文書画
像処理装置のブロック図であり、以下、この文書画像処
理装置の行う処理の手順について説明する。
FIG. 1 is a block diagram of a document image processing apparatus according to a fifth embodiment of the present invention. Hereinafter, a procedure of processing performed by the document image processing apparatus will be described.

【0093】先ず、画像入力手段1201では、スキャ
ナやディジタル複合機などの光電変換装置を用いて紙文
書を電子化し、文書画像として入力する。ここでは、図
13に示すように、入力画像22及び23に文書タグ情
報指定ページ21に付された「極秘」「A社」「99年
度」の文書タグ情報を、入力画像25に文書タグ情報指
定ページ24に付された「極秘」「B社」の文書タグ情
報を付与することとする。そして、画像入力手段120
1には、文書タグ情報指定ページ21、入力画像22、
23、文書タグ情報指定ページ24、入力画像25の順
に入力するようにしておく。
First, the image input unit 1201 digitizes a paper document by using a photoelectric conversion device such as a scanner or a digital multifunction peripheral, and inputs it as a document image. Here, as shown in FIG. 13, document tag information of “secret”, “Company A”, and “1999” attached to the document tag information designation page 21 is added to the input images 22 and 23, and the document tag information is added to the input image 25. The document tag information of “top secret” and “company B” attached to the designated page 24 is added. Then, the image input means 120
1 includes a document tag information designation page 21, an input image 22,
23, a document tag information designation page 24, and an input image 25 in this order.

【0094】ここで入力された文書画像は、一旦、画像
メモリ1202に格納され、更に、画像データ圧縮処理
手段1203においてデータ圧縮が施された後、記憶手
段1210の画像記憶領域1211に記憶される。この
とき、記憶された各文書画像を特定できるように、それ
ぞれの文書画像に画像IDを付与し、この画像IDを図
13(a)に示す登録管理テーブル1212の「画像I
D」フィールド121に格納する。また、記憶手段12
10の画像記憶領域1211に記憶された画像データへ
のポインタ情報を、登録画像管理テーブル1212の
「画像データへのポインタ」フィールド122に格納す
る。
The document image input here is temporarily stored in the image memory 1202, further subjected to data compression by the image data compression processing unit 1203, and then stored in the image storage area 1211 of the storage unit 1210. . At this time, an image ID is assigned to each document image so that each stored document image can be specified, and this image ID is assigned to “Image I” in the registration management table 1212 shown in FIG.
D "field 121. The storage means 12
The pointer information to the image data stored in the ten image storage areas 1211 is stored in the “pointer to image data” field 122 of the registered image management table 1212.

【0095】また、画像メモリ1202に格納された上
記文書画像は、画像2値化処理手段1204において2
値化された後、マーク抽出手段1205にも送られる。
このマーク抽出手段1205では、先ず、画像右下の予
め決められた位置に特定の2次元コード画像が存在する
か否かを判定することによって、入力された各文書画像
が文書タグ情報指定ページであるかどうかを判定する。
The document image stored in the image memory 1202 is converted into a binary image by
After being digitized, it is also sent to the mark extracting means 1205.
The mark extracting means 1205 first determines whether or not a specific two-dimensional code image exists at a predetermined position at the lower right of the image, so that each input document image is displayed on the document tag information designation page. Determine if there is.

【0096】このとき、文書タグ情報指定ページと判断
された文書画像に関しては、上記登録画像管理テーブル
1212の「文書タグ情報指定ページフラグ」フィール
ド123に「1」を、そうでない場合には「0」を格納
する。このフラグは上記文書画像がマークのみが付され
た文書タグ情報指定ページであって、紙文書の文書とし
ての内容を含んでいないことを識別するために用いられ
る。例えば、後述する方法によって文書画像に対して文
書タグ情報が付与された後は、このフラグに基づいて、
文書タグ情報指定ページに該当する文書画像を削除する
ようにすれば、メモリ資源の節約になる。
At this time, with respect to the document image determined to be the document tag information designated page, “1” is set in the “document tag information designated page flag” field 123 of the registered image management table 1212, and otherwise “0”. Is stored. This flag is used to identify that the document image is a document tag information designation page to which only a mark is added and does not include the contents of a paper document as a document. For example, after document tag information is added to a document image by a method described below, based on this flag,
If the document image corresponding to the document tag information designation page is deleted, memory resources can be saved.

【0097】そして、ある文書タグ情報指定ページが入
力されてから次の文書タグ情報指定ページが入力される
までに入力された全ての文書画像に対して、同一のマー
ク管理グループ番号を付与する。更に、このマーク管理
グループ番号を上記登録画像管理テーブル1212の
「マーク管理グループ番号」フィールド125に格納す
る。ここで、同一のマーク管理グループ番号が付与され
た文書画像には、同一の文書タグ情報が付与されること
を意味している。
The same mark management group number is assigned to all the input document images from the time when a certain document tag information designation page is input to the time when the next document tag information designation page is input. Further, this mark management group number is stored in the “mark management group number” field 125 of the registered image management table 1212. Here, it means that the same document tag information is assigned to the document images to which the same mark management group number is assigned.

【0098】次に、上記の処理によって文書タグ情報指
定ページと判断された文書画像から、マーク抽出手段1
205がマークを抽出する処理について説明する。
Next, the mark extracting unit 1 extracts the document image determined as the document tag information designated page by the above processing.
The process of extracting a mark by 205 will be described.

【0099】先ず、文書タグ情報指定ページのうち、上
記2次元コードが付された領域を除く全ての領域に対し
て、実施の形態1で説明したラベリング処理を行う。そ
してラベリング処理で得られた複数の黒画素連結成分の
うち、相互の距離が特定の閾値よりも小さい成分に関し
ては統合して1つの領域とする。このようにして得られ
た各領域は、図16に示すように、それぞれ各マークの
領域41〜43に対応しており、これらの領域を抽出す
ることによって、各マーク画像を得ることができる。
First, the labeling process described in the first embodiment is performed on all of the document tag information designated pages except for the region to which the two-dimensional code is added. Then, among a plurality of black pixel connected components obtained by the labeling process, components having a mutual distance smaller than a specific threshold are integrated into one region. As shown in FIG. 16, the areas obtained in this manner correspond to the areas 41 to 43 of the respective marks, and by extracting these areas, each mark image can be obtained.

【0100】ここで、各文書タグ情報指定ページから抽
出されたマークの個数を、上記登録画像管理テーブル1
212の「マーク数」フィールド124に格納する。
Here, the number of marks extracted from each document tag information designation page is determined by the registration image management table 1 described above.
212 is stored in the “number of marks” field 124.

【0101】また、抽出された各マーク画像の情報を管
理するために、各マーク画像にマークIDを付与し、図
14に示すような、マーク管理テーブル1213の「マ
ークID」フィールド131に格納する。更に、各マー
クが付されていた文書タグ情報指定ページのマーク管理
グループ番号を、上記マーク管理テーブル1213の
「マーク管理グループ番号」フィールド132に格納す
る。また、各文書タグ情報指定ページから抽出されたマ
ーク画像の該文書タグ情報指定ページ内での位置、サイ
ズ(幅、高さ)の情報を、それぞれ上記マーク管理テー
ブル1213の「位置」フィールド134、「サイズ」
フィールド135に格納する。
In order to manage the information of each extracted mark image, a mark ID is assigned to each mark image and stored in a “mark ID” field 131 of a mark management table 1213 as shown in FIG. . Further, the mark management group number of the document tag information designated page to which each mark is attached is stored in the “mark management group number” field 132 of the mark management table 1213. The position and size (width, height) of the mark image extracted from each document tag information designation page in the document tag information designation page are stored in the “position” field 134 of the mark management table 1213, respectively. "size"
It is stored in the field 135.

【0102】本実施の形態では、最初の文書タグ情報指
定ページと、次の文書タグ情報指定ページとの間に入力
された文書画像には同一のマーク管理グループ番号を付
与し、上記文書画像を上記最初の文書タグ情報指定ペー
ジに付随する一連の文書画像として管理している。この
他にも文書タグ情報指定ページの次に入力された特定の
文書画像にのみにマーク管理グループ番号を付与し、そ
の他の文書画像にはマーク管理グループ番号を付与しな
い管理方法も考えられる。これは例えば上記特定の文書
画像に目次を付けたい場合などに利用される管理方法で
ある。
In this embodiment, the same mark management group number is assigned to a document image input between the first document tag information designation page and the next document tag information designation page, and It is managed as a series of document images attached to the first document tag information designation page. In addition, a management method in which a mark management group number is assigned only to a specific document image input next to the document tag information designation page and a mark management group number is not assigned to other document images is also conceivable. This is a management method used when, for example, it is desired to add a table of contents to the specific document image.

【0103】次に、算出手段120Aの特徴量算出手段
1206では、マーク抽出手段1205において抽出さ
れた各マーク画像の特徴を表す数値を算出する。ここで
はこの数値として、公知の技術であるモーメント・イン
バリアント(Moment Invariants )における特徴量を利
用する。以下、このモーメント・インバリアントについ
て簡単に説明する。
Next, the characteristic amount calculating means 1206 of the calculating means 120A calculates a numerical value representing the characteristic of each mark image extracted by the mark extracting means 1205. Here, a feature amount in a known technique, Moment Invariants, is used as the numerical value. Hereinafter, this moment invariant will be briefly described.

【0104】i,jを画素の座標、I(i,j)をその
画素値、即ち、黒画素についてはI=1、白画素につい
てはI=0の値を持つ関数とする。そして〔数9〕で定
義されるmpqを(p+q)次のモーメントと呼ぶ。
It is assumed that i and j are pixel coordinates, and I (i, j) is a function having the pixel value, that is, I = 1 for a black pixel and I = 0 for a white pixel. Then, mpq defined by [Equation 9] is called a (p + q) -order moment.

【0105】[0105]

【数9】 (Equation 9)

【0106】ここで、この mpqを用いると、2次元画像
の重心(x,y)は〔数10〕で表される。
Here, when this m pq is used, the center of gravity (x, y) of the two-dimensional image is represented by [Equation 10].

【0107】[0107]

【数10】 (Equation 10)

【0108】このようにして算出された重心に基づい
て、〔数11〕で定義されるμpqを中心モーメントと言
う。
Based on the center of gravity calculated in this manner, μ pq defined by [Equation 11] is called a center moment.

【0109】[0109]

【数11】 [Equation 11]

【0110】そしてこの中心モーメントに基づき、〔数
12〕によって以下のように算出される数値M1〜M6を、
当該2次元画像の(モーメント・インバリアントにおけ
る)特徴量と定義する。
Based on this central moment, numerical values M1 to M6 calculated as
It is defined as a feature amount (in the moment invariant) of the two-dimensional image.

【0111】[0111]

【数12】 (Equation 12)

【0112】これらの特徴量は当該2次元画像が回転や
平行移動した場合にも不変となるため、本発明の実施の
形態のように、ユーザが手作業で特定のマークを用紙の
上に付すような場合において、このマークを特徴付ける
のに有効な数値となるのである。
Since these feature amounts do not change even when the two-dimensional image is rotated or translated, the user manually attaches a specific mark on the sheet as in the embodiment of the present invention. In such a case, the numerical value is effective for characterizing this mark.

【0113】このように特徴量算出手段1206により
算出された特徴量は、算出手段120Aの類似度算出手
段1207に渡され、この特徴量と各標準タグ情報の属
性値との類似度が算出される。この方法を説明するため
に、以下では先ず、各標準タグ情報の管理方法及び各標
準タグ情報の属性値を算出する方法について説明する。
The feature quantity calculated by the feature quantity calculation means 1206 is passed to the similarity calculation means 1207 of the calculation means 120A, and the similarity between this feature quantity and the attribute value of each standard tag information is calculated. You. In order to explain this method, first, a method of managing each standard tag information and a method of calculating an attribute value of each standard tag information will be described.

【0114】上記の標準タグ情報とは具体的にはユーザ
の使用が予測されるマーク(以下「標準マーク」と呼
ぶ)に関連付けられたデータであり、入力画像に対して
キーワード的な役割を果たす文字列等の文書タグ情報の
候補である。この標準タグ情報を、図15(a)に示す
ような、標準タグ情報管理テーブル1214の「標準タ
グ情報」フィールド141に格納する。また、上記標準
マークの画像データは標準タグ情報蓄積手段1215に
格納されており、更に、この画像データへのポインタが
上記標準タグ情報管理テーブル1214の「標準マーク
へのポインタ」フィールド142に格納されている。ま
た、上記特徴量算出手段1206はこれら標準マークの
モーメント・インバリアントにおける6つの特徴量を算
出し、これら特徴量を標準タグ情報管理テーブル121
4の「属性値(M1 〜M6) 」フィールドに格納する。即
ち、この特徴量が、各標準マークの属性値となるのであ
る。
The above-mentioned standard tag information is specifically data associated with a mark (hereinafter, referred to as a “standard mark”) that is expected to be used by the user, and plays a role of a keyword for an input image. This is a candidate for document tag information such as a character string. This standard tag information is stored in the “standard tag information” field 141 of the standard tag information management table 1214 as shown in FIG. The image data of the standard mark is stored in the standard tag information storage unit 1215, and a pointer to the image data is stored in the “pointer to standard mark” field 142 of the standard tag information management table 1214. ing. Further, the characteristic amount calculating means 1206 calculates six characteristic amounts in the moment invariant of these standard marks, and stores these characteristic amounts in the standard tag information management table 121.
4 in the "attribute value (M1 to M6)" field. That is, this feature amount becomes the attribute value of each standard mark.

【0115】このようにして算出された各標準マークの
属性値と、入力画像から抽出されたマーク画像の上記モ
ーメント・インバリアントにおける特徴量との距離を
〔数13〕(最小2乗法)によって算出する。
The distance between the attribute value of each standard mark calculated in this way and the feature value of the mark image extracted from the input image in the moment invariant is calculated by [Equation 13] (least square method). I do.

【0116】[0116]

【数13】 (Equation 13)

【0117】ここで、M1〜M6は上記標準マークの属性
値、m1〜m6は抽出されたマーク画像の特徴量を表してい
る。上式によって算出された距離Lの値が小さいほど、
抽出されたマーク画像と標準タグ情報との類似度が高い
ことを示している。
Here, M1 to M6 represent attribute values of the standard mark, and m1 to m6 represent feature amounts of the extracted mark image. As the value of the distance L calculated by the above equation is smaller,
This indicates that the similarity between the extracted mark image and the standard tag information is high.

【0118】次に文書タグ情報決定手段1208では、
上記類似度算出手段1207において算出された類似度
が最大となる標準マークを特定し、この標準マークの標
準タグ情報を入力された文書画像の文書タグ情報として
選択し、この文書画像に付与する。さらに、この文書タ
グ情報をマーク管理テーブル1213の「文書タグ情
報」フィールド133に格納する。
Next, the document tag information determining means 1208
The standard mark having the maximum similarity calculated by the similarity calculating means 1207 is specified, the standard tag information of this standard mark is selected as the document tag information of the input document image, and the document image is given to this document image. Further, the document tag information is stored in the “document tag information” field 133 of the mark management table 1213.

【0119】以上の処理を適用することにより、入力さ
れた各文書画像に自動的に文書タグ情報を付与すること
ができる。ここで得られた各テーブルの情報を用いる
と、次の手順に従って画像の検索を行うことができる。
By applying the above processing, document tag information can be automatically added to each input document image. Using the information of each table obtained here, an image can be searched according to the following procedure.

【0120】先ず、ユーザが検索に使用する文書タグ情
報を指定すると、この文書タグ情報に関連付けられてい
るマーク管理グループ番号をマーク管理テーブル121
3から特定することができる。さらに、上記マーク管理
グループ番号が付与されている文書画像の画像IDおよ
びこの文書画像データへのポインタの情報を、登録画像
管理テーブル1212から特定することができる。ここ
で特定された文書画像が、ユーザの指定した文書タグ情
報に関連付けられている画像となる。また、複数の文書
タグ情報を指定することにより、検索したい画像データ
を絞り込むこともできる。
First, when the user specifies the document tag information to be used for the search, the mark management group number associated with the document tag information is set to the mark management table 121.
3 can be specified. Furthermore, the image ID of the document image to which the mark management group number has been assigned and the information of the pointer to the document image data can be specified from the registered image management table 1212. The document image specified here is an image associated with the document tag information specified by the user. Also, by specifying a plurality of document tag information, it is possible to narrow down image data to be searched.

【0121】次に、類似度算出手段1207において算
出された類似度が最大となる文書タグ情報に関しても、
抽出されたマーク画像との距離Lが予め指定された閾値
よりも大きかった場合には、このマーク画像に関連付け
るべき既存の文書タグ情報は存在せず、新規の標準マー
クが入力されたものと判断する。この場合、マーク管理
テーブル1213の「位置」フィールド134、「サイ
ズ」フィールド135および登録画像管理テーブル12
12の「画像データへのポインタ」フィールド122の
情報に基づいてマーク画像を表示し、ユーザに対してこ
の新規の標準マークを関連付けておく文書タグ情報を登
録するように促す。
Next, regarding the document tag information having the maximum similarity calculated by the similarity calculating means 1207,
If the distance L from the extracted mark image is greater than a predetermined threshold, it is determined that there is no existing document tag information to be associated with this mark image and that a new standard mark has been input. I do. In this case, the “position” field 134 and the “size” field 135 of the mark management table 1213 and the registered image management table 12
A mark image is displayed on the basis of the information in the "pointer to image data" field 122, and the user is prompted to register document tag information for associating the new standard mark.

【0122】ここで入力された文書タグ情報を、新たに
標準タグ情報管理テーブル1214の「標準タグ情報」
フィールド141に格納する。また、上記の新規に入力
された標準マークの画像データを以降の検索処理に利用
するために標準タグ情報蓄積手段1215に格納し、こ
のマーク画像データへのポインタ情報を標準タグ情報管
理テーブル1214の「マーク画像へのポインタ」フィ
ールド142に格納する。さらに、この新規の標準マー
クのモーメント・インバリアントにおける特徴量を算出
し、標準タグ情報管理テーブル1214の「属性値(M1
〜M6) 」フィールド143に格納する。
The input document tag information is newly added to the “standard tag information” in the standard tag information management table 1214.
It is stored in the field 141. Further, the image data of the newly input standard mark is stored in the standard tag information storage unit 1215 for use in subsequent search processing, and pointer information to the mark image data is stored in the standard tag information management table 1214. The “pointer to the mark image” field 142 is stored. Further, the feature amount of the new standard mark in the moment invariant is calculated, and the “attribute value (M1
To M6) ”field 143.

【0123】以上のように、ユーザは新しいマーク画像
と文書タグ情報を入力するだけで、新規の標準タグ情報
を登録することができる。
As described above, the user can register new standard tag information only by inputting a new mark image and document tag information.

【0124】なお、上記の説明において、図14、図1
5(a)では、標準マークが関連付けられている標準タ
グ情報を、当該標準マークに使用されている文字列にし
ているが、これらは必ずしも文字列に限定する必要はな
い。すなわち、標準タグ情報管理テーブル1214にお
いて、各標準マークに任意の標準タグ情報を関連付ける
ことが可能である。
In the above description, FIGS.
In 5 (a), the standard tag information associated with the standard mark is a character string used for the standard mark, but these need not necessarily be limited to character strings. That is, in the standard tag information management table 1214, it is possible to associate arbitrary standard tag information with each standard mark.

【0125】例えば、上述のような文字列による標準タ
グ情報の代わりに、各標準マークの縮小画像を標準タグ
情報としてそれぞれの標準マークに関連付けておき、こ
の縮小画像を検索用シートに印刷しておく。そしてこの
検索用シートの縮小画像をスキャナで読み取らせること
により、所望の文書画像の検索を行うようにすることも
可能である。
For example, instead of the standard tag information using a character string as described above, a reduced image of each standard mark is associated with each standard mark as standard tag information, and this reduced image is printed on a search sheet. deep. By scanning the reduced image of the search sheet with a scanner, a desired document image can be searched.

【0126】更に、図13および図16の説明図では、
全ての入力画像の中から文書タグ情報指定ページを特定
するために2次元コードを用いたが、1次元コード等を
用いても良い。他にも、文書タグ情報指定ページを特定
するための手段としては、2次元コード画像の替わりに
特定のマークを使用する方法や、特定カラーの用紙を使
用する方法、あるいは特定の形状やサイズの用紙を使用
する方法等によっても同様の効果が期待できる。
Furthermore, in the explanatory diagrams of FIGS. 13 and 16,
Although a two-dimensional code is used to specify a document tag information designation page from all input images, a one-dimensional code or the like may be used. In addition, as a means for specifying the document tag information designation page, a method of using a specific mark instead of a two-dimensional code image, a method of using paper of a specific color, or a specific shape or size. The same effect can be expected by using a method using paper.

【0127】また、全ての入力画像に同一の文書タグ情
報を付与する場合には、1枚目に入力する画像だけが文
書タグ情報指定ページ画像であると定義して文書画像処
理装置を構築することも可能である。この場合、1枚目
に入力される画像だけが文書タグ情報指定ページである
と分かっているので、2次元コード画像等を用いて文書
タグ指定画像を特定する処理は必要なくなり、全体の処
理を簡略化することができる。
When the same document tag information is added to all input images, a document image processing apparatus is constructed by defining only the first image to be input as a document tag information designation page image. It is also possible. In this case, since it is known that only the first image input is the document tag information designation page, the process of specifying the document tag designation image using a two-dimensional code image or the like is not necessary, and the entire process is omitted. It can be simplified.

【0128】勿論、2次元コード画像等を用いずに、紙
文書の全てのページを検索してマークを抽出する方法も
可能である。この際に、ユーザが付したマークとは別
に、紙文書中の例えば「極秘」等の文字をマークとして
抽出してしまうことも起こり得る。このような場合には
当該文字も一つの上記のマークの1つとして登録画像管
理テーブル1213に追加すればよい。
Of course, it is also possible to search all pages of a paper document and extract marks without using a two-dimensional code image or the like. At this time, apart from the mark added by the user, a character such as “top secret” in the paper document may be extracted as the mark. In such a case, the character may be added to the registered image management table 1213 as one of the marks.

【0129】なお、上記の説明ではモーメント・インバ
リアントにおける特徴量を用いてマーク画像と標準タグ
情報との関連付けを行ったが、2つの画像を重ねて一致
する黒画素の割合を比較するテンプレートマッチングを
用いて関連付けを行っても同様の効果が期待できる。
In the above description, the mark image and the standard tag information are associated with each other by using the feature amount in the moment invariant. However, the two images are overlapped to compare the ratio of the matching black pixels. The same effect can be expected even if the association is performed by using.

【0130】また、1つの標準タグ情報に複数の標準マ
ークを関連付けておくこともできる。これは、標準タグ
情報管理テーブル1214において、同一の標準タグ情
報を複数登録しておき、それぞれに異なる標準マークを
関連付けることによって実現できる。この場合、異なる
マークの付された紙文書を入力して、この入力された文
書画像に同一の文書タグ情報を付与することができる。
Further, a plurality of standard marks can be associated with one standard tag information. This can be realized by registering a plurality of the same standard tag information in the standard tag information management table 1214 and associating each with a different standard mark. In this case, a paper document with a different mark can be input, and the same document tag information can be added to the input document image.

【0131】逆に、1つの標準マークが複数の標準タグ
情報に関連付けられるようにすることもできる。これ
は、標準タグ情報管理テーブル1214において、異な
る標準タグ情報に同一の標準マークを関連付けることに
よって実現できる。この場合、1つのマークの付された
紙文書を入力して、この入力された文書画像に複数の文
書タグ情報を付与することができる。
Conversely, one standard mark may be associated with a plurality of standard tag information. This can be realized by associating the same standard mark with different standard tag information in the standard tag information management table 1214. In this case, a paper document with one mark can be input, and a plurality of document tag information can be added to the input document image.

【0132】(実施の形態6)本実施の形態では、登録
する紙文書の余白部分に押されたマークを抽出すること
により、文書画像に文書タグ情報を付与する形態とす
る。以下、図12を参照しながら実施の形態5と異なる
点についてのみ説明する。
(Embodiment 6) In this embodiment, a document image is given document tag information by extracting a mark pressed in a margin of a paper document to be registered. Hereinafter, only differences from the fifth embodiment will be described with reference to FIG.

【0133】まず、画像入力手段1201では、実施の
形態5と同様、ユーザが入力した紙文書を電子化して文
書画像を得る。ここでは、図17(b)に示すように、
文書画像31および32に「極秘」「A社」「99年
度」の文書タグ情報を、文書画像33に「極秘」「B
社」の文書タグ情報を付与することとする。このため
に、各画像の余白部分には、それぞれ付与したい文書タ
グ情報に関連付けられているマークが付されている。
First, as in the fifth embodiment, the image input unit 1201 digitizes a paper document input by the user to obtain a document image. Here, as shown in FIG.
The document images 31 and 32 contain document tag information of “secret”, “company A”, and “1999”, and the document image 33 contains “secret”, “B”
Document tag information of “company”. For this reason, a mark associated with the document tag information to be added is attached to the margin of each image.

【0134】ここで得られた画像データは、一旦、画像
メモリ1202に格納され、さらに画像データ圧縮処理
手段1203においてデータが圧縮された後、記憶手段
1210の画像記憶領域1211に格納される。ここで
格納された画像データの情報として、図17(a)に示
すように登録画像管理テーブル1212’の「画像I
D」フィールド121’および「画像データへのポイン
タ」フィールド122’に、それぞれ必要な情報を格納
することについては、実施の形態5と同様である。
The image data obtained here is temporarily stored in the image memory 1202, further compressed in the image data compression processing unit 1203, and then stored in the image storage area 1211 of the storage unit 1210. As information of the image data stored here, as shown in FIG. 17A, “Image I” in the registered image management table 1212 ′ is used.
The storage of necessary information in the "D" field 121 'and the "pointer to image data" field 122' is the same as in the fifth embodiment.

【0135】また、画像メモリ1202の画像は、画像
2値化処理手段1204において2値化された後、マー
ク抽出手段1205’に送られる。本実施の形態では、
マーク画像の領域を確実に抽出することができるよう
に、図17(b)に示すような枠付きのマークを使用
し、上記マーク抽出手段1205’が以下の処理によっ
て各マークの抽出を行う。
The image in the image memory 1202 is binarized by the image binarization processing unit 1204, and then sent to the mark extraction unit 1205 '. In the present embodiment,
In order to reliably extract the area of the mark image, a mark with a frame as shown in FIG. 17B is used, and the mark extraction means 1205 'extracts each mark by the following processing.

【0136】まず、各2値画像の黒画素に対して上述の
ラベリング処理を行い、さらに同一のラベル値が付与さ
れた黒画素連結成分毎に外接矩形のサイズを算出してお
く。このとき、マークの枠の部分に対応する黒画素連結
成分の外接矩形サイズは、入力画像内の各文字のサイズ
に比べると十分大きいが、マークは書類の余白部分に納
まるように押す必要があることから、極端に大きなサイ
ズになることもない。この性質を利用し、上記ラベリン
グ処理によって得られた黒画素連結成分のうち、外接矩
形の占める領域の大きさが、指定された2つの閾値の間
に納まる領域だけを抽出する。すなわち、高さおよび幅
の大きさが、それぞれある閾値〔余白のサイズ(高さ、
幅)として通常考えられる最小サイズ〕よりも大きく、
且つ、別のある閾値〔余白のサイズとして通常考えられ
る最大サイズ〕よりも小さくなるような黒画素連結成分
の領域だけを抽出することによって、各マーク画像の領
域を抽出することができる。
First, the above-described labeling process is performed on the black pixels of each binary image, and the size of the circumscribed rectangle is calculated for each black pixel connected component to which the same label value has been added. At this time, the circumscribed rectangle size of the black pixel connected component corresponding to the frame portion of the mark is sufficiently larger than the size of each character in the input image, but the mark needs to be pushed so as to fit in the margin of the document. Therefore, the size does not become extremely large. By utilizing this property, only the area where the size of the area occupied by the circumscribed rectangle falls within the two specified threshold values is extracted from the black pixel connected components obtained by the labeling processing. That is, the height and the width are each determined by a certain threshold [the size of the margin (height,
Width) is usually larger than
In addition, by extracting only the area of the black pixel connected component that is smaller than another certain threshold value (the maximum size that is generally considered as a margin size), the area of each mark image can be extracted.

【0137】上記の処理によって、各文書画像から抽出
されたマークの個数を、それぞれ登録画像管理テーブル
1212’の「マーク数」フィールド124’に格納す
る。また、抽出された各マーク画像にマークIDを付与
し、このマークIDを図18に示すようなマーク管理テ
ーブル1213’の「マークID」フィールド131’
に格納する。また、各マークが付されていた入力画像の
画像ID、マークが付されていたおよびマークのサイズ
に関する情報を、それぞれマーク管理テーブル121
3’の「画像ID」「位置」「サイズ」の各フィールド
132’、134’、135’に格納する。
By the above processing, the number of marks extracted from each document image is stored in the “number of marks” field 124 ′ of the registered image management table 1212 ′. Also, a mark ID is given to each extracted mark image, and this mark ID is assigned to a “mark ID” field 131 ′ of a mark management table 1213 ′ as shown in FIG.
To be stored. Also, the image ID of the input image to which each mark is attached, the information about the attached mark and the size of the mark are stored in the mark management table 121, respectively.
3 'are stored in the fields 132', 134 'and 135' of "image ID", "position" and "size".

【0138】なお、本実施の形態ではマークの付された
画像にのみ文書タグ情報を付与することとしている。こ
の他にも、最初のマークの付された画像から、次のマー
クが付された画像までの間に入力された画像を、上記最
初のマークの付された画像に付随する一連の文書画像と
して管理したい場合には、上記実施の形態5と同様にに
マーク管理グループ番号を付与して管理する方法を採用
することもできる。
In this embodiment, the document tag information is added only to the marked image. In addition, the images input between the image with the first mark and the image with the next mark are converted into a series of document images attached to the image with the first mark. If management is desired, a method of assigning and managing a mark management group number as in the fifth embodiment can be adopted.

【0139】以下、算出手段120A(特徴量算出手段
1206、類似度算出手段1207)、文書タグ情報決
定手段1208では、それぞれ実施の形態5と同様、公
知の技術であるモーメント・インバリアントの特徴量に
基づいて、各マーク画像に関連付けられている文書タグ
情報を特定する。そして、特定された文書タグ情報をマ
ーク管理テーブル1213’の「文書タグ情報」フィー
ルド133’に格納する。
The calculation means 120A (feature value calculation means 1206, similarity calculation means 1207) and the document tag information determination means 1208 are similar to the fifth embodiment, and each of them is a feature quantity of a moment invariant which is a known technique. , The document tag information associated with each mark image is specified. Then, the specified document tag information is stored in the “document tag information” field 133 ′ of the mark management table 1213 ′.

【0140】以上の処理を用いることにより、登録した
い紙文書の余白部分にマークを押して入力するだけで、
自動的に検出して文書タグ情報を付与することが可能に
なる。この場合、実施の形態5で用いた文書タグ情報指
定ページは不要であり、登録したい書類だけを入力する
ことになる。また上述のように、登録画像管理テーブル
1212’及びマーク管理テーブル1213’は、実施
の形態5における登録画像管理テーブル1212及びマ
ーク管理テーブル1213よりも簡単な構成となってい
る。
By using the above processing, a mark can be pressed in the margin of a paper document to be registered and input.
It is possible to automatically detect and add document tag information. In this case, the document tag information designation page used in the fifth embodiment is unnecessary, and only the document to be registered is input. As described above, the registered image management table 1212 ′ and the mark management table 1213 ′ have a simpler configuration than the registered image management table 1212 and the mark management table 1213 in the fifth embodiment.

【0141】勿論、本実施の形態においても、実施の形
態5と同様、マーク抽出の処理を速めるために、マーク
の付されたページに2次元コード等を付与しておく方法
を採用することもできる。
Of course, in this embodiment, as in the fifth embodiment, a method of adding a two-dimensional code or the like to a marked page may be adopted in order to speed up the mark extraction process. it can.

【0142】また、本実施の形態では、紙文書の内容が
記載されている面の余白部分にマークを押して入力した
が、両面を読み取ることができるスキャナ等を利用する
場合には、書類の裏面にマークを押して入力する場合に
も同様の効果が期待できる。
In the present embodiment, the mark is pressed in the blank portion of the surface on which the content of the paper document is described, but the input is made by using a scanner capable of reading both sides. The same effect can be expected when inputting by pressing the mark on.

【0143】更に、上記のマークは枠を持つものとした
が、この枠は必須のものではない。枠がない場合にも、
通常マークは紙文書本文中の文字よりも大きな黒画素連
結成分から構成されると考えられるので、本実施の形態
が適用できる。
Further, the above-mentioned mark has a frame, but this frame is not essential. Even if there is no frame,
Since a normal mark is considered to be composed of black pixel connected components larger than characters in a paper document body, this embodiment can be applied.

【0144】[0144]

【発明の効果】以上説明したように、第1に、本発明に
よれば、抽出判定値より大きい領域平均文字サイズの領
域をタイトル領域として抽出するようにしているため、
1つの文書画像から複数のタイトル領域を抽出できる。
また、複数段階の抽出パラメータに基づいて複数段階の
抽出判定をすることもでき、更に、この複数段階の抽出
パラメータを入力された文書画像の特性に応じて決定で
きる。また、全平均文字サイズの算出、あるいは領域平
均文字サイズの算出に、大きい方の所定割合と小さい方
の所定割合に属する文字を除外して算出するトリム平均
を用いると、より精度を上げることができる。
As described above, first, according to the present invention, an area having an average character size larger than the extraction determination value is extracted as a title area.
A plurality of title areas can be extracted from one document image.
In addition, a plurality of stages of extraction determination can be performed based on a plurality of stages of extraction parameters, and the plurality of stages of extraction parameters can be determined according to characteristics of the input document image. Further, by using the trim average, which is calculated by excluding characters belonging to the larger predetermined ratio and the smaller predetermined ratio, in the calculation of the total average character size or the calculation of the region average character size, accuracy can be further improved. it can.

【0145】更に、第2に、本発明によれば、キーボー
ドやポインティングデバイス等を用いることなく、マー
ク処理された書類を文書画像処理装置に入力するだけ
で、自動的に入力画像に文書タグ情報を付与することが
できる。ここで付与された文書タグ情報を利用すること
によって文書画像を検索することができるため、文書画
像処理装置を効率良く管理、運用することができるよう
になる。
Furthermore, secondly, according to the present invention, only by inputting a marked document to a document image processing apparatus without using a keyboard or a pointing device, document tag information is automatically added to an input image. Can be provided. Since the document image can be searched by using the document tag information given here, the document image processing apparatus can be efficiently managed and operated.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態1における文書画像処理装
置の概略機能ブロック図である。
FIG. 1 is a schematic functional block diagram of a document image processing device according to a first embodiment of the present invention.

【図2】実施の形態1におけるタイトル領域抽出処理の
フローチャートである。
FIG. 2 is a flowchart of a title area extraction process according to the first embodiment.

【図3】実施の形態2におけるタイトル領域抽出処理の
フローチャートである。
FIG. 3 is a flowchart of a title area extraction process according to the second embodiment.

【図4】実施の形態3におけるタイトル領域抽出処理の
フローチャートである。
FIG. 4 is a flowchart of a title area extraction process according to the third embodiment.

【図5】実施の形態1における登録情報管理テーブルの
説明図である。
FIG. 5 is an explanatory diagram of a registration information management table according to the first embodiment.

【図6】実施の形態2における登録情報管理テーブルの
説明図である。
FIG. 6 is an explanatory diagram of a registration information management table according to the second embodiment.

【図7】ラベリング処理の説明図である。FIG. 7 is an explanatory diagram of a labeling process.

【図8】領域分割処理の説明図である。FIG. 8 is an explanatory diagram of a region dividing process.

【図9】文字矩形の高さ・幅・面積の関係を示す図であ
る。
FIG. 9 is a diagram illustrating a relationship among height, width, and area of a character rectangle.

【図10】実施の形態1の検索時においてディスプレイ
に表示される内容を示す図である。
FIG. 10 is a diagram showing contents displayed on a display at the time of search according to the first embodiment.

【図11】実施の形態2の検索時においてディスプレイ
に表示される内容を示す図である。
FIG. 11 is a diagram showing contents displayed on a display at the time of a search according to the second embodiment.

【図12】本発明の実施の形態5及び6における文書画
像処理装置の概略機能ブロック図である。
FIG. 12 is a schematic functional block diagram of a document image processing device according to Embodiments 5 and 6 of the present invention.

【図13】本発明の実施の形態5における登録画像管理
テーブルの説明図である。
FIG. 13 is an explanatory diagram of a registered image management table according to the fifth embodiment of the present invention.

【図14】本発明の実施の形態5におけるマーク管理テ
ーブルの説明図である。
FIG. 14 is an explanatory diagram of a mark management table according to the fifth embodiment of the present invention.

【図15】文書タグ情報管理テーブルの説明図である。FIG. 15 is an explanatory diagram of a document tag information management table.

【図16】マーク画像の抽出結果に関する説明図であ
る。
FIG. 16 is an explanatory diagram related to a result of extracting a mark image.

【図17】本発明の実施の形態6における登録画像管理
テーブルの説明図である。
FIG. 17 is an explanatory diagram of a registered image management table according to the sixth embodiment of the present invention.

【図18】本発明の実施の形態6におけるマーク管理テ
ーブルの説明図である。
FIG. 18 is an explanatory diagram of a mark management table according to the sixth embodiment of the present invention.

【図19】文書タグ情報の概念を示す説明図である。FIG. 19 is an explanatory diagram showing the concept of document tag information.

【符号の説明】[Explanation of symbols]

101 画像入力手段 102 文字矩形生成手段 103 領域分割手段 104 タイトル領域抽出手段 105 文字認識手段 106 文書登録手段 107 画像メモリ 108 記憶手段 108a 文書画像 108b タイトル領域画像 108c 登録情報管理テーブル 109 指示入力手段 110 表示制御手段 111a,111b 画像処理手段 112 修正手段 1201 画像入力手段 1202 画像メモリ 1203 画像データ圧縮処理手段 1204 画像2値化処理手段 1205,1205’ マーク抽出手段 120A 算出手段 1206 特徴量算出手段 1207 類似度算出手段 1208 文書タグ情報付与手段 1210 記憶手段 1211 画像記憶領域 1212,1212’ 登録画像管理テーブル 1213,1213’ マーク管理テーブル 1214 標準タグ情報管理テーブル 1215 標準タグ情報蓄積手段 101 image input means 102 character rectangle generation means 103 area division means 104 title area extraction means 105 character recognition means 106 document registration means 107 image memory 108 storage means 108a document image 108b title area image 108c registration information management table 109 instruction input means 110 display Control means 111a, 111b Image processing means 112 Correction means 1201 Image input means 1202 Image memory 1203 Image data compression processing means 1204 Image binarization processing means 1205, 1205 'Mark extraction means 120A Calculation means 1206 Feature amount calculation means 1207 Similarity calculation Means 1208 Document tag information adding means 1210 Storage means 1211 Image storage area 1212, 1212 'Registered image management table 1213, 1213' Mark management table 214 standard tag information management table 1215 standard tag information storing means

フロントページの続き (72)発明者 梅林 明人 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B050 BA10 BA16 DA06 EA01 EA03 EA04 EA07 5B075 ND07 NK31 NK39 NR03 NR12 5L096 BA17 EA35 EA43 FA44 FA59 FA64 GA15 GA34 HA08 JA03 JA11 Continued on the front page (72) Inventor Akito Umebayashi 1006 Kazuma Kadoma, Kadoma City, Osaka Prefecture F-term in Matsushita Electric Industrial Co., Ltd. FA59 FA64 GA15 GA34 HA08 JA03 JA11

Claims (29)

【特許請求の範囲】[Claims] 【請求項1】 紙文書を読み取って文書画像を生成する
画像入力手段と、該文書画像を複数の領域に分割する領
域分割手段と、該領域分割手段によって分割された各領
域について文字の平均サイズに相当する領域平均文字サ
イズを算出した後、該領域平均文字サイズに基づいて全
領域の中からタイトル領域を抽出するタイトル領域抽出
手段とを備えた文書画像処理装置において、 全領域の文字の平均サイズに相当する全平均文字サイズ
を算出した後、該全平均文字サイズに抽出パラメータを
乗算した抽出判定値と上記領域平均文字サイズとを比較
し、上記抽出判定値より大きい領域平均文字サイズの領
域をタイトル領域として抽出する上記タイトル領域抽出
手段を備えたことを特徴とする文書画像処理装置。
An image input unit configured to read a paper document to generate a document image; an area dividing unit configured to divide the document image into a plurality of areas; and an average size of a character in each area divided by the area dividing unit. Calculating a region average character size corresponding to the character region, and then extracting a title region from all regions based on the region average character size. After calculating a total average character size corresponding to the size, an extraction determination value obtained by multiplying the total average character size by an extraction parameter is compared with the region average character size. A document image processing apparatus comprising the above-described title region extracting means for extracting a title as a title region.
【請求項2】 上記領域平均文字サイズと全平均文字サ
イズとを、文字の平均高さに基づいて算出する上記タイ
トル領域抽出手段を備える、請求項1に記載の文書画像
処理装置。
2. The document image processing apparatus according to claim 1, further comprising: the title area extracting unit that calculates the area average character size and the total average character size based on an average character height.
【請求項3】 上記領域平均文字サイズと全平均文字サ
イズとを、文字の平均幅に基づいて算出する上記タイト
ル領域抽出手段を備える、請求項1に記載の文書画像処
理装置。
3. The document image processing apparatus according to claim 1, further comprising: the title area extracting unit that calculates the area average character size and the total average character size based on an average character width.
【請求項4】 上記領域平均文字サイズと全平均文字サ
イズとを、文字の平均面積に基づいて算出する上記タイ
トル領域抽出手段を備える、請求項1に記載の文書画像
処理装置。
4. The document image processing apparatus according to claim 1, further comprising the title area extracting means for calculating the area average character size and the total average character size based on an average area of characters.
【請求項5】 上記タイトル領域抽出手段が、複数段階
の抽出パラメータを用いて複数段階の上記抽出判定値を
算出する請求項1に記載の文書画像処理装置。
5. The document image processing apparatus according to claim 1, wherein the title area extracting means calculates the extraction determination value in a plurality of stages using an extraction parameter in a plurality of stages.
【請求項6】 上記タイトル領域抽出手段が、複数段階
の抽出パラメータを用いて複数段階の上記抽出判定値を
算出するとともに、抽出した段階を示すレベル属性を対
応付けてタイトル領域を抽出する請求項1に記載の文書
画像処理装置。
6. The title region extracting means calculates a plurality of stages of the extraction determination value using a plurality of stages of extraction parameters, and extracts a title region in association with a level attribute indicating the extracted stage. 2. The document image processing device according to 1.
【請求項7】 上記タイトル領域抽出手段が、領域平均
文字サイズの最大値を全平均文字サイズで除算した値に
基づいて上記複数段階の抽出パラメータを決定する請求
項2または3に記載の文書画像処理装置。
7. The document image according to claim 2, wherein the title region extracting means determines the plurality of stages of extraction parameters based on a value obtained by dividing a maximum value of the region average character size by a total average character size. Processing equipment.
【請求項8】 上記タイトル領域抽出手段が、上記全平
均文字サイズおよび領域平均文字サイズを、所定割合よ
り大きい文字および所定割合より小さい文字を除外した
文字より算出するトリム平均を用いる、請求項1に記載
の文書画像処理装置。
8. The title area extracting means uses a trim average for calculating the total average character size and the area average character size from characters excluding characters larger than a predetermined ratio and characters smaller than a predetermined ratio. A document image processing apparatus according to claim 1.
【請求項9】 抽出された上記タイトル領域の文字列を
修正する修正手段を備える、請求項1に記載の文書画像
処理装置。
9. The document image processing apparatus according to claim 1, further comprising a correction unit that corrects the extracted character string of the title area.
【請求項10】 上記文書画像が複数頁の文書画像であ
る、請求項1に記載の文書画像処理装置。
10. The document image processing apparatus according to claim 1, wherein said document image is a document image of a plurality of pages.
【請求項11】 紙文書を読み取って文書画像を生成す
る画像入力処理と、該文書画像を複数の領域に分割する
分割処理と、各領域について文字の平均サイズに相当す
る領域平均文字サイズを算出する算出処理と、該領域平
均文字サイズに基づいて全領域の中からタイトル領域を
抽出するタイトル抽出処理とを備える文書画像処理装置
の文書タイトル抽出方法において、 全領域の文字の平均サイズに相当する全平均文字サイズ
を算出する上記算出処理と、該全平均文字サイズに抽出
パラメータを乗算した抽出判定値と上記領域平均文字サ
イズとを比較する比較処理と、上記抽出判定値より大き
い領域平均文字サイズの領域をタイトル領域として抽出
する上記タイトル抽出処理とを備えることを特徴とす
る、文書画像処理装置の文書タイトル抽出方法。
11. An image input process for reading a paper document to generate a document image, a dividing process for dividing the document image into a plurality of regions, and calculating an average character size of each region corresponding to an average character size. In the document title extracting method of the document image processing device, the calculating method comprises: a calculating process of extracting the title region from the entire region based on the average character size of the region. The above-described calculation processing for calculating the total average character size, a comparison processing for comparing the extraction determination value obtained by multiplying the total average character size by an extraction parameter with the area average character size, and an area average character size larger than the extraction determination value Extracting the document title as a title area. Method.
【請求項12】 上記領域平均文字サイズと全平均文字
サイズとを、文字の平均高さに基づいて算出する上記算
出処理を備える、請求項11に記載の文書タイトル抽出
方法。
12. The document title extracting method according to claim 11, further comprising the calculation processing for calculating the area average character size and the total average character size based on an average character height.
【請求項13】 上記領域平均文字サイズと全平均文字
サイズとを、文字の平均幅に基づいて算出する上記算出
処理を備える、請求項11に記載の文書タイトル抽出方
法。
13. The document title extracting method according to claim 11, further comprising the calculation processing for calculating the area average character size and the total average character size based on an average character width.
【請求項14】 上記領域平均文字サイズと全平均文字
サイズとを、文字の平均面積に基づいて算出する上記算
出処理を備える、請求項11に記載の文書タグ情報の抽
出方法。
14. The method for extracting document tag information according to claim 11, further comprising the calculation processing of calculating the area average character size and the total average character size based on the average area of the character.
【請求項15】 上記タイトル抽出処理が、複数段階の
抽出パラメータを用いて複数段階の上記抽出判定値を算
出する請求項14に記載の文書画像処理装置の文書タイ
トル抽出方法。
15. The document title extracting method of the document image processing apparatus according to claim 14, wherein the title extracting process calculates the extraction determination value in a plurality of stages using an extraction parameter in a plurality of stages.
【請求項16】 複数段階の抽出パラメータを用いて複
数段階の上記抽出判定値を算出するとともに、抽出した
段階を示すレベル属性を対応付けてタイトル領域を抽出
する上記タイトル抽出処理を備える、請求項14に記載
の文書画像処理装置の文書タイトル抽出方法。
16. The method according to claim 1, further comprising calculating the extraction determination values in a plurality of stages using the extraction parameters in a plurality of stages, and extracting a title area in association with a level attribute indicating the extracted stage. 14. The document title extracting method of the document image processing device according to 14.
【請求項17】 領域平均文字サイズの最大値を全平均
文字サイズで除算した値に基づいて上記複数段階の抽出
パラメータを決定する上記タイトル抽出処理を備える、
請求項15または16に記載の文書画像処理装置の文書
タイトル抽出方法。
17. The title extraction processing for determining the plurality of stages of extraction parameters based on a value obtained by dividing the maximum value of the area average character size by the total average character size,
A document title extracting method for the document image processing apparatus according to claim 15.
【請求項18】 所定割合より大きい文字および所定割
合より小さい文字を除外した文字の平均値を算出するト
リム平均を用いて全平均文字サイズおよび領域平均文字
サイズを算出する上記タイトル抽出処理を備える、請求
項11に記載の文書画像処理装置の文書タイトル抽出方
法。
18. The title extraction process for calculating a total average character size and an area average character size by using a trim average for calculating an average value of characters excluding a character larger than a predetermined ratio and a character smaller than the predetermined ratio. A document title extracting method for the document image processing apparatus according to claim 11.
【請求項19】 抽出された上記タイトル領域の文字列
を修正する修正処理を備える、請求項11に記載の文書
画像処理装置の文書タイトル抽出方法。
19. The document title extracting method for a document image processing apparatus according to claim 11, further comprising a correction process for correcting the extracted character string in the title area.
【請求項20】 上記文書画像が複数頁の文書画像であ
る、請求項11に記載の文書画像処理装置の文書タイト
ル抽出方法。
20. The method according to claim 11, wherein the document image is a multi-page document image.
【請求項21】 紙文書を読み取って生成した文書画像
を複数の領域に分割するとともに、各領域について文字
の平均サイズに相当する領域平均文字サイズと全領域の
文字の平均サイズに相当する全平均文字サイズとを算出
し、該全平均文字サイズに抽出パラメータを乗算した抽
出判定値と上記領域平均文字サイズとを比較して、上記
抽出判定値より大きい領域平均文字サイズの領域をタイ
トル領域として抽出するプログラムを記録した、記録媒
体。
21. A document image generated by reading a paper document is divided into a plurality of regions, and a region average character size corresponding to an average character size and a total average character corresponding to an average character size of all regions are obtained for each region. A character size is calculated, and an extraction determination value obtained by multiplying the total average character size by an extraction parameter is compared with the region average character size, and a region having a region average character size larger than the extraction determination value is extracted as a title region. A recording medium on which a program to be recorded is recorded.
【請求項22】 紙文書を読み取って文書画像を生成す
る画像入力手段と、該文書画像を記憶する記憶手段とを
備える文書画像処理装置において、 標準タグ情報を該標準タグ情報の属性値とともに蓄積し
ておく標準タグ情報蓄積手段と、 上記紙文書上にユーザが付した特定のマークを抽出する
マーク抽出手段と、 上記特定のマークを構成する画素の分布に基づいて該マ
ークの特徴を表す特徴値を算出する算出手段と、 上記属性値と特徴値とに基づき、特定の標準タグ情報を
選択して上記文書画像に付与する文書タグ情報付与手段
とを備えることを特徴とする、文書画像処理装置。
22. A document image processing apparatus comprising image input means for reading a paper document to generate a document image and storage means for storing the document image, wherein standard tag information is stored together with attribute values of the standard tag information. Standard tag information accumulating means, mark extracting means for extracting a specific mark added by a user on the paper document, and characteristic representing the characteristic of the mark based on the distribution of pixels constituting the specific mark Document image processing comprising: calculating means for calculating a value; and document tag information providing means for selecting specific standard tag information based on the attribute value and the characteristic value and providing the selected standard tag information to the document image. apparatus.
【請求項23】 上記マーク抽出手段が特定の用紙上の
上記特定のマークを抽出する、請求項22に記載の文書
画像処理装置。
23. The document image processing apparatus according to claim 22, wherein said mark extracting means extracts said specific mark on a specific sheet.
【請求項24】 上記マーク抽出手段が、2次元コード
を付した用紙を上記特定の用紙として判別する、請求項
23に記載の文書画像処理装置。
24. The document image processing apparatus according to claim 23, wherein said mark extracting means determines a sheet with a two-dimensional code as said specific sheet.
【請求項25】 上記マーク抽出手段が上記紙文書の余
白上の上記特定のマークを抽出する、請求項22に記載
の文書画像処理装置。
25. The document image processing apparatus according to claim 22, wherein said mark extracting means extracts said specific mark on a margin of said paper document.
【請求項26】 上記紙文書が複数頁からなる、請求項
22に記載の文書画像処理装置。
26. The document image processing apparatus according to claim 22, wherein said paper document is composed of a plurality of pages.
【請求項27】 紙文書を読み取って生成した文書画像
の文書タグ情報を付与する文書画像処理装置の文書タグ
情報付与方法において、 標準タグ情報を該標準タグ情報の属性値とともに蓄積し
ておく文書タグ情報蓄積処理と、 上記紙文書上にユーザが付した特定のマークを抽出する
マーク抽出処理と、 上記マークの画素の分布に基づいて該マークの特徴を表
す数値を算出する算出処理と、 上記属性値と特徴値とに基づき、特定の標準タグ情報を
選択して上記文書画像に付与する文書タグ情報付与処理
とを備えることを特徴とする、文書画像処理装置の文書
タグ情報付与方法。
27. A document tag information assigning method of a document image processing apparatus for assigning document tag information of a document image generated by reading a paper document, wherein a standard tag information is stored together with an attribute value of the standard tag information. Tag information accumulation processing, mark extraction processing for extracting a specific mark added by a user on the paper document, calculation processing for calculating a numerical value representing the characteristic of the mark based on the distribution of pixels of the mark, A document tag information providing method for a document image processing apparatus, comprising: a process of selecting specific standard tag information based on an attribute value and a characteristic value and providing the selected standard tag information to the document image.
【請求項28】 上記紙文書が複数頁からなる、請求項
27に記載の文書画像処理装置の文書タグ情報付与方
法。
28. The method according to claim 27, wherein said paper document comprises a plurality of pages.
【請求項29】 紙文書を読み取って文書画像を生成す
る際に、該紙文書上にユーザが付したの特定のマークを
抽出し、該マークの画素の分布に基づいた該マークの特
徴を表す数値を算出するとともに、該数値に基づいて文
書タグ情報の候補の中から上記文書画像に付与する文書
タグ情報を選択するプログラムが記録された、記録媒
体。
29. When a paper document is read to generate a document image, a specific mark added by a user on the paper document is extracted, and the characteristics of the mark based on the pixel distribution of the mark are represented. A recording medium in which a program for calculating a numerical value and selecting document tag information to be added to the document image from among the document tag information candidates based on the numerical value is recorded.
JP2000053079A 1999-03-01 2000-02-29 Document image processor, method for extracting its document title and method for attaching document tag information Withdrawn JP2001034763A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000053079A JP2001034763A (en) 1999-03-01 2000-02-29 Document image processor, method for extracting its document title and method for attaching document tag information

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP5215699 1999-03-01
JP11-52156 1999-05-14
JP13384999 1999-05-14
JP11-133849 1999-05-14
JP2000053079A JP2001034763A (en) 1999-03-01 2000-02-29 Document image processor, method for extracting its document title and method for attaching document tag information

Publications (1)

Publication Number Publication Date
JP2001034763A true JP2001034763A (en) 2001-02-09

Family

ID=27294564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000053079A Withdrawn JP2001034763A (en) 1999-03-01 2000-02-29 Document image processor, method for extracting its document title and method for attaching document tag information

Country Status (1)

Country Link
JP (1) JP2001034763A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350959A (en) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd Image processor, image processing method and image processing program
JP2007124153A (en) * 2005-10-26 2007-05-17 Konica Minolta Business Technologies Inc Apparatus, method and program for image processing
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
JP2012216094A (en) * 2011-03-31 2012-11-08 Fujifilm Corp Proofreading apparatus, proofreading method and program
JP2017194832A (en) * 2016-04-20 2017-10-26 京セラドキュメントソリューションズ株式会社 Image processing device
JP2022104498A (en) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 Information processing system, information processing method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350959A (en) * 2005-06-20 2006-12-28 Fuji Xerox Co Ltd Image processor, image processing method and image processing program
JP2007124153A (en) * 2005-10-26 2007-05-17 Konica Minolta Business Technologies Inc Apparatus, method and program for image processing
JP4661525B2 (en) * 2005-10-26 2011-03-30 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus, image processing method, and image processing program
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
JP2012216094A (en) * 2011-03-31 2012-11-08 Fujifilm Corp Proofreading apparatus, proofreading method and program
JP2017194832A (en) * 2016-04-20 2017-10-26 京セラドキュメントソリューションズ株式会社 Image processing device
JP2022104498A (en) * 2020-12-28 2022-07-08 キヤノンマーケティングジャパン株式会社 Information processing system, information processing method and program

Similar Documents

Publication Publication Date Title
US7035463B1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
CN109543501B (en) Image processing apparatus, image processing method, and storage medium
Shahab et al. An open approach towards the benchmarking of table structure recognition systems
US7519226B2 (en) Form search apparatus and method
JP4266695B2 (en) Image processing apparatus and image processing method
JP2776295B2 (en) Image index generation method and image index generation device
Xi et al. A video text detection and recognition system
US8520941B2 (en) Method and system for document image classification
JP5492205B2 (en) Segment print pages into articles
JP5663866B2 (en) Information processing apparatus and information processing program
EP1107169A2 (en) Method and apparatus for performing document structure analysis
JP6569500B2 (en) Image processing apparatus and image processing method
US20110043869A1 (en) Information processing system, its method and program
US6711292B2 (en) Block selection of table features
JP4785655B2 (en) Document processing apparatus and document processing method
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP4100885B2 (en) Form recognition apparatus, method, program, and storage medium
US11935314B2 (en) Apparatus for generating a binary image into a white pixel, storage medium, and method
JP3851742B2 (en) Form processing method and apparatus
US20100131841A1 (en) Document image layout apparatus
CN109685061A (en) The recognition methods of mathematical formulae suitable for structuring
CN109726369A (en) A kind of intelligent template questions record Implementation Technology based on normative document
US6968501B2 (en) Document format identification apparatus and method
JP2001034763A (en) Document image processor, method for extracting its document title and method for attaching document tag information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090708

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090916