JP2002269495A

JP2002269495A - 文字認識装置および文字認識プログラム

Info

Publication number: JP2002269495A
Application number: JP2001071180A
Authority: JP
Inventors: Toshihiro Suzuki; 俊博鈴木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】複数頁の原稿画像をスキャナで読取る場合、
原稿画像上の認識対象領域のみを精度よく効率的に読み
取れるようにする。【解決手段】手動で領域情報を設定する場合におい
て、原稿１０のタイトル領域１１を認識対象領域として
指定する場合、オペレータは、原稿１０が表示されてい
るディスプレイ画面上のマウスカーソルを制御すること
により設定する。設定された領域は枠として画面に即座
に表示される。次に、原稿１０のロゴ領域１５を読み取
りたくない場合は、マウス・クリックによって、認識条
件として「非読取対象」が設定される。原稿１０の頁番
号領域１４についても同様に、頁番号が不要である場合
には「非読取対象」に設定することができる。このよう
に、各領域を手動で設定し、特定の領域については「非
読取対象」に設定することができる。これらの認識条件
を読み取って文字認識処理を実行し、読み取り結果をデ
ィスプレイ画面に表示する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字認識装置、お
よび文字認識をコンピュータに実行させるためのプログ
ラムに関し、特に原稿画像の読取領域指定における文字
認識装置および文字認識プログラムに関する。

【０００２】

【従来の技術】文字認識装置における認識対象となる領
域を指定する方式における現在の主流を考える。これ
は、自動的に対象領域を抽出する領域識別手段を用いる
方式と、手動で対象領域を用いる方式（例えば特開平５
−１５１３８７号公報）の二つであり、通常は両者を選
択できるように実現されている。確かに、読取対象画像
が一頁だけであれば、これらの手段で十分である。文字
認識処理の妨げになるのは、読取対象にならないもの
（図、ロゴ、写真など）であるが、これらは、領域とし
て選ばなければよいのである。また、入り組んで分離が
難しい場合であっても、消しゴムツールのようなもの
で、手動で除去することが可能だからである。

【０００３】

【発明が解決しようとする課題】ところが、読取対象が
複数頁である場合に問題が生じる。これは、読取対象外
となるものが、複数頁に繰り返し出現することがあるか
らである。すなわち、手動での領域指定を何度も繰り返
す必要があるため、煩雑となる。また、読取対象外のも
のとして、図、ロゴ、写真などに加えて、書籍折り返し
部の黒スジ、スキャナの汚れによるノイズなどがあり得
る。また、使用者から見て読み取る必要のないものとし
て、例えば頁周辺部の頁番号などがあるが、これは使用
目的などに応じて決められるものであり、領域識別技術
の側で自動的に判定することは困難である。

【０００４】このように、本来的な意味で、あるいは使
用目的において、読取対象外となるべきものがあって、
これが読取精度に大きく影響するのであるが、それらを
すべて領域識別技術の側で自動的に判定することは困難
である。一方、すべての頁で手動で指定するならば、作
業が繁雑になるという問題がある。

【０００５】本発明は、このような状況に鑑みてなされ
たものであり、非読取対象領域という属性（読取条件）
を指定する機能を導入することによって、複数頁にまた
がる同一の調整作業をなくし、読取作業を容易にし、か
つ読取精度を高めることを目的としている。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
めに、本発明による第１の文字認識装置においては、原
稿画像をディスプレイの画面に表示し、ディスプレイの
画面上で原稿画像における認識対象領域とその認識対象
領域の認識条件とを入力装置により決定するようにした
文字認識装置において、入力装置の指示に応じて原稿画
像における「非読取対象領域」を認識条件として設定す
る非読取対象領域設定手段を設けている。

【０００７】本発明による第２の文字認識装置において
は、原稿画像における認識対象領域とその認識対象領域
の認識条件とを領域識別手段により自動的に決定するよ
うにした文字認識装置において、入力装置の指示に応じ
て原稿画像における「非読取対象領域」を認識条件とし
て設定する非読取対象領域設定手段を設けている。

【０００８】本発明による第１の文字認識プログラム
は、原稿画像をディスプレイの画面に表示し、ディスプ
レイの画面上で原稿画像における認識対象領域とその認
識対象領域の認識条件とを入力装置により決定する決定
処理と、入力装置の指示に応じて原稿画像における「非
読取対象領域」を認識条件として設定する非読取対象領
域設定処理とをコンピュータに実行させるようにしてい
る。

【０００９】本発明による第２の文字認識プログラム
は、原稿画像における認識対象領域とその認識対象領域
の認識条件を自動的に決定する領域識別処理と、入力装
置の指示に応じて原稿画像における「非読取対象領域」
を認識条件として設定する非読取対象領域設定処理とを
コンピュータに実行させるようにしている。

【００１０】

【発明の実施の形態】以下、本発明の実施形態を図面と
ともに説明する。図１は本発明の実施形態による光学的
文字認識システムの全体的構成を示す。本システムはス
キャナ１、ディスプレイ２、キーボード３、マウス４、
文字認識装置１００等を有して構成されている。また、
文字認識装置１００は制御部５、認識対象領域指定部
６、領域識別部７、領域条件記憶部８、文字認識部９等
を有している。制御部５、は認識対象領域指定部６、領
域識別部７、領域条件記憶部８、および文字認識部９の
制御を行い、スキャナ１、ディスプレイ２、キーボード
３、およびマウス４との橋渡しをする部分である。

【００１１】処理対象画像（文書・帳票等）は、スキャ
ナ１によって読み取られ、制御部５を介して文字認識装
置１００に入力され、ディスプレイ２に表示される。認
識対象領域指定部６は、オペレータとの対話的処理によ
って認識対象領域（矩形領域）の始終点座標と、認識対
象領域に関する認識条件とを決定し、領域条件記憶部８
に記憶する。認識条件とは、文字列の行方向、文字方
向、文字種、文字サイズ、対象／非対象などのことであ
る。あるいは、領域識別部７によって、自動的に認識対
象領域と条件とを決定し、これを領域条件記憶部８に記
憶するようにしてもよい。文字認識部９は、領域条件記
憶部８に指定された認識対象領域毎に、指定された認識
条件によって認識処理を実行する。

【００１２】以下の各実施形態の説明においては、図２
に示すような原稿１０を処理対象として、これをスキャ
ナ１により読み取り、この原稿１０のタイトル領域１
１、テキスト文字列領域１２および１３、頁番号領域１
４、およびロゴ領域１５を抽出し、その認識条件を設定
するものとする。図２において、タイトル領域１１は、
やや文字が大きめなタイトル領域（テキスト文字列）と
する。テキスト文字列領域１２および１３は通常のテキ
スト文字列の領域とする。頁番号領域１４は頁番号と
し、認識対象から除きたいものであるとする。ロゴ領域
１５のロゴもまた、認識対象から除きたいものであると
する。

【００１３】次に、第１の実施形態について説明する。
本実施形態は、手動で領域情報を設定する場合であると
する。このときの処理の流れは、図４に示す通りであ
る。同図は一つの領域に対する処理の流れである。原稿
１０のタイトル領域１１を指定する場合、オペレータ
は、原稿１０のイメージが表示されているディスプレイ
２の画面上のマウスカーソルを制御して、タイトル領域
１１の左上角である始点に移動させ、そこでマウスボタ
ンを押す。認識対象領域指定部６は、その動作を検出す
る（Ｓ１０１）と、その時点でのマウスカーソル座標を
領域の始点座標として設定（Ｓ１０２）する。

【００１４】次にオペレータは、マウスボタンを押した
まま移動（ドラッグ）させ、マウスカーソルがテキスト
文字列領域１２の右下角である終点に合わせて、マウス
ボタンを離す。認識対象領域指定部６は、マウスボタン
が離されたことを検出する（Ｓ１０３）と、その時点で
のマウスカーソル座標を領域の終点座標として設定（Ｓ
１０４）する。これで一つの対象領域について、その座
標値が設定されたことになる。

【００１５】座標値を除く領域情報については、既定値
（デフォルト値）を用いて、すべての認識条件が初期的
に設定される。既定値は、他のメニューなどから設定で
きるようになっている。また、指定領域は枠として画面
に即座に表示されるものとする。これは後述の各実施形
態においても同様である。

【００１６】本実施形態では、図３のように認識条件の
なかで行方向を主に表示したタグが表示されている。こ
れは、マウス・クリックによってサイクリック（循環
的）に変更される。デフォルト（既定値）では横方向で
あり、マウス・クリックによって縦方向、さらに「非読
取対象」に変更される。図３は、原稿１０のロゴ領域１
５についてであり、２回のクリックによって、認識条件
に「非読取対象」が設定される（Ｓ１０６からＳ１０
７）。

【００１７】原稿１０の頁番号領域１４についても同様
に、頁番号が不要である場合には「非読取対象」に設定
することができる。このように、各領域を手動で設定
し、特定の領域については「非読取対象」に設定するこ
とができる。

【００１８】これらの認識条件が、領域条件記憶部８に
記憶される。文字認識部９は、この条件を読み取って文
字認識処理を実行し、結果をディスプレイ２に表示す
る。

【００１９】次に、第２の実施形態について説明する。
本実施の形態は、領域識別部７によって領域情報を自動
設定したのちに、認識条件を変更する場合であるとす
る。このときの処理の流れは、図５に示す通りである。
スキャナ１から原稿１０が読み込まれた場合、オペレー
タは、まず図示されない領域識別ボタンをクリックす
る。このクリックに反応して、領域識別部７は原稿全体
に対する領域識別処理を実行する（Ｓ２０１）。このと
き、それぞれの領域情報に関し、既定値（デフォルト
値）または領域識別結果を用いて、すべての認識条件が
自動設定される。

【００２０】ここで、オペレータは、頁番号領域１４と
ロゴ領域１５とを非読取対象としたいわけであるから、
それぞれの領域に対して、第１の実施形態と同様の方法
により、行方向タグをマウス・クリックすることによっ
て領域条件を、「非読取対象」に変更することができ
る。図３は、原稿１０のロゴ領域１５についてであり、
２回のクリックによって、認識条件に「非読取対象」が
設定される（Ｓ２０３からＳ２０４）。これらの処理は
認識条件を変更する必要な回数だけ（Ｓ２０２）繰り返
される。

【００２１】これらの認識条件が、領域条件記憶部８に
記憶される。文字認識部９は、この条件を読み取って文
字認識処理を実行し、結果をディスプレイ２に表示す
る。

【００２２】次に、第３の実施形態について説明する。
本実施形態は、第１の実施形態と第２の実施形態との併
用を実現するものである。すなわち、第１の実施形態の
方法で「非読取対象」だけをあらかじめ指定したうえ
で、第２の実施形態のように領域識別部７による領域情
報の自動設定するというアプローチになる。このときの
処理の流れは、図６に示す通りである。この場合の原稿
としては、原稿１０と同じ形式のものが複数頁であると
仮定する。

【００２３】オペレータは、まず代表的な原稿（例えば
１枚目）を取り出して、第１の実施形態の方法により、
手動で「非読取対象領域」を設定する（Ｓ３０１）。こ
れらは、他の頁でも適用されるものとして、領域条件記
憶部８に設定される。

【００２４】以下の処理は、頁数分だけ繰り返される。
まず頁を取り出して（Ｓ３０２）、「非読取対象領域」
を除去（あるいはマスク）する（Ｓ３０４）。続いて、
第２の実施形態と同様に領域識別処理を実行する（Ｓ３
０５）。このようにすることで、領域識別処理の対象か
ら除外することができるので、原稿１０のタイトル領域
１１とロゴ領域１５とのように入り組んでいた場合でも
正しく領域を切り出すことが可能となる。

【００２５】領域識別の結果は、認識条件とともに、領
域条件記憶部８に記憶される。文字認識部９は、この条
件を読み取って当該頁に対する文字認識処理を実行（Ｓ
３０６）する。

【００２６】次に、本発明は計算機上のソフトウェアと
して実現することもできる。図７は一般的な計算機の構
成図である。ＣＤ−ＲＯＭなどの記録媒体２７に記録さ
れたプログラムは、ドライバ２６を通じて補助記憶装置
に読み込まれる。計算機の動作を制御するＣＰＵ２２
が、補助記憶装置２４や記憶装置２３との間で情報をや
り取りしながら、プログラムの各ステップを実行する。
なお、２１は入力Ｉ／Ｆ、２５は出力Ｉ／Ｆ、２８はコ
ントローラである。このような構成のもとに、請求項１
から３に記載の発明をソフトウェアとして実現すること
が可能であり、これが請求項４から６に記載の発明であ
る。

【００２７】

【発明の効果】以上説明したように本発明を適用した文
字認識装置および文字認識プログラムよれば、認識条件
として「非読取対象領域」を設定する手段を設けたこと
ことにより、特に複数頁にわたる同一形式の原稿におけ
る領域指定の操作を簡略化し、かつ認識精度を高める認
識対象領域指定方式による文字認識装置および文字認識
プログラム提供することができる。

【図面の簡単な説明】

【図１】本発明を適用した実施形態による光学的文字認
識システムの構成を示すブロック図である。

【図２】読み取られる原稿の例を示す構成図である。

【図３】原稿上におけるロゴを例とする認識条件変更を
説明する構成図である。

【図４】本発明を適用した第１の実施形態による手動時
の処理の流れを示すフローチャートである。

【図５】本発明を適用した第２の実施形態による領域識
別手段使用時の処理の流れを示すフローチャートであ
る。

【図６】本発明を適用した第３の実施形態による手動と
領域識別手段との併用時の処理の流れを示すフローチャ
ートである。

【図７】一般的な計算機の構成を示すブロック図であ
る。

【符号の説明】

１スキャナ２ディスプレイ３キーボード４マウス５制御部６認識対象領域指定部７領域識別部８領域条件記憶部９文字認識部１０原稿１１タイトル領域１２、１３テキスト文字列領域１４頁番号領域１５ロゴ領域１００文字認識装置

Claims

【特許請求の範囲】

【請求項１】原稿画像をディスプレイの画面に表示
し、該ディスプレイの画面上で前記原稿画像における認
識対象領域と該認識対象領域の認識条件とを入力装置に
より決定するようにした文字認識装置において、前記入力装置の指示に応じて前記原稿画像における「非
読取対象領域」を前記認識条件として設定する非読取対
象領域設定手段を設けたことを特徴とする文字認識装
置。
【請求項２】原稿画像における認識対象領域と該認識
対象領域の認識条件を領域識別手段により自動的に決定
するようにした文字認識装置において、入力装置の指示に応じて前記原稿画像における「非読取
対象領域」を前記認識条件として設定する非読取対象領
域設定手段を設けたことを特徴とする文字認識装置。
【請求項３】前記原稿画像が複数頁のとき、前記領域
識別手段は、前記非読取対象領域設定手段により設定さ
れた前記非読取対象領域を前記原稿画像から除去した
後、該原稿画像の頁毎に前記認識対象領域を決定するこ
とを特徴とする請求項２記載の文字認識装置。
【請求項４】原稿画像をディスプレイの画面に表示
し、該ディスプレイの画面上で前記原稿画像における認
識対象領域と該認識対象領域の認識条件とを入力装置に
より決定する決定処理と、前記入力装置の指示に応じて前記原稿画像における「非
読取対象領域」を前記認識条件として設定する非読取対
象領域設定処理とをコンピュータに実行させることを特
徴とするプログラム。
【請求項５】原稿画像における認識対象領域と該認識
対象領域の認識条件を自動的に決定する領域識別処理
と、入力装置の指示に応じて前記原稿画像における「非読取
対象領域」を前記認識条件として設定する非読取対象領
域設定処理とをコンピュータに実行させることを特徴と
するプログラム。
【請求項６】前記原稿画像が複数頁のとき、前記領域
識別処理は、前記非読取対象領域設定処理により設定さ
れた前記非読取対象領域を前記原稿画像から除去した
後、該原稿画像の頁毎に前記認識対象領域を決定するこ
とを特徴とする請求項５記載のプログラム。