JPH09106435A

JPH09106435A - 文字認識装置及び文書内容表示システム

Info

Publication number: JPH09106435A
Application number: JP7264234A
Authority: JP
Inventors: Masateru Yamaoka; 正輝山岡; Kazumi Iwane; 和巳岩根; Michihiro Sato; 道弘佐藤; Osamu Iwaki; 修岩城
Original assignee: N T T DATA TSUSHIN KK; NTT Data Communications Systems Corp
Current assignee: N T T DATA TSUSHIN KK; NTT Data Corp
Priority date: 1995-10-12
Filing date: 1995-10-12
Publication date: 1997-04-22

Abstract

(57)【要約】【課題】文字認識の対象となる文書画像からユーザの
意図を反映した文字列領域の指定を自動的に行うことが
できる文字認識装置を提供する。【解決手段】イメージメモリ１２に蓄積された学習用
文書画像からユーザが領域指定した文字列領域（指定文
字列領域）を特定するとともに、特徴抽出部１５でこの
指定文字列領域の特徴の代表値を求める。この代表値か
らユーザの領域指定意図を表す領域指定ロジックを解析
し、これに基づいて領域指定ルーチン作成部１９で文字
列領域の自動抽出のための領域指定ルーチンを作成す
る。そして、イメージメモリ１２内の認識対象文書画像
にこの領域指定ルーチンを適用して文字認識部３に送る
文字列領域の自動指定を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、光学的読取装置
（ＯＣＲ）等のイメージ読取装置で読み取った文書画像
から文字列領域を指定して文字認識を行う方式に係り、
特に、サイズの異なる文字列領域が混在する画像や文書
フォーマットがまちまちな画像における文字列領域の指
定手法に関する。

【０００２】

【従来の技術】文書をイメージ読取装置で読み込んで文
字認識を行い、コンピュータが扱うことができる形式の
文字コード列に変換する従来の文字認識装置では、その
前処理として、上記イメージ読取装置より出力される文
書画像をモニタ画面上に表示し、ユーザに対して文字コ
ード列に変換したい領域の指定データ入力を促してい
る。そして、ユーザが領域を指定したときは、そのデー
タに基づいて文書画像中の指定領域の相対的位置を特定
し、この特定した領域を文字認識の対象領域としてい
る。

【０００３】また、新聞、雑誌、マニュアル、あるいは
学術論文のように、サイズの異なる文字列が混在する複
数の文書の内容をイメージ読取装置と文字認識装置とを
用いて画面表示する文書内容表示システムを構成する場
合、従来は、文字認識率の低下を防止するため、文字認
識の対象となる文字列領域の指定をページ単位あるいは
ブロック単位ではなく、同サイズの文字列単位に行うこ
とが通例となっている。この場合、指定された文字列領
域（以下、指定文字列領域）が文書画像の定められた位
置に、定められた大きさで形成されている定型的な文書
の場合は、文書画像中の相対位置や大きさの情報とその
指定アルゴリズムを登録しておき、文字認識時にそれら
を読み出して利用することで大量の文書の自動認識が可
能である。しかし、文字列領域の位置等が未知の文書や
非定型文書の場合は、各文書あるいは文字列に対して同
一のアルゴリズムを適用することができないため、ユー
ザがその都度手作業により文字列領域を指定する必要が
あった。

【０００４】

【発明が解決しようとする課題】上述のように、従来の
文字認識装置及びそれを用いた文書内容表示システムに
おいて、文字列領域の位置等が未知の文書、あるいは非
定型文書の文字認識を行う場合は、ユーザが手作業で文
字列領域を指定しなければならないため、文書が大量に
なるにつれてユーザの作業負担が増大するという問題が
あった。また、従来の文字認識装置や文書内容表示シス
テムでは、文字列領域の指定に関するユーザの意図を考
慮するという観点がなかったので、ユーザが必要としな
い文字コード列が出力されたり、逆に真に必要とする文
字コード列が出力されなかったりする場合があり、さら
に同一サイズの文字列であっても別々に領域指定するた
めに無駄な作業及び処理時間を費やすという問題もあっ
た。

【０００５】本発明の課題は、かかる従来の問題点を解
消し、文書画像上の文字列領域の位置等が未知であった
り、定型的でない場合であってもそれを自動的に指定す
ることができる文字認識装置を提供することにある。本
発明の他の課題は、ユーザの指定意図を反映した文書内
容の表示が可能な文書表示システムを提供することにあ
る。

【０００６】

【課題を解決するための手段】上記課題を解決する本発
明の文字認識装置は、所定の領域指定データに基づいて
学習用文書画像上の指定文字列領域を特定するととも
に、特定した指定文字列領域の寸法や前記学習用文書画
像上の相対位置を含む特徴情報の代表値を検出する学習
部と、認識対象文書画像の文字列領域の特徴を解析して
前記学習部で検出した代表値と合致する特徴をもつ文字
列領域のみを自動指定する文字列領域指定部と、この文
字列領域指定部で指定した文字列領域について文字認識
を行う文字認識部と、を備えることを特徴とする。ここ
に学習用文書画像とは、ユーザの領域指定意図を解析す
るために用いる文書画像をいい、認識対象文書画像とは
解析された領域指定意図に基づいて実際に文字認識を行
う文書画像をいう。両文書画像は実質的には同一種類の
ものであり、学習用文書画像を領域指定意図の解析後に
認識対象文書画像とすることもできる。

【０００７】この文字認識装置において、前記学習部
は、前記検出した代表値と合致する特徴をもつ文字列領
域のみを指定するための制御手順を規定した領域指定ル
ーチンを自動作成する領域指定ルーチン作成部を備え、
前記文字列領域指定部は、前記認識対象文書画像の文字
列領域を特定する文字列領域特定手段と、前記作成され
た領域指定ルーチンに基づき前記文字列領域特定手段を
制御して該当する文字列領域を自動指定する領域指定ル
ーチン適用部と、を備えることが好ましい。

【０００８】また、他の課題を解決する本発明の文書内
容表示システムは、サイズの異なる文字列が混在する文
書を文書画像に変換して取り込むイメージ読取装置と、
このイメージ読取装置で取り込んだ文書画像から指定サ
イズの文字列領域について文字認識を行う文字認識装置
と、この文字認識装置の出力を所定フォーマットで可視
化する手段とを有し、前記文字列のサイズ指定者が意図
する文書内容の表示を行う文書内容表示システムであっ
て、前記文字認識装置が、前記サイズ指定者からの領域
指定データに基づいて学習用文書画像上の指定文字列領
域を特定するとともに、特定した指定文字列領域の寸法
や前記学習用文書画像上の相対位置を含む特徴情報の代
表値を検出する学習部と、認識対象文書画像の文字列領
域の特徴を解析して前記学習部で検出した代表値と合致
する特徴をもつ文字列領域のみを自動指定する文字列領
域指定部と、この文字列領域指定部で指定した文字列領
域について文字認識を行う文字認識部と、を備えること
を特徴とする。

【０００９】この文書内容表示システムにおいても、前
記学習部が、前記検出した代表値と合致する特徴をもつ
文字列領域のみを抽出するための制御手順を規定した領
域指定ルーチンを自動作成する領域指定ルーチン作成部
を備え、前記文字列領域指定部が、前記認識対象文書画
像の文字列領域を特定する文字列領域特定手段と、前記
作成された領域指定ルーチンにしたがって前記文字列領
域特定手段を制御して文字列領域を自動指定する領域指
定ルーチン適用部と、を備えることが好ましい。

【００１０】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を詳細に説明する。図１は、本発明の一実施形態
に係る文字認識装置のモジュール構成図である。この文
字認識装置は、ユーザによる領域指定意図を解析する学
習部１と、学習部１で解析した領域指定意図を反映した
文字列領域の自動指定を行う文字列領域指定部２と、こ
の文字列領域指定部２で指定された文字列領域について
文字認識を行う文字認識部３とを有している。なお、図
示を省略しているが、学習部１及び文字認識部３には、
文書画像や文字コードを可視化するための表示部及びそ
の制御部が接続されている。

【００１１】学習部１は、スキャナ等のイメージ読取装
置から成る文書画像入力部１１、入力された各文書画像
（二値画像）を蓄積するイメージメモリ１２、蓄積され
ている文書画像から文字列領域を特定して抽出する文字
列領域抽出部１３、ユーザの指定に基づいて領域指定デ
ータを生成する領域指定データ入力部１４、指定文字列
領域の特徴を抽出する特徴抽出部１５、抽出した特徴デ
ータを記憶する特徴データ記憶部１６、この特徴データ
記憶部１６に記憶されている特徴データを読み出して領
域指定ロジック、すなわちユーザの領域指定意図を解析
する領域指定ロジック解析部１７、領域指定ロジック解
析部１７による解析データを記憶する解析データ記憶部
１８、ユーザの指定意図を反映した文字列領域抽出を行
うための制御手順を規定した領域指定ルーチンを自動作
成する領域指定ルーチン作成部１９、及び作成された領
域指定ルーチンを記憶しておく領域指定ルーチン記憶部
２０から構成される。

【００１２】また、文字列領域指定部２は、領域指定ル
ーチン記憶部２０から領域指定ルーチンを読み出してイ
メージメモリ１２上の文書画像からの文字列領域の抽出
を行う領域指定ルーチン適用部２１のほか、学習部１と
共用の、文書画像入力部１１、イメージメモリ１２、文
字列領域抽出部１３、領域指定ルーチン記憶部２０、及
び領域指定ルーチン適用部２１から構成される。学習部
１との相違は、学習部１の場合は、領域指定データ入力
部１４から入力された領域指定データに基づいて文字列
領域抽出部１３で抽出された文字列領域のうち認識対象
となる文字列領域を特定するのに対し、文字列領域指定
部２の場合には、学習部１で作成された領域指定ルーチ
ンにしたがって文字列領域抽出部１３で抽出された文字
列領域から認識対象とする文字列領域を自動的に特定す
ることにある。

【００１３】次に、上記構成の文字認識装置において、
横書き文書を読み取って文字認識を行う場合の動作例を
図２〜図７をも参照して具体的に説明する。

【００１４】図２は、この場合の全体的な動作手順説明
図であり、処理ステップＳ１０１〜Ｓ１０７が学習部１
の動作、処理ステップＳ１０８〜Ｓ１１１が文字列領域
指定部２の動作である。学習部１では、まず、文書画像
入力部１１より入力した学習用文書画像をイメージメモ
リ１２に蓄積し（Ｓ１０１）、文字列領域抽出部１３
が、この学習用文書画像から文字列領域を抽出する（Ｓ
１０２）。文字列領域の抽出には、例えば黒連結矩形統
合法を用いる。黒連結矩形統合法とは、文書画像から得
られる黒連結矩形の領域、すなわち二値画像中の連接す
る黒画素を包含する最小矩形の領域を統合して文字列領
域を作成する方法である。図３（ａ）、（ｂ）はこの黒
連結矩形統合法の概要説明図であり、符号３０は黒連結
矩形、３１は文字列領域である。抽出された文字列領域
は、図示しない表示制御手段及び表示部により可視化さ
れ、ユーザによる領域指定の便宜に供される。

【００１５】ユーザがポインティングデバイス等で領域
を指定することにより領域指定データが入力されると
（Ｓ１０３）、特徴抽出部１５がイメージメモリ１２内
の学習用文書画像から指定文字列領域を特定するととも
に、特定した指定文字列領域に関する特徴を抽出する
（Ｓ１０４）。具体的には、図４に示すように、文書紙
面左上端を原点に水平方向をｘ軸、垂直方向をｙ軸と
し、単位をピクセル（最小読取単位）として、文字の大
きさを表している文字列領域の高さ、文書紙面上での相
対的位置を表している文字列領域の中心のｘ座標及びｙ
座標を求め、これら三つの要素を指定文字列領域の特徴
として抽出する。これをユーザが指定する複数の文字列
領域について繰り返す（Ｓ１０５）。図５は、２枚の文
書に対応する学習用文書画像から三つの領域（領域Ａ，
領域Ｂ，領域Ｃ）が指定された様子を示すものである。
各領域Ａ，Ｂ，Ｃに関する特徴は、特徴データ記憶部１
６内のテーブルに記憶される。

【００１６】領域指定ロジック解析部１７は、特徴デー
タ記憶部１６に記憶されている指定文字列領域の高さ、
ｘ座標、及びｙ座標の三つの特徴の特徴量に基づいてユ
ーザの領域指定意図を解析し、その結果である解析デー
タを解析データ記憶部１８に格納する（Ｓ１０６）。具
体的には、ユーザが指定した文字列領域の高さ、ｘ座
標、ｙ座標の各特徴量の平均、標準偏差、及び変異係数
（＝平均値／標準偏差）を求め、さらに変異係数の最も
小さい特徴を代表値として求める。この代表値がユーザ
の領域指定意図であることが想定される。例えば図６は
上記各領域Ａ，Ｂ，Ｃについて抽出した特徴データの例
であるが、この例では文字列領域の高さの変異係数が最
も小さい。したがって、ユーザは文字の大きさを領域指
定の基準にしていることが想定されるので、この高さに
関するデータを文字列領域の特徴の代表値として抽出
し、これらを解析データとする。

【００１７】領域指定ルーチン作成部１９は、解析デー
タ記憶部１８内の解析データをもとに、領域指定ルーチ
ンを自動作成する（Ｓ１０７）。図６に示した例では、
ユーザが指定した文字列領域の高さの最小値から最大値
（“２４”〜“２８”）までの範囲に、認識対象文書画
像の文字列領域の高さが含まれれば、その文字列領域が
文字認識の対象となる文字列領域であると解釈して自動
的にその領域を自動指定するための制御手順を規定した
ルーチンを作成する。作成された領域指定ルーチンが領
域指定ルーチン記憶部２０に格納され、学習部１の動作
が終了する。

【００１８】学習部１で領域指定ルーチンが作成される
と、文字列領域指定部２で認識対象文書画像から文字列
領域を自動指定する。すなわち文書画像入力部１１から
認識対象文書画像を入力し、これをイメージメモリ１２
に蓄積する（Ｓ１０８）。そして領域指定ルーチン適用
部２１がこの認識対象文書画像に対して領域指定ルーチ
ンを適用して（Ｓ１０９）文字列領域を指定し、その結
果を文字認識部３に送る（Ｓ１１０）。図７に示す領域
Ｄは、自動指定された領域を示すものである。文字認識
部３は、学習部１で指定された領域Ａ〜領域Ｃ及び文字
列領域指定部２で自動指定された領域Ｄについて文字認
識を行い、文字コード列に変換する。

【００１９】このように、本実施形態では、学習用文書
画像から指定文字列領域の特徴の代表値を求め、この代
表値から領域指定ロジックを解析し、さらにこの解析デ
ータに基づいて文字列領域を自動指定するための領域指
定ルーチンを作成し、これを認識対象文書画像に適用す
るようにしたので、認識対象文書画像から所望の文字列
領域が自動的に指定されて文字認識部３に送られる。こ
れにより、従来のように、ユーザが各文書画像について
手作業で文字列領域を指定する必要がなくなる。また、
ユーザの領域指定意図が反映されて文字列領域の自動指
定がなされるので、無駄な領域が指定されて文字認識に
要する時間が長くなったり、逆に真に必要な領域が指定
されなかったりする事態を防止することができる。

【００２０】この文字認識装置を文書内容表示システム
の主要構成要素として使用することにより、従来の同種
システムと異なる利用態様が可能である。すなわち、従
来は文書画像の内容をそのまま画面表示するものであ
り、そのもと文書の内容を把握するには文字認識された
後の文書の全文を読むしかなかったが、本実施形態の文
字認識装置でユーザの意図を反映した文字列領域のみ、
例えば「見出し」の領域のみを自動抽出して文字認識を
行い、これにより得られた文字コードを所定フォーマッ
トで編集して可視化手段（画像表示部及びその制御部、
あるいは印刷装置）で可視化することにより、大きな情
報をもつ認識対象文献が大量に存在する場合であって
も、その文献の内容の概要を迅速に把握することがで
き、システムの利用価値を高めることができる。

【００２１】なお、本実施形態では、文書画像入力部１
１でその都度各文書画像をイメージメモリ１２に蓄積し
ているが、必ずしも同様の手順を経る必要はなく、予め
大量の文書画像をイメージメモリ１２に蓄積しておき、
必要に応じて学習用文書画像と認識対象文書画像を選定
して上記処理を施すようにしてもよい。また、学習用文
書画像ないし指定文字列領域は必ずしも複数である必要
がなく、一つのみであってもよい。

【００２２】

【発明の効果】以上の説明から明らかなように、本発明
の文字認識装置によれば、文書画像上における文字認識
の対象領域が、文書の種類あるいは文書上の文字サイズ
がまちまちであっても自動的に指定される効果がある。
したがって、大量の文書について文字認識する場合のユ
ーザの作業負担が従来よりも格段に軽減される。また、
本発明の文書表示システムによれば、ユーザの指定意図
を反映した文書内容のみの表示が可能になり、その利用
価値が高まる効果がある。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る文字認識装置のブロ
ック構成図。

【図２】本実施形態の文字認識装置における全体的な処
理手順説明図。

【図３】文字列領域の抽出に用いる黒連結矩形統合法の
概要説明図であり、（ａ）は黒連結矩形、（ｂ）は黒連
結矩形が統合された文字列領域の例を示す図である。

【図４】文字列領域の特徴の説明図。

【図５】学習用文書画像における指定文字列領域（領域
Ａ〜領域Ｃ）の説明図。

【図６】特徴抽出部が抽出した特徴データとその代表値
の説明図。

【図７】文字列領域指定部により自動指定された文字列
領域（領域Ｄ）の説明図。

【符号の説明】

１学習部２文字列領域指定部３文字認識部１１文書画像入力部１２イメージメモリ１３文字列領域抽出部１４領域指定データ入力部１５特徴抽出部１６特徴データ記憶部１７領域指定ロジック解析部１８解析データ記憶部１９領域指定データ作成部２０領域指定ルーチン作成部２１領域指定ルーチン適用部３０黒連結矩形３１黒連結矩形が統合されて形成された文字列領域

───────────────────────────────────────────────────── フロントページの続き (72)発明者岩城修東京都江東区豊洲三丁目３番３号エヌ・ティ・ティ・データ通信株式会社内

Claims

【特許請求の範囲】

【請求項１】所定の領域指定データに基づいて学習用
文書画像上の指定文字列領域を特定するとともに、特定
した指定文字列領域の寸法や前記学習用文書画像上の相
対位置を含む特徴情報の代表値を検出する学習部と、認識対象文書画像の文字列領域の特徴を解析して前記学
習部で検出した代表値と合致する特徴をもつ文字列領域
のみを自動指定する文字列領域指定部と、この文字列領域指定部で指定した文字列領域のみについ
て文字認識を行う文字認識部と、を備えることを特徴と
する文字認識装置。
【請求項２】前記学習部は、前記検出した代表値と合
致する特徴をもつ文字列領域を指定するための制御手順
を規定した領域指定ルーチンを自動作成する領域指定ル
ーチン作成部を備え、前記文字列領域指定部は、前記認識対象文書画像の文字
列領域を特定する文字列領域特定手段と、前記作成され
た領域指定ルーチンに基づき前記文字列領域特定手段を
制御して該当する文字列領域を自動指定する領域指定ル
ーチン適用部と、を備えることを特徴とする請求項１記
載の文字認識装置。
【請求項３】サイズの異なる文字列が混在する文書を
文書画像に変換して取り込むイメージ読取装置と、この
イメージ読取装置で取り込んだ文書画像から指定サイズ
の文字列領域について文字認識を行う文字認識装置と、
この文字認識装置の出力を所定フォーマットで可視化す
る手段とを有し、前記文字列のサイズ指定者が意図する
文書内容の表示を行う文書内容表示システムであって、前記文字認識装置が、前記サイズ指定者からの領域指定データに基づいて学習
用文書画像上の指定文字列領域を特定するとともに、特
定した指定文字列領域の寸法や前記学習用文書画像上の
相対位置を含む特徴情報の代表値を検出する学習部と、認識対象文書画像の文字列領域の特徴を解析して前記学
習部で検出した代表値と合致する特徴をもつ文字列領域
のみを自動指定する文字列領域指定部と、この文字列領域指定部で指定した文字列領域について文
字認識を行う文字認識部と、を備えることを特徴とする
文書内容表示システム。
【請求項４】前記学習部は、前記検出した代表値と合
致する特徴をもつ文字列領域のみを指定するための制御
手順を規定した領域指定ルーチンを自動作成する領域指
定ルーチン作成部をさらに備え、前記文字列領域指定部は、前記認識対象文書画像の文字
列領域を特定する文字列領域特定手段と、前記作成され
た領域指定ルーチンに基づき前記文字列領域特定手段を
制御して文字列領域を自動指定する領域指定ルーチン適
用部と、を備えることを特徴とする請求項３記載の文書
内容表示システム。