JPH08329190A

JPH08329190A - 文字認識装置

Info

Publication number: JPH08329190A
Application number: JP8002556A
Authority: JP
Inventors: Kenichirou Kishi; 健一郎木子
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1995-03-24
Filing date: 1996-01-10
Publication date: 1996-12-13

Abstract

(57)【要約】【目的】文書画像に対して任意の所望の認識対象とな
る領域を設定でき、その領域内の文字列を得て、簡単に
再利用ができる文字認識装置を提供する。【構成】文書構造解析部３は、文書画像入力部１で読
み取った文書画像から、行および文字の物理的な位置関
係を抽出し、文書構造情報として文書構造情報格納部４
に格納する。一方、文書画像は表示部１０に表示され
る。ここで、操作部９で文書画像上の領域が指定される
と、指定領域解析部６によって文書構造情報と指定され
た文書画像上の位置とが対応付けられ、操作部１０から
の転記指示の入力に基づいて、文字認識部７が認識処理
を開始し、転記先指示の入力によって、認識結果が文書
編集部５に転記される。ユーザは、認識にかかる処理を
意識することなく、通常の文書編集装置と同様な操作
で、所望の領域を指定して認識させ、認識結果の文字列
を得て再利用することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、紙等の媒体上に記
録されたイメージから文字を認識し、その結果を再利用
することのできる文字認識装置に関するものである。

【０００２】

【従来の技術】従来の日本語文字認識装置においては、
使用者が必要とする文字領域を文書イメージ上で指定
し、指定された文字領域内の文字を認識するものが開発
されている。このとき、文字領域を指定する主な方法と
して、例えば、ユーザが矩形で領域を囲むものと、シス
テム側が文字ブロックを抽出して、ユーザに選択させる
ものなどがある。

【０００３】ユーザが矩形て領域を囲う方法では、例え
ば、特開昭６３−１５５３８５号公報や特開昭６３−１
０９５９１号公報などに記載されているように、矩形の
左上と右下のような２点を指示することによって、必要
とする個々の領域を指定する。所望の領域が複数ある場
合には、領域ごとに指定する作業を繰り返す必要があ
る。指定した領域に対して文字認識を行なうことによ
り、ユーザが必要とする文字コードがウィンドウやファ
イルなどに出力させる。

【０００４】一方、個々の領域をユーザに指定させる方
法では、ユーザの負担を軽くするため、認識装置側が自
動的に文書画像上に含まれる文字を抽出し、ユーザに所
望の文字ブロックを指定させるように構成したものが考
えられている。例えば、特開平３−８８０８７号公報に
記載されている方法では、システムが文書画像に対して
レイアウト解析を行なって、文字ブロックを抽出して表
示する。ユーザは、表示された複数の文字ブロックの中
から、必要なブロックを選択する。選択されたブロック
に対して認識要求を行なうことにより、所望の文字認識
結果をウィンドウやファイルなどに出力させることがで
きる。また、特開平６−８９３３０号公報に記載の文書
ファイリングシステムでは、指定した１点の位置の近傍
の文字列を１行の範囲で抽出し、キーワードとする方法
が考えられている。

【０００５】実際にユーザが認識させたい文字領域は、
必ずしも大きな領域とは限らない。これに対して、上述
の従来の装置では、文字認識の対象とする範囲は、矩形
もしくは文字ブロックといった大きな単位でしか指定す
ることができなかった。また、１点を指示することによ
りその周りの文字列を抽出する方法においては、逆に複
数の行にわたる大きな部分領域を任意に抽出することは
できなかった。

【０００６】また、上述の従来の技術では、認識対象と
なる領域を確定させて認識の指示を出すと、出力結果が
ウィンドウもしくはファイルに出力される。これによ
り、ユーザの欲する文字列を得ることはできるが、この
ようにして得られた出力を再利用したい場合には、さら
に出力結果から転記等の作業をユーザが行なう必要があ
り、煩雑な操作を必要としていた。

【０００７】

【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、文書画像に対して任意の所
望の認識対象となる領域を設定でき、その領域内の文字
列を得て、簡単に再利用ができる文字認識装置を提供す
ることを目的とするものである。

【０００８】

【課題を解決するための手段】請求項１に記載の発明
は、文字認識装置において、文書画像を読み取る文書画
像入力手段と、前記文書画像中の行および文字の物理的
な位置関係を示す文書構造情報を抽出する文書構造解析
手段と、前記文書画像を表示する表示手段と、ユーザの
操作に応じて前記表示手段に表示された前記文書画像上
の領域の指定を行なう操作手段と、前記操作手段の指定
に応じて前記文書画像と前記文書構造情報との対応付け
を行なう指定領域解析手段と、前記文書画像上の指定さ
れた領域の文字を認識する文字認識手段を有することを
特徴とするものである。

【０００９】前記文字認識手段は、請求項２に記載の発
明のように、前記操作手段からの転記指示の入力に基づ
いて文字認識処理を開始し、前記操作手段から入力され
た転記先へ認識結果を転記するように構成することがで
きる。また、請求項３に記載の発明のように、前記文書
画像上の領域の指定の際には、前記操作手段において開
始点と終了点を指示することにより行なわれ、任意の文
字列領域を指定可能に構成することができる。さらに、
前記文書構造解析手段は、請求項４に記載の発明のよう
に、文書中の行に対応する矩形を抽出し、行の方向を判
定するとともに、行の接続関係と、行に含まれる文字矩
形を抽出するように構成することができる。

【００１０】請求項５に記載の発明は、文字認識装置に
おいて、文書画像から文字の並びの区切り点を検出する
文書構造解析手段と、文書画像上の１点を指定する操作
手段と、前記操作手段により指定された１点から該点に
基づいて決定される前記区切り点までの文字の並びを指
定する指定領域解析手段と、前記指定領域解析手段によ
り指定された文字の並びを認識する文字認識手段を有す
ることを特徴とするものである。

【００１１】請求項６に記載の発明は、文字認識装置に
おいて、文書画像から文字の並びの区切り点を検出する
文書構造解析手段と、文書画像上の１点を指定する操作
手段と、前記操作手段により指定された１点に基づいて
決定される２つの前記区切り点の間に含まれる文字の並
びを指定する指定領域解析手段と、前記指定領域解析手
段により指定された文字の並びを認識する文字認識手段
を有することを特徴とするものである。

【００１２】請求項６に記載の発明における前記文書構
造解析手段は、請求項７に記載の発明のように、前記文
書画像上の文字の並びの順序をさらに検出するように構
成し、前記指定領域解析手段を、前記文書構造解析手段
により検出された文字の順序において、前記操作手段に
より指定された１点から前方で最も近い順序の区切り点
と、後方で最も近い順序の区切り点の間に含まれる文字
の並びを指定するように構成することができる。また、
請求項８に記載の発明のように、前記文書構造解析手段
を、前記区切り点として文書中に存在する句読点を検出
するように構成したり、請求項１０に記載の発明のよう
に、区切り点として前記文字画像の文字の並びの存在す
る位置から文書中のブロックの端点を検出するように構
成することができる。請求項８に記載の発明のように構
成した場合には、請求項９に記載の発明のように、前記
文書構造解析手段は、前記文書画像から文字矩形を求め
る文字矩形抽出手段と、隣接する前記文字矩形の一方向
の並びである文字列矩形を抽出する文字列矩形抽出手段
と、前記文字列矩形に含まれ所定の閾値以下の大きさを
持ちかつ前記文字列矩形の短い方の辺に対して片寄った
位置に存在する文字矩形を区切り点として抽出する特定
文字抽出手段を有する構成とすることができる。

【００１３】請求項１１に記載の発明は、文字認識装置
において、文書画像からそれぞれ異なる基準で複数種類
の文字の並びの区切り点を検出する文書構造解析手段
と、文書画像上の１点を指定する操作手段と、前記操作
手段により過去に指定された点に関する情報を記憶する
指定点記憶手段と、前記操作手段によって指定された点
と前記指定点記憶手段に記憶されている過去の点に関す
る情報に基づいて複数種類の前記区切り点から１以上の
種類の区切り点を選択する区切り点選択手段と、該区切
り点選択手段により選択された種類の前記区切り点のう
ち前記操作手段により指定された１点に基づいて決定さ
れる２つの前記区切り点の間に含まれる文字の並びを指
定する指定領域解析手段と、該指定領域解析手段により
指定された文字の並びを認識する文字認識手段を有する
ことを特徴とするものである。

【００１４】請求項１２に記載の発明は、文字認識装置
において、文字画像の構造を解析する文書構造解析手段
と、前記文字画像上の点を指示する操作手段と、前記文
書構造解析手段による解析結果を用い前記操作手段から
の指示に基づいて指示範囲を指定する指定領域解析手段
と、該指定領域解析手段によって指定された前記指示範
囲に含まれる文字矩形を認識する文字認識手段を有し、
前記文書構造解析手段は、文字画像から文字矩形を抽出
する文字矩形抽出手段と、前記文字矩形の並びの順序を
判定する文字矩形順序判定手段と、前記文字矩形抽出手
段により抽出された文字矩形から句読点を抽出する句読
点抽出手段と、前記文字矩形抽出手段により抽出された
文字矩形の存在する位置情報に基づいて文字列を段落に
分割する段落分割手段と、前記前記文字矩形順序判定手
段により判定された文字矩形の並びの順序において連続
する前記句読点抽出手段により抽出された２つの句読点
に挟まれる文字矩形の並びを節として抽出する節抽出手
段を具備し、前記指定領域解析手段は、前記操作手段に
より過去に指示された点に関する情報を記憶する指示点
記憶手段と、前記操作手段によって指示された点と前記
指示点記憶手段に記憶されている過去の点に関する情報
に基づいて前記操作手段により指示された点が含まれる
文字矩形あるいは節あるいは段落のいずれか１つを指示
範囲として選択する指示範囲選択手段を具備することを
特徴とするものである。

【００１５】請求項１３に記載の発明は、請求項５，
６，１１，１２のいずれか１項に記載の文字認識装置に
おいて、前記文字認識手段は前記操作手段からの転記指
示の入力に基づいて文字認識処理を開始し、前記操作手
段から入力された転記先へ認識結果を転記することを特
徴とするものである。

【００１６】

【作用】本発明によれば、文書画像入力手段によって文
書画像が読み取られ、文書構造解析手段によって文書中
の行および文字の物理的な位置関係が抽出される。そし
て、読み取られた文書画像が表示手段に表示され、認識
すべき領域が操作手段によって指定される。このとき、
操作手段によって文書画像上の位置が指定されると、文
書構造解析手段によって抽出された位置関係から文書中
の行および文字が特定できる。そのため、ユーザは認識
すべき領域として文字単位で指定することが可能であ
り、また、矩形領域に限定されない。例えば、請求項３
に記載の発明のように開始点と終了点を指示することに
よって、開始点から終了点までの文字列を示す領域を指
示することができる。このような開始点となる文字と終
了点となる文字を指示して文字列を特定する操作は、通
常用いられているキャラクタの編集を行なう装置におい
て行なわれている操作と同様であり、このような編集装
置と同様な操作で文書画像に対する領域指定の操作を行
なうことができる。さらに、請求項４に記載の発明のよ
うに、行の方向を判別すれば、縦書きおよび横書きのど
ちらの文書にも対応することができる。文字認識手段
は、このようにして任意に指定された文字列領域中の文
字を認識する。

【００１７】また、認識すべき領域の指定の方法とし
て、請求項３に記載の発明のように開始点と終了点を指
示する方法のほか、文書構造解析手段により文書画像か
ら文字の並びの区切り点を検出しておき、例えば、請求
項５に記載の発明のように指定された１点から区切り点
までを認識すべき領域としたり、請求項６に記載の発明
のように、指定された１点に基づいて２つの区切り点を
決定し、その２つの区切り点の間を認識すべき領域とす
ることができる。２つの区切り点の間を認識すべき領域
とする場合、請求項７に記載の発明のように、指定され
た１点から前方で最も近い順序の区切り点と、後方で最
も近い順序の区切り点の間を認識すべき領域とすること
ができる。このような指定方法を用いれば、始点および
終点を正確に指示する必要はなく、簡易にしかも正確に
認識すべき領域を指定することができる。この場合に
も、指定される認識すべき領域は矩形である必要はな
く、行が跨るような場合に画面上は２つの領域となるよ
うな指定も１点の指示のみによって行なうことができ
る。

【００１８】区切り点としては、請求項８に記載の発明
のように、文書中に存在する句読点としたり、請求項１
０に記載の発明のように、文書中のブロックの端点とす
ることができ、句読点間の文字列からなる節、あるいは
ブロックを１点の指示のみによって認識すべき領域とし
て指定することが可能となる。句読点を区切り点とする
場合、例えば、請求項９に記載の発明のように、所定の
閾値以下の大きさを持ち、かつ文字列矩形の短い方の辺
に対して片寄った位置に存在する文字矩形を抽出すれば
よい。

【００１９】請求項１１に記載の発明によれば、このよ
うな区切り点として複数の種類の点を抽出しておき、ど
の種類の点を区切り点として用いるかを選択できるよう
に構成することができ、例えば、請求項１２に記載の発
明のように句読点と段落の区切りを抽出しておき、１文
字あるいは句読点間あるいは段落といった指定単位を選
択可能に構成することができる。これにより、認識すべ
き領域の指定方法についての自由度を増すことができ
る。

【００２０】このような文字認識装置において、請求項
２または１３に記載の発明のように、認識対象となる文
字列領域を指定後、操作手段からの転記指示の入力に基
づいて文字認識手段における認識処理を開始し、認識結
果を操作手段から入力された転記先の指示に従って転記
する。これにより、従来のように認識結果を一旦ウィン
ドウやファイルに出力してから転記する操作は必要な
く、認識結果を文書中へ直接転送することが可能とな
る。

【００２１】

【発明の実施の形態】図１は、本発明の文字認識装置の
第１の実施の形態を示す構成図である。図中、１は文書
画像入力部、２は文書画像格納部、３は文書構造解析
部、４は文書構造情報格納部、５は文書編集部、６は指
定領域解析部、７は文字認識部、８は文字認識用辞書、
９は操作部、１０は表示部、１１は制御部である。

【００２２】文書画像入力部１は、紙面等の媒体上に描
かれた文書イメージを文書画像として読み取る。この文
書画像入力部１は、一般的なイメージスキャナ等の画像
入力装置によって実現可能である。文書画像格納部２
は、文書画像入力部１によって読み込まれた画像を格納
する。文書構造解析部３は、一定の大きさ以下のブロッ
クを文字部分とみなして、行の抽出と行の順番の判定を
行なう。文書構造情報格納部４は、文書構造解析部３で
抽出された、文書画像上の文字、行の配置関係に関する
情報を、もとの文書画像と対応付けて格納する。文書編
集部５は、文書の編集処理を行なう。特に、文書画像中
の必要部分の認識を依頼するとともに、認識結果を文書
中に転記して、再利用する機能を有する。指定領域解析
部６は、操作部９の指定に応じて、文書画像と文書構造
情報との対応付けを行なう。文字認識部７は、抽出した
文字領域に対して文字認識を行なう。文字認識用辞書８
は、文字認識部７が文字を認識する際に用いる辞書であ
る。操作部９では、ユーザが、文書画像格納部２からの
画像の読み出しや、認識領域の指定、転記先の指定等を
行なう。表示部１０は、文書画像入力部１で取り込んだ
文書画像の表示や、認識領域の表示等を行なう。この表
示部１０は、例えば、ＣＲＴや液晶ディスプレイなどに
よって実現可能である。制御部１１は、全体の処理とデ
ータの制御を行なう。

【００２３】次に、本発明の文字認識装置の第１の実施
の形態における動作の一例について説明する。この実施
の形態における処理は、画像読み取り時に行なわれる文
書構造解析処理と、ユーザが文字コードを必要とすると
きに行なわれる認識処理とに大きく分けられる。以下、
この２つの処理を順に説明する。図２は、本発明の文字
認識装置の第１の実施の形態における文書構造解析処理
の一例を示すフローチャートである。まず、Ｓ２１にお
いて、認識対象となる可能性のある文字が記された文書
画像が、スキャナ等からなる文書画像入力部１によって
読み込まれる。読み込まれた画像は、文書画像格納部２
に格納される。

【００２４】文書構造解析部３は、文書画像格納部２に
格納された文書画像を参照し、まずＳ２２において、文
字部分を行単位で抽出する。行の領域は、水平方向およ
び垂直方向の白画素のつながりをもとに領域を分割する
ことによって抽出することができる。

【００２５】次に、Ｓ２３において、行の方向を判定す
る。行方向の判定は、例えば、抽出された行の領域の縦
横比をもとに、その比が一定値以上であれば縦書き、一
定値以下であれば横書きと判定することができる。どち
らでもない場合は、分割された領域の上下左右方向で最
も近い領域と同様に決定すればよい。いずれによっても
求められない場合には、判定を保留し、判定可能な領域
を先に決定した後、保留された部分の判定を行なう。こ
れを繰り返して、全ての領域の行方向を決定する。

【００２６】また、Ｓ２４において、文字矩形を抽出す
る。例えば、横書きと判定された領域に対しては、垂直
方向の黒画素の斜影をとり、黒画素が切れる、すなわち
斜影の値が０となる部分ごとに行を分割し、それぞれの
文字に対応する矩形を抽出する。それぞれの矩形と、対
応する行の矩形の関係が、文書構造情報として文書構造
情報格納部４に登録される。縦書きの領域に対しては水
平方向の斜影を取り、同様の処理を行なう。

【００２７】図３は、文字矩形抽出までの処理の概要の
説明図である。具体例として、Ｓ２１において、図３
（Ａ）に示すような文書画像が文書画像入力部１で入力
され、文書画像格納部２に格納されたものとする。Ｓ２
２における行矩形の抽出によって、図３（Ｂ）に示すよ
うに、行が抽出される。図３（Ｂ）に示す行矩形は、横
の方が長いので、Ｓ２３において横書きと判定される。
Ｓ２４では、各行において、図３（Ｃ）に示すように、
文字矩形が抽出される。

【００２８】図２に戻り、Ｓ２５において、行の配置を
もとに接続関係の判定を行なう。横書きの場合には、左
上から順に、接続関係の判定処理が行なわれていない行
に注目し、その注目する行の下方向で間隔が、一定の閾
値以内の距離にある行を探索する。見つかった行が、注
目行に接続している行の所定長以下であれば、注目行に
接続するものと見なす。そうでない場合は接続しないも
のと見なす。この処理を、注目行を変更しながら繰り返
すことによって、行の接続関係が得られる。

【００２９】このようにして得られた文書上の行と文字
の配置関係に関する情報は、Ｓ２６において文書構造情
報格納部４に、文書画像と対応付けて格納される。

【００３０】なお、本実施の形態では以上の処理は、文
書画像読み取り時に行なわれるが、画像読み取り時には
文書画像を文書画像格納部２に登録する処理のみを行な
い、文書構造の解析はユーザによる画像読み出し時に行
なうようにしてもよい。

【００３１】図４は、文書構造情報格納部４に格納され
る文書構造情報のデータ構造の一例を示す説明図であ
る。文書構造情報は、上述のように、文書上の行と文字
の配置関係に関する情報である。一例としては、図４に
示すように、抽出された各行矩形に対応した行矩形情報
と、各行矩形内に含まれる各文字に対応する文字矩形情
報の列から構成することができる。

【００３２】行矩形情報は、各行矩形ごとに設けられ、
行矩形ＩＤ、通し番号、前接続行番号、後接続行番号、
行方向、左上Ｘ座標、左上Ｙ座標、幅、高さ、含まれる
文字矩形数等の情報から構成することができる。行矩形
ＩＤおよび通し番号は、その行矩形情報を特定するため
に一意に付与されたＩＤおよび番号である。前接続行番
号および後接続行番号は、Ｓ２５で判定された行の接続
関係を表わす情報であり、その行が前の行から続いてい
る場合には、前の行の行矩形ＩＤまたは通し番号が前接
続行番号として登録され、その行の後に行が続いている
場合には、後の行の行矩形ＩＤまたは通し番号が後接続
行番号として登録される。行方向は、Ｓ２３で判定され
た行の方向が登録される。左上Ｘ座標、左上Ｙ座標、
幅、高さは、行矩形の文書画像上の位置および大きさを
示す情報であり、この情報によって文書画像と行矩形と
の対応づけがなされている。この行矩形情報に続き、含
まれる文字矩形数の情報で示される個数だけの文字矩形
情報が存在する。

【００３３】文字矩形情報は、各文字矩形ごとに設けら
れ、文字矩形ＩＤ、通し番号、左上Ｘ座標、左上Ｙ座
標、幅、高さ等の情報から構成することができる。文字
苦役ＩＤおよび通し番号は、その文字矩形情報を特定す
るために一意に付与されたＩＤおよび番号である。左上
Ｘ座標、左上Ｙ座標、幅、高さの情報は、文字矩形の文
書画像上の位置および大きさを示す情報であり、この情
報によって文書画像と文字矩形との対応づけがなされて
いる。

【００３４】図５ないし図７は、文書構造情報が取得さ
れて行く過程の説明図である。ここでは、図４に示した
ようなデータ構造を有する文書構造情報が、図２に示す
処理の過程によってどのように取得されて行くかを、具
体例をもとに示している。いま、図５（Ａ）に示す文書
画像が文書画像入力部１から入力されたものとする。図
５（Ａ）では、文字の存在する部分を□にハッチングを
施して示している。以下の説明では、図５（Ａ）に示し
た文書中の３行目について着目し、説明を行なう。

【００３５】図５（Ｂ）には文書構造情報を示してい
る。ここで、図４に示す情報の名称が記入されている部
分は、まだその情報の値が得られていないことを示して
いる。図５に示すような処理前の状態では、文書構造情
報は何も得られていない。

【００３６】図５（Ａ）に示す文書画像に対して、Ｓ２
２における行矩形の抽出処理が行なわれると、図６
（Ａ）に太線で示すような行矩形が抽出される。このと
き、行矩形の左上のＸ座標およびＹ座標、幅、高さが取
得され、図６（Ｂ）に示すようにそれぞれの値が設定さ
れる。ここでは、３行目に着目しているので、通し番号
「００００３」が付与された行矩形情報に、左上Ｘ座
標、左上Ｙ座標、幅、高さとして「１７６」、「４８
３」、「８９５」、「７２」が設定されている。さら
に、Ｓ２３において行方向の判定が行なわれ、この具体
例では横方向であることが判定される。この判定を受け
て、図５（Ｃ）に示すように、行矩形情報中の行方向の
情報として「横」が設定される。

【００３７】次に、Ｓ２４において、文字矩形が抽出さ
れる。各文字矩形に分割された状態を図７（Ａ）におい
て太線で示している。このとき、抽出された文字矩形の
数が行矩形情報中に設定され、各文字矩形ごとに、文字
矩形情報が作成される。図７（Ｂ）では、図７（Ａ）に
示した文書画像の３行目に含まれる文字数１７が行矩形
情報中に設定されている。また、図７（Ｂ）では３行目
の最初の２文字についてのみ、文字矩形情報を示してい
る。他の文字についても同様にして文字矩形情報が作成
される。図７（Ｂ）に示した１文字目の文字矩形情報に
は、通し番号として「１８」、左上Ｘ座標として「１７
６」、左上Ｙ座標として「４８５」、幅として「５
９」、高さとして「６５」が設定されている。同様に２
文字目についても、それぞれ、「１９」、「２４７」、
「４８４」、「６０」、「６５」が設定されている。

【００３８】さらに、Ｓ２５において行の接続関係が判
定される。この例では、２ないし４行目は連続した行で
あるので、図７（Ｃ）に示すように、３行目の行矩形情
報では、前接続行番号として２行目の行矩形情報の通し
番号である「００００２」が設定され、また、後接続行
番号として４行目の矩形情報の通し番号である「０００
０４」が設定される。このようにして設定された行矩形
情報および文字矩形情報は、Ｓ２６において文書構造情
報として文書構造情報格納部４に格納される。

【００３９】以下、上述の図２に示した文書構造解析処
理の具体的な処理の一例について詳細に説明ずる。な
お、図２のＳ２１における文書画像の入力処理およびＳ
２６における文書構造情報の格納処理については、詳細
な説明は不要と考えるので、ここでは説明を省略する。

【００４０】図８は、行矩形抽出処理の一例を示すフロ
ーチャートである。初期状態として処理対象領域を文書
画像全体として処理を開始する。まず、Ｓ３１におい
て、処理対象領域を水平分割する。水平分割は、処理対
象領域ごとに水平方向の白画素の連続（以下白ランとい
う）が処理対象領域の水平方向の幅まで広がっていて、
かつ、その白ランが垂直方向に一定値以上連続している
部分で分割する。Ｓ３２において水平分割処理が行なえ
たか否かを判定し、分割できた場合にはＳ３３で水平分
割フラグを「ｙｅｓ」に、分割できなかった場合には水
平分割フラグを「ｎｏ」にセットする。

【００４１】次に、Ｓ３５において、処理対象領域を垂
直分割する。垂直分割は、処理対象領域ごとに垂直方向
に白ランが処理対象領域の垂直方向の幅まで広がってお
り、かつその白ランが水平方向に一定値以上連続してい
る部分で分割する。Ｓ３６のいて、垂直分割処理が行な
えたか否かを判定し、分割できた場合にはさらに分割処
理を繰り返すため、Ｓ３１へ戻る。また、分割できなか
った場合には、Ｓ３７で水平分割フラグが「ｙｅｓ」か
否か、すなわち水平分割が行なえたか否かを判定し、水
平分割が行なわれている場合にはさらに分割処理を繰り
返すため、Ｓ３１へ戻る。水平分割フラグが「ｎｏ」の
場合には、処理を終了する。

【００４２】このようにして、全ての処理対象領域にお
いて、水平分割と垂直分割のいずれかの分割が行なわれ
ている間、Ｓ３１の水平分割処理と、Ｓ３５の垂直分割
処理を繰り返す。そして、水平分割、垂直分割ともに行
なえなくなった時点で分割処理を終了する。このように
して分割された各処理対象領域が行矩形である。

【００４３】上述の処理手順では、水平分割処理を先
に、垂直分割処理を後に行なっているが、これに限ら
ず、垂直分割処理を先に、水平分割処理を後に行なうよ
うに構成してもよい。なお、入力した文書画像中にノイ
ズ等が存在すると、白ランが処理対象領域の幅よりも短
くなってしまい、分割できなくなる可能性もある。その
ような場合には、この行矩形の抽出処理に先立ってノイ
ズ除去等の処理を行なっておくと効果的である。あるい
は、処理対象領域幅の画素数と白画素数との比較によっ
て分割位置を求めるように構成することも可能である。

【００４４】図９は、水平分割処理の一例を示すフロー
チャートである。図８のＳ３１において行なわれる水平
分割処理は、例えば、次のようにして行なうことができ
る。ここでは、所定長の白ランが存在するラインを計数
するための変数Ｈ＿ｒｕｎｓを用いている。

【００４５】まず、Ｓ４１において、変数Ｈ＿ｒｕｎｓ
を０にクリアしておく。Ｓ４２において、処理対象領域
内に次の水平ラインが存在するか否か、すなわち、処理
対処領域内の全ての水平ラインについて処理を行なった
か否かを判定する。次の水平ラインが存在する場合に
は、存在する次の水平ラインについて、白ラン長を調べ
る。そして、Ｓ４３においてその白ラン長が処理対象領
域の幅に等しいか否かを判定する。白ラン長が処理対象
領域の幅よりも短い場合には、その水平ラインは行であ
る可能性があるので、Ｓ４２へ戻って、次の水平ライン
の処理に移る。

【００４６】白ラン長が処理対象領域の幅に亙って存在
する場合、その水平ラインは行間である可能性がある。
そのため、Ｓ４４において、変数Ｈ＿ｒｕｎｓを１だけ
増加させ、Ｓ４５において次の水平ラインの白ランを検
出する。Ｓ４６において、Ｓ４３と同様に白ランが処理
対象領域の幅に等しいか否かを判定し、等しい場合には
Ｓ４４へ戻ってその水平ラインの数をカウントする。白
ランが処理対象領域の幅より短くなった時点、あるいは
処理すべき水平ラインがなくなった時点でＳ４７へ進
み、変数Ｈ＿ｒｕｎｓの値が予め定めた閾値よりも大き
いか否かを判定する。大きい場合には、Ｓ４８におい
て、水平ラインの上下で処理対象領域を分割する。そし
て、さらに分割処理を進めるため、Ｓ４１へ戻る。この
ようにして、処理対象領域の幅に亙って白画素が存在す
る水平ラインが所定ライン数だけ現れた全ての位置で処
理対象領域を上下に分割して行く。この水平分割処理
は、存在する処理対象領域全てに対して行なわれる。

【００４７】図１０は、垂直分割処理の一例を示すフロ
ーチャートである。図８のＳ３５において行なわれる垂
直分割処理は、上述の水平分割処理とほぼ同様であり、
例えば、次のようにして行なうことができる。ここで
は、所定長の白ランが存在する垂直ラインを計数するた
めの変数Ｖ＿ｒｕｎｓを用いている。

【００４８】まず、Ｓ５１において、変数Ｖ＿ｒｕｎｓ
を０にクリアしておく。Ｓ５２において、処理対象領域
内に次の垂直ラインが存在するか否か、すなわち、処理
対処領域内の全ての垂直ラインについて処理を行なった
か否かを判定する。次の垂直ラインが存在する場合に
は、存在する次の垂直ラインについて、白ラン長を調べ
る。そして、Ｓ５３においてその白ラン長が処理対象領
域の高さに等しいか否かを判定する。白ラン長が処理対
象領域の高さよりも短い場合には、その垂直ラインには
行内の文字が存在している可能性があるので、Ｓ５２へ
戻って、次の垂直ラインの処理に移る。

【００４９】白ラン長が処理対象領域の高さに亙って存
在する場合、その垂直ラインで行が分かれている可能性
がある。例えば、上述の図５に示した例では、４行目は
２つのブロックに分かれている。このようなブロックの
間である可能性がある。そのため、Ｓ５４において、変
数Ｖ＿ｒｕｎｓを１だけ増加させ、Ｓ５５において次の
垂直ラインの白ランを検出する。Ｓ５６において、Ｓ５
３と同様に白ランが処理対象領域の高さに等しいか否か
を判定し、等しい場合にはＳ５４へ戻ってその垂直ライ
ンの数をカウントする。白ランが処理対象領域の高さよ
り短くなった時点、あるいは処理すべき垂直ラインがな
くなった時点でＳ５７へ進み、変数Ｖ＿ｒｕｎｓの値が
予め定めた閾値よりも大きいか否かを判定する。大きい
場合には、Ｓ５８において、垂直ラインの左右で処理対
象領域を分割する。そして、さらに分割処理を進めるた
め、Ｓ５１へ戻る。このようにして、処理対象領域の高
さに亙って白画素が存在する垂直ラインが所定ライン数
だけ現れた全ての位置で処理対象領域を左右に分割して
行く。この垂直分割処理は、存在する処理対象領域全て
に対して行なわれる。

【００５０】図１１は、行方向判定処理の一例を示すフ
ローチャートである。図２で説明したように、Ｓ２２に
おける行矩形の抽出処理が終了すると、次に、Ｓ２３に
おいて、行方向判定処理を行なう。行矩形の抽出処理で
は、上述のように水平方向の分割と垂直方向の分割を繰
り返し行なっているだけであるので、抽出した行矩形の
方向性については判定していない。そこで、図１１に示
した処理によって、行の方向を検出している。

【００５１】まず、Ｓ６１において、行方向が求まって
いない行矩形が存在するか否かを判定し、存在しなくな
った時点で処理を終了する。行方向が求まっていない行
矩形が存在する場合には、Ｓ６２において次の処理すべ
き行矩形を選択し、Ｓ６３においてその行矩形の幅をＨ
Ｌ、Ｓ６４においてその行矩形の高さをＶＬとする。そ
して、行矩形の縦横比、すなわちＶＬ／ＨＬを計算し、
Ｓ６５においてその縦横比が所定の閾値ＨＴよりも小さ
いか否かを判定する。小さい場合には、Ｓ６６において
その行矩形は横書きであるものと判定し、Ｓ６１へ戻
る。また、Ｓ６７において、行矩形の縦横比ＶＬ／ＨＬ
が所定の閾値ＶＴよりも大きいか否かを判定し、大きい
場合にはＳ６８においてその行矩形は縦書きであるもの
と判定してＳ６１へ戻る。

【００５２】行矩形の縦横比ＶＬ／ＨＬが所定の閾値Ｈ
Ｔ以上であり、かつ、所定の閾値ＶＴ以下である場合に
は、その行矩形のみでは行方向の判定は行なわない。Ｓ
６９において、行矩形の上下左右方向で最も近い行矩形
を探索する。そして、探索された行矩形の行方向が求ま
っているか否かをＳ７０で判定し、求まっている場合に
はＳ７１においてその最も近い行矩形の行方向をそのま
ま現在処理中の行矩形の行方向とする。そして、Ｓ６１
へ戻る。また、最も近い行矩形の行方向がまだ求められ
ていない場合には、現在処理中の行矩形の行方向を決定
せず、未処理のままとしてＳ６１へ戻る。処理が進み、
最も近い行矩形の行方向が求められた後に行方向が決定
されることになる。

【００５３】このようにして、各行矩形に対して上述の
判定を行なうことによって、各行矩形の行方向を決定す
る。なお、全ての未処理の行矩形について、行方向が判
定されなくなった場合には、これを検出して処理を終了
する。この場合、これらの未処理の行矩形の行方向を不
明とするか、あるいは、どちらかの方向にセットすれば
よい。

【００５４】図２のＳ２３における行方向判定処理が終
了すると、次に、Ｓ２４において、文字矩形の抽出処理
を行なう。この文字矩形の抽出処理は簡単である。既に
行矩形に分割されており、また、行方向も検出されてい
る。行矩形が横書きと判定されている場合には、垂直方
向の黒画素の射影を取り、また、行矩形が縦書きと判定
されている場合には、水平方向の黒画素の射影を取る。
そして、射影の値が０となる、すなわち黒画素が切れる
部分で行を分割し、それぞれの文字矩形として抽出すれ
ばよい。この文字矩形抽出処理は、各行矩形に対して行
なわれる。

【００５５】また、この文字矩形の抽出処理は、上述の
行矩形抽出処理を用いることも可能である。例えば、行
矩形が横書きと判定されている場合には、図１０に示し
た垂直分割処理を行なう。また、行矩形が縦書きと判定
されている場合には、図９に示した水平分割処理を行な
えばよい。この時、分割可能か否かを判定する際の閾値
は、１ないし数ライン程度とすればよい。

【００５６】図１２は、行の接続関係判定処理の一例を
示すフローチャートである。図２のＳ２４における文字
矩形の抽出処理が終了すると、次に、Ｓ２５において、
行の接続関係の判定処理を行なう。ここでは、行方向が
横書きの場合についての行の接続関係の判定処理の一例
について示す。

【００５７】まず、Ｓ８１において、未処理の行矩形を
探索する。ここでは、左上から順に、接続関係の判定処
理が行なわれていない行矩形を探索するものとする。未
処理の行矩形が存在しない場合、Ｓ８２でこれを判定
し、処理を終了する。また、未処理の行矩形が探索され
たとき、Ｓ８３においてこれを注目行とする。そして、
Ｓ８４において、注目行の長さをＬｍａｘとする。

【００５８】Ｓ８５において、注目行の下方向で、間隔
が所定の閾値以内の距離にある行矩形が存在するか否か
を判定する。そのような行矩形が存在する場合には、さ
らに、その行矩形が注目行の最大の長さＬｍａｘのＬｔ
倍以下か否かをＳ８６で判定する。なお、Ｌｔは所定の
閾値である。この両方の条件を満たす行矩形が存在する
場合、その行矩形を注目行に接続するものと見なす。そ
うでない場合は、接続しないものと見なす。

【００５９】注目行に接続する行矩形が見つかった場
合、Ｓ８７に進み、注目行と見つかった行矩形とを接続
する処理を行なう。具体的には、注目行の行矩形情報中
の後接続行番号に、見つかった行矩形の通し番号を設定
し、また、見つかった行矩形の行矩形情報中の前接続行
番号に、注目行の通し番号を設定する。そして、Ｓ８８
において、注目行をみつかった行矩形へと移す。Ｓ８９
では、新たな注目行の長さとＬｍａｘの値を比べて、も
し注目行の長さの方が長ければ、Ｓ９０においてＬｍａ
ｘを新たな注目行の長さとする。Ｓ８５へ戻り、新たな
注目行について、接続する行矩形を調べる。

【００６０】このようにして、接続する行矩形がなくな
るまで、Ｓ８５ないしＳ９０の処理をくり返し行なう。
Ｓ８５またはＳ８６の条件を満足しなくなった時、接続
する行矩形が存在しなくなったものとして、Ｓ９１にお
いて、そのときの注目行に接続する全ての行矩形を処理
済みとし、Ｓ８１へ戻って、他の未処理の行矩形につい
ての処理を行なう。このような処理を未処理の行矩形が
なくなるまで繰り返す。このようにして、行の接続関係
が判定される。

【００６１】なお、行方向が縦書きと判定されている場
合も、同様に処理することができる。すなわち、右上の
行矩形から未処理の行の探索を開始し、注目行の長さＬ
ｍａｘを行矩形の縦方向の長さとし、注目行の左方向に
所定の閾値以内の距離に存在する行矩形を探索するよう
に変更することによって、縦書きの場合にも行の接続関
係を判定することができる。

【００６２】上述のような各処理によって得られた文書
上の行と文字の配置関係に関する情報は、文書構造情報
として、文書構造格納部に文書画像と対応付けて格納さ
れる。

【００６３】次に、文字認識領域の指定と文字認識処理
について説明する。上述のようにして、入力された文書
画像についての文書構造情報が得られているので、ユー
ザは文書が画像であるにもかかわらず、通常のキャラク
タの文書と同様の操作で領域の指定や転記の操作などの
編集操作を行なうことができる。

【００６４】図１３は、本発明の文字認識装置の第１の
実施の形態における文字認識領域の指定および認識処理
の一例を示すフローチャートである。ユーザは所望の文
書を文書画像格納部２から読み出し、Ｓ１０１において
表示部１０に表示させる。このとき、文書の文字および
行の位置関係を示す文字構造情報が文書構造情報格納部
４から同時に読み出される。Ｓ１０２において、ユーザ
は、表示されている文書画像を参照しながら、認識対象
となる領域を操作部９から指定する。ここで、指定領域
解析部６は、文書構造情報格納部４から読み出した文書
構造情報と、操作部９から指示された位置とを対応付
け、指定されている文字領域を表示部１０に表示する。

【００６５】指示した認識対象領域が所望のものであれ
ば、Ｓ１０３において、ユーザは操作部９から転記指示
を行なう。すると、指示された認識対象領域に対応する
イメージが各文字ごとに切り出されて、文字認識部７へ
と送られる。文字認識部７は、ユーザからの指示ととも
に認識処理を開始し、Ｓ１０４において、送られて来る
文字イメージから文字を認識する。文字認識部７が文字
の認識を行なう際には、文字認識用辞書８を用いる。な
お、文字イメージから文字を認識する処理は、公知の手
段によって行なわれる。

【００６６】ユーザが、エディタやワードプロセッサ等
の文字編集部５のウィンドウにおいて、Ｓ１０５で転記
先を指定する。すると、Ｓ１０６において、指定された
転記先に文字認識部７による認識結果が記入される。こ
の場合、対象領域の認識が全て終わってから転記先に記
入されるようにしてもよいし、認識処理が終わった部分
から順次記入されるようにしてもよい。

【００６７】以上のようにして、ユーザは通常用いてい
る文書編集装置に対して行なう操作と同様の操作で、イ
メージ文書から所望の文字列を得て、エディタやワード
プロセッサなどの電子的な文書環境へと移すことができ
る。また、転記指示による認識以外にも、メニューなど
からの認識の指示により認識を行ない、認識結果を他の
ウィンドウやファイルに出力して利用するように構成す
ることも可能である。

【００６８】図１４、図１５は、本発明の文字認識装置
の第１の実施の形態における領域指定処理の一具体例を
示すフローチャートである。図１３のＳ１０２において
行なわれる認識対象領域の指定の具体的な処理の一例に
ついて説明する。ここでは、操作部９としてマウスおよ
びキーボードを備えている場合について説明する。図１
３のＳ１０１において文書画像が表示部１０に表示され
た状態で、ユーザは操作部９のマウスを用いて、所望の
領域の開始点で左ボタンを押す。Ｓ１１１では、ユーザ
がマウスの左ボタンを押したことを検出する。制御部１
１は、文書画像上の対応する位置を検出し、その位置に
対応する文字矩形が存在するか否かをＳ１１２で判断す
る。対応する文字矩形が存在しない場合には、開始点が
特定されないので、Ｓ１１１へ戻り、新たな開始点の指
示を待つ。対応する文字矩形が存在する場合には、Ｓ１
１３において、マウスがクリックされたカーソル位置の
文字矩形を反転して表示し、開始点とする。

【００６９】ユーザは、マウスの左ボタンを押したま
ま、終了点にカーソルを移動し、マウスの左ボタンを離
すことによって終了点を指示する。まず、Ｓ１１４にお
いて、カーソル位置が、開始点を含む行矩形外へ移動し
たか否かを判定し、カーソル位置が開始点を含む行矩形
外へ移動していない時にはＳ１２６へ進む。カーソル位
置が開始点を含む行矩形外へ移動している場合には、Ｓ
１１５において、カーソル位置が開始点の文字矩形より
も後にあるか否かを判定する。カーソル位置が開始点の
文字矩形よりも後にある場合には、Ｓ１１６において、
さらにカーソル位置が開始点を含む行矩形と接続する最
後の行矩形よりも後にあるか否かを判定する。最後の行
矩形以前にカーソル位置が存在する場合には、Ｓ１１７
において開始点を含む行矩形の次の行矩形からカーソル
位置を含む行矩形の前の行矩形までを反転表示する。そ
して、Ｓ１１８でカーソル位置の文字矩形から行頭まで
を反転表示し、さらにＳ１１９で開始点の文字矩形から
行末までを反転表示する。このＳ１１７ないしＳ１１９
の処理により、開始点の文字矩形からカーソル位置の文
字矩形までが反転表示されることになる。

【００７０】Ｓ１１６でカーソル位置が最後の行矩形よ
りも後に存在する場合には、Ｓ１２０において開始点を
含む行矩形の次の行矩形から最後の行矩形までを反転表
示し、さらにＳ１１９において開始点の文字矩形から行
末までを反転表示する。これにより、開始点から、開始
点を含む行矩形と連続する最後の行矩形の行末までが反
転表示される。

【００７１】Ｓ１１５において、カーソルの位置が、開
始点の文字矩形が属する行矩形よりも前にあると判定さ
れた場合には、図１５のＳ１２１において、さらにカー
ソル位置が開始点を含む行矩形と接続する最初の行矩形
よりも前にあるか否かを判定する。最初の行矩形以後に
カーソルの位置が存在する場合には、Ｓ１２２において
カーソル位置を含む行矩形の後の行矩形から開始点を含
む行矩形の前の行矩形までを反転表示する。そして、Ｓ
１２３でカーソル位置の文字矩形から行末までを反転表
示し、さらにＳ１２４で開始点の文字矩形から行頭まで
を反転表示する。このＳ１２２ないしＳ１２４の処理に
より、カーソル位置の文字矩形から開始点の文字矩形ま
でが反転表示されることになる。

【００７２】なお、図１４、図１５には示していない
が、開始点と同じ行矩形内にカーソル位置が存在する場
合には、開始点の文字矩形からカーソル位置の文字矩形
までを反転表示すればよい。

【００７３】Ｓ１２６において、マウスの左ボタンが離
されたか否かが判定され、離されていない場合にはＳ１
１４へ戻ってカーソル位置までの反転表示処理を行な
う。このようにして、操作部９のマウスの左ボタンが押
され続けている間、移動されるカーソルの位置に応じ
て、Ｓ１１４ないしＳ１２６に示す処理が行なわれる。

【００７４】マウスの左ボタンが離されると、Ｓ１２７
において、左ボタンが離された時点での反転領域を認識
対象領域として確定する。このとき、表示は反転させた
ままに保持する。左ボタンを離した後、もう一度左ボタ
ンが押された場合には、現在指定されている認識対象領
域はキャンセルされ、反転表示は取り消されて、開始点
を指示する操作へと戻る。また、操作部９からの指示に
より認識対象領域を修正可能に構成することもできる。

【００７５】図１６は、ユーザによる転記操作の一具体
例の説明図である。上述の図１３ないし図１５に示した
領域指定及び認識処理を、ユーザの側から具体例を用い
て説明する。図１６（Ａ）は、ユーザによって読み出さ
れた文書画像が表示部１０に表示された状態を示してい
る。この表示されている文書画像に対してユーザは領域
指定を行なう。まず、開始点を指示する。すなわち、カ
ーソルを認識対象領域の端点に合わせるようにマウスを
操作し、左ボタンを押す。このとき、カーソル位置に文
字矩形が存在していれば、図１６（Ａ）に示すように、
カーソル位置の文字矩形が反転し、開始点が設定された
ことを知ることができる。カーソル位置の文字矩形が反
転しない場合には、一度左ボタンを離し、再度カーソル
位置を修正して左ボタンを押す。

【００７６】開始点が設定された後、ユーザはマウスの
左ボタンを押したまま、マウスを操作してカーソルを終
了点まで移動させる。カーソルの移動に伴って、開始点
からカーソル位置までの文書画像が反転表示される。こ
の状態を図１６（Ｂ）に示している。図１６（Ｂ）で
は、反転表示されている部分について、行を太くして示
している。ユーザは反転した領域を見ながら、所望の領
域となるようにカーソルを移動させ、終了点においてマ
ウスの左ボタンを離す。この時点で反転表示されている
領域が認識対象領域として確定する。これ以後は、新た
な指示を行なわない限り、カーソルを移動させても反転
領域は増減しない。

【００７７】図１６（Ｂ）に示すように認識対象処理が
反転された状態で、ユーザが操作部９の転記ボタン、例
えば、図１６（Ｃ）に示すキーボードのコピーボタンを
押す。すると、認識対象領域に対応するイメージが各文
字ごとに切り出されて、文字認識部７へと送られるとと
もに、文字認識部７は認識処理を開始する。

【００７８】次に、ユーザは、エディタやワードプロセ
ッサ等の文字編集部５のウィンドウの画面に移り、転記
先となる文書の任意の位置にカーソルを移動させ、マウ
スをクリックする。このマウスをクリックした時のカー
ソルの位置が転記先となる。文字認識部７で認識された
結果が、図１６（Ｄ）に示すように転記先に記入され
る。

【００７９】以上のようにして、ユーザは通常の文書編
集装置において転記を行なう際の操作と同様に、開始点
と終了点を指定し、転記ボタンの押下、それに転記先の
指定を行なうだけで、イメージ形式の文書画像から所望
の文字列を得て、エディタやワードプロセッサなどの電
子的な文書環境へと移すことができる。

【００８０】なお、領域選択におけるマウスボタンの操
作は、上述の具体例に限定されるものではなく、領域の
開始点の指示を左ボタンとし、領域の終了点の指示を右
ボタンに対応させたり、１回目のクリックを開始点、２
回目のクリックを終了点とする等、種々の実現方法を用
いることができる。また、上述の例では、認識対象領域
を指定してから転記ボタンを押し、転記先を指定した
が、先に転記キーを押してから認識対象領域を指定する
など、種々の手順によって転記操作を行なうことができ
る。さらに、上述の具体例ではポインティングデバイス
としてマウスを用いたが、液晶ディスプレイ上でタッチ
ペンを用いたり、ディジタイザやトラックボールを用い
るなど、種々の形態で実現することができる。

【００８１】次に、本発明の文字認識装置の第２の実施
の形態について説明する。一般の文書エディタにおいて
は、同一文字上で指示することにより、指定範囲を文字
→文→段落等のように拡大することができる。この第２
の実施の形態では、このような一般の文書エディタにお
いて可能なこのような操作で領域を指定することができ
るようにした構成を示す。

【００８２】図１７は、本発明の文字認識装置の第２の
実施の形態を示す構成図である。図中、図１と同様の部
分には同じ符号を付して重複する説明を省略する。１２
は段落抽出部、１３は句読点抽出部である。文書構造解
析部３は、一定の大きさ以下のブロックを文字部分と見
なして行の抽出と行の順番の判定を行なうとともに、複
数の行からなる文字ブロックを検出し、また、句読点抽
出部１２、段落検出部１３を用いて文書中の句読点位
置、段落位置などを得る。句読点抽出部１２は、文書中
の句読点を抽出する。段落検出部１３は同一文字ブロッ
ク内での段落の境界を検出する。文書構造情報格納部４
は、文書構造解析部３で抽出された文書画像上の文字、
行、文字ブロック、句読点位置、段落などの配置関係に
関する情報を、もとの文書イメージと対応づけて格納す
る。指定領域解析部６は、操作部９の指定に応じて文書
画像と文書構造情報との対応付けを行なう。このとき、
文書構造解析部３で抽出された文書画像上の文字、行、
文字ブロック、句読点位置、段落等の情報を選択的に用
いて、指定された領域を決定する。

【００８３】次に、本発明の文字認識装置の第２の実施
の形態における動作の一例について説明する。この第２
の実施の形態での処理も、上述の第１の実施の形態の場
合と同様、画像読み取り時に行なわれる文書構造解析処
理と、ユーザが文字コードを必要とする時に行なわれる
認識処理とに大きく分けられる。以下、この２つの処理
を順に説明する。図１８は、本発明の文字認識装置の第
２の実施の形態における文書構造解析処理の一例を示す
フローチャートである。行矩形および文字矩形の抽出処
理は上述の第一の実施の形態と同様に、行矩形を抽出し
てから文字矩形を抽出する方法を用いることができる
が、ここでは別の方法として、ラベル処理から文字矩形
を抽出し、これを統合して行矩形を抽出する方法を示し
ている。

【００８４】まず、Ｓ１３１において、処理対象とする
文書の画像が、スキャナ等からなる文書画像入力部１に
よって読み込まれる。読み込まれた画像は、文書画像格
納部２に保存され、文書構造解析部３に送られる。

【００８５】文書構造解析部３は、まずＳ１３２におい
て、全ての連結黒画素の外接矩形を抽出する。次に、外
接矩形の大きさに関して、以下の条件を満たす外接矩形
を文字矩形とみなし、それ以外の外接矩形は処理対象か
ら消去する。文字矩形と見なす条件としては、外接矩形
の長いほうの辺の長さをＬｌ、短いほうの辺の長さをＳ
ｌとするとき、Ｌｌ＜ＬｔＳｌ＞ＳｔＬｌ／Ｓｌ＜ＲｔまたはＳｌ／Ｌｌ＜Ｒｔとすればよい。但し、Ｌｔ、Ｓｔ、Ｒｔは閾値である。

【００８６】次に、Ｓ１３３において白セパレータを、
また、Ｓ１３４において黒セパレータをそれぞれ抽出す
る。Ｓ１３５において、抽出した白／黒セパレータを用
いて文字矩形を行矩形に統合する。この白／黒セパレー
タの抽出方法、および、白／黒のセパレータを用いて領
域を分割する方法の詳細は後述する。

【００８７】Ｓ１３６において、句読点抽出部１３によ
って句読点の抽出が行なわれる。また、Ｓ１３７におい
て、行矩形を統合して文字ブロックを抽出し、各文字ブ
ロックについて、Ｓ１３８において文字ブロック内に含
まれるすべての行に対して順序づけを行なう。順序は、
横書きの文字ブロックなら上から順に、縦書きなら右か
ら順に番号をつける。さらに、Ｓ１３９において、段落
抽出部１２によって段落の抽出が行なわれる。

【００８８】以上のようにして得られた、文書上の文字
／句読点／行／段落及び文字ブロックの配置関係に関す
る情報が、Ｓ１４０において文書構造情報格納部４に格
納される。

【００８９】以下、文書構造解析部３において文書解析
を行なうためのラベル抽出、白／黒セパレータの抽出、
文字矩形統合、文字ブロック抽出の各処理と、句読点抽
出部１３で行なわれる句読点抽出処理、段落抽出部１２
で行なわれる段落抽出処理の一例について説明する。

【００９０】図１９、図２０は、白セパレータの抽出処
理の一例を示すフローチャート、図２１はセパレータ候
補抽出処理の一例を示すフローチャートである。まず、
Ｓ１５１において、主走査方向を垂直方向、副走査方向
を水平方向とし、Ｓ１５２において図２１に示す処理を
行なって水平セパレータ候補を抽出する。また、Ｓ１５
３において、主走査方向を水平方向、副走査方向を垂直
方向とし、Ｓ１５４において図２１に示す処理を行なっ
て垂直セパレータ候補を抽出する。

【００９１】図２１において、Ｓ１７１で副走査方向に
一定長Ｗｌｔ以上連続する白ランを抽出する。Ｓ１７２
において主走査方向に隣接する白ランを探索し、Ｓ１７
３において、副走査方向の最小値どうし、最大値どうし
の座標の差分がともに閾値Ｗｄｔ以下の場合、それらの
白ランを統合し、セパレータ候補とする。Ｓ１７５にお
いて、未処理の白ランが存在するか否かを判定し、Ｓ１
７６で未処理の白ランを選択してＳ１７２からの処理を
繰り返し行なう。未処理の白ランが無くなった時点でセ
パレータ候補の抽出処理を終了する。

【００９２】Ｓ１５２においてこの処理を実行すること
により、水平方向に一定長Ｗｌｔ以上連続する白ランが
抽出され、垂直方向に隣接する白ランが統合される。こ
れにより水平方向のセパレータ候補が抽出される。ま
た、Ｓ１５４においてこの処理を実行することにより、
垂直方向に一定長Ｗｌｔ以上連続する白ランが抽出さ
れ、水平方向に隣接する白ランが統合される。これによ
り垂直方向のセパレータ候補が抽出される。

【００９３】Ｓ１５５において、Ｓ１５２で抽出された
水平セパレータ候補のうち、高さが閾値Ｓｈｔ以下の水
平セパレータ候補を削除する。同様に、Ｓ１５６におい
て、Ｓ１５４で抽出された垂直セパレータ候補のうち、
幅が閾値Ｓｗｔ以下の垂直セパレータ候補を削除する。

【００９４】Ｓ１５７において、水平・垂直方向に互い
に交差するセパレータ候補を探索する。Ｓ１５８におい
て、互いに交差する未処理のセパレータ候補が検索され
たか否かを判定する。検索された場合には、Ｓ１５９に
おいて、検索された２つのセパレータ候補の面積比が閾
値Ａｔより大きいか否かを判定する。ここで、面積が大
きい方のセパレータ候補の面積をＢａ、面積が小さい方
のセパレータ候補の面積をＳａとするとき、Ｂａ／Ｓａ＞Ａｔか否かを判定する。この条件を満たす時、Ｓ１６０にお
いて、面積が小さい方のセパレータ候補を大きい方のセ
パレータ候補によって分割する。Ｓ１６１において、分
割されたセパレータ候補の長さが閾値以上か否かを判定
し、長さが閾値より短くなったセパレータ候補はＳ１６
２において消去する。この処理を、交差する全てのセパ
レータ候補に対して行なう。

【００９５】交差する全てのセパレータ候補に対してＳ
１５７〜Ｓ１６２の処理を行なった後、Ｓ１６３におい
て、残されたセパレータ候補を白セパレータとし、白セ
パレータ抽出処理を終了する。

【００９６】なお、黒セパレータの抽出処理は、水平方
向および垂直方向にそれぞれ閾値Ｂｌｔ以上の連続する
黒ランを抽出し、それを黒セパレータとする処理を行な
う。簡単な処理であるので図示は省略する。

【００９７】図２２、図２３は、文字矩形統合処理の一
例を示すフローチャートである。まずＳ１８１において
統合回数を０に初期設定した後、Ｓ１８２で注目矩形と
していない文字矩形または文字矩形を統合した行矩形候
補が存在するか否かを判定し、Ｓ１８３において未処理
の文字矩形または行矩形候補を注目矩形とする。

【００９８】Ｓ１８４において、注目矩形に最も近く、
矩形との距離が閾値Ｆｄｔ以下の白／黒セパレータを探
索する。Ｓ１８５で検索できたか否かを判定し、検索で
きなければＳ１８２へ戻る。検索できた場合には、Ｓ１
８６において、セパレータの方向を注目矩形の文字列方
向、すなわち行方向とする。

【００９９】Ｓ１８７において、注目矩形に統合するた
めの判定を行なっていない文字矩形または行矩形候補が
存在するか否かを判定し、存在しない場合にはＳ１８２
へ戻る。判定を行なっていない文字矩形または行矩形候
補が存在する場合、Ｓ１８８において、その中の１つを
統合対象とする。Ｓ１８９において、その統合対象が以
下の条件（Ａ）を満たすか否かを判定する。条件（Ａ）
は、・統合対象は文字矩形もしくは行方向が同一の行矩形候
補である。・注目矩形と統合対象が同一でない。・注目矩形と統合対象矩形の間に、行方向と直交する白
セパレータ及び黒セパレータが無い。というものである。

【０１００】この条件（Ａ）を満たしている場合、さら
に、Ｓ１９０において縦書きか否かを判定した後、横書
きの場合にはＳ１９１において条件（Ｂ）について判定
し、縦書きの場合にはＳ１９２において条件（Ｃ）につ
いて判定する。条件（Ｂ）、（Ｃ）は、注目矩形と統合
対象とが行方向にオーバーラップし、距離が閾値Ｃｍｔ
以下であるか否かを判定するものである。すなわち、注
目矩形の水平方向の座標の最小値をＳＸｍｉｎ、注目矩
形の水平方向の座標の最大値をＳＸｍａｘ、注目矩形の
垂直方向の座標の最小値をＳＹｍｉｎ、注目矩形の垂直
方向の座標の最大値をＳＹｍａｘ、統合対象の水平方向
の座標の最小値をＤＸｍｉｎ、統合対象の水平方向の座
標の最大値をＤＸｍａｘ、統合対象の垂直方向の座標の
最小値をＤＹｍｉｎ、統合対象の垂直方向の座標の最大
値をＤＹｍａｘ、行の方向の矩形間の距離の閾値をＣｍ
ｔとするとき、横書きの場合の条件（Ｂ）は、ＤＸｍｉｎ−ＳＸｍａｘ＜ＣｍｔかつＳＸｍｉｎ−
ＤＸｍａｘ＜ＣｍｔＳＹｍａｘ＞ＤＹｍｉｎかつＤＹｍａｘ＞ＳＹｍｉ
ｎである。また、縦書きの場合の条件（Ｃ）は、ＤＹｍｉｎ−ＳＹｍａｘ＜ＣｍｔかつＳＹｍｉｎ−
ＤＹｍａｘ＜ＣｍｔＳＸｍａｘ＞ＤＸｍｉｎかつＤＸｍａｘ＞ＳＸｍｉ
ｎである。

【０１０１】これらの条件（Ａ）、（Ｂ）、（Ｃ）を満
たしている場合に、注目矩形と統合対象矩形を統合し、
Ｓ１９３において統合した矩形をあたらな行矩形候補と
する。また、Ｓ１９４において、統合対象となった文字
矩形または行矩形候補は消去する。Ｓ１９５において、
統合回数を１だけ増加させ、Ｓ１８２へ戻る。なお、条
件（Ａ）および（Ｂ）、または条件（Ａ）および（Ｃ）
を満たしていない場合、Ｓ１８７へ戻って他の統合対象
についての条件判定を行なう。このようにしてＳ１８７
〜Ｓ１９５において、統合の条件を満たす文字矩形また
は行矩形候補を探索し、統合処理を行なう。

【０１０２】以上のＳ１８２〜Ｓ１９５の処理を注目矩
形を順次選択して繰り返し行なう。ひととおりの処理が
終了すると、Ｓ１９６へ進み、統合回数が０より大きい
か否かを判定する。統合が行なわれていると、統合回数
は０以外の正数となっているのでこれを判定し、新たに
行矩形候補となった矩形を含めて統合処理を行なうべ
く、Ｓ１８１から再度統合処理を開始する。統合できる
矩形が無くなった段階で、残された行矩形候補を行矩形
とする。

【０１０３】なお、以上の方法による領域分割は、第１
の実施の形態に対して適用することも可能である。また
逆に、第１の実施の形態における領域分割手法をこの実
施の形態に用いた後、以下の処理を行なうこともでき
る。

【０１０４】図２４は、句読点抽出処理の一例を示すフ
ローチャートである。Ｓ２０１において未処理の行があ
るか否かを判定後、Ｓ２０２において未処理の行を注目
行として１つ選択する。Ｓ２０３において、注目行内に
含まれる文字矩形を抽出する。Ｓ２０４において未処理
の文字が存在するか否かを判定し、未処理の文字につい
て以下の処理を行なう。

【０１０５】Ｓ２０５において次の未処理の文字を選択
し、Ｓ２０６で縦書きか横書きかを判定して、横書きの
場合にはＳ２０７において条件（Ｄ）を満たすか否かを
判定し、縦書きの場合にはＳ２０８において条件（Ｅ）
を満たすか否かを判定する。条件（Ｄ）は、・高さ／幅が閾値Ｃｍｉｎ以上でありかつ閾値Ｃｍａｘ
以下である・行の下半分に含まれている・行の下１／４の範囲に文字矩形の一部が含まれている・前後のスペースが注目文字の幅のＰｂｔ（閾値）倍以
上あるである。また、条件（Ｅ）は、・高さ／幅が閾値Ｃｍｉｎ以上でありかつ閾値Ｃｍａｘ
以下である・行の右半分に含まれている・行の右１／４の範囲に文字矩形の一部が含まれている・上下のスペースの高さが注目文字の高さのＰｂｔ（閾
値）倍以上あるである。

【０１０６】このような条件を満たす文字矩形に対し、
Ｓ２０９において、句読点フラグを立てる。条件を満た
さない場合には、Ｓ２０４へ戻って次の文字についての
判定を行なう。Ｓ２０４〜Ｓ２０９における１行中の各
文字についての処理を、すべての行矩形に対して行なう
ことにより、文書中のすべての句読点の位置に句読点フ
ラグが立てられる。

【０１０７】図２５、図２６は、文字ブロック抽出処理
の一例を示すフローチャートである。まずＳ２１１にお
いて統合回数を０に初期設定し、Ｓ２１２において注目
矩形としていない行矩形または文字ブロック矩形候補が
存在するか否かを判定した後、Ｓ２１３において未処理
の行矩形または文字ブロック矩形候補を注目矩形として
選択する。また、Ｓ２１４において、統合対象の判定を
行なっていない行矩形または文字ブロック候補があるか
否かを判定後、Ｓ２１５において統合対象の判定を行な
っていない行矩形または文字ブロック候補を統合対象と
して選択する。そして、Ｓ２１６〜Ｓ２１９の統合条件
の判定を行ない、行矩形又は行矩形を統合した文字ブロ
ック矩形候補を、行方向と直交する方向に統合する。

【０１０８】Ｓ２１６において、次の条件（Ｆ）を満た
すか否かを判定する。・統合対象は行方向が同一の行矩形もしくは文字ブロッ
ク候補である・注目矩形と統合対象は同一でない・注目矩形と統合対象との、行方向と直交する方向の距
離が、閾値Ｌｄｔ以下・注目矩形と統合対象の間に、黒セパレータが無い・注目矩形と統合対象の間に、注目矩形と方向が異なる
行／文字ブロック候補が存在しない

【０１０９】さらに、Ｓ２１７において縦書きか横書き
かを判定した後、横書きの場合にはＳ２１８において条
件（Ｇ）を満たすか否かを判定し、また、縦書きの場合
にはＳ２１９において条件（Ｈ）を満たすか否かを判定
する。条件（Ｇ）、（Ｈ）は、行のどちらかの端点間の
距離が閾値ＢＬｄｔ以下であるか否かを判定するもので
ある。すなわち、注目矩形の水平方向の座標の最小値を
ＳＸｍｉｎ、注目矩形の水平方向の座標の最大値をＳＸ
ｍａｘ、注目矩形の垂直方向の座標の最小値をＳＹｍｉ
ｎ、注目矩形の垂直方向の座標の最大値をＳＹｍａｘ、
統合対象の水平方向の座標の最小値をＤＸｍｉｎ、統合
対象の水平方向の座標の最大値をＤＸｍａｘ、統合対象
の垂直方向の座標の最小値をＤＹｍｉｎ、統合対象の垂
直方向の座標の最大値をＤＹｍａｘ、閾値をＢＬｄｔと
するとき、条件（Ｇ）は、｜ＤＸｍｉｎ−ＳＸｍｉｎ｜＜ＢＬｄｔ又は｜Ｓ
Ｘｍａｘ−ＤＸｍａｘ｜＜ＢＬｄｔである。また、条件（Ｈ）は、｜ＤＹｍｉｎ−ＳＹｍｉｎ｜＜ＢＬｄｔ又は｜
ＳＹｍａｘ−ＤＹｍａｘ｜＜ＢＬｄｔである。

【０１１０】これらの条件（Ｆ）、（Ｇ）、（Ｈ）を満
たしている場合に、注目矩形と統合対象矩形を統合し、
Ｓ２２０において統合した矩形をあたらな文字ブロック
矩形候補とする。また、Ｓ２２１において、統合対象と
なった行矩形または文字ブロック矩形候補は消去する。
Ｓ２２２において、統合回数を１だけ増加させ、Ｓ２１
２へ戻る。なお、条件（Ｆ）および（Ｇ）、または条件
（Ｆ）および（Ｈ）を満たしていない場合、Ｓ２１４へ
戻って他の統合対象についての条件判定を行なう。この
ようにしてＳ２１４〜Ｓ２２２において、統合の条件を
満たす行矩形または文字ブロック矩形候補を探索し、統
合処理を行なう。

【０１１１】以上のＳ２１２〜Ｓ２２２の処理を、注目
矩形を順次選択して繰り返し行なう。ひととおりの処理
が終了すると、Ｓ２２３へ進み、統合回数が０より大き
いか否かを判定する。統合が行なわれていると、統合回
数は０以外の正数となっているのでこれを判定し、新た
に文字ブロック矩形候補となった矩形を含めて統合処理
を行なうべく、Ｓ２１１から再度統合処理を開始する。
統合できる矩形が無くなった段階で、残された文字ブロ
ック矩形候補および行矩形を文字ブロックとする。

【０１１２】図２７は、段落抽出処理の一例を示すフロ
ーチャートである。まずＳ２３１において未処理の文字
ブロックがあるか否かを判定した後、Ｓ２３２において
文字ブロックを注目文字ブロックとして選択し、Ｓ２３
３において、その注目文字ブロックの最初の行に段落の
先頭フラグを立てる。

【０１１３】Ｓ２３４において、次の行が存在するか否
かを判定し、注目文字ブロック内に含まれる全ての行に
対して以下の処理を行なう。Ｓ２３６において、次の行
を選択し、Ｓ２３７においてブロック境界と近い方の行
の端点との距離が閾値Ｃｄｔ以上か否かを判定し、閾値
Ｃｄｔより小さいときにはまだ段落の途中であるとして
Ｓ２３４へ戻る。閾値Ｃｄｔ以上のときにはその行を段
落の終端と見なし、Ｓ２３８において段落の終端フラグ
を立てる。そして、Ｓ２３９において次の行が存在する
か否かを判定し、存在する場合にはＳ２４１で次の行を
選択するとともにその行に段落の先頭フラグを立て、新
たな段落の始まりとし、Ｓ２３７へ戻って段落の終端の
判定処理を行なう。

【０１１４】また、Ｓ２３４，Ｓ２３９において次の行
が無いと判定された場合は、注目行は文字ブロックの最
後の行であり、Ｓ２３５，Ｓ２４０においてその行に段
落の終端フラグを立てる。そしてＳ２３１へ戻り、次の
文字ブロックの処理を開始する。すべての文字ブロック
についての処理が終了した時点で段落抽出処理を終了す
る。この処理によって、すべての段落の先頭と終端にフ
ラグが立てられる。

【０１１５】以上のようにして得られた、文書上の文
字、句読点、行、段落及び文字ブロックの配置関係に関
する情報が、文書構造情報格納部４に格納される。図２
８は、本発明の文字認識装置の第２の実施の形態におけ
る文書構造情報格納部に格納される情報の構造の一例の
説明図である。すべての矩形の基本データ構造は同一で
あり、例えば図２８（Ａ）に示すデータ構造とすること
ができる。この基本データ構造は、矩形の種類、矩形の
方向、その他の属性、矩形の左上のＸ座標とＹ座標、
幅、高さ、この矩形が含まれている上位の矩形へのポイ
ンタ、次に位置する同種の矩形へのポインタ、この矩形
が含む下位の矩形の数とその矩形へのポインタ列から構
成されている。矩形の種別フィールドは、文字、行、ブ
ロック等、矩形の種類を区別するために用いられる。ま
た、句読点や段落の識別は、「その他の属性」フィール
ドの情報により行なう。

【０１１６】文字ブロックのデータ構造を図２８（Ｂ）
に、また段落終端行の行矩形のデータ構造を図２８
（Ｃ）に、さらに句読点の文字矩形のデータ構造を図２
８（Ｄ）にそれぞれ示している。図２８（Ｂ）に示す文
字ブロックの例では、矩形の種類フィールドに文字ブロ
ックが格納され、方向フィールドは横、その他の属性フ
ィールドはＮＵＬＬである。また、文字ブロックが含ま
れる上位の矩形はないので、上位の矩形に対するポイン
タもＮＵＬＬである。行矩形の場合には、矩形の種類フ
ィールドには行が格納される。特に段落終端行の行矩形
の場合には、図２８（Ｃ）に示すように、その他の属性
フィールドに段落終端点というデータが格納される。文
字矩形の場合には、矩形の種類フィールドには文字が格
納される。また、文字矩形は最小単位であるので、文字
矩形内に含まれる矩形の数は常に０であり、ポインタ列
はＮＵＬＬである。特に句読点の文字矩形では、図２８
（Ｄ）に示すように、その他の属性フィールドには句読
点が格納される。なお、このデータ構造を上述の第１の
実施の形態に対して適用することもできる。

【０１１７】この第２の実施の形態においても、上述の
処理は文書画像読み取り時に行なうこともできるし、ま
た、画像読み取り時には画像を文書画像格納部２に登録
するのみとし、文書構造の解析はユーザによる画像読み
出し時に行なわれるようにしてもよい。

【０１１８】次に、文字認識領域の指定と文字認識処理
について説明する。この第２の実施の形態では、上述の
ようにして文書上の文字、句読点、行、段落及び文字ブ
ロックの配置関係に関する情報が文書構造情報格納部４
に格納されているので、ユーザは文字単位だけでなく、
句読点間の領域や、行単位、段落単位、文字ブロック単
位での文字認識領域の指定が可能である。

【０１１９】この第２の実施の形態における文字認識領
域の指定と文字認識処理の全体の流れは、図１３に示し
た第１の実施の形態とほぼ同様である。この第２の実施
の形態では、おもに認識領域の指定の処理が相違してい
るので、この処理について以下に説明する。

【０１２０】図２９、図３０は、本発明の文字認識装置
の第２の実施の形態における認識領域指定処理の一例を
示すフローチャートである。はじめにユーザは処理対象
の文書を文書画像格納部２から読み出し、表示部１０に
表示させる。この時、文書の文字、句読点、行、段落、
文字ブロック等の配置関係が記された文書構造情報が文
書構造情報格納部４より同時に読み出される。初期設定
としてＳ２５１においてクリック回数を０とする。この
クリック回数は同じ文字をクリックした回数を計数する
カウンタである。

【０１２１】Ｓ２５２において転記／認識の指示があっ
たか否かを判定し、さらにＳ２５３において操作部９の
マウスがクリックされたか否かを判定する。転記／認識
の指示あるいはマウスのクリックがなされない場合に
は、この２つのステップが繰り返されるのみである。

【０１２２】ユーザは操作部９のマウスを用いて所望の
領域の文字をクリックする。指定領域解析部６はマウス
のクリックを検出し、文書画像上の対応する位置を検出
する。そして、文書構造情報を参照し、その位置に対応
する文字矩形を特定する。Ｓ２５４においてクリック位
置に文字があるか否か、すなわち、その位置に対応する
文字矩形が存在したか否かを判定する。文字矩形が存在
しない位置でのクリックは、そのクリックを無効として
Ｓ２５２へ戻る。さらに、Ｓ２５５において、カーソル
が前回クリックされた位置から移動したか否かを判定す
る。移動していれば、Ｓ２５６において現在のカーソル
位置を記録するとともに、Ｓ２５７においてクリック回
数を０にリセットする。

【０１２３】Ｓ２５８においてクリック回数を１だけ増
加させた後、クリック回数の値によって指定する認識領
域の種別を切り替える。まず、Ｓ２５９においてクリッ
ク回数が１回と判定した場合は、文字の指定であるもの
と判断し、Ｓ２６０において対応する文字矩形領域を反
転して表示部１０に表示する。また、Ｓ２６１において
クリック回数が２回であると判定した場合は、句読点間
領域の指定であると判断し、Ｓ２６２においてカーソル
位置の文字を含む、句読点に挟まれた領域を反転して表
示部１０に表示する。さらに、Ｓ２６３においてクリッ
ク回数が３回であると判定した場合は、段落の指定であ
るものと判断し、Ｓ２６４においてカーソル位置の文字
が含まれる段落を反転して表示部１０に表示する。クリ
ック回数が４回以上の場合には、文字ブロックの指定で
あるものと判断し、Ｓ２６５においてカーソル位置の文
字が含まれる文字ブロック内のすべての行を反転して表
示部１０に表示する。そしてＳ２６６でクリック回数を
０にリセットする。このＳ２６６により、文字ブロック
の指定後、もう一度クリックすると文字指定に戻ること
ができる。

【０１２４】認識対象領域が反転された状態で、操作部
９の転記ボタンの押下等によって転記／認識の指示がな
されると、Ｓ２５２においてその指示を検出し、Ｓ２６
７においてその時点で反転状態にある領域を認識対象領
域として確定する。図示していないが、反転領域が無い
場合には、認識領域の指定に戻る。

【０１２５】その後の処理は第１の実施の形態と同様で
あり、認識対象領域に対応するイメージが、文字認識部
７へと送られる。ここでは、転記ボタンが押されたこと
によって文字認識部７は認識処理を開始する。転記ボタ
ンは、キーボード上のキーでもよいし、マウスなどでク
リックする画面上のボタンであってもよい。なお、文字
イメージから文字を認識する処理は、公知の手段によっ
て行なわれる。ユーザが文書編集部５のウィンドウの転
記先にカーソルを移動させ、マウスをクリックすると、
認識結果が転記先に出力される。この場合、対象領域の
認識が全て終わってから記入されるようにしてもよい
し、認識処理が終わった部分から順次記入されるように
してもよい。

【０１２６】以上のようにして、ユーザは文書編集装置
に対するのと同様の操作で、イメージ文書から所望の文
字列を得て、エディタ・ワードプロセッサ等の電子的な
環境へと移すことができる。

【０１２７】図３１、図３２は、句読点間領域の指定処
理の一例を示すフローチャートである。なお、この例で
は、指定された句読点間領域は反転表示するものとして
説明する。

【０１２８】まず、Ｓ２７１において、カーソル位置の
文字を注目文字とし、その注目文字を含む行を注目行と
する。Ｓ２７２〜Ｓ２８４の処理において、注目文字か
ら前方に句読点フラグが立っている文字を探索して行
く。Ｓ２７２において、注目行内で注目文字より前方に
文字があるか否かを判定し、文字があればＳ２７３にお
いて前方の文字を注目文字とし、Ｓ２７４においてその
注目文字に句読点フラグが立っているか否かを判定す
る。句読点フラグがなければ、さらに前方の文字につい
て判定すべく、Ｓ２７２へ戻る。句読点フラグが立って
いれば、その注目文字は句読点であるので、Ｓ２７５に
おいて、その後ろの文字を注目文字とし、句読点間領域
の先頭を確定する。そして、その文字までの領域の表示
処理を行なう。Ｓ２７６において注目行がカーソル位置
の文字を含むか否かを判定し、含んでいる場合にはＳ２
７７においてカーソル位置の文字から注目文字までを反
転表示する。また、注目行がカーソル位置の文字を含ん
でいない場合にはＳ２７８において行末から注目文字ま
でを反転表示する。

【０１２９】Ｓ２７２で注目行内で注目文字より前方に
文字がない場合、すなわち、注目文字が行の先頭の文字
である場合には、前の行についての処理を行なう。Ｓ２
７９において、注目行より前方に行があるか否かを判定
する。前方に行が存在する場合には、とりあえず現在の
注目行についての表示処理を行なう。Ｓ２８０におい
て、注目行がカーソル位置の文字を含むか否かを判定
し、含んでいる場合には、Ｓ２８１において、カーソル
位置の文字から行頭までを反転表示し、含んでいない場
合には、Ｓ２８２において注目行全体を反転表示する。
このような表示処理を行なった後、Ｓ２８３において注
目行を前方の行に変更し、注目文字を行末の文字とす
る。Ｓ２８４で行末の文字に句読点フラグが立っている
か否かを判定し、句読点フラグが立っていない場合に
は、その行の前の文字について判定を行なうべくＳ２７
２に戻って処理を続ける。行末の文字に句読点フラグが
立っている場合には、その後の文字、すなわち次の行の
行頭の文字が句読点間領域の先頭である。ここまでの表
示はＳ２８０〜Ｓ２８２において行なっているので、そ
のままＳ２８５へ進む。Ｓ２７９で注目行より前方に行
がない、例えば文字ブロックの先頭のような場合には、
注目文字が句読点間領域の先頭であり、Ｓ２７６〜Ｓ２
７８による表示処理を行なう。

【０１３０】次に、Ｓ２８５〜Ｓ２９７の処理におい
て、注目文字から後方に句読点フラグが立っている文字
を探索して行く。Ｓ２８５において注目文字をカーソル
位置の文字とし、注目行を注目文字が含まれる行とす
る。Ｓ２８６で注目行内で注目文字より後方に文字が存
在するか否かを判定し、存在すればＳ２８７でその後方
の文字を注目文字とする。その注目文字に句読点フラグ
が立っているか否かをＳ２８８で判定し、句読点フラグ
が立っていなければさらに後方の文字について調べるた
め、Ｓ２８６へ戻る。注目文字に句読点が立っていれ
ば、その文字が句読点間領域の終端であるので、その文
字までの反転表示処理をＳ２８９〜Ｓ２９１で行なう。
Ｓ２８９で注目行がカーソル位置を含むか否かを判定
し、カーソル位置を含む場合には、Ｓ２９０においてカ
ーソル位置の文字から注目文字までを反転表示する。ま
た、カーソル位置を含まない場合には、Ｓ２９１におい
て、行頭から注目文字までを反転表示する。これによ
り、句読点間領域の先頭から終端までの反転表示が完了
するので、句読点間領域の指定処理を終了する。

【０１３１】また、Ｓ２８６で注目行内で後方に文字が
存在しない場合には、Ｓ２９２において、注目行より後
方に行が存在するか否かを判定する。注目行より後方に
行が存在する場合には、とりあえず現在の行の反転表示
をＳ２９４〜Ｓ２９６において行なう。すなわち、Ｓ２
９４で注目行がカーソル位置を含むか否かを判定し、注
目行がカーソル位置を含む場合には、Ｓ２９５において
カーソル位置の文字から行末までを反転表示し、注目行
がカーソル位置を含まない場合には、Ｓ２９６において
注目行全体を反転表示する。その後、Ｓ２９７で後方の
行を注目行とし、その行の行頭の文字を注目文字とす
る。そして、さらなる後方への句読点の探索を行なうべ
く、Ｓ２８８へ進む。

【０１３２】例えば、文字ブロックの終わりなど、Ｓ２
９２において注目行より後方に行が存在しない場合、現
在の注目文字が句読点領域の終端である。Ｓ２８９に進
み、Ｓ２８９〜Ｓ２９１による終端の文字までの反転表
示を行ない、処理を終了する。

【０１３３】このように、前半の処理によってカーソル
位置の文字より前方に存在する句読点フラグが立ってい
る文字の手前の文字までが反転表示され、後半の処理に
よってカーソル位置の文字より後方に存在する句読点フ
ラグが立っている文字までが反転表示される。全体とし
て、カーソル位置の文字を含む句読点間領域が反転表示
されることになる。この反転表示された句読点間領域が
文字認識部７による認識対象となり、転記等の対象とな
る。

【０１３４】図３３は、段落の指定処理の一例を示すフ
ローチャートである。なお、この例でも、指定された段
落は反転表示するものとして説明する。まず、Ｓ３０１
〜Ｓ３０５において、段落の先頭を探索する。Ｓ３０１
においてカーソル位置の行を注目行とする。Ｓ３０２に
おいて、注目行を反転表示する。Ｓ３０３において、注
目行に段落の先頭フラグが立っているか否かを判定し、
立っていなければさらにＳ３０４で注目行より前方に行
が存在するか否かを判定する。注目行に段落の先頭フラ
グが立っておらず、前方に行が存在する場合には、さら
に前方へ向けて段落の先頭を求めるべく、Ｓ３０５にお
いて前方の行を注目行とし、Ｓ３０２へ戻る。注目行に
段落の先頭フラグが立っていたり、前方に行が存在しな
い場合には、注目行が段落の先頭である。

【０１３５】次に、Ｓ３０６〜Ｓ３１０において、段落
の終端を探索する。Ｓ３０６において、カーソル位置の
行を注目行として再設定し、Ｓ３０７で注目行を反転表
示する。Ｓ３０８で注目行に段落の終端フラグが立って
いるか否かを判定し、立っていない場合にはさらにＳ３
０９で注目行より後方に行が存在するか否かを判定す
る。注目行に段落の終端フラグが立っておらず、後方に
行が存在する場合には、さらに後方へ向けて段落の終端
を求めるべく、Ｓ３１０において後方の行を注目行と
し、Ｓ３０７へ戻る。注目行に段落の終端フラグが立っ
ていたり、後方に行が存在しない場合には、注目行が段
落の終端である。

【０１３６】このような処理によって、注目行から段落
の先頭に向けて各行がＳ３０２で反転表示され、また、
注目行から段落の終端に向けて各行がＳ３０７で反転表
示される。このようにして、カーソル位置の行を含む段
落全体が反転表示されることになる。その後、反転表示
された段落中の文字が文字認識部７で認識され、必要に
応じて転記されることになる。

【０１３７】図３４、図３５は、領域指定の具体例の説
明図である。ここでは、上述の文字指定、句読点間領域
指定、段落指定、文字ブロック指定について、それぞれ
図３４（Ａ）、（Ｂ）、図３５（Ａ）、（Ｂ）に示して
いる。図３４、図３５では、図示の都合上、反転表示は
ハッチングにより示している。

【０１３８】いま、図中、中央付近の「考」の文字の上
にカーソルを合わせ、マウスをクリックする。図２９、
図３０に示したフローチャートに従って処理が行なわ
れ、１回目のマウスのクリックによって、文字指定のモ
ードとなって、Ｓ２６０でカーソル位置の文字が反転表
示される。この状態を図３４（Ａ）に示している。
「考」の１文字のみが反転表示される。

【０１３９】図３４（Ａ）に示した状態において、カー
ソルを「考」の文字に合わせたまま、２回目のマウスの
クリックを行なう。すると、句読点間領域の指定のモー
ドとなる。このとき、例えば、上述の図３１、図３２に
示したような処理が行なわれ、「考」の文字から前方に
句読点フラグを探索し、その直後の文字「以」を先頭と
し、また、「考」の文字から後方に句読点フラグを探索
し、「あったが、」の「、」を終端として、図３４
（Ｂ）に示すように反転表示される。

【０１４０】この例では、句読点間領域は１つの連続し
た領域であるが、例えば、図３４（Ｂ）においてカーソ
ルの存在する行の行末の文字「で」にカーソルを合わせ
てマウスを２回クリックすると、その行の「現在で」
と、次の行の「は、」が句読点間領域となる。このよう
に離れた領域であっても１点のみの指示によって領域を
指定することが可能である。

【０１４１】図３４（Ｂ）に示した状態において、カー
ソルを「考」の文字に合わせたまま、３回目のマウスの
クリックを行なう。すると、段落の指定のモードとな
る。このとき、例えば、上述の図３３に示したような処
理が行なわれ、「考」の文字から前方に段落の先頭フラ
グを探索し、その行までを反転表示するとともに、後方
にも段落の終端フラグを探索し、その行までを反転表示
する。これにより、図３５（Ａ）に示すように、「例え
ば・・・」から「なくなっている。」までが反転表示さ
れる。

【０１４２】さらに図３５（Ａ）に示した状態におい
て、カーソルを「考」の文字に合わせたまま、４回目の
マウスのクリックを行なうと、文字ブロックの指定のモ
ードとなる。これにより、図３５（Ｂ）に示すように、
文字ブロック全体が反転表示される。

【０１４３】この後、５回目のマウスクリックを行なう
と、図３４（Ａ）に示したような文字指定のモードに戻
る。このように同一文字上でマウスのクリックを繰り返
し行なうことにより、指示の回数によって指定する範囲
を文字→句読点間領域→段落→文字ブロック→文字→・
・・のように変化させることができる。もちろん、行指
定や文の指定など、他の種々の領域種別を指定可能に構
成したり、これらのうちのいくつかのみで構成すること
も可能である。ユーザは、所望の領域が反転表示された
時点で認識／転記指示を行なうことにより、反転表示さ
れた部分が文字認識部７で認識され、必要に応じて文書
編集部５で編集中の文書に転記することができる。ま
た、転記指示による認識以外にも、一般の文字認識と同
様にメニューなどからの認識の指示により認識を行な
い、結果を他のウィンドウやファイルに出力するように
構成することも可能である。

【０１４４】上述の領域指定および認識の処理の例で
は、指定された領域を示す方法として反転表示を用いた
が、反転表示に限られるものではなく、色の変更や下線
の付与、強調表示など、種々の表示方法を用いることが
できる。要するに、句読点間領域や段落の先頭と終端が
求められればよい。

【０１４５】また、上述の認識領域指定処理で指定され
る領域は、指定された点を含む文字、句読点間領域、段
落等としていたが、これに限らず、例えば指定された点
を区切り点として、その前後の一方の区切り点までの領
域を指定する等、種々の領域を指定可能に構成すること
ができる。

【０１４６】上述の認識領域指定処理の例では、ある文
字上でマウスをクリックした後、マウスを移動させてク
リックした場合、他の文字の指定を行なったことにな
る。しかしこれに限らず、例えば、最初のマウスのクリ
ックを１点目、移動後のマウスのクリックを２点目とし
て、２点で決定される領域を指定したものとすることも
可能である。もちろん、第１の実施の形態で示したよう
に、マウスのドラッグによって２点を指定する方法を併
用することも可能である。

【０１４７】また、上述の認識領域指定処理の例では、
同じ文字上で行なわれるマウスのクリックの回数によっ
て、文字指定、句読点間指定、段落指定、文字ブロック
指定等を切り替える例を示した。しかしこれに限らず、
例えば、メニューやキーなどによりあらかじめどのよう
な領域指定を行なうかを選択しておくように構成しても
よい。あるいは、１点の指示後、キーなどにより変更し
たり、別のマウスボタンのクリックによりメニューを表
示して選択したりするように構成することも可能であ
り、種々の周知の選択方法を適用することができる。

【０１４８】なお、この第２の実施の形態においてもポ
インティグデバイスとしてマウスを用いたが、第１の実
施の形態と同様、液晶ディスプレイ上でタッチペンを用
いるような形態や、ディジタイザ、トラックボールを用
いる形態など、種々の形態で実現することができる。

【０１４９】

【発明の効果】以上の説明から明らかなように、本発明
によれば、ユーザに文書がイメージであることを意識さ
せることなく、通常の文書編集装置を扱うのと同様な操
作で、所望の領域を指定し、所望の電子文書の所望の位
置に指定された領域の認識結果の文字列を得て再利用す
ることができるという効果がある。

【０１５０】また、領域の指定方法として、２点の指定
のほか、指示した１点を含む文字、行、句読点間、段
落、文字ブロック等を指示する方法を提供し、選択的に
利用可能に構成することにより、領域の指定を容易に行
なうことができ、このような指示方法を有する従来の文
書編集装置等と同様の操作によって、文書画像上の所望
の領域を指定して認識、転記させることができる。

【図面の簡単な説明】

【図１】本発明の文字認識装置の第１の実施の形態を
示す構成図である。

【図２】本発明の文字認識装置の第１の実施の形態に
おける文書構造解析処理の一例を示すフローチャートで
ある。

【図３】文字矩形抽出までの処理の概要の説明図であ
る。

【図４】文書構造情報格納部４に格納される文書構造
情報のデータ構造の一例を示す説明図である。

【図５】文書構造情報が取得されて行く過程において
文書が表示された状態の説明図である。

【図６】文書構造情報が取得されて行く過程において
行矩形が抽出された状態の説明図である。

【図７】文書構造情報が取得されて行く過程において
文字矩形が抽出されたの説明図である。

【図８】行矩形抽出処理の一例を示すフローチャート
である。

【図９】水平分割処理の一例を示すフローチャートで
ある。

【図１０】垂直分割処理の一例を示すフローチャート
である。

【図１１】行方向判定処理の一例を示すフローチャー
トである。

【図１２】行の接続関係判定処理の一例を示すフロー
チャートである。

【図１３】本発明の文字認識装置の第１の実施の形態
における文字認識領域の指定および認識処理の一例を示
すフローチャートである。

【図１４】本発明の文字認識装置の第１の実施の形態
における領域指定処理の一具体例を示すフローチャート
である。

【図１５】本発明の文字認識装置の第１の実施の形態
における領域指定処理の一具体例を示すフローチャート
（続き）である。

【図１６】ユーザによる転記操作の一具体例の説明図
である。

【図１７】本発明の文字認識装置の第２の実施の形態
を示す構成図である。

【図１８】本発明の文字認識装置の第２の実施の形態
における文書構造解析処理の一例を示すフローチャート
である。

【図１９】白セパレータの抽出処理の一例を示すフロ
ーチャートである。

【図２０】白セパレータの抽出処理の一例を示すフロ
ーチャート（続き）である。

【図２１】セパレータ候補抽出処理の一例を示すフロ
ーチャートである。

【図２２】文字矩形統合処理の一例を示すフローチャ
ートである。

【図２３】文字矩形統合処理の一例を示すフローチャ
ート（続き）である。

【図２４】句読点抽出処理の一例を示すフローチャー
トである。

【図２５】文字ブロック抽出処理の一例を示すフロー
チャートである。

【図２６】文字ブロック抽出処理の一例を示すフロー
チャート（続き）である。

【図２７】段落抽出処理の一例を示すフローチャート
である。

【図２８】本発明の文字認識装置の第２の実施の形態
における文書構造情報格納部に格納される情報の構造の
一例の説明図である。

【図２９】本発明の文字認識装置の第２の実施の形態
における認識領域指定処理の一例を示すフローチャート
である。

【図３０】本発明の文字認識装置の第２の実施の形態
における認識領域指定処理の一例を示すフローチャート
（続き）である。

【図３１】句読点間領域の指定処理の一例を示すフロ
ーチャートである。

【図３２】句読点間領域の指定処理の一例を示すフロ
ーチャート（続き）である。

【図３３】段落の指定処理の一例を示すフローチャー
トである。

【図３４】領域指定の具体例の説明図である。

【図３５】領域指定の具体例の説明図（続き）であ
る。

【符号の説明】

１…文書画像入力部、２…文書画像格納部、３…文書構
造解析部、４…文書構造情報格納部、５…文書編集部、
６…指定領域解析部、７…文字認識部、８…文字認識用
辞書、９…操作部、１０…表示部、１１…制御部、１２
…段落抽出部、１３…句読点抽出部。

Claims

【特許請求の範囲】

【請求項１】文書画像を読み取る文書画像入力手段
と、前記文書画像中の行および文字の物理的な位置関係
を示す文書構造情報を抽出する文書構造解析手段と、前
記文書画像を表示する表示手段と、ユーザの操作に応じ
て前記表示手段に表示された前記文書画像上の領域の指
定を行なう操作手段と、前記操作手段の指定に応じて前
記文書画像と前記文書構造情報との対応付けを行なう指
定領域解析手段と、前記文書画像上の指定された領域の
文字を認識する文字認識手段を有することを特徴とする
文字認識装置。
【請求項２】前記文字認識手段は前記操作手段からの
転記指示の入力に基づいて文字認識処理を開始し、前記
操作手段から入力された転記先へ認識結果を転記するこ
とを特徴とする請求項１に記載の文字認識装置。
【請求項３】前記文書画像上の領域の指定は、前記操
作手段において開始点と終了点を指示することにより行
なわれ、任意の文字列領域を指定可能であることを特徴
とする請求項１に記載の文字認識装置。
【請求項４】前記文書構造解析手段は、文書中の行に
対応する矩形を抽出し、行の方向を判定するとともに、
行の接続関係と、行に含まれる文字矩形を抽出すること
を特徴とする請求項１に記載の文字認識装置。
【請求項５】文書画像から文字の並びの区切り点を検
出する文書構造解析手段と、文書画像上の１点を指定す
る操作手段と、前記操作手段により指定された１点から
該点に基づいて決定される前記区切り点までの文字の並
びを指定する指定領域解析手段と、前記指定領域解析手
段により指定された文字の並びを認識する文字認識手段
を有することを特徴とする文字認識装置。
【請求項６】文書画像から文字の並びの区切り点を検
出する文書構造解析手段と、文書画像上の１点を指定す
る操作手段と、前記操作手段により指定された１点に基
づいて決定される２つの前記区切り点の間に含まれる文
字の並びを指定する指定領域解析手段と、前記指定領域
解析手段により指定された文字の並びを認識する文字認
識手段を有することを特徴とする文字認識装置。
【請求項７】前記文書構造解析手段は、前記文書画像
上の文字の並びの順序をさらに検出し、前記指定領域解
析手段は、前記文書構造解析手段により検出された文字
の順序において、前記操作手段により指定された１点か
ら前方で最も近い順序の区切り点と、後方で最も近い順
序の区切り点の間に含まれる文字の並びを指定すること
を特徴とする請求項６に記載の文字認識装置。
【請求項８】前記文書構造解析手段は、前記区切り点
として文書中に存在する句読点を検出することを特徴と
する請求項６に記載の文字認識装置。
【請求項９】前記文書構造解析手段は、前記文書画像
から文字矩形を求める文字矩形抽出手段と、隣接する前
記文字矩形の一方向の並びである文字列矩形を抽出する
文字列矩形抽出手段と、前記文字列矩形に含まれ所定の
閾値以下の大きさを持ちかつ前記文字列矩形の短い方の
辺に対して片寄った位置に存在する文字矩形を区切り点
として抽出する特定文字抽出手段を有することを特徴と
する請求項８に記載の文字認識装置。
【請求項１０】前記文書構造解析手段は、区切り点と
して前記文字画像の文字の並びの存在する位置から文書
中のブロックの端点を検出することを特徴とする請求項
６に記載の文字認識装置。
【請求項１１】文書画像からそれぞれ異なる基準で複
数種類の文字の並びの区切り点を検出する文書構造解析
手段と、文書画像上の１点を指定する操作手段と、前記
操作手段により過去に指定された点に関する情報を記憶
する指定点記憶手段と、前記操作手段によって指定され
た点と前記指定点記憶手段に記憶されている過去の点に
関する情報に基づいて複数種類の前記区切り点から１以
上の種類の区切り点を選択する区切り点選択手段と、該
区切り点選択手段により選択された種類の前記区切り点
のうち前記操作手段により指定された１点に基づいて決
定される２つの前記区切り点の間に含まれる文字の並び
を指定する指定領域解析手段と、該指定領域解析手段に
より指定された文字の並びを認識する文字認識手段を有
することを特徴とする文字認識装置。
【請求項１２】文字画像の構造を解析する文書構造解
析手段と、前記文字画像上の点を指示する操作手段と、
前記文書構造解析手段による解析結果を用い前記操作手
段からの指示に基づいて指示範囲を指定する指定領域解
析手段と、該指定領域解析手段によって指定された前記
指示範囲に含まれる文字矩形を認識する文字認識手段を
有し、前記文書構造解析手段は、文字画像から文字矩形
を抽出する文字矩形抽出手段と、前記文字矩形の並びの
順序を判定する文字矩形順序判定手段と、前記文字矩形
抽出手段により抽出された文字矩形から句読点を抽出す
る句読点抽出手段と、前記文字矩形抽出手段により抽出
された文字矩形の存在する位置情報に基づいて文字列を
段落に分割する段落分割手段と、前記前記文字矩形順序
判定手段により判定された文字矩形の並びの順序におい
て連続する前記句読点抽出手段により抽出された２つの
句読点に挟まれる文字矩形の並びを節として抽出する節
抽出手段を具備し、前記指定領域解析手段は、前記操作
手段により過去に指示された点に関する情報を記憶する
指示点記憶手段と、前記操作手段によって指示された点
と前記指示点記憶手段に記憶されている過去の点に関す
る情報に基づいて前記操作手段により指示された点が含
まれる文字矩形あるいは節あるいは段落のいずれか１つ
を指示範囲として選択する指示範囲選択手段を具備する
ことを特徴とする文字認識装置。
【請求項１３】前記文字認識手段は前記操作手段から
の転記指示の入力に基づいて文字認識処理を開始し、前
記操作手段から入力された転記先へ認識結果を転記する
ことを特徴とする請求項５，６，１１，１２のいずれか
１項に記載の文字認識装置。