JPH08329190A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH08329190A
JPH08329190A JP8002556A JP255696A JPH08329190A JP H08329190 A JPH08329190 A JP H08329190A JP 8002556 A JP8002556 A JP 8002556A JP 255696 A JP255696 A JP 255696A JP H08329190 A JPH08329190 A JP H08329190A
Authority
JP
Japan
Prior art keywords
character
rectangle
line
document
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8002556A
Other languages
English (en)
Inventor
Kenichirou Kishi
健一郎 木子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8002556A priority Critical patent/JPH08329190A/ja
Publication of JPH08329190A publication Critical patent/JPH08329190A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文書画像に対して任意の所望の認識対象とな
る領域を設定でき、その領域内の文字列を得て、簡単に
再利用ができる文字認識装置を提供する。 【構成】 文書構造解析部3は、文書画像入力部1で読
み取った文書画像から、行および文字の物理的な位置関
係を抽出し、文書構造情報として文書構造情報格納部4
に格納する。一方、文書画像は表示部10に表示され
る。ここで、操作部9で文書画像上の領域が指定される
と、指定領域解析部6によって文書構造情報と指定され
た文書画像上の位置とが対応付けられ、操作部10から
の転記指示の入力に基づいて、文字認識部7が認識処理
を開始し、転記先指示の入力によって、認識結果が文書
編集部5に転記される。ユーザは、認識にかかる処理を
意識することなく、通常の文書編集装置と同様な操作
で、所望の領域を指定して認識させ、認識結果の文字列
を得て再利用することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙等の媒体上に記
録されたイメージから文字を認識し、その結果を再利用
することのできる文字認識装置に関するものである。
【0002】
【従来の技術】従来の日本語文字認識装置においては、
使用者が必要とする文字領域を文書イメージ上で指定
し、指定された文字領域内の文字を認識するものが開発
されている。このとき、文字領域を指定する主な方法と
して、例えば、ユーザが矩形で領域を囲むものと、シス
テム側が文字ブロックを抽出して、ユーザに選択させる
ものなどがある。
【0003】ユーザが矩形て領域を囲う方法では、例え
ば、特開昭63−155385号公報や特開昭63−1
09591号公報などに記載されているように、矩形の
左上と右下のような2点を指示することによって、必要
とする個々の領域を指定する。所望の領域が複数ある場
合には、領域ごとに指定する作業を繰り返す必要があ
る。指定した領域に対して文字認識を行なうことによ
り、ユーザが必要とする文字コードがウィンドウやファ
イルなどに出力させる。
【0004】一方、個々の領域をユーザに指定させる方
法では、ユーザの負担を軽くするため、認識装置側が自
動的に文書画像上に含まれる文字を抽出し、ユーザに所
望の文字ブロックを指定させるように構成したものが考
えられている。例えば、特開平3−88087号公報に
記載されている方法では、システムが文書画像に対して
レイアウト解析を行なって、文字ブロックを抽出して表
示する。ユーザは、表示された複数の文字ブロックの中
から、必要なブロックを選択する。選択されたブロック
に対して認識要求を行なうことにより、所望の文字認識
結果をウィンドウやファイルなどに出力させることがで
きる。また、特開平6−89330号公報に記載の文書
ファイリングシステムでは、指定した1点の位置の近傍
の文字列を1行の範囲で抽出し、キーワードとする方法
が考えられている。
【0005】実際にユーザが認識させたい文字領域は、
必ずしも大きな領域とは限らない。これに対して、上述
の従来の装置では、文字認識の対象とする範囲は、矩形
もしくは文字ブロックといった大きな単位でしか指定す
ることができなかった。また、1点を指示することによ
りその周りの文字列を抽出する方法においては、逆に複
数の行にわたる大きな部分領域を任意に抽出することは
できなかった。
【0006】また、上述の従来の技術では、認識対象と
なる領域を確定させて認識の指示を出すと、出力結果が
ウィンドウもしくはファイルに出力される。これによ
り、ユーザの欲する文字列を得ることはできるが、この
ようにして得られた出力を再利用したい場合には、さら
に出力結果から転記等の作業をユーザが行なう必要があ
り、煩雑な操作を必要としていた。
【0007】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、文書画像に対して任意の所
望の認識対象となる領域を設定でき、その領域内の文字
列を得て、簡単に再利用ができる文字認識装置を提供す
ることを目的とするものである。
【0008】
【課題を解決するための手段】請求項1に記載の発明
は、文字認識装置において、文書画像を読み取る文書画
像入力手段と、前記文書画像中の行および文字の物理的
な位置関係を示す文書構造情報を抽出する文書構造解析
手段と、前記文書画像を表示する表示手段と、ユーザの
操作に応じて前記表示手段に表示された前記文書画像上
の領域の指定を行なう操作手段と、前記操作手段の指定
に応じて前記文書画像と前記文書構造情報との対応付け
を行なう指定領域解析手段と、前記文書画像上の指定さ
れた領域の文字を認識する文字認識手段を有することを
特徴とするものである。
【0009】前記文字認識手段は、請求項2に記載の発
明のように、前記操作手段からの転記指示の入力に基づ
いて文字認識処理を開始し、前記操作手段から入力され
た転記先へ認識結果を転記するように構成することがで
きる。また、請求項3に記載の発明のように、前記文書
画像上の領域の指定の際には、前記操作手段において開
始点と終了点を指示することにより行なわれ、任意の文
字列領域を指定可能に構成することができる。さらに、
前記文書構造解析手段は、請求項4に記載の発明のよう
に、文書中の行に対応する矩形を抽出し、行の方向を判
定するとともに、行の接続関係と、行に含まれる文字矩
形を抽出するように構成することができる。
【0010】請求項5に記載の発明は、文字認識装置に
おいて、文書画像から文字の並びの区切り点を検出する
文書構造解析手段と、文書画像上の1点を指定する操作
手段と、前記操作手段により指定された1点から該点に
基づいて決定される前記区切り点までの文字の並びを指
定する指定領域解析手段と、前記指定領域解析手段によ
り指定された文字の並びを認識する文字認識手段を有す
ることを特徴とするものである。
【0011】請求項6に記載の発明は、文字認識装置に
おいて、文書画像から文字の並びの区切り点を検出する
文書構造解析手段と、文書画像上の1点を指定する操作
手段と、前記操作手段により指定された1点に基づいて
決定される2つの前記区切り点の間に含まれる文字の並
びを指定する指定領域解析手段と、前記指定領域解析手
段により指定された文字の並びを認識する文字認識手段
を有することを特徴とするものである。
【0012】請求項6に記載の発明における前記文書構
造解析手段は、請求項7に記載の発明のように、前記文
書画像上の文字の並びの順序をさらに検出するように構
成し、前記指定領域解析手段を、前記文書構造解析手段
により検出された文字の順序において、前記操作手段に
より指定された1点から前方で最も近い順序の区切り点
と、後方で最も近い順序の区切り点の間に含まれる文字
の並びを指定するように構成することができる。また、
請求項8に記載の発明のように、前記文書構造解析手段
を、前記区切り点として文書中に存在する句読点を検出
するように構成したり、請求項10に記載の発明のよう
に、区切り点として前記文字画像の文字の並びの存在す
る位置から文書中のブロックの端点を検出するように構
成することができる。請求項8に記載の発明のように構
成した場合には、請求項9に記載の発明のように、前記
文書構造解析手段は、前記文書画像から文字矩形を求め
る文字矩形抽出手段と、隣接する前記文字矩形の一方向
の並びである文字列矩形を抽出する文字列矩形抽出手段
と、前記文字列矩形に含まれ所定の閾値以下の大きさを
持ちかつ前記文字列矩形の短い方の辺に対して片寄った
位置に存在する文字矩形を区切り点として抽出する特定
文字抽出手段を有する構成とすることができる。
【0013】請求項11に記載の発明は、文字認識装置
において、文書画像からそれぞれ異なる基準で複数種類
の文字の並びの区切り点を検出する文書構造解析手段
と、文書画像上の1点を指定する操作手段と、前記操作
手段により過去に指定された点に関する情報を記憶する
指定点記憶手段と、前記操作手段によって指定された点
と前記指定点記憶手段に記憶されている過去の点に関す
る情報に基づいて複数種類の前記区切り点から1以上の
種類の区切り点を選択する区切り点選択手段と、該区切
り点選択手段により選択された種類の前記区切り点のう
ち前記操作手段により指定された1点に基づいて決定さ
れる2つの前記区切り点の間に含まれる文字の並びを指
定する指定領域解析手段と、該指定領域解析手段により
指定された文字の並びを認識する文字認識手段を有する
ことを特徴とするものである。
【0014】請求項12に記載の発明は、文字認識装置
において、文字画像の構造を解析する文書構造解析手段
と、前記文字画像上の点を指示する操作手段と、前記文
書構造解析手段による解析結果を用い前記操作手段から
の指示に基づいて指示範囲を指定する指定領域解析手段
と、該指定領域解析手段によって指定された前記指示範
囲に含まれる文字矩形を認識する文字認識手段を有し、
前記文書構造解析手段は、文字画像から文字矩形を抽出
する文字矩形抽出手段と、前記文字矩形の並びの順序を
判定する文字矩形順序判定手段と、前記文字矩形抽出手
段により抽出された文字矩形から句読点を抽出する句読
点抽出手段と、前記文字矩形抽出手段により抽出された
文字矩形の存在する位置情報に基づいて文字列を段落に
分割する段落分割手段と、前記前記文字矩形順序判定手
段により判定された文字矩形の並びの順序において連続
する前記句読点抽出手段により抽出された2つの句読点
に挟まれる文字矩形の並びを節として抽出する節抽出手
段を具備し、前記指定領域解析手段は、前記操作手段に
より過去に指示された点に関する情報を記憶する指示点
記憶手段と、前記操作手段によって指示された点と前記
指示点記憶手段に記憶されている過去の点に関する情報
に基づいて前記操作手段により指示された点が含まれる
文字矩形あるいは節あるいは段落のいずれか1つを指示
範囲として選択する指示範囲選択手段を具備することを
特徴とするものである。
【0015】請求項13に記載の発明は、請求項5,
6,11,12のいずれか1項に記載の文字認識装置に
おいて、前記文字認識手段は前記操作手段からの転記指
示の入力に基づいて文字認識処理を開始し、前記操作手
段から入力された転記先へ認識結果を転記することを特
徴とするものである。
【0016】
【作用】本発明によれば、文書画像入力手段によって文
書画像が読み取られ、文書構造解析手段によって文書中
の行および文字の物理的な位置関係が抽出される。そし
て、読み取られた文書画像が表示手段に表示され、認識
すべき領域が操作手段によって指定される。このとき、
操作手段によって文書画像上の位置が指定されると、文
書構造解析手段によって抽出された位置関係から文書中
の行および文字が特定できる。そのため、ユーザは認識
すべき領域として文字単位で指定することが可能であ
り、また、矩形領域に限定されない。例えば、請求項3
に記載の発明のように開始点と終了点を指示することに
よって、開始点から終了点までの文字列を示す領域を指
示することができる。このような開始点となる文字と終
了点となる文字を指示して文字列を特定する操作は、通
常用いられているキャラクタの編集を行なう装置におい
て行なわれている操作と同様であり、このような編集装
置と同様な操作で文書画像に対する領域指定の操作を行
なうことができる。さらに、請求項4に記載の発明のよ
うに、行の方向を判別すれば、縦書きおよび横書きのど
ちらの文書にも対応することができる。文字認識手段
は、このようにして任意に指定された文字列領域中の文
字を認識する。
【0017】また、認識すべき領域の指定の方法とし
て、請求項3に記載の発明のように開始点と終了点を指
示する方法のほか、文書構造解析手段により文書画像か
ら文字の並びの区切り点を検出しておき、例えば、請求
項5に記載の発明のように指定された1点から区切り点
までを認識すべき領域としたり、請求項6に記載の発明
のように、指定された1点に基づいて2つの区切り点を
決定し、その2つの区切り点の間を認識すべき領域とす
ることができる。2つの区切り点の間を認識すべき領域
とする場合、請求項7に記載の発明のように、指定され
た1点から前方で最も近い順序の区切り点と、後方で最
も近い順序の区切り点の間を認識すべき領域とすること
ができる。このような指定方法を用いれば、始点および
終点を正確に指示する必要はなく、簡易にしかも正確に
認識すべき領域を指定することができる。この場合に
も、指定される認識すべき領域は矩形である必要はな
く、行が跨るような場合に画面上は2つの領域となるよ
うな指定も1点の指示のみによって行なうことができ
る。
【0018】区切り点としては、請求項8に記載の発明
のように、文書中に存在する句読点としたり、請求項1
0に記載の発明のように、文書中のブロックの端点とす
ることができ、句読点間の文字列からなる節、あるいは
ブロックを1点の指示のみによって認識すべき領域とし
て指定することが可能となる。句読点を区切り点とする
場合、例えば、請求項9に記載の発明のように、所定の
閾値以下の大きさを持ち、かつ文字列矩形の短い方の辺
に対して片寄った位置に存在する文字矩形を抽出すれば
よい。
【0019】請求項11に記載の発明によれば、このよ
うな区切り点として複数の種類の点を抽出しておき、ど
の種類の点を区切り点として用いるかを選択できるよう
に構成することができ、例えば、請求項12に記載の発
明のように句読点と段落の区切りを抽出しておき、1文
字あるいは句読点間あるいは段落といった指定単位を選
択可能に構成することができる。これにより、認識すべ
き領域の指定方法についての自由度を増すことができ
る。
【0020】このような文字認識装置において、請求項
2または13に記載の発明のように、認識対象となる文
字列領域を指定後、操作手段からの転記指示の入力に基
づいて文字認識手段における認識処理を開始し、認識結
果を操作手段から入力された転記先の指示に従って転記
する。これにより、従来のように認識結果を一旦ウィン
ドウやファイルに出力してから転記する操作は必要な
く、認識結果を文書中へ直接転送することが可能とな
る。
【0021】
【発明の実施の形態】図1は、本発明の文字認識装置の
第1の実施の形態を示す構成図である。図中、1は文書
画像入力部、2は文書画像格納部、3は文書構造解析
部、4は文書構造情報格納部、5は文書編集部、6は指
定領域解析部、7は文字認識部、8は文字認識用辞書、
9は操作部、10は表示部、11は制御部である。
【0022】文書画像入力部1は、紙面等の媒体上に描
かれた文書イメージを文書画像として読み取る。この文
書画像入力部1は、一般的なイメージスキャナ等の画像
入力装置によって実現可能である。文書画像格納部2
は、文書画像入力部1によって読み込まれた画像を格納
する。文書構造解析部3は、一定の大きさ以下のブロッ
クを文字部分とみなして、行の抽出と行の順番の判定を
行なう。文書構造情報格納部4は、文書構造解析部3で
抽出された、文書画像上の文字、行の配置関係に関する
情報を、もとの文書画像と対応付けて格納する。文書編
集部5は、文書の編集処理を行なう。特に、文書画像中
の必要部分の認識を依頼するとともに、認識結果を文書
中に転記して、再利用する機能を有する。指定領域解析
部6は、操作部9の指定に応じて、文書画像と文書構造
情報との対応付けを行なう。文字認識部7は、抽出した
文字領域に対して文字認識を行なう。文字認識用辞書8
は、文字認識部7が文字を認識する際に用いる辞書であ
る。操作部9では、ユーザが、文書画像格納部2からの
画像の読み出しや、認識領域の指定、転記先の指定等を
行なう。表示部10は、文書画像入力部1で取り込んだ
文書画像の表示や、認識領域の表示等を行なう。この表
示部10は、例えば、CRTや液晶ディスプレイなどに
よって実現可能である。制御部11は、全体の処理とデ
ータの制御を行なう。
【0023】次に、本発明の文字認識装置の第1の実施
の形態における動作の一例について説明する。この実施
の形態における処理は、画像読み取り時に行なわれる文
書構造解析処理と、ユーザが文字コードを必要とすると
きに行なわれる認識処理とに大きく分けられる。以下、
この2つの処理を順に説明する。図2は、本発明の文字
認識装置の第1の実施の形態における文書構造解析処理
の一例を示すフローチャートである。まず、S21にお
いて、認識対象となる可能性のある文字が記された文書
画像が、スキャナ等からなる文書画像入力部1によって
読み込まれる。読み込まれた画像は、文書画像格納部2
に格納される。
【0024】文書構造解析部3は、文書画像格納部2に
格納された文書画像を参照し、まずS22において、文
字部分を行単位で抽出する。行の領域は、水平方向およ
び垂直方向の白画素のつながりをもとに領域を分割する
ことによって抽出することができる。
【0025】次に、S23において、行の方向を判定す
る。行方向の判定は、例えば、抽出された行の領域の縦
横比をもとに、その比が一定値以上であれば縦書き、一
定値以下であれば横書きと判定することができる。どち
らでもない場合は、分割された領域の上下左右方向で最
も近い領域と同様に決定すればよい。いずれによっても
求められない場合には、判定を保留し、判定可能な領域
を先に決定した後、保留された部分の判定を行なう。こ
れを繰り返して、全ての領域の行方向を決定する。
【0026】また、S24において、文字矩形を抽出す
る。例えば、横書きと判定された領域に対しては、垂直
方向の黒画素の斜影をとり、黒画素が切れる、すなわち
斜影の値が0となる部分ごとに行を分割し、それぞれの
文字に対応する矩形を抽出する。それぞれの矩形と、対
応する行の矩形の関係が、文書構造情報として文書構造
情報格納部4に登録される。縦書きの領域に対しては水
平方向の斜影を取り、同様の処理を行なう。
【0027】図3は、文字矩形抽出までの処理の概要の
説明図である。具体例として、S21において、図3
(A)に示すような文書画像が文書画像入力部1で入力
され、文書画像格納部2に格納されたものとする。S2
2における行矩形の抽出によって、図3(B)に示すよ
うに、行が抽出される。図3(B)に示す行矩形は、横
の方が長いので、S23において横書きと判定される。
S24では、各行において、図3(C)に示すように、
文字矩形が抽出される。
【0028】図2に戻り、S25において、行の配置を
もとに接続関係の判定を行なう。横書きの場合には、左
上から順に、接続関係の判定処理が行なわれていない行
に注目し、その注目する行の下方向で間隔が、一定の閾
値以内の距離にある行を探索する。見つかった行が、注
目行に接続している行の所定長以下であれば、注目行に
接続するものと見なす。そうでない場合は接続しないも
のと見なす。この処理を、注目行を変更しながら繰り返
すことによって、行の接続関係が得られる。
【0029】このようにして得られた文書上の行と文字
の配置関係に関する情報は、S26において文書構造情
報格納部4に、文書画像と対応付けて格納される。
【0030】なお、本実施の形態では以上の処理は、文
書画像読み取り時に行なわれるが、画像読み取り時には
文書画像を文書画像格納部2に登録する処理のみを行な
い、文書構造の解析はユーザによる画像読み出し時に行
なうようにしてもよい。
【0031】図4は、文書構造情報格納部4に格納され
る文書構造情報のデータ構造の一例を示す説明図であ
る。文書構造情報は、上述のように、文書上の行と文字
の配置関係に関する情報である。一例としては、図4に
示すように、抽出された各行矩形に対応した行矩形情報
と、各行矩形内に含まれる各文字に対応する文字矩形情
報の列から構成することができる。
【0032】行矩形情報は、各行矩形ごとに設けられ、
行矩形ID、通し番号、前接続行番号、後接続行番号、
行方向、左上X座標、左上Y座標、幅、高さ、含まれる
文字矩形数等の情報から構成することができる。行矩形
IDおよび通し番号は、その行矩形情報を特定するため
に一意に付与されたIDおよび番号である。前接続行番
号および後接続行番号は、S25で判定された行の接続
関係を表わす情報であり、その行が前の行から続いてい
る場合には、前の行の行矩形IDまたは通し番号が前接
続行番号として登録され、その行の後に行が続いている
場合には、後の行の行矩形IDまたは通し番号が後接続
行番号として登録される。行方向は、S23で判定され
た行の方向が登録される。左上X座標、左上Y座標、
幅、高さは、行矩形の文書画像上の位置および大きさを
示す情報であり、この情報によって文書画像と行矩形と
の対応づけがなされている。この行矩形情報に続き、含
まれる文字矩形数の情報で示される個数だけの文字矩形
情報が存在する。
【0033】文字矩形情報は、各文字矩形ごとに設けら
れ、文字矩形ID、通し番号、左上X座標、左上Y座
標、幅、高さ等の情報から構成することができる。文字
苦役IDおよび通し番号は、その文字矩形情報を特定す
るために一意に付与されたIDおよび番号である。左上
X座標、左上Y座標、幅、高さの情報は、文字矩形の文
書画像上の位置および大きさを示す情報であり、この情
報によって文書画像と文字矩形との対応づけがなされて
いる。
【0034】図5ないし図7は、文書構造情報が取得さ
れて行く過程の説明図である。ここでは、図4に示した
ようなデータ構造を有する文書構造情報が、図2に示す
処理の過程によってどのように取得されて行くかを、具
体例をもとに示している。いま、図5(A)に示す文書
画像が文書画像入力部1から入力されたものとする。図
5(A)では、文字の存在する部分を□にハッチングを
施して示している。以下の説明では、図5(A)に示し
た文書中の3行目について着目し、説明を行なう。
【0035】図5(B)には文書構造情報を示してい
る。ここで、図4に示す情報の名称が記入されている部
分は、まだその情報の値が得られていないことを示して
いる。図5に示すような処理前の状態では、文書構造情
報は何も得られていない。
【0036】図5(A)に示す文書画像に対して、S2
2における行矩形の抽出処理が行なわれると、図6
(A)に太線で示すような行矩形が抽出される。このと
き、行矩形の左上のX座標およびY座標、幅、高さが取
得され、図6(B)に示すようにそれぞれの値が設定さ
れる。ここでは、3行目に着目しているので、通し番号
「00003」が付与された行矩形情報に、左上X座
標、左上Y座標、幅、高さとして「176」、「48
3」、「895」、「72」が設定されている。さら
に、S23において行方向の判定が行なわれ、この具体
例では横方向であることが判定される。この判定を受け
て、図5(C)に示すように、行矩形情報中の行方向の
情報として「横」が設定される。
【0037】次に、S24において、文字矩形が抽出さ
れる。各文字矩形に分割された状態を図7(A)におい
て太線で示している。このとき、抽出された文字矩形の
数が行矩形情報中に設定され、各文字矩形ごとに、文字
矩形情報が作成される。図7(B)では、図7(A)に
示した文書画像の3行目に含まれる文字数17が行矩形
情報中に設定されている。また、図7(B)では3行目
の最初の2文字についてのみ、文字矩形情報を示してい
る。他の文字についても同様にして文字矩形情報が作成
される。図7(B)に示した1文字目の文字矩形情報に
は、通し番号として「18」、左上X座標として「17
6」、左上Y座標として「485」、幅として「5
9」、高さとして「65」が設定されている。同様に2
文字目についても、それぞれ、「19」、「247」、
「484」、「60」、「65」が設定されている。
【0038】さらに、S25において行の接続関係が判
定される。この例では、2ないし4行目は連続した行で
あるので、図7(C)に示すように、3行目の行矩形情
報では、前接続行番号として2行目の行矩形情報の通し
番号である「00002」が設定され、また、後接続行
番号として4行目の矩形情報の通し番号である「000
04」が設定される。このようにして設定された行矩形
情報および文字矩形情報は、S26において文書構造情
報として文書構造情報格納部4に格納される。
【0039】以下、上述の図2に示した文書構造解析処
理の具体的な処理の一例について詳細に説明ずる。な
お、図2のS21における文書画像の入力処理およびS
26における文書構造情報の格納処理については、詳細
な説明は不要と考えるので、ここでは説明を省略する。
【0040】図8は、行矩形抽出処理の一例を示すフロ
ーチャートである。初期状態として処理対象領域を文書
画像全体として処理を開始する。まず、S31におい
て、処理対象領域を水平分割する。水平分割は、処理対
象領域ごとに水平方向の白画素の連続(以下白ランとい
う)が処理対象領域の水平方向の幅まで広がっていて、
かつ、その白ランが垂直方向に一定値以上連続している
部分で分割する。S32において水平分割処理が行なえ
たか否かを判定し、分割できた場合にはS33で水平分
割フラグを「yes」に、分割できなかった場合には水
平分割フラグを「no」にセットする。
【0041】次に、S35において、処理対象領域を垂
直分割する。垂直分割は、処理対象領域ごとに垂直方向
に白ランが処理対象領域の垂直方向の幅まで広がってお
り、かつその白ランが水平方向に一定値以上連続してい
る部分で分割する。S36のいて、垂直分割処理が行な
えたか否かを判定し、分割できた場合にはさらに分割処
理を繰り返すため、S31へ戻る。また、分割できなか
った場合には、S37で水平分割フラグが「yes」か
否か、すなわち水平分割が行なえたか否かを判定し、水
平分割が行なわれている場合にはさらに分割処理を繰り
返すため、S31へ戻る。水平分割フラグが「no」の
場合には、処理を終了する。
【0042】このようにして、全ての処理対象領域にお
いて、水平分割と垂直分割のいずれかの分割が行なわれ
ている間、S31の水平分割処理と、S35の垂直分割
処理を繰り返す。そして、水平分割、垂直分割ともに行
なえなくなった時点で分割処理を終了する。このように
して分割された各処理対象領域が行矩形である。
【0043】上述の処理手順では、水平分割処理を先
に、垂直分割処理を後に行なっているが、これに限ら
ず、垂直分割処理を先に、水平分割処理を後に行なうよ
うに構成してもよい。なお、入力した文書画像中にノイ
ズ等が存在すると、白ランが処理対象領域の幅よりも短
くなってしまい、分割できなくなる可能性もある。その
ような場合には、この行矩形の抽出処理に先立ってノイ
ズ除去等の処理を行なっておくと効果的である。あるい
は、処理対象領域幅の画素数と白画素数との比較によっ
て分割位置を求めるように構成することも可能である。
【0044】図9は、水平分割処理の一例を示すフロー
チャートである。図8のS31において行なわれる水平
分割処理は、例えば、次のようにして行なうことができ
る。ここでは、所定長の白ランが存在するラインを計数
するための変数H_runsを用いている。
【0045】まず、S41において、変数H_runs
を0にクリアしておく。S42において、処理対象領域
内に次の水平ラインが存在するか否か、すなわち、処理
対処領域内の全ての水平ラインについて処理を行なった
か否かを判定する。次の水平ラインが存在する場合に
は、存在する次の水平ラインについて、白ラン長を調べ
る。そして、S43においてその白ラン長が処理対象領
域の幅に等しいか否かを判定する。白ラン長が処理対象
領域の幅よりも短い場合には、その水平ラインは行であ
る可能性があるので、S42へ戻って、次の水平ライン
の処理に移る。
【0046】白ラン長が処理対象領域の幅に亙って存在
する場合、その水平ラインは行間である可能性がある。
そのため、S44において、変数H_runsを1だけ
増加させ、S45において次の水平ラインの白ランを検
出する。S46において、S43と同様に白ランが処理
対象領域の幅に等しいか否かを判定し、等しい場合には
S44へ戻ってその水平ラインの数をカウントする。白
ランが処理対象領域の幅より短くなった時点、あるいは
処理すべき水平ラインがなくなった時点でS47へ進
み、変数H_runsの値が予め定めた閾値よりも大き
いか否かを判定する。大きい場合には、S48におい
て、水平ラインの上下で処理対象領域を分割する。そし
て、さらに分割処理を進めるため、S41へ戻る。この
ようにして、処理対象領域の幅に亙って白画素が存在す
る水平ラインが所定ライン数だけ現れた全ての位置で処
理対象領域を上下に分割して行く。この水平分割処理
は、存在する処理対象領域全てに対して行なわれる。
【0047】図10は、垂直分割処理の一例を示すフロ
ーチャートである。図8のS35において行なわれる垂
直分割処理は、上述の水平分割処理とほぼ同様であり、
例えば、次のようにして行なうことができる。ここで
は、所定長の白ランが存在する垂直ラインを計数するた
めの変数V_runsを用いている。
【0048】まず、S51において、変数V_runs
を0にクリアしておく。S52において、処理対象領域
内に次の垂直ラインが存在するか否か、すなわち、処理
対処領域内の全ての垂直ラインについて処理を行なった
か否かを判定する。次の垂直ラインが存在する場合に
は、存在する次の垂直ラインについて、白ラン長を調べ
る。そして、S53においてその白ラン長が処理対象領
域の高さに等しいか否かを判定する。白ラン長が処理対
象領域の高さよりも短い場合には、その垂直ラインには
行内の文字が存在している可能性があるので、S52へ
戻って、次の垂直ラインの処理に移る。
【0049】白ラン長が処理対象領域の高さに亙って存
在する場合、その垂直ラインで行が分かれている可能性
がある。例えば、上述の図5に示した例では、4行目は
2つのブロックに分かれている。このようなブロックの
間である可能性がある。そのため、S54において、変
数V_runsを1だけ増加させ、S55において次の
垂直ラインの白ランを検出する。S56において、S5
3と同様に白ランが処理対象領域の高さに等しいか否か
を判定し、等しい場合にはS54へ戻ってその垂直ライ
ンの数をカウントする。白ランが処理対象領域の高さよ
り短くなった時点、あるいは処理すべき垂直ラインがな
くなった時点でS57へ進み、変数V_runsの値が
予め定めた閾値よりも大きいか否かを判定する。大きい
場合には、S58において、垂直ラインの左右で処理対
象領域を分割する。そして、さらに分割処理を進めるた
め、S51へ戻る。このようにして、処理対象領域の高
さに亙って白画素が存在する垂直ラインが所定ライン数
だけ現れた全ての位置で処理対象領域を左右に分割して
行く。この垂直分割処理は、存在する処理対象領域全て
に対して行なわれる。
【0050】図11は、行方向判定処理の一例を示すフ
ローチャートである。図2で説明したように、S22に
おける行矩形の抽出処理が終了すると、次に、S23に
おいて、行方向判定処理を行なう。行矩形の抽出処理で
は、上述のように水平方向の分割と垂直方向の分割を繰
り返し行なっているだけであるので、抽出した行矩形の
方向性については判定していない。そこで、図11に示
した処理によって、行の方向を検出している。
【0051】まず、S61において、行方向が求まって
いない行矩形が存在するか否かを判定し、存在しなくな
った時点で処理を終了する。行方向が求まっていない行
矩形が存在する場合には、S62において次の処理すべ
き行矩形を選択し、S63においてその行矩形の幅をH
L、S64においてその行矩形の高さをVLとする。そ
して、行矩形の縦横比、すなわちVL/HLを計算し、
S65においてその縦横比が所定の閾値HTよりも小さ
いか否かを判定する。小さい場合には、S66において
その行矩形は横書きであるものと判定し、S61へ戻
る。また、S67において、行矩形の縦横比VL/HL
が所定の閾値VTよりも大きいか否かを判定し、大きい
場合にはS68においてその行矩形は縦書きであるもの
と判定してS61へ戻る。
【0052】行矩形の縦横比VL/HLが所定の閾値H
T以上であり、かつ、所定の閾値VT以下である場合に
は、その行矩形のみでは行方向の判定は行なわない。S
69において、行矩形の上下左右方向で最も近い行矩形
を探索する。そして、探索された行矩形の行方向が求ま
っているか否かをS70で判定し、求まっている場合に
はS71においてその最も近い行矩形の行方向をそのま
ま現在処理中の行矩形の行方向とする。そして、S61
へ戻る。また、最も近い行矩形の行方向がまだ求められ
ていない場合には、現在処理中の行矩形の行方向を決定
せず、未処理のままとしてS61へ戻る。処理が進み、
最も近い行矩形の行方向が求められた後に行方向が決定
されることになる。
【0053】このようにして、各行矩形に対して上述の
判定を行なうことによって、各行矩形の行方向を決定す
る。なお、全ての未処理の行矩形について、行方向が判
定されなくなった場合には、これを検出して処理を終了
する。この場合、これらの未処理の行矩形の行方向を不
明とするか、あるいは、どちらかの方向にセットすれば
よい。
【0054】図2のS23における行方向判定処理が終
了すると、次に、S24において、文字矩形の抽出処理
を行なう。この文字矩形の抽出処理は簡単である。既に
行矩形に分割されており、また、行方向も検出されてい
る。行矩形が横書きと判定されている場合には、垂直方
向の黒画素の射影を取り、また、行矩形が縦書きと判定
されている場合には、水平方向の黒画素の射影を取る。
そして、射影の値が0となる、すなわち黒画素が切れる
部分で行を分割し、それぞれの文字矩形として抽出すれ
ばよい。この文字矩形抽出処理は、各行矩形に対して行
なわれる。
【0055】また、この文字矩形の抽出処理は、上述の
行矩形抽出処理を用いることも可能である。例えば、行
矩形が横書きと判定されている場合には、図10に示し
た垂直分割処理を行なう。また、行矩形が縦書きと判定
されている場合には、図9に示した水平分割処理を行な
えばよい。この時、分割可能か否かを判定する際の閾値
は、1ないし数ライン程度とすればよい。
【0056】図12は、行の接続関係判定処理の一例を
示すフローチャートである。図2のS24における文字
矩形の抽出処理が終了すると、次に、S25において、
行の接続関係の判定処理を行なう。ここでは、行方向が
横書きの場合についての行の接続関係の判定処理の一例
について示す。
【0057】まず、S81において、未処理の行矩形を
探索する。ここでは、左上から順に、接続関係の判定処
理が行なわれていない行矩形を探索するものとする。未
処理の行矩形が存在しない場合、S82でこれを判定
し、処理を終了する。また、未処理の行矩形が探索され
たとき、S83においてこれを注目行とする。そして、
S84において、注目行の長さをLmaxとする。
【0058】S85において、注目行の下方向で、間隔
が所定の閾値以内の距離にある行矩形が存在するか否か
を判定する。そのような行矩形が存在する場合には、さ
らに、その行矩形が注目行の最大の長さLmaxのLt
倍以下か否かをS86で判定する。なお、Ltは所定の
閾値である。この両方の条件を満たす行矩形が存在する
場合、その行矩形を注目行に接続するものと見なす。そ
うでない場合は、接続しないものと見なす。
【0059】注目行に接続する行矩形が見つかった場
合、S87に進み、注目行と見つかった行矩形とを接続
する処理を行なう。具体的には、注目行の行矩形情報中
の後接続行番号に、見つかった行矩形の通し番号を設定
し、また、見つかった行矩形の行矩形情報中の前接続行
番号に、注目行の通し番号を設定する。そして、S88
において、注目行をみつかった行矩形へと移す。S89
では、新たな注目行の長さとLmaxの値を比べて、も
し注目行の長さの方が長ければ、S90においてLma
xを新たな注目行の長さとする。S85へ戻り、新たな
注目行について、接続する行矩形を調べる。
【0060】このようにして、接続する行矩形がなくな
るまで、S85ないしS90の処理をくり返し行なう。
S85またはS86の条件を満足しなくなった時、接続
する行矩形が存在しなくなったものとして、S91にお
いて、そのときの注目行に接続する全ての行矩形を処理
済みとし、S81へ戻って、他の未処理の行矩形につい
ての処理を行なう。このような処理を未処理の行矩形が
なくなるまで繰り返す。このようにして、行の接続関係
が判定される。
【0061】なお、行方向が縦書きと判定されている場
合も、同様に処理することができる。すなわち、右上の
行矩形から未処理の行の探索を開始し、注目行の長さL
maxを行矩形の縦方向の長さとし、注目行の左方向に
所定の閾値以内の距離に存在する行矩形を探索するよう
に変更することによって、縦書きの場合にも行の接続関
係を判定することができる。
【0062】上述のような各処理によって得られた文書
上の行と文字の配置関係に関する情報は、文書構造情報
として、文書構造格納部に文書画像と対応付けて格納さ
れる。
【0063】次に、文字認識領域の指定と文字認識処理
について説明する。上述のようにして、入力された文書
画像についての文書構造情報が得られているので、ユー
ザは文書が画像であるにもかかわらず、通常のキャラク
タの文書と同様の操作で領域の指定や転記の操作などの
編集操作を行なうことができる。
【0064】図13は、本発明の文字認識装置の第1の
実施の形態における文字認識領域の指定および認識処理
の一例を示すフローチャートである。ユーザは所望の文
書を文書画像格納部2から読み出し、S101において
表示部10に表示させる。このとき、文書の文字および
行の位置関係を示す文字構造情報が文書構造情報格納部
4から同時に読み出される。S102において、ユーザ
は、表示されている文書画像を参照しながら、認識対象
となる領域を操作部9から指定する。ここで、指定領域
解析部6は、文書構造情報格納部4から読み出した文書
構造情報と、操作部9から指示された位置とを対応付
け、指定されている文字領域を表示部10に表示する。
【0065】指示した認識対象領域が所望のものであれ
ば、S103において、ユーザは操作部9から転記指示
を行なう。すると、指示された認識対象領域に対応する
イメージが各文字ごとに切り出されて、文字認識部7へ
と送られる。文字認識部7は、ユーザからの指示ととも
に認識処理を開始し、S104において、送られて来る
文字イメージから文字を認識する。文字認識部7が文字
の認識を行なう際には、文字認識用辞書8を用いる。な
お、文字イメージから文字を認識する処理は、公知の手
段によって行なわれる。
【0066】ユーザが、エディタやワードプロセッサ等
の文字編集部5のウィンドウにおいて、S105で転記
先を指定する。すると、S106において、指定された
転記先に文字認識部7による認識結果が記入される。こ
の場合、対象領域の認識が全て終わってから転記先に記
入されるようにしてもよいし、認識処理が終わった部分
から順次記入されるようにしてもよい。
【0067】以上のようにして、ユーザは通常用いてい
る文書編集装置に対して行なう操作と同様の操作で、イ
メージ文書から所望の文字列を得て、エディタやワード
プロセッサなどの電子的な文書環境へと移すことができ
る。また、転記指示による認識以外にも、メニューなど
からの認識の指示により認識を行ない、認識結果を他の
ウィンドウやファイルに出力して利用するように構成す
ることも可能である。
【0068】図14、図15は、本発明の文字認識装置
の第1の実施の形態における領域指定処理の一具体例を
示すフローチャートである。図13のS102において
行なわれる認識対象領域の指定の具体的な処理の一例に
ついて説明する。ここでは、操作部9としてマウスおよ
びキーボードを備えている場合について説明する。図1
3のS101において文書画像が表示部10に表示され
た状態で、ユーザは操作部9のマウスを用いて、所望の
領域の開始点で左ボタンを押す。S111では、ユーザ
がマウスの左ボタンを押したことを検出する。制御部1
1は、文書画像上の対応する位置を検出し、その位置に
対応する文字矩形が存在するか否かをS112で判断す
る。対応する文字矩形が存在しない場合には、開始点が
特定されないので、S111へ戻り、新たな開始点の指
示を待つ。対応する文字矩形が存在する場合には、S1
13において、マウスがクリックされたカーソル位置の
文字矩形を反転して表示し、開始点とする。
【0069】ユーザは、マウスの左ボタンを押したま
ま、終了点にカーソルを移動し、マウスの左ボタンを離
すことによって終了点を指示する。まず、S114にお
いて、カーソル位置が、開始点を含む行矩形外へ移動し
たか否かを判定し、カーソル位置が開始点を含む行矩形
外へ移動していない時にはS126へ進む。カーソル位
置が開始点を含む行矩形外へ移動している場合には、S
115において、カーソル位置が開始点の文字矩形より
も後にあるか否かを判定する。カーソル位置が開始点の
文字矩形よりも後にある場合には、S116において、
さらにカーソル位置が開始点を含む行矩形と接続する最
後の行矩形よりも後にあるか否かを判定する。最後の行
矩形以前にカーソル位置が存在する場合には、S117
において開始点を含む行矩形の次の行矩形からカーソル
位置を含む行矩形の前の行矩形までを反転表示する。そ
して、S118でカーソル位置の文字矩形から行頭まで
を反転表示し、さらにS119で開始点の文字矩形から
行末までを反転表示する。このS117ないしS119
の処理により、開始点の文字矩形からカーソル位置の文
字矩形までが反転表示されることになる。
【0070】S116でカーソル位置が最後の行矩形よ
りも後に存在する場合には、S120において開始点を
含む行矩形の次の行矩形から最後の行矩形までを反転表
示し、さらにS119において開始点の文字矩形から行
末までを反転表示する。これにより、開始点から、開始
点を含む行矩形と連続する最後の行矩形の行末までが反
転表示される。
【0071】S115において、カーソルの位置が、開
始点の文字矩形が属する行矩形よりも前にあると判定さ
れた場合には、図15のS121において、さらにカー
ソル位置が開始点を含む行矩形と接続する最初の行矩形
よりも前にあるか否かを判定する。最初の行矩形以後に
カーソルの位置が存在する場合には、S122において
カーソル位置を含む行矩形の後の行矩形から開始点を含
む行矩形の前の行矩形までを反転表示する。そして、S
123でカーソル位置の文字矩形から行末までを反転表
示し、さらにS124で開始点の文字矩形から行頭まで
を反転表示する。このS122ないしS124の処理に
より、カーソル位置の文字矩形から開始点の文字矩形ま
でが反転表示されることになる。
【0072】なお、図14、図15には示していない
が、開始点と同じ行矩形内にカーソル位置が存在する場
合には、開始点の文字矩形からカーソル位置の文字矩形
までを反転表示すればよい。
【0073】S126において、マウスの左ボタンが離
されたか否かが判定され、離されていない場合にはS1
14へ戻ってカーソル位置までの反転表示処理を行な
う。このようにして、操作部9のマウスの左ボタンが押
され続けている間、移動されるカーソルの位置に応じ
て、S114ないしS126に示す処理が行なわれる。
【0074】マウスの左ボタンが離されると、S127
において、左ボタンが離された時点での反転領域を認識
対象領域として確定する。このとき、表示は反転させた
ままに保持する。左ボタンを離した後、もう一度左ボタ
ンが押された場合には、現在指定されている認識対象領
域はキャンセルされ、反転表示は取り消されて、開始点
を指示する操作へと戻る。また、操作部9からの指示に
より認識対象領域を修正可能に構成することもできる。
【0075】図16は、ユーザによる転記操作の一具体
例の説明図である。上述の図13ないし図15に示した
領域指定及び認識処理を、ユーザの側から具体例を用い
て説明する。図16(A)は、ユーザによって読み出さ
れた文書画像が表示部10に表示された状態を示してい
る。この表示されている文書画像に対してユーザは領域
指定を行なう。まず、開始点を指示する。すなわち、カ
ーソルを認識対象領域の端点に合わせるようにマウスを
操作し、左ボタンを押す。このとき、カーソル位置に文
字矩形が存在していれば、図16(A)に示すように、
カーソル位置の文字矩形が反転し、開始点が設定された
ことを知ることができる。カーソル位置の文字矩形が反
転しない場合には、一度左ボタンを離し、再度カーソル
位置を修正して左ボタンを押す。
【0076】開始点が設定された後、ユーザはマウスの
左ボタンを押したまま、マウスを操作してカーソルを終
了点まで移動させる。カーソルの移動に伴って、開始点
からカーソル位置までの文書画像が反転表示される。こ
の状態を図16(B)に示している。図16(B)で
は、反転表示されている部分について、行を太くして示
している。ユーザは反転した領域を見ながら、所望の領
域となるようにカーソルを移動させ、終了点においてマ
ウスの左ボタンを離す。この時点で反転表示されている
領域が認識対象領域として確定する。これ以後は、新た
な指示を行なわない限り、カーソルを移動させても反転
領域は増減しない。
【0077】図16(B)に示すように認識対象処理が
反転された状態で、ユーザが操作部9の転記ボタン、例
えば、図16(C)に示すキーボードのコピーボタンを
押す。すると、認識対象領域に対応するイメージが各文
字ごとに切り出されて、文字認識部7へと送られるとと
もに、文字認識部7は認識処理を開始する。
【0078】次に、ユーザは、エディタやワードプロセ
ッサ等の文字編集部5のウィンドウの画面に移り、転記
先となる文書の任意の位置にカーソルを移動させ、マウ
スをクリックする。このマウスをクリックした時のカー
ソルの位置が転記先となる。文字認識部7で認識された
結果が、図16(D)に示すように転記先に記入され
る。
【0079】以上のようにして、ユーザは通常の文書編
集装置において転記を行なう際の操作と同様に、開始点
と終了点を指定し、転記ボタンの押下、それに転記先の
指定を行なうだけで、イメージ形式の文書画像から所望
の文字列を得て、エディタやワードプロセッサなどの電
子的な文書環境へと移すことができる。
【0080】なお、領域選択におけるマウスボタンの操
作は、上述の具体例に限定されるものではなく、領域の
開始点の指示を左ボタンとし、領域の終了点の指示を右
ボタンに対応させたり、1回目のクリックを開始点、2
回目のクリックを終了点とする等、種々の実現方法を用
いることができる。また、上述の例では、認識対象領域
を指定してから転記ボタンを押し、転記先を指定した
が、先に転記キーを押してから認識対象領域を指定する
など、種々の手順によって転記操作を行なうことができ
る。さらに、上述の具体例ではポインティングデバイス
としてマウスを用いたが、液晶ディスプレイ上でタッチ
ペンを用いたり、ディジタイザやトラックボールを用い
るなど、種々の形態で実現することができる。
【0081】次に、本発明の文字認識装置の第2の実施
の形態について説明する。一般の文書エディタにおいて
は、同一文字上で指示することにより、指定範囲を文字
→文→段落等のように拡大することができる。この第2
の実施の形態では、このような一般の文書エディタにお
いて可能なこのような操作で領域を指定することができ
るようにした構成を示す。
【0082】図17は、本発明の文字認識装置の第2の
実施の形態を示す構成図である。図中、図1と同様の部
分には同じ符号を付して重複する説明を省略する。12
は段落抽出部、13は句読点抽出部である。文書構造解
析部3は、一定の大きさ以下のブロックを文字部分と見
なして行の抽出と行の順番の判定を行なうとともに、複
数の行からなる文字ブロックを検出し、また、句読点抽
出部12、段落検出部13を用いて文書中の句読点位
置、段落位置などを得る。句読点抽出部12は、文書中
の句読点を抽出する。段落検出部13は同一文字ブロッ
ク内での段落の境界を検出する。文書構造情報格納部4
は、文書構造解析部3で抽出された文書画像上の文字、
行、文字ブロック、句読点位置、段落などの配置関係に
関する情報を、もとの文書イメージと対応づけて格納す
る。指定領域解析部6は、操作部9の指定に応じて文書
画像と文書構造情報との対応付けを行なう。このとき、
文書構造解析部3で抽出された文書画像上の文字、行、
文字ブロック、句読点位置、段落等の情報を選択的に用
いて、指定された領域を決定する。
【0083】次に、本発明の文字認識装置の第2の実施
の形態における動作の一例について説明する。この第2
の実施の形態での処理も、上述の第1の実施の形態の場
合と同様、画像読み取り時に行なわれる文書構造解析処
理と、ユーザが文字コードを必要とする時に行なわれる
認識処理とに大きく分けられる。以下、この2つの処理
を順に説明する。図18は、本発明の文字認識装置の第
2の実施の形態における文書構造解析処理の一例を示す
フローチャートである。行矩形および文字矩形の抽出処
理は上述の第一の実施の形態と同様に、行矩形を抽出し
てから文字矩形を抽出する方法を用いることができる
が、ここでは別の方法として、ラベル処理から文字矩形
を抽出し、これを統合して行矩形を抽出する方法を示し
ている。
【0084】まず、S131において、処理対象とする
文書の画像が、スキャナ等からなる文書画像入力部1に
よって読み込まれる。読み込まれた画像は、文書画像格
納部2に保存され、文書構造解析部3に送られる。
【0085】文書構造解析部3は、まずS132におい
て、全ての連結黒画素の外接矩形を抽出する。次に、外
接矩形の大きさに関して、以下の条件を満たす外接矩形
を文字矩形とみなし、それ以外の外接矩形は処理対象か
ら消去する。文字矩形と見なす条件としては、外接矩形
の長いほうの辺の長さをLl、短いほうの辺の長さをS
lとするとき、 Ll < Lt Sl > St Ll/Sl<RtまたはSl/Ll<Rt とすればよい。但し、Lt、St、Rtは閾値である。
【0086】次に、S133において白セパレータを、
また、S134において黒セパレータをそれぞれ抽出す
る。S135において、抽出した白/黒セパレータを用
いて文字矩形を行矩形に統合する。この白/黒セパレー
タの抽出方法、および、白/黒のセパレータを用いて領
域を分割する方法の詳細は後述する。
【0087】S136において、句読点抽出部13によ
って句読点の抽出が行なわれる。また、S137におい
て、行矩形を統合して文字ブロックを抽出し、各文字ブ
ロックについて、S138において文字ブロック内に含
まれるすべての行に対して順序づけを行なう。順序は、
横書きの文字ブロックなら上から順に、縦書きなら右か
ら順に番号をつける。さらに、S139において、段落
抽出部12によって段落の抽出が行なわれる。
【0088】以上のようにして得られた、文書上の文字
/句読点/行/段落及び文字ブロックの配置関係に関す
る情報が、S140において文書構造情報格納部4に格
納される。
【0089】以下、文書構造解析部3において文書解析
を行なうためのラベル抽出、白/黒セパレータの抽出、
文字矩形統合、文字ブロック抽出の各処理と、句読点抽
出部13で行なわれる句読点抽出処理、段落抽出部12
で行なわれる段落抽出処理の一例について説明する。
【0090】図19、図20は、白セパレータの抽出処
理の一例を示すフローチャート、図21はセパレータ候
補抽出処理の一例を示すフローチャートである。まず、
S151において、主走査方向を垂直方向、副走査方向
を水平方向とし、S152において図21に示す処理を
行なって水平セパレータ候補を抽出する。また、S15
3において、主走査方向を水平方向、副走査方向を垂直
方向とし、S154において図21に示す処理を行なっ
て垂直セパレータ候補を抽出する。
【0091】図21において、S171で副走査方向に
一定長Wlt以上連続する白ランを抽出する。S172
において主走査方向に隣接する白ランを探索し、S17
3において、副走査方向の最小値どうし、最大値どうし
の座標の差分がともに閾値Wdt以下の場合、それらの
白ランを統合し、セパレータ候補とする。S175にお
いて、未処理の白ランが存在するか否かを判定し、S1
76で未処理の白ランを選択してS172からの処理を
繰り返し行なう。未処理の白ランが無くなった時点でセ
パレータ候補の抽出処理を終了する。
【0092】S152においてこの処理を実行すること
により、水平方向に一定長Wlt以上連続する白ランが
抽出され、垂直方向に隣接する白ランが統合される。こ
れにより水平方向のセパレータ候補が抽出される。ま
た、S154においてこの処理を実行することにより、
垂直方向に一定長Wlt以上連続する白ランが抽出さ
れ、水平方向に隣接する白ランが統合される。これによ
り垂直方向のセパレータ候補が抽出される。
【0093】S155において、S152で抽出された
水平セパレータ候補のうち、高さが閾値Sht以下の水
平セパレータ候補を削除する。同様に、S156におい
て、S154で抽出された垂直セパレータ候補のうち、
幅が閾値Swt以下の垂直セパレータ候補を削除する。
【0094】S157において、水平・垂直方向に互い
に交差するセパレータ候補を探索する。S158におい
て、互いに交差する未処理のセパレータ候補が検索され
たか否かを判定する。検索された場合には、S159に
おいて、検索された2つのセパレータ候補の面積比が閾
値Atより大きいか否かを判定する。ここで、面積が大
きい方のセパレータ候補の面積をBa、面積が小さい方
のセパレータ候補の面積をSaとするとき、 Ba/Sa>At か否かを判定する。この条件を満たす時、S160にお
いて、面積が小さい方のセパレータ候補を大きい方のセ
パレータ候補によって分割する。S161において、分
割されたセパレータ候補の長さが閾値以上か否かを判定
し、長さが閾値より短くなったセパレータ候補はS16
2において消去する。この処理を、交差する全てのセパ
レータ候補に対して行なう。
【0095】交差する全てのセパレータ候補に対してS
157〜S162の処理を行なった後、S163におい
て、残されたセパレータ候補を白セパレータとし、白セ
パレータ抽出処理を終了する。
【0096】なお、黒セパレータの抽出処理は、水平方
向および垂直方向にそれぞれ閾値Blt以上の連続する
黒ランを抽出し、それを黒セパレータとする処理を行な
う。簡単な処理であるので図示は省略する。
【0097】図22、図23は、文字矩形統合処理の一
例を示すフローチャートである。まずS181において
統合回数を0に初期設定した後、S182で注目矩形と
していない文字矩形または文字矩形を統合した行矩形候
補が存在するか否かを判定し、S183において未処理
の文字矩形または行矩形候補を注目矩形とする。
【0098】S184において、注目矩形に最も近く、
矩形との距離が閾値Fdt以下の白/黒セパレータを探
索する。S185で検索できたか否かを判定し、検索で
きなければS182へ戻る。検索できた場合には、S1
86において、セパレータの方向を注目矩形の文字列方
向、すなわち行方向とする。
【0099】S187において、注目矩形に統合するた
めの判定を行なっていない文字矩形または行矩形候補が
存在するか否かを判定し、存在しない場合にはS182
へ戻る。判定を行なっていない文字矩形または行矩形候
補が存在する場合、S188において、その中の1つを
統合対象とする。S189において、その統合対象が以
下の条件(A)を満たすか否かを判定する。条件(A)
は、 ・統合対象は文字矩形もしくは行方向が同一の行矩形候
補である。 ・注目矩形と統合対象が同一でない。 ・注目矩形と統合対象矩形の間に、行方向と直交する白
セパレータ及び黒セパレータが無い。 というものである。
【0100】この条件(A)を満たしている場合、さら
に、S190において縦書きか否かを判定した後、横書
きの場合にはS191において条件(B)について判定
し、縦書きの場合にはS192において条件(C)につ
いて判定する。条件(B)、(C)は、注目矩形と統合
対象とが行方向にオーバーラップし、距離が閾値Cmt
以下であるか否かを判定するものである。すなわち、注
目矩形の水平方向の座標の最小値をSXmin、注目矩
形の水平方向の座標の最大値をSXmax、注目矩形の
垂直方向の座標の最小値をSYmin、注目矩形の垂直
方向の座標の最大値をSYmax、統合対象の水平方向
の座標の最小値をDXmin、統合対象の水平方向の座
標の最大値をDXmax、統合対象の垂直方向の座標の
最小値をDYmin、統合対象の垂直方向の座標の最大
値をDYmax、行の方向の矩形間の距離の閾値をCm
tとするとき、横書きの場合の条件(B)は、 DXmin−SXmax<Cmt かつ SXmin−
DXmax<Cmt SYmax>DYmin かつ DYmax>SYmi
n である。また、縦書きの場合の条件(C)は、 DYmin−SYmax<Cmt かつ SYmin−
DYmax<Cmt SXmax>DXmin かつ DXmax>SXmi
n である。
【0101】これらの条件(A)、(B)、(C)を満
たしている場合に、注目矩形と統合対象矩形を統合し、
S193において統合した矩形をあたらな行矩形候補と
する。また、S194において、統合対象となった文字
矩形または行矩形候補は消去する。S195において、
統合回数を1だけ増加させ、S182へ戻る。なお、条
件(A)および(B)、または条件(A)および(C)
を満たしていない場合、S187へ戻って他の統合対象
についての条件判定を行なう。このようにしてS187
〜S195において、統合の条件を満たす文字矩形また
は行矩形候補を探索し、統合処理を行なう。
【0102】以上のS182〜S195の処理を注目矩
形を順次選択して繰り返し行なう。ひととおりの処理が
終了すると、S196へ進み、統合回数が0より大きい
か否かを判定する。統合が行なわれていると、統合回数
は0以外の正数となっているのでこれを判定し、新たに
行矩形候補となった矩形を含めて統合処理を行なうべ
く、S181から再度統合処理を開始する。統合できる
矩形が無くなった段階で、残された行矩形候補を行矩形
とする。
【0103】なお、以上の方法による領域分割は、第1
の実施の形態に対して適用することも可能である。また
逆に、第1の実施の形態における領域分割手法をこの実
施の形態に用いた後、以下の処理を行なうこともでき
る。
【0104】図24は、句読点抽出処理の一例を示すフ
ローチャートである。S201において未処理の行があ
るか否かを判定後、S202において未処理の行を注目
行として1つ選択する。S203において、注目行内に
含まれる文字矩形を抽出する。S204において未処理
の文字が存在するか否かを判定し、未処理の文字につい
て以下の処理を行なう。
【0105】S205において次の未処理の文字を選択
し、S206で縦書きか横書きかを判定して、横書きの
場合にはS207において条件(D)を満たすか否かを
判定し、縦書きの場合にはS208において条件(E)
を満たすか否かを判定する。条件(D)は、 ・高さ/幅が閾値Cmin以上でありかつ閾値Cmax
以下である ・行の下半分に含まれている ・行の下1/4の範囲に文字矩形の一部が含まれている ・前後のスペースが注目文字の幅のPbt(閾値)倍以
上ある である。また、条件(E)は、 ・高さ/幅が閾値Cmin以上でありかつ閾値Cmax
以下である ・行の右半分に含まれている ・行の右1/4の範囲に文字矩形の一部が含まれている ・上下のスペースの高さが注目文字の高さのPbt(閾
値)倍以上ある である。
【0106】このような条件を満たす文字矩形に対し、
S209において、句読点フラグを立てる。条件を満た
さない場合には、S204へ戻って次の文字についての
判定を行なう。S204〜S209における1行中の各
文字についての処理を、すべての行矩形に対して行なう
ことにより、文書中のすべての句読点の位置に句読点フ
ラグが立てられる。
【0107】図25、図26は、文字ブロック抽出処理
の一例を示すフローチャートである。まずS211にお
いて統合回数を0に初期設定し、S212において注目
矩形としていない行矩形または文字ブロック矩形候補が
存在するか否かを判定した後、S213において未処理
の行矩形または文字ブロック矩形候補を注目矩形として
選択する。また、S214において、統合対象の判定を
行なっていない行矩形または文字ブロック候補があるか
否かを判定後、S215において統合対象の判定を行な
っていない行矩形または文字ブロック候補を統合対象と
して選択する。そして、S216〜S219の統合条件
の判定を行ない、行矩形又は行矩形を統合した文字ブロ
ック矩形候補を、行方向と直交する方向に統合する。
【0108】S216において、次の条件(F)を満た
すか否かを判定する。 ・統合対象は行方向が同一の行矩形もしくは文字ブロッ
ク候補である ・注目矩形と統合対象は同一でない ・注目矩形と統合対象との、行方向と直交する方向の距
離が、閾値Ldt以下 ・注目矩形と統合対象の間に、黒セパレータが無い ・注目矩形と統合対象の間に、注目矩形と方向が異なる
行/文字ブロック候補が存在しない
【0109】さらに、S217において縦書きか横書き
かを判定した後、横書きの場合にはS218において条
件(G)を満たすか否かを判定し、また、縦書きの場合
にはS219において条件(H)を満たすか否かを判定
する。条件(G)、(H)は、行のどちらかの端点間の
距離が閾値BLdt以下であるか否かを判定するもので
ある。すなわち、注目矩形の水平方向の座標の最小値を
SXmin、注目矩形の水平方向の座標の最大値をSX
max、注目矩形の垂直方向の座標の最小値をSYmi
n、注目矩形の垂直方向の座標の最大値をSYmax、
統合対象の水平方向の座標の最小値をDXmin、統合
対象の水平方向の座標の最大値をDXmax、統合対象
の垂直方向の座標の最小値をDYmin、統合対象の垂
直方向の座標の最大値をDYmax、閾値をBLdtと
するとき、条件(G)は、 |DXmin−SXmin| < BLdt 又は|S
Xmax−DXmax|< BLdt である。また、条件(H)は、 |DYmin−SYmin| < BLdt 又は |
SYmax−DYmax| < BLdt である。
【0110】これらの条件(F)、(G)、(H)を満
たしている場合に、注目矩形と統合対象矩形を統合し、
S220において統合した矩形をあたらな文字ブロック
矩形候補とする。また、S221において、統合対象と
なった行矩形または文字ブロック矩形候補は消去する。
S222において、統合回数を1だけ増加させ、S21
2へ戻る。なお、条件(F)および(G)、または条件
(F)および(H)を満たしていない場合、S214へ
戻って他の統合対象についての条件判定を行なう。この
ようにしてS214〜S222において、統合の条件を
満たす行矩形または文字ブロック矩形候補を探索し、統
合処理を行なう。
【0111】以上のS212〜S222の処理を、注目
矩形を順次選択して繰り返し行なう。ひととおりの処理
が終了すると、S223へ進み、統合回数が0より大き
いか否かを判定する。統合が行なわれていると、統合回
数は0以外の正数となっているのでこれを判定し、新た
に文字ブロック矩形候補となった矩形を含めて統合処理
を行なうべく、S211から再度統合処理を開始する。
統合できる矩形が無くなった段階で、残された文字ブロ
ック矩形候補および行矩形を文字ブロックとする。
【0112】図27は、段落抽出処理の一例を示すフロ
ーチャートである。まずS231において未処理の文字
ブロックがあるか否かを判定した後、S232において
文字ブロックを注目文字ブロックとして選択し、S23
3において、その注目文字ブロックの最初の行に段落の
先頭フラグを立てる。
【0113】S234において、次の行が存在するか否
かを判定し、注目文字ブロック内に含まれる全ての行に
対して以下の処理を行なう。S236において、次の行
を選択し、S237においてブロック境界と近い方の行
の端点との距離が閾値Cdt以上か否かを判定し、閾値
Cdtより小さいときにはまだ段落の途中であるとして
S234へ戻る。閾値Cdt以上のときにはその行を段
落の終端と見なし、S238において段落の終端フラグ
を立てる。そして、S239において次の行が存在する
か否かを判定し、存在する場合にはS241で次の行を
選択するとともにその行に段落の先頭フラグを立て、新
たな段落の始まりとし、S237へ戻って段落の終端の
判定処理を行なう。
【0114】また、S234,S239において次の行
が無いと判定された場合は、注目行は文字ブロックの最
後の行であり、S235,S240においてその行に段
落の終端フラグを立てる。そしてS231へ戻り、次の
文字ブロックの処理を開始する。すべての文字ブロック
についての処理が終了した時点で段落抽出処理を終了す
る。この処理によって、すべての段落の先頭と終端にフ
ラグが立てられる。
【0115】以上のようにして得られた、文書上の文
字、句読点、行、段落及び文字ブロックの配置関係に関
する情報が、文書構造情報格納部4に格納される。図2
8は、本発明の文字認識装置の第2の実施の形態におけ
る文書構造情報格納部に格納される情報の構造の一例の
説明図である。すべての矩形の基本データ構造は同一で
あり、例えば図28(A)に示すデータ構造とすること
ができる。この基本データ構造は、矩形の種類、矩形の
方向、その他の属性、矩形の左上のX座標とY座標、
幅、高さ、この矩形が含まれている上位の矩形へのポイ
ンタ、次に位置する同種の矩形へのポインタ、この矩形
が含む下位の矩形の数とその矩形へのポインタ列から構
成されている。矩形の種別フィールドは、文字、行、ブ
ロック等、矩形の種類を区別するために用いられる。ま
た、句読点や段落の識別は、「その他の属性」フィール
ドの情報により行なう。
【0116】文字ブロックのデータ構造を図28(B)
に、また段落終端行の行矩形のデータ構造を図28
(C)に、さらに句読点の文字矩形のデータ構造を図2
8(D)にそれぞれ示している。図28(B)に示す文
字ブロックの例では、矩形の種類フィールドに文字ブロ
ックが格納され、方向フィールドは横、その他の属性フ
ィールドはNULLである。また、文字ブロックが含ま
れる上位の矩形はないので、上位の矩形に対するポイン
タもNULLである。行矩形の場合には、矩形の種類フ
ィールドには行が格納される。特に段落終端行の行矩形
の場合には、図28(C)に示すように、その他の属性
フィールドに段落終端点というデータが格納される。文
字矩形の場合には、矩形の種類フィールドには文字が格
納される。また、文字矩形は最小単位であるので、文字
矩形内に含まれる矩形の数は常に0であり、ポインタ列
はNULLである。特に句読点の文字矩形では、図28
(D)に示すように、その他の属性フィールドには句読
点が格納される。なお、このデータ構造を上述の第1の
実施の形態に対して適用することもできる。
【0117】この第2の実施の形態においても、上述の
処理は文書画像読み取り時に行なうこともできるし、ま
た、画像読み取り時には画像を文書画像格納部2に登録
するのみとし、文書構造の解析はユーザによる画像読み
出し時に行なわれるようにしてもよい。
【0118】次に、文字認識領域の指定と文字認識処理
について説明する。この第2の実施の形態では、上述の
ようにして文書上の文字、句読点、行、段落及び文字ブ
ロックの配置関係に関する情報が文書構造情報格納部4
に格納されているので、ユーザは文字単位だけでなく、
句読点間の領域や、行単位、段落単位、文字ブロック単
位での文字認識領域の指定が可能である。
【0119】この第2の実施の形態における文字認識領
域の指定と文字認識処理の全体の流れは、図13に示し
た第1の実施の形態とほぼ同様である。この第2の実施
の形態では、おもに認識領域の指定の処理が相違してい
るので、この処理について以下に説明する。
【0120】図29、図30は、本発明の文字認識装置
の第2の実施の形態における認識領域指定処理の一例を
示すフローチャートである。はじめにユーザは処理対象
の文書を文書画像格納部2から読み出し、表示部10に
表示させる。この時、文書の文字、句読点、行、段落、
文字ブロック等の配置関係が記された文書構造情報が文
書構造情報格納部4より同時に読み出される。初期設定
としてS251においてクリック回数を0とする。この
クリック回数は同じ文字をクリックした回数を計数する
カウンタである。
【0121】S252において転記/認識の指示があっ
たか否かを判定し、さらにS253において操作部9の
マウスがクリックされたか否かを判定する。転記/認識
の指示あるいはマウスのクリックがなされない場合に
は、この2つのステップが繰り返されるのみである。
【0122】ユーザは操作部9のマウスを用いて所望の
領域の文字をクリックする。指定領域解析部6はマウス
のクリックを検出し、文書画像上の対応する位置を検出
する。そして、文書構造情報を参照し、その位置に対応
する文字矩形を特定する。S254においてクリック位
置に文字があるか否か、すなわち、その位置に対応する
文字矩形が存在したか否かを判定する。文字矩形が存在
しない位置でのクリックは、そのクリックを無効として
S252へ戻る。さらに、S255において、カーソル
が前回クリックされた位置から移動したか否かを判定す
る。移動していれば、S256において現在のカーソル
位置を記録するとともに、S257においてクリック回
数を0にリセットする。
【0123】S258においてクリック回数を1だけ増
加させた後、クリック回数の値によって指定する認識領
域の種別を切り替える。まず、S259においてクリッ
ク回数が1回と判定した場合は、文字の指定であるもの
と判断し、S260において対応する文字矩形領域を反
転して表示部10に表示する。また、S261において
クリック回数が2回であると判定した場合は、句読点間
領域の指定であると判断し、S262においてカーソル
位置の文字を含む、句読点に挟まれた領域を反転して表
示部10に表示する。さらに、S263においてクリッ
ク回数が3回であると判定した場合は、段落の指定であ
るものと判断し、S264においてカーソル位置の文字
が含まれる段落を反転して表示部10に表示する。クリ
ック回数が4回以上の場合には、文字ブロックの指定で
あるものと判断し、S265においてカーソル位置の文
字が含まれる文字ブロック内のすべての行を反転して表
示部10に表示する。そしてS266でクリック回数を
0にリセットする。このS266により、文字ブロック
の指定後、もう一度クリックすると文字指定に戻ること
ができる。
【0124】認識対象領域が反転された状態で、操作部
9の転記ボタンの押下等によって転記/認識の指示がな
されると、S252においてその指示を検出し、S26
7においてその時点で反転状態にある領域を認識対象領
域として確定する。図示していないが、反転領域が無い
場合には、認識領域の指定に戻る。
【0125】その後の処理は第1の実施の形態と同様で
あり、認識対象領域に対応するイメージが、文字認識部
7へと送られる。ここでは、転記ボタンが押されたこと
によって文字認識部7は認識処理を開始する。転記ボタ
ンは、キーボード上のキーでもよいし、マウスなどでク
リックする画面上のボタンであってもよい。なお、文字
イメージから文字を認識する処理は、公知の手段によっ
て行なわれる。ユーザが文書編集部5のウィンドウの転
記先にカーソルを移動させ、マウスをクリックすると、
認識結果が転記先に出力される。この場合、対象領域の
認識が全て終わってから記入されるようにしてもよい
し、認識処理が終わった部分から順次記入されるように
してもよい。
【0126】以上のようにして、ユーザは文書編集装置
に対するのと同様の操作で、イメージ文書から所望の文
字列を得て、エディタ・ワードプロセッサ等の電子的な
環境へと移すことができる。
【0127】図31、図32は、句読点間領域の指定処
理の一例を示すフローチャートである。なお、この例で
は、指定された句読点間領域は反転表示するものとして
説明する。
【0128】まず、S271において、カーソル位置の
文字を注目文字とし、その注目文字を含む行を注目行と
する。S272〜S284の処理において、注目文字か
ら前方に句読点フラグが立っている文字を探索して行
く。S272において、注目行内で注目文字より前方に
文字があるか否かを判定し、文字があればS273にお
いて前方の文字を注目文字とし、S274においてその
注目文字に句読点フラグが立っているか否かを判定す
る。句読点フラグがなければ、さらに前方の文字につい
て判定すべく、S272へ戻る。句読点フラグが立って
いれば、その注目文字は句読点であるので、S275に
おいて、その後ろの文字を注目文字とし、句読点間領域
の先頭を確定する。そして、その文字までの領域の表示
処理を行なう。S276において注目行がカーソル位置
の文字を含むか否かを判定し、含んでいる場合にはS2
77においてカーソル位置の文字から注目文字までを反
転表示する。また、注目行がカーソル位置の文字を含ん
でいない場合にはS278において行末から注目文字ま
でを反転表示する。
【0129】S272で注目行内で注目文字より前方に
文字がない場合、すなわち、注目文字が行の先頭の文字
である場合には、前の行についての処理を行なう。S2
79において、注目行より前方に行があるか否かを判定
する。前方に行が存在する場合には、とりあえず現在の
注目行についての表示処理を行なう。S280におい
て、注目行がカーソル位置の文字を含むか否かを判定
し、含んでいる場合には、S281において、カーソル
位置の文字から行頭までを反転表示し、含んでいない場
合には、S282において注目行全体を反転表示する。
このような表示処理を行なった後、S283において注
目行を前方の行に変更し、注目文字を行末の文字とす
る。S284で行末の文字に句読点フラグが立っている
か否かを判定し、句読点フラグが立っていない場合に
は、その行の前の文字について判定を行なうべくS27
2に戻って処理を続ける。行末の文字に句読点フラグが
立っている場合には、その後の文字、すなわち次の行の
行頭の文字が句読点間領域の先頭である。ここまでの表
示はS280〜S282において行なっているので、そ
のままS285へ進む。S279で注目行より前方に行
がない、例えば文字ブロックの先頭のような場合には、
注目文字が句読点間領域の先頭であり、S276〜S2
78による表示処理を行なう。
【0130】次に、S285〜S297の処理におい
て、注目文字から後方に句読点フラグが立っている文字
を探索して行く。S285において注目文字をカーソル
位置の文字とし、注目行を注目文字が含まれる行とす
る。S286で注目行内で注目文字より後方に文字が存
在するか否かを判定し、存在すればS287でその後方
の文字を注目文字とする。その注目文字に句読点フラグ
が立っているか否かをS288で判定し、句読点フラグ
が立っていなければさらに後方の文字について調べるた
め、S286へ戻る。注目文字に句読点が立っていれ
ば、その文字が句読点間領域の終端であるので、その文
字までの反転表示処理をS289〜S291で行なう。
S289で注目行がカーソル位置を含むか否かを判定
し、カーソル位置を含む場合には、S290においてカ
ーソル位置の文字から注目文字までを反転表示する。ま
た、カーソル位置を含まない場合には、S291におい
て、行頭から注目文字までを反転表示する。これによ
り、句読点間領域の先頭から終端までの反転表示が完了
するので、句読点間領域の指定処理を終了する。
【0131】また、S286で注目行内で後方に文字が
存在しない場合には、S292において、注目行より後
方に行が存在するか否かを判定する。注目行より後方に
行が存在する場合には、とりあえず現在の行の反転表示
をS294〜S296において行なう。すなわち、S2
94で注目行がカーソル位置を含むか否かを判定し、注
目行がカーソル位置を含む場合には、S295において
カーソル位置の文字から行末までを反転表示し、注目行
がカーソル位置を含まない場合には、S296において
注目行全体を反転表示する。その後、S297で後方の
行を注目行とし、その行の行頭の文字を注目文字とす
る。そして、さらなる後方への句読点の探索を行なうべ
く、S288へ進む。
【0132】例えば、文字ブロックの終わりなど、S2
92において注目行より後方に行が存在しない場合、現
在の注目文字が句読点領域の終端である。S289に進
み、S289〜S291による終端の文字までの反転表
示を行ない、処理を終了する。
【0133】このように、前半の処理によってカーソル
位置の文字より前方に存在する句読点フラグが立ってい
る文字の手前の文字までが反転表示され、後半の処理に
よってカーソル位置の文字より後方に存在する句読点フ
ラグが立っている文字までが反転表示される。全体とし
て、カーソル位置の文字を含む句読点間領域が反転表示
されることになる。この反転表示された句読点間領域が
文字認識部7による認識対象となり、転記等の対象とな
る。
【0134】図33は、段落の指定処理の一例を示すフ
ローチャートである。なお、この例でも、指定された段
落は反転表示するものとして説明する。まず、S301
〜S305において、段落の先頭を探索する。S301
においてカーソル位置の行を注目行とする。S302に
おいて、注目行を反転表示する。S303において、注
目行に段落の先頭フラグが立っているか否かを判定し、
立っていなければさらにS304で注目行より前方に行
が存在するか否かを判定する。注目行に段落の先頭フラ
グが立っておらず、前方に行が存在する場合には、さら
に前方へ向けて段落の先頭を求めるべく、S305にお
いて前方の行を注目行とし、S302へ戻る。注目行に
段落の先頭フラグが立っていたり、前方に行が存在しな
い場合には、注目行が段落の先頭である。
【0135】次に、S306〜S310において、段落
の終端を探索する。S306において、カーソル位置の
行を注目行として再設定し、S307で注目行を反転表
示する。S308で注目行に段落の終端フラグが立って
いるか否かを判定し、立っていない場合にはさらにS3
09で注目行より後方に行が存在するか否かを判定す
る。注目行に段落の終端フラグが立っておらず、後方に
行が存在する場合には、さらに後方へ向けて段落の終端
を求めるべく、S310において後方の行を注目行と
し、S307へ戻る。注目行に段落の終端フラグが立っ
ていたり、後方に行が存在しない場合には、注目行が段
落の終端である。
【0136】このような処理によって、注目行から段落
の先頭に向けて各行がS302で反転表示され、また、
注目行から段落の終端に向けて各行がS307で反転表
示される。このようにして、カーソル位置の行を含む段
落全体が反転表示されることになる。その後、反転表示
された段落中の文字が文字認識部7で認識され、必要に
応じて転記されることになる。
【0137】図34、図35は、領域指定の具体例の説
明図である。ここでは、上述の文字指定、句読点間領域
指定、段落指定、文字ブロック指定について、それぞれ
図34(A)、(B)、図35(A)、(B)に示して
いる。図34、図35では、図示の都合上、反転表示は
ハッチングにより示している。
【0138】いま、図中、中央付近の「考」の文字の上
にカーソルを合わせ、マウスをクリックする。図29、
図30に示したフローチャートに従って処理が行なわ
れ、1回目のマウスのクリックによって、文字指定のモ
ードとなって、S260でカーソル位置の文字が反転表
示される。この状態を図34(A)に示している。
「考」の1文字のみが反転表示される。
【0139】図34(A)に示した状態において、カー
ソルを「考」の文字に合わせたまま、2回目のマウスの
クリックを行なう。すると、句読点間領域の指定のモー
ドとなる。このとき、例えば、上述の図31、図32に
示したような処理が行なわれ、「考」の文字から前方に
句読点フラグを探索し、その直後の文字「以」を先頭と
し、また、「考」の文字から後方に句読点フラグを探索
し、「あったが、」の「、」を終端として、図34
(B)に示すように反転表示される。
【0140】この例では、句読点間領域は1つの連続し
た領域であるが、例えば、図34(B)においてカーソ
ルの存在する行の行末の文字「で」にカーソルを合わせ
てマウスを2回クリックすると、その行の「現在で」
と、次の行の「は、」が句読点間領域となる。このよう
に離れた領域であっても1点のみの指示によって領域を
指定することが可能である。
【0141】図34(B)に示した状態において、カー
ソルを「考」の文字に合わせたまま、3回目のマウスの
クリックを行なう。すると、段落の指定のモードとな
る。このとき、例えば、上述の図33に示したような処
理が行なわれ、「考」の文字から前方に段落の先頭フラ
グを探索し、その行までを反転表示するとともに、後方
にも段落の終端フラグを探索し、その行までを反転表示
する。これにより、図35(A)に示すように、「例え
ば・・・」から「なくなっている。」までが反転表示さ
れる。
【0142】さらに図35(A)に示した状態におい
て、カーソルを「考」の文字に合わせたまま、4回目の
マウスのクリックを行なうと、文字ブロックの指定のモ
ードとなる。これにより、図35(B)に示すように、
文字ブロック全体が反転表示される。
【0143】この後、5回目のマウスクリックを行なう
と、図34(A)に示したような文字指定のモードに戻
る。このように同一文字上でマウスのクリックを繰り返
し行なうことにより、指示の回数によって指定する範囲
を文字→句読点間領域→段落→文字ブロック→文字→・
・・のように変化させることができる。もちろん、行指
定や文の指定など、他の種々の領域種別を指定可能に構
成したり、これらのうちのいくつかのみで構成すること
も可能である。ユーザは、所望の領域が反転表示された
時点で認識/転記指示を行なうことにより、反転表示さ
れた部分が文字認識部7で認識され、必要に応じて文書
編集部5で編集中の文書に転記することができる。ま
た、転記指示による認識以外にも、一般の文字認識と同
様にメニューなどからの認識の指示により認識を行な
い、結果を他のウィンドウやファイルに出力するように
構成することも可能である。
【0144】上述の領域指定および認識の処理の例で
は、指定された領域を示す方法として反転表示を用いた
が、反転表示に限られるものではなく、色の変更や下線
の付与、強調表示など、種々の表示方法を用いることが
できる。要するに、句読点間領域や段落の先頭と終端が
求められればよい。
【0145】また、上述の認識領域指定処理で指定され
る領域は、指定された点を含む文字、句読点間領域、段
落等としていたが、これに限らず、例えば指定された点
を区切り点として、その前後の一方の区切り点までの領
域を指定する等、種々の領域を指定可能に構成すること
ができる。
【0146】上述の認識領域指定処理の例では、ある文
字上でマウスをクリックした後、マウスを移動させてク
リックした場合、他の文字の指定を行なったことにな
る。しかしこれに限らず、例えば、最初のマウスのクリ
ックを1点目、移動後のマウスのクリックを2点目とし
て、2点で決定される領域を指定したものとすることも
可能である。もちろん、第1の実施の形態で示したよう
に、マウスのドラッグによって2点を指定する方法を併
用することも可能である。
【0147】また、上述の認識領域指定処理の例では、
同じ文字上で行なわれるマウスのクリックの回数によっ
て、文字指定、句読点間指定、段落指定、文字ブロック
指定等を切り替える例を示した。しかしこれに限らず、
例えば、メニューやキーなどによりあらかじめどのよう
な領域指定を行なうかを選択しておくように構成しても
よい。あるいは、1点の指示後、キーなどにより変更し
たり、別のマウスボタンのクリックによりメニューを表
示して選択したりするように構成することも可能であ
り、種々の周知の選択方法を適用することができる。
【0148】なお、この第2の実施の形態においてもポ
インティグデバイスとしてマウスを用いたが、第1の実
施の形態と同様、液晶ディスプレイ上でタッチペンを用
いるような形態や、ディジタイザ、トラックボールを用
いる形態など、種々の形態で実現することができる。
【0149】
【発明の効果】以上の説明から明らかなように、本発明
によれば、ユーザに文書がイメージであることを意識さ
せることなく、通常の文書編集装置を扱うのと同様な操
作で、所望の領域を指定し、所望の電子文書の所望の位
置に指定された領域の認識結果の文字列を得て再利用す
ることができるという効果がある。
【0150】また、領域の指定方法として、2点の指定
のほか、指示した1点を含む文字、行、句読点間、段
落、文字ブロック等を指示する方法を提供し、選択的に
利用可能に構成することにより、領域の指定を容易に行
なうことができ、このような指示方法を有する従来の文
書編集装置等と同様の操作によって、文書画像上の所望
の領域を指定して認識、転記させることができる。
【図面の簡単な説明】
【図1】 本発明の文字認識装置の第1の実施の形態を
示す構成図である。
【図2】 本発明の文字認識装置の第1の実施の形態に
おける文書構造解析処理の一例を示すフローチャートで
ある。
【図3】 文字矩形抽出までの処理の概要の説明図であ
る。
【図4】 文書構造情報格納部4に格納される文書構造
情報のデータ構造の一例を示す説明図である。
【図5】 文書構造情報が取得されて行く過程において
文書が表示された状態の説明図である。
【図6】 文書構造情報が取得されて行く過程において
行矩形が抽出された状態の説明図である。
【図7】 文書構造情報が取得されて行く過程において
文字矩形が抽出されたの説明図である。
【図8】 行矩形抽出処理の一例を示すフローチャート
である。
【図9】 水平分割処理の一例を示すフローチャートで
ある。
【図10】 垂直分割処理の一例を示すフローチャート
である。
【図11】 行方向判定処理の一例を示すフローチャー
トである。
【図12】 行の接続関係判定処理の一例を示すフロー
チャートである。
【図13】 本発明の文字認識装置の第1の実施の形態
における文字認識領域の指定および認識処理の一例を示
すフローチャートである。
【図14】 本発明の文字認識装置の第1の実施の形態
における領域指定処理の一具体例を示すフローチャート
である。
【図15】 本発明の文字認識装置の第1の実施の形態
における領域指定処理の一具体例を示すフローチャート
(続き)である。
【図16】 ユーザによる転記操作の一具体例の説明図
である。
【図17】 本発明の文字認識装置の第2の実施の形態
を示す構成図である。
【図18】 本発明の文字認識装置の第2の実施の形態
における文書構造解析処理の一例を示すフローチャート
である。
【図19】 白セパレータの抽出処理の一例を示すフロ
ーチャートである。
【図20】 白セパレータの抽出処理の一例を示すフロ
ーチャート(続き)である。
【図21】 セパレータ候補抽出処理の一例を示すフロ
ーチャートである。
【図22】 文字矩形統合処理の一例を示すフローチャ
ートである。
【図23】 文字矩形統合処理の一例を示すフローチャ
ート(続き)である。
【図24】 句読点抽出処理の一例を示すフローチャー
トである。
【図25】 文字ブロック抽出処理の一例を示すフロー
チャートである。
【図26】 文字ブロック抽出処理の一例を示すフロー
チャート(続き)である。
【図27】 段落抽出処理の一例を示すフローチャート
である。
【図28】 本発明の文字認識装置の第2の実施の形態
における文書構造情報格納部に格納される情報の構造の
一例の説明図である。
【図29】 本発明の文字認識装置の第2の実施の形態
における認識領域指定処理の一例を示すフローチャート
である。
【図30】 本発明の文字認識装置の第2の実施の形態
における認識領域指定処理の一例を示すフローチャート
(続き)である。
【図31】 句読点間領域の指定処理の一例を示すフロ
ーチャートである。
【図32】 句読点間領域の指定処理の一例を示すフロ
ーチャート(続き)である。
【図33】 段落の指定処理の一例を示すフローチャー
トである。
【図34】 領域指定の具体例の説明図である。
【図35】 領域指定の具体例の説明図(続き)であ
る。
【符号の説明】
1…文書画像入力部、2…文書画像格納部、3…文書構
造解析部、4…文書構造情報格納部、5…文書編集部、
6…指定領域解析部、7…文字認識部、8…文字認識用
辞書、9…操作部、10…表示部、11…制御部、12
…段落抽出部、13…句読点抽出部。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を読み取る文書画像入力手段
    と、前記文書画像中の行および文字の物理的な位置関係
    を示す文書構造情報を抽出する文書構造解析手段と、前
    記文書画像を表示する表示手段と、ユーザの操作に応じ
    て前記表示手段に表示された前記文書画像上の領域の指
    定を行なう操作手段と、前記操作手段の指定に応じて前
    記文書画像と前記文書構造情報との対応付けを行なう指
    定領域解析手段と、前記文書画像上の指定された領域の
    文字を認識する文字認識手段を有することを特徴とする
    文字認識装置。
  2. 【請求項2】 前記文字認識手段は前記操作手段からの
    転記指示の入力に基づいて文字認識処理を開始し、前記
    操作手段から入力された転記先へ認識結果を転記するこ
    とを特徴とする請求項1に記載の文字認識装置。
  3. 【請求項3】 前記文書画像上の領域の指定は、前記操
    作手段において開始点と終了点を指示することにより行
    なわれ、任意の文字列領域を指定可能であることを特徴
    とする請求項1に記載の文字認識装置。
  4. 【請求項4】 前記文書構造解析手段は、文書中の行に
    対応する矩形を抽出し、行の方向を判定するとともに、
    行の接続関係と、行に含まれる文字矩形を抽出すること
    を特徴とする請求項1に記載の文字認識装置。
  5. 【請求項5】 文書画像から文字の並びの区切り点を検
    出する文書構造解析手段と、文書画像上の1点を指定す
    る操作手段と、前記操作手段により指定された1点から
    該点に基づいて決定される前記区切り点までの文字の並
    びを指定する指定領域解析手段と、前記指定領域解析手
    段により指定された文字の並びを認識する文字認識手段
    を有することを特徴とする文字認識装置。
  6. 【請求項6】 文書画像から文字の並びの区切り点を検
    出する文書構造解析手段と、文書画像上の1点を指定す
    る操作手段と、前記操作手段により指定された1点に基
    づいて決定される2つの前記区切り点の間に含まれる文
    字の並びを指定する指定領域解析手段と、前記指定領域
    解析手段により指定された文字の並びを認識する文字認
    識手段を有することを特徴とする文字認識装置。
  7. 【請求項7】 前記文書構造解析手段は、前記文書画像
    上の文字の並びの順序をさらに検出し、前記指定領域解
    析手段は、前記文書構造解析手段により検出された文字
    の順序において、前記操作手段により指定された1点か
    ら前方で最も近い順序の区切り点と、後方で最も近い順
    序の区切り点の間に含まれる文字の並びを指定すること
    を特徴とする請求項6に記載の文字認識装置。
  8. 【請求項8】 前記文書構造解析手段は、前記区切り点
    として文書中に存在する句読点を検出することを特徴と
    する請求項6に記載の文字認識装置。
  9. 【請求項9】 前記文書構造解析手段は、前記文書画像
    から文字矩形を求める文字矩形抽出手段と、隣接する前
    記文字矩形の一方向の並びである文字列矩形を抽出する
    文字列矩形抽出手段と、前記文字列矩形に含まれ所定の
    閾値以下の大きさを持ちかつ前記文字列矩形の短い方の
    辺に対して片寄った位置に存在する文字矩形を区切り点
    として抽出する特定文字抽出手段を有することを特徴と
    する請求項8に記載の文字認識装置。
  10. 【請求項10】 前記文書構造解析手段は、区切り点と
    して前記文字画像の文字の並びの存在する位置から文書
    中のブロックの端点を検出することを特徴とする請求項
    6に記載の文字認識装置。
  11. 【請求項11】 文書画像からそれぞれ異なる基準で複
    数種類の文字の並びの区切り点を検出する文書構造解析
    手段と、文書画像上の1点を指定する操作手段と、前記
    操作手段により過去に指定された点に関する情報を記憶
    する指定点記憶手段と、前記操作手段によって指定され
    た点と前記指定点記憶手段に記憶されている過去の点に
    関する情報に基づいて複数種類の前記区切り点から1以
    上の種類の区切り点を選択する区切り点選択手段と、該
    区切り点選択手段により選択された種類の前記区切り点
    のうち前記操作手段により指定された1点に基づいて決
    定される2つの前記区切り点の間に含まれる文字の並び
    を指定する指定領域解析手段と、該指定領域解析手段に
    より指定された文字の並びを認識する文字認識手段を有
    することを特徴とする文字認識装置。
  12. 【請求項12】 文字画像の構造を解析する文書構造解
    析手段と、前記文字画像上の点を指示する操作手段と、
    前記文書構造解析手段による解析結果を用い前記操作手
    段からの指示に基づいて指示範囲を指定する指定領域解
    析手段と、該指定領域解析手段によって指定された前記
    指示範囲に含まれる文字矩形を認識する文字認識手段を
    有し、前記文書構造解析手段は、文字画像から文字矩形
    を抽出する文字矩形抽出手段と、前記文字矩形の並びの
    順序を判定する文字矩形順序判定手段と、前記文字矩形
    抽出手段により抽出された文字矩形から句読点を抽出す
    る句読点抽出手段と、前記文字矩形抽出手段により抽出
    された文字矩形の存在する位置情報に基づいて文字列を
    段落に分割する段落分割手段と、前記前記文字矩形順序
    判定手段により判定された文字矩形の並びの順序におい
    て連続する前記句読点抽出手段により抽出された2つの
    句読点に挟まれる文字矩形の並びを節として抽出する節
    抽出手段を具備し、前記指定領域解析手段は、前記操作
    手段により過去に指示された点に関する情報を記憶する
    指示点記憶手段と、前記操作手段によって指示された点
    と前記指示点記憶手段に記憶されている過去の点に関す
    る情報に基づいて前記操作手段により指示された点が含
    まれる文字矩形あるいは節あるいは段落のいずれか1つ
    を指示範囲として選択する指示範囲選択手段を具備する
    ことを特徴とする文字認識装置。
  13. 【請求項13】 前記文字認識手段は前記操作手段から
    の転記指示の入力に基づいて文字認識処理を開始し、前
    記操作手段から入力された転記先へ認識結果を転記する
    ことを特徴とする請求項5,6,11,12のいずれか
    1項に記載の文字認識装置。
JP8002556A 1995-03-24 1996-01-10 文字認識装置 Pending JPH08329190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8002556A JPH08329190A (ja) 1995-03-24 1996-01-10 文字認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6549995 1995-03-24
JP7-65499 1995-03-24
JP8002556A JPH08329190A (ja) 1995-03-24 1996-01-10 文字認識装置

Publications (1)

Publication Number Publication Date
JPH08329190A true JPH08329190A (ja) 1996-12-13

Family

ID=26335963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8002556A Pending JPH08329190A (ja) 1995-03-24 1996-01-10 文字認識装置

Country Status (1)

Country Link
JP (1) JPH08329190A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
JP2006345320A (ja) * 2005-06-09 2006-12-21 Olympus Imaging Corp データ符号化装置、データ復号化装置、データ符号化方法、データ復号化方法、プログラム
JP2007073048A (ja) * 2005-09-05 2007-03-22 Fujitsu Ltd 文字列イメージを垂直に分離するプログラム、方法及び装置、指定文字列を抽出するプログラム、方法及び装置
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN103295012A (zh) * 2012-02-28 2013-09-11 通用电气公司 用于机器配置的系统和方法
JP2019114024A (ja) * 2017-12-22 2019-07-11 キヤノン株式会社 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム
JP2020515996A (ja) * 2017-03-20 2020-05-28 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司Beijing Kingsoft Office Software,Inc. 認識した語を迅速に挿入する方法およびデバイス

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202068A (ja) * 2005-01-21 2006-08-03 Hitachi Ltd 単語認識装置および単語認識方法
JP2006345320A (ja) * 2005-06-09 2006-12-21 Olympus Imaging Corp データ符号化装置、データ復号化装置、データ符号化方法、データ復号化方法、プログラム
JP4493551B2 (ja) * 2005-06-09 2010-06-30 オリンパスイメージング株式会社 データ符号化装置、データ復号化装置、データ符号化方法、データ復号化方法、プログラム
JP2007073048A (ja) * 2005-09-05 2007-03-22 Fujitsu Ltd 文字列イメージを垂直に分離するプログラム、方法及び装置、指定文字列を抽出するプログラム、方法及び装置
JP2009251872A (ja) * 2008-04-04 2009-10-29 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010026667A (ja) * 2008-07-17 2010-02-04 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN103295012A (zh) * 2012-02-28 2013-09-11 通用电气公司 用于机器配置的系统和方法
JP2020515996A (ja) * 2017-03-20 2020-05-28 北京金山▲辧▼公▲軟▼件股▲ふん▼有限公司Beijing Kingsoft Office Software,Inc. 認識した語を迅速に挿入する方法およびデバイス
JP2019114024A (ja) * 2017-12-22 2019-07-11 キヤノン株式会社 スキャン画像に関連する情報を設定するための装置、方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP4356847B2 (ja) フィールド定義情報生成方法、ならびび、フィールド定義情報生成装置
JP3378900B2 (ja) オブジェクト編集方法,オブジェクト編集システム及び記録媒体
JP3504054B2 (ja) 文書処理装置および文書処理方法
JP2816241B2 (ja) 画像情報検索装置
US6396950B1 (en) Information processing method and apparatus
CN1716253B (zh) 检索数据的方法和装置
US20230082638A1 (en) Picture search method and apparatus, electronic device, computer-readable storage medium
US5703962A (en) Image processing method and apparatus
JPH08329190A (ja) 文字認識装置
JP3795238B2 (ja) 文書画像処理装置及び文書画像処理方法
US6421461B1 (en) Pattern recognition apparatus which compares input pattern feature and size data to registered feature and size pattern data, an apparatus for registering feature and size data, and corresponding methods and memory media therefor
JP5188260B2 (ja) 画像処理装置、画像処理方法ならびにそのプログラムおよび記憶媒体
JP3564371B2 (ja) 図形編集装置及び方法
US8077977B2 (en) Image processing system, image processing method, computer readable medium and computer data signal
US6430583B1 (en) Scenario editing apparatus for performing editing of multimedia using figure feature points
JP7301671B2 (ja) 画像処理装置、情報処理方法及びプログラム
JP6700705B2 (ja) 振り分けシステム、情報処理方法、及びプログラム
TWI848529B (zh) 作業支援裝置、作業支援系統
JPH0660222A (ja) 文字認識装置
US20230237232A1 (en) Work support device, work support system, and analysis program
JP3637771B2 (ja) 文書編集出力装置
JP4167386B2 (ja) 地図記号認識結果の確認支援方法及び装置並びに記録媒体
JP4155059B2 (ja) 電子黒板システム
JP2924790B2 (ja) 簡易地図作成方式
JP3514085B2 (ja) 文字列入力方法及び装置、並びに、文字列入力プログラムを格納した記憶媒体