JPH06348910A

JPH06348910A - 文字認識結果の後処理方法

Info

Publication number: JPH06348910A
Application number: JP5132071A
Authority: JP
Inventors: Takakuni Minewaki; 隆邦嶺脇
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-06-02
Filing date: 1993-06-02
Publication date: 1994-12-22

Abstract

(57)【要約】【目的】領域毎の後処理において、領域間で分断した
単語も確実に修正する。【構成】各領域毎に、領域の先頭から順次単語単位に
処理を実行し、一つの単語の処理を終わる都度、該単語
に続く未処理文字部分の字数と一定値とを比較し、該未
処理文字部分の字数が該一定値以下であるときは処理中
の領域の処理を終了し、該未処理文字部分または処理済
みの最後の単語部分を次の領域の先頭へ移す。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識システムにお
いて、文字認識結果に対し単語照合や形態素解析によっ
て誤りの修正を行うための後処理方法に関する。

【０００２】

【従来の技術】文字認識システムにおいて、文字画像の
特徴量を用いた１文字単位の文字認識によって誤認識を
完全に排除することは極めて困難である。このため、活
字又は手書きの文字を認識する日本語ＯＣＲシステムに
おいては、文字認識結果として得られた文字列につい
て、後処理で単語照合や形態素解析等により誤認識文字
の自動修正を行うことが多い。

【０００３】このような日本語ＯＣＲシステムの後処理
の方法は数多く提案されているが、それらは一般文章を
対象にして行単位に処理するものであった（特開平０４
−２５２３９０号）。又、単語照合や形態素解析による
日本語文書の文字認識結果の後処理に関する公知資料と
しては、例えば「西野ほか：”日本語リーダ後処理の実
現”、自然言語処理６４−６（１９８７．１１．２
０）、ｐｐ．４５−５２」がある。

【０００４】

【発明が解決しようとする課題】しかし、特開平０４−
２５２３９０号における方法においては、領域内の行に
ついてのみを対象としており、領域の最終行末尾で単語
が分断される場合には、後処理ではその部分を解析・修
正できないという問題点があった。本発明は、上記の点
を考慮してなされたものであり、領域間にまたがった単
語や文節が分裂するような後処理の問題を解決する後処
理方法を提供することにある。

【０００５】

【課題を解決するための手段】かかる課題を解決するた
め本発明においては、領域の先頭から順次単語単位に処
理を実行し、一つの単語の処理を終わる都度、該単語に
続く未処理文字部分の字数と一定値とを比較し、該未処
理文字部分の字数が該一定値以下であるときは処理中の
領域の処理を終了し、該未処理文字部分または処理済み
の最後の単語部分を次の領域の先頭へ移す。

【０００６】更に、領域の先頭から順次文節単位に処理
を実行し、一つの文節の処理を終わる都度、該文節に続
く未処理文字部分に文節の区切りが存在するかを判断
し、該未処理文字部分に文節の区切りが存在しないとき
処理中の領域の処理を終了し、該未処理文字部分を次の
領域の先頭へ移す。

【０００７】又、処理中の領域と次に処理する領域の文
章の属性が異なるとき、あるいは、処理対象の領域の文
字数が一定値より少ないとき、あるいは、処理対象の領
域の行数が一定値より少ないとき、あるいは、処理中の
領域が文書の最後の領域のとき、あるいは、領域の最後
の文字が句読点であるときは、最後の文字までを当該領
域内で処理する。

【０００８】

【作用】本発明によれば、領域にまたがって分裂した単
語についても次の領域にて連続した文字列として単語解
析を行い、適切に修正することができる。

【０００９】未処理文字列に加えて最後に処理された単
語の文字列をも次領域へ移すことにより、単語解析処理
で単語間接続の検証を行うことが可能となり、確実な解
析が保証される。

【００１０】

【実施例】以下、本発明の一実施例を詳述する。図１は
本発明にかかる日本語文字認識システムの概略ブロック
図である。この日本語文字認識システムにおいて、画像
入力部１０はスキャナー等により文書原稿の画像を読み
取り、その２値画像データを文書画像メモリ１１へ格納
する。領域指定部１２は文書画像メモリ１１の画像から
文字認識の対象となる領域及び領域の属性をユーザのマ
ウス等の指示手段によって指示されるか、又は領域を自
動判別しその領域の属性をも自動分類することも可能で
ある。ここで領域の属性としては、文章、図形、表等が
考えられ、更に文章はタイトル、本文、章見出し、等の
細かいサブ属性を付けることが可能である。このように
して得られた領域に関する情婦は領域情報メモリ１３へ
格納する。行・文字切り出し部１４は、領域情報で文章
と指定された画像領域メモリ１１の画像領域から、文字
行と文字画像を切り出し、文字画像データを文字情報メ
モリ１５へ格納する。

【００１１】文字認識部１６は、文字情報メモリ１５か
ら文字画像データを読み出し、正規化を行ってから特徴
量を抽出し、この特徴量と文字辞書メモリ１７内の辞書
とマッチングを行うことにより、また切り出し情報中の
形状情報を利用することにより認識結果候補を決定し、
認識結果メモリ１８へ格納する。

【００１２】後処理部１９は、本発明に直接係わる後処
理を実行する部分である。これは認識結果を認識結果メ
モリ１８から読み込み、その先頭に前の領域からの領域
末保存メモリ２２より前領域からの持越の文字列を付加
した後、領域の先頭から単語辞書メモリ２０の内容を用
いて言語解析・修正処理を行い、修正結果により認識結
果メモリ１８の内容を書き換える。又、領域末部分の文
字列を次の領域へ移す必要があるときは、その文字列を
領域末保存メモリ２２へ書き込む。この後処理の内容の
詳細については、実施例別に後述する。

【００１３】結果出力部２１は、認識結果メモリ１８の
内容をディスプレイやプリンタ等の出力機器あるいは磁
気ディスク装置等のファイル装置へ出力する。

【００１４】実施例１後処理の内容を図２に示したフローチャートに沿って順
に説明する。先ず、後処理部１９は、現在処理しようと
している処理単位分（現在領域と呼ぶ）の認識結果デー
タを認識結果メモリ１８から読み込む（ステップ１０
０）。

【００１５】次に、領域末保存メモリ２２に前の領域か
ら持ち越された文字列があるかどうか調べ（ステップ１
０２）、存在するときにはその文字列を領域末保存メモ
リ２２から読み出して現在領域の認識結果データの先頭
に付加する（ステップ１０４）。

【００１６】次に、現在領域の認識結果データ（前の領
域から持ち越された文字列も含む）を、領域の先頭から
１単語ずつ単語照合により解析を進めていく（ステップ
１０６）。

【００１７】一つの単語を処理するたびに、その処理済
みの単語に続く未処理の文字数が０であるか調べる（ス
テップ１０８）。未処理文字数が０であれば、現在領域
の処理は最終文字まで終わっているので、次の領域が残
っているかを調べ（ステップ１２６）、残っていなけれ
ば、即ち現在領域が文書の最終領域であれば、処理を完
了する。次の領域があるならば、ステップ１００へ戻っ
て次の領域の処理を開始する。

【００１８】一つの単語を処理するたびに、その処理済
みの単語に続く未処理の文字数が一定値（領域末文字数
しきい値）以下であるかいなかを調べる（ステップ１１
０）。未処理文字数が領域末文字数しきい値より大きい
場合には、次の領域へ持越を行う段階まで処理が進んで
いないということであるので、次の単語の処理に移る。
尚、領域末しきい値はシステムによって異なっても良い
が、後処理部１９で使用する単語辞書内の最大単語の文
字数より１だけ少ない値を用いる。ここでは、最大単語
長を１０文字とし、領域末文字数しきい値を９であるも
のとして説明を進める。

【００１９】ステップ１０８で未処理文字が残っている
と判定した場合、最後の文字が句読点であるか調べ（ス
テップ１１２）、句読点の時は現在領域を最後まで処理
すべきと判断されるので、ステップ１０６へ戻って次の
単語の処理を実行する。

【００２０】最後の文字が句読点でないときは、現在領
域行数がしきい値以下（要旨文、図表の説明文等の短文
の判断等）であるかを調べ（ステップ１１４）、この条
件を満たすときは、この時点で次の領域への持越を行わ
ないと判断され、ステップ１０６へ戻る。

【００２１】他方、ステップ１１４の条件を満たさない
場合には、現在領域の文字数がしきい値以下（タイトル
や見出し、箇条書き等の短文の判断等）であるかどうか
を調べる（ステップ１１６）、条件を満たすときは、こ
の時点で次の領域への持越を行わないと判断され、ステ
ップ１０６へ戻る。

【００２２】ステップ１１６の条件を満たさないときに
は、現在領域が文書の最終領域であるかを調べ（ステッ
プ１１８）、最終領域であれば次の領域への持越は行わ
ないと判断され、現在領域の最後の文字までを処理する
ためにステップ１０６へ戻る。

【００２３】現在領域が文書の最終領域でない場合に
は、現在領域の属性と次の領域の属性が同じかどうかを
調べ（ステップ１２０）、異なる属性であれば、この時
点で次の領域への持越を行わないと判断され、ステップ
１０６へ戻る。

【００２４】又、その処理済みの文節に続く未処理の文
字列に文節の区切りがないかどうかを調べる（ステップ
１２２）。未処理文字列に文節の区切りがある場合に
は、次の領域へ持越を行う段階まで処理が進んでいない
ということであるので、次の文節の処理に移るために、
ステップ１０６へ戻る。

【００２５】ステップ１２２で条件を満たさないとき
は、未処理文字列を次の領域へ持ち越すために領域末保
存メモリ２２へ書き込み（ステップ１２４）、現在領域
の処理を終了してステップ１００へ戻り次の領域の処理
を開始する。

【００２６】ここで次に示す２つの領域の認識結果の文
字列を処理する場合を例として、後処理の説明をする。

【００２７】領域１の末尾部「画像の・・・」から、単
語処理を進めていくと、４単語目までは次のように進
む。／画像／の／入力／と／（／は単語の区切りを
示す。）

【００２８】この時点では領域１の残りも字数は１０文
字であるので、次の単語の処理に進む。次の単語「表
示」を処理した段階で、未処理も字数は８となり、領域
末の文字数しきい値９より小さくなり、条件を満たす。／画像／の／入力／と／表示／のデモンストレー８７６５４３２１（下線部分が未処理文字列であり、数字は字数である。）そこで、単語処理されていない「のデモンストレー」の
部分を領域末保存メモリ２２へ格納する。領域末保存メ
モリは最大で９文字分のメモリ領域が用意されていれば
足りる。

【００２９】領域２の認識結果文字列が入力されたとき
に、領域末保存メモリ２２内のデータをその先頭部へ付
加する。つまり、領域２の先頭部文字列は疑似的に次の
ように分裂した文字列が連続した文字列となる。のデモンストレーションを行う。（下線部分が前領域末から持ち越した文字列）この文字列の解析を更に進めると、次のような結果とな
って、分裂していた「デモンストレーション」と言う単
語が正しく処理できた。／の／デモンストレーション／を／行う／。／

【００３０】実施例２図２のステップ１２２において、未処理文字列に加えて
最後に処理された単語の文字列も領域末保存メモリ２２
へ格納し、次領域へ持ち越すことができる点が実施例１
と処理内容が異なる。

【００３１】実施例１で用いた２つの領域の文字列を再
び用いて説明する。「画像の」の位置から順番に単語を
処理していき、「表示」の単語を処理して条件を満たし
たときに、最終処理単語である「表示」の部分を含む領
域末の部分「表示のデモンストレー」を領域末保存メモ
リ２２へ格納する。／画像／の／入力／と／表示／のデモンストレー８７６５４３２１

【００３２】この段階で現在領域の処理を終わり、最後
に処理した単語「表示」以降の文字列を次領域へ持ち越
す。この際、格納する領域は「１単語長＋未処理文字列
長」となるので、最大でも１０＋９文字分のメモリ領域
が用意されていればよい。従って、領域２の先頭部分へ
領域末保存メモリ２２の内容が付加され先頭部の文字列
は次のようになる。表示のデモンストレーションを行う。（下線部分が前領域末から持ち越した文字列）更に、単語解析処理を行えば、表示／の／デモンストレーション／を／行う／。／となり、「デモンストレーション」と言う単語が正しく
処理された。

【００３３】ここで、未処理の単語のみでなく、最後に
処理した単語の文字列まで次の領域へ持ち越す理由は次
の通りである。後処理における単語解析処理が、単語の
照合のみでなく、連続した単語間の接続をも検証するも
のである場合、未処理文字列のみを次の領域へ持ち越し
たのでは、次の領域において、最初の単語とその直前の
単語（前の領域の最後に処理した単語）との接続を検証
できないことになり、解析の不十分な部分が残ってしま
う。このような不都合は、本実施例による如く最後の処
理単語を次の領域へ持ち越すことにより避けることがで
きる。

【００３４】前述した例を使って説明する。実施例１に
よれば、領域２の先頭に「のデモンストレー」が持ち越
され、最初に「の」と言う単語が処理されるが、その前
にある「表示」の情報が持ち越されないので、「表示」
と「の」の間の検証ができない。これに対し、本実施例
によれば、「表示」も領域２に持ち越されるため、領域
２の処理において「表示」と「の」の間の接続の検証に
ついての不連続な点ががなくなる。

【００３５】換言すれば、後処理における単語解析処理
のレベルに応じて領域末の処理を選べばよく、単語照合
のみの解析であれば実施例１の領域末処理で問題がな
く、単語照合のみならず単語間接続検証をも行う解析で
あれば、実施例２の領域末処理が適当であると言うこと
である。

【００３６】実施例３図２のステップ１０６において、実施例１では単語単位
の処理であるのに対して、実施例３は文節単位である点
が異なる。

【００３７】実施例１で用いた２つの領域の文字列を再
び用いて説明する。後処理部１９は、処理対象となる
「文節」の範囲を設定し、その領域に対して単語処理を
する。「文節」の範囲を設定する方法は任意のもので良
いが、本実施例では助詞の「の」や「を」等、又句読点
「、」や「。」が次に現われるまでの位置を文節範囲と
することにする。このように設定した後、「画像の」の
位置から順番に単語を処理すると、最初に文節の範囲と
なるのは、次の範囲である。｜画像の｜（｜は文節の区切りを示す。）この範囲について単語処理が行われ、その結果次のよう
になる。｜画像／の｜これで１つの文節が処理され、次の文節の処理に移る。
次の文節の範囲と単語処理の結果は次のようになる。こ
こでは文節範囲を助詞「の」の位置までとして考える。文節範囲：｜入力と表示の｜単語処理後：｜入力／と／表示／の｜

【００３８】この処理が終わった後、領域内に残ってい
る文字列「デモンストレー」から文節範囲を決定しよう
とすると、求める文節の区切り（助詞や句読点等）がな
いので、文節の範囲を決定できない。この段階で現在領
域の処理を終わり、この未処理文字列「デモンストレ
ー」を次領域へ持ち越すために領域末保存メモリ２２へ
格納する。

【００３９】次に、領域２の先頭部分へ領域末保存メモ
リ２２の内容が付加され先頭部の文字列は次のようにな
る。デモンストレーションを行う。（下線部分が前領域末から持ち越した文字列）この文字列に対して、文節範囲を決定すると、助詞
「を」の位置までが範囲となり、それに単語解析処理を
行えば、｜デモンストレーション／を｜となり、「デモンストレーション」と言う単語が正しく
処理された。

【００４０】尚、以上説明した処理を実行する後処理部
１９は、汎用のプロセッサを用いソフトウェアにより
実現され、あるいは専用のハードウェアを用いて実現さ
れる。いずれにしても、以上の説明に基づき当業者は容
易に後処理部１９を実現可能性であるので、後処理部１
９を実現するためのソフトウェア又はハードウェアの具
体例の例示は省略する。

【００４１】

【発明の効果】上述のように本発明によれば、次のよう
な効果が得られる。１）領域末の処理において、「未処理文字列」又は「最
終処理単語と未処理文字列」を次領域へ持ち越すので、
領域間に分裂した単語についても次領域にて連続した文
字列として単語解析を行い、適切に修正することができ
る。２）領域末の処理において、「最終処理単語」と「未処
理文字列」とを次領域へ持ち越すので、単語解析処理で
単語間の接続の検証を行う場合でも、領域間に分断した
単語の単語間接続の検証が可能となり、確実な解析が保
証される。３）領域末の処理において、「未処理文字列」の中に文
節の区切りが存在しないとき、「未処理文字列」を次領
域へ持ち越すので、領域間に分裂した文節／単語につい
ても次領域にて連続した文字列として単語解析を行い、
適切に修正することができる。４）未処理文字の字数や領域内の文字数における最大文
字数との比較、あるいは領域内の行数と最大行数との比
較、あるいは次の領域との属性の相違、あるいは最終文
字の種類等の条件判定により、無駄な領域末の処理を防
止するため効率的な後処理を実現できる。５）次の領域に持ち越される文字列の最大文字数は一定
値を越えることがないので、次の領域へ移した文字列の
保存に必要なメモリ量を極めて小さくできる。

【図面の簡単な説明】

【図１】本発明による日本語文字認識システムの概略
ブロック図である。

【図２】本発明の一実施例における後処理のフローチ
ャートである。

【符号の説明】

１０…画像入力部、１１…文書画像メモリ、１２…領域指定部、１３…領域情報メモリ、１４…行・文字切り出し部、１５…文字情報メモリ、１６…文字認識部、１７…文字辞書メモリ、１８…認識結果メモリ、１９…後処理部、２０…単語辞書メモリ、２１…結果出力部、２２…領域末保存メモリ。

Claims

【特許請求の範囲】

【請求項１】文字認識結果に対し単語解析結果処理等
によって誤り修正を行う後処理において、領域の先頭か
ら順次単語単位に処理を実行し、一つの単語の処理を終
わる都度、該単語に続く未処理文字部分の字数と一定値
とを比較し、該未処理文字部分の字数が該一定値以下で
あるときは処理中の領域の処理を終了し、該未処理文字
部分を次の領域の先頭へ付加することを特徴とする文字
認識結果の後処理方法。
【請求項２】文字認識結果に対し単語解析結果処理等
によって誤り修正を行う後処理において、領域の先頭よ
り順に単語単位に処理を実行し、一つの単語の処理を終
わる都度、該単語に続く未処理文字部分の字数と一定値
とを比較し、該未処理文字部分の字数が該一定値以下で
あるときは処理中の領域の処理を終了し、処理済みの最
後の単語部分及び該未処理文字部分を次の領域の先頭へ
付加することを特徴とする文字認識結果の後処理方法。
【請求項３】文字認識結果に対し単語解析結果処理等
によって誤り修正を行う後処理において、領域の先頭か
ら順次文節単位に処理を実行し、一つの文節の処理を終
わる都度、該文節に続く未処理文字部分に文節の区切り
が存在するかを判断し、該未処理文字部分に文節の区切
りが存在しないときは処理中の領域の処理を終了し、該
未処理文字部分を次の領域の先頭へ付加することを特徴
とする文字認識結果の後処理方法。
【請求項４】領域の最後の文字が句読点であるとき
は、該句読点までを当該領域内で処理することを特徴と
する請求項１、２または３記載の文字認識結果の後処理
方法。
【請求項５】処理中の領域と次に処理する領域の文章
の属性が異なるときには、該処理中の領域の未処理文字
部分を当該領域内で処理することを特徴とする請求項
１、２または３記載の文字認識結果の後処理方法。
【請求項６】処理対象の領域の文字数が一定値より少
ないときには、該未処理文字部分を当該領域内で処理す
ることを特徴とする請求項１、２または３記載の文字認
識結果の後処理方法。
【請求項７】処理対象の領域の行数が一定値より少な
いときには、該未処理文字部分を当該領域内で処理する
ことを特徴とする請求項１、２または３記載の文字認識
結果の後処理方法。
【請求項８】処理中の領域が文書の最後の領域のとき
には、該処理中の領域の未処理文字部分を当該領域内で
処理することを特徴とする請求項１、２または３記載の
文字認識結果の後処理方法。