JPH06348910A - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JPH06348910A
JPH06348910A JP5132071A JP13207193A JPH06348910A JP H06348910 A JPH06348910 A JP H06348910A JP 5132071 A JP5132071 A JP 5132071A JP 13207193 A JP13207193 A JP 13207193A JP H06348910 A JPH06348910 A JP H06348910A
Authority
JP
Japan
Prior art keywords
area
processing
word
processed
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5132071A
Other languages
English (en)
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5132071A priority Critical patent/JPH06348910A/ja
Publication of JPH06348910A publication Critical patent/JPH06348910A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 領域毎の後処理において、領域間で分断した
単語も確実に修正する。 【構成】 各領域毎に、領域の先頭から順次単語単位に
処理を実行し、一つの単語の処理を終わる都度、該単語
に続く未処理文字部分の字数と一定値とを比較し、該未
処理文字部分の字数が該一定値以下であるときは処理中
の領域の処理を終了し、該未処理文字部分または処理済
みの最後の単語部分を次の領域の先頭へ移す。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識システムにお
いて、文字認識結果に対し単語照合や形態素解析によっ
て誤りの修正を行うための後処理方法に関する。
【0002】
【従来の技術】文字認識システムにおいて、文字画像の
特徴量を用いた1文字単位の文字認識によって誤認識を
完全に排除することは極めて困難である。このため、活
字又は手書きの文字を認識する日本語OCRシステムに
おいては、文字認識結果として得られた文字列につい
て、後処理で単語照合や形態素解析等により誤認識文字
の自動修正を行うことが多い。
【0003】このような日本語OCRシステムの後処理
の方法は数多く提案されているが、それらは一般文章を
対象にして行単位に処理するものであった(特開平04
−252390号)。又、単語照合や形態素解析による
日本語文書の文字認識結果の後処理に関する公知資料と
しては、例えば「西野ほか:”日本語リーダ後処理の実
現”、自然言語処理 64−6(1987.11.2
0)、pp.45−52」がある。
【0004】
【発明が解決しようとする課題】しかし、特開平04−
252390号における方法においては、領域内の行に
ついてのみを対象としており、領域の最終行末尾で単語
が分断される場合には、後処理ではその部分を解析・修
正できないという問題点があった。本発明は、上記の点
を考慮してなされたものであり、領域間にまたがった単
語や文節が分裂するような後処理の問題を解決する後処
理方法を提供することにある。
【0005】
【課題を解決するための手段】かかる課題を解決するた
め本発明においては、領域の先頭から順次単語単位に処
理を実行し、一つの単語の処理を終わる都度、該単語に
続く未処理文字部分の字数と一定値とを比較し、該未処
理文字部分の字数が該一定値以下であるときは処理中の
領域の処理を終了し、該未処理文字部分または処理済み
の最後の単語部分を次の領域の先頭へ移す。
【0006】更に、領域の先頭から順次文節単位に処理
を実行し、一つの文節の処理を終わる都度、該文節に続
く未処理文字部分に文節の区切りが存在するかを判断
し、該未処理文字部分に文節の区切りが存在しないとき
処理中の領域の処理を終了し、該未処理文字部分を次の
領域の先頭へ移す。
【0007】又、処理中の領域と次に処理する領域の文
章の属性が異なるとき、あるいは、処理対象の領域の文
字数が一定値より少ないとき、あるいは、処理対象の領
域の行数が一定値より少ないとき、あるいは、処理中の
領域が文書の最後の領域のとき、あるいは、領域の最後
の文字が句読点であるときは、最後の文字までを当該領
域内で処理する。
【0008】
【作用】本発明によれば、領域にまたがって分裂した単
語についても次の領域にて連続した文字列として単語解
析を行い、適切に修正することができる。
【0009】未処理文字列に加えて最後に処理された単
語の文字列をも次領域へ移すことにより、単語解析処理
で単語間接続の検証を行うことが可能となり、確実な解
析が保証される。
【0010】
【実施例】以下、本発明の一実施例を詳述する。図1は
本発明にかかる日本語文字認識システムの概略ブロック
図である。この日本語文字認識システムにおいて、画像
入力部10はスキャナー等により文書原稿の画像を読み
取り、その2値画像データを文書画像メモリ11へ格納
する。領域指定部12は文書画像メモリ11の画像から
文字認識の対象となる領域及び領域の属性をユーザのマ
ウス等の指示手段によって指示されるか、又は領域を自
動判別しその領域の属性をも自動分類することも可能で
ある。ここで領域の属性としては、文章、図形、表等が
考えられ、更に文章はタイトル、本文、章見出し、等の
細かいサブ属性を付けることが可能である。このように
して得られた領域に関する情婦は領域情報メモリ13へ
格納する。行・文字切り出し部14は、領域情報で文章
と指定された画像領域メモリ11の画像領域から、文字
行と文字画像を切り出し、文字画像データを文字情報メ
モリ15へ格納する。
【0011】文字認識部16は、文字情報メモリ15か
ら文字画像データを読み出し、正規化を行ってから特徴
量を抽出し、この特徴量と文字辞書メモリ17内の辞書
とマッチングを行うことにより、また切り出し情報中の
形状情報を利用することにより認識結果候補を決定し、
認識結果メモリ18へ格納する。
【0012】後処理部19は、本発明に直接係わる後処
理を実行する部分である。これは認識結果を認識結果メ
モリ18から読み込み、その先頭に前の領域からの領域
末保存メモリ22より前領域からの持越の文字列を付加
した後、領域の先頭から単語辞書メモリ20の内容を用
いて言語解析・修正処理を行い、修正結果により認識結
果メモリ18の内容を書き換える。又、領域末部分の文
字列を次の領域へ移す必要があるときは、その文字列を
領域末保存メモリ22へ書き込む。この後処理の内容の
詳細については、実施例別に後述する。
【0013】結果出力部21は、認識結果メモリ18の
内容をディスプレイやプリンタ等の出力機器あるいは磁
気ディスク装置等のファイル装置へ出力する。
【0014】実施例1 後処理の内容を図2に示したフローチャートに沿って順
に説明する。先ず、後処理部19は、現在処理しようと
している処理単位分(現在領域と呼ぶ)の認識結果デー
タを認識結果メモリ18から読み込む(ステップ10
0)。
【0015】次に、領域末保存メモリ22に前の領域か
ら持ち越された文字列があるかどうか調べ(ステップ1
02)、存在するときにはその文字列を領域末保存メモ
リ22から読み出して現在領域の認識結果データの先頭
に付加する(ステップ104)。
【0016】次に、現在領域の認識結果データ(前の領
域から持ち越された文字列も含む)を、領域の先頭から
1単語ずつ単語照合により解析を進めていく(ステップ
106)。
【0017】一つの単語を処理するたびに、その処理済
みの単語に続く未処理の文字数が0であるか調べる(ス
テップ108)。未処理文字数が0であれば、現在領域
の処理は最終文字まで終わっているので、次の領域が残
っているかを調べ(ステップ126)、残っていなけれ
ば、即ち現在領域が文書の最終領域であれば、処理を完
了する。次の領域があるならば、ステップ100へ戻っ
て次の領域の処理を開始する。
【0018】一つの単語を処理するたびに、その処理済
みの単語に続く未処理の文字数が一定値(領域末文字数
しきい値)以下であるかいなかを調べる(ステップ11
0)。未処理文字数が領域末文字数しきい値より大きい
場合には、次の領域へ持越を行う段階まで処理が進んで
いないということであるので、次の単語の処理に移る。
尚、領域末しきい値はシステムによって異なっても良い
が、後処理部19で使用する単語辞書内の最大単語の文
字数より1だけ少ない値を用いる。ここでは、最大単語
長を10文字とし、領域末文字数しきい値を9であるも
のとして説明を進める。
【0019】ステップ108で未処理文字が残っている
と判定した場合、最後の文字が句読点であるか調べ(ス
テップ112)、句読点の時は現在領域を最後まで処理
すべきと判断されるので、ステップ106へ戻って次の
単語の処理を実行する。
【0020】最後の文字が句読点でないときは、現在領
域行数がしきい値以下(要旨文、図表の説明文等の短文
の判断等)であるかを調べ(ステップ114)、この条
件を満たすときは、この時点で次の領域への持越を行わ
ないと判断され、ステップ106へ戻る。
【0021】他方、ステップ114の条件を満たさない
場合には、現在領域の文字数がしきい値以下(タイトル
や見出し、箇条書き等の短文の判断等)であるかどうか
を調べる(ステップ116)、条件を満たすときは、こ
の時点で次の領域への持越を行わないと判断され、ステ
ップ106へ戻る。
【0022】ステップ116の条件を満たさないときに
は、現在領域が文書の最終領域であるかを調べ(ステッ
プ118)、最終領域であれば次の領域への持越は行わ
ないと判断され、現在領域の最後の文字までを処理する
ためにステップ106へ戻る。
【0023】現在領域が文書の最終領域でない場合に
は、現在領域の属性と次の領域の属性が同じかどうかを
調べ(ステップ120)、異なる属性であれば、この時
点で次の領域への持越を行わないと判断され、ステップ
106へ戻る。
【0024】又、その処理済みの文節に続く未処理の文
字列に文節の区切りがないかどうかを調べる(ステップ
122)。未処理文字列に文節の区切りがある場合に
は、次の領域へ持越を行う段階まで処理が進んでいない
ということであるので、次の文節の処理に移るために、
ステップ106へ戻る。
【0025】ステップ122で条件を満たさないとき
は、未処理文字列を次の領域へ持ち越すために領域末保
存メモリ22へ書き込み(ステップ124)、現在領域
の処理を終了してステップ100へ戻り次の領域の処理
を開始する。
【0026】ここで次に示す2つの領域の認識結果の文
字列を処理する場合を例として、後処理の説明をする。
【0027】領域1の末尾部「画像の・・・」から、単
語処理を進めていくと、4単語目までは次のように進
む。 /画像/の/入力/と/ (/は単語の区切りを
示す。)
【0028】この時点では領域1の残りも字数は10文
字であるので、次の単語の処理に進む。次の単語「表
示」を処理した段階で、未処理も字数は8となり、領域
末の文字数しきい値9より小さくなり、条件を満たす。 /画像/の/入力/と/表示/のデモンストレー 87654321 (下線部分が未処理文字列であり、数字は字数である。) そこで、単語処理されていない「のデモンストレー」の
部分を領域末保存メモリ22へ格納する。領域末保存メ
モリは最大で9文字分のメモリ領域が用意されていれば
足りる。
【0029】領域2の認識結果文字列が入力されたとき
に、領域末保存メモリ22内のデータをその先頭部へ付
加する。つまり、領域2の先頭部文字列は疑似的に次の
ように分裂した文字列が連続した文字列となる。のデモンストレー ションを行う。 (下線部分が前領域末から持ち越した文字列) この文字列の解析を更に進めると、次のような結果とな
って、分裂していた「デモンストレーション」と言う単
語が正しく処理できた。 /の/デモンストレーション/を/行う/。/
【0030】実施例2 図2のステップ122において、未処理文字列に加えて
最後に処理された単語の文字列も領域末保存メモリ22
へ格納し、次領域へ持ち越すことができる点が実施例1
と処理内容が異なる。
【0031】実施例1で用いた2つの領域の文字列を再
び用いて説明する。「画像の」の位置から順番に単語を
処理していき、「表示」の単語を処理して条件を満たし
たときに、最終処理単語である「表示」の部分を含む領
域末の部分「表示のデモンストレー」を領域末保存メモ
リ22へ格納する。 /画像/の/入力/と/表示のデモンストレー 87654321
【0032】この段階で現在領域の処理を終わり、最後
に処理した単語「表示」以降の文字列を次領域へ持ち越
す。この際、格納する領域は「1単語長+未処理文字列
長」となるので、最大でも10+9文字分のメモリ領域
が用意されていればよい。従って、領域2の先頭部分へ
領域末保存メモリ22の内容が付加され先頭部の文字列
は次のようになる。表示のデモンストレー ションを行う。 (下線部分が前領域末から持ち越した文字列) 更に、単語解析処理を行えば、 表示/の/デモンストレーション/を/行う/。/ となり、「デモンストレーション」と言う単語が正しく
処理された。
【0033】ここで、未処理の単語のみでなく、最後に
処理した単語の文字列まで次の領域へ持ち越す理由は次
の通りである。後処理における単語解析処理が、単語の
照合のみでなく、連続した単語間の接続をも検証するも
のである場合、未処理文字列のみを次の領域へ持ち越し
たのでは、次の領域において、最初の単語とその直前の
単語(前の領域の最後に処理した単語)との接続を検証
できないことになり、解析の不十分な部分が残ってしま
う。このような不都合は、本実施例による如く最後の処
理単語を次の領域へ持ち越すことにより避けることがで
きる。
【0034】前述した例を使って説明する。実施例1に
よれば、領域2の先頭に「のデモンストレー」が持ち越
され、最初に「の」と言う単語が処理されるが、その前
にある「表示」の情報が持ち越されないので、「表示」
と「の」の間の検証ができない。これに対し、本実施例
によれば、「表示」も領域2に持ち越されるため、領域
2の処理において「表示」と「の」の間の接続の検証に
ついての不連続な点ががなくなる。
【0035】換言すれば、後処理における単語解析処理
のレベルに応じて領域末の処理を選べばよく、単語照合
のみの解析であれば実施例1の領域末処理で問題がな
く、単語照合のみならず単語間接続検証をも行う解析で
あれば、実施例2の領域末処理が適当であると言うこと
である。
【0036】実施例3 図2のステップ106において、実施例1では単語単位
の処理であるのに対して、実施例3は文節単位である点
が異なる。
【0037】実施例1で用いた2つの領域の文字列を再
び用いて説明する。後処理部19は、処理対象となる
「文節」の範囲を設定し、その領域に対して単語処理を
する。「文節」の範囲を設定する方法は任意のもので良
いが、本実施例では助詞の「の」や「を」等、又句読点
「、」や「。」が次に現われるまでの位置を文節範囲と
することにする。このように設定した後、「画像の」の
位置から順番に単語を処理すると、最初に文節の範囲と
なるのは、次の範囲である。 |画像の| (|は文節の区切りを示す。) この範囲について単語処理が行われ、その結果次のよう
になる。 |画像/の| これで1つの文節が処理され、次の文節の処理に移る。
次の文節の範囲と単語処理の結果は次のようになる。こ
こでは文節範囲を助詞「の」の位置までとして考える。 文節範囲: |入力と表示の| 単語処理後: |入力/と/表示/の|
【0038】この処理が終わった後、領域内に残ってい
る文字列「デモンストレー」から文節範囲を決定しよう
とすると、求める文節の区切り(助詞や句読点等)がな
いので、文節の範囲を決定できない。この段階で現在領
域の処理を終わり、この未処理文字列「デモンストレ
ー」を次領域へ持ち越すために領域末保存メモリ22へ
格納する。
【0039】次に、領域2の先頭部分へ領域末保存メモ
リ22の内容が付加され先頭部の文字列は次のようにな
る。デモンストレー ションを行う。 (下線部分が前領域末から持ち越した文字列) この文字列に対して、文節範囲を決定すると、助詞
「を」の位置までが範囲となり、それに単語解析処理を
行えば、 |デモンストレーション/を| となり、「デモンストレーション」と言う単語が正しく
処理された。
【0040】尚、以上説明した処理を実行する後処理部
19は、汎用のプロセッサを用いソフトウェアにより
実現され、あるいは専用のハードウェアを用いて実現さ
れる。いずれにしても、以上の説明に基づき当業者は容
易に後処理部19を実現可能性であるので、後処理部1
9を実現するためのソフトウェア又はハードウェアの具
体例の例示は省略する。
【0041】
【発明の効果】上述のように本発明によれば、次のよう
な効果が得られる。 1)領域末の処理において、「未処理文字列」又は「最
終処理単語と未処理文字列」を次領域へ持ち越すので、
領域間に分裂した単語についても次領域にて連続した文
字列として単語解析を行い、適切に修正することができ
る。 2)領域末の処理において、「最終処理単語」と「未処
理文字列」とを次領域へ持ち越すので、単語解析処理で
単語間の接続の検証を行う場合でも、領域間に分断した
単語の単語間接続の検証が可能となり、確実な解析が保
証される。 3)領域末の処理において、「未処理文字列」の中に文
節の区切りが存在しないとき、「未処理文字列」を次領
域へ持ち越すので、領域間に分裂した文節/単語につい
ても次領域にて連続した文字列として単語解析を行い、
適切に修正することができる。 4)未処理文字の字数や領域内の文字数における最大文
字数との比較、あるいは領域内の行数と最大行数との比
較、あるいは次の領域との属性の相違、あるいは最終文
字の種類等の条件判定により、無駄な領域末の処理を防
止するため効率的な後処理を実現できる。 5)次の領域に持ち越される文字列の最大文字数は一定
値を越えることがないので、次の領域へ移した文字列の
保存に必要なメモリ量を極めて小さくできる。
【図面の簡単な説明】
【図1】 本発明による日本語文字認識システムの概略
ブロック図である。
【図2】 本発明の一実施例における後処理のフローチ
ャートである。
【符号の説明】
10…画像入力部、 11…文書画像メモリ、 12…領域指定部、 13…領域情報メモリ、 14…行・文字切り出し部、 15…文字情報メモリ、 16…文字認識部、 17…文字辞書メモリ、 18…認識結果メモリ、 19…後処理部、 20…単語辞書メモリ、 21…結果出力部、 22…領域末保存メモリ。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文字認識結果に対し単語解析結果処理等
    によって誤り修正を行う後処理において、領域の先頭か
    ら順次単語単位に処理を実行し、一つの単語の処理を終
    わる都度、該単語に続く未処理文字部分の字数と一定値
    とを比較し、該未処理文字部分の字数が該一定値以下で
    あるときは処理中の領域の処理を終了し、該未処理文字
    部分を次の領域の先頭へ付加することを特徴とする文字
    認識結果の後処理方法。
  2. 【請求項2】 文字認識結果に対し単語解析結果処理等
    によって誤り修正を行う後処理において、領域の先頭よ
    り順に単語単位に処理を実行し、一つの単語の処理を終
    わる都度、該単語に続く未処理文字部分の字数と一定値
    とを比較し、該未処理文字部分の字数が該一定値以下で
    あるときは処理中の領域の処理を終了し、処理済みの最
    後の単語部分及び該未処理文字部分を次の領域の先頭へ
    付加することを特徴とする文字認識結果の後処理方法。
  3. 【請求項3】 文字認識結果に対し単語解析結果処理等
    によって誤り修正を行う後処理において、領域の先頭か
    ら順次文節単位に処理を実行し、一つの文節の処理を終
    わる都度、該文節に続く未処理文字部分に文節の区切り
    が存在するかを判断し、該未処理文字部分に文節の区切
    りが存在しないときは処理中の領域の処理を終了し、該
    未処理文字部分を次の領域の先頭へ付加することを特徴
    とする文字認識結果の後処理方法。
  4. 【請求項4】 領域の最後の文字が句読点であるとき
    は、該句読点までを当該領域内で処理することを特徴と
    する請求項1、2または3記載の文字認識結果の後処理
    方法。
  5. 【請求項5】 処理中の領域と次に処理する領域の文章
    の属性が異なるときには、該処理中の領域の未処理文字
    部分を当該領域内で処理することを特徴とする請求項
    1、2または3記載の文字認識結果の後処理方法。
  6. 【請求項6】 処理対象の領域の文字数が一定値より少
    ないときには、該未処理文字部分を当該領域内で処理す
    ることを特徴とする請求項1、2または3記載の文字認
    識結果の後処理方法。
  7. 【請求項7】 処理対象の領域の行数が一定値より少な
    いときには、該未処理文字部分を当該領域内で処理する
    ことを特徴とする請求項1、2または3記載の文字認識
    結果の後処理方法。
  8. 【請求項8】 処理中の領域が文書の最後の領域のとき
    には、該処理中の領域の未処理文字部分を当該領域内で
    処理することを特徴とする請求項1、2または3記載の
    文字認識結果の後処理方法。
JP5132071A 1993-06-02 1993-06-02 文字認識結果の後処理方法 Pending JPH06348910A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5132071A JPH06348910A (ja) 1993-06-02 1993-06-02 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5132071A JPH06348910A (ja) 1993-06-02 1993-06-02 文字認識結果の後処理方法

Publications (1)

Publication Number Publication Date
JPH06348910A true JPH06348910A (ja) 1994-12-22

Family

ID=15072839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5132071A Pending JPH06348910A (ja) 1993-06-02 1993-06-02 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JPH06348910A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置

Similar Documents

Publication Publication Date Title
EP0370777B1 (en) Method for processing digital text data
US7756871B2 (en) Article extraction
US20020041713A1 (en) Document search and retrieval apparatus, recording medium and program
EP0543598A2 (en) Method and apparatus for document image processing
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
JP2004227227A (ja) 情報検索装置
JPH11194793A (ja) 音声ワープロ
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH06348910A (ja) 文字認識結果の後処理方法
JP2000040085A (ja) 日本語形態素解析処理の後処理方法および装置
JPH0612447A (ja) 要約文章作成装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP2000148788A (ja) 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP2968354B2 (ja) 文字認識結果の後処理方法
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JP2891368B2 (ja) 文字認識結果の後処理方法
JP2002056357A (ja) 文字認識装置、その方法および記録媒体
US20220067107A1 (en) Multi-section sequential document modeling for multi-page document processing
Baker A linear grammar approach for the analysis of mathematical documents
JP2982244B2 (ja) 文字認識後処理方式
JP3123169B2 (ja) 文字認識方法
JP3086264B2 (ja) 文字間スペース認識方法
JP2002014981A (ja) 文書ファイリング装置