JPH04252390A - 文字認識結果の後処理方法 - Google Patents

文字認識結果の後処理方法

Info

Publication number
JPH04252390A
JPH04252390A JP3026844A JP2684491A JPH04252390A JP H04252390 A JPH04252390 A JP H04252390A JP 3026844 A JP3026844 A JP 3026844A JP 2684491 A JP2684491 A JP 2684491A JP H04252390 A JPH04252390 A JP H04252390A
Authority
JP
Japan
Prior art keywords
line
processing
word
characters
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3026844A
Other languages
English (en)
Other versions
JP2968354B2 (ja
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP3026844A priority Critical patent/JP2968354B2/ja
Publication of JPH04252390A publication Critical patent/JPH04252390A/ja
Application granted granted Critical
Publication of JP2968354B2 publication Critical patent/JP2968354B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識システムにお
いて、文字認識結果に対し単語照合や形態素解析によっ
て誤り修正を行なうための後処理方法に関する。
【0002】
【従来の技術】文字認識システムにおいて、文字画像の
特徴量を用いた1文字単位の文字認識によって誤認識を
完全に排除することは極めて困難である。このため、活
字または手書きの文字を認識する日本語OCRシステム
においては、文字認識結果として得られた文字列につい
て、後処理で単語照合や形態素解析等により誤認識文字
の自動修正を行なうことが多い。
【0003】このような日本語OCRシステムの後処理
の方法は数多く提案されているが、一般文章を対象とし
たものとしては次の方法が知られている。なお、cとd
の方法は、同一出願により特許出願がなされたものであ
る。 a)認識対象となる領域(例えば段落)の認識がすべて
終了した後に、改行は無いものとして、領域内の全部の
文字列について先頭より順に後処理を行なう。 b)文を処理の単位とし、文の先頭から句点または読点
までの文字列を、改行を無視して処理する。 c)処理の単位を行とし、行の文字列を文字種の変化位
置で区切り、最後の区切り部分の文字を次行の先頭へ移
し、次行で処理する。 d)処理の単位を行とし、行の先頭から単語処理を行な
い、解析不能として残った行末部分の文字を次行の先頭
へ移し、次行で処理する。
【0004】なお、単語照合や形態素解析による日本語
文書の文字認識結果の後処理に関する公知資料としては
、例えば「西野ほか:“日本語リーダ後処理の実現”、
自然言語処理  64−6(1987.11.20)、
pp.45−52」がある。
【0005】
【発明が解決しようとする課題】前記aまたはbの方法
によれば、段落や文が長い場合、その認識が終了するま
で後処理の開始を待たされ処理効率が悪く、また認識結
果の格納のために大きなメモリ容量が必要となるという
問題がある。
【0006】文字列は単語や文節で区切られて解析され
るが、一つの単語が行末と次行の先頭に分裂することが
ある。行を単位として後処理を行なう場合、このような
単語の分裂を考慮しないと、分裂した単語を正しく解析
することができないため、分裂単語中の誤認識文字の修
正を失敗する。
【0007】行を処理単位とした前記bまたはcの方法
は、そのような行末から次行先頭に跨って分裂した単語
を、次行で処理するため、分裂単語の誤りを修正可能で
ある。また、行を単位としているため、認識結果を後処
理が終了するまで保存するためのメモリが少なくとも、
ある行の後処理と並行して次行の認識処理を実行するこ
とができる。しかし解決すべき課題も残されている。
【0008】すなわち、前記cの方法では、文字種の変
化による区切りによって行末部を決定しているため、行
内文字が全部がひらがなであったり、英数字であったり
した場合、文字種の情報のみでは文字列の区切りを特定
することができず、行内の全文字が次行へ移されるとい
う事態が発生する。つまり、次行へ移される文字数が必
ずしも少なくなるという保証がない。このような事態に
対応するためには、後処理待ちの認識結果を保存するた
めのメモリに余裕をみる必要があり、省メモリの目的を
十分に達成できないという問題が残されていた。
【0009】また前記dの方法では、単語解析が不能と
なることが行末部の文字列を次行へ移すことを決定する
手段であるが、単語照合を行なった場合に、行末部分の
分裂した単語が必ず解析不能となるとは限らない。行末
の分裂した単語の一部が正解以外の別の単語との照合に
成功することがある。この場合、解析不能とならないの
で、次行への移送は行なわれず、誤った修正が確定して
しまうという問題がある。
【0010】本発明の目的は、前記従来方法の問題点を
解決し、改行により分裂した単語も確実に修正可能で、
かつ文字認識処理と後処理とを並行的に実行する場合に
おいても後処理終了まで必要な情報を保存するためのメ
モリの容量を十分に小さくできる、後処理方法を提供す
ることにある。
【0011】
【課題を解決するための手段】本発明の後処理方法によ
れば、1行毎に、行先頭より順に単語単位に処理を実行
し、一つの単語の処理を終わる都度、該単語に続く未処
理文字の字数と一定値とを比較し、該未処理文字の字数
が該一定値以下であるときは処理中の行の処理を終了し
、該未処理文字、あるいは該未処理文字に加え処理済み
の最後の単語部分の文字も次行の先頭へ移す。
【0012】また、各行において、前行から移された文
字を除いた文字数がある一定値以下のとき、あるいは、
処理対象領域内の各行において、前行から移された文字
を除いた文字数が、処理済み行の最大文字数よりある一
定値以上少ないときは、または該最大文字数の一定割合
以下のとき、ならびに、行の最後の文字が句読点のとき
は、最後の文字まで当該行で処理する。
【0013】
【作用】1行毎の後処理であるので、1行分の文字認識
処理が終了するたびに後処理を実行し処理効率を上げる
ことができるとともに、改行によって分裂し2行に跨っ
た単語についても次行にて連続した文字列として単語解
析を行ない、適切に修正することができる。
【0014】未処理文字列に加えて最後に処理された単
語の文字列をも次行へ移すことにより、単語解析処理で
単語間接続の検証を行なう場合においても、改行により
分裂した単語の単語間接続の検証が可能となり、確実な
解析が保証される。
【0015】次行に移される文字列の最大文字数は一定
値を超えることがないので、次行へ移した文字列の保存
に必要なメモリ量を極めて小さくすることができる。
【0016】また、条件判定により、無意味な次行への
文字列の持ち越しを防止するため、処理の無駄を減らし
て効率的な後処理が可能である。
【0017】
【実施例】図1は本発明に係る日本語文字認識システム
の概略ブロック図である。この日本語文字認識システム
において、画像入力部10はスキャナー等により文書原
稿の画像を読み取り、その2値画像データを文書画像メ
モリ11に格納する。行・文字切り出し部12は、文書
画像メモリ11内の画像から文字行と文字画像を切り出
し、文字画像データを文字画像メモリ13に格納し、ま
た認識対象領域(例えば段落。自動的に検出するか、オ
ペレータより指定する。)の位置、切り出した行の位置
、文字位置、文字サイズ等の切り出し情報を切り出し情
報メモリ14に格納する。
【0018】文字認識部15は、文字画像メモリ13よ
り文字画像データを読み出し、正規化を行なってから特
徴量を抽出し、この特徴量と文字辞書メモリ16内の辞
書とのマッチングを行なうことにより、また切り出し情
報中の形状情報を利用することにより認識結果候補を決
定し、その文字コードと距離データ等を認識結果メモリ
17に格納する。
【0019】後処理部18は、本発明に直接係わる後処
理を実行する部分である。これは、認識結果を1行ずつ
認識結果メモリ17より読み込み、その先頭に行末保存
メモリ19より前行持ち越しの文字列を付加したのち、
行先頭より単語辞書メモリ20の内容を用いて言語解析
・修正処理を行ない、修正結果により認識結果メモリ1
7の内容を書き換える。また、処理行の行末部分の文字
列を次行へ移す必要がある場合には、その文字列を行末
保存メモリ19に書き込む。この後処理の内容の詳細に
ついては、実施例別に後述する。
【0020】結果出力部21は、認識結果メモリ17の
内容をディスプレイ、プリンタ等の出力機器あるいは磁
気ディスク装置等のファイル装置に出力する。
【0021】実施例1 後処理の内容を図2に示したフローチャートに沿って順
に説明する。まず後処理部18は、現在処理しようとし
ている1行(現在行と呼ぶ)の認識結果データを認識結
果メモリ17より読み込む(ステップ100)。
【0022】次に、行末保存メモリ19に前行から持ち
越された文字列があるか調べ(ステップ102)、存在
するときは、その文字列を行末保存メモリ19より読み
込み、現在行の認識結果データの先頭に付加する(ステ
ップ104)。
【0023】次に、現在行の認識結果データ(前行から
持ち越された文字列も含める)を、行頭より1単語ずつ
単語照合により解析を進めていく(ステップ106)。
【0024】一つの単語を処理するたびに、その処理済
み単語に続く未処理の文字列の文字数が一定値(行末文
字数閾値)以下であるか否かを調べる(ステップ108
)。これは未処理文字列の次行持ち越しの判定の1ステ
ップである。未処理文字数が行末文字数閾値より大きい
場合は、次行持ち越しを行なう段階まで処理が進んでい
ないということであるので、次の単語の処理に移る。 なお、行末文字数閾値はシステムによって異なってよい
が、後処理部18で使用する単語辞書内の最大単語長の
文字数より1だけ少ない値を用いる。ここでは、最大単
語長を10文字とし、行末文字数閾値を9であるものと
して説明を進める。
【0025】未処理文字数が行末文字数閾値以下となっ
た場合、未処理文字数が0であるか調べる(ステップ1
10)。未処理文字数が0であれば、現在行の処理は最
終文字まで終わっているので、次行が残っているかを調
べ(ステップ112)、残っていなければ、すなわち現
在行が認識対象領域の最終行であれば、処理を完了する
。次行があるならば、ステップ100へ戻り次行の処理
を開始する。
【0026】ステップ110で未処理文字が残っている
と判定した場合、最後の文字が句点または読点であるか
調べ(ステップ114)、句読点のときは現在行を最後
まで処理すべきと判断されるので、ステップ106に戻
って次の単語の処理を実行する。
【0027】最後の文字が句読点でないときは、現在行
の前行から持ち越しの文字を除いた文字数が、認識対象
領域内の処理済み行中の最大文字数より一定の閾値以上
少ないか、あるいは、該最大文字数の一定割合以下であ
るかを調べる(ステップ116)。このような条件を満
たさない場合は、この時点で次行への持ち越しを行なわ
ないと判断され、ステップ106に戻る。他方、条件を
満たす場合は、前行からの持ち越し文字数を除いた現在
行の文字数が行末文字数閾値以下であるか調べる(ステ
ップ118)。条件を満たさないときはステップ106
に戻る。
【0028】ステップ118の条件を満たさないときは
、現在行が認識対象領域の最終行であるか調べ(ステッ
プ120)、最終行ならば次行への持ち越しをせず現在
行の最後の文字まで現在行で処理するためステップ10
6に戻るが、最終行でなければ、現在行の未処理文字列
を次行に持ち越すことと最終的に判断し、この文字列を
行末保存メモリ19に格納し(ステップ122)、現在
行の処理を終了してステップ100に戻り次行の処理を
開始する。
【0029】ここで、次の2行の文字列画像の入力と表
示のデモンストレーションを行なう。 からなる認識対象領域を例として、後処理を説明する。
【0030】1行目の文字列について先頭より単語照合
により解析を進めていくと、4単語目までは次のように
処理が進む。 画像/の/入力/と/ (ただし、/は単語の境界を意味する)
【0031】こ
の時点では1行目の残り文字数は10であるので、次の
単語の処理に進む。次の単語「表示」を処理した段階で
、未処理文字数は8となって、これは行末文字数閾値で
ある9以下である。
【0032】また、最後の文字は句読点ではなく、現在
行が最初の行であるためステップ116の条件を当然に
満たさず、さらに現在行の文字数は16で行末文字数閾
値の9より多く、さらに現在行は最終行でないた。そこ
で、この段階で現在行すなわち1行目の処理を終了し、
未処理文字列「のデモンストレー」を行末保存メモリ1
9に保存し、2行目の処理に進む。ここでは行末文字数
閾値が9であるから、行末保存メモリ19は9文字分の
容量を持っていれば足りる。
【0033】2行目の認識結果文字列を読み込み、その
先頭に行末保存メモリ19の内容を付加すると、次の文
字列となる。すなわち、1行目の改行で分裂した単語「
デモンストレーション」が連続した形になる。 のデモンストレーションを行なう。 (下線部が前行持ち越し文字列)
【0034】この文字列の解析を進めると、の/デモン
ストレーション/を/行なう/。 のようになる。ただし、 a)行末文字が句点である(ステップ114)。 b)前行持ち越し文字を除いた文字数が7で、処理済み
行の最大文字数16より行末文字数閾値9以上少なく、
また最大文字数に対する比が0.44と十分に小さい(
ステップ116)。 c)前行繰り越し文字を除いた文字数が行末文字数閾値
以下である(ステップ118)。 d)最終行である(ステップ120)。したがって、最
終文字まで処理され、次行への持ち越しはしない。
【0035】実施例2 図2のステップ122において、未処理文字列に加えて
最後に処理された単語の文字列も行末保存メモリ19に
格納し、次行へ持ち越すことが、実施例1と処理内容が
異なる。
【0036】実施例1で用いた2行の文字列を再び例に
用いる。1行目の単語「表示」まで次のように処理が進
む。 画像/の/入力/と/表示/のデモンストレー
【003
7】この段階で1行目の処理を終わり、最後に処理した
単語「表示」以降の文字列を次行へ持ち越す。 したがって、2行目は 表示のデモンストレーションを行なう。 となり、単語解析処理を行なえば 表示/の/デモンストレーション/を/行なう/。 となる。
【0038】ここで、未処理単語のみでなく、最後に処
理した単語の文字列まで次行へ持ち越す理由は次の通り
である。後処理における単語解析処理が、単語照合のみ
でなく、連続した単語間の接続をも検証するものである
場合、未処理文字列のを次行へ持ち越したのでは、次行
の処理において、最初の単語とその直前の単語(前行の
最後に処理した単語)との接続を検証できないことによ
り、解析の不十分な部分が残ってしまう。このような不
都合は、本実施例による如く、最後の処理単語も次行へ
持ち越すことにより避けることができる。
【0039】例に上げた2行の文字列を再び用いて説明
する。実施例1によれば、2行目の先頭に「のデモンス
トレーション」が持ち越され、最初に「の」という単語
が処理されるが、その前にある「表示」の情報が持ち越
されないので、「表示」と「の」の間の接続の検証がで
きない。これに対し、本実施例によれば、「表示」も2
行目に持ち越されるため、2行目の処理において「表示
」と「の」の間の接続検証についての不連続な点はなく
なる。
【0040】換言すれば、後処理における単語解析処理
のレベルに応じて行末処理を選べばよく、単語照合のみ
の解析であれば実施例1の行末処理で問題がなく、単語
照合のみならず単語間接続検証をも行なう解析であれば
、実施例2の行末処理が適当であるということである。
【0041】なお、以上説明した処理を実行する後処理
部19は、汎用のプロセッサを用いソフトウエアにより
実現され、あるいは専用のハードウエアを用いて実現さ
れる。いずれにしても、以上の説明に基づき当業者は容
易に後処理部19を実現可能であるので、後処理部19
を実現するためのソフトウエアまたはハードウエアの具
体例の提示は省略する。
【0042】
【発明の効果】以上詳細に説明した如く、本発明によれ
ば、次のような効果を得られる。 1)行毎の後処理であるので、1行分の文字認識処理が
終了するたびに後処理を実行し処理効率を上げることが
できる。 2)行末処理、すなわち未処理文字列または最終処理単
語と未処理文字列を次行への持ち越し処理を行なうので
、改行によって分裂し2行に跨った単語についても次行
にて連続した文字列として単語解析を行ない、適切に修
正することができる。 3)行末処理において未処理文字列のみならず最終処理
単語まで次行へ持ち越すことにより、単語解析処理で単
語間接続の検証を行なう場合においても、改行により分
裂した単語の単語間接続の検証が可能となり、確実な解
析が保証される。 4)未処理文字の字数、前行からの持ち越し文字を除い
た文字数、あるいは、前行からの持ち越し文字を除いた
文字数と処理済み行の最大文字数との比較、最終文字の
種類等の条件判定により、無意味な行末処理を防止する
ため、処理の無駄を減らして効率的な後処理が可能であ
る。 5)次行に持ち越される文字列の最大文字数は一定値を
超えることがないので、次行へ移した文字列の保存に必
要なメモリ量を極めて小さくすることができる。
【図面の簡単な説明】
【図1】本発明に係る日本語文字認識システムの概略ブ
ロック図である。
【図2】本発明の一実施例における後処理のフローチャ
ートである。
【符号の説明】
10  画像入力部 11  文書画像メモリ 12  行・文字切り出し部 13  文字画像メモリ 14  切り出し情報メモリ 15  文字認識部 16  文字辞書メモリ 17  認識結果メモリ 18  後処理部 19  行末保存メモリ 20  単語辞書メモリ 21  結果出力部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】  文字認識結果に対し単語解析処理等に
    よって誤り修正を行なう後処理において、1行毎に、行
    先頭より順に単語単位に処理を実行し、一つの単語の処
    理を終わる都度、該単語に続く未処理文字の字数と一定
    値とを比較し、該未処理文字の字数が該一定値以下であ
    るときは処理中の行の処理を終了し、該未処理文字を次
    行の先頭へ移すことを特徴とする文字認識結果の後処理
    方法。
  2. 【請求項2】  文字認識結果に対し単語解析処理等に
    よって誤り修正を行なう後処理において、1行毎に、行
    先頭より順に単語単位に処理を実行し、一つの単語の処
    理を終わる都度、該単語に続く未処理文字の字数と一定
    値とを比較し、該未処理文字の字数が該一定値以下であ
    るときは処理中の行の処理を終了し、処理済みの最後の
    単語部分から行末までの文字を次行の先頭へ移すことを
    特徴とする文字認識結果の後処理方法。
  3. 【請求項3】  各行において、前行から移された文字
    を除いた文字数がある一定値以下のときは、最後の文字
    まで当該行で処理することを特徴とする請求項1または
    2記載の文字認識結果の後処理方法。
  4. 【請求項4】  処理対象領域内の各行において、前行
    から移された文字を除いた文字数が、処理済み行の最大
    文字数よりある一定値以上少ないときは、または該最大
    文字数の一定割合以下のときは、最後の文字まで当該行
    で処理することを特徴とする請求項1または2記載の文
    字認識結果の後処理方法。
  5. 【請求項5】  各行において、最後の文字が句読点の
    ときは、該句読点まで当該行で処理することを特徴とす
    る請求項1、2、3または4記載の文字認識結果の後処
    理方法。
JP3026844A 1991-01-28 1991-01-28 文字認識結果の後処理方法 Expired - Fee Related JP2968354B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3026844A JP2968354B2 (ja) 1991-01-28 1991-01-28 文字認識結果の後処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3026844A JP2968354B2 (ja) 1991-01-28 1991-01-28 文字認識結果の後処理方法

Publications (2)

Publication Number Publication Date
JPH04252390A true JPH04252390A (ja) 1992-09-08
JP2968354B2 JP2968354B2 (ja) 1999-10-25

Family

ID=12204586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3026844A Expired - Fee Related JP2968354B2 (ja) 1991-01-28 1991-01-28 文字認識結果の後処理方法

Country Status (1)

Country Link
JP (1) JP2968354B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置
CN113890904A (zh) * 2021-09-27 2022-01-04 新华三信息安全技术有限公司 一种报文解析的方法、装置、计算机设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366892A (ja) * 2001-06-05 2002-12-20 Sharp Corp 光学式文字認識装置
CN113890904A (zh) * 2021-09-27 2022-01-04 新华三信息安全技术有限公司 一种报文解析的方法、装置、计算机设备及存储介质
CN113890904B (zh) * 2021-09-27 2023-10-27 新华三信息安全技术有限公司 一种报文解析的方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
JP2968354B2 (ja) 1999-10-25

Similar Documents

Publication Publication Date Title
US7106905B2 (en) Systems and methods for processing text-based electronic documents
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JPH11194793A (ja) 音声ワープロ
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH04252390A (ja) 文字認識結果の後処理方法
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JP2891368B2 (ja) 文字認識結果の後処理方法
JPH0619962A (ja) テキスト分割装置
JP3932912B2 (ja) 文字列整形装置、方法及びプログラム
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JPH0528324A (ja) 英文字認識装置
JPH09274645A (ja) 文字認識方法および装置
JP2746345B2 (ja) 文字認識の後処理方法
JP2908460B2 (ja) 誤認識修正方法及び装置
JPH06348910A (ja) 文字認識結果の後処理方法
JP2982244B2 (ja) 文字認識後処理方式
JPH0540853A (ja) 文字認識結果の後処理方式
JP3123169B2 (ja) 文字認識方法
JP2838850B2 (ja) 仮名漢字変換装置
JP2922949B2 (ja) 文字認識の後処理方法
JPH0562020A (ja) 文字認識装置
JPH10198763A (ja) 文字認識装置およびコンピュータを文字認識装置として機能させるプログラムを格納したコンピュータが読取可能な記憶媒体
JPS63143684A (ja) 文字認識装置における認識結果修正方法
JPH07152877A (ja) 英文字認識装置
JPH08249428A (ja) 文書認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees