JP3188154B2 - 文字認識処理方法 - Google Patents

文字認識処理方法

Info

Publication number
JP3188154B2
JP3188154B2 JP21663295A JP21663295A JP3188154B2 JP 3188154 B2 JP3188154 B2 JP 3188154B2 JP 21663295 A JP21663295 A JP 21663295A JP 21663295 A JP21663295 A JP 21663295A JP 3188154 B2 JP3188154 B2 JP 3188154B2
Authority
JP
Japan
Prior art keywords
character
word
characters
key
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21663295A
Other languages
English (en)
Other versions
JPH0944604A (ja
Inventor
佳孝 濱口
昌史 伊藤
芳史 前野
真 鳥越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP21663295A priority Critical patent/JP3188154B2/ja
Publication of JPH0944604A publication Critical patent/JPH0944604A/ja
Application granted granted Critical
Publication of JP3188154B2 publication Critical patent/JP3188154B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書のイメージを
読み取って文字を抽出し認識する場合に、その認識結果
を単語辞書を用いて自動的に修正する文字認識処理方法
に関する。
【0002】
【従来の技術】手書き文字、印刷文字をイメージデータ
として読み取って、そのイメージを文字単位で切り出し
て認識処理する装置は、文書等のデータを自動的に情報
処理装置に入力したり、各種の演算処理を行うために広
く利用されている。このような文字認識装置は、1文字
ずつそのパターンを認識し、予め用意した辞書と比較照
合して各文字の認識処理を行う。しかしながら、手書き
文字等は必ずしも辞書のパターンと正確に一致せず、あ
る程度の認識誤りを生じる。例えば、tという文字の認
識処理の結果、tであるかあるいはlであるか判別がつ
かない場合がある。このような場合には、まず各文字に
ついて1文字又は2文字以上の候補文字を挙げる。そし
て、1つの単語を構成する文字列について単語辞書と照
合する。単語辞書からはその文字列を構成する文字数と
同一文字数の単語を取り出し、1つずつ比較する。一致
率の最も高い単語を文字認識結果とし、文字認識の正読
率を向上させる。このような後処理技術は、例えば特公
昭61−20038号公報に記載されている。
【0003】
【発明が解決しようとする課題】ところで、上記のよう
な文字認識処理方法には次のような解決すべき課題があ
った。単語辞書には、文字認識処理の結果出力されるで
あろう多数の単語を予め格納しておく。従って、辞書に
登録されている単語数が多い場合、同一文字数の単語が
辞書中に非常に多く存在することになり、単語の照合の
ために長時間を必要とする。これでは文字認識処理のた
めの速度が遅くなるという問題があった。本発明は以上
の点に着目してなされたもので、認識結果の誤り率が低
い文字をキー文字に設定し、そのキー文字数やキー文字
の位置等に着目して照合すべき単語を絞り込み、比較照
合のための時間を短縮することを目的とする。
【0004】
【課題を解決するための手段】
〈構成〉本発明の文字認識処理方法は、文書のイメージ
を読み取って、そのイメージを文字単位で切り出して認
識処理するとともに、認識処理の結果得られた候補文字
列により構成される単語を、単語辞書から抽出した同数
の文字列から構成される単語群と比較照合して、認識結
果の後処理を行うものにおいて、予め、認識結果の誤り
率が低いキー文字を設定し、そのキー文字を含む候補文
字列により構成される単語について、キー文字数をカウ
ントして、単語辞書から抽出した、同数の文字列から構
成され、かつ、同数のキー文字を含む単語群と比較照合
する。 〈作用〉文字数が同数の単語が多く存在しても、そのう
ちキー文字を同数含む単語を選び出すことによって、比
較照合対象を絞り込む。
【0005】〈構成〉本発明の他の文字認識処理方法
は、文書のイメージを読み取って、そのイメージを文字
単位で切り出して認識処理するとともに、認識処理の結
果得られた候補文字列により構成される単語を、単語辞
書から抽出した同数の文字列から構成される単語群と比
較照合して、認識結果の後処理を行うものにおいて、予
め、認識結果の誤り率が低いキー文字を設定し、そのキ
ー文字を含む候補文字列により構成される単語につい
て、キー文字の位置を検出して、単語辞書から抽出し
た、同数の文字列から構成され、かつ、同位置に該当す
るキー文字を含む単語群と比較照合する。 〈作用〉文字数が同数の単語群からキー文字が同位置に
あるものを選択すれば、一層比較照合対象となる単語を
絞り込むことができる。また、以上の手段は、音声認識
により得られた文字列の処理にも適用できる。いずれの
場合にも、キー文字にはできるだけどの単語にも出現率
の高いものを選択することが好ましい。
【0006】
【発明の実施の形態】以下、本発明を図の実施の形態を
用いて詳細に説明する。 〈キー文字数による絞り込み〉図1は、本発明の文字認
識処理方法の概略を説明する説明図である。この図を用
いて、まず本発明の概略を説明する。入力文書1には文
字認識の対象となる文書が記載されている。ここではそ
の一例として、1つの単語「reset」が示されてい
る。単語を構成する各文字の認識処理を行う場合には、
まず入力文書1をイメージデータとして読み取り、その
イメージデータから1文字ずつ文字の切り出しを行う。
その結果、図の2−1〜2−5に示す5文字がこの単語
を構成するものとして切り出され、各文字についてパタ
ーン認識等による認識処理が実施される。ここで、その
ような認識処理を行うと、認識結果として出力されるべ
き候補文字が1文字あるいは数文字検出される。ここで
は3番目の文字2−3についてS,Vが、5番目の文字
2−5についてはl,tという候補文字が、それぞれ得
られている。
【0007】ここで、本発明では、このような候補文字
の中から認識結果の誤り率が低いキー文字を検出する。
なお、このキー文字は文字の認識処理方法や認識処理装
置の特性によって様々になる。従って、例えば装置によ
っては図に示すeという文字が認識結果の誤り率が非常
に低いものもあるし、またaという文字が認識率が低い
といった場合もある。従って、装置ごとにこのようなキ
ー文字が任意に設定される。なお、文字の認識率を高め
るために設定するキー文字であるから、比較的各単語に
頻繁に出現する文字をキー文字に設定することが好まし
い。従って、たとえ認識結果の誤り率が低い文字であっ
ても、あまり多くの単語に登場しないような文字は必ず
しもキー文字に設定する必要はない。
【0008】このようなキー文字を検出すると、図に示
す単語辞書3から照合対象の単語を読み出す場合に、こ
れを絞り込むための辞書フィルタ部4が生成される。単
語辞書3からは候補文字列の数を数えて、それと同一文
字数の単語を取り出す。1つの単語について文字認識を
行った場合、文字数について誤りを生じる場合が極めて
少ないと考えられるからである。ここでは、単語「re
set」についての処理であるから、従来ならば全部で
5文字の単語全てが単語辞書3から取り出される。ここ
で、キー文字を検出した結果、その種類はeあるいはs
となる。また、その数はeについては2文字、sについ
ては1文字となる。そこで、単語辞書3中に格納された
多数の単語群の中から、文字数が5文字で、eというキ
ー文字が2文字、sというキー文字が1文字ある単語を
選択する。これによって、照合対象となる単語数が減少
し、「reset」が後処理結果として出力される。な
お、後で説明する別の実施の形態では、キー文字の位置
を考慮して単語数を更に絞り込むようにしている。
【0009】図2には、本発明実施のためのハードウェ
アブロック図を示す。本発明を実施するためには、図に
示すように、文字認識部6、キー文字テーブル7、キー
文字検出部8、単語辞書3、辞書フィルタ部4、単語照
合部9及び出力部10等を備えた装置を使用する。文字
認識部6は、入力文書のイメージを読み取り、図1で説
明した文字の切出し及び文字認識を行って、各文字につ
いて単数または複数の候補文字の文字コードを出力する
部分である。この部分の構成は従来の装置と全く同様の
ものである。また、単語照合部9は、文字認識部6から
単語単位に認識結果を受け取って、辞書フィルタ部4を
通じて引き出される単語辞書3に登録された単語と1個
ずつ比較照合を行い、一致度の最も高い単語を候補単語
として選出する部分である。一致度の計算は、一致文字
数、パターン比較上の一致度あるいは候補文字の順位
等、従来よく知られた各種の手法を用いることができ
る。
【0010】キー文字検出部8は、文字認識部6から単
語単位に認識結果を受け取って、キー文字テーブル7に
登録されているキー文字が、認識結果として出力された
単語中に何文字存在するかを数える部分である。なお、
キー文字テーブル7には、先に説明したように、予め設
定されたキー文字であるeやsという文字が記憶され表
示されている。このキー文字テーブルは、例えば文字認
識部6の文字認識方法を変更するごとに書き換えること
ができる。辞書フィルタ部4は、キー文字検出部8が出
力するキー文字数とそのキー文字に着目し、単語辞書3
に登録された単語のうち照合対象となる単語を選択して
単語照合部9に出力する部分である。単語辞書3は、辞
書フィルタ部4がキー文字検出部8の出力をもとに迅速
に単語を選択できるように構成されている。これは、後
で図3を用いて説明する。
【0011】出力部10は、単語照合部9から出力され
る候補単語をもとに、後処理結果を出力するための文字
列を決定する部分である。この部分は従来の文字認識処
理後の後処理装置と同様の構成とされる。図3には、単
語辞書例説明図を示す。上記のように、候補文字を例え
ばeとsに設定した場合に、単語辞書3は、そのキー文
字数と単語を構成する文字数をもとに該当する単語を効
率よく引き出すよう構成する。図3に示す例は、キー文
字e及びsを含む単語長が5文字の単語を集めた部分の
みを抜粋してテーブル化したものである。単語が含むキ
ー文字の数により単語辞書を分類しておけば、このよう
なテーブルが容易に取り出せる。例えば、この図でキー
文字eの文字数が“0”でキー文字sの文字数が“1”
の単語は、「first」と「burst」…であるこ
とが分かる。図1に示した例では、キー文字eの数が
“2”、キー文字sの数が“1”である。従って、この
図3に示す単語辞書から「seize」と「rese
t」という2個の単語が抽出される。
【0012】なお、キー文字は認識率が高い文字である
が、誤認識する場合もあり得る。従って、例えばキー文
字eが2文字で、キー文字sが0文字から2文字の間
と、キー文字eが1文字から3文字の間で、キー文字s
が1文字というように、ある程度の範囲を定めてそこか
ら候補単語を取り出すようにしてもよい。これでも、単
に文字数が一致した単語全てを取り出す場合に比べて、
十分に比較照合対象となる単語の絞り込みができる。図
1に示した例では、候補文字が2番目の文字2−2と5
番目の文字2−5について、それぞれ2文字ずつ存在す
る。従って、このような候補文字の組合せでできる文字
列は「resel」、「revel」、「rese
t」、「revet」の4種類となる。これらと辞書フ
ィルタ部4から取り出された単語との比較照合を行う
と、「reset」が候補単語として出力される。
【0013】これによって、単語辞書から取り出される
単語のうち比較照合が行われるものが十分に絞り込ま
れ、照合処理のための処理速度が速まる。また、キー文
字部分が他の文字と入れ替わった候補単語が選択される
可能性が減少し、正読率が向上する。例えば、単語長が
5文字の全ての単語と照合を行うと、図3に示した辞書
の中から「revel」、「reset」の2単語が候
補単語として出力される。候補文字について、それぞれ
パターン認識の際に一定の一致率が演算処理されてい
る。従って、いずれかの文字が一致率が高いものとして
第一候補、他の文字は第二候補として出力される。しか
しながら、このような認識処理の結果、誤って「rev
el」が最終的な候補単語として決定される場合も少な
くない。ところが、本発明を使用してキー文字eやsを
照合対象の絞り込みに利用すると、「revel」は候
補単語とならないため誤認識が生じない。
【0014】〈キー文字位置による絞り込み〉上記の実
施の形態は、キー文字の数によって照合対象となる単語
を絞り込む例を説明した。ところが、認識結果の誤り率
が低いキー文字は、その数だけでなく単語中の位置まで
も確実性が高い。そこで、次の実施の形態では、キー文
字の位置に着目した絞り込みを行う。この目的のため
に、図2に示すキー文字検出部8は文字認識部6の出力
する認識結果を単語単位に受け入れ、そのキー文字位置
を検出して辞書フィルタ部4に出力するよう構成する。
また、辞書フィルタ部4はキー文字位置に着目して単語
辞書3から文字数が同一で該当位置にキー文字の存在す
る単語を取り出し、単語照合部9に送り込む構成とす
る。
【0015】図4には、このような実施の形態に使用す
る単語辞書の例説明図を示す。この図では、キー文字を
eとsとし、その文字位置に対応して単語が配列されて
いる。即ち、5文字で構成される単語のうち、キー文字
eが1番目から5番目に、それぞれ配置されている単語
にはどのような単語が存在するか、これをリストアップ
している。“0”とあるのはキー文字eが存在しない単
語である。キー文字sについても同様である。再び、図
1の例を用いて具体的にその動作を説明する。
【0016】図1の例で認識処理の結果得られた候補文
字には、先に説明したように2番目の文字2−2と4番
目の文字2−4とにキー文字eが含まれる。また、3番
目の文字2−3にキー文字sが含まれる。その検出結果
が辞書フィルタ部4に送り込まれる。ここで、辞書フィ
ルタ部4は、図4に示す単語辞書からキー文字eの文字
位置が2番目と4番目の単語であって、キー文字sの文
字位置が3番目の単語を取り出す。その結果は図に示す
「resin」、「reset」及び「ousel」、
「laser」の4単語となる。即ち、同一の文字数の
単語は、この図に示すように非常に多く存在するが、そ
の中でキー文字の位置に着目すると、照合対象がこうし
て絞り込まれる。なお、複数の位置に同じキー文字を持
つ単語が図4に示す単語辞書を見ると、数カ所に重複し
て登録されている。例えば、「reset」という単語
は、キー文字eが2番目にも4番目にも存在するから、
両方の箇所に登録されることがある。従って、重複して
単語が取り出せることもある。この場合には、いずれか
一方を抽出する。
【0017】以上により、キー文字の数を用いた場合と
同様にして比較照合対象となる単語の効果的な単語の絞
り込みが行われる。なお、キー文字の数とキー文字の位
置の両方に着目して単語の絞り込みを行うようにしても
差し支えない。
【0018】本発明は以上の実施の形態に限定されな
い。上記実施の形態では、文字認識の結果を利用した後
処理についての説明を行ったが、音声認識等各種の任意
のデータを文字コード列等に変換する装置で、出力され
るコード列を辞書と比較する場合に、同様にして本発明
を採用することが可能である。
【図面の簡単な説明】
【図1】本発明の文字認識処理方法説明図である。
【図2】本発明実施のためのハードウェアブロック図で
ある。
【図3】単語辞書例説明図(その1)である。
【図4】単語辞書例説明図(その2)である。
【符号の説明】
1 入力文書 2−1〜2−5 認識対象の文字 3 単語辞書 4 辞書フィルタ部
フロントページの続き (72)発明者 鳥越 真 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (56)参考文献 特開 平8−16729(JP,A) 特開 平7−121665(JP,A) 特開 平7−85223(JP,A) 特開 平6−150070(JP,A) 特開 平5−89291(JP,A) 特開 平3−257693(JP,A) 特開 平3−148787(JP,A) 特開 平2−240787(JP,A) 特開 平2−121078(JP,A) 特開 平1−96779(JP,A) 特開 昭61−267885(JP,A) 特開 昭61−208187(JP,A) 特開 昭61−107486(JP,A) 特開 昭61−74086(JP,A) 特開 昭60−147888(JP,A) 特開 昭59−188783(JP,A) 「電子情報通信学会論文誌 D−2」 Vol.77 No.1 p.20−28 (1994)”文字位置のずれを許容する枠 なし筆記住所認識" (58)調査した分野(Int.Cl.7,DB名) G06K 9/72 G10L 5/06 JICSTファイル(JOIS)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書のイメージを読み取って、そのイメ
    ージを文字単位で切り出して認識処理するとともに、 認識処理の結果得られた候補文字列により構成される単
    語を、単語辞書から抽出した同数の文字列から構成され
    る単語群と比較照合して、 認識結果の後処理を行うものにおいて、 予め、認識結果の誤り率が低いキー文字を設定し、 そのキー文字を含む候補文字列により構成される単語に
    ついて、 キー文字数をカウントして、 単語辞書から抽出した、同数の文字列から構成され、か
    つ、同数のキー文字を含む単語群と比較照合することを
    特徴とする文字認識処理方法。
  2. 【請求項2】 文書のイメージを読み取って、そのイメ
    ージを文字単位で切り出して認識処理するとともに、 認識処理の結果得られた候補文字列により構成される単
    語を、単語辞書から抽出した同数の文字列から構成され
    る単語群と比較照合して、 認識結果の後処理を行うものにおいて、 予め、認識結果の誤り率が低いキー文字を設定し、 そのキー文字を含む候補文字列により構成される単語に
    ついて、 キー文字の位置を検出して、 単語辞書から抽出した、同数の文字列から構成され、か
    つ、同位置に該当するキー文字を含む単語群と比較照合
    することを特徴とする文字認識処理方法。
  3. 【請求項3】 文書のイメージに代えて、音声信号を受
    け入れて文字単位で認識処理した結果について単語群と
    の比較照合を行うことを特徴とする請求項1又は2記載
    の文字認識処理方法。
  4. 【請求項4】 出現率の高い文字のみをキー文字に設定
    することを特徴とする請求項1から3に記載の文字認識
    処理方法。
JP21663295A 1995-08-02 1995-08-02 文字認識処理方法 Expired - Fee Related JP3188154B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21663295A JP3188154B2 (ja) 1995-08-02 1995-08-02 文字認識処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21663295A JP3188154B2 (ja) 1995-08-02 1995-08-02 文字認識処理方法

Publications (2)

Publication Number Publication Date
JPH0944604A JPH0944604A (ja) 1997-02-14
JP3188154B2 true JP3188154B2 (ja) 2001-07-16

Family

ID=16691484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21663295A Expired - Fee Related JP3188154B2 (ja) 1995-08-02 1995-08-02 文字認識処理方法

Country Status (1)

Country Link
JP (1) JP3188154B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011018109A (ja) * 2009-07-07 2011-01-27 Toshiba Corp 認識文字列補正装置および認識文字列補正用プログラム
JP5372110B2 (ja) 2011-10-28 2013-12-18 シャープ株式会社 情報出力装置、情報出力方法、及びコンピュータプログラム
JP2014149457A (ja) * 2013-02-01 2014-08-21 Sharp Corp 音声認識装置、電子機器、および音声認識装置の制御プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
「電子情報通信学会論文誌 D−2」Vol.77 No.1 p.20−28(1994)"文字位置のずれを許容する枠なし筆記住所認識"

Also Published As

Publication number Publication date
JPH0944604A (ja) 1997-02-14

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
JP2734386B2 (ja) 文字列読み取り装置
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
US6373985B1 (en) E-mail signature block analysis
US6360010B1 (en) E-mail signature block segmentation
JP3188154B2 (ja) 文字認識処理方法
JPH06215184A (ja) 抽出領域のラベリング装置
JPS6262388B2 (ja)
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JP2903779B2 (ja) 文字列認識方法及びその装置
JP3207566B2 (ja) 文字認識方法
JP3151866B2 (ja) 英文字認識方法
JP3360030B2 (ja) 文字認識装置および文字認識方法および文字認識方法をプログラムの形で記録した記録媒体
JP2845463B2 (ja) パターン認識装置
JPS646514B2 (ja)
JP2918380B2 (ja) 文字認識結果の後処理方法
JP3380850B2 (ja) 文字認識装置
JP2908132B2 (ja) 文字認識結果の後処理方法
JP3116452B2 (ja) 英文字認識装置
JPS6111886A (ja) 文字認識方式
JP2851102B2 (ja) 文字切出し方法
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JPH07225763A (ja) 文書処理装置
JPH01191992A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080511

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090511

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100511

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110511

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120511

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees