JPH07271920A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH07271920A
JPH07271920A JP6063427A JP6342794A JPH07271920A JP H07271920 A JPH07271920 A JP H07271920A JP 6063427 A JP6063427 A JP 6063427A JP 6342794 A JP6342794 A JP 6342794A JP H07271920 A JPH07271920 A JP H07271920A
Authority
JP
Japan
Prior art keywords
character
appearance frequency
collating
pattern
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6063427A
Other languages
English (en)
Inventor
Hiroyuki Sakai
裕之 堺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6063427A priority Critical patent/JPH07271920A/ja
Publication of JPH07271920A publication Critical patent/JPH07271920A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字の出現頻度を加味した文字認識を行うこ
とで、文字認識精度の向上を図る。 【構成】 文字の出現頻度の統計データが格納される頻
度統計データベース7を有し、文字識別部8によって基
準文字パターンと入力文字パターンとの照合を行って複
数の文字候補を得た後、この文字候補の出現頻度の統計
データであるウェイト値23を用いて各文字候補の類似
度を修正する。その後、修正後の類似度から各文字候補
の順位を更新して知識処理に供する。そして知識処理を
通じて得た最終的な文字認識結果から頻度統計データベ
ース7の内容を更新する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学式文字読取装置等
に用いられる文字認識装置に関する。
【0002】
【従来の技術】近年、光学式文字読取装置(以下、OC
Rと呼ぶ)が様々な事務処理の場において活用されてき
ている。例えば、郵便物に記載された住所や名前の文字
を識別して、郵便物の振り分け作業の自動化を支援する
システムとして、前記のOCRは広く利用されている。
OCRにおいて、文字読取の精度を決めるひとつの要素
として文字認識の後処理である知識処理の充実化が挙げ
られる。
【0003】しかし、知識処理のために用いられる知識
ベースの内容をどんなに充実させても、手書きされた文
字の状態によっては正しい住所や名前の文字列を得るこ
とができない場合がある。従来の文字認識方式では、例
えば、入力した文字パターンと各基準文字パターンとの
類似度から複数の文字候補を選別し、各読取対象文字毎
に得られた複数の文字候補の群と知識ベースに格納され
た住所や名前等の文字列情報との比較によって最終的な
文字認識結果を得ている。したがって、知識ベースに格
納される情報量が多いほど、知識処理でヒットする文字
列の種類(数)も増える傾向を呈し、それだけ誤った認
識結果を得てしまう確率も高まる。
【0004】
【発明が解決しようとする課題】このように、従来の文
字認識方式では、たとえ知識処理を行ったとしても十分
な文字認識精度が得られないという問題があった。
【0005】本発明はこのような課題を解決するための
もので、文字の出現頻度を加味した文字認識を行うこと
で、文字認識精度の向上を図ることのできる文字認識装
置の提供を目的としている。
【0006】
【課題を解決するための手段】本発明の文字認識装置は
上記した目的を達成するために、入力文字パターンと基
準文字パターンとを照合する照合手段と、認識対象とな
る文字の出現頻度の情報を記憶する記憶手段と、照合手
段の照合結果および記憶手段に記憶された文字出現頻度
情報に基づいて、文字認識を行う文字認識手段とを具備
することを特徴としている。
【0007】また、本発明の文字認識装置は上記した目
的を達成するために、入力文字パターンと基準文字パタ
ーンとを照合する照合手段と、認識対象となる文字の出
現頻度の情報を記憶する記憶手段と、照合手段の照合結
果および記憶手段に記憶された文字出現頻度情報に基づ
いて、文字認識を行う文字認識手段と、最終的な文字認
識結果に基づいて、記憶手段の内容を更新する更新手段
とを具備することを特徴とする。
【0008】さらに本発明の文字認識装置は上記した目
的を達成するために、入力文字パターンと基準文字パタ
ーンとを照合して複数の文字候補をその類似度と共に得
る照合手段と、認識対象となる文字の出現頻度の情報を
記憶する記憶手段と、照合手段によって獲得された個々
の文字候補について、記憶手段に記憶された該当する文
字の文字出現頻度情報に基づいて各文字候補の類似度を
修正する修正手段と、修正手段による類似度修正後の各
文字候補を用いて知識処理を行い、最終的な文字認識結
果を得る知識処理手段とを具備することを特徴としてい
る。
【0009】さらに本発明の文字認識装置は上記した目
的を達成するために、入力文字パターンと基準文字パタ
ーンとを照合して複数の文字候補をその類似度と共に得
る照合手段と、認識対象となる文字の出現頻度の情報を
記憶する記憶手段と、照合手段によって獲得された個々
の文字候補について、記憶手段に記憶された該当する文
字の文字出現頻度情報に基づいて文字候補の類似度を修
正する修正手段と、修正手段による類似度修正後の各文
字候補を用いて知識処理を行い、最終的な文字認識結果
を得る知識処理手段と、最終的な文字認識結果に基づい
て、記憶手段の内容を更新する更新手段とを具備するこ
とを特徴としている。
【0010】
【作用】すなわち、本発明では、入力文字パターンと基
準文字パターンとの照合結果に加え、文字の出現頻度の
情報を用いて文字認識を行うことで、出現頻度の高い文
字については優れた精度で文字認識を行うことができ
る。
【0011】また、最終的な文字認識結果で文字出現頻
度情報を更新することで、システムを運用する環境に応
じた最適な文字出現頻度情報を自動的に用意することが
できる。
【0012】また他の発明では、照合手段によって獲得
された個々の文字候補について、記憶手段に記憶された
該当する文字の文字出現頻度情報に基づき各文字候補の
類似度を修正するので、知識処理を用いて文字認識結果
を得る場合の認識精度を向上させることができる。
【0013】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。
【0014】図1は本発明に係る一実施例の文字認識装
置の全体的な構成を示すブロック図である。
【0015】同図において、1は郵便物、2は郵便物1
の宛先記載面の全体のイメージデータを取り込む光電変
換部である。3は光電変換部2により取り込んだ全体イ
メージデータから宛名領域Aを検出する宛名領域検出部
である。4は宛名領域検出部3によって検出された宛名
領域Aのイメージデータから行単位のイメージデータB
1,B2,B3を検出して切り出す行検出切出部であ
る。5は行検出切出部4によって検出、切り出された行
単位のイメージデータB1,B2,B3から個々の文字
の検出、切り出しを行う文字検出切出部である。6は基
準文字パターンが予め格納された文字パターン辞書であ
る。7は文字の出現頻度の統計データが格納される頻度
統計データベースである。8は文字検出切出部5によっ
て検出、切り出された個々の文字について、文字パター
ン辞書6および統計データベース7の情報を用いて文字
識別を行う文字識別部である。9は宛名等の文字列が知
識情報として予め格納された知識データベースである。
10は文字識別部8より出力された各文字候補から知識
データベース9を用いて知識処理を行い、最終的な文字
認識結果を出力する知識処理部である。
【0016】ここで、前記の頻度統計データベース7の
詳細について説明する。図2はこの頻度統計データベー
ス7の構造を示す図である。同図に示すように、この頻
度統計データベース7は文字種21、文字の出現頻度2
2およびウェイト値23からなる。文字種22は文字パ
ターン辞書6に格納された文字種に対応する。文字の出
現頻度22は、個々の文字種について、ある過去の時点
から現在に至までにこのシステムにおいて最終的な文字
認識結果として獲得された文字の出現回数を示す。ウェ
イト値23は文字の出現頻度22から所定の計算式によ
って求められた値、つまり文字の出現頻度22を文字識
別部8での文字識別に利用できるかたちに変換した値で
ある。ウェイト値23を求めるための計算式としては、
例えば(1文字の出現回数/全体文字の出現回数)×1
00を用いることができる。要するに、頻度統計データ
ベース7における文字の出現頻度22およびウェイト値
23はシステム運用上に更新可能な値であり、一回の文
字認識が行われる度に逐次更新される。
【0017】次にこの文字認識装置の動作を説明する。
【0018】まず光電変換部2にて郵便物1の宛先記載
面から取り込んだ全体イメージデータは宛名領域検出部
3に送られ、ここで宛名領域Aの検出が行われた後、行
検出切出部4にそのイメージデータが送られる。文字検
出切出部4は入力した宛名領域Aのイメージデータから
行単位でイメージデータB1,B2,B3を検出、切り
出して文字検出切出部5に送る。文字検出切出部5は行
単位のイメージデータB1,B2,B3からさらに個々
の文字の検出、切り出しを行い、文字単位のイメージデ
ータを文字識別部8に送る。
【0019】文字識別部8は、まず文字パターン辞書6
を用いて通常の文字識別を行う。すなわち、文字パター
ン辞書6に格納された基準文字パターンと入力文字パタ
ーンとを照合して近似する複数の文字候補をその類似度
と共に識別結果として得る。図3にその識別結果の例を
示す。ここで入力文字として「幸」「区」「柳」「町」
の4文字が存在し、これらの文字列に対して文字選別を
行った結果、図3に示すように、個々の文字に対して1
位から10位までの候補群100が得られるものする。
各文字候補の順位は基準文字パターンとの類似度によっ
て決まる。つまり1位の文字候補が基準文字パターンと
の照合で最も高い類似度が得られた候補である。
【0020】以上の文字識別を行った後、文字識別部8
は次に頻度統計データベース7を用いて次のように各文
字候補の順位を修正変更する。すなわち、文字識別部8
は、頻度統計データベース7から各文字候補に対応する
ウェイト値23をそれぞれ読み込み、文字毎に、このウ
ェイト値23と当該文字候補の類似度とを加算する。例
えば、1位の文字候補である「幸」のウェイト値(W
幸)とその類似度(A0)とを加算して、その加算結果
を各文字候補の順位を修正変更するための新たな類似度
として得る。その他、2位の「寺」から10位の「東」
まで同様にウェイト値と類似度との加算を行う。
【0021】このようにして各文字候補について、それ
ぞれウェイト値と類似度との加算を終えた後、各文字候
補の加算結果を比較し、加算結果が最大となった文字候
補を1位、最小となった文字候補を10位とするような
順位配列で各文字候補の順位を修正する。
【0022】以上のように「幸」「区」「柳」「町」の
各文字について順位変更を行った結果を図4に示す。同
図の各文字候補の順位配列を図3と比較すれば分かるよ
うに、この例では、「区」の文字候補の順位は、頻度統
計データベース7を使った順位修正によって10位から
3位になり、「町」の文字候補の順位は2位から1位に
修正される。
【0023】この後、各文字候補は知識処理部10に渡
され、知識データベース9を用いて知識処理が行われ
る。知識処理は、例えば、知識データベース9に格納さ
れた文字列と合致する文字候補の組み合わせを抽出して
行われる。このとき、複数の文字列候補が抽出された場
合の最終的な認識文字列の選択は、組み合わせた各文字
候補に付与された順位に基づいて行われる。すなわち、
順位が高い文字候補をより多く使った文字列が最終的な
認識結果として得られる。
【0024】その後、最終的な認識結果として得た文字
について、頻度統計データベース7内の文字の出現頻度
22およびウェイト値23の更新が行われる。
【0025】したがって、本実施例の文字認識装置によ
れば、各文字の出現頻度を考慮した文字識別を行うこと
で、より優れた精度で文字認識を行うことが可能にな
る。すなわち、この文字認識装置を地域的な郵便物振り
分け作業に利用した場合、その宛名を構成するすべての
文字の出現頻度は地域特有なものとなるため、この文字
の出現頻度を考慮して文字識別処理を行うことで、文字
認識の精度は飛躍的に向上する。
【0026】なお、本実施例では、システム運用過程で
頻度統計データベース7の文字の出現頻度22およびウ
ェイト値23を逐次更新するものとしたが、予め作成さ
れた固定的な頻度統計データベース7を用いて同様の処
理を行うように構成しても構わない。
【0027】また、本実施例では、郵便物の宛名の文字
認識について説明したが、本発明はこれに限定されるも
のではなく、その他様々な読取対象に適用することがで
きる。
【0028】なお、本発明は、以下(1)〜(4)に列
記するような各工程を含む文字認識処理方法としてとら
えることもできる。
【0029】(1)認識対象となる文字の出現頻度の情
報を記憶する記憶手段を用いて文字認識を行う方法であ
って、入力文字パターンと基準文字パターンとを照合す
る工程と、入力文字パターンと基準文字パターンとの照
合結果および記憶手段に記憶された文字出現頻度情報に
基づいて文字認識を行う工程とを有する。
【0030】(2)認識対象となる文字の出現頻度の情
報を記憶する記憶手段を用いて文字認識を行う方法であ
って、入力文字パターンと基準文字パターンとを照合す
る工程と、入力文字パターンと基準文字パターンとの照
合結果および記憶手段に記憶された文字出現頻度情報に
基づいて文字認識を行う工程と、最終的な文字認識結果
に基づいて記憶手段の内容を更新する工程とを有する。
【0031】(3)認識対象となる文字の出現頻度の情
報を記憶する記憶手段を用いて文字認識を行う方法であ
って、入力文字パターンと基準文字パターンとを照合し
て複数の文字候補をその類似度と共に得る工程と、照合
によって獲得された個々の文字候補について、記憶手段
に記憶された該当する文字の文字出現頻度情報に基づい
て文字候補の類似度を修正する工程と、類似度修正後の
各文字候補を用いて知識処理を行い、最終的な文字認識
結果を得る工程とを有する。
【0032】(4)認識対象となる文字の出現頻度の情
報を記憶する記憶手段を用いて文字認識を行う方法であ
って、入力文字パターンと基準文字パターンとを照合し
て複数の文字候補をその類似度と共に得る工程と、照合
によって獲得された個々の文字候補について、記憶手段
に記憶された該当する文字の文字出現頻度情報に基づい
て文字候補の類似度を修正する工程と、類似度修正後の
各文字候補を用いて知識処理を行い、最終的な文字認識
結果を得る工程と、最終的な文字認識結果に基づいて、
記憶手段の内容を更新する工程とを有する。
【0033】
【発明の効果】以上説明したように本発明の文字認識装
置によれば、入力文字パターンと基準文字パターンとの
照合結果に加え、文字の出現頻度の情報を用いて文字認
識を行うことで、出現頻度の高い文字について優れた精
度で文字認識を行うことができる。また、最終的な文字
認識結果で文字出現頻度情報を更新することで、システ
ムを運用する環境に応じた最適な文字出現頻度情報を自
動的に用意することができる。
【0034】また、照合手段によって獲得された個々の
文字候補について、記憶手段に記憶された該当する文字
の文字出現頻度情報に基づき各文字候補の類似度を修正
するので、知識処理を用いて文字認識結果を得る場合の
認識精度を向上させることができる。
【図面の簡単な説明】
【図1】本発明に係る一実施例の文字認識装置の全体的
な構成を示すブロック図である。
【図2】図1における頻度統計データベースの構造を示
す図である。
【図3】図1の文字識別部による、基準文字パターンと
入力文字パターンとの照合による文字識別結果を示す図
である。
【図4】頻度統計データベースを用いて、図3の文字識
別結果を修正した結果を示す図である。
【符号の説明】
1…郵便物、2…光電変換部、3…宛名領域検出部、4
…行検出切出部、5…文字検出切出部、6…文字パター
ン辞書、7…頻度統計データベース、8…文字識別部、
9…知識データベース、10…知識処理部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力文字パターンと基準文字パターンと
    を照合する照合手段と、 認識対象となる文字の出現頻
    度の情報を記憶する記憶手段と、 前記照合手段の照合結果および前記記憶手段に記憶され
    た文字出現頻度情報に基づいて、文字認識を行う文字認
    識手段とを具備することを特徴とする文字認識装置。
  2. 【請求項2】 入力文字パターンと基準文字パターンと
    を照合する照合手段と、 認識対象となる文字の出現頻
    度の情報を記憶する記憶手段と、 前記照合手段の照合結果および前記記憶手段に記憶され
    た文字出現頻度情報に基づいて、文字認識を行う文字認
    識手段と、 最終的な文字認識結果に基づいて、前記記憶手段の内容
    を更新する更新手段とを具備することを特徴とする文字
    認識装置。
  3. 【請求項3】 入力文字パターンと基準文字パターンと
    を照合して複数の文字候補をその類似度と共に得る照合
    手段と、 認識対象となる文字の出現頻度の情報を記憶する記憶手
    段と、 前記照合手段によって獲得された個々の文字候補につい
    て、前記記憶手段に記憶された該当する文字の文字出現
    頻度情報に基づいて前記各文字候補の類似度を修正する
    修正手段と、 前記修正手段による類似度修正後の前記各文字候補を用
    いて知識処理を行い、最終的な文字認識結果を得る知識
    処理手段とを具備することを特徴とする文字認識装置。
  4. 【請求項4】 入力文字パターンと基準文字パターンと
    を照合して複数の文字候補をその類似度と共に得る照合
    手段と、 認識対象となる文字の出現頻度の情報を記憶する記憶手
    段と、 前記照合手段によって獲得された個々の文字候補につい
    て、前記記憶手段に記憶された該当する文字の文字出現
    頻度情報に基づいて前記文字候補の類似度を修正する修
    正手段と、 前記修正手段による類似度修正後の前記各文字候補を用
    いて知識処理を行い、最終的な文字認識結果を得る知識
    処理手段と、 前記最終的な文字認識結果に基づいて、前記記憶手段の
    内容を更新する更新手段とを具備することを特徴とする
    文字認識装置。
JP6063427A 1994-03-31 1994-03-31 文字認識装置 Withdrawn JPH07271920A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6063427A JPH07271920A (ja) 1994-03-31 1994-03-31 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6063427A JPH07271920A (ja) 1994-03-31 1994-03-31 文字認識装置

Publications (1)

Publication Number Publication Date
JPH07271920A true JPH07271920A (ja) 1995-10-20

Family

ID=13228987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6063427A Withdrawn JPH07271920A (ja) 1994-03-31 1994-03-31 文字認識装置

Country Status (1)

Country Link
JP (1) JPH07271920A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366898A (ja) * 2001-06-07 2002-12-20 Toshiba Corp 所在情報認識装置、所在情報認識方法および区分装置
JP2006331354A (ja) * 2005-05-30 2006-12-07 Sharp Corp 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体
JP2008243208A (ja) * 2007-03-27 2008-10-09 Fujitsu Ltd 住所認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366898A (ja) * 2001-06-07 2002-12-20 Toshiba Corp 所在情報認識装置、所在情報認識方法および区分装置
JP4733859B2 (ja) * 2001-06-07 2011-07-27 株式会社東芝 所在情報認識装置および区分装置
JP2006331354A (ja) * 2005-05-30 2006-12-07 Sharp Corp 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体
JP2008243208A (ja) * 2007-03-27 2008-10-09 Fujitsu Ltd 住所認識装置

Similar Documents

Publication Publication Date Title
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPS6262387B2 (ja)
US6567548B2 (en) Handwriting recognition system and method using compound characters for improved recognition accuracy
US5010579A (en) Hand-written, on-line character recognition apparatus and method
JPH07271920A (ja) 文字認識装置
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JP2942375B2 (ja) 文字読取装置
JP2746345B2 (ja) 文字認識の後処理方法
JP2000132635A (ja) 認識データ確認方法
JP2795003B2 (ja) 文字認識処理装置
JPH07114622A (ja) 文字認識装置の後処理方法
JPH0520490A (ja) 光学的文字読取修正システム
JP2851865B2 (ja) 文字認識装置
JP2784004B2 (ja) 文字認識装置
JPH11232381A (ja) 文字読取装置
JPH06103404A (ja) 名刺認識装置
JP2003187188A (ja) 文字認識結果の後処理方法、後処理装置、および記録媒体
JPS60138689A (ja) 文字認識方法
JPH02121078A (ja) 用語辞書検索装置
JPH04138583A (ja) 文字認識装置
JPH06325213A (ja) 文字認識方法及び文字認識装置
JPS6055481A (ja) パタ−ン認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010605