JPH09223188A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH09223188A
JPH09223188A JP8030637A JP3063796A JPH09223188A JP H09223188 A JPH09223188 A JP H09223188A JP 8030637 A JP8030637 A JP 8030637A JP 3063796 A JP3063796 A JP 3063796A JP H09223188 A JPH09223188 A JP H09223188A
Authority
JP
Japan
Prior art keywords
character
recognition
character string
candidate
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8030637A
Other languages
English (en)
Inventor
Yoshiharu Shimada
嘉治 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP8030637A priority Critical patent/JPH09223188A/ja
Publication of JPH09223188A publication Critical patent/JPH09223188A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 本発明は文字認識装置に関し、第1に帳票か
ら読み取った文字の認識率を向上することができ、第2
に処理時間の短縮を図ることができる文字認識装置を提
供することを目的としている。 【解決手段】 イメージデータを取り込み、第1の方法
により文字を認識する第1の文字認識手段と、イメージ
データを取り込み、第2の方法により文字を認識する第
2の文字認識手段と、これら第1及び第2の文字認識手
段と接続され、これら第1及び第2の文字認識手段の認
識に基づいて文字列を判定する文字列判定手段とを有し
て構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識装置に関
し、更に詳しくはイメージスキャナ,OCR等より読み
込んだイメージデータから文字を認識する文字認識装置
に関する。
【0002】
【従来の技術】従来の文字認識装置では、文字認識率の
向上を図るため、認識した各文字に対して候補文字を求
め、この候補文字を利用して候補単語(文字列)を生成
し、この候補単語からオペレータが基も確からしい文字
列を決定している。
【0003】図7は候補文字生成の説明図である。例え
ば、帳票に「クワタ」という文字が印字されており、こ
の文字を例えばイメージスキャナで読み取るものとす
る。イメージスキャナで読み取られたイメージデータか
ら、文字認識手段は、読み取った文字列の各文字毎に図
に示すような候補文字を生成する。図7に示す例の場
合、最初の文字「ク」に対する候補文字は、第1候補が
「ク」、第2候補が「ワ」、第3候補が「タ」である。
2番目の文字「ワ」に対する候補文字は、第1候補が
「ワ」、第2候補が「ク」、第3候補が「タ」である。
3番目の文字「タ」に対する候補文字は、第1候補が
「タ」、第2候補が「ク」、第3候補が「ワ」である。
いずれもそのパターンが似た文字を文字候補として選ん
でいることが分かる。しかも、その順位は、より確から
しいものから順に並んでいる。
【0004】このようにして候補文字が求まったら、文
字認識手段は図8に示すように候補単語(文字列)を生
成する。第1番目の文字に対して「ク」,「ワ」,
「タ」の3種類、第2番目の文字に対して「ワ」,
「ク」,「タ」の3種類、第3番目の文字に対して
「タ」,「ク」,「ワ」の3種類が存在するので、得ら
れる単語(文字列)の種類は、3×3×3=27通り存
在する。これら考えられるだけの候補単語に対して、或
いは作成する候補単語の候補文字の順位の下限を決め
て、オペレータは知識辞書を参照しながら、その知識辞
書に存在する単語の中から最も確からしい単語を選んで
いた。
【0005】
【発明が解決しようとする課題】前述した従来の装置で
は、帳票上のフィールドの認識文字の桁数が多くなれば
なるほど、候補単語の数が多くなり、知識辞書との比較
チェックに要する時間が増大してしまう。
【0006】本発明はこのような課題に鑑みてなされた
ものであって、第1に帳票から読み取った文字の認識率
を向上することができ、第2に処理時間の短縮を図るこ
とができる文字認識装置を提供することを目的としてい
る。
【0007】
【課題を解決するための手段】図1は本発明の原理ブロ
ック図である。図において、1はイメージデータを取り
込み、第1の方法により文字を認識する第1の文字認識
手段、2はイメージデータを取り込み、第2の方法によ
り文字を認識する第2の文字認識手段である。これら第
1の文字認識手段1の文字認識アルゴリズムと、第2の
文字認識手段2の文字認識アルゴリズムは異なっている
必要がある。同じアルゴリズムを用いると、文字認識手
段1,2が常に同じ答を出し、意味がないからである。
なお、文字認識のアルゴリズムは、従来公知の各種のア
ルゴリズムを用いることができる。
【0008】10はこれら第1及び第2の文字認識手段
1,2と接続され、これら第1及び第2の文字認識手段
1,2の認識に基づいて文字列を判定する文字列判定手
段である。3は住所,氏名等の文字列の種別を格納する
知識定義体ファイル、4は該知識定義体ファイル3で認
識した文字列の種類毎に複数の文字列データを格納する
知識辞書ファイルである。これら知識定義体ファイル3
と、知識辞書ファイル4は、文字列判定手段10と接続
されている。
【0009】請求項1記載の発明によれば、第1及び第
2の文字認識手段1,2の判定結果に基づいて、文字列
判定手段10が文字列を判定するので、読み取った文字
の認識率を向上させることができる。
【0010】請求項2記載の発明は 前記第1の文字認
識手段1と、第2の文字認識手段2は、それぞれ文字列
の各文字毎に相違度を求め、前記文字列判定手段10
は、これら第1及び第2の文字認識手段1,2からの相
違度を基にして文字列の文字を決定することを特徴とし
ている。
【0011】請求項2記載の発明によれば、文字列の各
文字毎に第1及び第2の文字認識手段で相違度を求め
て、この相違度から読み取った文字の確からしさを判定
することにより、読み取った文字の認識率を向上させる
ことができる。
【0012】ここで、相違度とは、文字認識を行なう
際、文字画像と認識アルゴリズムが参照する認識辞書と
の距離を示す値である。相違度が大きいほど、認識辞書
とのずれが大きいことを示している。
【0013】請求項3記載の発明は、前記文字列判定手
段10は、氏名,住所等の文字列の種別を格納する知識
定義体ファイル3と、該知識定義体ファイル3で認識し
た文字列の種類毎に複数の文字列データを格納する知識
辞書ファイル4と接続され、前記文字列判定手段10
は、判定した文字列が一義的に定まらない時に、これら
ファイルを参照して文字列を決定することを特徴として
いる。
【0014】請求項3記載の発明によれば、文字列判定
手段10で判定した文字列が一義的に決まらない場合に
は、知識定義体ファイル3から該当文字列の種類を判別
し、知識辞書ファイル4から当該文字種の文字データを
サーチし、該当する文字列データがあった場合に、その
文字データが読み取られた文字列(単語列)と判定する
ことにより、処理時間の短縮を図ることができる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態例を詳細に説明する。図2は本発明の一実施の
形態例を示すブロック図である。図1と同一のものは、
同一の符号を付して示す。図において、21はファクシ
ミリ装置(FAX)、22は光学文字読取装置(OC
R)、23は原稿情報を読み取るイメージスキャナであ
る。30はこれら装置が接続される端末Aで、読み込ん
だイメージデータを格納するデータ格納部31と、デー
タを送信するデータ送信部32より構成されている。
【0016】40は回線33を介して端末Aと接続され
る端末Bである。端末Bにおいて、41は回線33と接
続され、端末Aからのイメージデータを受信するデータ
受信部、42はデータを格納するデータ格納部である。
1aは認識辞書ファイル1bと接続され、全面イメージ
データを取り込み文字を認識する第1の文字認識手段と
してのソフトウェア認識処理部、2はイメージデータを
取り込み、文字を認識する第2の文字認識手段としての
集中文字認識装置である。該集中文字認識装置2は、デ
ータ格納部42に格納されている全面イメージデータを
基に認識処理を行ない、文字を認識し、認識した文字の
相違度を算出する認識処理部2aと、認識辞書ファイル
2bより構成されている。ここで、認識辞書ファイル1
b,2bは、文字パターンと、該文字パターンに近いパ
ターンの文字パターンを格納している。
【0017】5は認識処理部2aで認識した認識文字
(候補文字)及び認識文字の相違度を取り出す集中認識
処理部、11は集中認識処理部5で認識された文字の相
違度と、ソフトウェア認識処理部1aで認識された文字
の相違度を用いて文字データの選別を行なう文字データ
選別処理部、12は該文字データ選別処理部11で選別
された文字列を基に読み込んだ文字列を決定する知識処
理部である。これら文字データ選別処理部11と知識処
理部12とで文字列判定手段10(図1参照)を構成し
ている。3は住所,氏名等の文字列の種別を格納する知
識定義体ファイル、4は該知識定義体ファイル3で認識
した文字列の種類毎に複数の文字列データを格納する知
識辞書ファイルである。このように構成された装置の動
作を説明すれば、以下の通りである。
【0018】ファクシミリ装置21又は光学文字読取装
置又はイメージスキャナ23から読み取られた全面イメ
ージデータは、端末Aのデータ格納部31に一旦格納さ
れる。その後、データ送信部32は、データ格納部31
に格納されている全面イメージデータを読み出して回線
33から端末Bに送出する。
【0019】端末Bでは、端末Aから伝送されてきた全
面イメージデータを受信部41を介してデータ格納部4
2に一時格納する。データ格納部42に格納された全面
イメージデータは、集中文字認識装置2及びソフトウェ
ア認識処理部1aに送出される。ソフトウェア認識処理
部1aは、認識辞書ファイル1bを参照して所定の文字
認識アルゴリズムにより候補文字を生成し、生成した候
補文字毎に相違度を算出する。一方、集中文字認識装置
2では、認識処理部2aが認識辞書ファイル2bに格納
されている文字パターンを参照して所定の文字認識アル
ゴリズムにより候補文字を生成する。集中認識処理部5
は、集中文字認識装置2で生成した候補文字毎にその相
違度を算出する。
【0020】集中認識処理部5で認識した候補文字及び
各候補文字毎の相違度は、文字データ選別処理部11に
与えられ、ソフトウェア認識処理部1aで認識した候補
文字及び各候補文字毎の相違度も、文字データ選別処理
部11に与えられる。該文字データ選別処理部11は、
集中認識処理部5で認識された文字の相違度と、ソフト
ウェア認識処理部1aで認識された文字の相違度を用い
て文字データの選別を行なう。知識処理部12は、文字
データ選別処理部11で選別された文字列が複数個存在
した場合に、知識定義体ファイル3及び知識辞書ファイ
ル4を参照して、文字列を一義的に決定する。
【0021】このように、請求項1記載の発明によれ
ば、第1及び第2の文字認識手段1,2の判定結果に基
づいて、文字列判定手段10が文字列を判定するので、
読み取った文字の認識率を向上させることができる。
【0022】図3は本発明の動作の一例を示すフローチ
ャートで、文字列判定手段10の動作を示している。先
ず、互いの第1候補文字データの相違度を比較する(S
1)。次に、比較結果を検討する(S2)。比較結果に
より、集中文字認識装置の方の相違度が小さい場合に
は、相違度の小さい方の文字がより確からしいことにな
るので、集中文字文字認識装置側の第1候補文字を認識
文字として出力する(S3)。比較結果により、ソフト
ウェア認識処理部の方の相違度が小さい場合には、相違
度の小さい方の文字がより確からしいことになるので、
ソフトウェア認識処理部側の第1候補文字を認識文字と
して出力する(S4)。
【0023】比較の結果、第1候補文字が等しい場合に
は、互いの文字が同じであるかどうかチェックする(S
5)。若し、同じである場合には、この候補文字はより
確からしい文字と判定されるので、そのまま同じ文字を
認識文字として出力する(S6)。若し、互いの文字が
異なる場合には、互いの第1候補文字がそれぞれの候補
の中に存在するかどうかチェックする(S7)。そし
て、チェック結果を検討する(S8)。存在しない場合
には、予め優先順位を設定し、優先する装置側(即ち、
集中文字認識装置側かソフトウェア認識処理部側のいず
れか一方)の第1候補文字を認識文字として出力する
(S9)。
【0024】存在する場合には、集中文字認識装置の第
1候補に対応するソフトウェア認識処理部の候補の相違
度、及びソフトウェア認識処理部の第1候補に対応する
集中文字認識装置の候補の相違度を求める(S10)。
そして、両方の相違度を比較する(S11)。比較の結
果、同じである場合には両方の文字を認識文字として出
力する(S12)。集中文字認識装置側の方が小さい場
合には、集中文字認識装置側の第1候補を認識文字とし
て出力する(S13)。ソフトウェア認識処理部側の方
が小さい場合には、ソフトウェア認識処理部の第1候補
を認識文字として出力する(S14)。
【0025】このように、請求項2記載の発明によれ
ば、文字列の各文字毎に第1及び第2の文字認識手段で
相違度を求めて、この相違度から読み取った文字の確か
らしさを判定することにより、読み取った文字の認識率
を向上させることができる。
【0026】図4は本発明の動作の一例を示すシーケン
ス図で、「クワタ」という文字を認識する場合を示す。
集中文字認識装置2及びソフトウェア認識処理部1aで
読み取った文字列のそれぞれの文字データについて候補
文字を生成し、それぞれの候補文字の相違度を算出する
と、第1文字目、第2文字目、第3文字目はそれぞれ図
4に示すようになる。
【0027】例えば、第1文字目の候補文字は、集中文
字認識装置側が「ク」で、その相違度は“15”であ
る。一方、ソフトウェア認識処理部1a側の第1番目の
候補文字は「ク」で、その相違度は“15”であり、等
しい。従って、この場合には、第1番目の文字データと
して「ク」を出力する。
【0028】次に、第2文字目の候補文字は、集中文字
認識装置側が「ク」で、その相違度は“15”である。
一方、ソフトウェア認識処理部側の第2番目の候補文字
は「ワ」で、その相違度は“10”である。これら2つ
の文字認識手段の相違度は、ソフトウェア認識処理部側
の相違度が小さい。従って、互いの文字が同じかどうか
に拘らず、この場合には第2番目の文字データとして、
ソフトウェア認識処理部で認識した文字「ワ」を出力す
る。
【0029】次に、第3文字目の候補文字は、集中文字
認識装置側が「ク」で、その相違度は“10”である。
一方、ソフトウェア認識処理部側の第3番目の候補文字
は「タ」で、その相違度は“10”である。これら2つ
の文字認識手段の相違度は、等しい。この場合には、双
方の第1番の候補の文字データを出力する。即ち、集中
文字認識装置側の候補文字「ク」と、ソフトウェア認識
処理部側の候補文字「タ」の双方をそれぞれ認識文字と
して出力する。
【0030】この場合に得られる文字列は「クワタ」と
「クワク」の2種類が存在することになり、何れか一方
に決定する必要がある。そこで、文字列判定手段10内
の知識処理部12(図2参照)は、以下のようなアルゴ
リズムにより文字列を何れか一方に決定する。
【0031】知識処理部12は、知識定義体ファイル3
をサーチして、該当文字列がどのような種類の文字列で
あるかをチェックする。チェックの結果、「氏名」情報
であることが認識できたら、今度は知識辞書ファイル4
の「氏名」データを読み出して、「クワタ」と「クワ
ク」の2種類の文字列が存在するかを検索する。知識辞
書ファイル4には、「クワタ」しか存在しないことが判
明すると、初めてここで、読み込んだ文字列は「クワ
タ」であると判定することができる。最終的に判定され
た認識文字列は、「クワタ」となる。
【0032】請求項3記載の発明によれば、文字列判定
手段10で判定した文字列が一義的に決まらない場合に
は、知識定義体ファイル3から該当文字列の種類を判別
し、知識辞書ファイル4から当該文字種の文字データを
サーチし、該当する文字列データがあった場合に、その
文字データが読み取られた文字列(単語列)と判定する
ことにより、処理時間の短縮を図ることができる。
【0033】図6は知識処理部の他の動作説明図であ
る。この例は、最終的に文字列「タカサキ」と「クワサ
キ」が残った時に、知識辞書ファイル4にこれら文字列
があるかチェックし、「タカサキ」のみあったので、認
識した文字列として「タカサキ」を出力するものであ
る。
【0034】上述の実施例では、文字列の文字種として
「氏名」を用いた場合を例にとったが、本発明はこれに
限るものではなく、その他の種類の文字列、例えば「地
名」等であってもよい。
【0035】
【発明の効果】以上、詳細に説明したように、請求項1
記載の発明によれば、イメージデータを取り込み、第1
の方法により文字を認識する第1の文字認識手段と、イ
メージデータを取り込み、第2の方法により文字を認識
する第2の文字認識手段と、これら第1及び第2の文字
認識手段と接続され、これら第1及び第2の文字認識手
段の認識に基づいて文字列を判定する文字列判定手段と
を有することにより、第1及び第2の文字認識手段1,
2の判定結果に基づいて、文字列判定手段が文字列を判
定するので、読み取った文字の認識率を向上させること
ができる。
【0036】請求項2記載の発明によれば 前記第1の
文字認識手段と、第2の文字認識手段は、それぞれ文字
列の各文字毎に相違度を求め、前記文字列判定手段は、
これら第1及び第2の文字認識手段からの相違度を基に
して文字列の文字を決定することにより、文字列の各文
字毎に第1及び第2の文字認識手段で相違度を求めて、
この相違度から読み取った文字の確からしさを判定する
ことにより、読み取った文字の認識率を向上させること
ができる。
【0037】請求項3記載の発明によれば、前記文字列
判定手段は、氏名,住所等の文字列の種別を格納する知
識定義体ファイルと、該知識定義体ファイルで認識した
文字列の種類毎に複数の文字列データを格納する知識辞
書ファイルと接続され、前記文字列判定手段は、判定し
た文字列が一義的に定まらない時に、これらファイルを
参照して文字列を決定することにより、文字列判定手段
で判定した文字列が一義的に決まらない場合には、知識
定義体ファイルから該当文字列の種類を判別し、知識辞
書ファイルから当該文字種の文字データをサーチし、該
当する文字列データがあった場合に、その文字データが
読み取られた文字列(単語列)と判定することにより、
処理時間の短縮を図ることができる。
【0038】このように、本発明によれば、第1に帳票
から読み取った文字の認識率を向上することができ、第
2に処理時間の短縮を図ることができる文字認識装置を
提供することができる。
【図面の簡単な説明】
【図1】本発明の原理ブロック図である。
【図2】本発明の一実施の形態例を示すブロック図であ
る。
【図3】本発明の動作の一例を示すフローチャートであ
る。
【図4】本発明の動作の一例を示すシーケンス図であ
る。
【図5】知識処理部の動作説明図である。
【図6】知識処理部の他の動作説明図である。
【図7】候補文字生成の説明図である。
【図8】候補単語生成の説明図である。
【符号の説明】
1 第1の文字認識手段 2 第2の文字認識手段 3 知識定義体ファイル 4 知識辞書ファイル 10 文字列判定手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 イメージデータを取り込み、第1の方法
    により文字を認識する第1の文字認識手段と、 イメージデータを取り込み、第2の方法により文字を認
    識する第2の文字認識手段と、 これら第1及び第2の文字認識手段と接続され、これら
    第1及び第2の文字認識手段の認識に基づいて文字列を
    判定する文字列判定手段とを有してなる文字認識装置。
  2. 【請求項2】 前記第1の文字認識手段と、第2の文字
    認識手段は、それぞれ文字列の文字毎に相違度を求め、
    前記文字列判定手段は、これら第1及び第2の文字認識
    手段からの相違度を基にして文字列の文字を決定するこ
    とを特徴とする請求項1記載の文字認識装置。
  3. 【請求項3】 前記文字列判定手段は、氏名,住所等の
    文字列の種別を格納する知識定義体ファイルと、該知識
    定義体ファイルで認識した文字列の種類毎に複数の文字
    列データを格納する知識辞書ファイルと接続され、前記
    文字列判定手段は、判定した文字列が一義的に定まらな
    い時に、これらファイルを参照して文字列を決定するこ
    とを特徴とする請求項2記載の文字認識装置。
JP8030637A 1996-02-19 1996-02-19 文字認識装置 Pending JPH09223188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8030637A JPH09223188A (ja) 1996-02-19 1996-02-19 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8030637A JPH09223188A (ja) 1996-02-19 1996-02-19 文字認識装置

Publications (1)

Publication Number Publication Date
JPH09223188A true JPH09223188A (ja) 1997-08-26

Family

ID=12309361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8030637A Pending JPH09223188A (ja) 1996-02-19 1996-02-19 文字認識装置

Country Status (1)

Country Link
JP (1) JPH09223188A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017104805A1 (ja) * 2015-12-18 2017-06-22 国立大学法人東京農工大学 プログラム、情報記憶媒体及び文字列認識装置
JP2018513495A (ja) * 2015-04-20 2018-05-24 スリーエム イノベイティブ プロパティズ カンパニー デュアル埋め込み型光学文字認識(ocr)エンジン

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018513495A (ja) * 2015-04-20 2018-05-24 スリーエム イノベイティブ プロパティズ カンパニー デュアル埋め込み型光学文字認識(ocr)エンジン
WO2017104805A1 (ja) * 2015-12-18 2017-06-22 国立大学法人東京農工大学 プログラム、情報記憶媒体及び文字列認識装置
JPWO2017104805A1 (ja) * 2015-12-18 2018-10-04 国立大学法人東京農工大学 プログラム、情報記憶媒体及び文字列認識装置

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
US6671684B1 (en) Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document
US5557091A (en) Method and system for bar code image processing
US7240062B2 (en) System and method for creating a searchable word index of a scanned document including multiple interpretations of a word at a given document location
US4979227A (en) Method for automatic character recognition employing a lexicon having updated character strings
US4944022A (en) Method of creating dictionary for character recognition
US6480838B1 (en) System and method for searching electronic documents created with optical character recognition
JPH01279368A (ja) キャラクタデータの転送方式
US6327382B1 (en) Image processing method and apparatus and storage medium therefor
JPH09223188A (ja) 文字認識装置
KR100229810B1 (ko) 영상 데이터베이스 검색방법
KR19990016894A (ko) 영상 데이터베이스 검색방법
JP2003178261A (ja) 文字認識装置およびプログラム
JPH06274691A (ja) 文字認識装置
JPS6343788B2 (ja)
JP2784004B2 (ja) 文字認識装置
JP3101073B2 (ja) 文字認識の後処理方法
JPH05258097A (ja) 光学的文字読取装置
JPH0492973A (ja) イメージ情報登録検索装置
JPH0736860A (ja) 文書処理装置
JPH07230530A (ja) 文字認識装置及び読み推定方法
JPS63223987A (ja) 文字検索方法
JP2000288478A (ja) 宛先特定装置
JPH11191143A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JPH05120494A (ja) 文字認識方法及びその装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030408