JPH0223490A - 文字読取システム - Google Patents

文字読取システム

Info

Publication number
JPH0223490A
JPH0223490A JP63174429A JP17442988A JPH0223490A JP H0223490 A JPH0223490 A JP H0223490A JP 63174429 A JP63174429 A JP 63174429A JP 17442988 A JP17442988 A JP 17442988A JP H0223490 A JPH0223490 A JP H0223490A
Authority
JP
Japan
Prior art keywords
character
reading
processing
kanji
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63174429A
Other languages
English (en)
Other versions
JP2732593B2 (ja
Inventor
Kazuji Kiyono
清野 和司
Satsuki Nagira
柳楽 さつき
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Priority to JP63174429A priority Critical patent/JP2732593B2/ja
Publication of JPH0223490A publication Critical patent/JPH0223490A/ja
Application granted granted Critical
Publication of JP2732593B2 publication Critical patent/JP2732593B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、漢字とこの漢字の読みが記録された帳票の文
字読取処理に好適な文字読取システムに関する。
(従来の技術) 従来、文字読取装置において、文字認識精度向上の有力
な方法として、知識ベースとの照合による後処理が用い
られている。これは、知識処理と呼ばれるものであり、
例えば住所、氏名、会社名など帳票に記録される文字デ
ータの範囲が予めある程度明確になっている場合、これ
らを知識ベースとして用意しておき、この知識ベースと
帳票の文字認識結果として得られる候補文字群とを照合
し、一定量上かつ最大値の尤度を持つ単語を最終的な答
えとするものである。
このような知識処理には、例えば第8図に示す氏名のデ
ータのように、漢字とこの漢字の読み文字列(フリガナ
)から文字認識処理を行なう場合がある。この場合、認
識結果である漢字とフリガナの候補文字は、別々に知識
ベースと照合される単独処理が行なわれている。このた
め、知識ベースとの照合対象となる情報は、読取データ
から得られた候補文字の漢字またはフリガナだけとなっ
てしまい、文字認識の後処理としては充分な結果が得ら
れない場合があった。こうしたことから、漢字とフリガ
ナの両方の候補文字をつき合わせたふりがな処理と呼ば
れる照合手段が考えられている。このふりがな処理には
、例えば読み処理と区切り辞書処理と呼ばれるものがあ
る。この読み処理と区切り辞書処理の方法を説明する。
はじめに、第8図のような漢字「佐藤」とフリ゛ガナ「
サトウ」が記録された帳票の文字認識の結果、第9図に
示すような文字候補が得られたものとする。
まず、読み処理について説明する。この読み処理に用い
られる知識ベースは、第10図のようになっており、漢
字の文字毎にそれぞれいくつかの読みが対応するように
構成されている。はじめに、文字認識の結果得られた候
補文字のフリガナの文字数が認識される。ここでは、3
文字であることが認識される。漢字の候補文字には、第
1文字には「仕」と「佐」、第2文字には「藤」が得ら
れている。これより、第1文字の読みと第2文字の読み
の組合わせから、3文字になるものが選択される。ここ
では、「シトウ」と「サトウ」の2通りの読みが得られ
る。この2通りの読みと、フリガナの文字候補とが照合
される。ここで、候補文字に対する知識ベースから得ら
れた単語「シトウ」、「サトウ」のそれぞれについて文
字尤度が求められる。この尤度は、例えば第1候補とじ
て得られた文字を100点、第2候補を80点、第3候
補を70点として求められる。これより「シトウ」の尤
度は、O+80+70−150点となり、文字数で割っ
て正規化すると50点となる。
また、「サトウ」の尤度は、80+80+70−230
点となり、正規化して77点となる。この結果、尤度の
高い「サトウ」が第1の出力候補と判定される。こうし
て、最終認識結果として「サトウ」及び「佐藤」が出力
される。
次に、区切り辞書処理を説明する。この区切り辞書処理
の知識ベースは、第11図のようになっており、漢字の
組合わせによる名字とこの読み、及び漢字とかなのそれ
ぞれの文字数のデータより構成されている。この区切り
辞書処理では、文字数データから漢字部分とフリガナ部
分が判断され、漢字部分とフリガナ部分が同時にそれぞ
れ照合される。例えば、「佐藤」 「サトウ」が、それ
ぞれ漢字とフリガナの文字候補と照合される。ここで、
漢字とフリガナのそれぞれの文字尤度が求められる。例
えば、候補順位と尤度得点が上記同様とすると、「佐藤
」の尤度は、80+100−180点となり、正規化し
て90点となる。「サトウ」の尤度は、80+80+7
0−230点となり、正規化して77点となる。同様に
して、「絵本」「スズキ」以下の知識ベースのデータに
ついても尤度が求められる。この結果、「佐藤」 「サ
トウ」の尤度が最大値であれば、第1の出力候補として
判定され出力される。
ところで、読み処理、及び区切り辞書処理の何れも、帳
票に記録された漢字とフリガナの文字認識処理を行ない
、この結果より得られた候補文字について知識処理を行
なって最終的な認識結果を出力するものである。
しかしながら、帳票に記録されるデータが、漢字または
フリガナの何れしか記入されていない場合は、漢字とフ
リガナの両方の候補文字を得ることができない。このた
め、読み処理、区切り辞書処理の何れも行なうことがで
きない。
また、帳票に漢字とフリガナの両方が記録されている場
合であっても、文字認識処理の際に、リジェクト(認識
不可能)が発生する場合がある。
このような場合、帳票に記録された文字に対応する候補
文字が得られないことがある。例えば、漢字にリジェク
トが発生したとすると、この漢字の読みが得られないた
め読み処理を行なうことができない。
一方、区切り辞書処理は、一部にリジェクトが発生した
場合であっても、漢字部分またはフリガナ部分の照合に
よって出力候補を得ることができるが、知識ベースが単
語単位となっているために、候補文字に対応する単語が
登録されていない場合には、類似度が低下するため、正
確な認識文字を得ることができない場合がある。
(発明が解決しようとする課題) このように、帳票に漢字とフリガナの両方が記録されて
いない場合や、リジェクトが発生して候補文字が得られ
ない場合には、処理によっては実施できなかったり、ま
たは不都合な処理結果が得られることがあり、正確な最
終認識結果を出力することができないという問題があっ
た。
本発明は上記のような点に鑑みてなされたもので、帳票
に記録される文字を知識ベースを用いた知識処理によっ
て確実に認識することが可能な文字読取システムを提供
することを目的どする。
[発明の構成] (課題を解決するための手段) 本発明は、読取対象となる帳票に記録された文字を知識
ベースを用いた照合を行なうことによって最終的な文字
認識結果を出力する文字読取システムにおいて、帳票に
記録された漢字及び読み文字列のそれぞれに対応した単
語群からなる知識ベース及び帳票を読取処理した結果得
られた漢字。
読み文字列から成る候補文字群とを照合することにより
出力候補を選択する単独処理手段と、漢字文字列とこの
漢字文字列に対して1対1で対応した読み文字列から成
る文字列群により構成される知識ベース及び候補文字群
の漢字、読みとを照合することにより出力候補を選択す
る区切り辞書処理手段と、単漢字とこの単漢字の読みか
ら成る知識ベースから上記候補文字の漢字の読みを選択
して、候補文字の読み文字列の文字数と同数となる読み
文字列を構成し、この構成した読み文字列と候補文字の
読み文字列とを照合して出力候補を選択する読み処理手
段とを備えている。そして、帳票に漢字及びこの漢字に
対応する読み文字列が記録されているか否かを判定した
結果、漢字及び読み文字列の何れかが記録されていない
と判断された場合に、単独処理手段を行なう。また、帳
票に漢字及び読み文字列が記録されていると判断された
場合に、帳票を読取処理した結果、漢字及び読み文字列
に候補文字が得られたか否かを判断し、漢字及び読み文
字列に対応する候補文字が得られなかったものが有ると
判断された場合に、区切り辞書処理手段及び上記単独処
理手段を行ない、漢字及び読み文字列にそれぞれ候補文
字が有ると判断された場合に、読み処理手段1区切り辞
書処理手段及び単独処理手段を行なう。この結果、各処
理手段から得られた最も類似度が高い出力候補を選択し
て出力するように構成するものである。
(作用) このようにして構成される文字読取装置の知識処理にお
いては、処理方法が異なる単独処理、区切り辞書処理、
読み処理を、帳票に記録されるデータ、及びこの帳票の
読取処理の結果得られる候補文字の有無に応じて選択し
て複合的に行ない、各処理によって得られた出力候補か
ら最も候補文字と類似度の高いものを最終認識結果とし
て出力する。
(実施例) 以下、図面を参照して本発明の一実施例を説明する。第
1図は同実施例に係わる文字読取システムの構成を示す
ブロック図である。第1図において、文字読取部11は
、スキャナ部、文字読取処理部等(図示せず)を備えて
おり、帳票12に記録される文字の読取処理を行なう。
上記帳票12は、例えば氏名のように記録された文字デ
ータの範囲が予めある程度明確となっているものであり
、ここでは漢字とこの漢字のフリガナが記録されるもの
である。文字読取部11は、上記帳票12をスキャナ部
に読込み、光を照射してその反射光を光電変換する。そ
して、この光電変換により得られた信号を2値化し、シ
ートバッファ(図示せず)上に帳票イメージとして格納
する。文字読取処理部は、フォーマットコントロールデ
ータに基づいて、シートバッファに格納された帳票イメ
ージから1文字毎に文字パターンの切出しを行ない、文
字認識を行なう。文字読取部11は、こうして得た候補
文字の文字マトリクスを知識処理部13に出力する。
知識処理部13は、最終認識処理部14において候補文
字について知識処理を行なう。最終認識処理部14は、
例えば読み処理、区切り辞書処理等の知識処理に対応す
る知識ベース15と候補文字とを照合することにより認
識文字を決定する。知識処理装置13は、こうして得ら
れた認識文字を最終認識結果として出力する。
次に、同実施例の動作を説明する。
同実施例における知識処理は、帳票に記録される漢字、
及びこの漢字のフリガナから得られた候補文字と知識ベ
ースとを照合し、最終認識文字を出力するものである。
ここで行なわれる知識処理の方法は、漢字とフリガナの
それぞれについて別に処理を行なう単独処理と、ふりが
な処理である読み処理、及び区切り辞書処理となってい
る。読み処理、区切り辞書処理の処理方法は、第8図乃
至第11図を用いてすでに説明しているので、ここでは
説明を省略する。
ここで、上記各知識処理の選択方法を、第2図に示すフ
ローチャートを参照しながら説明する。
はじめに、文字読取部11において文字読取処理される
帳票が、漢字とフリガナの両方が記録されているか否か
判定する(ステップSl)。この結果、漢字またはフリ
ガナの何れか片方のみが記録されている場合、ふりがな
処理を行なうことができないため、記録されている漢字
、またはフリガナについて単独処理を行なう(ステップ
S5)。知識処理部13は、この単独処理で得られた出
力候補を最終出力候補として出力する(ステップS7)
ステップS1において帳票に漢字とフリガナの両方が記
録されていると判定された場合、この帳票が文字読取部
11によって文字読取処理認識された結果、漢字部分の
候補文字がリジェクトすることなく各文字についてそれ
ぞれ得られたか否か判定される(ステップS2)。この
結果、漢字部分に候補文字があがらなかったものがある
と判定された場合は、読み処理を行なうことができない
ため、区切り辞書処理が行なわれ(ステップS4)、こ
の後単独処理が行なわれる(ステップS5)。
ここで、区切り辞書処理、及び単独処理による出力候補
がそれぞれ得られる。こうして得られた出力候補につい
て、候補文字との類似度の比較が行なわれ(ステップS
6)、最も類似度の高い出力候補が最終認識文字として
出力される(ステップS7)。
ステップS2において、漢字部分の候補文字が各文字に
ついて得られたと判定された場合、まず読み処理が行な
われ(ステップs3)、この処理による出力候補が得ら
れる。読み処理が行なわれた後、区切り辞書処理(ステ
ップs4)、及び単独処理(ステップS5)が行なわれ
、各処理における出力候補が得られる。各処理により得
られた出力候補は、類似度が比較され(ステップS6)
、最も類似度が高いものが最終候補文字として出力され
る(ステップS7)。
次に、具体的な処理例を説明する。読取対象となる帳票
は、第3図に示すように、漢字部分が「喪中」、フリガ
ナが「タナ力」と記録されているものとする。この帳票
が「タナ力」または「喪中」のいずれかのみ記録されて
いる場合は、単独処理だけが行なわれる。
読取対象の帳票を文字読取部11において文字読取処理
した結果、第4図に示すような文字候補が得られたもの
とする。ここでは、各文字について候補文字が得られて
いるので、読み処理、区切り辞書処理、単独処理の各処
理が全て行なわれる。
例えば、帳票を読取処理した結果、漢字「多」がリジェ
クトされ、漢字部分の第1文字に対応する候補文字が得
られなかった場合のようなときは、区切り辞書処理、及
び単独処理が行なわれる。
初めに、読み処理が行なわれる。この読み処理に用いら
れる知識ベースを第5図に示している。
漢字の候補文字は、第1文字に「為」 「多」「谷」、
第2文字に「中」 「巾」 「甲」が得られている。フ
リガナの文字数が3文字であることから、第1文字と第
2文字の読みの組合わせで3文字になる読みが構成され
る。ここでは、第6図に示すように、「イナカ」 「イ
キン」・・・等の読みが構成される。この構成された各
読みとフリガナの文字候補とが照合される。ここで、候
補文字に対する尤度が求められる。ここで行なわれる尤
度計算が、上記で説明した得点と同じとすると、例えば
「イナカ」の尤度は、O+100+70−170点とな
り、正規化して57点となる。以下、同様にして各デー
タについて尤度が求められる。
「タナ力」の尤度は、80+100+70−250点と
なり、正規化して83点となる。また、読みに対応する
「喪中」の尤度が、80+100−180点となり、正
規化して90点となる。これより、「タナ力」 「喪中
」の尤度が最大値であれば出力候補として選択される。
次に、区切り辞書処理が行なわれる。この区切り辞書処
理に用いられる知識ベースを第7図に示している。この
処理に用いられる知識ベースには、美学部分に「喪中」
が登録されていないものとする。ここで、知識ベースに
登録されたデータと候補文字が照合され、尤度が求めら
れる。「タナ力」の尤度は、80+100+70−25
0点となり、正規化して83点となる。「山中」の尤度
は、0+100−100点となり、正規化して50点と
なる。このようにして、「山田」 「ヤマダ」以下の知
識データについても同様にして尤度が求められる。この
結果、「山中」 「タナ力」の尤度が最大であれば出力
候補として選択される。これは、読み処理で得られなか
った出力候補を、処理方法が異なる区切り辞書処理によ
って得ることができた一例である。
次に、単独処理が行なわれる。この処理においては、漢
字部分とフリガナ部分が、それぞれに対応する知識ベー
スと照合され、漢字部分とフリガナ部分について出力候
補が得られる。
こうして各知識処理から得られた出力候補について類似
度が比較される。例えば、読み処理から得られた「タナ
力」 「喪中」と、区切り辞書処理から得られた「タナ
力」 「山中」を比較すると、「タナ力」 「喪中」の
尤度が高いことから、これが最終認識結果として選択さ
れる。
このように、上記実施例における知識処理では、帳票に
記録されるデータが漢字、またはフリガナの何れしか記
録されていない場合であっても、この記録されたデータ
について単独処理を行なうことができる。また、漢字と
フリガナの両方が記録されている帳票の読取処理を行な
った結果、一部にリジェクトが発生した場合であっても
、区切り辞書処理、及び単独処理によって最終認識文字
を得ることができる。さらに、区切り辞書処理に用いら
れる知識ベースに候補文字に対応する単語が登録されて
いない場合であっても、読み処理、及び単独処理により
出力候補が得ることができるので正確な認識文字を得る
ことができる。このように、各処理の欠点を互いに補う
ことによって、確実に帳票に記録された文字を認識する
ことが可能となる。
なお、上記実施例においては、帳票に記録される氏名デ
ータについて述べてきたが、例えば住所、会社名等、他
の記入データについても広く応用できることは勿論であ
る。
また、知識ベースのデータと候補文字との照合の際の尤
度計算を、例えば二乗平均を用いた計算方法によって行
なうこともできる。
[発明の効果] 以上のように本発明によれば、帳票の文字の認識の結果
得られた候補文字と知識ベースとを照合して最終的な文
字認識結果を出力する文字読取装置の知識処理において
、帳票に記録されるデータ、またはこの帳票から得られ
た候補文字の有無に応じて、処理方法が異なる読み処理
、区切り辞書処理、単独処理の中から実施可能な知識処
理を選択して複合的に行なうことにより、各処理の欠点
を補うことができるので、帳票に記録された漢字とフリ
ガナについて、より確実な文字の認識が可能となるもの
である。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる文字読取装置の知識
処理の構成を示すブロック図、第2図は同実施例の知識
処理の処理手順を示すフローチャート、第3図乃至第7
図は同実施例の具体的な動作を説明するための図、第8
図乃至第11図は従来の知識処理を説明するための図で
ある。 11・・・文字読取部、12・・・帳票、13・・・知
識処理部、14・・・最終認識処理部、15・・・知識
ベース。 出願人代理人 弁理士 鈴江武彦 第1図 第2図 第 図 第 図 第 図 第 図 第 図 第 図 第 図 箪 図

Claims (1)

  1. 【特許請求の範囲】 読取対象となる帳票に記録された文字を知識ベースを用
    いた照合を行なうことによって最終的な文字認識結果を
    出力する文字読取システムにおいて、 上記帳票に記録された漢字及び読み文字列のそれぞれに
    対応した単語群から成る知識ベース及び上記帳票を読取
    処理した結果得られた漢字、読み文字列から成る候補文
    字群とを照合することにより出力候補を選択する単独処
    理手段と、 漢字文字列とこの漢字文字列に対して1対1で対応した
    読み文字列から成る文字列群により構成される知識ベー
    ス及び上記候補文字群の漢字、読み文字列とを照合する
    ことにより出力候補を選択する区切り辞書処理手段と、 単漢字とこの単漢字の読みから成る知識ベースから上記
    候補文字の漢字の読みを選択して、上記候補文字の読み
    文字列の文字数と同数となる読み文字列を構成し、この
    構成した読み文字列と上記候補文字の読み文字列とを照
    合して出力候補を選択する読み処理手段と、 上記帳票に漢字及びこの漢字に対応する読み文字列が記
    録されているか否かを判定する帳票判定手段と、 この帳票判定手段により上記漢字及び読み文字列の何れ
    かが記録されていないと判断された場合に、上記単独処
    理を行なう第1の照合手段と、上記帳票判定手段により
    上記帳票に漢字及び読み文字列が記録されていると判断
    された場合に、上記帳票を読取処理した結果、漢字及び
    読み文字列に候補文字が得られたか否かを判断する候補
    文字判断手段と、 この候補文字判断手段により上記漢字及び読み文字列に
    対応する候補文字が得られなかったものが有ると判断さ
    れた場合に、上記区切り辞書処理手段及び上記単独処理
    手段を行なう第2の照合手段と、 上記候補文字判断手段により漢字及び読み文字列にそれ
    ぞれ候補文字が有ると判断された場合に、上記読み処理
    手段、上記区切り辞書処理手段及び上記単独処理手段の
    それぞれを行なう第3の照合手段と、 上記照合手段により行なわれる上記各処理手段から得ら
    れた最も類似度が高い出力候補を選択する選択手段とを
    具備したことを特徴とする文字読取システム。
JP63174429A 1988-07-13 1988-07-13 文字読取システム Expired - Lifetime JP2732593B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63174429A JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63174429A JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Publications (2)

Publication Number Publication Date
JPH0223490A true JPH0223490A (ja) 1990-01-25
JP2732593B2 JP2732593B2 (ja) 1998-03-30

Family

ID=15978383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63174429A Expired - Lifetime JP2732593B2 (ja) 1988-07-13 1988-07-13 文字読取システム

Country Status (1)

Country Link
JP (1) JP2732593B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274580A (ja) * 1991-02-28 1992-09-30 Oki Electric Ind Co Ltd 光学文字読取り装置
JPH0546806A (ja) * 1991-08-20 1993-02-26 Oki Electric Ind Co Ltd 文字認識方法
JPH06180767A (ja) * 1992-12-11 1994-06-28 Hideaki Isogai 文字認識装置
CN109255040A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04274580A (ja) * 1991-02-28 1992-09-30 Oki Electric Ind Co Ltd 光学文字読取り装置
JPH0546806A (ja) * 1991-08-20 1993-02-26 Oki Electric Ind Co Ltd 文字認識方法
JPH06180767A (ja) * 1992-12-11 1994-06-28 Hideaki Isogai 文字認識装置
CN109255040A (zh) * 2018-07-27 2019-01-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法
CN109255040B (zh) * 2018-07-27 2021-10-22 昆明理工大学 一种基于矩阵运算的相似汉字提取方法

Also Published As

Publication number Publication date
JP2732593B2 (ja) 1998-03-30

Similar Documents

Publication Publication Date Title
US20010043369A1 (en) Routing scanned documents with scanned control sheets
JPH0223490A (ja) 文字読取システム
JPH0743755B2 (ja) 文字認識装置
JPS59158482A (ja) 文字認識装置
JPS6095689A (ja) 光学的文字読取装置
JPH0256086A (ja) 文字認識の後処理方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH08315069A (ja) 文字認識方法
JP2886690B2 (ja) 光学的文字読取装置における文字認識方法
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JP2622004B2 (ja) 文字認識装置
JPH02217977A (ja) 光学的文字読取装置
JPH0520490A (ja) 光学的文字読取修正システム
JPH0528323A (ja) 文字認識装置
JPS60138689A (ja) 文字認識方法
JPH09218921A (ja) 一般文書読取装置
JPS62190571A (ja) 文字選択方式
JPH03189891A (ja) 辞書参照による知識処理を行う文字列読み取り装置
JPH0728956A (ja) 誤読修正支援方法
JPH07334624A (ja) 文字認識装置
JPS62200483A (ja) 文字読取装置
JPH0540854A (ja) 文字認識結果の後処理方法
JPH04274580A (ja) 光学文字読取り装置
JPH07120396B2 (ja) 文書読み取り装置
JPH04242494A (ja) 光学的文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071226

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081226

Year of fee payment: 11