JPH09179935A - 文字認識装置およびその制御方法 - Google Patents

文字認識装置およびその制御方法

Info

Publication number
JPH09179935A
JPH09179935A JP7335164A JP33516495A JPH09179935A JP H09179935 A JPH09179935 A JP H09179935A JP 7335164 A JP7335164 A JP 7335164A JP 33516495 A JP33516495 A JP 33516495A JP H09179935 A JPH09179935 A JP H09179935A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
character
similarity
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP7335164A
Other languages
English (en)
Inventor
Takafumi Umetani
孝文 梅谷
Makoto Tanaka
田中  誠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Microcomputer System Ltd
Original Assignee
Hitachi Microcomputer System Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Microcomputer System Ltd filed Critical Hitachi Microcomputer System Ltd
Priority to JP7335164A priority Critical patent/JPH09179935A/ja
Publication of JPH09179935A publication Critical patent/JPH09179935A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字認識装置の認識速度と認識率を向上す
る。 【解決手段】 ホスト計算機101に備えられる外部記
憶装置109に格納される辞書を、その辞書内に保存さ
れる認識対象文字の文字種に応じて分割し、複数の認識
系110−1〜110−mに具備される辞書メモリ11
1−1〜111−mに各々転送する。各認識系110−
1〜110−mは、辞書メモリ111−1〜111−m
内の特徴量とホスト計算機101により抽出された被認
識文字の特徴量とから類似度を計算し、各々独立に認識
処理を実行する。認識結果は、ホスト計算機101に転
送され、各認識系110−1〜110−mにおける認識
結果を統合し、類似度の最も高い文字に対応する文字コ
ードを最終結果として決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識技術に関
し、特に、手書きまたは印刷文字の文字認識の認識処理
の高精度化および高速化に適用して有効な技術に関する
ものである。
【0002】
【従来の技術】情報処理の分野では、所定の帳票等の書
類に、手書きや印刷によって記載された文字を、光学式
文字認識装置(OCR)によって自動的に読み取り、コ
ード化することによって情報の入力処理の効率化を図る
技術が知られている。
【0003】通常、このOCRでは、以下の処理を行う
ことにより文字の認識を行うことが知られている。すな
わち、個々の文字を画像としてコンピュータ等の情報処
理装置に取り込み、その文字毎の画像データに関して、
形状等の特徴を数値化した情報、すなわち特徴量を所定
のアルゴリズムにより抽出する。この抽出された特徴量
と、あらかじめ個々の文字コードとその特徴量とを対応
付けて格納された辞書内の特徴量とを照合する。この照
合する処理をマッチングと言う。マッチングにより被認
識文字の特徴量と辞書内の特徴量の類似度が計算され、
この類似度の最も高い特徴量に対応する文字コードが認
識された文字の文字コードとして採用される。
【0004】なお、OCRによる文字認識の技術を詳し
く記載している例としては、たとえば、平成元年5月3
0日、(株)オーム社発行、「情報処理ハンドブッ
ク」、p1151〜p1156がある。
【0005】また、特開昭61−29976号公報に開
示される「文字認識方法」の技術では、文字の字体を識
別し、これに対応する辞書を複数の辞書の中から選択し
て文字認識を行うことにより、字体の異なる文字の認識
を高速かつ高精度で行うことを可能としている。
【0006】さらに、特開昭61−60188号公報に
開示される「文字認識装置」の技術では、認識対象の文
字の字種を複数の異なる手段に対応するように分類し、
分類字種に適した認識手段により認識することにより、
個々の文字の認識の時間を短縮し、また認識精度を高め
ている。
【0007】
【発明が解決しようとする課題】上記のような文字認識
の方法では、一般に、認識対象の文字数が増えるとマッ
チングの対象文字数も増えることとなるため、認識速度
が遅くなり、かつ正しく認識される割合、すなわち認識
率が低下する傾向にある。
【0008】すなわち、認識対象となる文字の数が増え
ると、辞書に格納される特徴量の数も文字数の増加に従
って増え、必然的にマッチングを実行する回数も増える
ために認識速度が遅くなる。たとえば日本語の場合、特
殊記号、英数字(62文字)、カタカナとひらがな(合
わせて169文字)、JIS第一水準漢字(2965文
字)、JIS第二水準漢字(3390文字)と増える毎
に、一度にマッチングする文字の数が増え、それに比例
して認識速度は落ちる。
【0009】また、対象文字数の増加は、ある文字のマ
ッチングにおいて、確率的に似通った類似度を算出する
場合が増加するため、認識速度の低下のみならず、認識
率の低下を招くこととなる。
【0010】そのため、認識の対象とする文字はできる
だけ少ない方が好ましく、認識対象文字を絞り込む手法
として、前記の特開昭61−29976号公報に開示さ
れる「文字認識方法」の技術や、特開昭61−6018
8号公報に開示される「文字認識装置」の技術が考えら
れている。
【0011】しかし、特開昭61−29976号公報に
開示される「文字認識方法」の技術では、文字の字体を
識別するための識別機構を別に設ける必要があり、ま
た、字体に対応した複数の辞書を用意することによる記
憶領域の増大化および処理の複雑化の問題がある。
【0012】また、特開昭61−60188号公報に開
示される「文字認識装置」の技術では、認識対象文字を
字種毎に分類する手段が別に必要であり、字種に応じた
認識手段を用意することによる処理の複雑化という問題
がある。
【0013】本発明の目的は、文字認識装置における認
識速度および認識率を向上することにある。
【0014】本発明の他の目的は、認識速度および認識
率の向上に有効な辞書の合理的な分割方法とそれを適用
した場合の文字認識装置の制御方法を提供することにあ
る。
【0015】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述および添付図面から明らかに
なるであろう。
【0016】
【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば次
のとおりである。
【0017】すなわち、本発明の文字認識装置は、認識
対象である文字の文字コードとその文字の特徴量とが対
応づけて格納される辞書を有し、この辞書を特定の規約
に従って分割する辞書分割手段と、辞書分割手段により
分割された各分割辞書を格納する辞書メモリ、外部から
入力される被認識文字の特徴量と辞書メモリ内の特徴量
との類似度を算出するマッチング装置、およびマッチン
グ装置による算出結果を保存する認識結果記憶メモリを
含む複数の認識系と、複数の認識系の各認識結果を統合
して最終的な候補文字コードを抽出する統合系とを含む
ものである。
【0018】このような文字認識装置によれば、認識対
象文字の辞書を分割し、これを複数の認識系に割り当て
てこれら複数の認識系を同時並行的に処理することがで
き、それにより、各認識系における認識対象文字数を、
単一の認識系で処理するよりも少なくすることができ
る。この結果、認識速度の向上を図ると同時に、認識率
の向上を図ることが可能となる。
【0019】また、本発明の文字認識装置は、前記発明
である文字認識装置において、その各々の認識系につい
て認識の実行あるいは中止を制御する制御系を備えてい
るものである。
【0020】このような文字認識装置によれば、前記し
た同時並行的処理に対する効果に加えて、辞書の分割の
仕方によっては認識実行の不要な認識系の発生の可能性
もあり、その認識実行不要な認識系の実行を制御系によ
り中止することが可能である。本作用は、後に説明する
辞書分割の方法と組み合わせることによりさらに効果が
顕著となる。
【0021】また、本発明の文字認識装置は、前記した
2つの発明の構成に加えて、その辞書分割手段が、認識
対象である文字の種類に応じて分割されるものである。
【0022】このような文字認識装置によれば、認識対
象文字をその文字の種類に応じて分割するため、認識対
象文字数を少なくし、認識速度と認識率を向上させるこ
とができる。すなわち、数字、ひらがな、かたかな、漢
字等の文字の種類に応じて辞書を分割し、分割辞書を各
認識系の辞書メモリに転送した場合、あらかじめ入力さ
れる文字の種類がその入力書類の種類に応じて判明して
いる場合には、該当する文字種類の認識系のみを動作さ
せることが可能である。その結果、該当しない文字の辞
書に含まれる文字数が該当する辞書に含まれる文字数よ
り多い場合には認識速度が向上することとなり、また、
該当しない辞書に対しては認識を実行しないため、候補
文字として抽出される文字数が少なくなり、確率的に真
の文字を認識する率、すなわち認識率が向上することと
なる。
【0023】また、本発明の文字認識装置の制御方法
は、辞書と、辞書分割手段と、辞書メモリ、マッチング
装置および認識結果記憶メモリを含む複数の認識系と、
統合系とを含む文字認識装置の制御方法であって、
(a)辞書を分割し、(b)各分割辞書を各辞書メモリ
に各々転送し、(c)各マッチング装置において被認識
文字の特徴量と各辞書メモリに格納される文字コード毎
の特徴量との類似度を計算し、(d)類似度の計算結果
を認識結果記憶メモリに格納し、(e)各認識結果記憶
メモリに保存された類似度および文字コードを読み出
し、その類似度を参照することにより最終的な候補文字
コードを抽出するものであり、前記(c)マッチング装
置における類似度の計算と、前記(d)その計算結果の
認識結果格納メモリへの格納とを各認識系について同時
並行的に処理するものである。
【0024】このような文字認識装置の制御方法によれ
ば、分割した辞書を各認識系で同時並行的にマッチング
処理を行うことができ、認識速度の向上を図ることが可
能となる。一般に計算時間の多数を費やすマッチング処
理を並行処理することによって認識処理にかかる総時間
の短縮を図るものである。
【0025】また、本発明の文字認識装置の制御方法
は、前記した制御方法について、前記(a)辞書分割の
処理に先立ち、さらに、入力された認識対象文字の記入
された書類に関する情報に応じて、前記書類に記載され
ている文字種に該当する文字の文字コードおよび特徴量
のみを前記辞書から抽出し、この抽出された辞書情報を
新しい辞書に置き換える処理を付加するものである。
【0026】ここで、入力された認識対象文字の記入さ
れた書類に関する情報には、あらかじめ取り扱う書類と
その書類に記載される文字の種類とを対応づけた情報を
含むことができる。たとえば、帳票を取り扱う場合に
は、通常、数字のみを取り扱い、漢字あるいは記号等を
取り扱うことは希である。このようなとき、帳票を取り
扱う処理であることを文字認識装置に入力し、前記辞書
から数字に関する情報(文字コード、特徴量)を抽出
し、これを認識対象の辞書に置き換えることを例示する
ことができる。
【0027】このような文字認識装置の制御方法によれ
ば、認識対象文字を取り扱う書類に記載された文字の種
類に該当する文字のみに限定することができ、認識対象
文字を少なくすることができる。また、その限定された
認識対象文字をさらに認識系の個数に応じて分割し、そ
れら複数の認識系で同時並行的に処理されるため、さら
に処理速度を向上させることが可能となる。同時に認識
率が向上することは前記した各発明の効果と同様であ
る。
【0028】また、本発明の文字認識装置の制御方法
は、前記した制御方法において、辞書を認識系の個数に
応じて各認識系での処理文字数が均等となるように分割
するものである。
【0029】このような文字認識装置の制御方法によれ
ば、各辞書メモリに格納される辞書の大きさはほぼ均等
となり、各認識系の処理はほぼ同時刻に終了することと
なる。すなわち、各処理系を最も有効に稼動させる最適
化を実現することができる。
【0030】また、本発明の文字認識装置の制御方法
は、辞書と、辞書分割手段と、辞書メモリ、マッチング
装置、認識結果記憶メモリおよび制御フラグ格納メモリ
を含む複数の認識系と、統合系とを含む文字認識装置の
制御方法であって、(a)辞書を文字の種類に応じて分
割し、(b)各分割辞書を各辞書メモリに各々転送し、
(c)入力された認識対象文字の記入された書類に関す
る情報に応じて、各認識系の処理を実行するか否かの制
御フラグを生成し、(d)この制御フラグを制御フラグ
格納メモリに転送し、(e)各認識系において制御フラ
グを参照して認識処理を実行するか否かを判断し、実行
の場合にのみ各マッチング装置にて外部から入力される
被認識文字の特徴量と各辞書メモリに格納される文字コ
ード毎の特徴量との類似度を計算し、(f)類似度の計
算結果を認識結果記憶メモリに格納し、(g)各認識系
のうち認識処理の実行がされた認識系についての認識結
果記憶メモリに保存された認識結果である類似度および
文字コードを読み出し、その類似度を参照することによ
り最終的な候補文字コードを抽出するものであり、前記
(e)マッチング装置における類似度の計算と(f)そ
の計算結果の認識結果格納メモリへの格納とを各認識系
について同時並行的に処理するものである。
【0031】このような文字認識装置の制御方法によれ
ば、文字種類に応じて分割された辞書を各認識系に割り
当て、取り扱う書類に記載された文字の種類に対応する
認識系のみの認識処理を実行し、その他前記書類に記載
されない文字の種類が割り当てられた認識系の実行を中
止することができる。これにより認識対象文字数を少な
くすることができ、認識速度と認識率の向上を図ること
ができる。
【0032】
【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。
【0033】(実施の形態1)図1は、本発明の一実施
の形態である文字認識装置の概要の一例を示したブロッ
ク図である。
【0034】本実施の形態1の文字認識装置は、パーソ
ナルコンピュータ等で例示されるホスト計算機101
と、整合ユニット102と、この2つの装置を結合する
通信路103とからなる。ホスト計算機101には、認
識結果を出力する出力装置104と、認識する文字を読
み取る光学式読み取り装置105が接続される。
【0035】ホスト計算機101は、各種の計算および
データの転送を制御するCPU(Central Processing U
nit )106と、CPU106を制御するプログラムお
よびデータが格納されるRAM(Random Access Memory)
107と、CPU106と各種機器とのデータの入出力
をつかさどるインタフェイス(I/O)108と、辞書
が格納されるハードディスク等の外部記憶装置109と
を含む。
【0036】前記辞書には、認識対象である文字のコー
ドとその特徴量が関連づけて格納されており、数字、ア
ルファベット、仮名文字、漢字等複数の種類の文字が格
納されている。
【0037】整合ユニット102は、m個の認識系11
0−1〜110−mを含み、たとえば第1番目の認識系
110−1は、辞書メモリ111−1、マッチング装置
113−1および結果格納メモリ114−1からなる。
同様に第m番目の認識系110−mは、辞書メモリ11
1−m、マッチング装置113−mおよび結果格納メモ
リ114−mからなる。マッチング装置113−1〜1
13−mは、専用のゲートアレイ等のLSIとして高速
化を図ることができる。また、整合ユニット102に
は、ホスト計算機101から転送される認識文字の特徴
量を格納する特徴量格納メモリ115が備えられる。
【0038】整合ユニット102がホスト計算機101
のバスに接続される場合は、整合ユニット102はホス
ト計算機101の中に装着されるボードとなるが、SC
SI(Small Computer System Interface) などのホスト
計算機101の外部インターフェースと接続される場合
は外部筐体内に保持される。
【0039】次に、この文字認識装置の制御方法を説明
する。
【0040】図2は、本発明の一実施の形態である文字
認識装置の制御方法の一例をホスト計算機側の処理につ
いて示したフローチャートであり、図3は、その場合の
各認識系側の処理の一例を示したフローチャートであ
る。
【0041】まず、ホスト計算機101において実行さ
れる処理を図2を用いて説明する。
【0042】ホスト計算機101において、外部記憶装
置109に保存されている辞書を分割する(ステップ2
01)。辞書の分割の方式は任意であるが、代表的には
辞書内に格納される対象文字を整合ユニット102に含
まれる認識系に均等に割り付けることができる。これに
より各認識系110−1〜110−mでのマッチング処
置に要する時間をほぼ均等にすることができ、総合的な
処理時間は最も短くなる。
【0043】次に、分割した辞書を、通信路103を介
して各認識系に備えられた辞書メモリ111−1〜11
1−mに転送する(ステップ202)。
【0044】次に、光学式読み取り装置105で読み取
った被認識文字の特徴量を、RAM107に格納された
特徴量抽出プログラムを用いて抽出し(ステップ20
3)、この特徴量を、整合ユニット102に備えられた
特徴量格納メモリ115に転送する(ステップ20
4)。
【0045】次に、各認識系110−1〜110−mで
実行される認識結果の受信を行う(ステップ205)。
認識結果は、被認識文字との類似度が高い文字コードと
その類似度とのセットで与えられる。文字コードと類似
度とのデータセットは各認識系について複数与えられて
も良い。
【0046】次に、各認識系110−1〜110−mか
らの結果の転送が全て終了したか否かを判断し(ステッ
プ206)、認識結果の受信が完了している場合は次の
ステップ207に進み、受信が完了していない場合はス
テップ205に戻って認識結果の受信を継続する。
【0047】次に、全ての認識結果の統合し、類似度の
高い順にソートを行う(ステップ207)。ソートされ
た結果、最も高い類似度に対応する文字コードを被認識
文字の文字コードとして決定する(ステップ208)。
ここで、類似度に有意な差が見いだせない場合には、類
似度の高い複数の文字コードを候補として提示し、オペ
レータに選択させるような処理としても良い。
【0048】次に、被認識文字が全て認識されたかどう
かを判断し(ステップ209)、認識終了の場合は結果
を表示して(ステップ210)、終了し、さらに認識を
行う場合には、ステップ203に戻って被認識文字の特
徴量の抽出を行い、上記の処理を繰り返す。
【0049】一方、整合ユニット102では、複数の認
識系110−1〜110−mが互いに独立して、同時並
行的に処理を行う。各認識系における処理を図3を用い
て説明する。
【0050】各認識系110−1〜110−mにおける
処理は同様であるので、以下、認識系110−1につい
てのみ説明する。
【0051】認識系110−1では、ステップ202で
ホスト計算機101から転送される分割辞書を受け取っ
て、これを辞書メモリ111−1に格納する(ステップ
301)。
【0052】次に、ステップ203でホスト計算機10
1から特徴量格納メモリ115に転送された特徴量をマ
ッチング装置113−1にロードする(ステップ30
2)。
【0053】次に、辞書メモリ111−1に格納された
ある文字コードについての特徴量をマッチング装置11
3−1にロードし(ステップ303)、これら特徴量間
の類似度を計算すなわちマッチング処理を実行する(ス
テップ304)。
【0054】計算された類似度はその文字コードととも
に結果格納メモリ114−1に格納される(ステップ3
05)。結果格納メモリ114−1内の結果は類似度の
高い順に一定文字数分だけ保存し、類似度の低いものに
ついては適宜破棄するようにしても良い。
【0055】次に、辞書メモリ111−1に格納された
文字の全てについてマッチング処理がされたか否かを判
断し(ステップ306)、全文字について終了している
場合には次のステップ307に進み、終了していない場
合にはステップ303に戻って前記の処理を繰り返す。
【0056】最後に、マッチング処理の結果をホスト計
算機101に転送して(ステップ307)終了する。転
送するマッチング処理の結果は、少なくとも最も類似度
の高いものを含む必要があるが、全ての結果を転送する
必要はなく、類似度の高い順に数個〜十数個とすること
ができる。
【0057】本実施の形態1の文字認識装置とその制御
方法によれば、外部記憶装置109に格納される認識対
象文字の辞書を分割し、これを複数の認識系110−1
〜110−mに割り当て、同時並行的に処理することが
できる。それにより、各認識系110−1〜110−m
における認識対象文字数を少なくすることができ、認識
速度の向上を図ると同時に、認識率の向上を図ることが
可能となる。
【0058】なお、本実施の形態1の制御方法では、被
認識文字の特徴量の抽出とそのマッチング処理を逐次実
行する例を説明したが、特徴量の抽出を被認識文字の全
てについてあらかじめ行い、適当な記憶装置にその特徴
量を記憶させ、マッチング処理の実行に合わせてこれを
読み出し、特徴量格納メモリ115に転送しても良い。
【0059】また、ステップ201の辞書分割に先立
ち、図4のフローチャートに示す書類情報の入力(ステ
ップ401)、およびこの書類情報に基づく辞書分割仕
様の生成(ステップ402)を行っても良い。
【0060】この場合、書類情報によりその書類に記載
される文字の種類があらかじめ判明する場合があり、特
定の種類の文字については認識対象から除外することが
可能となる場合がある。たとえば、書類情報によりそれ
が数字のみを取り扱う帳票であることが判明した場合に
は、外部記憶装置109に格納された辞書から数字にか
かる情報のみを取り出し、これを新たな辞書として次の
ステップ201に進むよう辞書分割の仕様を決めること
ができる(ステップ402)。なお、書類情報の入力
は、オペレータによるコンソール入力、取り扱う書類に
印刷したバーコードを読み取ることによる自動入力等と
することができる。
【0061】このような書類情報の参照により、認識対
象文字を取り扱う書類に記載された文字の種類に該当す
る文字のみに限定することができ、認識対象文字を少な
くすることができる。また、その限定された認識対象文
字をさらに認識系の個数に応じて分割し、それら複数の
認識系で同時並行的に処理されるため、さらに処理速度
および認識率を向上させることが可能となる。
【0062】(実施の形態2)図5は、本発明の一実施
の形態である文字認識装置の概要の一例を示したブロッ
ク図である。
【0063】本実施の形態2では、実施の形態1で説明
した文字認識装置に制御系を有する場合の例について説
明する。
【0064】各認識系110−1〜110−mの各々に
制御フラグ格納メモリ112−1〜112−mが備えら
れている以外は実施の形態1の文字認識装置の構成と同
様であるため、説明は省略する。
【0065】次に、本実施の形態2の文字認識装置の制
御方法について説明する。
【0066】図6は、本発明の一実施の形態である文字
認識装置の制御方法の一例をホスト計算機側の処理につ
いて示したフローチャートであり、図7は、その場合の
各認識系側の処理の一例を示したフローチャートであ
る。
【0067】まず、図6に従って、ホスト計算機101
側の処理について説明する。
【0068】オペレータによるコンソール入力あるいは
取り扱う書類に印刷されたバーコードによる自動入力等
により、被認識文字が記入された書類の情報を入力する
(ステップ601)。この情報には、被認識文字の種類
が判明するような情報を含めることができることは実施
の形態1で説明したとおりである。
【0069】次に、この書類情報を参照して辞書分割の
仕様を生成し(ステップ602)、同時に制御系の制御
情報となる制御フラグを生成する(ステップ603)。
【0070】たとえば、辞書分割に際して前記辞書情報
により認識対象文字に漢字を含まないことが判明した場
合には、漢字が割り当てられた認識系の実行を中止する
ように制御フラグを生成することができる。
【0071】また、取り扱う書類全体には全ての文字種
を含むが、ある領域には数字のみが記入されている場合
もある。このようなときには、数字のみの領域に該当す
る部分のマッチング処理には数字以外の文字種が割り当
てられている認識系の実行を中止することができる。
【0072】次に、前記仕様に従って辞書を分割し(ス
テップ604)、分割辞書を各認識系110−1〜11
0−mの辞書メモリ111−1〜111−mに転送し
(ステップ605)、制御フラグを制御フラグ格納メモ
リ112−1〜112−mに転送する(ステップ60
6)。
【0073】次のステップ203以降は実施の形態1と
同様であるため説明を省略する。
【0074】一方、整合ユニット102では、複数の認
識系110−1〜110−mが互いに独立して、同時並
行的に処理を行う。各認識系における処理を図7を用い
て説明する。
【0075】各認識系110−1〜110−mにおける
処理は同様であるので、以下、認識系110−1につい
てのみ説明する。
【0076】認識系110−1では、ステップ605で
ホスト計算機101から転送される分割辞書を受け取っ
て、これを辞書メモリ111−1に格納する(ステップ
701)。
【0077】また、ステップ606でホスト計算機10
1から転送される制御フラグを受け取って、これを制御
フラグ格納メモリ112−1に格納する(ステップ70
2)。
【0078】次に、制御フラグを参照して、その認識系
110−1の認識処理を実行するか否かを判断する(ス
テップ703)。認識処理を実行するよう指示されてい
る場合には次のステップ302に進み、認識処理を実行
しないよう指示されている場合には、認識結果なしを設
定して(ステップ704)、ステップ307に進む。
【0079】ステップ307では、認識結果がないとい
う結果をホスト計算機101に転送し、ホスト計算機1
01では、認識結果なしという結果を受信した場合には
以降の処理においてその認識系の結果を無視する。
【0080】ステップ302以降の処理は実施の形態1
と同様であるため説明を省略する。
【0081】本実施の形態2の文字認識装置とその制御
方法によれば、認識対象文字をその文字の種類に応じて
分割することができるため、認識対象文字数を少なく
し、認識速度と認識率を向上させることができる。すな
わち、数字、ひらがな、かたかな、漢字等の文字の種類
に応じて辞書を分割し、分割辞書を各認識系110−1
〜110−mの辞書メモリ111−1〜111−mに転
送した場合、該当する文字種類の認識系のみを動作させ
ることが可能となる。その結果、該当しない文字の辞書
に含まれる文字数が該当する辞書に含まれる文字数より
多い場合には認識速度が向上することとなり、また、該
当しない辞書に対しては認識を実行しないため、候補文
字として抽出される文字数が少なくなり、確率的に真の
文字を認識する率、すなわち認識率が向上することとな
る。
【0082】なお、特徴量の抽出を被認識文字の全てに
ついて一括して実行しても良いことは実施の形態1と同
様である。
【0083】(実施の形態3)図8は、本発明の一実施
の形態の文字認識装置における文字の種類に応じた辞書
分割の方式の一例を示す概念図である。
【0084】全ての認識対象文字の辞書800のうち、
数字を辞書メモリ801、カタカナを辞書メモリ80
2、ひらがなを辞書メモリ803、英字を辞書メモリ8
04に格納する。これによりマッチング装置805の認
識結果809は数字のみとなる。同様に、マッチング装
置806〜808の認識結果810〜812はカタカナ
のみ、ひらがなのみあるいは数英字のみとなる。
【0085】このように、マッチング装置805〜80
8を文字種に応じて特化することにより、認識処理の効
率化を図ることが可能となる。
【0086】(実施の形態4)図9は、本発明の一実施
の形態の文字認識装置において認識対象の文字種があら
かじめ判明している場合の認識対象範囲の絞り込みの一
例を具体的に示した概念図である。
【0087】整合ユニット102内の認識系110−
1,110−2の各辞書メモリ111−1,111−2
には、それぞれ数字とカタカナが格納されている。
【0088】次に、帳票などの表形式の文書を取り扱う
場合、ホスト計算機101で認識する文字は、表形式文
書900の中の表の欄のうち価格の欄に記入された数字
のみとなる。
【0089】このような場合、プログラム901によ
り、数字を認識する認識系110−1の制御フラグ格納
メモリ112−1内の制御フラグを「1」(マッチング
処理を実行する、の意)に、認識系110−2の制御フ
ラグ格納メモリ112−2内の制御フラグを「0」(マ
ッチング処理を抑制する、の意)に設定する。
【0090】その後、欄中の数字(この例では530
0)の認識を実行する。認識結果は、各認識系110−
1,110−2について結果格納メモリ114−1,1
14−2に格納されるが、認識系110−1の結果のみ
が有効となり、認識系110−2の結果は「結果なし」
となり無視される。
【0091】本実施の形態4の文字認識装置では、上記
の通り文字種を絞り込んだ認識処理が可能となる。
【0092】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能であることは言うまでも
ない。
【0093】たとえば、上記実施の形態ではマッチング
装置として専用ゲートアレイの例を示したが、これを汎
用のMPUとして低価格化を実現することもできる。
【0094】以上の説明では、主として本発明者によっ
てなされた発明をその背景となった利用分野である文字
認識装置に適用した場合について説明したが、これに限
定されるものではなく、たとえば、パターン認識、音声
認識等の技術にも適用することが可能である。
【0095】
【発明の効果】本願において開示される発明のうち、代
表的なものによって得られる効果を簡単に説明すれば以
下のとおりである。
【0096】(1)被認識文字の認識速度および認識率
を向上することができる。
【0097】(2)複数の認識系により文字認識処理を
並列に実行することができる。
【0098】(3)認識系における並行処理を制御フラ
グにより制御することができる。
【0099】(4)認識対象文字情報が格納された辞書
を文字種毎に分割して認識処理を最適化することができ
る。
【0100】(5)文字種毎に分割された辞書毎の認識
処理を制御フラグを用いることにより有効に制御でき
る。
【0101】(6)取り扱う書類の情報を参照すること
により、辞書を効率よく分割することができる。
【0102】(7)辞書を均等に分割することにより認
識処理の最適化を図ることができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態である文字認識装置の概
要の一例を示したブロック図である。
【図2】本発明の一実施の形態である文字認識装置の制
御方法の一例をホスト計算機側の処理について示したフ
ローチャートである。
【図3】本発明の一実施の形態である文字認識装置の制
御方法の一例を各認識系側の処理について示したフロー
チャートである。
【図4】本発明の一実施の形態である文字認識装置の制
御方法の他の例をホスト計算機側の処理について示した
フローチャートである。
【図5】本発明の他の実施の形態である文字認識装置の
概要の一例を示したブロック図である。
【図6】本発明の他の実施の形態である文字認識装置の
制御方法の一例をホスト計算機側の処理について示した
フローチャートである。
【図7】本発明の他の実施の形態である文字認識装置の
制御方法の一例を各認識系側の処理について示したフロ
ーチャートである。
【図8】本発明のさらに他の実施の形態の文字認識装置
における文字の種類に応じた辞書分割の方式の一例を示
す概念図である。
【図9】本発明のさらに他の実施の形態の文字認識装置
において認識対象の文字種があらかじめ判明している場
合の認識対象範囲の絞り込みの一例を具体的に示した概
念図である。
【符号の説明】
101 ホスト計算機 102 整合ユニット 103 通信路 104 出力装置 105 光学式読み取り装置 106 CPU 107 RAM 108 インタフェイス 109 外部記憶装置 110−1〜110−m 認識系 111−1〜111−m 辞書メモリ 112−1〜112−m 制御フラグ格納メモリ 113−1〜113−m マッチング装置 114−1〜114−m 結果格納メモリ 115 特徴量格納メモリ 800 辞書 801〜804 辞書メモリ 805〜808 マッチング装置 809〜812 認識結果 900 表形式文書 901 プログラム

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 認識対象である文字のコードとその文字
    に関しあらかじめ与えられた特徴量とが対応づけられて
    格納される辞書を有する文字認識装置であって、 前記辞書を特定の規約に従って分割する辞書分割手段
    と、 前記辞書分割手段により分割された各分割辞書を格納す
    る辞書メモリ、外部から入力される被認識文字の特徴量
    と前記辞書メモリ内に格納される分割辞書内の文字コー
    ド毎の特徴量との類似度を算出するマッチング装置、お
    よび前記マッチング装置による算出結果を類似度と文字
    コードとを対応づけて保存する認識結果記憶メモリ、を
    含む複数の認識系と、 前記複数の認識系の各認識結果記憶メモリ内に保存され
    た認識結果である類似度および文字コードを各々読み出
    し、その全ての類似度を参照することにより最終的な候
    補文字コードを抽出する統合系と、を含むことを特徴と
    する文字認識装置。
  2. 【請求項2】 請求項1記載の文字認識装置であって、 前記複数の認識系は、その各々の認識系について認識の
    実行あるいは中止を制御する制御系を備えていることを
    特徴とする文字認識装置。
  3. 【請求項3】 請求項1または2記載の文字認識装置で
    あって、 前記辞書分割手段は、認識対象である文字の種類に応じ
    て分割されるものであることを特徴とする文字認識装
    置。
  4. 【請求項4】 認識対象である文字の文字コードとその
    文字に関しあらかじめ与えられた特徴量とが対応づけら
    れて格納される辞書と、 前記辞書を分割する辞書分割手段と、 前記辞書分割手段により分割された分割辞書を格納する
    辞書メモリ、外部から入力される被認識文字の特徴量と
    前記辞書メモリ内に格納される分割辞書内の文字コード
    毎の特徴量との類似度を算出するマッチング装置、およ
    び前記マッチング装置による算出結果を類似度と文字コ
    ードとを対応づけて保存する認識結果記憶メモリを含む
    複数の認識系と、 前記各認識系の認識結果記憶メモリ内に保存された各認
    識結果より最終的な候補文字コードを抽出する統合系
    と、を含む文字認識装置の制御方法であって、 (a)前記辞書を分割して分割辞書を生成する処理、 (b)前記各分割辞書を前記各辞書メモリに各々転送す
    る処理、 (c)前記各マッチング装置において、外部から入力さ
    れる被認識文字の特徴量と前記各辞書メモリに格納され
    る文字コード毎の特徴量との類似度を計算する処理、 (d)前記類似度の計算結果を前記認識結果記憶メモリ
    に格納する処理、 (e)前記各認識系の認識結果記憶メモリに保存された
    認識結果である類似度および文字コードを読み出し、そ
    の類似度を参照することにより最終的な候補文字コード
    を抽出する処理、 を有し、前記(c)および(d)の処理を各認識系につ
    いて同時並行的に処理することを特徴とする文字認識装
    置の制御方法。
  5. 【請求項5】 請求項4記載の文字認識装置の制御方法
    であって、 前記(a)の処理に先立ち、入力された認識対象文字の
    記入された書類に関する情報に応じて、前記書類に記載
    されている文字種に該当する文字の文字コードおよび特
    徴量のみを前記辞書から抽出し、この抽出された辞書情
    報を新しい辞書に置き換える処理を実行することを特徴
    とする文字認識装置の制御方法。
  6. 【請求項6】 請求項4または5記載の文字認識装置の
    制御方法であって、 前記(a)の辞書分割処理における分割辞書は、前記認
    識系の個数に応じ、各認識系での処理文字数が均等とな
    るように前記辞書を分割して生成されることを特徴とす
    る文字認識装置の制御方法。
  7. 【請求項7】 認識対象である文字の文字コードとその
    文字に関しあらかじめ与えられた特徴量とが対応づけら
    れて格納されている辞書と、 前記辞書を分割する辞書分割手段と、 前記辞書分割手段により分割された分割辞書を格納する
    辞書メモリ、外部から入力される被認識文字の特徴量と
    前記辞書メモリ内に格納される分割辞書内の文字コード
    毎の特徴量との類似度を算出するマッチング装置、前記
    マッチング装置による算出結果を類似度と文字コードと
    を対応づけて保存する認識結果記憶メモリ、および前記
    マッチング装置による処理を実行するか否かの情報を保
    持する制御フラグ格納メモリを含む複数の認識系と、 前記各認識系の認識結果記憶メモリ内に保存された各認
    識結果より最終的な候補文字コードを抽出する統合系
    と、を含む文字認識装置の制御方法であって、 (a)前記辞書を、あらかじめ入力された被認識文字が
    記入された書類の情報を参照して分割し、分割辞書を生
    成する処理、 (b)前記各分割辞書を前記各辞書メモリに各々転送す
    る処理、 (c)前記書類の情報に応じて、前記各辞書メモリに対
    応した認識系の処理を実行するか否かの制御フラグを生
    成する処理、 (d)前記制御フラグを前記制御フラグ格納メモリに転
    送する処理、 (e)各認識系において、前記制御フラグを参照して認
    識処理を実行するか否かを判断し、実行の場合にのみ前
    記各マッチング装置において、外部から入力される被認
    識文字の特徴量と前記各辞書メモリに格納される文字コ
    ード毎の特徴量との類似度を計算する処理、 (f)前記類似度の計算結果を前記認識結果記憶メモリ
    に格納する処理、 (g)前記各認識系のうち認識処理の実行がされた認識
    系についての認識結果記憶メモリに保存された認識結果
    である類似度および文字コードを読み出し、その類似度
    を参照することにより最終的な候補文字コードを抽出す
    る処理、 を有し、前記(e)および(f)の処理を各認識系につ
    いて同時並行的に処理することを特徴とする文字認識装
    置の制御方法。
JP7335164A 1995-12-22 1995-12-22 文字認識装置およびその制御方法 Withdrawn JPH09179935A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7335164A JPH09179935A (ja) 1995-12-22 1995-12-22 文字認識装置およびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7335164A JPH09179935A (ja) 1995-12-22 1995-12-22 文字認識装置およびその制御方法

Publications (1)

Publication Number Publication Date
JPH09179935A true JPH09179935A (ja) 1997-07-11

Family

ID=18285488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7335164A Withdrawn JPH09179935A (ja) 1995-12-22 1995-12-22 文字認識装置およびその制御方法

Country Status (1)

Country Link
JP (1) JPH09179935A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223801A (ja) * 2008-03-18 2009-10-01 Ricoh Co Ltd 文字認識装置
JP2010211402A (ja) * 2009-03-09 2010-09-24 Ricoh Co Ltd Simd型プロセッサ、文字認識装置、文字認識システム、文字認識方法、プログラム及び記録媒体
US8031942B2 (en) 2007-09-14 2011-10-04 Ricoh Company, Ltd. Matching device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8031942B2 (en) 2007-09-14 2011-10-04 Ricoh Company, Ltd. Matching device
JP2009223801A (ja) * 2008-03-18 2009-10-01 Ricoh Co Ltd 文字認識装置
JP2010211402A (ja) * 2009-03-09 2010-09-24 Ricoh Co Ltd Simd型プロセッサ、文字認識装置、文字認識システム、文字認識方法、プログラム及び記録媒体

Similar Documents

Publication Publication Date Title
EP0325233B1 (en) Character string recognition system
EP0542566B1 (en) Character recognition method and apparatus thereof
JP3155577B2 (ja) 文字認識方法及び装置
US8103099B2 (en) Method and system for recognizing characters and character groups in electronically represented text
US5621818A (en) Document recognition apparatus
EP0239061B1 (en) Optical character reader apparatus and optical character reading method
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
JPH09179935A (ja) 文字認識装置およびその制御方法
US6859556B2 (en) Word recognizing apparatus for dynamically generating feature amount of word and method thereof
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH10302025A (ja) 手書き文字認識装置およびそのプログラム記録媒体
JP3666909B2 (ja) 文字認識装置及び方法
JPH1069518A (ja) 文字認識方法およびその装置
JP2851865B2 (ja) 文字認識装置
JP2639314B2 (ja) 文字認識方式
JPS63118993A (ja) 文字認識方法
JP2755595B2 (ja) 文字認識方法
KR900005141B1 (ko) 문자인식장치
JPH07200737A (ja) 文字認識方法およびシステム
JP3320083B2 (ja) 文字認識装置及び方法
JPH03296883A (ja) 帳票認識装置の帳票認識方法
JPS6059487A (ja) 手書文字認識装置
JPS60138689A (ja) 文字認識方法
JPH04279987A (ja) 文字認識方法および文字認識装置
Naza et al. Arabic Script Based Character Segmentation: A

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030304