JP2000090200A - 文字認識方法、装置および記録媒体 - Google Patents

文字認識方法、装置および記録媒体

Info

Publication number
JP2000090200A
JP2000090200A JP10256667A JP25666798A JP2000090200A JP 2000090200 A JP2000090200 A JP 2000090200A JP 10256667 A JP10256667 A JP 10256667A JP 25666798 A JP25666798 A JP 25666798A JP 2000090200 A JP2000090200 A JP 2000090200A
Authority
JP
Japan
Prior art keywords
character
recognition
character image
image
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10256667A
Other languages
English (en)
Inventor
Hideaki Yamagata
秀明 山形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10256667A priority Critical patent/JP2000090200A/ja
Publication of JP2000090200A publication Critical patent/JP2000090200A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 同一の形状の文字画像で正解の文字コードが
異なる場合でも、誤認識することなく、高い認識精度で
高速な文字認識処理を行なう。 【解決手段】 切り出された文字を辞書(10)とマッ
チング処理することにより認識し(4)、その文字画像
とマッチング結果を画像キャッシュ(11)に保存す
る。次に切り出された文字がキャッシュ中の画像と同一
であるとき(3)、認識処理を行わずに、マッチング結
果を参照して候補データを絞り(5)、言語処理(6)
することにより認識結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識処理の速
度を向上させると共に、認識精度を向上させた文字認識
方法、装置および記録媒体に関する。
【0002】
【従来の技術】従来から文字認識処理における認識速度
を向上させる種々の手法が提案され、実用化されてい
る。例えば、特公平7−72906号公報に記載された
文字認識装置では、認識処理の終了した文字について、
その文字画像と認識結果の文字コードの組を記憶し、新
たに切り出された文字画像が、記憶されている文字画像
と同一であるか否かを判断し、同一であると判断された
場合には同一と判断された文字画像と組で記憶されてい
る文字コードを認識結果として出力している。
【0003】
【発明が解決しようとする課題】上記した技術によっ
て、認識速度の向上を図ることが出来るものの、同じ形
状の画像であっても正解の文字コードが異なるような場
合には、いずれかの画像で誤認識が生じることになり、
認識率が低下してしまう。
【0004】例えば、入力画像中で大きさの異なる文字
が混在している場合、つまり、「あ」と「ぁ」のような
相似系の文字を誤認識する可能性もある。図11に示す
ように、「きょうのてんき よるになってあめ」と言う
文書画像が入力された場合、「きょうのてんき」が(タ
イトルなどで)大きいフォントで印字され、「よるにな
ってあめ」が(本文などで)小さいフォントで印字され
た場合には、「きょう」の「ょ」と「よる」の「よ」が
同一形状(あるいは文字画像比較部において同一である
と判断される形状)の場合がある。このような場合、従
来技術では先に認識した「ょ」の画像を認識結果「ょ」
と対応づけて記憶するため、「よる」の「よ」を「ょ」
と誤認識することになる。
【0005】他の例としては、形状が全く同一で、文字
画像の位置のみが異なる文字が混在している場合にも、
誤認識を生じることになる。例えば、図12に示すよう
に、「It's miracle,he said」という文書画像が入力さ
れた場合、従来技術では「’」の画像と文字コー
ド「’」と対応づけて記憶するため、「’」と同一形状
である「,」については文字画像比較部で記憶されてい
る「’」と同一と判定され、文字コード「’」が出力さ
れる(誤認識する)ことになる。
【0006】さらには、文書画像中には形状が同一ある
いは極めて類似している文字あるいは文字部分が存在す
る。以下、文字部分が類似している場合に、従来技術が
適用できない例について説明する。
【0007】日本語文書中に現れる文字について、黒画
素の連結成分等で切り出した場合に、左右あるいは上下
に分離する文字が数多く存在する。したがって、高性能
な文字認識方式においては、文字切り出しは複数の切り
出し候補を切り出し、認識結果等を用いてその中からも
っともらしい候補を選ぶか、あるいは認識結果を参照し
て再切り出しを行なうなどの処理を行なっている。した
がって、文字の一部分が類似している場合に、従来技術
のように出力される文字コードを記憶する方法では、文
字の切り出し位置を誤る恐れもある。
【0008】例えば、「。」について画像と文字コード
をセットにして記憶していた場合、その後に出てくる
「ぱ」の認識結果が「は」+「。」になる可能性もあ
る。これは、図13に示すように、「ぱ」の「゜」の部
分が「。」と同一であると判断されて出力される。つま
り、文字切り出しの位置を間違える場合がある。
【0009】本発明は上記した問題点を解決するために
なされたもので、本発明の目的は、同一の形状の文字画
像で正解の文字コードが異なる場合でも、誤認識するこ
となく、高い認識精度で高速な文字認識処理を行なう文
字認識方法、装置、記録媒体を提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像中から文字画像
を切り出し、該切り出された文字画像を認識処理し、該
認識結果に対して、文字画像の位置や大きさ等を基に形
状の類似した文字を識別する後処理を少なくても実行す
る文字認識方法であって、前記文字認識処理された文字
画像と前記認識処理における出力とを対応づけて記憶
し、記憶されている第1の文字画像と新たに切り出され
た第2の文字画像とを比較し、両画像が同一と見倣せる
とき、前記第2の文字画像を認識処理する代わりに、前
記第1の文字画像に対応づけて記憶されている認識処理
出力を、前記第2の文字画像の認識出力とすることを特
徴としている。
【0011】請求項2記載の発明では、前記認識処理に
おける出力は、異なる文字コードで同じ形状あるいは相
似形であり、文字認識処理によって識別不能な文字を識
別するために必要な文字画像の相対的な大きさ/位置/
縦横比などの情報を含むことを特徴としている。
【0012】請求項3記載の発明では、前記認識処理に
おける出力は、文字画像の切り出し位置を特定するため
に必要な情報を含むことを特徴としている。
【0013】請求項4記載の発明では、前記認識処理に
おける出力は、文字種類やバイグラムなどの前後の文字
間の接続を評価するために必要な情報を含むことを特徴
としている。
【0014】請求項5記載の発明では、前記認識処理に
おける出力は、認識処理の後処理において言語処理を行
なうために必要な情報を含むことを特徴としている。
【0015】請求項6記載の発明では、前記認識処理に
おける出力は、認識処理の後処理において認識結果の尤
もらしさを算出するために必要な情報を含むことを特徴
としている。
【0016】請求項7記載の発明では、前記認識処理の
後処理において認識結果の確信度を算出し、前記文字認
識処理された文字画像と認識処理における出力とを対応
づけて記憶する際に、前記確信度が所定値以上大きい文
字画像のみを記憶の対象とすることを特徴としている。
【0017】請求項8記載の発明では、文書画像中から
文字画像を切り出す手段と、該切り出された文字画像を
認識処理する手段と、該認識結果に対して、文字画像の
位置や大きさ等を基に形状の類似した文字を識別する後
処理手段を備えた文字認識装置であって、前記認識処理
された文字画像と前記認識結果である文字認識用特徴量
とを対応づけて記憶する手段と、該記憶されている第1
の文字画像と新たに切り出された第2の文字画像とを比
較する手段と、該比較の結果、両画像が同一と見倣せる
とき第1の文字画像を基に前記記憶手段を参照し、第1
の文字画像に対応づけて記憶されている文字認識用特徴
量を、前記第2の文字画像の認識結果として出力する手
段を備えたことを特徴としている。
【0018】請求項9記載の発明では、前記文字認識用
特徴量には、文字画像の相対的な大きさ/位置/縦横比
を含むデータがリンクされていて、前記後処理手段は、
前記認識結果として出力される前記文字認識用特徴量に
リンクしているデータを参照して類似文字を識別するこ
とを特徴としている。
【0019】請求項10記載の発明では、前記文字画像
を認識処理する際に参照される文字認識用辞書と、前記
記憶手段とからなる第1の構成部分と、前記切り出し手
段と、前記認識処理手段と、前記後処理手段と、前記出
力する手段からなる第2の構成部分に分離し、前記第1
の構成部分と第2の構成部分とをネットワークを介して
接続したことを特徴としている。
【0020】請求項11記載の発明では、文書画像中か
ら文字画像を切り出す機能と、該切り出された文字画像
を認識処理する機能と、該認識結果に対して、文字画像
の位置や大きさ等を基に形状の類似した文字を識別する
後処理機能をコンピュータに実現させるためのプログラ
ムを記録したコンピュータ読み取り可能な記録媒体であ
って、前記認識処理された文字画像と前記認識結果であ
る文字認識用特徴量とを対応づけて記憶する機能と、該
記憶されている第1の文字画像と新たに切り出された第
2の文字画像とを比較する機能と、該比較の結果、両画
像が同一と見倣せるとき第1の文字画像を基に前記記憶
手段を参照する機能と、前記参照された第1の文字画像
に対応づけて記憶されている文字認識用特徴量を、前記
第2の文字画像の認識結果として出力する機能と、前記
文字認識用特徴量にリンクしている、文字画像の相対的
な大きさ/位置/縦横比を含むデータを参照して類似文
字を識別する機能をコンピュータに実現させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体であることを特徴としている。
【0021】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。本発明では、最終的に出力さ
れる文字コードではなく、文字認識部の出力、より具体
的には、入力画像から抽出された文字認識用特徴量とマ
ッチした(相違度の小さい)文字認識用辞書中の文字認
識用特徴量を文字画像と共に記憶する。文字認識用辞書
中の文字認識用特徴量は文字認識後の処理で必要とされ
るデータに対するリンクを保持する構成とし、文字認識
の後段の処理においては、リンクされているデータを利
用して類似文字処理の識別等の処理を行なう。記憶され
ている文字画像と同一と判断される文字画像が切り出さ
れた場合には、文字認識処理を行なわず、同一と判断さ
れた文字画像と対応づけて記憶されている文字認識用特
徴量にリンクされているデータを用いて文字認識の後段
の処理を行なう。
【0022】(実施例1)図1は、本発明の実施例1の
構成を示す。図において、1は文字認識処理部であり、
文書画像から文字画像を切り出す文字切り出し部2、画
像キャッシュに記憶されている文字画像と切り出された
文字画像とを比較判定する文字画像比較部3、文字認識
用の特徴量が登録された辞書と文字画像から抽出された
特徴量とのマッチング処理を行い、相違度の小さい複数
の候補文字を出力する文字認識部4、複数の候補文字に
ついて、文字画像の位置や大きさ等を基に形状の類似し
た文字を識別することにより候補文字を絞る類似文字処
理部5、類似文字が処理された候補文字について言語辞
書と照合することにより単語を認識結果として出力する
言語処理部6、文字認識結果を用いて文字切り出し位置
を選択するパス選択部7、認識結果として出力される文
字の確信度を算出する確信度算出部8、確信度が大きい
文字画像とそのマッチング結果(候補辞書レコード)を
画像キャッシュに格納処理するキャッシュ処理部9から
構成されている。また、10は文字認識用特徴量などが
登録されている文字認識用辞書、11は文字画像と文字
認識用特徴量とを対応づけて記憶した画像キャッシュ、
12は単語を登録した言語辞書である。
【0023】図2は、本発明の文字認識用辞書の構成を
示す。本発明で用いる文字認識用辞書は全体としてツリ
ー構造を構成している。すなわち、最も根に近い部分に
は、文字認識用特徴量等のデータを持つ辞書レコード2
1が保存されている。入力画像から抽出された文字認識
用特徴量とマッチングを行う際には、辞書レコード中の
文字認識用特徴量が参照される。
【0024】それぞれの辞書レコード21は1つあるい
は複数の候補データ22、23をその下位にリンクして
いる。候補デー夕22、23には文字コードや文字種等
の情報が含まれている。前述した図11の例において、
「よ」と「ょ」のように形状の類似している文字や文字
認識用特徴量が等しいあるいは近い文字については、1
つの辞書レコードに複数の候補データがリンクすること
になる。従って、入力文字画像から抽出した文字認識用
特徴量と辞書レコード中の文字認識用特徴量がマッチし
た場合に、リンクされている候補データの情報を用いて
出力する文字コードを決定する。
【0025】さらに、候補データの下位には、文字画像
の大きさ/位置/縦横比などの情報を保持する類似文字
処理デー夕24、25がリンクしている場合もある。こ
れは、先の例に示した「よ」と「ょ」などのように、相
似形や、形状は同じで文字の位置のみ異なる「,」
と「’」を識別するために必要な情報が保存されてい
る。
【0026】図8は、本発明の実施例の処理フローチャ
ートである。以下、図11の画像を認識する場合を例に
して本発明の処理動作を説明する。
【0027】文字切り出し部2は、図示しない画像入力
装置によって入力された画像中から文字画像を1文字単
位で切り出し(ステップ101)、文字画像比較部3に
送り出す。文字切り出し部2では必ずしも正確に1文字
単位に文字画像が切り出される必要はなく、複数の文字
画像候補を出力すればよい(後述するパス選択部7で最
も適切な文字画像を選択する)。
【0028】文字画像比較部3では、画像キャッシュ1
1中の文字画像と、切り出されて来た文字画像とが同一
と見倣せるか否かを判定する(ステップ102)。文字
画像が同一であるか否かを判定する手法としては公知の
手法を用いればよい。ここでは、一例として米国特許第
5,303,313号などに示されているような手法
(文書画像から連結成分(文字パターン)を切り出し、
一つの連結成分を一つのパターンとみなしてテンプレー
トとして登録し、切り出されたパターンの内、類似のパ
ターンをテンプレートで置き換える)を用いればよい。
【0029】図11の画像例では、2行目の「よ」が切
り出されるまでは同一と判断される画像がない。文字画
像比較部3で画像が同一と判断された場合の処理につい
ては、後述する。文字画像比較部3で画像が同一ではな
いと判断された文字画像は文字認識部4に送り出され
る。図11の例では、1行目の文字は全て文字認識部4
に送り出される。
【0030】文字認識部4では、文字画像比較部3から
送られてきた文字画像から文字認識に用いる特徴量を抽
出し、文字認識用辞書10中の各辞書レコードとマッチ
ング処理を行い、相違度の小さい辞書レコードを候補辞
書レコードとして抽出する(ステップ103)。本実施
例では相違度の小さい順に3つの辞書レコードを候補辞
書レコードとして抽出するものとする。
【0031】図3は、最初の「ょ」を認識した場合の候
補辞書レコードを示す。候補辞書レコードには、マッチ
ング結果である文字認識用特徴量と、相違度と、候補デ
ータ数と、候補データへのリンク先データが記録されて
いる。また、候補データには、文字コードと文字種(カ
タカナ、平仮名など)と類似文字処理データ数と類似文
字処理データへのリンク先データが記録されている。類
似文字処理データには、文字画像の相対的な大きさであ
る縦横比、面積比、上空白比が記録されている。この他
に、バイグラムなどの文字と文字との接続の可能性を表
す情報(例えば、文字aの次には文字pが接続可能であ
るが、aの次にはzは接続できないなど)を記録させて
もよい。
【0032】この例の場合は、候補辞書レコード31、
32には、それぞれ2つの候補データ34、35と3
6、37がリンクしている。つまり、「ょ」のマッチン
グ結果として、「よ」「ょ」「お」「ぉ」「ま」が候補
文字として出力されている。
【0033】類似文字処理部5では、類似文字処理デー
タ38、39である文字画像の相対的な大きさ等を参照
して候補データの絞り込みを行なう(ステップ10
4)。文字画像の相対的な大きさ等を用いて認識性能を
向上させる手法についてはこれまで多く提案されてお
り、ここでは特定の手法に限定するものではないが、一
例としては特開平6−176196号公報に示されてい
る方法を用いればよい。
【0034】類似文字処理部5では、文字画像の大きさ
等(縦横比、面積比、上空白比)の情報が適切な候補デ
ータを言語処理部6に送り出す。1行目の「ょ」の場
合、この時点で、類似文字処理データ39が適切である
ので、「ょ」の候補デー夕35が選択され、「よ」の候
補デー夕34は言語処理部6には送られないことにな
る。図4は、「ょ」の類似文字の処理結果を示し、候補
データから「よ」、「お」、「ま」が除かれている。
【0035】言語処理部6では、類似文字処理部5から
送られてきた候補データを順次読み出し、言語辞書(単
語)12と照合することにより、候補データ中の文字コ
ードの中から尤もらしい組の文字コード(単語)を認識
結果として出力する(ステップ105)。文字認識結果
に対する言語処理に関しても多くの手法が提案されてい
るが、ここではその一例として特開平4−252390
号公報を挙げる。
【0036】パス選択部7では、文字切り出し部2から
複数の文字画像候補が送られてきた場合に(ステップ1
06)、文字認識部等の出力を利用して一番尤もらしい
文字画像(文字切り出し位置)を選択する(ステップ1
07)。選択の手法についてはいくつかの方法が提案さ
れているが、ここでは特開平5−35917号公報、特
開平9−297817号公報を挙げる。
【0037】図13に示したような従来技術における問
題点は、後述するように、キャッシュ処理部9でマッチ
ング結果を保存し、記憶されている文字画像と同一と判
断される文字画像が切り出されてきた場合に、対応づけ
て保存されているマッチング結果を用いて文字認識以降
のパス選択までの処理を行なうことで解消することがで
きる。つまり、記憶されている文字画像と同一と判断さ
れる文字画像に対して文字認識処理を行なった場合と同
様の処理結果を得ることができる。
【0038】確信度算出部8では、言語処理が終了した
時点で、認識結果として出力される文字の尤もらしさ
(確信度)を算出する(ステップ108)。ここでは、
文字認識部で行なわれる入力画像から抽出した文字認識
用特徴量と辞書中の文字認識用特徴量の相違度のみでは
なく、言語処理において照合する単語が見つかったか否
かなど言語処理部までに行なわれた全ての処理での情報
を用いて確信度を算出する。従って、従来技術に用いら
れているところの1文字分の文字画像を認識した場合に
得られる距離の逆数等と比較して、高精度に認識結果の
尤もらしさを算出することができる。ここでは確信度算
出方法の一例として特開平5−182014号公報を挙
げる。
【0039】キャッシュ処理部9では、認識結果として
出力される文字の確信度が高い場合にその文字画像(あ
るいは文字座標)と文字認識用辞書とのマッチング結果
を保存する(ステップ109)。本実施例の場合、1行
目の処理終了時点で、確信度が図5に示すように算出さ
れたものとして、以降の処理について説明する。本実施
例の場合、キャッシュ処理部9では確信度90以上の文
字画像を記憶することにする。図5の例の場合、文字
「の」を除く、文字「き」「ょ」「う」「て」「ん」に
ついての画像とそのマッチング結果(候補辞書レコー
ド)が画像キャッシュ11に保存される。図6は、
「ょ」の場合の保存例を示す。すなわち、文字座標レコ
ードを根にして、以下、図3と同様に候補辞書レコード
がリンクされている。
【0040】続いて、2行目の認識処理が行われる。2
行目の認識処理に入った時点では1行目の認識処理は終
了し、画像キャッシュ11中には「き」「ょ」「う」
「て」「ん」の画像がマッチング結果(候補辞書レコー
ド)と共に保存されているものとする。
【0041】文字切り出し部2から「よ」が切り出され
て来ると、文字画像比較部3では1行目の「ょ」と同一
の画像であると判断される(ステップ102)。つま
り、1行目と2行目で文字サイズが異なるため、「ょ」
と「よ」が同一画像であると判断される。文字画像比較
部3は、画像キャッシュ11に記憶されている図6に示
す「ょ」のマッチング結果(図3と同等)を読み出し、
類似文字処理部5に送り出す。近年の高精度な文字認識
装置においては、非常に複雑な特徴抽出/マッチング処
理を用いる場合が多いので、文字画像の比較処理はマッ
チング処理より高速に行なわれる可能性が高い。その場
合、同一画像が見つかれば見つかるほど認識処理の高速
化が図れる。
【0042】類似文字処理部5では、1行目の場合と同
様の処理を行なう(ステップ104)。ただし、2行目
においては行の印字文字サイズが変わるため、図3のマ
ッチング結果に対して1行目の「ょ」の場合とは選択さ
れる候補デー夕が異なる。前掲した特開平6−1761
96号公報の方法によれば、行内の最大文字幅/高さが
変化するので、1行目の「ょ」から算出される縦横比/
面積比/上空白比(類似文字処理データ39)の値は、
2行目の「よ」について算出される縦横比/面積比/上
空白比(類似文字処理データ38)の値とは、同一の画
像であっても異なる値となる。したがって、類似文字処
理結果も図7に示すようになり、選択された候補デー夕
「よ」「お」「ま」が言語処理部6に送られ、認識結果
として「よ」が出力されることになる。従って、異なる
文字コードで同一形状の文字画像が入力された場合で
も、正しい認識結果を得ることができる。
【0043】2行目の残りの「るになってあめ」の文字
画像についても同様の処理を行い、文書画像中の全ての
文字画像を処理すると(ステップ110)、処理が終了
する。このように、本発明では、最終的に出力される文
字コードを保存するのではなく、近年の複雑な文書認識
装置において用いられる様々なパラメータ(文字認識部
の出力)を文字画像と共に保存することにより、誤認識
の少ない高速な文字認識処理を行うことができる。
【0044】(実施例2)図9は、本発明の実施例2の
構成を示す。図に示ように装置あるいはデータの一部を
ネットワークを介して用いることも可能である。典型的
な例としては、ユーザ毎に入力する原稿の種類が異なる
場合が多いので、文字認識用辞書や言語辞書および画像
キャッシュはユーザ側(クライアント側)に設け、サー
バ側に設けられた文字認識処理部(認識プログラム)は
ネットワークを介して用いるという構成を採る。このよ
うに構成することによって、例えば認識プログラムに関
しては常に最新のものを用いることができる利点があ
る。
【0045】(実施例3)実施例3は、本発明をソフト
ウェアによって実現する実施例である。図10は、実施
例3の構成例を示す。CD−ROMなどのコンピュータ
読み取り可能な記録媒体には、本発明の文字認識機能を
実現するプログラム、辞書などが記録されている。ま
た、認識対象となる文字画像はハードディスクなどに格
納されている。そして、該プログラムが起動されると、
文字画像データが読み込まれて、認識処理を実行し、文
字画像の認識結果をディスプレイなどに出力する。
【0046】
【発明の効果】以上、説明したように、本発明によれ
ば、同一形状(あるいは文字画像比較部において同一で
あると判断される)の文字画像であって正解の文字コー
ドが異なる場合にも、文字画像の相対的な大きさや、前
後の文字の文字種類、単語照合等の処理を用いることに
より、全ての文字について正しい認識結果を出力するこ
とができる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】文字認識用辞書の構成を示す。
【図3】「ょ」のマッチング結果を示す。
【図4】「ょ」の類似文字処理結果を示す。
【図5】確信度算出結果を示す。
【図6】「ょ」のキャッシュデータを示す。
【図7】「よ」の類似文字処理結果を示す。
【図8】本発明の処理フローチャートを示す。
【図9】本発明の実施例2の構成を示す。
【図10】本発明の実施例3の構成を示す。
【図11】従来技術では誤認識が発生する第1の例を示
す。
【図12】従来技術では誤認識が発生する第2の例を示
す。
【図13】従来技術では誤認識が発生する第3の例を示
す。
【符号の説明】
1 文字認識処理部 2 文字切り出し部 3 文字画像比較部 4 文字認識部 5 類似文字処理部 6 言語処理部 7 パス選択部 8 確信度算出部 9 キャッシュ処理部 10 文字認識用辞書 11 画像キャッシュ 12 言語辞書

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書画像中から文字画像を切り出し、該
    切り出された文字画像を認識処理し、該認識結果に対し
    て、文字画像の位置や大きさ等を基に形状の類似した文
    字を識別する後処理を少なくても実行する文字認識方法
    であって、前記文字認識処理された文字画像と前記認識
    処理における出力とを対応づけて記憶し、記憶されてい
    る第1の文字画像と新たに切り出された第2の文字画像
    とを比較し、両画像が同一と見倣せるとき、前記第2の
    文字画像を認識処理する代わりに、前記第1の文字画像
    に対応づけて記憶されている認識処理出力を、前記第2
    の文字画像の認識出力とすることを特徴とする文字認識
    方法。
  2. 【請求項2】 前記認識処理における出力は、異なる文
    字コードで同じ形状あるいは相似形であり、文字認識処
    理によって識別不能な文字を識別するために必要な文字
    画像の相対的な大きさ/位置/縦横比などの情報を含む
    ことを特徴とする請求項1記載の文字認識方法。
  3. 【請求項3】 前記認識処理における出力は、文字画像
    の切り出し位置を特定するために必要な情報を含むこと
    を特徴とする請求項1記載の文字認識方法。
  4. 【請求項4】 前記認識処理における出力は、文字種類
    やバイグラムなどの前後の文字間の接続を評価するため
    に必要な情報を含むことを特徴とする請求項1記載の文
    字認識方法。
  5. 【請求項5】 前記認識処理における出力は、認識処理
    の後処理において言語処理を行なうために必要な情報を
    含むことを特徴とする請求項1記載の文字認識方法。
  6. 【請求項6】 前記認識処理における出力は、認識処理
    の後処理において認識結果の尤もらしさを算出するため
    に必要な情報を含むことを特徴とする請求項1記載の文
    字認識方法。
  7. 【請求項7】 前記認識処理の後処理において認識結果
    の確信度を算出し、前記文字認識処理された文字画像と
    認識処理における出力とを対応づけて記憶する際に、前
    記確信度が所定値以上大きい文字画像のみを記憶の対象
    とすることを特徴とする請求項1記載の文字認識方法。
  8. 【請求項8】 文書画像中から文字画像を切り出す手段
    と、該切り出された文字画像を認識処理する手段と、該
    認識結果に対して、文字画像の位置や大きさ等を基に形
    状の類似した文字を識別する後処理手段を備えた文字認
    識装置であって、前記認識処理された文字画像と前記認
    識結果である文字認識用特徴量とを対応づけて記憶する
    手段と、該記憶されている第1の文字画像と新たに切り
    出された第2の文字画像とを比較する手段と、該比較の
    結果、両画像が同一と見倣せるとき第1の文字画像を基
    に前記記憶手段を参照し、第1の文字画像に対応づけて
    記憶されている文字認識用特徴量を、前記第2の文字画
    像の認識結果として出力する手段を備えたことを特徴と
    する文字認識装置。
  9. 【請求項9】 前記文字認識用特徴量には、文字画像の
    相対的な大きさ/位置/縦横比を含むデータがリンクさ
    れていて、前記後処理手段は、前記認識結果として出力
    される前記文字認識用特徴量にリンクしているデータを
    参照して類似文字を識別することを特徴とする請求項8
    記載の文字認識装置。
  10. 【請求項10】 前記文字画像を認識処理する際に参照
    される文字認識用辞書と、前記記憶手段とからなる第1
    の構成部分と、前記切り出し手段と、前記認識処理手段
    と、前記後処理手段と、前記出力する手段からなる第2
    の構成部分に分離し、前記第1の構成部分と第2の構成
    部分とをネットワークを介して接続したことを特徴とす
    る請求項8記載の文字認識装置。
  11. 【請求項11】 文書画像中から文字画像を切り出す機
    能と、該切り出された文字画像を認識処理する機能と、
    該認識結果に対して、文字画像の位置や大きさ等を基に
    形状の類似した文字を識別する後処理機能をコンピュー
    タに実現させるためのプログラムを記録したコンピュー
    タ読み取り可能な記録媒体であって、前記認識処理され
    た文字画像と前記認識結果である文字認識用特徴量とを
    対応づけて記憶する機能と、該記憶されている第1の文
    字画像と新たに切り出された第2の文字画像とを比較す
    る機能と、該比較の結果、両画像が同一と見倣せるとき
    第1の文字画像を基に前記記憶手段を参照する機能と、
    前記参照された第1の文字画像に対応づけて記憶されて
    いる文字認識用特徴量を、前記第2の文字画像の認識結
    果として出力する機能と、前記文字認識用特徴量にリン
    クしている、文字画像の相対的な大きさ/位置/縦横比
    を含むデータを参照して類似文字を識別する機能をコン
    ピュータに実現させるためのプログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
JP10256667A 1998-09-10 1998-09-10 文字認識方法、装置および記録媒体 Pending JP2000090200A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10256667A JP2000090200A (ja) 1998-09-10 1998-09-10 文字認識方法、装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10256667A JP2000090200A (ja) 1998-09-10 1998-09-10 文字認識方法、装置および記録媒体

Publications (1)

Publication Number Publication Date
JP2000090200A true JP2000090200A (ja) 2000-03-31

Family

ID=17295806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10256667A Pending JP2000090200A (ja) 1998-09-10 1998-09-10 文字認識方法、装置および記録媒体

Country Status (1)

Country Link
JP (1) JP2000090200A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277149A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字画像切出装置、文字画像切出方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277149A (ja) * 2005-03-28 2006-10-12 Fuji Xerox Co Ltd 文字画像切出装置、文字画像切出方法およびプログラム

Similar Documents

Publication Publication Date Title
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN111079412A (zh) 文本纠错方法及装置
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JPH0684006A (ja) オンライン手書き文字認識方法
KR20170004983A (ko) 라인 분할 방법
JP5390522B2 (ja) 表示文書を解析に向けて準備する装置
EP2138959B1 (en) Word recognizing method and word recognizing program
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2002063548A (ja) 手書き文字認識方法
JP2000090200A (ja) 文字認識方法、装置および記録媒体
JP3669626B2 (ja) 検索装置、記録媒体およびプログラム
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
JP4601835B2 (ja) 単語認識方法および単語認識プログラムおよび単語認識装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP2022095391A (ja) 情報処理装置、及び情報処理プログラム
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JPH09274645A (ja) 文字認識方法および装置
JP2671984B2 (ja) 情報認識装置
JP6523988B2 (ja) 文字認識装置、文字認識方法、およびプログラム
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2851102B2 (ja) 文字切出し方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060502

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060630

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060726