JP2003173421A - 文字認識結果補正装置 - Google Patents

文字認識結果補正装置

Info

Publication number
JP2003173421A
JP2003173421A JP2001373535A JP2001373535A JP2003173421A JP 2003173421 A JP2003173421 A JP 2003173421A JP 2001373535 A JP2001373535 A JP 2001373535A JP 2001373535 A JP2001373535 A JP 2001373535A JP 2003173421 A JP2003173421 A JP 2003173421A
Authority
JP
Japan
Prior art keywords
character
character recognition
word
book
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001373535A
Other languages
English (en)
Inventor
Hiroshi Seki
洋 関
Hiroki Sano
広樹 佐野
Yasuo Yoshinari
康男 吉成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001373535A priority Critical patent/JP2003173421A/ja
Publication of JP2003173421A publication Critical patent/JP2003173421A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】文字認識補正に利用する単語辞書を、現在利用
している電子図書から自動作成してユーザ辞書の作成に
関わる負担を減らし、電子図書と同じ分野の類似する記
述内容を持つ過去の印刷物の図書に対する文字認識精度
を向上させる。 【解決手段】印刷物である図書の原稿200に記載の文
字をスキャナ400で電子画像データとし、その電子画
像データから文字認識サーバ500が文字を認識し、そ
の文字認識情報より単語を取出し、文字誤認識補正サー
バ600が印刷物の図書に対応する電子図書より抽出し
た単語辞書を利用して、文字認識の結果取り出された単
語に対応する電子図書を特定して、該特定した電子図書
に含まれる単語群を利用して文字認識情報のうち、誤認
識の可能性のある文字を単語群中の文字列と認識結果の
文字列の比較により判定し、その後認識文字を補正し、
補正結果等を認識結果管理PCを用いて表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、印刷物に含まれる
文字列を電子的に効率よく取り出し、その文字認識精度
を向上させるために用いられる技術に関するものであ
る。
【0002】
【従来の技術】従来からOCR(Optical Character Rea
ding、光学的文字認識)技術により、印刷物である活字
図書をスキャナなどにより読み込み電子化したものか
ら、文字を認識する技術が図書の電子的な利用に用いら
れてきた。
【0003】印刷物としての紙の図書にはさまざまな品
質のものがあり、これがOCRの文字認識精度に大きな
影響を及ぼす。すなわち、比較的に印字品質の悪いFA
X文書や多数回コピーした紙のように文字のかすれやつ
ぶれのあるものからコンピュータでプリンタに直接印字
した印字品質の良いものまでを比較すれば、印字品質の
良いものを認識させた方が、文字認識精度が良いことは
明らかである。
【0004】しかしながら、過去の古い紙の文書に対し
ても高精度で文字認識をしたいという要求もあり、こう
いった要求に対応する様々な方法が提案されている。例
えば、ユーザ辞書により、画像としての文字と認識すべ
き文字コードを対応付ける方式や単語としての文字辞書
を使って文字の並び情報で文字認識結果を補正しようと
するものがある。
【0005】従来技術で文字認識を実施する際には認識
対象の画像に含まれる文字の形に対応した文字コードを
与えるための辞書が必要であり、文字の並びを決めるた
めの単語辞書を用いることでさらに認識精度を向上させ
るという手法が考えられる。基本的な字形−文字コード
の対応関係を表す辞書が必要である。
【0006】例えば、特開平9−62773号公報に記
載の文字認識装置では文字の標準的な特徴量が登録され
ている辞書を利用することを前提として、原稿画像より
2値化した画像と辞書に登録されている標準的な特徴量
とを比較して類似度または相違度を算出して、類似度が
大きいまたは相違度が小さい一つ以上の認識候補文字を
決定する。
【0007】また、特開平7−302306号公報に記
載の文字入力装置では単語辞書を予め用意しておき、日
本語としてもっともらしい認識結果を出力するととも
に、誤認識による前後の認識結果への悪影響を除去する
装置について述べられている。
【0008】
【発明が解決しようとする課題】このように、様々な字
形に対応する文字コードを辞書の形でユーザが与えるこ
とはユーザにとって大きな負担になる。また、単語辞書
の作成についても同様にユーザの大きな負担になる。
【0009】さらに、様々な分野の図書を想定して認識
するための単語辞書を予め用意することは非常に困難で
あると考えられる。
【0010】また、実際に文字認識を実施する際にも、
辞書の中の膨大な単語の集合の中から、一致する文字を
選択する処理を実行することにより処理時間が大きくな
ることが予想される。
【0011】このような課題を解決するため、本発明
は、印刷物の図書に対する文字認識結果より単語を取り
出す手段と、文字認識の結果取り出された単語に対応す
る電子図書を特定して、文字認識対象の分野を限定し
て、その電子図書に含まれる単語群を利用して、文字認
識結果のうち、誤認識の可能性のある文字を、単語群中
の文字列と認識結果の文字列の比較により判定して補正
することが可能な文字認識結果補正装置を提供すること
を目的とする。
【0012】
【課題を解決するための手段】上記目的を達成する第1
手段の要旨は、印刷物の図書に対する計算機の文字認識
結果より単語を取り出す手段と電子図書より抽出した単
語辞書を利用して、文字認識の結果取り出された単語に
対応する電子図書を特定する手段と、該特定した電子図
書に含まれる単語群を利用して文字認識結果のうち、誤
認識の可能性のある文字を、単語群中の文字列と認識結
果の文字列の比較により判定して、補正する手段を有す
ることを特徴とする。これにより、文字認識補正に利用
する単語辞書を現在利用している電子図書から自動作成
してユーザ辞書の作成に関わる負担を減らしつつ、作成
済みの電子図書と同じ分野で、かつ、類似する記述内容
を持つ過去の印刷物の図書に対する文字認識精度を向上
させることができる。
【0013】上記目的を達成する第2手段の要旨は、第
1手段に加えて、補正前の文字と補正後の文字を対応付
けて表示する手段を有することを特徴とする。これによ
り、実際の文字認識の補正結果を確認することができ
る。
【0014】上記目的を達成する第3手段の要旨は、第
1手段に加えて、特定した電子図書に含まれる単語群の
中に文字認識結果に対応するものがない場合は、文字認
識結果の対応部分について文字補正不可の情報を生成
し、表示する手段を有することを特徴とする。これによ
り本方式および装置により補正が不可能だった文字をユ
ーザに提示し、ユーザに修正を促す情報を表示すること
ができる。
【0015】上記目的を達成する第4手段の要旨は、第
1手段に加えて、文字認識対象文書に含まれる単語パタ
ーンから、対応する電子図書の候補を抽出し、文字認識
対象文書と電子図書を対応付けて表示する手段を有する
ことを特徴とする。これにより、過去の印刷物の図書と
現在の電子図書を対応付けて、新たな電子図書を作成す
る際の支援情報を出力することができる。
【0016】
【発明の実施の形態】本発明の実施による文字認識結果
補正装置の構成について図1を用いて説明する。本発明
の実施例では、文字列をもって表現された文章が印刷物
である原稿200の紙上に表現されている。
【0017】文字認識結果補正装置は、その文章を原稿
200から読み取り、電子画像データに変換するスキャ
ナ400と、電子画像データから文字列中の文字を認識
する文字認識サーバ500と、電子図書から単語辞書を
生成し、かつ、生成した辞書を利用して文字誤認識部分
を補正する文字誤認識補正サーバ600と、電子図書を
作成するためのワードプロセッサなどのプログラムが格
納されている電子図書作成クライアントパーソナルコン
ピュータ(以下、単に電子図書作成クライアントPCと
いう。)100a〜100c,文字認識情報および文字
誤認識補正結果を確認するための認識結果管理パーソナ
ルコンピュータ(以下、単に認識結果管理PCとい
う。)800とを備え、コンピュータで構成されている
文字誤認識補正サーバ600と電子図書作成クライアン
トPC100a〜100cおよびコンピュータで構成さ
れている文字誤認識補正サーバ600とコンピュータで
構成されている文字認識サーバ500と認識結果管理P
C800とはそれぞれネットワーク1000およびネッ
トワーク2000でデータ通信可能に接続されている。
【0018】図2は図1の文字認識結果補正装置を構成
する各装置の機能を表す。文字誤認識補正サーバ600
は形態素解析ツール10,関連図書検索処理部20,誤
認識部分補正処理部30を有し、文字認識サーバ500
からの文字認識情報600−iを入力として、誤認識部
分補正処理部30からの文字認識補正結果600−oを
出力する。
【0019】電子図書作成クライアントPC100a〜
100cの少なくとも一つから入力した電子図書100
と電子図書より作成した図書番号付き単語辞書60を文
字誤認識補正サーバ600の記憶装置に格納しておく。
その記憶装置内の記憶情報を関連図書検索処理部20と
誤認識部分補正処理部30が利用できる構成を有する。
【0020】図4は新規電子図書を作成して、登録する
際の図書番号付き単語辞書作成処理の流れを示す図であ
る。ここでは電子図書よりテキスト情報を抽出する(STE
P11)。そして、形態素解析ツール10を利用してテキス
ト情報より単語データを抽出する(STEP12)。最
後に単語リストに対応する図書番号を図書番号付き単語
辞書60に追加して登録する(STEP13)。これに
より、文字認識補正に利用する単語辞書を現在利用して
いる電子図書から自動作成してユーザ辞書の作成に関わ
る負担を減らすことができる。
【0021】一方、スキャナ400は、図書である原稿
200に印刷されている文字を電子画像データに変換す
る。電子画像データは文字認識サーバ500の文字認識
処理ツール50で処理されて文字認識サーバ500から
文字認識情報600−iが文字誤認識補正サーバ600
へ出力する。
【0022】図3は文字認識処理および処理結果におけ
る誤認識部分の補正処理の流れを示す図である。本処理
は印刷物の図書を読み込み、文字認識情報を補正するま
での一連の処理の流れを示すものである。
【0023】まず、印刷物、すなわち文字が印刷されて
いる紙の図書である原稿200をスキャナ400で読み
込み、紙面上の情報を電子画像データに変換する(ST
EP40)。
【0024】次に文字認識処理ツール50で、スキャナ
400により生成した電子画像データから文字認識処理
により文字認識情報を抽出する(STEP50)。
【0025】STEP50で得られた文字認識情報60
0−iに含まれる文字データを利用して、関連図書検索
処理部20で形態素解析処理により単語データを抽出す
る(STEP21)。ここで抽出した単語データに関わ
る電子図書を、図書番号付き単語辞書60を利用して検
索する(STEP22)。そして、検索した電子図書に
含まれる単語のリストを抽出する(STEP23)。
【0026】図5は図3のSTEP22,STEP23
の単語に関わる図書を検索する処理と単語リストを抽出
する処理、図4の新規電子図書から単語を抽出して辞書
に追加登録する処理に関わる図書番号付き単語辞書60
の一例を示すものである。図書番号付き単語辞書60は
単語と図書リストの組み合わせからなり、一つの単語に
対して複数の図書番号が対応する。
【0027】すなわち、図書1101には『項目』,
『高』,『高電導』,『高電導度』が含まれるが、この
単語を縦に並べ、対応する図書番号を並べたものであ
る。例えば、『高電導度』という単語は、ここでは図書
1101と図書1102に含まれることがわかる。
【0028】図6は図3のSTEP21からSTEP2
3までの処理で実施される電子画像データからの文字認
識および単語抽出の例を示す図である。スキャナ400
により取り込まれた電子画像データ301は文字認識処
理ツール50により文字認識情報302としてテキスト
情報に変換される。このテキスト情報から関連図書検索
処理部20の中で単語とその品詞情報303を抽出す
る。単語と品詞情報を抽出する処理は形態素解析ツール
10の中で実施するものと同一の処理である。ここで取
り扱う文字とは、ひらがな,かたかな,漢字,数字,ア
ルファベット、および記号を含み、計算機上でUnicode
やシフトJISコードなどで符号化可能な情報のことを
いう。たとえばシフトJISコードの16進表現で、
「高」であれば8D82、「(」であれば8169など
と表現されるものを文字として扱う。
【0029】このようにして、STEP23で抽出した
単語リストはスキャナ側からの情報に基づく文字認識情
報と比較されて、誤認識部分が補正される(STEP3
0)。
【0030】次にSTEP30の詳細について説明す
る。図7は図3のSTEP30、すなわち、単語リスト
と文字認識処理結果を比較し誤認識部分を補正する処理
の詳細の流れを示す図である。図6のように、文字認識
情報302より抽出した単語とその品詞情報303を利
用して単語の名詞部分が含まれる図書番号を図書番号付
き単語辞書60より検索する(STEP31)。
【0031】次に検索された図書番号で、修正用の単語
辞書セットを図書番号付き単語辞書60より抽出するこ
とで作成する(STEP32)。ここで作成する単語辞
書セットは図8に示すようなものになる。すなわち、紙
の図書作成の工程とは別工程で作成した電子図書より抜
き出した「システム」,「高電導度」,「高電導度廃液
系」などの単語のリストからなる。これらは、紙の図書
の文字認識情報600−iの中の誤認識結果を補正する
ための正確な単語リストとして用いることになる。この
ため、文字認識情報を補正するための単語を有する電子
図書を限定して、より少ない数の単語リストで文字誤認
識結果を効率よく補正することができる。
【0032】次に図8の単語リストと文字認識部分を比
較し誤認識部分を補正する処理においては、文字誤認識
補正処理を実施する(STEP34)。
【0033】図9はSTEP34の文字誤認識補正処理
の詳細な処理の流れを示す図である。図7のSTEP3
2で作成した単語辞書セットを利用して、その単語辞書
セットに含まれる辞書単語数分だけ処理を繰り返す(S
TEP341)。
【0034】もし、紙の図書より認識した文字より抽出
した単語のうち名詞部分(例えば図6の品詞情報303
の名詞で示される抽出した単語リスト)が辞書単語の先
頭文字が一致すれば以下の文字誤認識結果補正処理を開
始する(STEP342、Yes)。もし、一致しなけ
れば(STEP342、No)、単語辞書セットに含ま
れる次の辞書単語に関して文字認識情報の先頭文字が一
致するかの判定を実施する。
【0035】まず、処理の中では辞書単語と文字認識情
報の比較により文字不一致数と不一致場所を検索する処
理(STEP346)に関する繰り返し処理を実施す
る。繰り返し処理は、各辞書単語につき1文字から最大
文字列数分繰り返し(STEP343)、その内側の繰
り返しでは文字列開始位置から最大文字列数までの繰り
返し処理(STEP344)を実施する。さらに内側の
繰り返し処理でSTEP344で決められた文字長の分
だけで、ある文字開始位置からの辞書単語と文字認識情
報の比較により文字不一致数と不一致場所を検索する処
理(STEP346)を繰り返す(STEP345)。
【0036】以上のSTEP344から内側の繰り返し
処理の結果得られた比較結果により、文字が1文字のみ
異なるケースがmケース以上あれば(STEP347、
Yes)、認識した文字列中で誤認識した1文字、即ち比
較して異なる一文字を辞書単語の文字列中の比較相手の
文字に入れ替えて補正する(STEP348)。又、誤
認識した1文字を含んだ文字列を比較相手の辞書単語の
文字列に入れ替えて補正しても良い。もし、比較の結
果、mケース以下であれば(STEP347、No)、文
字補正不可の候補リストとして記憶しておく。
【0037】以上の処理で文字補正不可の候補リストが
全辞書単語数分繰り返しても残っていれば、その候補リ
ストを図7のSTEP36の未確認単語情報の生成に利
用する。
【0038】図10は文字認識情報の誤認識部分の補正
の一例を示す図である。例えば文字認識情報の一部で4
文字からなる単語で誤認識の文字が含まれる『高麗導
度』という単語に着目した場合に、ここから一文字とり
だした場合、二文字取り出した場合、三文字取り出した
場合、四文字取り出した場合の10通りの文字列の取り
出し方が考えられる。これらの文字列に対して辞書に登
録されている単語(30b)との比較を実施すると部分的に
一致する文字列があることがわかる。この場合、辞書中
の『電』という文字が認識結果の『麗』と異なるケース
が3ケースある(30c)。例えば2ケース以上このよ
うな部分的な不一致があれば、それは、文字の誤認識と
判定して認識した文字を辞書の文字と置き換える処理を
実行する(30d)。その結果『電』と『麗』が置き換
えられる(30e)。認識した文字からなる単語の比較
すべき文字列の長さと部分的な不一致のケースの閾値m
は誤認識部分補正処理部に対して、パラメータとして外
部から与えることになる。以上の文字認識情報の誤認識
部分の補正に関しては、図9の処理を利用することにな
る。
【0039】このようなSTEP34の文字誤認識補正
処理において、未確認の単語があれば(STEP35、
Yes)、文字認識結果修正情報および未確認単語情
報、ならびに確認用に用いた電子図書を出力する(ST
EP36)。
【0040】もし、未確認の単語がなければ(STEP
35、No)、文字認識結果修正情報および確認用に用
いた電子図書を出力する(STEP37)。
【0041】それらの各出力は認識結果管理PC800
の表示画面に画像として表示される。その一例が図11
に示されている。その図11は、認識結果管理PC80
0が認識結果管理PC800のCRT画面に文字認識補
正結果を表示した場合の画面表示800(i)の表示例
である。ここでは、スキャナ400で原稿200から取
り込んだ電子画像データのファイルの内容を原画像とし
て表示し、文字認識情報,文字認識補正結果を対応付け
て一画面内に表示する。また、文字認識補正時に利用し
た電子図書の電子ファイル名を併せて表示する。これに
より、文字認識補正に利用する単語辞書を現在利用して
いる電子図書から自動作成してユーザ辞書の作成に関わ
る負担を減らしつつ、作成済みの電子図書と同じ分野
で、かつ、類似する記述内容を持つ過去の印刷物の図書
に対する文字認識精度を向上させることができる。
【0042】以上の処理により、電子図書と同じ分野の
類似する記述内容を持つ過去の印刷物の図書に対する文
字認識精度を向上させることができ、実際の文字認識の
補正結果を確認することができる。また本装置により補
正が不可能だった文字をユーザに提示し、ユーザに修正
を促す情報を表示することができる。さらに、過去の印
刷物の図書と現在の電子図書を対応付けて、新たな電子
図書を作成する際の支援情報を出力することができる。
【0043】このように、本発明の実施例によれば、印
刷物の図書に対する文字認識情報より単語を取り出す手
段と、文字認識の結果取り出された単語に対応する電子
図書を特定して、文字認識対象の分野を限定して、その
電子図書に含まれる単語群を利用して、文字認識情報の
うち、誤認識の可能性のある文字を、単語群中の文字列
と認識結果の文字列の比較により判定して補正すること
が可能な文字認識結果補正装置を提供することができ
る。
【0044】さらに本発明の実施例では、補正前の文字
と補正後の文字を対応付けて表示することにより、文字
の補正結果を確認する手段を提供でき、さらには、特定
した電子図書に含まれる単語群の中に文字認識情報に対
応するものがない場合は、文字認識情報の対応部分につ
いて文字補正不可の情報を生成し、表示することにより
本文字認識結果補正装置により補正不可の情報を判断で
きる。
【0045】さらに本発明の実施例では、文字認識対象
文書に含まれる単語パターンから、対応する電子図書の
候補を抽出し、文字認識対象文書と電子図書を対応付け
て表示することにより、過去の印刷物の図書と現在の電
子図書を対応付けて、新たな電子図書を作成する際の支
援情報を提供できる。
【0046】
【発明の効果】以上説明したように、本発明によれば、
文字認識補正に利用する単語辞書を現在利用している電
子図書から自動作成してユーザ辞書の作成に関わる負担
を減らしつつ、電子図書と同じ分野の類似する記述内容
を持つ過去の印刷物の図書に対する文字認識精度を向上
させることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係わる文字認識結果補正
装置の構成図である。
【図2】図1の装置の各処理部の機能構成を示す図であ
る。
【図3】文字認識処理および処理結果における誤認識部
分の補正処理の流れを示す図である。
【図4】電子図書登録における図書番号付き単語辞書作
成処理の流れを示す図である。
【図5】図書番号付き単語辞書の例を示す図である。
【図6】画像データからの文字認識および単語抽出の例
を示す図である。
【図7】単語リストと文字認識部分を比較し誤認識部分
を補正する処理の流れを示す図である。
【図8】電子図書より抽出した辞書単語リストの例を示
す図である。
【図9】文字誤認識補正処理の詳細な処理の流れを示す
図である。
【図10】文字認識情報の誤認識部分の補正の例を示す
図である。
【図11】認識結果管理PC800のCRT画面に文字
認識補正結果を表示した場合の画面表示例を示す図であ
る。
【符号の説明】
100a,100b,100c…電子図書作成クライア
ントPC、200…原稿、400…スキャナ、500…
文字認識サーバ、600…文字誤認識補正サーバ、80
0…認識結果管理PC、1000,2000…ネットワ
ーク。
フロントページの続き (72)発明者 吉成 康男 茨城県日立市幸町三丁目1番1号 株式会 社日立製作所原子力事業部内 Fターム(参考) 5B064 AA01 EA19 FA04 FA05 FA06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】文字情報を含んだ電子画像データから前記
    文字情報を認識する文字認識処理手段と、 電子図書作成手段により作成した電子図書から単語デー
    タを抽出する形態素解析手段と、 前記形態素解析手段で抽出した単語データを前記電子図
    書の図書番号とともに単語辞書の単語データとして記憶
    する記憶手段と、 前記文字認識処理手段によって認識された文字認識情報
    から抽出した単語データに関わる電子図書を前記記憶手
    段から検索する関連図書検索処理手段と、 前記検索した電子図書に含まれる単語データ群中の文字
    列と前記文字認識情報の単語データ中の文字列の比較に
    より前記文字認識情報の文字列中の誤認識の文字を判定
    して、その判定した文字を前記検索した電子図書中の文
    字列中の比較した文字に補正する誤認識部分補正処理手
    段を有する文字認識結果補正装置。
  2. 【請求項2】請求項1において、文字認識処理手段によ
    る認識した文字を補正前の文字とし、誤認識部分補正処
    理手段による補正を施した文字を補正後の文字とし、前
    記補正前の文字と前記補正後の文字とを対応付けて表示
    する表示手段を有する文字認識結果補正装置。
  3. 【請求項3】請求項1において、前記検索した電子図書
    に含まれる単語データ群中に前記文字認識情報の文字に
    対応するものがない場合は、その文字認識情報の対応部
    分について文字補正不可の情報を生成し、その情報を表
    示する表示手段を有する文字認識結果補正装置。
  4. 【請求項4】請求項1において、前記検索した電子図書
    と、前記電子画像データによる文字列の原画像と対応付
    けて表示する表示手段を有する文字認識結果補正装置。
JP2001373535A 2001-12-07 2001-12-07 文字認識結果補正装置 Pending JP2003173421A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001373535A JP2003173421A (ja) 2001-12-07 2001-12-07 文字認識結果補正装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001373535A JP2003173421A (ja) 2001-12-07 2001-12-07 文字認識結果補正装置

Publications (1)

Publication Number Publication Date
JP2003173421A true JP2003173421A (ja) 2003-06-20

Family

ID=19182245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001373535A Pending JP2003173421A (ja) 2001-12-07 2001-12-07 文字認識結果補正装置

Country Status (1)

Country Link
JP (1) JP2003173421A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102264A (ja) * 2005-09-30 2007-04-19 Toshiba Corp 文字認識装置および文字認識方法
JP2011065373A (ja) * 2009-09-16 2011-03-31 Toshiba Tec Corp 辞書更新装置及び辞書更新プログラム並びに文字認識装置及び文字認識プログラム。
US8576444B2 (en) 2010-02-26 2013-11-05 Brother Kogyo Kabushiki Kaisha Print data generating device and non-transitory recording medium for generating print data of a print image continuing on one or more pages so that electronic image data of the print image is readily and reliably obtained from the print image
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102264A (ja) * 2005-09-30 2007-04-19 Toshiba Corp 文字認識装置および文字認識方法
JP4528705B2 (ja) * 2005-09-30 2010-08-18 株式会社東芝 文字認識装置および文字認識方法
JP2011065373A (ja) * 2009-09-16 2011-03-31 Toshiba Tec Corp 辞書更新装置及び辞書更新プログラム並びに文字認識装置及び文字認識プログラム。
US8576444B2 (en) 2010-02-26 2013-11-05 Brother Kogyo Kabushiki Kaisha Print data generating device and non-transitory recording medium for generating print data of a print image continuing on one or more pages so that electronic image data of the print image is readily and reliably obtained from the print image
JP2015032017A (ja) * 2013-07-31 2015-02-16 京セラドキュメントソリューションズ株式会社 画像形成装置

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
Taghva et al. OCRSpell: an interactive spelling correction system for OCR errors in text
US8489388B2 (en) Data detection
JP2713622B2 (ja) 表形式文書読取装置
JP4332356B2 (ja) 情報検索装置及び方法並びに制御プログラム
CN113168498A (zh) 语言校正系统及其方法以及系统中的语言校正模型学习方法
US20120039536A1 (en) Optical character recognition with two-pass zoning
US20060285748A1 (en) Document processing device
JP2006276914A (ja) 翻訳処理方法、文書処理装置およびプログラム
US10896292B1 (en) OCR error correction
KR20060001392A (ko) 문자 인식을 이용한 내용검색 기반의 문서 이미지 저장 방법
JP4576211B2 (ja) 文書情報検索システム
JP2003173421A (ja) 文字認識結果補正装置
JP2020184275A (ja) 画像処理装置、画像処理方法、及びプログラム
Simske et al. Creating digital libraries: content generation and re-mastering
JP2007011683A (ja) 文書管理支援装置
US20050251743A1 (en) Learning apparatus, program therefor and storage medium
JP2010211470A (ja) 文書データ生成装置と文書データ生成方法
JP7172343B2 (ja) 文書検索用プログラム
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
IES61092B2 (en) Automated forms processing
JPH10134141A (ja) 文書照合装置および方法
JP3928739B2 (ja) 文書ファイリングシステム
Borpuzari et al. A Framework for Pre Processing, Recognizing and Distributed Proofreading of Assamese Printed Text