JP2008226030A - 単語認識方法および単語認識プログラム - Google Patents

単語認識方法および単語認識プログラム Download PDF

Info

Publication number
JP2008226030A
JP2008226030A JP2007065522A JP2007065522A JP2008226030A JP 2008226030 A JP2008226030 A JP 2008226030A JP 2007065522 A JP2007065522 A JP 2007065522A JP 2007065522 A JP2007065522 A JP 2007065522A JP 2008226030 A JP2008226030 A JP 2008226030A
Authority
JP
Japan
Prior art keywords
word
matching
character
score
quality score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007065522A
Other languages
English (en)
Other versions
JP4672692B2 (ja
Inventor
Tomoyuki Hamamura
倫行 浜村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007065522A priority Critical patent/JP4672692B2/ja
Priority to EP08712055.6A priority patent/EP2138959B1/en
Priority to KR1020087020028A priority patent/KR101016544B1/ko
Priority to PCT/JP2008/053433 priority patent/WO2008111399A1/ja
Priority to US12/184,456 priority patent/US8208685B2/en
Publication of JP2008226030A publication Critical patent/JP2008226030A/ja
Application granted granted Critical
Publication of JP4672692B2 publication Critical patent/JP4672692B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

【課題】単語の記載位置が未知である場合においても精度良く単語認識が行えるようにすること。
【解決手段】被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法において、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出する単語マッチング処理(12)を行い、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出処理(13)を行い、上記文字品質スコア算出処理で得られる文字品質スコアを元に上記マッチング処理で得られるマッチングスコアを補正する処理(14)を行う。
【選択図】 図6

Description

本発明は、例えば、被読取物上に記載された複数の文字からなる単語を光学的に読取る光学的文字読取装置などにおいて単語認識を行う単語認識方法、および、その単語認識処理を行わせるための単語認識プログラムに関する。
一般に、例えば、光学的文字読取装置において、被読取物上に記載された文字を読取る場合、個々の文字認識精度が低くても、単語の知識を用いることで精度良く読取ることができる。従来、その実施方法として種々の方法が提案されている。
その中で、単語の評価値として事後確率(a posteriori probability)を用い、かつ文字数が一定でない場合においても精度良く単語認識が行える方法として、特許文献1に開示されるものがある。
特開2001−283157号公報
しかしながら、特許文献1に開示されるものは、単語の記載位置が既知である場合を想定しており、単語の記載位置が未知である場合は十分な精度で単語認識を行えるとは言えない。例えば、正解単語が乱雑に記載されており、非正解単語が丁寧に記載されていたような場合、非正解単語と似た辞書内単語の評価値(マッチングスコア)が高くなってしまい、その結果、誤認識が生じやすくなる。
そこで本発明は、単語の記載位置が未知である場合においても精度良く単語認識が行える単語認識方法および単語認識プログラムを提供することを目的とする。
本発明に係る単語認識方法は、被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法であって、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップとを具備したことを特徴とする。
本発明に係る単語認識プログラムは、コンピュータに、被読取物上に記載された文字情報の文字読取を行って得られる単語候補に対する認識処理を行わせる単語認識プログラムであって、上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップとを有することを特徴とする。
この発明によれば、単語の記載位置が未知である場合においても精度良く単語認識が行える単語認識方法および単語認識プログラムを提供できる。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すものである。
図1において、この単語認識システムは、CPU(セントラル・プロセッシング・ユニット)1、入力装置2、画像入力手段としてのスキャナ3、表示装置4、記憶手段としての第1メモリ5、記憶手段としての第2メモリ6、および、読取装置7などによって構成されている。
CPU1は、第2メモリ6に格納されたオペレーティングシステムプログラム、および、第2メモリ6に格納されたアプリケーションプログラム(単語認識プログラムなど)を実行することにより、後で詳細を説明するような単語認識処理などを行うものである。
入力装置2は、例えば、キーボードやマウスなどからなり、利用者が各種操作を行ったり、各種データを入力するために使用される。
スキャナ3は、被読取物上に記載された単語の各文字を光学的な走査により読取って入力するものである。
表示装置4は、例えば、ディスプレイ装置やプリンタなどからなり、各種データを出力するものである。
第1メモリ5は、例えば、RAM(ランダム・アクセス・メモリ)により構成されていて、CPU1の作業用メモリとして使用され、処理中の各種データなどを一時記憶するものである。例えば、後述する文字辞書9、単語辞書10、確率テーブル11などを一時記憶する。
第2メモリ6は、例えば、ハードディスク装置により構成されていて、CPU1を動作させるための各種プログラムなどを記憶するものである。第2メモリ6には、入力装置2、スキャナ3、表示装置4、第1メモリ5、第2メモリ6、読取装置7などを動作させるためのオペレーティングシステムプログラム、単語認識プログラムおよび単語を構成する文字の認識用の文字辞書9、単語認識用の単語辞書10、単語を構成する文字の出現確率を記憶している確率テーブル11などが記憶されている。上記単語辞書10としては、あらかじめ認識すべき単語の候補が複数格納されているものであり、単語認識システムが設置されている地域、例えば州における都市名が登録されている都市名辞書となっている。
読取装置7は、例えば、CD−ROMドライブ装置などからなり、記憶媒体としてのCD−ROM8に格納(記憶)されている単語認識プログラムおよび単語認識用の単語辞書10などを読取るものである。読取装置7により読取られた単語認識プログラム、文字辞書9、単語辞書10、確率テーブル11は、第2メモリ6に格納(記憶)される。
次に、単語認識方法の概略について、図2に示すフローチャートを参照しつつ説明する。
まず、スキャナ3により郵便物Pの画像を取り込む(読取る)画像取り込み処理が行われる(ステップST1)。この画像取り込み処理により取り込んだ画像により宛名の記載されている領域を検出する領域検出処理が行われる(ステップST2)。この領域検出処理により検出した宛名の記載領域から都市名に対応する単語の1文字ずつの矩形領域の文字パターンを、垂直射影や水平射影を用いて切出す切出し処理が行われる(ステップST3)。この切出し処理により切出された単語の1文字ずつの文字パターンと文字辞書9に記憶されている文字パターンとを比較して得られる類似度により文字の認識候補を得る文字認識処理が行われる(ステップST4)。この文字認識処理により得られる単語の1文字ずつの認識結果と単語辞書10に記憶されている都市名の各文字と確率テーブル11とを用いて、単語辞書10の各都市名ごとの事後確率を算出し、事後確率の一番大きなものを単語として認識する単語認識処理が行われる(ステップST5)。上記各処理はCPU1により制御されている。
以下では、具体例の1つとして、アルファベット圏の帳票等に記載された宛先住所の中から、都市名を読み取る例について説明する。
図3はスキャナ等により取り込まれたアルファベット圏の帳票等の画像の例を示す図である。図4はスキャナ等により取り込まれた画像から検出される単語候補の例を示す図である。図5は都市名単語の登録された単語辞書の例を示す図である。この場合、図3の画像の中から、図4の画像に示されるような単語候補が検出され、これら単語候補の中から単語辞書に登録されている単語(例えば、図5の単語辞書に登録されている都市名)が探し出され、当該帳票等に記載されている単語(例えば、都市名)が特定されることになる。その際、本実施形態では特に、単語候補と単語辞書内の単語とのマッチング処理の結果に対し、所定の補正処理が施される。
ここで、本実施形態による補正処理を含む単語認識方法について、図6に示すフローチャートを参照しつつ説明する。
図3に示されるような帳票等の画像がスキャナ等を通じて取り込まれると、図4に示されるように画像の中に含まれる個々の単語候補が検出される(ステップ11)。検出された単語候補には通し番号が振られる。
次に、各単語候補に対する単語マッチング処理が行われる(ステップ12)。単語マッチング処理は、各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出する処理である。
この単語マッチング処理には、DP(Dynamic Programming)マッチング(もしくは「動的計画法」)と呼ばれる周知の技術を適用することが可能である。このDPマッチングは、特に要素数(例えば文字数)が異なる対象物(例えば単語)どうしを照合するにあたり、類似度などを算出する計算処理を最小限にするアルゴリズムとしてよく知られ、要素間のずれなどを考慮しつつ、要素間の対応付け(整列化)を行い、最適な照合処理を実現するものである。この技術を援用することにより、マッチング処理における速度の向上などを図ることができる。
単語マッチング処理で算出されたマッチングスコアは、マッチングスコアテーブルに記憶される。図7は、マッチングスコアテーブルに記憶されたマッチングスコアの例を示す図である。このマッチングスコアテーブルには、通し番号1〜7の各単語候補と単語辞書内の都市名単語“STOCKHOLM”,“TOCHICA”,“MOHEDA”,…とのマッチング処理結果であるマッチングスコアが単語毎に記憶されている。
通し番号3の単語候補は、実際の帳票上では、町名を示す“TOSHIBA”が書かれており、単語辞書内の各都市名単語とのマッチングスコアは低くなることが予想される。しかしながら、単語辞書内には、“TOSHIBA”とは5文字が一致し、2文字が異なる都市名単語“TOCHICA”が存在する。帳票上では“TOSHIBA”を構成する個々の文字が丁寧に書かれているがために、一致する5文字により、単語辞書内の都市名単語“TOCHICA”とのマッチングスコア(符号a)が高くなってしまっている。
一方、通し番号6の単語候補は、実際の帳票上では、都市名を示す“StockHolm”が書かれており、単語辞書内の都市名単語“STOCKHOLM”とのマッチングスコアが高くなることが期待される。しかしながら、帳票上では“STOCKHOLM”が乱雑に書かれているがために、そのマッチングスコア(符号b)は期待されるほど高くなってはいない。
この時点では、符号bのマッチングスコアよりも符号aのマッチングスコアの方が高いため、帳票上に書かれた“TOSHIBA”が都市名単語“TOCHICA”として誤認識されてしまう可能性がある。本実施形態では、以下の各ステップによりこの誤認識を防止する。
上記単語マッチング処理の後、各単語候補に対する文字品質スコア算出処理が行われる(ステップ13)。この文字品質スコア算出処理は、各単語候補を構成する各文字が任意の文字(文字辞書内のアルファベットのうちのいずれかの文字)に一致する度合いを示す文字品質スコアを算出する処理である。例えば、ある単語候補内のある文字候補の品質スコアを算出する際には、その文字候補が文字辞書内のいずれかのアルファベットに一致する確率(もしくは類似度)を算出する。このような算出処理を文字候補毎に行って得られる個々の品質スコアをそれぞれ加算等した結果が、その単語候補の文字品質スコアとして採用される。
この文字品質スコア算出処理においても、文字候補のマッチング処理の際に前述したDPマッチングを適用することが可能である。
文字品質スコア算出処理で算出された文字品質スコアは、文字品質スコアテーブルに記憶される。図8は、文字品質スコアテーブルに記憶された文字品質スコアの例を示す図である。この文字品質スコアテーブルには、通し番号1〜7の各単語候補に対する文字品質スコアが記憶されている。
例えば、帳票上に書かれた通し番号3の単語候補や通し番号7の単語候補は、各文字が丁寧に書かれている。特に文字と文字との境目がはっきりとしているため個々の文字を間違いなく特定できる。特定される個々の文字の形状が単語辞書内の任意のアルファベットにほぼ一致するため、他の候補よりも文字品質スコアが高くなっている。例えば、通し番号3の単語候補“TOSHIBA”の場合、手書きで書かれた文字“T”,“O”,“S”,“H”,“I”,“B”,“A”はそれぞれ、文字辞書内のアルファベット“T”,“O”,“S”,“H”,“I”,“B”,“A”にほぼ一致するほど丁寧である(一致もしくは類似する度合いが高い)ため、高めのスコアが付されている。通し番号7の単語候補の場合も、同様、高めのスコアが付されている。
一方、帳票上に書かれた通し番号4の単語候補や通し番号6の単語候補は、各文字が乱雑な筆記体で書かれている。特に文字と文字との境目が不明確であるため個々の文字の特定が困難であり、個々の文字の特定を誤りやすい。個々の文字を正しく特定できたとしても、その形状が文字辞書内の任意のアルファベットにほぼ一致するものが見つからない場合が多い。このため、他の候補よりも文字品質スコアが低くなっている。例えば、乱雑に書かれた通し番号6の単語候補“StockHolm”がこれに該当し、低めのスコアが付されている。通し番号4の単語候補の場合も、同様、低めのスコアが付されている。
文字品質スコア算出処理の後、各単語候補に対する補正スコア計算処理が行われる(ステップ14)。補正スコア計算処理は、上記文字品質スコア算出処理で得られた文字品質スコアを元に上記単語マッチング処理で得られたマッチングスコアを補正する処理である。例えば、上記単語マッチング処理で得られたマッチングスコアから、上記文字品質スコア算出処理で得られる文字品質スコアを差し引く処理を行う。これにより、文字が丁寧に書かれた単語候補のマッチングスコアは補正処理により大きく低下し、一方、文字が乱雑に書かれた単語候補のマッチングスコアは補正処理により小さく低下することになる。
補正スコア計算処理で算出された補正スコアは、補正スコアテーブルに記憶される。図9は、補正スコアテーブルに記憶された補正スコアの例を示す図である。この補正スコアテーブルには、通し番号1〜7の各単語候補と単語辞書内の都市名単語“STOCKHOLM”,“TOCHICA”,“MOHEDA”,…とのマッチング処理結果であるマッチングスコアを補正した結果である補正スコアが単語毎に記憶されている。
上記単語マッチング処理を行った時点では、通し番号6の単語候補と辞書内単語“STOCKHOLM”とのマッチングスコア(符号b)よりも、通し番号3の単語候補と辞書内単語“TOCHICA”とのマッチングスコア(符号a)の方が高かったが、補正スコア計算処理後においては、スコアの高低が逆転している。すなわち、補正スコア計算処理後においては、通し番号3の単語候補と辞書内単語“TOCHICA”とのマッチングスコア(補正スコア)(符号a’)よりも通し番号6の単語候補と辞書内単語“STOCKHOLM”とのマッチングスコア(補正スコア)(符号b’)の方が高くなっている。これにより、正しい認識結果が得られることが期待される。
補正スコア計算処理の後、補正スコアテーブル上において補正スコアを最大とする都市名単語が単語辞書から選択され、選択された都市名単語が認識結果として出力される(ステップ15)。
次に、図6中の単語マッチング処理の詳細について、図10のフローチャートを参照しつつ説明する。
まず、単語候補の番号iに1がセットされる(ステップ21)。そして、i番目の単語候補が選択される(ステップ22)。
次に、単語辞書内の単語の番号jに1がセットされる(ステップ23)。そして、単語辞書内のj番目の単語が選択される(ステップ24)。
次に、選択されたi番目の単語候補とj番目の辞書内単語とのマッチング処理が行われ、マッチングスコアが計算される(ステップ25)。そして、マッチングスコアテーブルの位置(i,j)にマッチングスコアが書き込まれる(ステップ26)。
ここで、jと辞書内全単語数が比較される(ステップ27)。jが辞書内全単語数より小さい場合、jに1が加算され(ステップ28)、ステップ24からの処理が繰り返される。一方、そうでない場合、iと全単語候補数が比較される(ステップ29)。iが全単語候補数より小さい場合、iに1が加算され(ステップ30)、ステップ22からの処理が繰り返される。一方、そうでない場合、単語マッチング処理を終了する。
次に、図6中の文字品質スコア算出処理の詳細について、図11のフローチャートを参照しつつ説明する。
まず、単語候補の番号iに1がセットされる(ステップ41)。そして、i番目の単語候補が選択される(ステップ42)。
次に、単語候補を構成する文字候補の文字品質スコアが計算される(ステップ43)。そして、文字品質スコアテーブルの位置iに文字品質スコアが書き込まれる(ステップ44)。
次に、iと全単語候補数が比較される(ステップ45)。iが全単語候補数より小さい場合、iに1が加算され(ステップ46)、ステップ42からの処理が繰り返される。一方、そうでない場合、文字品質スコア算出処理を終了する。
次に、図6中の補正スコア計算処理の詳細について、図12のフローチャートを参照しつつ説明する。
まず、単語候補の番号iに1がセットされる(ステップ51)。そして、補正値hに、文字品質スコアテーブルの位置iの値が読み込まれる(ステップ52)。
次に、単語辞書内の単語の番号jに1がセットされる(ステップ53)。そして、スコアsに、マッチングスコアテーブルの位置(i,j)の値が読み込まれる(ステップ54)。さらに、スコアsから補正値hが減算され、算出結果が補正スコアテーブルの位置(i,j)に書き込まれる(ステップ55)。
次に、jと辞書内全単語数が比較される(ステップ56)。jが辞書内全単語数より小さい場合、jに1が加算され(ステップ57)、ステップ54からの処理が繰り返される。一方、そうでない場合、iと全単語候補数が比較される(ステップ58)。iが全単語候補数より小さい場合、iに1が加算され(ステップ59)、ステップ52からの処理が繰り返される。一方、そうでない場合、補正スコア計算処理を終了する。
次に、上述した各種のスコアを算出するための計算式の具体例について説明する。
ここでは、単語辞書内の単語、全ての文字候補の文字認識結果、文字候補の位置の全集合、ある位置の左端から右端に至る経路の全集合を、それぞれ次のように定義する。
Figure 2008226030
ある1つの単語候補とある1つの辞書内単語とのマッチングスコアを算出するには、事後確率比を用いた計算を行う。この場合、基本となる計算式として、例えば次の式(1)を採用する。
Figure 2008226030
式(1)の左辺における分数部分の分子は事後確率に相当し、分母は事前確率に相当する。
式(1)に基づき、前述の単語マッチング処理におけるマッチングスコア(図7のスコアテーブルに相当)を算出するには、次の式(2)を用いる。
Figure 2008226030
また、前述の文字品質スコア算出処理における文字品質スコア(図8のスコアテーブルに相当)を算出するには、次の式(3)を用いる。
Figure 2008226030
なお、式(3)中の「C*」は、任意のアルファベットであることを示している。
最終的に、上記の式(2)および式(3)に基づき、前述の補正スコア計算処理における補正スコア(図9のスコアテーブルに相当)の最大値を算出するには、評価関数として次の式(4)を用いる。
Figure 2008226030
上述した実施形態によれば、単語の記載位置が未知である場合であっても、精度良く単語認識を行うことが可能となる。例えば、正解単語が乱雑に記載されており、非正解単語が丁寧に記載されていたような場合であっても、マッチングスコアが補正されて適切な評価値が得られるため、誤認識の発生を防止することが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の実施の形態に係る単語認識方法を実現するための単語認識システムの構成を概略的に示すブロック図。 単語認識方法の概略を説明するためのフローチャート。 スキャナ等で取り込まれたアルファベット圏の帳票等の画像の例を示す図。 取り込まれた画像から検出される単語候補の例を示す図。 都市名単語の登録された単語辞書の例を示す図。 補正処理を含む単語認識方法を説明するためのフローチャート。 マッチングスコアテーブルに記憶されたマッチングスコアの例を示す図。 文字品質スコアテーブルに記憶された文字品質スコアの例を示す図。 補正スコアテーブルに記憶された補正スコアの例を示す図。 図6中の単語マッチング処理の詳細を説明するためのフローチャート。 図6中の文字品質スコア算出処理の詳細を説明するためのフローチャート。 図6中の補正スコア計算処理の詳細を説明するためのフローチャート。
符号の説明
1…CPU、2…入力装置、3…スキャナ、4…表示装置、5…第1のメモリ、6…第2のメモリ、7…読取装置、8…ROM、9…文字辞書、10…単語辞書、11…確率テーブル。

Claims (5)

  1. 被読取物上に記載された文字情報の文字読取を行って得られる各単語候補に対する認識処理を行う単語認識方法であって、
    上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、
    上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、
    上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップと、
    を具備したことを特徴とする単語認識方法。
  2. 前記補正ステップは、上記マッチング処理ステップで得られるマッチングスコアから、上記文字品質スコア算出ステップで得られる文字品質スコアを差し引く処理を行うことを特徴とする請求項1記載の単語認識方法。
  3. 前記任意の文字は、アルファベットのうちのいずれかの文字であることを特徴とする請求項1記載の単語認識方法。
  4. 前記補正ステップにより補正された各マッチングスコアのうち、最も高いマッチングスコアの単語を認識結果として出力する出力ステップを更に具備したことを特徴とする請求項1記載の単語認識方法。
  5. コンピュータに、被読取物上に記載された文字情報の文字読取を行って得られる単語候補に対する認識処理を行わせる単語認識プログラムであって、
    上記各単語候補に対し、単語辞書内の複数の単語との照合を行い、双方が一致する度合いを示すマッチングスコアを単語毎に算出するマッチング処理ステップと、
    上記各単語候補を構成する文字候補が任意の文字に一致する度合いを示す文字品質スコアを算出する文字品質スコア算出ステップと、
    上記文字品質スコア算出ステップで得られる文字品質スコアを元に上記マッチング処理ステップで得られるマッチングスコアを補正する補正ステップと、
    を有することを特徴とする単語認識プログラム。
JP2007065522A 2007-03-14 2007-03-14 単語認識システムおよび単語認識プログラム Expired - Fee Related JP4672692B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2007065522A JP4672692B2 (ja) 2007-03-14 2007-03-14 単語認識システムおよび単語認識プログラム
EP08712055.6A EP2138959B1 (en) 2007-03-14 2008-02-27 Word recognizing method and word recognizing program
KR1020087020028A KR101016544B1 (ko) 2007-03-14 2008-02-27 단어 인식 방법 및 기록 매체
PCT/JP2008/053433 WO2008111399A1 (ja) 2007-03-14 2008-02-27 単語認識方法および単語認識プログラム
US12/184,456 US8208685B2 (en) 2007-03-14 2008-08-01 Word recognition method and word recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007065522A JP4672692B2 (ja) 2007-03-14 2007-03-14 単語認識システムおよび単語認識プログラム

Publications (2)

Publication Number Publication Date
JP2008226030A true JP2008226030A (ja) 2008-09-25
JP4672692B2 JP4672692B2 (ja) 2011-04-20

Family

ID=39759341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007065522A Expired - Fee Related JP4672692B2 (ja) 2007-03-14 2007-03-14 単語認識システムおよび単語認識プログラム

Country Status (5)

Country Link
US (1) US8208685B2 (ja)
EP (1) EP2138959B1 (ja)
JP (1) JP4672692B2 (ja)
KR (1) KR101016544B1 (ja)
WO (1) WO2008111399A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090208112A1 (en) * 2008-02-20 2009-08-20 Kabushiki Kaisha Toshiba Pattern recognition method, and storage medium which stores pattern recognition program
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US8396287B2 (en) 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
US9183224B2 (en) * 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US9984131B2 (en) 2015-09-17 2018-05-29 International Business Machines Corporation Comparison of anonymized data
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05205109A (ja) * 1992-01-30 1993-08-13 Matsushita Electric Ind Co Ltd 文字認識装置
JPH06111079A (ja) * 1992-09-30 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> 単語読み取り装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0684006A (ja) * 1992-04-09 1994-03-25 Internatl Business Mach Corp <Ibm> オンライン手書き文字認識方法
JP3375766B2 (ja) * 1994-12-27 2003-02-10 松下電器産業株式会社 文字認識装置
US5963666A (en) * 1995-08-18 1999-10-05 International Business Machines Corporation Confusion matrix mediated word prediction
JP2000353215A (ja) * 1999-06-11 2000-12-19 Nec Corp 文字認識装置および文字認識プログラムを記録した記録媒体
JP4601835B2 (ja) 2000-01-28 2010-12-22 株式会社東芝 単語認識方法および単語認識プログラムおよび単語認識装置
US6847734B2 (en) 2000-01-28 2005-01-25 Kabushiki Kaisha Toshiba Word recognition method and storage medium that stores word recognition program
JP4744317B2 (ja) * 2006-02-16 2011-08-10 富士通株式会社 単語検索装置、単語検索方法、及びコンピュータプログラム
JP4686433B2 (ja) 2006-10-13 2011-05-25 株式会社東芝 単語認識方法および単語認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05205109A (ja) * 1992-01-30 1993-08-13 Matsushita Electric Ind Co Ltd 文字認識装置
JPH06111079A (ja) * 1992-09-30 1994-04-22 Nippon Telegr & Teleph Corp <Ntt> 単語読み取り装置

Also Published As

Publication number Publication date
EP2138959A4 (en) 2013-09-11
WO2008111399A1 (ja) 2008-09-18
EP2138959B1 (en) 2016-09-28
EP2138959A1 (en) 2009-12-30
US20080292186A1 (en) 2008-11-27
JP4672692B2 (ja) 2011-04-20
US8208685B2 (en) 2012-06-26
KR20090088304A (ko) 2009-08-19
KR101016544B1 (ko) 2011-02-24

Similar Documents

Publication Publication Date Title
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
JP4672692B2 (ja) 単語認識システムおよび単語認識プログラム
US10963717B1 (en) Auto-correction of pattern defined strings
JP2014526760A (ja) 文字認識のため機械植字をトレーニングする方法及びシステム
JP4834351B2 (ja) 文字認識装置及び文字認識方法
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
JP2015138496A (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP4686433B2 (ja) 単語認識方法および単語認識装置
JP2018147178A (ja) コンテナ番号読取り装置、コンテナ番号読取り方法およびコンテナ番号読取りプログラム
JP6432179B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
CN114677689B (zh) 一种文字图像识别纠错方法和电子设备
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
JP3730073B2 (ja) テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体
JP6759955B2 (ja) 地名抽出プログラム、地名抽出装置および地名抽出方法
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JPH11213087A (ja) 文字認識装置
JP6260350B2 (ja) 画像処理装置及び画像処理プログラム
JP5669044B2 (ja) 文書検定システム及び文書検定方法
JP6170831B2 (ja) 文字認識装置、方法、及びプログラム
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006235817A (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体
KR20220168787A (ko) 만주어의 글자 추출 방법 및 이를 수행하는 시스템
JP2009129392A (ja) 文字認識装置、文字認識方法、および、文字認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110119

R151 Written notification of patent or utility model registration

Ref document number: 4672692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees