JP2004046315A - 文字認識装置および文字認識方法、プログラムおよび記憶媒体 - Google Patents

文字認識装置および文字認識方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2004046315A
JP2004046315A JP2002199505A JP2002199505A JP2004046315A JP 2004046315 A JP2004046315 A JP 2004046315A JP 2002199505 A JP2002199505 A JP 2002199505A JP 2002199505 A JP2002199505 A JP 2002199505A JP 2004046315 A JP2004046315 A JP 2004046315A
Authority
JP
Japan
Prior art keywords
recognition
character
range
result
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002199505A
Other languages
English (en)
Other versions
JP3919617B2 (ja
Inventor
Hiroaki Ikeda
池田 裕章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002199505A priority Critical patent/JP3919617B2/ja
Priority to TW092118512A priority patent/TWI231920B/zh
Priority to KR1020030046276A priority patent/KR100578188B1/ko
Priority to CNB031474187A priority patent/CN1269069C/zh
Priority to US10/615,304 priority patent/US7162086B2/en
Publication of JP2004046315A publication Critical patent/JP2004046315A/ja
Application granted granted Critical
Publication of JP3919617B2 publication Critical patent/JP3919617B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2445Alphabet recognition, e.g. Latin, Kanji or Katakana

Abstract

【課題】複数の言語を含む文書画像の文字認識精度を高める。
【解決手段】第1の認識手段を用いて認識した結果に基づいて、再認識範囲を設定し、第2の認識手段によって再度文字認識する。再認識した結果、第1の認識手段よりも高い類似度が得られたときは、その再認識範囲について、第1の認識手段の認識結果を、第2の認識手段の認識結果で置き換える。
【選択図】    図3

Description

【0001】
【発明の属する技術分野】
本発明は、原稿を光学的に読み取り文字を認識する文字認識装置、文字認識方法、プログラムおよび記憶媒体に係り、特に英単語を含む日本語文書等、複数の言語を含む文書画像の文字認識が可能な、文字認識装置および文字認識方法、プログラムおよび記憶媒体に関する。
【0002】
【従来の技術】
光学的文字認識装置(OCR)では、濃度射影(ヒストグラム)により文字行を切出し(文字行の抽出)、さらに1文字単位の文字ブロック切出し(文字画像の抽出)を行う。文字ブロックの切出しに際しては、文字行方向に濃度射影を取り、濃度射影値の変化に基づいて文字行を分離し、さらに、各文字行について、文字行と垂直方向に濃度射影を取ることで個々の文字ブロックを抽出する。また1つの文字が複数個の文字ブロックに分離したものについては、標準的な文字サイズや文字ピッチの推定値、および行と垂直方向に濃度射影値等の情報に基づいて、文字ブロックを結合し、1文字単位の文字画像となる、最終的な文字ブロックを生成する。このような文字の切り出し、文字ブロック生成が正しく実行されれば、高精度の文字認識が可能である。
【0003】
しかし、第1の言語に第2の言語が含まれた文書では、正しい文字ブロック生成が行われないことがある。例えば、英単語を含む日本語文書、特に英単語がプロポーショナルに割り付けされた日本語文書では、英単語部分の文字幅、文字ピッチが不均等であるため、推定値と大幅に異なることがあり、文字ブロックの抽出を誤る場合があり認識精度が低下した。
【0004】
英単語が混在する日本語文書について高い認識精度を得るために、例えば、特開平5−101220号、特開平9−167206号、特開平6−301822号に記載の方法が提案されている。
(1)特開平5−101220号(従来例1という。)
推定した文字サイズより小さい文字を半角候補文字とし、半角候補文字が連続し且つ半角候補文字列の前または後ろに所定長以上の余白部分が存在した場合、それを英単語候補とし、隣接する1対の半角候補文字のサイズを閾値と比較することにより英単語候補の中に英文字でないと判断される半角候補文字を含む場合は英単語候補から除外し、最終的に英単語候補と判断された半角候補文字は半角英文字であるものとして文書画像からの画像切出が行われ、一方、英単語候補でないと判断された半角候補文字は、隣接する半角候補文字との再結合が行われて切り出される。
(2)特開平9−167206号(従来例2という。)
一旦、文書画像全体の文字認識を行い、認識結果から英数文字列を抽出し、英数文字列毎にピッチ書式を判定して、そのピッチ書式に応じプロポーショナルピッチ用スペース検出処理又は定ピッチ用スペース検出処理を適用し、高精度にスペースを検出する。
(3)特開平6−301822号(従来例3という。)
空白文字、句読点、括弧等の区切り文字の位置に基づいて、単語としての文字列の照合範囲を定めて、単語辞書との照合を行う後処理を実行する。
【0005】
【発明が解決しようとする課題】
しかし、従来例1では文字ブロック抽出処理は隣接する1対の半角候補文字のサイズに基づいて英単語候補かどうか判断して切り出し位置を決定するものであり、例えばプロポーショナルピッチの英単語等で、一部の文字間に接触がある場合は、英単語候補の個々の文字が分離できず、英単語候補を正しく認識できない。また、再認識も行わない。
【0006】
従来例2は、英数文字と認識された部分がプロポーショナルかどうか判断するものであり、文字認識処理を誤った場合は英数文字と認識されなかった部分についてはプロポーショナルかどうかの判断すら行わない。また、再認識も行わない。
【0007】
従来例3では、区切り文字を用いて単語を抽出するので、区切り文字を認識できなかった場合は単語照合を行うことはできない。
【0008】
本発明は、このような従来の問題点を解消すべく創案されたもので、複数の言語を含む文書画像の文字認識精度を高めることを目的とする。
【0009】
【課題を解決するための手段】
本発明に係る文字認識装置は、第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手段と、第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手段と、前記第1の認識手段を用いて文書画像に含まれる複数の文字画像を文字認識した結果に対して、前記第1の認識手段で前記第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の認識手段を用いて再認識させるための再認識範囲を設定する再認識範囲設定手段とを備える。
【0010】
本発明に係る文字認識方法は、第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手順を用いて、文書画像に含まれる複数の文字画像を文字認識する文字認識ステップと、前記第1の認識手順で第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手順を用いて再認識させるための再認識範囲を設定する再認識範囲設定ステップと、前記再認識範囲設定ステップで設定された再認識範囲を、前記第2の手順を用いて文字認識する再認識ステップとを備える。
【0011】
本発明に係るコンピュータ実行可能なプログラムは、第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手順を用いて、文書画像に含まれる複数の文字画像を文字認識する文字認識ステップと、前記第1の認識手順で第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手順を用いて再認識させるための再認識範囲を設定する再認識範囲設定ステップと、前記再認識範囲設定ステップで設定された再認識範囲を、前記第2の手順を用いて文字認識する再認識ステップとをコンピュータに実行させるためのプログラムコードを有する。
【0012】
【発明の実施の形態】
[文字認識装置]
図1は、本発明に係る光学的文字認識装置(OCR)等の文字認識装置の一実施形態を示すブロック図である。
【0013】
文字認識装置は、磁気ディスク等の外部記憶装置104およびイメージスキャナ108を備え、原稿の画像データを外部記憶装置104から読み込み、あるいは原稿を直接イメージスキャナ108で読み取る。文字認識装置は全体制御のためのCPU101を備え、CPU101の制御プログラムはROM102に格納されている。イメージスキャナ108から入力された画像はRAM103に保持され、ROM102内の制御プログラムにより、文字認識のための処理を実行する。文字認識のための認識辞書は制御プログラムとともにROM102に格納され、あるいは必要な字種ごとに、外部記憶装置104からRAM103に読み込まれる。
【0014】
制御プログラムは複数の言語、例えば日本語、英語に対応しており、それぞれの言語に適した第1の認識手段、第2の認識手段として機能する。
【0015】
なお必要に応じ、文字認識に先立ってノイズ除去等の前処理を実行する。
【0016】
図1において、105はディスプレイ、106はキーボード、107はマウス等のポインティングデバイスである。また、109はネットワークインターフェースであり、図示しない遠隔地に存在する装置と通信し、プログラム、認識辞書、データ等を送受信し得る。
【0017】
次に、文字認識装置において実行される文字認識方法を説明する。
【0018】
[文字認識方法]
[第1の実施形態]
図2、図3は、図1に示す文字認識装置が実行する文字認識方法の第1の実施形態を示すフローチャートである。
【0019】
第1の実施形態では、日本語の認識に適した第1の文字認識手段による文字認識を実行し、認識結果の類似度が低い文字等について、英語の認識に適した第2の文字認識手段による再認識を実行する。
【0020】
図2のフローチャートは、第1の実施形態の全体の流れを示す。
【0021】
ステップS201:まずスキャナ108で読み取った画像あるいは外部記憶装置104に記憶された画像を入力し、ステップS202に移行する。
【0022】
ステップS202:入力された画像を、日本語用の第1の認識手段で文字認識する。ここで行われる文字ブロック抽出は日本語文字を抽出するのに適した文字抽出手法を使用するものとする。文字認識に際しては、従来の技術で述べたように、行方向に射影を取り、行を抽出し、それぞれの行に対して、行とは垂直に射影を取ることで文字ブロックを抽出し、抽出された文字ブロックを用いて文字幅や文字ピッチを推定し、1つの文字が複数個のブロックに分離したものについては、推定した文字幅や文字ピッチを用いて1文字になるように結合する。その後、文字ごとに特徴抽出を行い、あらかじめ用意している各字種の参照データと比較し、最も類似度が高い字種を、その文字の認識結果とする。第1の認識手段による日本語用文字認識では、文字ピッチの変動が少なく、かつ文字の縦横比が略正方形であることを想定して、文字ブロックを抽出する。第1の認識手段においても、日本語中で使用されることの多い標準的なフォントのアルファベットは認識可能であるが、対応不能なフォントも多い。画像中のすべての文字について文字認識が終了したら、ステップS203に移行する。
【0023】
ステップS203:ステップS202の認識結果について、各行における類似度が低い文字を含む画像領域を再認識範囲として抽出する。再認識範囲抽出の処理内容につては後述する。再認識範囲は、1行以内の画像領域、あるいは複数行にわたる画像領域である。
【0024】
ステップS204:ステップS203において再認識範囲が1つ以上抽出されたか否か判断し、抽出されたときはステップS205に移行する。抽出されなかったときは、そのまま処理を終了する。
【0025】
ステップS205:再認識範囲について、英語用の第2の認識手段によって文字認識する。再認識範囲が複数行にわたるときは、第1の認識手段と同様に行を抽出し、その後文字ブロックを抽出し、文字単位で類似度を調べる。再認識範囲が1行以内の画像領域である場合には、その画像領域から文字ブロックを抽出し、文字単位で類似度を調べる。ここで行われる文字ブロック抽出は英文字を抽出するのに適した文字抽出手法を使用するものとする。
【0026】
英単語では、文字と文字の接触や、オーバラップ(カーニング)が生じる場合がある。そこで第1の認識手段と異なり、英語用の第2の認識手段では、画素のヒストグラムが少なくなっている所等で文字を分離する。従って、第1の認識手段で分離できなかった文字が分離可能である。また第2の認識手段は、第1の認識手段よりも多様な英語のフォントに対応できるように認識辞書が用意されており、認識精度が向上する。
【0027】
ステップS206:ステップS205で再認識した結果、第1の認識手段よりも高い類似度が得られたときは、その再認識範囲について、第1の認識手段の認識結果を、第2の認識手段の認識結果で置き換える。これによって、英文字が高精度に認識されるようになる。
【0028】
これによって、第1の実施形態は、英単語を含む日本語文書について、日本語文字も英文字も高い認識精度を得ることができる。また、再認識を行う第2の認識手段は第1の認識手段とは独立に動作可能であり、認識手段を日本語や英語以外の異なる言語に適した認識手段に入れ替えることも容易である。従って、第1、第2の認識手段によって多様な言語の組み合わせに対応し得る。
【0029】
次に、ステップS203の再認識範囲の設定について、図3のフローチャートを用いて更に詳細に説明する。
【0030】
ステップS301:閾値T1、T2を設定し、ステップS302に移行する。閾値T1は、再認識範囲を、第1の認識手段で抽出された文字ブロックから前後の文字を含む領域に拡大するか否かの判断に使用する。閾値T2は、設定された再認識範囲について第2の認識手段による認識を行うか否かの判断に使用する。
【0031】
ステップS302:ステップS303以下の処理の終了判断を行う。図2のステップS202で抽出された全ての文字についてステップS303以下の処理が完了したときは、そのまま処理を終了する。完了していなかったときはステップS303に移行する。
【0032】
ステップS303:日本語用の第1の認識手段によって、アルファベット、あるいはアルファベットと数字の組み合わせ(以下これらをアルファニューメリックという。)が検出されたか否か判断する。日本語文書に英単語が含まれていなかったときは全ての文字が日本語をして認識され、英単語が含まれていたときにアルファニューメリックが検出される。
【0033】
ステップS304:ステップS303でアルファニューメリックが検出されたか否か判断し、検出されなかったときは、ステップS302に戻って未検査の認識結果があるか判断する。アルファニューメリックが検出されたときは、ステップS305に移行する。ステップS305〜S308では再認識範囲を設定する。
【0034】
ステップS305:再認識範囲を後方に拡大する条件について判定する。再認識範囲は、初期状態では、第1の認識手段によって検出されたアルファニューメリックの範囲であるが、一定の条件を満たすとき、ステップS306において再認識範囲を後方の文字に拡大する。再認識範囲を後方に拡大する条件とは、再認識範囲の次の文字がアルファニューメリックであること、もしくは、再認識範囲の次の文字の認識結果の類似度が閾値T1より小さいことである。これらいずれかの条件が満されたとき、ステップS306に移行する。再認識範囲の次の文字がいずれの条件も満たさないとき、あるいは次の文字が存在しないときはステップS307に移行する。なお再認識範囲が1行の終端に達していたときは、次の文字は、次の行の最初の文字である。再認識範囲が次の行に拡大されることにより、再認識範囲は複数行にわたることになる。
【0035】
ステップS306:再認識範囲の次の文字を再認識範囲に含め、再認識範囲を拡大する。その後、再びステップS305に戻る。
【0036】
ステップS307:初期状態の再認識範囲あるいはステップS306で後方に拡大された再認識範囲につき、その再認識範囲を前方に拡大する条件について判定する。再認識範囲を前方に拡大する条件とは、再認識範囲の前に存在する文字がアルファニューメリックであること、もしくは、再認識範囲の前の文字の認識結果の類似度が閾値T1より小さいことである。これらいずれかの条件が満されたとき、ステップS308に移行する。再認識範囲の前の文字がいずれの条件も満たさないとき、あるいは前の文字が存在しないときはステップS309に移行する。なお再認識範囲が1行の始端に達していたときは、前の文字は、前の行の最後の文字である。再認識範囲が前の行に拡大される場合にも、再認識範囲は複数行にわたる。
【0037】
ステップS308:再認識範囲の前の文字を再認識範囲に含め、再認識範囲を拡大する。その後、再びステップS307に戻る。
【0038】
ステップS309:ステップS305〜S308で設定された再認識範囲の文字に、類似度がT2以下の文字が存在するか否かを判定する。類似度T2以下の文字が存在すれば、第1の認識手段による認識結果の信頼性に問題があると判断し、ステップS311に移行する。類似度T2以下の文字が存在しないときは、再認識範囲の文字が、アルファニューメリックでありかつ比較的類似度が高い文字であると判断する。これは再認識範囲の文字に対する認識結果が信頼できることを意味するので、ステップS310に移行する。例えば固定ピッチで書かれたアルファニューメリックは、日本語用文字認識でも充分な精度が得られる場合があり、類似度はT2より大となる。一方、可変ピッチで書かれた場合は類似度はT2以下となり、誤認識しやすい。
【0039】
ステップS310:ステップS309で文字認識結果の類似度がT2より大きいと判断された再認識範囲を、再認識を実行する再認識範囲から除外し、ステップS302に戻る。これによって、英単語であっても、誤認識の可能性の低い範囲は再認識の処理を実行しないので、不要な処理を省略でき、全体の処理速度を高め得る。
【0040】
ステップS311:ステップS309で文字認識結果の類似度がT2以下の文字が存在すると判断された再認識範囲を、再認識を実行する再認識範囲として確定し、ステップS302に戻る。
【0041】
第1の実施形態では、誤認識の可能性が高い英単語の範囲を、再認識範囲として自動的に抽出でき、認識精度を高めることができる。
【0042】
閾値T1、T2は、実験等を行うことにより予め設定された値を用いることとしてもよいし、字種などにより異なる値に設定してもよい。例えば、平仮名、カタカナ、漢字、アルファニューメリック等、注目する認識結果の字種により閾値を使い分けてもよい。
【0043】
第1の実施形態では英単語を含む日本語文書の例を説明したが、他の言語の文書、例えば、中国語文書、韓国語文書、その他の文書であって、英語、ラテン語、その他文字配列が異なる単語を含む文書においても、同様の効果を奏する。
【0044】
[第2の実施形態]
図4、図5は、図1に示す文字認識装置が実行する文字認識方法の第2の実施形態を示すフローチャートである。
【0045】
第2の実施形態では、第1の文字認識手段による認識結果に対して、第2の認識手段による再認識の処理を実行し、さらに、第2の文字認識手段による認識結果に対して、第3の認識手段による再認識の処理を実行する。
【0046】
図4のフローチャートは、第2の実施形態の全体の流れを示す。
【0047】
ステップS401:第1の実施形態のステップS201と同様、画像を入力する。
【0048】
ステップS402:第1の実施形態のステップS202と同様、入力された画像を第1の認識手段で文字認識する。
【0049】
ステップS403:第1の実施形態のステップS203と同様、再認識範囲を設定する。
【0050】
ステップS404:第1の実施形態のステップS204と同様、再認識範囲が1つ以上抽出されたか否か判断する。再認識範囲が抽出されたときはステップS405に移行し、抽出されなかったときは、そのまま処理を終了する。
【0051】
ステップS405:再認識範囲について、第2の認識手段によって文字認識し、文字単位で類似度を調べる。必要に応じて、行抽出、文字ブロック抽出を実行する。
【0052】
ステップS406:第2の認識手段で得られた文字認識結果を採用するかどうか判定する。判定方法については後述する。第2の認識手段で得られた認識結果を採用すると判定したときにはステップS407に移行し、第2の認識手段で得られた認識結果を採用しないと判定したときにはステップS408に移行する。
【0053】
ステップS407:第1の認識手段で得られた文字認識結果のうち、再認識範囲を、第2の認識手段による再認識の認識結果で置き換える。
【0054】
ステップS408:再認識範囲を第3の認識手段で文字認識し、ステップS409に移行する。
【0055】
ステップS409:第3の認識手段による文字認識結果を採用するか否か判定する。判定方法は、ステップS406の判定方法と同様であり、その詳細は後述する。第3の認識手段で得られた認識結果を採用すると判定したときにはステップS410に移行し、第3の認識手段で得られた認識結果を採用しないと判定したときは、そのまま処理を終了する。
【0056】
ステップS410:第1の認識手段で得られた文字認識結果のうち、再認識範囲を、第3の認識手段による再認識の認識結果で置き換える。
【0057】
図5は、ステップS406における判定方法を示すフローチャートである。
【0058】
ステップS501:再認識範囲の、認識結果の類似度の平均値を求める。
【0059】
ステップS502:平均値をあらかじめ定めた閾値T3と比較し、閾値T3以下のとき、ステップS503に移行し、閾値T3より大きいとき、ステップS504に移行する。
【0060】
ステップS503:第2の認識手段による再認識の認識結果を採用せず、第1の認識手段による認識結果をそのまま採用する。
【0061】
ステップS504:第1の認識手段による認識結果を、第2の認識手段による再認識の認識結果によって置き換える。
【0062】
図6は、ステップS409における判定方法を示すフローチャートである。
【0063】
ステップS601:図5のステップS501と同様、類似度の平均値を求める。
【0064】
ステップS602:平均値をあらかじめ定めた閾値T4と比較し、閾値T4以下のとき、ステップS503に移行し、閾値T4より大きいとき、ステップS604に移行する。
【0065】
ステップS603:第3の認識手段による再認識の認識結果を採用せず、第1の認識手段による認識結果をそのまま採用する。
【0066】
ステップS604:第1の認識手段による認識結果を、第3の認識手段による再認識の認識結果によって置き換える。
【0067】
なお図5、図6の処理における閾値T3、T4は同一であってもよいし、経験則や実験結果等に基づき異なる値に設定してもよい。
【0068】
図7は、図5に示した判定方法の他の態様を示すフローチャートである。
【0069】
ステップS701:第1の認識手段による認識結果の類似度の平均値M1を求める。
【0070】
ステップS702:第2の認識手段による認識結果の類似度の平均値M2を求める。
【0071】
ステップS703:平均値M1、M2を比較し、平均値M1がM2以上のときステップS704に移行し、平均値M2がM1より大きいときステップS705に移行する。
【0072】
ステップS704:第2の認識手段による再認識の認識結果を採用せず、第1の認識手段による認識結果をそのまま採用する。
【0073】
ステップS705:第1の認識手段による認識結果を、第2の認識手段による再認識の認識結果によって置き換える。
【0074】
なお図7の判定方法は第1の認識手段による認識処理と、第3の認識手段による認識処理とを比較、選択する際にも同様にして、判定に適用し得ることはいうまでもない。
【0075】
第2の本実施形態では、類似度の平均値より認識結果の信頼性を判定するので、大局的な認識精度評価が可能である。また複数段階の認識手段を順次適用し、結果を比較するので、多様な言語、字種に対応し得るとともに、複数の認識結果から最適認識結果を選択し得る。
【0076】
[プログラム]
図1の文字認識装置における制御プログラムには、文字認識方法の第1の実施形態および/または第2の実施形態を実行するためのプログラムが含まれる。第1の実施形態を実行するためのプログラムはステップS201〜S206、ステップS301〜S311の処理を実行するルーチンを含む。第2の実施形態を実行するためのプログラムはステップS401〜S410、ステップS501〜S504、ステップS601〜S604、ステップS701〜S705の処理を実行するルーチンを含む。
【0077】
[記憶媒体]
本発明にかかる文字認識方法は図1の文字認識装置以外の装置、例えば汎用的なコンピュータでも実施可能であり、その場合、記憶媒体等で提供される制御プログラムを汎用コンピュータの外部記憶装置にセットし、オペレータ等の指示によりCPU等で実行してもよい。
【0078】
図8は、文字認識方法の第1および第2の実施形態を実行するためのプログラムを記憶した記憶媒体を示すメモリマップである。
【0079】
図8においてアドレスA0乃至A1にはディレクトリ情報が格納され、A1の次のアドレスからアドレスA2までの領域には第1の実施形態における図2のフローチャートを実行するためのプログラムが格納され、A2の次のアドレスからアドレスA3までの領域には第1の実施形態における図3のフローチャートを実行するためのプログラムが格納され、A3の次のアドレスからアドレスA4までの領域には第2の実施形態における図4のフローチャートを実行するためのプログラムが格納され、A4の次のアドレスからアドレスA5までの領域には第2の実施形態における図5のフローチャートを実行するためのプログラムが格納され、A5の次のアドレスからアドレスA6までの領域には第2の実施形態における図6のフローチャートを実行するためのプログラムが格納され、A6の次のアドレスからアドレスA7までの領域には図7のフローチャートを実行するためのプログラムが格納されている。
【0080】
特に図示しないが、各種プログラムに従属するデータもディレクトリ情報として管理し、また、各種プログラムをコンピュータにインストールするためのプログラム等をディレクトリ情報内に記憶してもよい。
【0081】
[文字認識システム]
図9は、本発明に係る文字認識方法を複数の機器により実行する文字認識システムの一実施形態を示すブロック図である。
【0082】
この実施形態では、インターネット・サービス・プロバイダにおいて、文字認識のための認識辞書を含むプログラムがサーバSV1に格納されている。インターネット・サービス・プロバイダは通信手段を介してインターネットに接続され、インターネットからサーバSV1にアクセスすることによって、複数のユーザが文字認識プログラムを利用し得る。
【0083】
ユーザはスキャナSC1、パーソナル・コンピュータPC1を有し、スキャナSC1で読み取った原稿の画像をサーバSV1に送信する。サーバにおいては、原稿の画像を入力画像として上述した第1実施形態又は第2実施形態の文字認識の処理を実行し、その認識した結果をパーソナルコンピュータPC1に返信する。
【0084】
なお認識辞書は、必ずしも文字認識プログラムと同一のコンピュータ上に存在する必要はなく、通信手段等を介して参照可能であればよい。例えば、文字認識プログラムをサーバSV1、認識辞書を別個のサーバSV2に設け、別個のサービスとすることも可能である。この場合文字認識プログラムの保有者、認識辞書の保有者それぞれがプログラム、辞書という知的資産を内部に保有でき、違法コピー等を防止できる。
【0085】
【発明の効果】
本発明によれば、複数の言語で記載された文書画像の文字認識精度を高め得る。
【図面の簡単な説明】
【図1】本発明に係る文字認識装置の一実施形態を示すブロック図である。
【図2】図1の文字認識装置において実施される文字認識方法の第1の実施形態を示すフローチャートである。
【図3】図2におけるステップS203の処理を示すフローチャートである。
【図4】図1の文字認識装置において実施される文字認識方法の第2の実施形態を示すフローチャートである。
【図5】図4におけるステップS406の処理を示すフローチャートである。
【図6】図4におけるステップS409の処理を示すフローチャートである。
【図7】図5、図6の処理に替わる処理を示すフローチャートである。
【図8】図1の文字認識装置で実行される各種データ処理プログラム格納する記憶媒体のメモリマップである。
【図9】本発明に係る文字認識方法を複数の機器により実行する文字認識システムを示すブロック図である。
【符号の説明】
101・・・CPU
102・・・ROM
103・・・RAM
104・・・外部記憶装置
105・・・ディスプレイ
106・・・キーボード
107・・・ポインティングデバイス
108・・・イメージスキャナ
109・・・ネットワークインターフェース

Claims (12)

  1. 第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手段と、
    第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手段と、
    前記第1の認識手段を用いて文書画像に含まれる複数の文字画像を文字認識した結果に対して、前記第1の認識手段で前記第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の認識手段を用いて再認識させるための再認識範囲を設定する再認識範囲設定手段と、
    を備えることを特徴とする文字認識装置。
  2. 前記再認識範囲設定手段は、前記再認識範囲に隣接する文字が第2の言語であったときに、前記再認識範囲を前記隣接する文字の範囲に拡大することを特徴とする請求項1記載の文字認識装置。
  3. 前記再認識範囲設定手段は、前記再認識範囲に隣接する文字の、前記第1の認識手段による認識結果の類似度が所定値以下のときに、前記再認識範囲を前記隣接する文字の範囲に拡大することを特徴とする請求項1に記載の文字認識装置。
  4. 前記再認識範囲設定手段は、各再認識範囲の文字の、前記第1の認識手段による認識結果の類似度が所定値以下のとき、当該再認識範囲をそのまま再認識する範囲と決定し、前記類似度が所定値より大きいとき、当該再認識範囲を再認識する範囲から除外することを特徴とする請求項1乃至3のいずれかに記載の文字認識装置。
  5. 前記第1の認識手段による認識結果と、前記第2の認識手段による認識結果とを択一的に選択する認識結果選択手段をさらに備えることを特徴とする請求項1乃至4のいずれかに記載の文字認識装置。
  6. 前記認識結果選択手段は、前記再認識範囲の文字の、第2の認識手段による認識結果における文字の類似度が所定値以下のときに、第1の認識手段の認識結果を選択し、前記類似度が所定値より大きいときに、第2の認識手段の認識結果を選択することを特徴とする請求項5に記載の文字認識装置。
  7. 前記認識結果選択手段は、前記再認識範囲の文字の、第2の認識手段による認識結果における類似度の平均値が所定値以下のときに、第1の認識手段の認識結果を選択し、前記類似度の平均値が所定値より大きいときに、第2の認識手段の認識結果を選択することを特徴とする請求項5に記載の文字認識装置。
  8. 前記認識結果選択手段は、前記再認識範囲の文字の、第1の認識手段による認識結果における類似度の平均値と、第2の認識手段による認識結果における類似度の平均値とを比較し、前記第1の認識手段による類似度の平均値が、第2の認識手段による類似度の平均値以下のとき、第1の認識手段による認識結果を選択し、前記第2の認識手段による類似度の平均値が、第1の認識手段による類似度の平均値より大きいとき、第2の認識手段による認識結果を選択することを特徴とする請求項5に記載の文字認識装置。
  9. 更に、ネットワークを介して外部装置から前記文書画像を受信する受信手段と、
    前記第1の認識手段および前記第2の認識手段および前記再認識範囲設定手段を用いて、文字認識した結果を前記外部装置に送信する送信手段と
    を備えることを特徴とする請求項1に記載の文字認識装置。
  10. 第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手順を用いて、文書画像に含まれる複数の文字画像を文字認識する文字認識ステップと、
    前記第1の認識手順で第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手順を用いて再認識させるための再認識範囲を設定する再認識範囲設定ステップと、
    前記再認識範囲設定ステップで設定された再認識範囲を、前記第2の手順を用いて文字認識する再認識ステップと
    を備えることを特徴とする文字認識方法。
  11. 第1の言語で描かれた文字画像を文字認識するのに適した第1の認識手順を用いて、文書画像に含まれる複数の文字画像を文字認識する文字認識ステップと、
    前記第1の認識手順で第2の言語として認識された文字画像を基点として隣接する文字画像の認識結果に基づき、前記第2の言語で描かれた文字画像を文字認識するのに適した第2の認識手順を用いて再認識させるための再認識範囲を設定する再認識範囲設定ステップと、
    前記再認識範囲設定ステップで設定された再認識範囲を、前記第2の手順を用いて文字認識する再認識ステップと、
    をコンピュータに実行させるためのプログラムコードを有する、コンピュータが実行可能なプログラム。
  12. 請求項11に記載のプログラムが格納されたコンピュータ読取可能な記憶媒体。
JP2002199505A 2002-07-09 2002-07-09 文字認識装置および文字認識方法、プログラムおよび記憶媒体 Expired - Fee Related JP3919617B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2002199505A JP3919617B2 (ja) 2002-07-09 2002-07-09 文字認識装置および文字認識方法、プログラムおよび記憶媒体
TW092118512A TWI231920B (en) 2002-07-09 2003-07-07 Character recognition apparatus and method
KR1020030046276A KR100578188B1 (ko) 2002-07-09 2003-07-09 문자인식 장치 및 방법
CNB031474187A CN1269069C (zh) 2002-07-09 2003-07-09 字符识别装置及方法
US10/615,304 US7162086B2 (en) 2002-07-09 2003-07-09 Character recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002199505A JP3919617B2 (ja) 2002-07-09 2002-07-09 文字認識装置および文字認識方法、プログラムおよび記憶媒体

Publications (2)

Publication Number Publication Date
JP2004046315A true JP2004046315A (ja) 2004-02-12
JP3919617B2 JP3919617B2 (ja) 2007-05-30

Family

ID=30112466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002199505A Expired - Fee Related JP3919617B2 (ja) 2002-07-09 2002-07-09 文字認識装置および文字認識方法、プログラムおよび記憶媒体

Country Status (5)

Country Link
US (1) US7162086B2 (ja)
JP (1) JP3919617B2 (ja)
KR (1) KR100578188B1 (ja)
CN (1) CN1269069C (ja)
TW (1) TWI231920B (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置
JP2007219867A (ja) * 2006-02-17 2007-08-30 Hitachi Ltd 文字列読取り方法
WO2009096099A1 (en) * 2008-01-31 2009-08-06 Canon Kabushiki Kaisha Image processing apparatus, control method therefor, and recording medium
JP2012141750A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 文字認識処理装置及びプログラム
JP2017146841A (ja) * 2016-02-18 2017-08-24 株式会社東芝 文字認識装置、文字認識方法、およびプログラム
JP2019159374A (ja) * 2018-03-07 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020160609A (ja) * 2019-03-25 2020-10-01 東芝テック株式会社 プログラム及び文字認識方法
KR20200128089A (ko) * 2018-02-28 2020-11-11 캐논 유로파 엔.브이. 영상 처리 방법 및 영상 처리 시스템

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100357957C (zh) * 2004-08-10 2007-12-26 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
JP4750802B2 (ja) * 2006-01-13 2011-08-17 富士通株式会社 帳票処理プログラムおよび帳票処理装置
CN101256631B (zh) * 2007-02-26 2011-06-01 富士通株式会社 一种字符识别的方法、装置
JP4906685B2 (ja) * 2007-11-14 2012-03-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
JP5116608B2 (ja) * 2008-08-20 2013-01-09 キヤノン株式会社 情報処理装置、制御方法、及びプログラム
KR101220709B1 (ko) * 2010-02-03 2013-01-10 삼성전자주식회사 한글 및 한자가 혼용된 문서에 대한 전자 사전 검색 장치 및 방법
CN103310209A (zh) * 2012-03-09 2013-09-18 富士通株式会社 识别图像中的字符串的方法和装置
WO2014146718A1 (de) * 2013-03-22 2014-09-25 Deutsche Post Ag Identifikation von packstücken
CN104462068B (zh) * 2013-09-12 2017-11-07 北大方正集团有限公司 字符转换系统和字符转换方法
JP6545013B2 (ja) 2015-06-17 2019-07-17 キヤノン株式会社 画像形成方法、画像形成装置、および画像形成プログラム
JP6655331B2 (ja) * 2015-09-24 2020-02-26 Dynabook株式会社 電子機器及び方法
CN108369451B (zh) * 2015-12-18 2021-10-29 索尼公司 信息处理装置、信息处理方法及计算机可读存储介质
CN105809170B (zh) * 2016-03-04 2019-04-26 东软集团股份有限公司 字符识别方法和装置
US11003911B2 (en) * 2017-02-28 2021-05-11 Nec Corporation Inspection assistance device, inspection assistance method, and recording medium
CN110928216B (zh) * 2019-11-14 2020-12-15 深圳云天励飞技术有限公司 人工智能装置
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119497A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd 文字認識方法
JPH06150061A (ja) * 1992-11-04 1994-05-31 Sharp Corp 文書認識装置
JPH08167005A (ja) * 1994-12-15 1996-06-25 Ricoh Co Ltd 文字認識装置
JPH09114931A (ja) * 1995-10-18 1997-05-02 Canon Inc 文字認識装置及びその方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05101220A (ja) 1991-10-08 1993-04-23 Sumitomo Electric Ind Ltd 文字認識装置
JPH06301822A (ja) 1993-04-15 1994-10-28 Nec Corp 文字認識後処理方式
US5377280A (en) * 1993-04-19 1994-12-27 Xerox Corporation Method and apparatus for automatic language determination of European script documents
JPH07239913A (ja) 1994-02-28 1995-09-12 Toshiba Corp 文字認識装置
US6137905A (en) 1995-08-31 2000-10-24 Canon Kabushiki Kaisha System for discriminating document orientation
JP3537570B2 (ja) 1995-12-18 2004-06-14 株式会社リコー 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06119497A (ja) * 1992-10-01 1994-04-28 Matsushita Electric Ind Co Ltd 文字認識方法
JPH06150061A (ja) * 1992-11-04 1994-05-31 Sharp Corp 文書認識装置
JPH08167005A (ja) * 1994-12-15 1996-06-25 Ricoh Co Ltd 文字認識装置
JPH09114931A (ja) * 1995-10-18 1997-05-02 Canon Inc 文字認識装置及びその方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092138A (ja) * 2004-09-22 2006-04-06 Oki Electric Ind Co Ltd 複数の認識辞書を利用した文字認識装置
JP4759963B2 (ja) * 2004-09-22 2011-08-31 沖電気工業株式会社 複数の認識辞書を利用した文字認識装置
JP2007219867A (ja) * 2006-02-17 2007-08-30 Hitachi Ltd 文字列読取り方法
WO2009096099A1 (en) * 2008-01-31 2009-08-06 Canon Kabushiki Kaisha Image processing apparatus, control method therefor, and recording medium
JP2009181465A (ja) * 2008-01-31 2009-08-13 Canon Inc 画像処理装置とその制御方法及び画像処理システム
US8238664B2 (en) 2008-01-31 2012-08-07 Canon Kabushiki Kaisha Image processing apparatus, control method therefor, and recording medium
JP2012141750A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 文字認識処理装置及びプログラム
JP2017146841A (ja) * 2016-02-18 2017-08-24 株式会社東芝 文字認識装置、文字認識方法、およびプログラム
US11170265B2 (en) 2018-02-28 2021-11-09 I.R.I.S. Image processing method and an image processing system
KR20200128089A (ko) * 2018-02-28 2020-11-11 캐논 유로파 엔.브이. 영상 처리 방법 및 영상 처리 시스템
JP2021502628A (ja) * 2018-02-28 2021-01-28 キヤノン オイローパ エヌ.ヴェー. 画像処理方法及び画像処理システム
JP7038988B2 (ja) 2018-02-28 2022-03-22 キヤノン オイローパ エヌ.ヴェー. 画像処理方法及び画像処理システム
KR102504635B1 (ko) * 2018-02-28 2023-02-27 캐논 유로파 엔.브이. 영상 처리 방법 및 영상 처리 시스템
JP2019159374A (ja) * 2018-03-07 2019-09-19 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020160609A (ja) * 2019-03-25 2020-10-01 東芝テック株式会社 プログラム及び文字認識方法
JP7274322B2 (ja) 2019-03-25 2023-05-16 東芝テック株式会社 プログラム及び文字認識方法

Also Published As

Publication number Publication date
CN1269069C (zh) 2006-08-09
US20040008889A1 (en) 2004-01-15
US7162086B2 (en) 2007-01-09
TW200407796A (en) 2004-05-16
CN1472695A (zh) 2004-02-04
JP3919617B2 (ja) 2007-05-30
TWI231920B (en) 2005-05-01
KR100578188B1 (ko) 2006-05-11
KR20040005671A (ko) 2004-01-16

Similar Documents

Publication Publication Date Title
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US6047251A (en) Automatic language identification system for multilingual optical character recognition
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
JP5508359B2 (ja) 文字認識装置、文字認識方法及びプログラム
US20060217959A1 (en) Translation processing method, document processing device and storage medium storing program
JPH04195692A (ja) 文書読取装置
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP5390522B2 (ja) 表示文書を解析に向けて準備する装置
JP2000315247A (ja) 文字認識装置
JP4470913B2 (ja) 文字列検索装置およびプログラム
CN112100978B (zh) 基于电子书的排版处理方法、电子设备及存储介质
JP5090983B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体
CN110807322B (zh) 基于信息熵识别新词的方法、装置、服务器及存储介质
US20200242389A1 (en) Information processing apparatus and non-transitory computer readable medium
JP4109738B2 (ja) 画像処理方法及び装置及びその記憶媒体
KR102646428B1 (ko) 인공지능 학습 모델을 이용한 유사 글자 추출 방법 및 장치
US20210303790A1 (en) Information processing apparatus
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
US9047535B2 (en) Image processing apparatus, image processing method, and computer readable medium
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JP6528927B2 (ja) 文書処理装置及びプログラム
CN116721431A (zh) 还原图像中字符排版的方法
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP3116453B2 (ja) 英文字認識装置
WO2021044447A2 (en) Method and system for keypoint extraction from images of documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040531

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070213

R150 Certificate of patent or registration of utility model

Ref document number: 3919617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100223

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110223

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120223

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130223

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140223

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees