JP4087191B2 - 画像処理装置、画像処理方法および画像処理プログラム - Google Patents

画像処理装置、画像処理方法および画像処理プログラム Download PDF

Info

Publication number
JP4087191B2
JP4087191B2 JP2002237521A JP2002237521A JP4087191B2 JP 4087191 B2 JP4087191 B2 JP 4087191B2 JP 2002237521 A JP2002237521 A JP 2002237521A JP 2002237521 A JP2002237521 A JP 2002237521A JP 4087191 B2 JP4087191 B2 JP 4087191B2
Authority
JP
Japan
Prior art keywords
character
image data
aspect ratio
cutout
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002237521A
Other languages
English (en)
Other versions
JP2004078531A (ja
Inventor
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002237521A priority Critical patent/JP4087191B2/ja
Publication of JP2004078531A publication Critical patent/JP2004078531A/ja
Application granted granted Critical
Publication of JP4087191B2 publication Critical patent/JP4087191B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、スキャナやペンタブレットなどから入力された文字を認識する画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
スキャナにより読み取られた文字、あるいはペンタブレットにより筆記された文字などについて文字認識をおこなうには、まず連続する文字列の中から、個々の文字を正確に切り出さなければならない。そしてこの文字切り出しに関しては、たとえば特開平05−197840号公報や特開平08−212301号公報などに記載された従来技術が存在する。
【0003】
【発明が解決しようとする課題】
このうち特開平05−197840号公報(文字切り出し制御方法)は、再切り出しのフィードバック制御の効率化に関するものであり、切り出し候補の図形情報を用いて文字切り出し誤りを判定している。しかしながらこの方法では、文字認識を実行する前に切り出し誤りを判定するので、図形情報による制限は緩く、高精度に誤りを検出することができないという問題があった。
【0004】
他方、特開平08−212301号公報(文字切出装置及びその切出方法)は、入力文字の字種を判定して切り出しパラメータを変更することで、高精度な文字切り出しを実現することを目指したものである。しかしながら、字種判定がオンライン筆記による画数にもとづいているため、オフラインによる文字認識には応用できないという問題があった。加えて、同一字種内でも文字画像の外形は大きく異なるので、字種だけにもとづいて切り出しパラメータを変更するには限界があり、高精度な切り出し処理を実現するには至らない。
【0005】
この発明は上記従来技術の問題点に鑑みてなされたものであって、切り出された文字画像データのアスペクト比を利用して、より高精度な文字画像データの切り出しが可能な画像処理装置、画像処理方法およびプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、本発明にかかる画像処理装置は、画像データの文字行から文字を切り出す画像処理装置であって、前記文字行から複数の文字画像データを切り出す文字切り出し手段と、前記文字切り出し手段により切り出された文字画像データのアスペクト比を算出するアスペクト比算出手段と、注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出手段により算出されたアスペクト比に基づいて結合する結合手段と、前記結合手段により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し手段と、を備え、前記結合手段は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする。
【0019】
【発明の実施の形態】
以下に添付図面を参照して、この発明による画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。
【0020】
(実施の形態1)
図1は、本発明の実施の形態1による文字認識装置のハードウエア構成を示す説明図である。同図において、101は装置全体を制御するCPUを、102は基本入出力プログラムを記憶したROMを、103はCPU101のワークエリアとして使用されるRAMを、それぞれ示している。
【0021】
また、104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御するHDD(ハードディスクドライブ)を、105はHDD104の制御にしたがって書き込まれたデータを記憶するHDを、それぞれ示している。
【0022】
また、106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御するFDD(フレキシブルディスクドライブ)を、107はFDD106の制御にしたがって書き込まれたデータを記憶する着脱自在のFDを、それぞれ示している。
【0023】
また、108はCPU101の制御にしたがってCD−RW109に対するデータのリード/ライトを制御するCD−RWドライブを、109はCD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する着脱自在のCD−RWを、それぞれ示している。
【0024】
また、110はカーソル、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、111は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などをおこなうマウスを、それぞれ示している。
【0025】
また、113はイーサネット(R)ケーブル114を介してLANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとして機能するネットワークI/Fを、115は紙などの原稿を読み取って、電子データ(画像データ)としてCPU101に引き渡すスキャナを、100は上記各部を接続するためのバスまたはケーブルを、それぞれ示している。
【0026】
つぎに、図2は本発明の実施の形態1による文字認識装置の構成を機能的に示す説明図である。まず、200は文字読み取り部であり、原稿上の文字画像について標本化・量子化をおこない、画像データとして本装置内に取り込む機能部である。
【0027】
図3は、文字読み取り部200により読み取られる原稿の一例を示す説明図である。なお、ここでは日本語文の横書原稿を例として用いるが、本発明は特定の言語、手書き/活字などの種別、縦書き/横書きなどの種別に限定されない。
【0028】
201は行切り出し部であり、文字読み取り部200により取り込まれた文字画像から、個々の行(厳密には、同一行内のすべての文字を含む領域の画像データ)を切り出す機能部である。すなわち図3のような原稿について、まず図4に示すように黒画素の外接矩形を求め、次に図5に示すように、隣接する矩形同士をまとめて一行として切り出す。
【0029】
202は文字切り出し部であり、行切り出し部201により切り出された各行から個々の文字(厳密には、個々の文字を含む領域の画像データ)を切り出す機能部である。すなわち、黒画素射影や行高さなどをもとに、行切り出し部201により切り出された領域をさらに1文字と予想される領域に分割することで、行内の個々の文字を切り出す。
【0030】
図2に戻り、次に203は文字認識部であり、文字切り出し部202により切り出された各領域内の文字画像について、当該画像により表現される文字の文字コードを特定する機能部である。すなわち上記画像の特徴と、あらかじめ用意された認識辞書内の各文字の特徴とを比較・照合して、確からしさのスコアをそれぞれ算出し、このスコアが所定の閾値以上となった候補文字を後述する後処理部204に出力する。なお、この処理(文字認識処理)自体は公知であるので詳細な説明を省略する。
【0031】
204は後処理部であり、文字認識部203から入力した各候補文字の組み合わせのうち、言語的・文法的な観点から見て妥当な組み合わせを、言語辞書や文法辞書をもとに特定する機能部である。そして、ここで特定された妥当な組み合わせ内の各文字が、認識結果として後述する文字切り出し検証部205に引き渡される。なお、この処理(文字認識の後処理)自体は公知であるので詳細な説明を省略する。
【0032】
次に、205は文字切り出し検証部であり、アスペクト表206を参照して、文字切り出し部202による一文字の切り出しが適切であったかどうかを判定する機能部である。
【0033】
図4からも分かるように、一般に漢字の外接矩形は正方形に近いものが多い。すなわち、そのアスペクト比(=縦/横)が1に近いものが多い。他方、英数字や記号には縦長、すなわちアスペクト比が1より大きいものも多い。もっともこれは一般論であって、漢字でもアスペクト比が1より大きいものもあれば、英数字でもアスペクト比が1に近いものもあるなど、多くの例外がある。
【0034】
そこで、あらかじめ文字ごとにアスペクト比の平均値(標準値、と言ってもよい)を取っておき、当該平均値と文字コードとを対応づけたアスペクト表206として用意しておく。図6は、アスペクト表206の一例を模式的に示す説明図である。図示するように、アスペクト表206には個々の文字の文字コード、アスペクト比の平均値の算出にあたって使用した標本数N、N個の標本のアスペクト比の平均値Av.および標準偏差σが保持されている。
【0035】
そして文字切り出し検証部205は、文字切り出し部202により切り出された各領域内の文字画像のアスペクト比、当該文字画像について文字認識部203により得られた認識結果(すなわち文字コード)、およびアスペクト表206に保持された、当該文字コードで特定される文字のアスペクト比の平均値および標準偏差を参照して、文字切り出し部202による文字切り出しの妥当性を検証する。
【0036】
たとえば「明細」という単語の場合、偏と旁が分離しても1文字として成立しうる文字で構成されているので、文字切り出し部202は誤って「日+月+糸+田」「日+月+細」「明+糸+田」などのように文字を切り出してしまうことがある。
【0037】
しかしながら、たとえば「日+月+糸+田」のような文字切り出しを前提とすると、アスペクト表206に保持された上記各文字のアスペクト比はいずれも1前後であることから、その形状は正方形に近いことが予想される。にもかかわらず、原稿上の「日」「月」のアスペクト比は1よりも大、すなわち実際の文字画像は縦長の形状であって、アスペクト比の不整合が発生している。そして、その原因は文字の切り出し位置の誤りである可能性が高い。
【0038】
同様に「日+月+細」や「明+糸+田」についても、認識結果とアスペクト表206から予想される形状は正方形であるにもかかわらず、実際には縦長である文字が存在する。結局、認識後の各文字についてアスペクト表206との不整合が生じないのは「明+細」の組み合わせのみであり、これ以外の誤った解を棄却することができる。
【0039】
なお、実際のアスペクト比と認識結果から予想されるアスペクト比との整合/不整合は、たとえば下記式が満足されるかどうかにより判定する。
文字Lkの認識結果のアスペクト比の平均値−その標準偏差*3
<文字Lkの実際のアスペクト比
<文字Lkの認識結果のアスペクト比の平均値+その標準偏差*3
【0040】
上記式は正規分布の特徴にもとづいて、k番目の文字Lkの実際のアスペクト比が、その認識結果から予想される平均的・標準的なアスペクト比からどれだけ乖離しているかを、標準偏差の定数倍(ここでは3倍)を基準に判定するものである。そしてこの式を満足しないLkは、実際のアスペクト比が標準的な範囲を逸脱しており、したがって1文字の切り出しを誤った可能性が高いと判定する。
【0041】
なお、上記式による判定はあくまで一例であり、たとえば標準偏差に掛け合わせる定数を調整することで条件を厳しく、あるいは緩くすることができることは言うまでもない。これに限らず、実際のアスペクト比と標準的なアスペクト比とを比較して、あらかじめ設定した基準以上に相違があれば文字切り出しの誤りがあると判定するのであれば、当該判定に使用する条件はどんなものであってもよい。たとえば、二つのアスペクト比の差や比に一定の閾値を設けることなどが考えられる。
【0042】
なお、図7は文字列「管理人員」が「管王里人員」のように誤って切り出された場合の、文字切り出し検証部205による切り出し誤りの判定結果を示す図表である。図示するように「王」と「里」についてアスペクト比の不正、すなわち切り出し誤りが検出されており、この2文字を含む領域が後述する再切り出し部207に引き渡される。
【0043】
図2に戻り、次に207は再切り出し部であり、文字切り出し検証部205により切り出し誤りがあると判定された領域について文字の再切り出しをおこなう機能部である。
【0044】
たとえば「明」が「日+月」と切り出された場合や、「理」が「王+里」と切り出された場合など、本来1文字であるものが複数の文字に分割されただけの場合は、単純にこれらを結合して再認識をおこなえばよい。しかし、たとえば図8のabcに示すように、ある文字の一部が隣接する他の文字の一部として切り出された場合には、結合の後さらに適切な切り出し位置を特定しなければならない。
【0045】
図示するabcの例では文字「が」と「絶」とが接触しているために、「が」の一部が「絶」の一部として切り出されており、その結果「が」の左側2/3ほどは「力」、「が」の右側1/3ほどと「絶」とは「該」と、それぞれ誤認識されている。そして、それでも「力」と認識された「が」の一部(図中a内の画像)については、アスペクト比の不正は検出されなかったが、「該」と認識された「が」の一部および「絶」(図中b内の画像)については、「該」であるにしては実際のアスペクト比が小さい、すなわち予想よりも横長であると判定されたものとする。
【0046】
このように、実際のアスペクト比の値が不正に小さくなるのは、文字切り出しに失敗して隣接する他の文字の一部を注目文字に結合してしまった場合に見られることが多い。他方、隣接文字の側は画像が欠けているため逆に縦長の形状となっていることが多い。そこで、注目文字が不正に横長である場合には、その直前または直後の隣接文字に縦長の形状のものがないかどうかを調べ、もしあれば当該隣接文字と注目文字とを結合の上、横幅を2等分することで2文字を切り出す。
【0047】
たとえば図8の例では、アスペクト比の不正が検出されたbに隣接するaとcのうち、縦長のものはaなので、このaとbとが結合されて2分割される結果、再切り出し後の外接矩形は図中ABCのようになる。
【0048】
なお、逆に注目文字の実際のアスペクト比の値が不正に大きくなるのは、文字切り出しに失敗して、注目文字の一部が隣接文字に結合されてしまった場合に見られることが多い。そこで、注目文字が不正に縦長である場合には、その直前および直後の隣接文字に横長の形状のものがないかどうかを調べ、もしあれば当該隣接文字と注目文字とを結合の上、横幅を2等分することで2文字を切り出す。
【0049】
このように再切り出し部207では、文字切り出し検証部205により注目文字について文字切り出し誤りが検出されると、当該検出からは漏れたその直前・直後の隣接文字まで取り込んで、正しい文字の再切り出しをおこなう。そして2文字の結合にあたっては、注目文字が横長であるか縦長であるかを基礎に、前者であれば縦長、後者であれば横長の隣接文字を結合するようにし、2文字の再分割にあたっては、その行方向の長さを単純に2等分するようにする。
【0050】
なお、ここでは原稿は横書きであることを前提としたが、縦書き原稿の場合は上記の「横長」は「縦長」、「縦長」は「横長」にすべて読み替えるものとする。
【0051】
図9は、本発明の実施の形態1による文字認識装置における、文字認識処理の手順を示すフローチャートである。まず、文字読み取り部200により原稿上の文字画像を読み込む(ステップS901)。次に、行切り出し部201により黒画素の外接矩形を求め(ステップS902)、これらの矩形を連結することで一行を切り出す(ステップS903)。
【0052】
その後文字切り出し部202により、上記で切り出された行からさらに個々の文字を切り出し(ステップS904)、続いて文字認識部203による文字認識(ステップS905)、後処理部204による後処理(ステップS906)を経て、文字切り出し検証部205・再切り出し部207・文字認識部203および後処理部204による、文字切り出し誤りの検出と誤りが検出された場合の文字の再切り出し、および再認識とその後処理とが実施される(ステップS907)。
【0053】
図10は、図9のステップS907における処理の手順を詳細に示すフローチャートである。まず、文字切り出し検証部205が一行分の認識結果を読み込み(ステップS1001)、次に何番目の文字に注目中であるかを示す文字カウンタを0に初期化した後(ステップS1002)、当該カウンタを1つインクリメントする(ステップS1003)。
【0054】
そして、文字カウンタの値が一行内の文字数を超えたかどうか、すなわち行内の全文字について以下に説明する処理を終えたかどうかを判定し、まだ未了の文字がある限りは(ステップS1004:No)、注目文字についてステップS1005以下の処理をおこなう。
【0055】
すなわち、まず文字カウンタで特定される注目文字の実際のアスペクト比を算出し(ステップS1005)、当該アスペクト比が標準的なアスペクト比の範囲内であるかどうかを上述の式により判定する(ステップS1006)。そして、アスペクト比の不正が検出されなければ(ステップS1006:No)ステップS1003に戻って、後続の文字につき同様の処理を繰り返す。
【0056】
他方、アスペクト比の不正が検出された場合は(ステップS1006:Yes)、次に注目文字がその認識結果から予想されるよりも縦長であるのか、横長であるのかを判定する。
【0057】
そして予想よりも縦長であった場合(ステップS1007:Yes)は、文字切り出し検証部205からの指示を受けた再切り出し部207が、注目文字の直前および直後の隣接文字の実際のアスペクト比を算出し(ステップS1008)、いずれかの隣接文字が横長であった場合には(ステップS1009:Yes)、当該横長の隣接文字と注目文字との画像とを結合する(ステップS1010)。
【0058】
その後、結合後の画像の横幅を2等分することで、結合後の再切り出し範囲から2文字を切り出し(ステップS1011)、これら2文字について再度文字認識部203による文字認識処理をおこなう(ステップS1012)。そして後処理部204において、文字認識部203による再認識候補の中から、言語的・文法的に見て最も妥当なものを選出する(ステップS1013)。
【0059】
他方、注目文字が予想よりも横長であった場合(ステップS1007:No)は、再切り出し部207は同様に隣接文字のアスペクト比を算出し(ステップS1014)、いずれかの隣接文字が縦長であった場合には(ステップS1015:Yes)、当該縦長の隣接文字と注目文字との画像とを結合する(ステップS1010)。その後、上記と同様に文字の再切り出し(ステップS1011)・再認識(ステップS1012)および後処理(ステップS1013)をおこなう。
【0060】
以上説明した実施の形態1によれば、認識後の文字についてその形状(具体的にはアスペクト比)が不自然でないかどうかを検証しているので、上述した特開平05−197840号公報のように、認識前の文字について図形情報により切り出し誤りを判定する従来技術に比べて、より高精度に文字の切り出し誤りを検出することができる。また特開平08−212301号公報のように、字種によりざっくりと形状を予測するのでなく、個々の文字についてアスペクト比の標準値を用意しているので、この点からもより高精度に文字の切り出し誤りを検出することができる。
【0061】
なお、上記従来技術は複数文字が接触した文字矩形に対する再切り出しについて言及するものではないが、本発明によれば文字が接触しているために切り出し誤りが生じた場合にも、アスペクト比の不正から当該誤りが検出され、正確な再切り出しと再認識がおこなわれる。
【0062】
なお、上述した実施の形態では図8に示したように、隣接するaとbとを結合してAとBとに分割することで文字の再切り出しをおこなったが、このように2文字を結合して2分割する場合のほかに、2文字を結合して3分割、3文字を結合して3分割など、再切り出しには様々なバラエティが存在する。
【0063】
図11は、3文字を結合して2分割する例である。「感」と「覚」が接触しているために切り出し位置に誤りが生じ、2文字が3文字としてそれぞれ「燻」「製」「富」と誤認識されている。しかし、上記3文字はいずれもほぼ正方形となることが予想されるにもかかわらず、実際には不正に縦長であることから、これら3文字が再切り出し範囲として抽出される。
【0064】
この再切り出し範囲の高さhで横幅を分割すると、w1、w2のようにほぼ整数倍に割り切れるので、この場合は上記範囲を2等分して2文字を切り出す。同様に、横幅が高さhで3等分できる場合は3等分して3文字、4等分できる場合は4等分して4文字を切り出す。なお、整数倍に分割できない場合には、この切り出し候補は棄却される。
【0065】
なお、正方形の文字が多い日本語文では上記の方法は有効であるが、縦倍角・横倍角などの文字飾りが施された行、英文など半角文字で構成された行については有効に機能しない。そこで、複数文字を結合した再切り出し範囲の横幅を、h/2あるいは2hの整数倍に分割することを試みる。整数倍に分割可能な場合は分割後の各々の文字を再認識し、所定の閾値を超えて信頼できる認識候補について言語的・文法的な妥当性を検証する後処理をおこなう。なお、後処理の段階で最尤解を選択するので、再切り出しの段階では解を一意に決定する必要はない。
【0066】
(実施の形態2)
さて、上述した実施の形態1ではどのような原稿についても、あらかじめ採取した標準的なアスペクト比を基礎として文字切り出しの誤りを検出したが、たとえば新聞などでは、書籍などの通常の原稿とは形状の異なるフォントを使用している。
【0067】
図12(a)は一般原稿、図12(b)は新聞において使用されるフォントの一例を示す説明図である。(a)(b)はいずれも1行14文字の縦書文書であるが、使用されるフォントの形状が異なる、すなわち一般原稿に比べて新聞のフォントは扁平(横長)であるために、ほぼ同サイズのフォントを使用していても原稿のサイズが異なることがわかる。
【0068】
各新聞のフォントは新聞社独自のものであり、通常はフォントセットを入手することが困難である。よって図6に示したアスペクト表206の作成にあたっては、標本に新聞フォントを含めず、一般的に利用可能なフォントセットのみを使用せざるを得ない。そのため原稿が新聞であった場合に、通常フォントから採取されたアスペクト比と原稿から得られた実際のアスペクト比とをそのまま比較したのでは、正しく切り出されている文字についても誤りがあると誤判定してしまうことになる。
【0069】
そこで以下に説明する実施の形態2のように、アスペクト比検査に先立って注目文字が新聞フォントであるか否かを判定し、新聞フォントである場合にはアスペクト表206と照合する、その実際のアスペクト比を調整(具体的には、やや割り増し)するようにすれば、原稿が新聞である場合も高精度に文字切り出しの誤りを検出することができる。
【0070】
本発明の実施の形態2による文字認識装置のハードウエア構成は、図1に示した実施の形態1のそれと同様であるので説明を省略する。図13は、実施の形態2による文字認識装置の構成を機能的に示す説明図である。図2に示した実施の形態1によるそれとの差異は、新たにフォント判別部1308を備えた構成である点である。
【0071】
フォント判別部1308は、後処理部1304から出力された認識結果を一行ごとに読み込み、当該行が新聞フォントからなる行であるか否かを、当該行内に存在する横長文字の比率により判定する。すなわち、たとえばアスペクト比が0.60〜0.95の範囲にある文字を横長文字と定義し、行内の総文字数に占める横長文字の比率が60〜90%程度以上である行を新聞フォント行であるとする。
【0072】
そして、この判定結果は文字切り出し検証部1305に供給され、文字切り出し検証部1305は各文字のアスペクト比の検査にあたって、新聞フォント行内の文字についてはその実際のアスペクト比を1.1〜1.2倍に調整する。すなわち、原稿上の文字をいわば縦長に引き延ばしてから、アスペクト表1306内の標準的なアスペクト比と比較する。
【0073】
実施の形態2による文字認識装置における、文字認識処理の手順は図9に示した実施の形態1のそれと同様であるが、ステップS907における処理の手順が若干異なっている。
【0074】
図14は、本発明の実施の形態2による文字認識装置における、図9のステップS907における処理の手順を詳細に示すフローチャートである。図10に示した手順との差異は、ステップS1401の直後にフォント判別部1308による、各行ごとのフォント種別の判別処理(ステップS1402)が挿入されている点である。ここで注目行が横長文字の比率により、新聞フォントで構成される行であると判定されると、続くステップS1406のアスペクト比の算出では、各文字のアスペクト比が実際よりも1割〜2割増しされる。
【0075】
以上説明した実施の形態2によれば、新聞のように独自のフォントを使用する原稿であっても、当該原稿の特殊性に合わせてアスペクト比の検査をおこなうので、より高精度に文字の切り出し誤りを検出することができる。
【0076】
なお、ここでは新聞フォントの特殊性に応じて実際のアスペクト比を調整したが、応用として半角フォントについてもこうした調整を施すようにしてもよい。
【0077】
たとえば、カタカナや英数字など同形の全角文字と半角文字とが存在する文字については、アスペクト表206/1306には全角文字のアスペクト比の平均値や標準偏差のみを保持しておく。そして、文字認識部203/1303により認識された文字が半角文字であった場合は、文字切り出し検証部205/1305はその実際のアスペクト比を単純に1/2倍して、同形の全角文字の標準的なアスペクト比と比較する。
【0078】
ただし、上記の方法は英数字では問題ないが、いわゆる半角カナの濁音・半濁音については切り出し誤りを正確に検出することができない。半角カナの場合、濁音・半濁音文字は単独濁点・単独半濁点を伴うことによって表現される。そして図15に示すように、半角カナの清音文字のアスペクト比は全角カナのほぼ2倍であるが、濁音・半濁音文字は濁音部も含んで1文字となる結果、全角文字の2倍ではなく1.5(=3/2)倍程度のアスペクト比となる。
【0079】
そこで新聞フォント行を特定したのと同様に、行内の総文字数に占める縦長文字の比率から半角フォントで構成される行を特定し、当該行について文字切り出し誤りの有無を判定するに際しては、各文字の実際のアスペクト比に清音文字の場合1/2、濁音・半濁音文字の場合2/3の調整値を掛け合わせるようにする。濁音・半濁音の文字数は有限個であるから、それらの文字コードのリストを保持しておき、このリストを参照して清音か濁音・半濁音かを判定の上、1/2または2/3に調整値を切り替えるようにする。
【0080】
なお、上述した実施の形態1および2では、後処理後の認識結果についてアスペクト比を検査したが、後処理において複数の認識候補から最尤解を選択する際に、アスペクト比から見た各解の妥当性を勘案するようにしてもよい。
【0081】
図16(a)に示すように、個々の文字画像には複数の認識候補の存在することがほとんどである。たとえば、「文」の文字画像に対しては文字「文」と「人」が対応する。また、「利」のように偏と旁のある文字については、偏と旁の各々を1文字と解釈した認識候補「奉」「り」も存在する。
【0082】
これらの認識候補を図16(b)に示すように形態素にまとめ上げ、次に同図(c)に示すように、言語的に見て最も妥当な組み合わせのみを残す。図中、「利活用」の部分は「利用・活用」の省略形であり、言語的には不規則であることから、競合する「利」と「奉り」のうち正解の「利」は棄却され、「奉り」が認識結果として残ってしまっている。このように、言語的な妥当性を優先して最尤解を決定した場合、認識候補に正解が含まれていても当該正解を選択できない場合がある。
【0083】
そこで同図(d)に示すように、この段階でアスペクト比の検査を実施すれば、「奉り」の部分でアスペクト比が不正になっていることが分かる(たとえば「奉」は正方形に近い形状が期待されるのに対し、「利」の偏部分だけが誤って切り出されているために、実際の形状は縦長である)。一方、「奉り」と競合する形態素「利」では、このような不正は発生しない。この点に鑑みて、「奉り」の評価値を何らかの規則により下げてやることで、言語処理において選択されにくくする。
【0084】
同図(e)は、評価値の低下した「奉り」の代わりに正解「利」が選択された様子である。形態素のそのものの評価値と形態素間の接続強度などを総合評価して、言語的に妥当な形態素の組み合わせが選択される。最終的な認識結果は同図(f)のようになり、言語的にも妥当で、かつ文字切り出し誤りも含まない解が得られている。
【0085】
なお、上述した文字読み取り部200/1300は具体的にはスキャナ115により実現される。また、行切り出し部201/1301、文字切り出し部202/1302、文字認識部203/1303、後処理部204/1304、文字切り出し検証部205/1305、再切り出し部207/1307およびフォント判別部1308は、具体的にはHD105からRAM103に読み出されたプログラムをCPU101が実行することにより実現される。このプログラムはHD105のほか、FD107、CD−RW109、MOなどの各種の記録媒体に格納して配布することができ、ネットワークを介して配布することも可能である。
【0086】
また、上述した実施の形態では上記各部を単一の装置内に備えるようにしたが、一部の機能部をネットワーク上の他の情報処理装置などに備えるようにしてもよいことは言うまでもない。
【0087】
【発明の効果】
以上説明したように、本発明は、切り出された文字画像データのアスペクト比を利用することにより、より高精度な文字画像データの切り出しが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態1による文字認識装置のハードウエア構成を示す説明図である。
【図2】本発明の実施の形態1による文字認識装置の構成を機能的に示す説明図である。
【図3】文字読み取り部200により読み取られる原稿の一例を示す説明図である。
【図4】行切り出し部201による行切り出しの様子を示す説明図である。
【図5】行切り出し部201による行切り出しの様子を示す他の説明図である。
【図6】アスペクト表206の一例を模式的に示す説明図である。
【図7】文字切り出し検証部205による切り出し誤りの判定結果を示す図表である。
【図8】再切り出し部207による文字の再切り出しの様子を示す説明図である。
【図9】本発明の実施の形態1による文字認識装置における、文字認識処理の手順を示すフローチャートである。
【図10】図9のステップS907における処理の手順を詳細に示すフローチャートである。
【図11】再切り出し部207による文字の再切り出しの様子を示す他の説明図である。
【図12】一般原稿に使用されるフォントと新聞に使用されるフォントの一例を示す説明図である。
【図13】本発明の実施の形態2による文字認識装置の構成を機能的に示す説明図である。
【図14】本発明の実施の形態2による文字認識装置における、図9のステップS907における処理の手順を詳細に示すフローチャートである。
【図15】半角フォントの一例を示す説明図である。
【図16】文字認識の後処理におけるアスペクト比検査の手順を示す説明図である。
【符号の説明】
100 バスまたはケーブル
101 CPU
102 ROM
103 RAM
104 HDD
105 HD
106 FDD
107 FD
108 CD−RWドライブ
109 CD−RW
110 ディスプレイ
111 キーボード
112 マウス
113 ネットワークI/F
114 イーサネット(R)ケーブル
115 スキャナ
200,1300 文字読み取り部
201,1301 行切り出し部
202,1302 文字切り出し部
203,1303 文字認識部
204,1304 後処理部
205,1305 文字切り出し検証部
206,1306 アスペクト表
207,1307 再切り出し部
1308 フォント判別部

Claims (7)

  1. 画像データの文字行から文字を切り出す画像処理装置であって、
    前記文字行から複数の文字画像データを切り出す文字切り出し手段と、
    前記文字切り出し手段により切り出された文字画像データのアスペクト比を算出するアスペクト比算出手段と、
    注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出手段により算出されたアスペクト比に基づいて結合する結合手段と、
    前記結合手段により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し手段と、
    を備え、
    前記結合手段は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする画像処理装置。
  2. 前記文字切り出し手段により切り出された文字画像データが表現する文字を特定する文字認識手段と、
    前記アスペクト比算出手段により算出されたアスペクト比が、前記文字認識手段により特定された文字に固有のアスペクト比からどれだけ乖離しているかにもとづいて、前記文字切り出し手段による文字画像データの切り出しの誤りを検出する文字切り出し検証手段と、
    を備え、
    前記注目文字画像データは、前記文字切り出し検証手段により誤りが検出された文字画像データであることを特徴とする請求項1に記載の画像処理装置。
  3. 前記再切り出し手段は、前記結合手段により結合された画像データの横幅をその高さ、その高さの1/2倍あるいはその高さの2倍で等分割することを特徴とする請求項1または2に記載の画像処理装置。
  4. 画像データの文字行から文字を切り出す画像処理装置における画像処理方法であって、
    前記文字行から複数の文字画像データを切り出す文字切り出し工程と、
    前記文字切り出し工程により切り出された文字画像データのアスペクト比を算出するアスペクト比算出工程と、
    注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出工程により算出されたアスペクト比に基づいて結合する結合工程と、
    前記結合工程により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し工程と、
    を含み、
    前記結合工程は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする画像処理方法。
  5. 前記文字切り出し工程により切り出された文字画像データが表現する文字を特定する文字認識工程と、
    前記アスペクト比算出工程により算出されたアスペクト比が、前記文字認識工程により特定された文字に固有のアスペクト比からどれだけ乖離しているかにもとづいて、前記文字切り出し工程による文字画像データの切り出しの誤りを検出する文字切り出し検証工程と、
    を含み、
    前記注目文字画像データは、前記文字切り出し検証工程により誤りが検出された文字画像データであることを特徴とする請求項4に記載の画像処理方法。
  6. 前記再切り出し工程は、前記結合工程により結合された画像データの横幅をその高さ、その高さの1/2倍あるいはその高さの2倍で等分割することを特徴とする請求項4または5に記載の画像処理方法。
  7. 請求項4乃至6のいずれか一つに記載の画像処理方法をコンピュータに実行させることを特徴とする画像処理プログラム。
JP2002237521A 2002-08-16 2002-08-16 画像処理装置、画像処理方法および画像処理プログラム Expired - Fee Related JP4087191B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002237521A JP4087191B2 (ja) 2002-08-16 2002-08-16 画像処理装置、画像処理方法および画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002237521A JP4087191B2 (ja) 2002-08-16 2002-08-16 画像処理装置、画像処理方法および画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2004078531A JP2004078531A (ja) 2004-03-11
JP4087191B2 true JP4087191B2 (ja) 2008-05-21

Family

ID=32021239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002237521A Expired - Fee Related JP4087191B2 (ja) 2002-08-16 2002-08-16 画像処理装置、画像処理方法および画像処理プログラム

Country Status (1)

Country Link
JP (1) JP4087191B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220406082A1 (en) * 2021-06-16 2022-12-22 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4810853B2 (ja) * 2005-03-28 2011-11-09 富士ゼロックス株式会社 文字画像切出装置、文字画像切出方法およびプログラム
JP4600491B2 (ja) 2008-02-26 2010-12-15 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5111268B2 (ja) 2008-07-09 2013-01-09 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラムおよび記憶媒体
JP7370733B2 (ja) * 2019-05-30 2023-10-30 キヤノン株式会社 情報処理装置、制御方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220406082A1 (en) * 2021-06-16 2022-12-22 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Also Published As

Publication number Publication date
JP2004078531A (ja) 2004-03-11

Similar Documents

Publication Publication Date Title
US20210034849A1 (en) System and method of character recognition using fully convolutional neural networks with attention
Sabbour et al. A segmentation-free approach to Arabic and Urdu OCR
Fischer et al. Transcription alignment of Latin manuscripts using hidden Markov models
US8196030B1 (en) System and method for comparing and reviewing documents
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
KR100412317B1 (ko) 문자인식/수정방법및장치
US20120114245A1 (en) Online Script Independent Recognition of Handwritten Sub-Word Units and Words
WO1995008158A1 (en) Universal symbolic handwriting recognition system
RU2605078C2 (ru) Сегментация изображения для верификации данных
RU2665274C2 (ru) Всплывающая панель верификации
JPH04195692A (ja) 文書読取装置
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP2000315247A (ja) 文字認識装置
EP2138959B1 (en) Word recognizing method and word recognizing program
JP7282989B2 (ja) テキスト分類
JP4087191B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
JP2010061471A (ja) 文字認識装置およびプログラム
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
Kumar et al. Line based robust script identification for indianlanguages
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
García-Calderón et al. Unsupervised multi-language handwritten text line segmentation
JPH09274645A (ja) 文字認識方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120229

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130228

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140228

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees