JP4087191B2

JP4087191B2 - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: JP4087191B2
Application number: JP2002237521A
Authority: JP
Inventors: 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-08-16
Filing date: 2002-08-16
Publication date: 2008-05-21
Anticipated expiration: 2022-08-16
Also published as: JP2004078531A

Description

【０００１】
【発明の属する技術分野】
この発明は、スキャナやペンタブレットなどから入力された文字を認識する画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムに関する。
【０００２】
【従来の技術】
スキャナにより読み取られた文字、あるいはペンタブレットにより筆記された文字などについて文字認識をおこなうには、まず連続する文字列の中から、個々の文字を正確に切り出さなければならない。そしてこの文字切り出しに関しては、たとえば特開平０５−１９７８４０号公報や特開平０８−２１２３０１号公報などに記載された従来技術が存在する。
【０００３】
【発明が解決しようとする課題】
このうち特開平０５−１９７８４０号公報（文字切り出し制御方法）は、再切り出しのフィードバック制御の効率化に関するものであり、切り出し候補の図形情報を用いて文字切り出し誤りを判定している。しかしながらこの方法では、文字認識を実行する前に切り出し誤りを判定するので、図形情報による制限は緩く、高精度に誤りを検出することができないという問題があった。
【０００４】
他方、特開平０８−２１２３０１号公報（文字切出装置及びその切出方法）は、入力文字の字種を判定して切り出しパラメータを変更することで、高精度な文字切り出しを実現することを目指したものである。しかしながら、字種判定がオンライン筆記による画数にもとづいているため、オフラインによる文字認識には応用できないという問題があった。加えて、同一字種内でも文字画像の外形は大きく異なるので、字種だけにもとづいて切り出しパラメータを変更するには限界があり、高精度な切り出し処理を実現するには至らない。
【０００５】
この発明は上記従来技術の問題点に鑑みてなされたものであって、切り出された文字画像データのアスペクト比を利用して、より高精度な文字画像データの切り出しが可能な画像処理装置、画像処理方法およびプログラムを提供することを目的とする。
【０００６】
【課題を解決するための手段】
上述した課題を解決し、目的を達成するため、本発明にかかる画像処理装置は、画像データの文字行から文字を切り出す画像処理装置であって、前記文字行から複数の文字画像データを切り出す文字切り出し手段と、前記文字切り出し手段により切り出された文字画像データのアスペクト比を算出するアスペクト比算出手段と、注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出手段により算出されたアスペクト比に基づいて結合する結合手段と、前記結合手段により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し手段と、を備え、前記結合手段は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする。
【００１９】
【発明の実施の形態】
以下に添付図面を参照して、この発明による画像処理装置、画像処理方法およびその方法をコンピュータに実行させるプログラムの好適な実施の形態を詳細に説明する。
【００２０】
（実施の形態１）
図１は、本発明の実施の形態１による文字認識装置のハードウエア構成を示す説明図である。同図において、１０１は装置全体を制御するＣＰＵを、１０２は基本入出力プログラムを記憶したＲＯＭを、１０３はＣＰＵ１０１のワークエリアとして使用されるＲＡＭを、それぞれ示している。
【００２１】
また、１０４はＣＰＵ１０１の制御にしたがってＨＤ（ハードディスク）１０５に対するデータのリード／ライトを制御するＨＤＤ（ハードディスクドライブ）を、１０５はＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶するＨＤを、それぞれ示している。
【００２２】
また、１０６はＣＰＵ１０１の制御にしたがってＦＤ（フレキシブルディスク）１０７に対するデータのリード／ライトを制御するＦＤＤ（フレキシブルディスクドライブ）を、１０７はＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する着脱自在のＦＤを、それぞれ示している。
【００２３】
また、１０８はＣＰＵ１０１の制御にしたがってＣＤ−ＲＷ１０９に対するデータのリード／ライトを制御するＣＤ−ＲＷドライブを、１０９はＣＤ−ＲＷドライブ１０８の制御にしたがって書き込まれたデータを記憶する着脱自在のＣＤ−ＲＷを、それぞれ示している。
【００２４】
また、１１０はカーソル、ウィンドウ、あるいは文字や画像などの各種データを表示するディスプレイを、１１１は文字、数値、各種指示などの入力のための複数のキーを備えたキーボードを、１１２は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などをおこなうマウスを、それぞれ示している。
【００２５】
また、１１３はイーサネット（Ｒ）ケーブル１１４を介してＬＡＮなどのネットワークに接続され、当該ネットワークとＣＰＵ１０１とのインターフェースとして機能するネットワークＩ／Ｆを、１１５は紙などの原稿を読み取って、電子データ（画像データ）としてＣＰＵ１０１に引き渡すスキャナを、１００は上記各部を接続するためのバスまたはケーブルを、それぞれ示している。
【００２６】
つぎに、図２は本発明の実施の形態１による文字認識装置の構成を機能的に示す説明図である。まず、２００は文字読み取り部であり、原稿上の文字画像について標本化・量子化をおこない、画像データとして本装置内に取り込む機能部である。
【００２７】
図３は、文字読み取り部２００により読み取られる原稿の一例を示す説明図である。なお、ここでは日本語文の横書原稿を例として用いるが、本発明は特定の言語、手書き／活字などの種別、縦書き／横書きなどの種別に限定されない。
【００２８】
２０１は行切り出し部であり、文字読み取り部２００により取り込まれた文字画像から、個々の行（厳密には、同一行内のすべての文字を含む領域の画像データ）を切り出す機能部である。すなわち図３のような原稿について、まず図４に示すように黒画素の外接矩形を求め、次に図５に示すように、隣接する矩形同士をまとめて一行として切り出す。
【００２９】
２０２は文字切り出し部であり、行切り出し部２０１により切り出された各行から個々の文字（厳密には、個々の文字を含む領域の画像データ）を切り出す機能部である。すなわち、黒画素射影や行高さなどをもとに、行切り出し部２０１により切り出された領域をさらに１文字と予想される領域に分割することで、行内の個々の文字を切り出す。
【００３０】
図２に戻り、次に２０３は文字認識部であり、文字切り出し部２０２により切り出された各領域内の文字画像について、当該画像により表現される文字の文字コードを特定する機能部である。すなわち上記画像の特徴と、あらかじめ用意された認識辞書内の各文字の特徴とを比較・照合して、確からしさのスコアをそれぞれ算出し、このスコアが所定の閾値以上となった候補文字を後述する後処理部２０４に出力する。なお、この処理（文字認識処理）自体は公知であるので詳細な説明を省略する。
【００３１】
２０４は後処理部であり、文字認識部２０３から入力した各候補文字の組み合わせのうち、言語的・文法的な観点から見て妥当な組み合わせを、言語辞書や文法辞書をもとに特定する機能部である。そして、ここで特定された妥当な組み合わせ内の各文字が、認識結果として後述する文字切り出し検証部２０５に引き渡される。なお、この処理（文字認識の後処理）自体は公知であるので詳細な説明を省略する。
【００３２】
次に、２０５は文字切り出し検証部であり、アスペクト表２０６を参照して、文字切り出し部２０２による一文字の切り出しが適切であったかどうかを判定する機能部である。
【００３３】
図４からも分かるように、一般に漢字の外接矩形は正方形に近いものが多い。すなわち、そのアスペクト比（＝縦／横）が１に近いものが多い。他方、英数字や記号には縦長、すなわちアスペクト比が１より大きいものも多い。もっともこれは一般論であって、漢字でもアスペクト比が１より大きいものもあれば、英数字でもアスペクト比が１に近いものもあるなど、多くの例外がある。
【００３４】
そこで、あらかじめ文字ごとにアスペクト比の平均値（標準値、と言ってもよい）を取っておき、当該平均値と文字コードとを対応づけたアスペクト表２０６として用意しておく。図６は、アスペクト表２０６の一例を模式的に示す説明図である。図示するように、アスペクト表２０６には個々の文字の文字コード、アスペクト比の平均値の算出にあたって使用した標本数Ｎ、Ｎ個の標本のアスペクト比の平均値Ａｖ．および標準偏差σが保持されている。
【００３５】
そして文字切り出し検証部２０５は、文字切り出し部２０２により切り出された各領域内の文字画像のアスペクト比、当該文字画像について文字認識部２０３により得られた認識結果（すなわち文字コード）、およびアスペクト表２０６に保持された、当該文字コードで特定される文字のアスペクト比の平均値および標準偏差を参照して、文字切り出し部２０２による文字切り出しの妥当性を検証する。
【００３６】
たとえば「明細」という単語の場合、偏と旁が分離しても１文字として成立しうる文字で構成されているので、文字切り出し部２０２は誤って「日＋月＋糸＋田」「日＋月＋細」「明＋糸＋田」などのように文字を切り出してしまうことがある。
【００３７】
しかしながら、たとえば「日＋月＋糸＋田」のような文字切り出しを前提とすると、アスペクト表２０６に保持された上記各文字のアスペクト比はいずれも１前後であることから、その形状は正方形に近いことが予想される。にもかかわらず、原稿上の「日」「月」のアスペクト比は１よりも大、すなわち実際の文字画像は縦長の形状であって、アスペクト比の不整合が発生している。そして、その原因は文字の切り出し位置の誤りである可能性が高い。
【００３８】
同様に「日＋月＋細」や「明＋糸＋田」についても、認識結果とアスペクト表２０６から予想される形状は正方形であるにもかかわらず、実際には縦長である文字が存在する。結局、認識後の各文字についてアスペクト表２０６との不整合が生じないのは「明＋細」の組み合わせのみであり、これ以外の誤った解を棄却することができる。
【００３９】
なお、実際のアスペクト比と認識結果から予想されるアスペクト比との整合／不整合は、たとえば下記式が満足されるかどうかにより判定する。
文字Ｌｋの認識結果のアスペクト比の平均値−その標準偏差＊３
＜文字Ｌｋの実際のアスペクト比
＜文字Ｌｋの認識結果のアスペクト比の平均値＋その標準偏差＊３
【００４０】
上記式は正規分布の特徴にもとづいて、ｋ番目の文字Ｌｋの実際のアスペクト比が、その認識結果から予想される平均的・標準的なアスペクト比からどれだけ乖離しているかを、標準偏差の定数倍（ここでは３倍）を基準に判定するものである。そしてこの式を満足しないＬｋは、実際のアスペクト比が標準的な範囲を逸脱しており、したがって１文字の切り出しを誤った可能性が高いと判定する。
【００４１】
なお、上記式による判定はあくまで一例であり、たとえば標準偏差に掛け合わせる定数を調整することで条件を厳しく、あるいは緩くすることができることは言うまでもない。これに限らず、実際のアスペクト比と標準的なアスペクト比とを比較して、あらかじめ設定した基準以上に相違があれば文字切り出しの誤りがあると判定するのであれば、当該判定に使用する条件はどんなものであってもよい。たとえば、二つのアスペクト比の差や比に一定の閾値を設けることなどが考えられる。
【００４２】
なお、図７は文字列「管理人員」が「管王里人員」のように誤って切り出された場合の、文字切り出し検証部２０５による切り出し誤りの判定結果を示す図表である。図示するように「王」と「里」についてアスペクト比の不正、すなわち切り出し誤りが検出されており、この２文字を含む領域が後述する再切り出し部２０７に引き渡される。
【００４３】
図２に戻り、次に２０７は再切り出し部であり、文字切り出し検証部２０５により切り出し誤りがあると判定された領域について文字の再切り出しをおこなう機能部である。
【００４４】
たとえば「明」が「日＋月」と切り出された場合や、「理」が「王＋里」と切り出された場合など、本来１文字であるものが複数の文字に分割されただけの場合は、単純にこれらを結合して再認識をおこなえばよい。しかし、たとえば図８のａｂｃに示すように、ある文字の一部が隣接する他の文字の一部として切り出された場合には、結合の後さらに適切な切り出し位置を特定しなければならない。
【００４５】
図示するａｂｃの例では文字「が」と「絶」とが接触しているために、「が」の一部が「絶」の一部として切り出されており、その結果「が」の左側２／３ほどは「力」、「が」の右側１／３ほどと「絶」とは「該」と、それぞれ誤認識されている。そして、それでも「力」と認識された「が」の一部（図中ａ内の画像）については、アスペクト比の不正は検出されなかったが、「該」と認識された「が」の一部および「絶」（図中ｂ内の画像）については、「該」であるにしては実際のアスペクト比が小さい、すなわち予想よりも横長であると判定されたものとする。
【００４６】
このように、実際のアスペクト比の値が不正に小さくなるのは、文字切り出しに失敗して隣接する他の文字の一部を注目文字に結合してしまった場合に見られることが多い。他方、隣接文字の側は画像が欠けているため逆に縦長の形状となっていることが多い。そこで、注目文字が不正に横長である場合には、その直前または直後の隣接文字に縦長の形状のものがないかどうかを調べ、もしあれば当該隣接文字と注目文字とを結合の上、横幅を２等分することで２文字を切り出す。
【００４７】
たとえば図８の例では、アスペクト比の不正が検出されたｂに隣接するａとｃのうち、縦長のものはａなので、このａとｂとが結合されて２分割される結果、再切り出し後の外接矩形は図中ＡＢＣのようになる。
【００４８】
なお、逆に注目文字の実際のアスペクト比の値が不正に大きくなるのは、文字切り出しに失敗して、注目文字の一部が隣接文字に結合されてしまった場合に見られることが多い。そこで、注目文字が不正に縦長である場合には、その直前および直後の隣接文字に横長の形状のものがないかどうかを調べ、もしあれば当該隣接文字と注目文字とを結合の上、横幅を２等分することで２文字を切り出す。
【００４９】
このように再切り出し部２０７では、文字切り出し検証部２０５により注目文字について文字切り出し誤りが検出されると、当該検出からは漏れたその直前・直後の隣接文字まで取り込んで、正しい文字の再切り出しをおこなう。そして２文字の結合にあたっては、注目文字が横長であるか縦長であるかを基礎に、前者であれば縦長、後者であれば横長の隣接文字を結合するようにし、２文字の再分割にあたっては、その行方向の長さを単純に２等分するようにする。
【００５０】
なお、ここでは原稿は横書きであることを前提としたが、縦書き原稿の場合は上記の「横長」は「縦長」、「縦長」は「横長」にすべて読み替えるものとする。
【００５１】
図９は、本発明の実施の形態１による文字認識装置における、文字認識処理の手順を示すフローチャートである。まず、文字読み取り部２００により原稿上の文字画像を読み込む（ステップＳ９０１）。次に、行切り出し部２０１により黒画素の外接矩形を求め（ステップＳ９０２）、これらの矩形を連結することで一行を切り出す（ステップＳ９０３）。
【００５２】
その後文字切り出し部２０２により、上記で切り出された行からさらに個々の文字を切り出し（ステップＳ９０４）、続いて文字認識部２０３による文字認識（ステップＳ９０５）、後処理部２０４による後処理（ステップＳ９０６）を経て、文字切り出し検証部２０５・再切り出し部２０７・文字認識部２０３および後処理部２０４による、文字切り出し誤りの検出と誤りが検出された場合の文字の再切り出し、および再認識とその後処理とが実施される（ステップＳ９０７）。
【００５３】
図１０は、図９のステップＳ９０７における処理の手順を詳細に示すフローチャートである。まず、文字切り出し検証部２０５が一行分の認識結果を読み込み（ステップＳ１００１）、次に何番目の文字に注目中であるかを示す文字カウンタを０に初期化した後（ステップＳ１００２）、当該カウンタを１つインクリメントする（ステップＳ１００３）。
【００５４】
そして、文字カウンタの値が一行内の文字数を超えたかどうか、すなわち行内の全文字について以下に説明する処理を終えたかどうかを判定し、まだ未了の文字がある限りは（ステップＳ１００４：Ｎｏ）、注目文字についてステップＳ１００５以下の処理をおこなう。
【００５５】
すなわち、まず文字カウンタで特定される注目文字の実際のアスペクト比を算出し（ステップＳ１００５）、当該アスペクト比が標準的なアスペクト比の範囲内であるかどうかを上述の式により判定する（ステップＳ１００６）。そして、アスペクト比の不正が検出されなければ（ステップＳ１００６：Ｎｏ）ステップＳ１００３に戻って、後続の文字につき同様の処理を繰り返す。
【００５６】
他方、アスペクト比の不正が検出された場合は（ステップＳ１００６：Ｙｅｓ）、次に注目文字がその認識結果から予想されるよりも縦長であるのか、横長であるのかを判定する。
【００５７】
そして予想よりも縦長であった場合（ステップＳ１００７：Ｙｅｓ）は、文字切り出し検証部２０５からの指示を受けた再切り出し部２０７が、注目文字の直前および直後の隣接文字の実際のアスペクト比を算出し（ステップＳ１００８）、いずれかの隣接文字が横長であった場合には（ステップＳ１００９：Ｙｅｓ）、当該横長の隣接文字と注目文字との画像とを結合する（ステップＳ１０１０）。
【００５８】
その後、結合後の画像の横幅を２等分することで、結合後の再切り出し範囲から２文字を切り出し（ステップＳ１０１１）、これら２文字について再度文字認識部２０３による文字認識処理をおこなう（ステップＳ１０１２）。そして後処理部２０４において、文字認識部２０３による再認識候補の中から、言語的・文法的に見て最も妥当なものを選出する（ステップＳ１０１３）。
【００５９】
他方、注目文字が予想よりも横長であった場合（ステップＳ１００７：Ｎｏ）は、再切り出し部２０７は同様に隣接文字のアスペクト比を算出し（ステップＳ１０１４）、いずれかの隣接文字が縦長であった場合には（ステップＳ１０１５：Ｙｅｓ）、当該縦長の隣接文字と注目文字との画像とを結合する（ステップＳ１０１０）。その後、上記と同様に文字の再切り出し（ステップＳ１０１１）・再認識（ステップＳ１０１２）および後処理（ステップＳ１０１３）をおこなう。
【００６０】
以上説明した実施の形態１によれば、認識後の文字についてその形状（具体的にはアスペクト比）が不自然でないかどうかを検証しているので、上述した特開平０５−１９７８４０号公報のように、認識前の文字について図形情報により切り出し誤りを判定する従来技術に比べて、より高精度に文字の切り出し誤りを検出することができる。また特開平０８−２１２３０１号公報のように、字種によりざっくりと形状を予測するのでなく、個々の文字についてアスペクト比の標準値を用意しているので、この点からもより高精度に文字の切り出し誤りを検出することができる。
【００６１】
なお、上記従来技術は複数文字が接触した文字矩形に対する再切り出しについて言及するものではないが、本発明によれば文字が接触しているために切り出し誤りが生じた場合にも、アスペクト比の不正から当該誤りが検出され、正確な再切り出しと再認識がおこなわれる。
【００６２】
なお、上述した実施の形態では図８に示したように、隣接するａとｂとを結合してＡとＢとに分割することで文字の再切り出しをおこなったが、このように２文字を結合して２分割する場合のほかに、２文字を結合して３分割、３文字を結合して３分割など、再切り出しには様々なバラエティが存在する。
【００６３】
図１１は、３文字を結合して２分割する例である。「感」と「覚」が接触しているために切り出し位置に誤りが生じ、２文字が３文字としてそれぞれ「燻」「製」「富」と誤認識されている。しかし、上記３文字はいずれもほぼ正方形となることが予想されるにもかかわらず、実際には不正に縦長であることから、これら３文字が再切り出し範囲として抽出される。
【００６４】
この再切り出し範囲の高さｈで横幅を分割すると、ｗ１、ｗ２のようにほぼ整数倍に割り切れるので、この場合は上記範囲を２等分して２文字を切り出す。同様に、横幅が高さｈで３等分できる場合は３等分して３文字、４等分できる場合は４等分して４文字を切り出す。なお、整数倍に分割できない場合には、この切り出し候補は棄却される。
【００６５】
なお、正方形の文字が多い日本語文では上記の方法は有効であるが、縦倍角・横倍角などの文字飾りが施された行、英文など半角文字で構成された行については有効に機能しない。そこで、複数文字を結合した再切り出し範囲の横幅を、ｈ／２あるいは２ｈの整数倍に分割することを試みる。整数倍に分割可能な場合は分割後の各々の文字を再認識し、所定の閾値を超えて信頼できる認識候補について言語的・文法的な妥当性を検証する後処理をおこなう。なお、後処理の段階で最尤解を選択するので、再切り出しの段階では解を一意に決定する必要はない。
【００６６】
（実施の形態２）
さて、上述した実施の形態１ではどのような原稿についても、あらかじめ採取した標準的なアスペクト比を基礎として文字切り出しの誤りを検出したが、たとえば新聞などでは、書籍などの通常の原稿とは形状の異なるフォントを使用している。
【００６７】
図１２（ａ）は一般原稿、図１２（ｂ）は新聞において使用されるフォントの一例を示す説明図である。（ａ）（ｂ）はいずれも１行１４文字の縦書文書であるが、使用されるフォントの形状が異なる、すなわち一般原稿に比べて新聞のフォントは扁平（横長）であるために、ほぼ同サイズのフォントを使用していても原稿のサイズが異なることがわかる。
【００６８】
各新聞のフォントは新聞社独自のものであり、通常はフォントセットを入手することが困難である。よって図６に示したアスペクト表２０６の作成にあたっては、標本に新聞フォントを含めず、一般的に利用可能なフォントセットのみを使用せざるを得ない。そのため原稿が新聞であった場合に、通常フォントから採取されたアスペクト比と原稿から得られた実際のアスペクト比とをそのまま比較したのでは、正しく切り出されている文字についても誤りがあると誤判定してしまうことになる。
【００６９】
そこで以下に説明する実施の形態２のように、アスペクト比検査に先立って注目文字が新聞フォントであるか否かを判定し、新聞フォントである場合にはアスペクト表２０６と照合する、その実際のアスペクト比を調整（具体的には、やや割り増し）するようにすれば、原稿が新聞である場合も高精度に文字切り出しの誤りを検出することができる。
【００７０】
本発明の実施の形態２による文字認識装置のハードウエア構成は、図１に示した実施の形態１のそれと同様であるので説明を省略する。図１３は、実施の形態２による文字認識装置の構成を機能的に示す説明図である。図２に示した実施の形態１によるそれとの差異は、新たにフォント判別部１３０８を備えた構成である点である。
【００７１】
フォント判別部１３０８は、後処理部１３０４から出力された認識結果を一行ごとに読み込み、当該行が新聞フォントからなる行であるか否かを、当該行内に存在する横長文字の比率により判定する。すなわち、たとえばアスペクト比が０．６０〜０．９５の範囲にある文字を横長文字と定義し、行内の総文字数に占める横長文字の比率が６０〜９０％程度以上である行を新聞フォント行であるとする。
【００７２】
そして、この判定結果は文字切り出し検証部１３０５に供給され、文字切り出し検証部１３０５は各文字のアスペクト比の検査にあたって、新聞フォント行内の文字についてはその実際のアスペクト比を１．１〜１．２倍に調整する。すなわち、原稿上の文字をいわば縦長に引き延ばしてから、アスペクト表１３０６内の標準的なアスペクト比と比較する。
【００７３】
実施の形態２による文字認識装置における、文字認識処理の手順は図９に示した実施の形態１のそれと同様であるが、ステップＳ９０７における処理の手順が若干異なっている。
【００７４】
図１４は、本発明の実施の形態２による文字認識装置における、図９のステップＳ９０７における処理の手順を詳細に示すフローチャートである。図１０に示した手順との差異は、ステップＳ１４０１の直後にフォント判別部１３０８による、各行ごとのフォント種別の判別処理（ステップＳ１４０２）が挿入されている点である。ここで注目行が横長文字の比率により、新聞フォントで構成される行であると判定されると、続くステップＳ１４０６のアスペクト比の算出では、各文字のアスペクト比が実際よりも１割〜２割増しされる。
【００７５】
以上説明した実施の形態２によれば、新聞のように独自のフォントを使用する原稿であっても、当該原稿の特殊性に合わせてアスペクト比の検査をおこなうので、より高精度に文字の切り出し誤りを検出することができる。
【００７６】
なお、ここでは新聞フォントの特殊性に応じて実際のアスペクト比を調整したが、応用として半角フォントについてもこうした調整を施すようにしてもよい。
【００７７】
たとえば、カタカナや英数字など同形の全角文字と半角文字とが存在する文字については、アスペクト表２０６／１３０６には全角文字のアスペクト比の平均値や標準偏差のみを保持しておく。そして、文字認識部２０３／１３０３により認識された文字が半角文字であった場合は、文字切り出し検証部２０５／１３０５はその実際のアスペクト比を単純に１／２倍して、同形の全角文字の標準的なアスペクト比と比較する。
【００７８】
ただし、上記の方法は英数字では問題ないが、いわゆる半角カナの濁音・半濁音については切り出し誤りを正確に検出することができない。半角カナの場合、濁音・半濁音文字は単独濁点・単独半濁点を伴うことによって表現される。そして図１５に示すように、半角カナの清音文字のアスペクト比は全角カナのほぼ２倍であるが、濁音・半濁音文字は濁音部も含んで１文字となる結果、全角文字の２倍ではなく１．５（＝３／２）倍程度のアスペクト比となる。
【００７９】
そこで新聞フォント行を特定したのと同様に、行内の総文字数に占める縦長文字の比率から半角フォントで構成される行を特定し、当該行について文字切り出し誤りの有無を判定するに際しては、各文字の実際のアスペクト比に清音文字の場合１／２、濁音・半濁音文字の場合２／３の調整値を掛け合わせるようにする。濁音・半濁音の文字数は有限個であるから、それらの文字コードのリストを保持しておき、このリストを参照して清音か濁音・半濁音かを判定の上、１／２または２／３に調整値を切り替えるようにする。
【００８０】
なお、上述した実施の形態１および２では、後処理後の認識結果についてアスペクト比を検査したが、後処理において複数の認識候補から最尤解を選択する際に、アスペクト比から見た各解の妥当性を勘案するようにしてもよい。
【００８１】
図１６（ａ）に示すように、個々の文字画像には複数の認識候補の存在することがほとんどである。たとえば、「文」の文字画像に対しては文字「文」と「人」が対応する。また、「利」のように偏と旁のある文字については、偏と旁の各々を１文字と解釈した認識候補「奉」「り」も存在する。
【００８２】
これらの認識候補を図１６（ｂ）に示すように形態素にまとめ上げ、次に同図（ｃ）に示すように、言語的に見て最も妥当な組み合わせのみを残す。図中、「利活用」の部分は「利用・活用」の省略形であり、言語的には不規則であることから、競合する「利」と「奉り」のうち正解の「利」は棄却され、「奉り」が認識結果として残ってしまっている。このように、言語的な妥当性を優先して最尤解を決定した場合、認識候補に正解が含まれていても当該正解を選択できない場合がある。
【００８３】
そこで同図（ｄ）に示すように、この段階でアスペクト比の検査を実施すれば、「奉り」の部分でアスペクト比が不正になっていることが分かる（たとえば「奉」は正方形に近い形状が期待されるのに対し、「利」の偏部分だけが誤って切り出されているために、実際の形状は縦長である）。一方、「奉り」と競合する形態素「利」では、このような不正は発生しない。この点に鑑みて、「奉り」の評価値を何らかの規則により下げてやることで、言語処理において選択されにくくする。
【００８４】
同図（ｅ）は、評価値の低下した「奉り」の代わりに正解「利」が選択された様子である。形態素のそのものの評価値と形態素間の接続強度などを総合評価して、言語的に妥当な形態素の組み合わせが選択される。最終的な認識結果は同図（ｆ）のようになり、言語的にも妥当で、かつ文字切り出し誤りも含まない解が得られている。
【００８５】
なお、上述した文字読み取り部２００／１３００は具体的にはスキャナ１１５により実現される。また、行切り出し部２０１／１３０１、文字切り出し部２０２／１３０２、文字認識部２０３／１３０３、後処理部２０４／１３０４、文字切り出し検証部２０５／１３０５、再切り出し部２０７／１３０７およびフォント判別部１３０８は、具体的にはＨＤ１０５からＲＡＭ１０３に読み出されたプログラムをＣＰＵ１０１が実行することにより実現される。このプログラムはＨＤ１０５のほか、ＦＤ１０７、ＣＤ−ＲＷ１０９、ＭＯなどの各種の記録媒体に格納して配布することができ、ネットワークを介して配布することも可能である。
【００８６】
また、上述した実施の形態では上記各部を単一の装置内に備えるようにしたが、一部の機能部をネットワーク上の他の情報処理装置などに備えるようにしてもよいことは言うまでもない。
【００８７】
【発明の効果】
以上説明したように、本発明は、切り出された文字画像データのアスペクト比を利用することにより、より高精度な文字画像データの切り出しが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態１による文字認識装置のハードウエア構成を示す説明図である。
【図２】本発明の実施の形態１による文字認識装置の構成を機能的に示す説明図である。
【図３】文字読み取り部２００により読み取られる原稿の一例を示す説明図である。
【図４】行切り出し部２０１による行切り出しの様子を示す説明図である。
【図５】行切り出し部２０１による行切り出しの様子を示す他の説明図である。
【図６】アスペクト表２０６の一例を模式的に示す説明図である。
【図７】文字切り出し検証部２０５による切り出し誤りの判定結果を示す図表である。
【図８】再切り出し部２０７による文字の再切り出しの様子を示す説明図である。
【図９】本発明の実施の形態１による文字認識装置における、文字認識処理の手順を示すフローチャートである。
【図１０】図９のステップＳ９０７における処理の手順を詳細に示すフローチャートである。
【図１１】再切り出し部２０７による文字の再切り出しの様子を示す他の説明図である。
【図１２】一般原稿に使用されるフォントと新聞に使用されるフォントの一例を示す説明図である。
【図１３】本発明の実施の形態２による文字認識装置の構成を機能的に示す説明図である。
【図１４】本発明の実施の形態２による文字認識装置における、図９のステップＳ９０７における処理の手順を詳細に示すフローチャートである。
【図１５】半角フォントの一例を示す説明図である。
【図１６】文字認識の後処理におけるアスペクト比検査の手順を示す説明図である。
【符号の説明】
１００バスまたはケーブル
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４ＨＤＤ
１０５ＨＤ
１０６ＦＤＤ
１０７ＦＤ
１０８ＣＤ−ＲＷドライブ
１０９ＣＤ−ＲＷ
１１０ディスプレイ
１１１キーボード
１１２マウス
１１３ネットワークＩ／Ｆ
１１４イーサネット（Ｒ）ケーブル
１１５スキャナ
２００，１３００文字読み取り部
２０１，１３０１行切り出し部
２０２，１３０２文字切り出し部
２０３，１３０３文字認識部
２０４，１３０４後処理部
２０５，１３０５文字切り出し検証部
２０６，１３０６アスペクト表
２０７，１３０７再切り出し部
１３０８フォント判別部

Claims

画像データの文字行から文字を切り出す画像処理装置であって、
前記文字行から複数の文字画像データを切り出す文字切り出し手段と、
前記文字切り出し手段により切り出された文字画像データのアスペクト比を算出するアスペクト比算出手段と、
注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出手段により算出されたアスペクト比に基づいて結合する結合手段と、
前記結合手段により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し手段と、
を備え、
前記結合手段は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする画像処理装置。
前記文字切り出し手段により切り出された文字画像データが表現する文字を特定する文字認識手段と、
前記アスペクト比算出手段により算出されたアスペクト比が、前記文字認識手段により特定された文字に固有のアスペクト比からどれだけ乖離しているかにもとづいて、前記文字切り出し手段による文字画像データの切り出しの誤りを検出する文字切り出し検証手段と、
を備え、
前記注目文字画像データは、前記文字切り出し検証手段により誤りが検出された文字画像データであることを特徴とする請求項１に記載の画像処理装置。
前記再切り出し手段は、前記結合手段により結合された画像データの横幅をその高さ、その高さの１／２倍あるいはその高さの２倍で等分割することを特徴とする請求項１または２に記載の画像処理装置。
画像データの文字行から文字を切り出す画像処理装置における画像処理方法であって、
前記文字行から複数の文字画像データを切り出す文字切り出し工程と、
前記文字切り出し工程により切り出された文字画像データのアスペクト比を算出するアスペクト比算出工程と、
注目文字画像データと該注目文字画像データに隣接する文字画像データとを、前記アスペクト算出工程により算出されたアスペクト比に基づいて結合する結合工程と、
前記結合工程により結合された画像データを等分割し、該画像データから文字画像データを切り出す再切り出し工程と、
を含み、
前記結合工程は、前記注目画像データが縦長である場合には隣接する横長の画像データを結合し、前記注目画像データが横長である場合には隣接する縦長の画像データを結合することを特徴とする画像処理方法。
前記文字切り出し工程により切り出された文字画像データが表現する文字を特定する文字認識工程と、
前記アスペクト比算出工程により算出されたアスペクト比が、前記文字認識工程により特定された文字に固有のアスペクト比からどれだけ乖離しているかにもとづいて、前記文字切り出し工程による文字画像データの切り出しの誤りを検出する文字切り出し検証工程と、
を含み、
前記注目文字画像データは、前記文字切り出し検証工程により誤りが検出された文字画像データであることを特徴とする請求項４に記載の画像処理方法。
前記再切り出し工程は、前記結合工程により結合された画像データの横幅をその高さ、その高さの１／２倍あるいはその高さの２倍で等分割することを特徴とする請求項４または５に記載の画像処理方法。
請求項４乃至６のいずれか一つに記載の画像処理方法をコンピュータに実行させることを特徴とする画像処理プログラム。