JP2011065643A

JP2011065643A - 文字認識方法及び文字認識装置

Info

Publication number: JP2011065643A
Application number: JP2010200193A
Authority: JP
Inventors: Ranran Jo; 蘭蘭常; Shun Son; 俊孫; Noriaki Ozawa; 憲秋小澤; Hiroaki Takebe; 浩明武部; Hao Yu; 浩于; Satoshi Naoi; 聡直井; Yoshinobu Hotta; 悦伸堀田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-09-15
Filing date: 2010-09-07
Publication date: 2011-03-31
Also published as: CN102024138B; CN102024138A

Abstract

【課題】開示技術は文字認識方法及び文字認識装置を提供すること。
【解決手段】開示技術の実施例に係る文字認識方法は、認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、マークの一部であるマーク画素を抽出し、マーク画素と同一の方向を有する隣り合う画素を含めることによって、抽出したマークの一部であるマーク画素をマーク線分に拡張し、認識対象である文字画像の細線化画像を取得し、細線化画像の軌跡に沿って、拡張したマーク線分をマークに成長させ、成長させたマークを文字画像から分離し、分離した文字画像を認識する。
【選択図】図２

Description

本発明は、文字認識方法及び文字認識装置に関する。より具体的には、本発明は、文字画像におけるマークが分離できる文字認識方法及び文字認識装置に関する。

近年、ＯＣＲ(Optical Character Recognition：光学式文字認識)システムが普及してきており、それを応用するアプリケーションにとっても、さらに重要なものとなってきている。ＯＣＲシステムは、紙文書を電子ファイルに変換して、データの入力を簡易化させると共に、大量の文書の編集、管理、配付等を行えるようにする。ＯＣＲシステムの認識能力は、結果を利用するアプリケーションでの処理に影響を与える重要な要素であり、精度の高い認識能力が求められる。一般的な文書ファイル、特に定型文書に対しては、既存のＯＣＲシステムの多くは、何れも高い認識率を実現する。

しかしながら、例えば、受付票、調査票、手形等の場合には、文字に何かのマークを付けることで選択肢の選択結果を示すことがあり、このような文字に付けられたマークは、ＯＣＲシステムでの文字認識を困難なものにする。まず、一部のマークは、二つ又は更に多くの文字を連結させて一つの文字を形成する。この結果、ＯＣＲシステムは、文字の分割処理を失敗する。また、文字領域より広い領域を占めるマークの場合、ＯＣＲシステムが行う文字サイズの正規化の際に、文字のサイズが小さくなる。この結果、ＯＣＲシステムは文字認識に失敗してしまう。

このため、既存の技術では、ＯＣＲシステムは、色彩で分類する方法によって、文字と異なる色のマーク画素を抽出する。また、既に開示された他の方法では、マークと文字との階調差に基づいて、マークと文字とを分離させて認識する。

特許第４１２７６９１号公報特許第３６１５１７９号公報

しかしながら上述した従来の技術では、認識対象である文字画像におけるマークが付加された文字上のマークを簡単に検出して分離することができないという課題があった。

具体的には、色彩で分類する方法は、マークが文字と同じ色である場合、ＯＣＲシステムは、正常にマークと文字とを分離させることができない。また、マークと文字との階調差に基づいてマークと文字とを分離させて認識する方法は、マークと文字とが同一の階調を有する場合がよくあるので、ＯＣＲシステムは、正常にマークと文字とを分離させることができない。したがって、これらの方法では一般的な帳票などに対しては、高い認識率を実現できるとは言い難い。

開示技術は上記の課題に鑑みてなされたものであって、文字上にマークがあっても、空間位置及び形状の特徴に基づいて、マークと文字とを分離させて、文字を認識する文字認識方法及び文字認識装置を提供することを目的とする。

以下にまず、開示技術に関する概略を与えることにより、開示技術のある側面に対する基本的な理解を提供する。理解すべきは、この概略は開示技術を十分に説明するものではない。また、開示技術のキーポイント又は重要な部分を限定するものでもなく、開示技術の範囲を限定するものでもない。ただ、簡単な形態で概念を与えることで、後述する更に詳しい説明の前置部分とする。

開示技術の一つの側面によると、文字認識装置が、認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、マークの一部であるマーク画素を抽出するステップと、マーク画素と同一の方向を有する隣り合う画素を含めることによって、抽出したマークの一部であるマーク画素をマーク線分に拡張するステップと、認識対象である文字画像の細線化画像を取得するステップと、細線化画像の軌跡に沿って、拡張したマーク線分をマークに成長させるステップと、成長させたマークを文字画像から分離するステップと、分離した文字画像を認識するステップを含む文字認識方法を提供する。

開示技術の一実施例に係る文字認識方法は、さらに、認識対象である文字画像中のマークが付加された文字候補領域をマークが付加された文字に特定するステップを含む。

開示技術の他の形態によると、認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、マークの一部であるマーク画素を抽出するように配置されたマーク画素抽出部と、マーク画素と同一の方向を有する隣り合う画素を含めることによって、抽出した一部のマーク画素をマーク線分に拡張するように配置された拡張部と、認識対象である文字画像の細線化画像を取得するように配置された細線化画像取得部と、細線化画像の軌跡に沿って、拡張したマーク線分をマークに成長させるように配置されたマーク線分成長部と、成長させたマークを文字画像から分離するように配置された分離部と、マークを分離した文字画像を認識するように配置された認識部とを有することを特徴とする文字認識装置を提供する。

開示技術の一実施例に係る文字認識装置は、さらに、認識対象である文字画像中のマークが付加された文字候補領域をマークが付加された文字に特定するように配置されたマーク文字特定部を含む。

候補領域をマークが付加された文字に特定するステップは、認識対象である文字画像のテキストブロックを水平方向と垂直方向へ交互に投影することによって、テキストブロックを候補領域に分割するステップと、分割した候補領域のサイズを比較することによって、分割した候補領域を、接触領域と、大きいサイズの領域と、正常サイズの領域とに分類するステップと、接触領域と大きいサイズの領域をマークが付加された文字とするステップを含むことが好ましい。

開示技術の一実施例によると、マークの一部であるマーク画素を抽出するステップは、水平方向へ投影したヒストグラムの両端の山と、垂直方向へ投影したヒストグラムの両端の山をそれぞれ分離させることによって、一組の候補マーク画素を特定するステップと、最小二乗法のカーブフィッティング方法により楕円曲線モデルを利用することによって、一組の候補マーク画素を楕円曲線にフィッティングするステップと、一組の候補マーク画素のフィッティング誤差を算出することによって、一組の候補マーク画素がマーク画素であるか否かを判定するステップを含む。

開示技術の他の一実施例によると、マークの一部であるマーク画素を抽出するステップは、ランレングスを解析することによって、文字画像のマークの線幅を推測するステップと、接触方向に直交する方向に沿って、接触断片の走査時の特徴を検出するステップと、スキャンラインにおいて二つの部分を有して各部分の幅がマークの線幅に相当する走査時の特徴を備えた線分における画素をマーク画素として判定するステップを含む。

開示技術の更なる他の一実施例によると、マークの一部であるマーク画素を抽出するステップは、各マークが付加された文字に対して、マークが付加された文字と同行又は同列に位置する文字である参照文字を特定するステップと、参照文字に基づいて、基準座標を算出するステップと、基準座標の範囲外にある画素をマーク画素として抽出するステップを含む。また、参照文字が水平方向に並んでいる場合、参照文字の縦方向の座標値のみを基準座標の算出に用いるステップと、参照文字が垂直方向に並んでいる場合、参照文字の横方向の座標値のみを基準座標の算出に用いることが好ましい。

開示技術の一実施例によると、抽出したマークの一部であるマーク画素を拡張するステップは、マークが付加された文字中の画素に対して４方向への傾斜度を算出することによって、マークが付加された文字中の画素の方向パターンを取得するステップと、方向パターンの局所領域に含まれた同一の値を有する画素を含めることによって、特定したマーク画素を拡張するステップを含む。

開示技術の一実施例によると、拡張したマーク線分を成長させるステップは、接合点にいたるまで、細線化画像の軌跡中の隣接画素を逐一に含めるステップを含む。

開示技術に係る文字認識方法及び文字認識装置によると、文字上にマークがあっても、空間位置及び形状の特徴を利用することにより、マークと文字とを簡単に分離する。よって、開示技術に係る文字認識方法及び文字認識装置は、文字画像を回復させて、文字画像を認識することに利用できる。

また、開示技術は、文字認識方法を実現するためのコンピュータプログラムを提供する。

そして、開示技術は、文字認識方法を実現するためのコンピュータプログラムコードが記録されている少なくともコンピュータで読取可能な形態の媒体として、コンピュータプログラム製品を提供する。

本願の開示する文字認識方法及び文字認識装置によれば、認識対象である文字画像におけるマークが付加された文字上のマークを簡単に検出して分離することができるという効果がある。よって本願の開示する文字認識方法及び文字認識装置を用いれば、文字画像を回復させて、文字画像を認識することに利用できる。

図１Ａは、認識対象である文字画像の例を示す図である。図１Ｂは、開示技術の実施例に係る図１Ａに示す文字画像におけるマークが付加された文字上のマークを文字画像から分離させた後に出力する文字画像を示す図である。図１Ｃは、開示技術の実施例に係る図１Ａに示す文字画像におけるマークが付加された文字上のマークを文字画像から分離させた後に出力するマークを示す図である。図２は、開示技術の実施例に係る文字認識方法の処理手順を示すフローチャートである。図３は、開示技術の実施例に係る図２に示す候補領域をマークが付加された文字に特定するステップの処理手順を示すフローチャートである。図４は、開示技術の実施例に係る分割及び分類する処理を実行した後の文字画像の例を示した図である。図５Ａは、マークが文字の周りを緊密に取り囲む例を示す図である。図５Ｂは、利用可能な参照文字が付けられていない接触状態の例を示す図である。図６は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップの第１例の処理手順を示すフローチャートである。図７Ａは、垂直方向へ投影する文字画像の例を示す図である。図７Ｂは、文字画像を垂直方向へ投影したヒストグラムの例を示す図である。図７Ｃは、水平方向へ投影する文字画像の例を示す図である。図７Ｄは、文字画像を水平方向へ投影したヒストグラムの例を示す図である。図８は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップの第２例の処理手順を示すフローチャートである。図９は、開示技術の実施例に係る走査時の特徴を利用してマークの一部であるマーク画素を抽出した例を示す図である。図１０は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップの第３例の処理手順を示すフローチャートである。図１１は、開示技術の実施例に係る基準座標を参照して、マークの一部であるマーク画素を抽出した別例を示す図である。図１２は、開示技術の実施例に係る図２に示す抽出したマーク画素をマーク線分に拡張するステップの処理手順を示すフローチャートである。図１３は、局所領域でのマークの傾斜度を求めるパターンを示す図である。図１４は、細線化後の認識対象である文字画像の例を示す図である。図１５は、開示技術の実施例に係る文字認識装置の構成を示すブロック図である。図１６は、開示技術に係る文字認識方法を実行する情報処理機器の構造を示すブロック図である。

以下、図面を参照して開示技術の実施例を説明する。説明を明確で簡潔にするために、実施形態の特徴のすべてを明細書に記載しているわけではない。しかし、このようないかなる実施例を実用化する場合、開発者は、実施形態を特定できる。例えば、開発者は、システム及び業務に関連する制約条件に実施形態を適合させる。また、開発者は、実施形態に応じてこれらの制約条件を変更できる。また、実用化には複雑で時間が必要であるが、開示技術からアイデアを得た当業者にとっては、これらは実用化に伴う義務に過ぎない。

なお、すべての図面において、同一又は類似の符号で同一又は類似の部品を表示する。図面は、下記の詳細な説明とともに本明細書に含まれ且つ本明細書の一部になる。より多くの例を挙げて開示技術の最適な実施例を説明することで、開示技術の動作と効果を一層理解することができる。

また、図面中の構成要素は、説明を簡潔かつ明確にするために示されているだけであり、必ずしも実際の縮尺に基づいて示されているわけではない。例えば、開示技術の実施例を理解しやすくするために、図面中のある構成要素の大きさは、その他の構成要素よりも拡大されている場合がある。

また、開示技術が不明確になることを防ぐため、図面において、開示技術と直接関係する装置の構造及び/又は処理ステップのみを示し、開示技術と直接関係しない他のものについては、詳細な説明を省略している。

開示技術を一層理解するため、以下、図１に示す例を用いて、文字認識装置が文字画像におけるマークが付加された文字上のマークを文字画像から分離して文字画像を認識し、文字を得る動作を説明する。図１Ａは、認識対象である文字画像の例を示す図である。図１Ｂは、開示技術の実施例に係る図１Ａに示す文字画像におけるマークが付加された文字上のマークを文字画像から分離させた後に出力する文字画像を示す図である。図１Ｃは、開示技術の実施例に係る図１Ａに示す文字画像におけるマークが付加された文字上のマークを文字画像から分離させた後に出力するマークを示す図である。

以下、まず図２〜図１４を参照して、開示技術の実施例に係る文字認識方法の基本的な動作を説明する。

図２に示すように、開示技術の実施例に係る文字認識方法において、文字認識装置は、マークが付加された文字の特定ステップＳ２１０と、マークの一部であるマーク画素抽出ステップＳ２２０と、抽出マーク画素拡張ステップＳ２３０と、細線化画像取得ステップＳ２４０と、拡張マーク線分成長ステップＳ２５０と、文字マーク分離ステップＳ２６０と、分離後文字認識ステップＳ２７０とを実行する。マークが付加された文字の特定ステップＳ２１０は、認識対象である文字画像の候補領域をマークが付加された文字に特定する。マークの一部であるマーク画素抽出ステップＳ２２０は、認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、マークの一部であるマーク画素を抽出する。抽出マーク画素拡張ステップＳ２３０は、同一の方向を有する隣り合う画素を含めることによって、抽出したマークの一部であるマーク画素をマーク線分に拡張する。細線化画像取得ステップＳ２４０は、認識対象である文字画像の細線化画像（thinned image）を取得する。拡張マーク線分成長ステップＳ２５０は、細線化画像の軌跡に沿って、拡張したマーク線分をマークに成長させる。文字マーク分離ステップＳ２６０は、拡張マーク線分成長ステップＳ２５０で成長させたマークを文字画像から分離させる。分離後文字認識ステップＳ２７０は、マークが分離された文字画像を認識する。

ここで、説明しておきたいことは、マークが付加された文字の特定ステップＳ２１０は、選択可能なステップである。つまり、文字認識装置は、マークが付加された文字を特定せずに、認識対象である文字画像に対してマークの一部であるマーク画素抽出ステップＳ２２０及びその後の処理を実行することができる。この場合でも、文字認識装置は、マークと文字画像とを分離させて、分離後の文字画像を認識することができ、認識の精度及び信頼性を向上させることが実現できる。

続いて、図３〜図１４を参照して、図２に示す文字認識方法に含まれるマークが付加された文字特定ステップＳ２１０と、マークの一部であるマーク画素抽出ステップＳ２２０と、抽出マーク画素拡張ステップＳ２３０と、細線化画像取得ステップＳ２４０と、拡張マーク線分成長ステップＳ２５０と、文字マーク分離ステップＳ２６０と、分離後文字認識ステップＳ２７０等の各ステップにおける処理を詳しく説明する。

図３は、開示技術の実施例に係る図２に示す候補領域をマークが付加された文字に特定するステップの処理手順を示すフローチャートである。図３に示すように、文字認識装置は、マーク付きの文字を特定する場合、先ず、ステップＳ３１０において、認識対象である文字画像におけるテキストブロックを水平方向と垂直方向へ交互に投影することによって、テキストブロックを候補領域に分割する。

続いて、文字認識装置は、ステップＳ３２０において、ステップＳ３１０にて分割した候補領域のサイズを比較することによって、分割した候補領域を、接触領域と、大きいサイズの領域と、正常サイズの領域との三種類に分類する。図４は、開示技術の実施例に係る分割及び分類する処理を実行した後の文字画像の例を示した図である。最後に、文字認識装置は、ステップＳ３３０において、接触領域と大きいサイズの領域とをマークが付加された文字として特定し、正常サイズの領域をマークが付加されていない文字として特定する。

ここで、文字認識装置は、マークが付加された文字と同行又は同列に位置する文字である参照文字をマークが付加された文字毎に特定する。図４に示すように、文字認識装置は、表示された大きいサイズの領域に対しては、二つの参照文字を特定したが、接触領域に対しては、一つの参照文字のみを特定する。

一方、文字認識装置は、全ての文字が正常サイズの領域であると、認識対象である文字画像をマークが付加されていない文字に分類する。よって、処理手順は図２に示すマークの一部であるマーク画素抽出ステップＳ２２０と、抽出マーク画素拡張ステップＳ２３０と、細線化画像取得ステップＳ２４０と、拡張マーク線分成長ステップＳ２５０と、文字マーク分離ステップＳ２６０とを実行せずに、分離後文字認識ステップＳ２７０を実行する。

図３に示す手順に従ってマークが付加された文字を特定した後、文字認識装置は、特定したマークが付加された文字の位置及び形状の特徴に基づいて、マークの一部であるマーク画素を抽出する。文字認識装置は、マークの一部であるマーク画素を抽出する場合、マークの異なる位置及び形状の特徴に応じて対応する処理を行うことができる。以下、幾つかの具体的状況について具体的に分析して説明する。

開示技術の一実施例によると、文字認識装置は、マークの一部であるマーク画素を抽出する場合、図５Ａ及び図５Ｂに示すように、文字を含む矩形枠の外にあるマークの一部であるマーク画素を抽出する。図５Ａに示すように、文字認識装置は、この特徴に基づいて、マークが文字の周りを緊密に取り囲む場合、マークの一部であるマーク画素を簡単に抽出する。また、文字認識装置は、図５Ｂに示すように、利用できる参照文字がない接触状態の場合、このような処理形態でも良好な処理効果を得ることができる。

図６は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップＳ２２０の第１例の処理手順を示すフローチャートである。図６に示すように、文字認識装置は、先ず、ステップＳ６１０において、水平方向へ投影したヒストグラムの両端の山と、垂直方向へ投影したヒストグラムの両端の山をそれぞれ分離させることによって、一組の候補マーク画素を特定する。

図７Ａは、垂直方向へ投影する文字画像の例を示す図である。図７Ｂは、文字画像を垂直方向へ投影したヒストグラムの例を示す図である。図７Ｂにおける左右両側にある二つの縦線は、図７Ａにおける文字の両側にある二つの縦線に対応する。図７Ｃは、水平方向へ投影する文字画像の例を示す図である。図７Ｄは、文字画像を水平方向へ投影したヒストグラムの例を示す図である。図７Ｄにおける左右両側の二つの縦線は、図７Ｃにおける文字の両側にある二つの横線に対応する。

したがって、図７Ａ〜図７Ｄに示す例の場合、文字認識装置は、図７Ａにおける二つの縦線の外にあるピクセル（それぞれ図７Ｂにおける左右両側の縦線の外にある二つの波形に対応する）をマーク画素として抽出する。また、文字認識装置は、図７Ｃにおける二つの横線の外にあるピクセル（それぞれ図７Ｄにおける左右両側の縦線の外にある二つの波形に対応する）をマーク画素として抽出する。

その後、文字認識装置は、ステップＳ６２０において、最小二乗法のカーブフィッティング方法によって楕円曲線を利用して一組の候補マーク画素をフィッティングする。そして、文字認識装置は、ステップＳ６３０において、一組の候補マーク画素のフィッティング誤差を算出して、一組の候補マーク画素がマーク画素であるか否かを判定する。文字認識装置は、フィッティング誤差が小さいと、この一組の候補マーク画素における画素がマーク画素であると判定する。文字認識装置は、ステップＳ６２０とステップＳ６３０の処理を経て、実際は文字画素であるが、誤ってマーク画素であると判定された画素を排除することができる。例えば、文字認識装置は、図７Ａにおける右側の縦直線外にある画素に対して、実際の画素値とフィッティングされた楕円曲線とのフィッティング誤差が所定の閾値を超えているので、これをマーク画素ではないと判定する。

また、文字認識装置は、マークの一部であるマーク画素を抽出する際、接触状態に対して、接触断片の走査時の特徴によって、マーク画素を抽出することもできる。図８は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップＳ２２０の第２例の処理手順を示すフローチャートである。

図８に示すように、この実施例によるマークの一部であるマーク画素の抽出処理は、先ず、ステップＳ８１０において、ランレングス（run-length）を解析することによって、マークの線幅を推測し、その後、ステップＳ８２０において、接触方向に直交する方向に沿って、接触断片の走査時の特徴を検出し、ステップＳ８３０において、スキャンラインにおいて二つの部分を有して各部分の幅がマークの線幅に相当する走査時の特徴を備えた線分における画素をマーク画素として抽出する。

図９は、開示技術の実施例に係る走査時の特徴を利用してマークの一部であるマーク画素を抽出した例を示す図である。図９に示すマークにおける階調が深い部分が、スキャンライン上の幅がマークの線幅に相当する二つの部分であるので、文字認識装置は、これらの画素をマーク画素として抽出する。

また、文字認識装置は、大きいサイズの状態について、マークの一部であるマーク画素を抽出する際、参照文字のレイアウトを分析することによって、マーク画素を抽出することができる。図１０は、開示技術の実施例に係る図２に示すマークの一部であるマーク画素抽出ステップＳ２２０の第３例の処理手順を示すフローチャートである。

図１０に示すように、文字認識装置は、マークの一部であるマーク画素を抽出する場合、先ず、ステップＳ１０１０において、各マークが付加された文字に対して、マークが付加された文字と同行又は同列に位置する文字である参照文字を特定する。その後、文字認識装置は、ステップＳ１０２０において、参照文字に基づいて基準座標を算出する。文字認識装置は、文字の基準座標を算出した後、ステップＳ１０３０において、基準座標の範囲外にある画素をマーク画素として抽出する。

ステップＳ１０２０において基準座標を算出する場合、文字認識装置は、参照文字が水平方向に並んでいれば、参照文字の縦方向の座標値のみを基準座標の算出に用いる。同様に、文字認識装置は、参照文字が垂直方向に並んでいれば、参照文字の横方向の座標値のみを基準座標の算出に用いる。

図１１は、開示技術の実施例に係る基準座標を参照して、マークの一部であるマーク画素を抽出した別例を示す図である。図１１に示すように、文字認識装置は、文字画像における二つの縦線の点線の外にある画素をマーク画素として抽出する。

上述した方法によってマークの一部であるマーク画素を抽出した後、文字認識装置は、図２に示す抽出マーク画素拡張ステップＳ２３０において、同一の方向を有する隣り合う画素を含めることによって、抽出したマークの一部であるマーク画素をマーク線分に拡張する。図１２は、開示技術の実施例に係る図２に示す抽出したマーク画素をマーク線分に拡張するステップの処理手順を示すフローチャートである。

図１２に示すように、文字認識装置は、抽出したマークの一部であるマーク画素を拡張する場合、先ず、ステップＳ１２１０において、マークが付加された文字中の画素に対して４方向への傾斜度を算出することによって、マークが付加された文字中の画素の方向パターンを取得した後、ステップＳ１２２０において、方向パターンの局所領域に含まれた同一の値を有する画素を含めることによって、先に特定したマーク画素を拡張する。

文字認識装置は、先に特定したマーク画素の拡張を行う場合、方向パターンで特定したマーク線分が重なっているならば、このマーク線分全体をマーク画素として特定し、これによって、抽出したマークの一部であるマーク画素を拡張する。

図２に戻り、文字認識装置は、ステップＳ２３０にて抽出したマークの一部であるマーク画素を拡張した後、ステップＳ２４０において、認識対象である文字画像の細線化画像を取得する。図１４は、細線化後の認識対象である文字画像の例を示す図である。

続いて、文字認識装置は、ステップＳ２５０において、接合点にいたるまで、細線化された画像の軌跡に含まれた画素を逐一に含めることによって、ステップＳ２３０にて拡張されたマーク線分をマークに成長させる。その後、文字認識装置は、ステップＳ２６０において、成長させたマークを文字画像から分離させ、ステップＳ２７０において、マークを分離した文字画像を認識する。

以上、図２〜図１４を参照して、開示技術の実施例に係る文字認識方法の処理手順及びその詳細な動作を説明した。以下、図１５を参照して、開示技術の実施例に係る文字認識装置の構造及びその動作を説明する。図１５は、開示技術の実施例に係る文字認識装置の構成を示すブロック図である。

図１５に示すように、この実施例に係る文字認識装置は、マーク文字特定部１５１０と、マーク画素抽出部１５２０と、拡張部１５３０と、細線化画像取得部１５４０と、マーク線分成長部１５５０と、分離部１５６０と、認識部１５７０とを備える。マーク文字特定部１５１０は、認識対象である文字画像の候補領域をマークが付加された文字として特定するように配置される。マーク画素抽出部１５２０は、認識対象である文字画像のマークの位置及び形状の特徴に基づいてマークの一部であるマーク画素を抽出するように配置される。拡張部１５３０は、同一の方向を有する隣り合う画素を含めることによって、抽出したマークの一部であるマーク画素をマーク線分に拡張するように配置される。細線化画像取得部１５４０は、認識対象である文字画像の細線化画像を取得するように配置される。マーク線分成長部１５５０は、細線化画像の軌跡に沿って、拡張したマーク線分をマークに成長させるように配置される。分離部１５６０は、成長させたマークを文字画像から分離するように配置される。認識部１５７０は、マークを分離した文字画像を認識するように配置される。

この実施例による文字認識装置に含まれるマーク文字特定部１５１０と、マーク画素抽出部１５２０と、拡張部１５３０と、細線化画像取得部１５４０と、マーク線分成長部１５５０と、分離部１５６０と、認識部１５７０等の各ブロックにおける具体的な処理手順は、それぞれ図２〜図１４を参照して説明した文字認識方法におけるマークが付加された文字の特定ステップＳ２１０と、マークの一部であるマーク画素抽出ステップＳ２２０と、抽出マーク画素拡張ステップＳ２３０と、細線化画像取得ステップＳ２４０、拡張マーク線分成長ステップＳ２５０と、文字マーク分離ステップＳ２６０と、分離後文字認識ステップＳ２７０等の各ステップにおける処理に対応するので、詳しい説明を省略する。

同様に、指摘しておきたいことは、ここでのマーク文字特定部１５１０は選択的に配置することのできるもので、開示技術の一実施例によって、マーク文字特定部１５１０を含まず、マーク画素抽出部１５２０と、拡張部１５３０と、細線化画像取得部１５４０と、マーク線分成長部１５５０と、分離部１５６０と、認識部１５７０とからなることによってもよい。この場合も同様に、文字認識装置は、文字画像からマークを分離させることができ、認識の精度を向上させることが実現できる。

このように、開示技術の実施例に係る文字認識方法及び文字認識装置によると、認識対象である文字画像におけるマークが付加された文字上のマークを正確に検出することができ、文字画像から全て又はマークの一部であるマーク画素を分離させて、正確に文字を認識することができる。

その他、開示技術の実施例に係る文字認識方法及び文字認識装置によると、安定で信頼性の高いマーク位置及び形状の特徴を用いて、文字画像におけるマークを分離する。また、位置及び形状の特徴は、文字にも適用するので、抽出した画素がマーク画素であることを保証でき、正確に文字画像から全て又はマークの一部であるマーク画素を抽出できる。この結果、開示技術の実施例に係る文字認識方法及び文字認識装置は、文字画像を高精度に認識できる。

その他、開示技術の実施例に係る文字認識方法及び文字認識装置によると、方向パターン及び細線化された画像の軌跡を参照してマーク線分を拡張する。したがって、空間上の制限を提供し、文字画像をマーク画像として間違って分割することを防止する。この結果、開示技術の実施例に係る文字認識方法及び文字認識装置は、文字画像とマーク画像とを正確に分離して、引き続く処理で文字画像を高精度に認識できる。

以上、具体的な実施例を通して、開示技術の基本動作を説明した。開示技術の方法及び装置の全て、又はいかなるステップや構成部品は、いかなる計算装置（プロセッサ、記憶媒体等を含む）又は計算装置のネットワークにおいて、ハードウェア、ファームウェア、ソフトウェア又はそれらを組合せることによって実現できる。なお、これは、当業者であれば、開示技術に記載の説明を読めば、基本的なプログラミング技術によって実現できるものである。

開示技術は、いかなる計算装置であっても、一つのプログラム又は１組のプログラムによって、実現できる。この計算装置は一般的なコンピュータであってもよい。すなわち、開示技術は、方法又は装置が実現できるプログラムコードを含むプログラム製品を提供することによって、実現することもできる。したがって、このようなプログラム製品も開示技術に属し、このようなプログラム製品を記憶している記憶媒体も開示技術に属する。なお、記憶媒体は、いかなる周知の記憶媒体であってもよく、また、将来に開発される全ての記憶媒体であってもよいことは言うまでもない。

ソフトウェア及び/又はファームウェアによって開示技術の実施例を実行する場合、記憶媒体又はネットワークから、各種類の機能等を実行する。例えば図１６に示す専用のハードウェア構造を有するコンピュータ７００は、ソフトウェアを構成するプログラムを装着された場合、各種類の機能等を実行することができる。

図１６は、開示技術に係る文字認識方法を実行する情報処理機器の構造を示すブロック図である。図１６に示す、中央演算処理装置（ＣＰＵ）７０１は、読取専用記憶装置（ＲＯＭ）７０２に記憶されているプログラム又は記憶部７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードしたプログラムに従って各処理を実行する。ＲＡＭ７０３は、ＣＰＵ７０１によって実行される各処理等のデータを必要に応じて記憶する。ＣＰＵ７０１、ＲＯＭ７０２、ＲＡＭ７０３は、バス７０４を介して互いに接続される。入力/出力インターフェース７０５もバス７０４に接続される。

出力部７０７と、記憶部７０８と、通信部７０９は、入力/出力インターフェース７０５に接続される。入力部７０６は、キーボード、マウス等を含む。出力部７０７は、ブラウン管（ＣＲＴ）と液晶ディスプレイ（ＬＣＤ）等のディスプレイとスピーカー等を含む。記憶部７０８は、ハードディスク等を含む。通信部７０９は、ＬＡＮカード等のネットワークインターフェースカードと変復調装置等を含む。また、通信部７０９は、インターネット等のネットワークを介して通信処理を行う。

ドライバ７１０は、必要に応じて、入力/出力インターフェース７０５に接続される。着脱可能な媒体７１１は、必要に応じてドライバ７１０に接続される。したがって、着脱可能な媒体７１１の中から読取られるコンピュータプログラムは、必要に応じて記憶部７０８に格納される。なお、着脱可能な媒体７１１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等の記憶媒体である。

ソフトウェアを介して一連の処理を実行する場合、コンピュータ７００は、インターネット等のネットワーク又は着脱可能な媒体７１１等から、ソフトウェアを構成するプログラムを読み取る。

図１６に示す記憶媒体は、プログラムを記憶すると共に、装置と分離して設置することによって、ユーザにプログラムを提供する。例えば、記憶媒体は、ＲＯＭ７０２、記憶部７０８に含まれたハードディスク等であってもよい。そして、これらの中にはプログラムが記憶され、ハードディスク等と共にユーザに提供される。すなわち、プログラムを提供するのは、着脱可能な媒体７１１に限定されない。なお、着脱可能な媒体７１１には、例えば、磁気ディスク（フロッピー（登録商標）ディスクを含む）と、光ディスク（光ディスクＲＯＭ（ＣＤ−ＲＯＭ）とデジタル・バーサタイル・ディスク（ＤＶＤ）を含む）と、光磁気ディスク（ミニディスク（ＭＤ）（登録商標））と、半導体メモリと、が含まれる。

また、開示技術の装置及び方法において、各構成部又は各ステップは分離する、及び/又は新たに組み合わせることができることは明らかである。このような分離及び/又は新たな組合せは、開示技術と同等の実施形態であると見なされるべきである。また、一連の処理を実行するステップは、説明した順序及び時間順に従って実行されるが、必ずしも説明した順序及び時間順に実行されることに限定されない。例えば、一部のステップは並行して実行されてもよく、また、互いに独立して実行されてもよい。

上述のように開示技術の動作及び効果を詳細に説明した。開示技術は、特許請求の範囲を逸脱しなければ、各種の変更、入換え、変換を行ってもよい。そして、本願における「含む」、「備える」又は同義の他の表現形態は、非排他性の含みをカバーする。すなわち、一連の要素を含む手順、方法、物又は装置は、これらの要素を含む以外にも明確に記載していない他の要素も含む。あるいは、このような手順、方法、物又は装置の固有の要素も含む。さらに、限定していない場合、「…を含む」によって限定される要素は、この要素を含む手順、方法、物又は装置に他の同様な要素が含まれていることを否定しない。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）文字認識装置が、
認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、前記マークの一部であるマーク画素を抽出するステップと、
前記マーク画素と同一の方向を有する隣り合う画素を含めることによって、前記抽出したマークの一部であるマーク画素をマーク線分に拡張するステップと、
前記認識対象である文字画像の細線化画像を取得するステップと、
前記細線化画像の軌跡に沿って、前記拡張したマーク線分をマークに成長させるステップと、
前記成長させたマークを前記文字画像から分離するステップと、
前記分離した文字画像を認識するステップを含む文字認識方法。

（付記２）文字認識装置が、
前記認識対象である文字画像のマークが付加された文字候補領域を前記マークが付加された文字に特定するステップを更に含む付記１に記載の文字認識方法。

（付記３）前記候補領域をマークが付加された文字に特定するステップは、
前記認識対象である文字画像のテキストブロックを水平方向と垂直方向へ交互に投影することによって、前記テキストブロックを候補領域に分割するステップと、
前記分割した候補領域のサイズを比較することによって、前記分割した候補領域を、接触領域と、大きいサイズの領域と、正常サイズの領域とに分類するステップと、
前記接触領域と前記大きいサイズの領域を前記マークが付加された文字とするステップを含む付記２に記載の文字認識方法。

（付記４）前記マークの一部であるマーク画素を抽出するステップは、文字を含む矩形枠の外にあるマークの一部であるマーク画素を抽出するステップを含む付記３に記載の文字認識方法。

（付記５）前記マークの一部であるマーク画素を抽出するステップは、
水平方向へ投影したヒストグラムの両端の山と、垂直方向へ投影したヒストグラムの両端の山をそれぞれ分離させることによって、一組の候補マーク画素を特定するステップと、
最小二乗法のカーブフィッティング方法により楕円曲線モデルを利用することによって、前記一組の候補マーク画素を楕円曲線にフィッティングするステップと、
前記一組の候補マーク画素のフィッティング誤差を算出することによって、前記一組の候補マーク画素が前記マーク画素であるか否かを判定するステップを含む付記４に記載の文字認識方法。

（付記６）前記マークの一部であるマーク画素を抽出するステップは、
ランレングスを解析することによって、マークの線幅を推測するステップと、
接触方向に直交する方向に沿って、接触断片の走査時の特徴を検出するステップと、
スキャンラインにおいて二つの部分を有して各部分の幅が前記マークの線幅に相当する走査時の特徴を備えた線分における画素をマーク画素として判定するステップを含む付記３に記載の文字認識方法。

（付記７）前記マークの一部であるマーク画素を抽出するステップは、
各マークが付加された文字に対して、前記マークが付加された文字と同行又は同列に位置する文字である参照文字を特定するステップと、
前記参照文字に基づいて、基準座標を算出するステップと、
前記基準座標の範囲外にある画素を前記マーク画素として抽出するステップを含む付記３に記載の文字認識方法。

（付記８）文字認識装置が、
前記参照文字が水平方向に並んでいる場合、前記参照文字の縦方向の座標値のみを前記基準座標の算出に用いるステップと、
前記参照文字が垂直方向に並んでいる場合、前記参照文字の横方向の座標値のみを前記基準座標の算出に用いる付記７に記載の文字認識方法。

（付記９）前記抽出したマークの一部であるマーク画素を拡張するステップは、
前記マークが付加された文字中の画素に対して４方向への傾斜度を算出することによって、前記マークが付加された文字中の画素の方向パターンを取得するステップと、
前記方向パターンの局所領域に含まれた同一の値を有する画素を含めることによって、前記特定したマーク画素を拡張するステップを含む付記１乃至８の中の何れかに記載の文字認識方法。

（付記１０）前記拡張したマーク線分を成長させるステップは、
接合点にいたるまで、前記細線化画像の軌跡中の隣接画素を逐一に含めるステップを含む付記１乃至８の中の何れかに記載の文字認識方法。

（付記１１）認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、前記マークの一部であるマーク画素を抽出するように配置されたマーク画素抽出部と、
前記マーク画素と同一の方向を有する隣り合う画素を含めることによって、前記抽出した一部のマーク画素をマーク線分に拡張するように配置された拡張部と、
前記認識対象である文字画像の細線化画像を取得するように配置された細線化画像取得部と、
前記細線化画像の軌跡に沿って、前記拡張したマーク線分をマークに成長させるように配置されたマーク線分成長部と、
前記成長させたマークを前記文字画像から分離するように配置された分離部と、
前記マークを分離した文字画像を認識するように配置された認識部と
を有することを特徴とする文字認識装置。

（付記１２）前記認識対象である文字画像のマークが付加された文字候補領域を前記マークが付加された文字に特定するように配置されたマーク文字特定部を更に含む付記１１に記載の文字認識装置。

（付記１３）前記マーク文字特定部は、さらに、
前記認識対象である文字画像のテキストブロックを水平方向と垂直方向へ交互に投影することによって、前記テキストブロックを候補領域に分割し、
前記分割した候補領域のサイズを比較することによって、前記分割した候補領域を接触領域と、大きいサイズの領域と、正常サイズの領域とに分類し、
前記接触領域と前記大きいサイズの領域を前記マークが付加された文字とするように配置された付記１２に記載の文字認識装置。

（付記１４）前記マーク画素抽出部は、さらに、文字を含む矩形枠の外にあるマークの一部であるマーク画素を抽出するように配置された付記１３に記載の文字認識装置。

（付記１５）前記マーク画素抽出部は、さらに、
水平方向へ投影したヒストグラムの両端の山と、垂直方向へ投影したヒストグラムの両端の山とをそれぞれ分離させることによって、一組の候補マーク画素を特定し、
最小二乗法のカーブフィッティング方法により楕円曲線モデルを利用することによって、前記一組の候補マーク画素を楕円曲線にフィッティングし、
前記一組の候補マーク画素のフィッティング誤差を算出して前記一組の候補マーク画素が前記マーク画素であるか否かを判定するように配置された付記１４に記載の文字認識装置。

（付記１６）前記マーク画素抽出部は、さらに、
ランレングスを解析することによって、前記文字画像のマークの線幅を推測し、
接触方向に直交する方向に沿って、接触断片の走査時の特徴を検出し、
スキャンラインにおいて二つの部分を有して各部分の幅が前記マークの線幅に相当する走査時の特徴を備えた線分における画素をマーク画素として判定するように配置された付記１３に記載の文字認識装置。

（付記１７）前記マーク画素抽出部は、さらに、
各マークが付加された文字に対して、前記マークが付加された文字と同行又は同列に位置する文字である参照文字を特定し、
前記参照文字に基づいて、基準座標を算出し、
前記基準座標の範囲外にある画素を前記マーク画素として抽出するように配置された付記１３に記載の文字認識装置。

（付記１８）前記参照文字が水平方向に並んでいる場合、前記参照文字の縦方向の座標値のみを前記基準座標の算出に用い、
前記参照文字が垂直方向に並んでいる場合、前記参照文字の横方向の座標値のみを前記基準座標の算出に用いる付記１７に記載の文字認識装置。

（付記１９）前記拡張部は、さらに、
前記マークが付加された文字中の画素に対して４方向への傾斜度を算出することによって、前記マークが付加された文字中の画素の方向パターンを取得し、
前記方向パターンの局所領域に含まれた同一の値を有する画素を含めることによって、前記特定したマーク画素を拡張するように配置された付記１１乃至１８の中の何れかに記載の文字認識装置。

（付記２０）前記マーク線分成長部は、さらに、
接合点に至るまで、前記細線化画像の軌跡中の隣接画素を逐一に含めるように配置された付記１１乃至１８の中の何れかに記載の文字認識装置。

７００コンピュータ
７０１中央演算処理装置（ＣＰＵ）
７０２読取専用記憶装置（ＲＯＭ）
７０３ランダムアクセスメモリ（ＲＡＭ）
７０４バス
７０５入力/出力インターフェース
７０６入力部
７０７出力部
７０８記憶部
７０９通信部
７１０ドライバ
７１１着脱可能な媒体
１５１０マーク文字特定部
１５２０マーク画素抽出部
１５３０拡張部
１５４０細線化画像取得部
１５５０マーク線分成長部
１５６０分離部
１５７０認識部

Claims

文字認識装置が、
認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、前記マークの一部であるマーク画素を抽出するステップと、
前記マーク画素と同一の方向を有する隣り合う画素を含めることによって、前記抽出したマークの一部であるマーク画素をマーク線分に拡張するステップと、
前記認識対象である文字画像の細線化画像を取得するステップと、
前記細線化画像の軌跡に沿って、前記拡張したマーク線分をマークに成長させるステップと、
前記成長させたマークを前記文字画像から分離するステップと、
前記分離した文字画像を認識するステップを含む文字認識方法。
文字認識装置が、
前記認識対象である文字画像のマークが付加された文字候補領域を前記マークが付加された文字に特定するステップを更に含む請求項１に記載の文字認識方法。
前記候補領域をマークが付加された文字に特定するステップは、
前記認識対象である文字画像のテキストブロックを水平方向と垂直方向へ交互に投影することによって、前記テキストブロックを候補領域に分割するステップと、
前記分割した候補領域のサイズを比較することによって、前記分割した候補領域を、接触領域と、大きいサイズの領域と、正常サイズの領域とに分類するステップと、
前記接触領域と前記大きいサイズの領域を前記マークが付加された文字とするステップを含む請求項２に記載の文字認識方法。
前記マークの一部であるマーク画素を抽出するステップは、
水平方向へ投影したヒストグラムの両端の山と、垂直方向へ投影したヒストグラムの両端の山をそれぞれ分離させることによって、一組の候補マーク画素を特定するステップと、
最小二乗法のカーブフィッティング方法により楕円曲線モデルを利用することによって、前記一組の候補マーク画素を楕円曲線にフィッティングするステップと、
前記一組の候補マーク画素のフィッティング誤差を算出することによって、前記一組の候補マーク画素が前記マーク画素であるか否かを判定するステップを含む請求項３に記載の文字認識方法。
前記マークの一部であるマーク画素を抽出するステップは、
ランレングスを解析することによって、マークの線幅を推測するステップと、
接触方向に直交する方向に沿って、接触断片の走査時の特徴を検出するステップと、
スキャンラインにおいて二つの部分を有して各部分の幅が前記マークの線幅に相当する走査時の特徴を備えた線分における画素をマーク画素として判定するステップを含む請求項３に記載の文字認識方法。
前記マークの一部であるマーク画素を抽出するステップは、
各マークが付加された文字に対して、前記マークが付加された文字と同行又は同列に位置する文字である参照文字を特定するステップと、
前記参照文字に基づいて、基準座標を算出するステップと、
前記基準座標の範囲外にある画素を前記マーク画素として抽出するステップを含む請求項３に記載の文字認識方法。
前記抽出したマークの一部であるマーク画素を拡張するステップは、
前記マークが付加された文字中の画素に対して４方向への傾斜度を算出することによって、前記マークが付加された文字中の画素の方向パターンを取得するステップと、
前記方向パターンの局所領域に含まれた同一の値を有する画素を含めることによって、前記特定したマーク画素を拡張するステップを含む請求項１乃至６の中の何れかに記載の文字認識方法。
前記拡張したマーク線分を成長させるステップは、
接合点にいたるまで、前記細線化画像の軌跡中の隣接画素を逐一に含めるステップを含む請求項１乃至６の中の何れかに記載の文字認識方法。
認識対象である文字画像におけるマークが付加された文字上のマークの位置及び形状の特徴に基づいて、前記マークの一部であるマーク画素を抽出するように配置されたマーク画素抽出部と、
前記マーク画素と同一の方向を有する隣り合う画素を含めることによって、前記抽出した一部のマーク画素をマーク線分に拡張するように配置された拡張部と、
前記認識対象である文字画像の細線化画像を取得するように配置された細線化画像取得部と、
前記細線化画像の軌跡に沿って、前記拡張したマーク線分をマークに成長させるように配置されたマーク線分成長部と、
前記成長させたマークを前記文字画像から分離するように配置された分離部と、
前記マークを分離した文字画像を認識するように配置された認識部と
を有することを特徴とする文字認識装置。
前記認識対象である文字画像のマークが付加された文字候補領域を前記マークが付加された文字に特定するように配置されたマーク文字特定部を更に含む請求項９に記載の文字認識装置。