JP2016004553A

JP2016004553A - 文字検出装置、方法およびプログラム

Info

Publication number: JP2016004553A
Application number: JP2014126576A
Authority: JP
Inventors: 洋次郎登内; Yojiro Touchi; 鈴木　薫; Kaoru Suzuki; 薫鈴木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-06-19
Filing date: 2014-06-19
Publication date: 2016-01-12
Anticipated expiration: 2034-06-19
Also published as: CN105303156B; JP6352695B2; US10339657B2; CN105303156A; US20150371399A1

Abstract

【課題】文字列の検出精度および再現性を高めることができる。【解決手段】本実施形態に係る文字検出装置は、特徴抽出部、決定部および統合部を含む。抽出部は、１以上の文字列を含む画像の特徴量を抽出する。決定部は、異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する。統合部は、前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第１閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する。【選択図】図１

Description

本発明の実施形態は、文字検出装置、方法およびプログラムに関する。

スマートフォン、ウェアラブル機器の普及により、看板、標識及びレストランのメニューなど実空間に存在する文字列をカメラで撮影し、撮影した画像から文字列を検出したいという要求がある。カメラで撮影した画像は、文字部分へ照射される照明の条件および影の影響により、文字列の見え方が様々に変化する。このような画像から文字列を検出する手法としては、例えば画像中の画素を連結した連結成分を用いる手法や、機械学習ベースの検出器を用いる手法がある。

特開２００５−３０９７７１号公報特開２００６−２６８８２５号公報特許第４９０１６７６号明細書

J.Lee, P.Lee, S.Lee, A.Yuille, and C.Koch. Adaboost for text detection. In Proceedings of International Conference on Document Analysis and Recognition, pp. 429-434, 2011.

しかし、連結成分を用いる手法は、連結成分が正確に検出できないと文字列を検出できない。よって、例えば、文字と背景の一部とが同系色の場合や、映り込みまたは影で文字色が大きく変化する場合は、連結成分が正確に検出できずに文字列を検出できないことがある。また、機械学習ベースの検出器を用いる場合、文字列を検出できるかどうかは学習データに依存するため、特殊なロゴ、筆記体、飾り文字などが学習時のデータと大きく異なる場合は、これらの文字列を検出できない。

本開示は、上述の課題を解決するためになされたものであり、文字列の検出精度および再現性を高めることができる文字検出装置、方法およびプログラムを提供することを目的とする。

本実施形態に係る文字検出装置は、特徴抽出部、決定部および統合部を含む。抽出部は、１以上の文字列を含む画像の特徴量を抽出する。決定部は、異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する。統合部は、前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第１閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する。

本実施形態に係る文字検出装置を示すブロック図。文字候補領域検出部の検出処理を示す図。文字候補領域検出部の検出処理による検出結果を示す図。第２文字行生成部の文字行生成処理を示す図。優先度決定部における一致度の算出方法を説明する図。文字検出方式と特徴量との対応付けの一例を示す図。文字行の長さと幅との概念を説明する図。統合部における統合処理を示すフローチャート。統合部の統合処理結果の一例を示す図。統合部の統合処理結果の別例を示す図。文字検出装置の検出精度の評価結果を示すグラフ。

以下、図面を参照しながら本実施形態に係る文字検出装置、方法およびプログラムについて詳細に説明する。なお、以下の実施形態では、同一の参照符号を付した部分は同様の動作をおこなうものとして、重複する説明を適宜省略する。
本実施形態に係る文字検出装置について図１のブロック図を参照して説明する。
本実施形態に係る文字検出装置１００は、画像取得部１０１、第１文字行検出部１０２（第１検出部）、第２文字行検出部１０３（第２検出部）、特徴抽出部１０４、優先度決定部１０５および統合部１０６を含む。第１文字行検出部１０２は、連結成分抽出部１０７および第１文字行生成部１０８を含み、第２文字行検出部１０３は、文字候補領域検出部１０９および第２文字行生成部１１０を含む。

画像取得部１０１は、１以上の文字列を含む画像を取得する。画像は、ここでは、看板、標識およびレストランのメニューなど実空間に存在する文字列をカメラで撮影した画像を想定するが、少なくとも１つの文字列を含む画像であればよい。
第１文字行検出部１０２は、画像取得部１０１から画像を受け取り、文字列を検出するための方式である第１文字検出方式を用いて１以上の文字行候補（第１文字行候補ともいう）を検出する。文字行候補は、本実施形態では文字列を含む領域の候補であり、例えば矩形、台形その他四角形、あるいは閉多角形で表される領域である。矩形、台形その他四角形で表される文字行候補は、領域を表すような座標値、始点及び終点の座標値、文字列の中央線と幅などにより表せる。なお、本実施形態では、文字列は横書きの場合を想定するが、縦書きでもよく、文字行も文字列の方向に合わせて縦方向に長い領域となればよい。

第２文字行検出部１０３は、画像取得部１０１から画像を受け取り、第１文字検出方式とは異なる方式である第２文字検出方式を用いて、１以上の文字行候補（第２文字行候補ともいう）を検出する。なお、同一の画像に対して第１文字行候補および第２文字行候補を検出しているため、座標系は同一であり、同一の文字列を対象として、第１文字行候補および第２文字行候補が検出されることになる。

特徴抽出部１０４は、第１文字行検出部１０２から第１文字行候補を、第２文字行検出部１０３から第２文字行候補をそれぞれ受け取り、画像の特徴量を抽出する。画像の特徴量としては、例えば輝度値および文字行の長さを抽出すればよい。
優先度決定部１０５は、特徴抽出部１０４から画像の特徴量を受け取り、特徴量に対応する特徴を有する画像中の領域（画像領域ともいう）に対する文字検出精度に応じて、第１文字検出方式および第２文字検出方式のどちらを優先するかを示す優先度を決定する。優先度の決定方法については図５を参照して後述する。
統合部１０６は、第１文字行検出部１０２から第１文字行候補を、第２文字行検出部１０３から第２文字行候補を、優先度決定部１０５から優先度をそれぞれ受け取る。統合部１０６は、第１文字行候補および第２文字行候補が重畳する領域の割合を示す重畳度、画像の特徴量および優先度に応じて、第１文字行候補および第２文字行候補を選択して統合し、文字行を生成する。統合部１０６の具体的な処理については、図８を参照して後述する。

次に、第１文字行検出部１０２について具体的に説明する。
連結成分抽出部１０７は、画像取得部１０１から画像を受け取り、画像中の画素のうちの隣接する画素間で、画素の色情報など特徴が類似する画素同士を連結して、１以上の連結成分を生成する。ここでは、画像中の画素を白および黒で二値化し、二値化された画素のうち黒である画素が隣接して２以上連続する場合、連続する画素の集合を連結成分として生成する。

第１文字行生成部１０８は、連結成分抽出部１０７から連結成分を受け取り、連結成分間の位置関係と連結成分の類似度とに応じて、ほぼ同一直線上に並んでいる連結成分を組み合わせ、第１文字行候補を生成する。具体的には、連結成分ごとに特徴ベクトルを生成し、２つの連結成分間の位置関係と特徴の類似度とを特徴ベクトルの距離で定義する。特徴ベクトルの距離が閾値未満であれば、２つの連結成分は類似しており同一直線上に並ぶと考えられるので、２つの連結成分を接続する。特徴ベクトルの各要素としては、例えば、連結成分の中心点を表すｘ座標およびｙ座標、各連結成分の平均色、連結成分のサイズ（高さ、幅、周囲の長さなど）が挙げられる。なお、中心点とは、例えば、連結成分に対して外接する四角形の中央点であればよい。また、Neumann L., Matas J.: Text Localization in Real-world Images using Efficiently Pruned Exhaustive Search, ICDAR 2011 (Beijing, China) “C. Exhaustive search”に開示される手法を用いて文字行候補を生成してもよい。以上の第１文字行生成部１０８の処理を、連結成分を用いた行検出（ＣＣ行検）とも呼ぶ。

次に、第２文字行検出部１０３について具体的に説明する。
文字候補領域検出部１０９は、画像取得部１０１から画像を受け取り、予め文字の画像データを学習しておき、特定の形状を有する画像領域を検出して、文字候補領域を生成する。画像データの学習については、一般的な学習処理を行えばよいのでここでの説明は省略する。
第２文字行生成部１１０は、文字候補領域検出部１０９から文字候補領域を受け取り、同一サイズの文字候補領域がほぼ同一直線上に並ぶ連結成分を組み合わせ、第２文字行候補を生成する。ここでは、第２文字行生成部１１０における処理は、文字候補領域を用いた行検出を想定する。

次に、文字候補領域検出部１０９の検出処理について図２および図３を参照して説明する。
文字候補領域抽出処理の一例として、図２に示すように、画像２０１全体に対し様々なサイズのウィンドウ２０２を用いてスキャンを行い、画像２０１中で文字であると推定される文字候補領域を抽出する。ウィンドウ２０２のサイズを変更することにより、様々な大きさの文字についても文字候補領域として検出することができる。すなわち、あるサイズのウィンドウ２０２では領域からはみ出るような文字についても、ウィンドウ２０２のサイズを大きくすることでウィンドウ２０２の領域内に収まり、文字候補領域として検出することができる。
図２に示す方法で文字候補領域を抽出した結果を図３に示す。図３に示すように、画像２０１中の文字に対して文字候補領域３０１を抽出することができる。

次に、第２文字行生成部１１０の文字行生成処理について図４を参照して説明する。
図４は、ハフ（Ｈｏｕｇｈ）変換を用いた行検出（ハフ行検）の概念を示す。画像を示す画像平面４０１として、縦軸がｘ、横軸がｙである座標平面を想定する。画像平面４０１中の文字候補領域４０２を、投票空間４０３に投票する。投票空間４０３は、縦軸がρ、横軸がθであり、文字候補領域４０２のサイズに関するｓを有する３次元のパラメータを表す空間である。図４に示すように、文字候補領域４０２のサイズが小さい場合は、文字候補領域４０２はｓが小さい投票空間に投票され、文字候補領域４０２のサイズが大きい場合は、文字候補領域４０２はｓが大きい投票空間に投票される。各投票空間において最大の投票数となった座標値を直線パラメータとする第２文字行候補として生成する。

次に、優先度決定部１０５の優先度決定処理について図５を参照して説明する。
予め文字行の位置が把握できている学習用の画像（以下、学習用画像という）を用意し、学習用画像に対して、第１文字行検出部１０２が第１文字検出方式により第１文字行候補を生成し、第２文字行検出部１０３が第２文字検出方式により第２文字行候補を生成する。なお、同じ文字検出方式であれば、第１文字行検出部１０２および第２文字行検出部１０３が処理を行わずに、予め第１文字検出方式および第２文字検出方式で処理された第１文字行候補および第２文字行候補を用いてもよい。
優先度決定部１０５は、第１文字行候補と予め文字列の位置が把握できている文字行（以下、基準文字行という）との一致度を算出する。同様に、優先度決定部１０５は、第２文字行候補と基準文字行との一致度を算出する。第１文字行候補に対して算出される一致度と第２文字行候補に対して算出される一致度とを比較して、一致度が高い方を文字検出精度が高い方式であるとして優先度を他の方式よりも高く設定する。

一致度は、文字行候補と基準文字行とが重畳する領域の面積を、文字行候補と基準文字行との全体の面積で割った値を用いればよく、例えば以下の式（１）により算出することができる。
一致度＝Ｓ（ｓ１∩ｓ２）／Ｓ（ｓ１∪ｓ２）・・・（１）
ここで、Ｓ（）は面積、ｓ１は基準文字行、ｓ２は第１文字行候補または第２文字行候補、∩は積集合、∪は和集合である。
図５の例で、例えば基準文字行５０１と第１文字行候補５０２とを比較する場合を想定すると、破線で囲まれる基準文字行５０１および第１文字行候補５０２全体の面積を示す領域５０３に対して、斜線で示される領域５０４が大きいほど一致度が高くなる。
また、例えば特徴抽出部１０４において、優先度決定のための学習用画像における基準文字行の領域の特徴量を算出しておき、優先度決定部１０５が特徴量と優先度とを対応付ける。これにより、処理対象となる画像の特徴量に応じて、基準文字行の領域の特徴量と一致または類似する特徴量に対応する優先度を参照すれば、第１文字検出方式および第２文字検出方式のどちらを優先すればよいかが把握することができる。

文字検出方式と特徴量との対応付けの一例について図６を参照して説明する。
図６は、条件６０１に対する、第１文字検出方式６０２および第２文字検出方式６０３のそれぞれの検出結果を示す。条件６０１は、特徴量に関する条件であり、ここでは輝度差を想定する。
例えば、条件６０１「輝度変化が小さい場合」は、例えば背景と文字列とが同色となる場合であり、第１文字検出方式６０２の方が、第２文字検出方式６０３よりも検出精度が高くなる傾向がある。一方、条件６０１「輝度変化が大きい場合」は、文字列が例えば白抜き文字である場合であり、第２文字検出方式６０３の方が、第１文字検出方式６０２よりも検出精度が高くなる傾向がある。

よって、処理対象となる画像に対して文字検出方式の優先度を決定する場合は、特徴量として、第１文字検出方式６０２により生成される第１文字行候補および第２文字検出方式６０３により生成される第２文字行候補のそれぞれの領域の輝度分布を算出する。輝度分布の分散が閾値以上である場合は、条件６０１「輝度変化が大きい場合」に該当するとして、第２文字検出方式６０３の優先度を高く設定する。一方、輝度分布の分散が閾値未満である場合は、条件６０１「輝度変化が小さい場合」に該当するとして、第１文字検出方式６０２の優先度を高く設定すればよい。なお、第１文字行候補および第２文字行候補それぞれの領域の輝度を算出するのに代えて、画像全体の輝度を算出し、画像全体の輝度を参照するようにしてもよい。この場合は、特徴抽出部１０４が画像取得部１０１から画像を受け取り、画像全体の輝度を算出し、優先度を決定する際に用いればよい。

さらに、特徴量に関する条件として、文字行候補の長さ、幅および面積を用いてもよい。
文字行候補の長さと幅との概念を図７に示す。文字列の長さ７０１が長くなるほど、第２文字検出方式の方が第１文字検出方式よりも検出精度が高くなる。よって、例えば、特徴量として、第１文字検出方式により生成される第１文字行候補と、第２文字検出方式により生成される第２文字行候補との平均の長さを算出する。平均の長さが閾値以上である場合は、第２文字検出方式の優先度を高く設定し、平均の長さが閾値未満である場合は、第１文字検出方式の優先度を高く設定すればよい。

次に、統合部１０６における統合処理について図８のフローチャートを参照して説明する。
ステップＳ８０１では、第１文字行候補と第２文字行候補との重畳度が閾値以上であるかどうかを判定する。重畳度は、優先度決定部１０５における第１文字行候補と基準文字行との一致度または第２文字行候補と基準文字行との一致度の算出方法と同様に算出すればよく、第１文字行候補と第２文字行候補とが重畳する領域の面積を、第１文字行候補および第２文字行候補の全体の面積で割った値を用いればよい。重畳度が閾値以上である場合はステップＳ８０２に進み、重畳度が閾値未満である場合はステップＳ８０３に進む。

ステップＳ８０２では、優先度が高い文字検出方式により生成された文字行候補を文字行として選択する。

ステップＳ８０３では、内包される領域が存在するかどうか、つまり内包関係が存在するかどうかを判定する。内包関係の判定は、ここでは、第１文字行候補に第２文字行候補が内包されるか、または第２文字行候補に第１文字行候補が内包されるかを判定する。第１文字行候補および第２文字行候補のうちの小さい領域を有する文字行候補（最小文字行候補ともいう）全体の大きさに占める重畳する領域の大きさが閾値以上であれば内包関係が存在すると判定すればよい。内包される領域が存在する場合はステップＳ８０４に進み、内包される領域が存在しない場合はステップＳ８０５に進む。

ステップＳ８０４では、内包関係にある文字行候補のうちの大きい領域を有する文字行候補（最大文字行候補）を文字行として選択する。例えば、第２文字行候補が第１文字行候補に内包されていれば、第１文字行候補を文字行として選択する。

ステップＳ８０５では、第１文字行候補および第２文字行候補が互いに重畳していないか、重畳部分が内包関係となる面積よりも小さい場合であるので、第１文字行候補および第２文字行候補の両方を文字行として選択する。以上で統合処理を終了する。

次に、統合部１０６の統合処理結果の一例について図９を参照して説明する。
図９（ａ）は、統合前の状態において、処理対象となる画像に対して、第１文字行候補と、第２文字行候補との両方を生成して１つの画像に表示する場合である。破線が第１文字行候補９０１を示し、一点鎖線が第２文字行候補９０２である。

図９（ａ）に示すように、中間部にある領域９０３は、重畳度が閾値以上であり、最下部にある領域９０４は、第１文字行候補９０１が第２文字行候補９０２に内包される内包関係にある。また、第１文字検出方式の優先度が高い場合を想定する。
図９（ｂ）に示すように統合後は、領域９０３では、重畳度が閾値以上であるので優先度が高い第１文字行候補９０１が文字行として選択され、領域９０４では、内包関係が存在するので領域が大きい方の第２文字行候補９０２が文字行として選択される。

次に、統合処理結果の別例について図１０を参照して説明する。
図１０（ａ）は、第２文字行候補であり、図１０（ｂ）は、第１文字行候補であり、図１０（ｃ）は、統合結果である。
図９の場合と同様に、例えば文字列「Ｔｉｒｅｄｎｅｓｓ」の文字行候補の重畳度が閾値以上であれば、優先度が高い図１０（ｂ）に示す第１文字行候補が文字行として選択される。また、文字列「ｙｏｕｒｌｉｆｅ」は、第１文字行候補が第２文字行候補に内包されているため、大きい方の第２文字行候補が文字行として選択される。

次に、検出精度の評価結果について図１１を参照して説明する。
図１１に示すグラフは、文字行を検出する手法の違いによる検出精度を評価したグラフであり、縦軸が適語率であり、横軸が再現率である。点１１０１は第１文字検出方式のみの場合であり、点１１０２は第２文字検出方式のみの場合であり、点１１０３は本実施形態に係る文字検出装置による処理の場合である。

図１１に示すように、点１１０１の第１文字検出方式では、再現率が約６２％、適語率が約８２％であり、点１１０２の第２文字検出方式では、再現率が約５９％、適語率が約８５％である。一方、点１１０３の本実施形態に係る文字検出装置によれば、再現率が約６８％、適語率が約８７％と再現率および適語率がともに向上していることが分かる。

なお、本実施形態では、第１文字検出方式と第２文字検出方式との２つの方式を用いて文字を検出する場合を想定するが、これに限らず、３以上の文字検出方式を用いてもよい。
例えば、優先度決定部１０５では、３以上の文字検出方式を用いる場合は、複数の文字検出方式のそれぞれに対して、基準文字行との一致度を算出し、一致度が最も高い文字検出方式の優先度を最も高く決定すればよい。
また、統合部１０６においても、図８に示すフローチャートと同様に処理することができる。例えば、図８に示すステップＳ８０１において、３つ以上の文字検出方式のそれぞれにおいて検出される文字行候補間において重畳する領域があり、かつ重畳度が閾値以上である場合は、ステップＳ８０２において、優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択すればよい。
また、ステップＳ８０３において、複数の文字検出方式により検出された文字行候補のうちの最も小さい領域を有する文字行候補を最小文字行候補として、最小文字行候補全体の大きさに対して、重畳する領域の大きさが閾値以上であれば内包関係が存在すると判定すればよい。ステップＳ８０４においては、複数の文字検出方式により検出された文字行候補のうちの最も大きい領域を有する文字行候補を最大文字行候補として、最大文字行候補を文字行として選択すればよい。
ステップＳ８０５においては、複数の文字検出方式により検出された文字行候補をそれぞれ文字行として選択すればよい。

以上に示した本実施形態によれば、画像の特徴量に応じて、文字検出方式の優先度を決定し、画像から複数の文字検出方式を用いて文字行候補を検出し、画像の特徴量に応じた優先度に応じて、文字行候補を選択して文字行として統合することで、どのような画像に対しても文字列の検出精度および再現性を向上させることができる。

上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した文字検出装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷ、Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃなど）、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の文字検出装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。

なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００・・・文字検出装置、１０１・・・画像取得部、１０２・・・第１文字行検出部、１０３・・・第２文字行検出部、１０４・・・特徴抽出部、１０５・・・優先度決定部、１０６・・・統合部、１０７・・・連結成分抽出部、１０８・・・第１文字行生成部、１０９・・・文字候補領域検出部、１１０・・・第２文字行生成部、２０１・・・画像、２０２・・・ウィンドウ、３０１，４０２・・・文字候補領域、４０１・・・画像平面、４０３・・・投票空間、５０１・・・基準文字行、５０２，９０１・・・第１文字行候補、５０３，５０４，９０３，９０４・・・領域、６０１・・・条件、７０１・・・長さ、９０２・・・第２文字行候補、１１０１，１１０２，１１０３・・・点。

Claims

１以上の文字列を含む画像の特徴量を抽出する特徴抽出部と、
異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する決定部と、
前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第１閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する統合部と、を具備することを特徴とする文字検出装置。
前記統合部は、前記重畳度が前記第１閾値未満でありかつ重畳する文字行候補のうちの最も小さい領域を有する最小文字行候補に占める前記重畳する領域の割合が第２閾値以上である場合、前記重畳する文字行候補のうちの最も大きい領域を有する最大文字行候補を前記文字行として選択し、該最小文字行候補に占める該重畳する領域の割合が該第２閾値未満である場合、該重畳する文字行候補のそれぞれを該文字行として選択することを特徴とする請求項１に記載の文字検出装置。
第１文字検出方式を用いて前記文字列を検出し、該文字列を含む領域の候補となる第１文字行候補を得る第１検出部と、
第２文字検出方式を用いて前記文字列を検出し、該文字列を含む領域の候補となる第２文字行候補を得る第２検出部と、をさらに具備し、
前記決定部は、前記第１文字検出方式および前記第２文字検出方式のそれぞれに対して前記優先度を決定し、
前記統合部は、前記第１文字行候補および前記第２文字行候補を統合し、該第１文字行候補と該第２文字行候補とが重畳する領域の割合を示す重畳度が前記第１閾値以上である場合、前記優先度が高い文字検出方式により検出された文字行候補を文字行として選択することを特徴とする請求項１または請求項２に記載の文字検出装置。
前記第１検出部は、
前記画像中の隣接する画素のうちの特徴が類似する画素同士を連結し、複数の連結成分を得る連結成分抽出部と、
前記連結成分間の位置関係と該連結成分の類似度とに応じて該連結成分を組み合わせ、前記第１文字行候補を生成する第１生成部と、を具備し、
前記第２検出部は、
前記画像から文字候補となる１以上の文字候補領域を選択する文字候補領域検出部と、
前記１以上の文字候補領域を組み合わせ、前記第２文字行候補を生成する第２生成部と、を具備することを特徴とする請求項３に記載の文字検出装置。
第１生成部は、連結成分を用いた行検出により前記第１文字行候補を生成し、第２生成部は、文字候補領域を用いた行検出により前記第２文字行候補を生成することを特徴とする請求項４に記載の文字検出装置。
前記特徴量は、輝度値または文字行候補の長さであることを特徴とする請求項１から請求項５のいずれか１項に記載の文字検出装置。
１以上の文字列を含む画像の特徴量を抽出し、
異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定し、
前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第１閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択することを特徴とする文字検出方法。
コンピュータを、
１以上の文字列を含む画像の特徴量を抽出する特徴抽出手段と、
異なる複数の文字検出方式のそれぞれに対し、前記特徴量に対応する特徴を有する画像領域に対する文字検出精度に応じた優先度を決定する決定手段と、
前記複数の文字検出方式のそれぞれを用いて前記文字列を検出した結果であって該文字列を含む領域の候補となる、文字検出方式ごとの文字行候補を統合し、該文字行候補間で重畳する領域の割合を示す重畳度が第１閾値以上である場合、前記優先度が最も高い文字検出方式により検出された文字行候補を文字行として選択する統合手段として機能させるための文字検出プログラム。