JP2012190288A

JP2012190288A - 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体

Info

Publication number: JP2012190288A
Application number: JP2011053618A
Authority: JP
Inventors: Chitei Aizawa; 知禎相澤
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2011-03-10
Filing date: 2011-03-10
Publication date: 2012-10-04
Anticipated expiration: 2031-03-10
Also published as: EP2685426A4; EP2685426B1; WO2012120695A1; JP4893861B1; EP2685426A1; US9129383B2; US20140023267A1

Abstract

【課題】画像に対する文字列検知処理の検知精度の向上をさせる。
【解決手段】本発明の文字列検知装置は、１以上の文字からなる文字列を画像から検知する文字列検知装置において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも１つ定義するクラスタリング手段と、上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴としている。
【選択図】図１

Description

本発明は、静止画または動画などの画像のデータを処理して画像中から文字を検知する技術に関するものであり、特に、画像上の背景が複雑な場合における文字検知精度を向上させる技術に関するものである。

従来、画像（静止画または動画）中から、特定の文字（キーワード）を検知する技術が数多く存在する。例えば、特許文献１〜３には、画像中のすべての文字領域を切り出して、切り出した各々について文字認識処理を行ってテキストデータに変換してから、検知すべきキーワードであるか否かを判断する技術が開示されている。

しかしながら、上述の特許文献１〜３に記載の技術にあっては、下記のような問題がある。すなわち、検知したい文字列であるか否かを判断するために、画像から切り出した全ての文字について認識処理が必要となり、結果として処理時間が長くなるという問題がある。

例えば、認識対象文字が日本語や中国語の場合、文字数が多い（各々、第一水準漢字だけで３０００文字以上、第二水準漢字も合わせると６０００文字以上ある）。したがって、これらの言語で、文字認識処理を実行するためには、３０００〜６０００以上の文字との照合処理が必要となり、結果として、文字認識処理が、多大な時間を要する負荷の高い処理となってしまう。そして、認識されたすべての文字列について、キーワードとの照合処理が加わり、処理時間はさらに長くなる。

上記処理時間の問題は、静止画よりも、リアルタイム性が要求される動画を処理するケースにおいては、より一層深刻な問題となる。

また、文字列を切り出す際には、一般的に、文字と背景の境界部分の画素値が急激に変化することから、Ｓｏｂｅｌフィルタやラプラシアンフィルタを用いてエッジを抽出して、この部分を文字列領域として抽出している。しかしながら、背景が複雑な場合、文字ではない背景部分の画素値が急激に変化しているところからもエッジが抽出され、結果として、対象文字列が存在しないにもかかわらず、背景を文字列領域であると誤検知してしまう可能性があり、検知精度が悪い。

なお、特許文献２に開示されている技術では、例えば、テレビ映像中のテロップを検出することを目的として、テロップの特徴を利用して映像中の文字列（すなわちテロップ）を検知する。具体的には、テロップが一定の色と濃度（テロップの場合通常白色）で同一場所に一定時間静止していることが多いという特徴を利用して、その特徴に該当する画素を文字列候補として抽出する。しかし、検知対象となるキーワード文字列がテロップの条件を満たさない場合には、結果として、該検知対象文字列を検知できない。

特許文献４には、画像の中から、まず、道路標識や看板の領域を彩度および円形度などの特徴量に基づいて特定し、特定された看板の領域内から文字列領域を抽出し、予め用意した辞書データと比較することにより、看板（の文字）を認識する技術が開示されている。

特許文献４に記載の技術では、文字列が含まれている候補領域を、看板の領域を特定することによって、ある程度絞り込むことで文字列検知処理の効率化を図っている。しかしながら、３０００〜６０００文字以上の文字との照合処理が必要であるという点で特許文献１〜３と変わりなく、依然として処理時間の深刻な問題が解決されない。

また、特許文献４に記載の技術は、背景色と文字色のコントラストが高いことが前提となっている看板における文字列検知の技術である。そのため、検知精度の観点から、特許文献４に記載の文字列検知の技術を、背景色が複雑な文字列を検知する目的で採用することはできない。また、検知対象となるキーワード文字列が看板の特徴を満たさない領域に含まれている場合には、結果として、該検知対象文字列を検知できない。

上記の技術に対し、特許文献５、６には、文字領域の画像同士を照合して目的の文字列検知を行う技術が開示されている。具体的には、まず、特定のキーワードを構成する文字フォントを１文字ずつ読み出して描画して、該キーワードに対応する文字列画像を作成する。次に、この文字列画像をキーとして、画像に対して類似画像検索を行うことにより、上記画像からキーワードを検知する。

上記特許文献５、６に記載の技術によれば、画像同士の照合処理によって文字列検知を行うので、画像中のすべての文字領域に対して文字認識処理を行う必要がなく、上述の特許文献１〜４に記載の技術と比較して、処理時間を短縮させることができる。さらに、画像同士のマッチング処理によって検知対象文字列の検知を行うため、一致率の閾値などを任意に定めておけば、背景のノイズの許容範囲を調節することができ、結果として、背景におけるある程度のノイズを許容し、検知対象文字列が全く検知できないといった不都合を解消することができる。

なお、画像同士の照合処理に用いるための、画像から文字の特徴量を検出する技術としては、例えば、非特許文献１に記載のコーナー検出技術、輪郭線検出技術を用いることが考えられる。

特開平０８−２０５０４３号公報（１９９６年８月９日公開）特開２００６−１３４１５６号公報（２００６年５月２５日公開）特開２００８−１３１４１３号公報（２００８年６月５日公開）特開２００８−２８７７３５号公報（２００８年１１月２７日公開）特開平１０−１９１１９０（１９９８年７月２１日公開）特開２００８−００４１１６号公報（２００８年１月１０日公開）

奥富正敏、ほか著「ディジタル画像処理」ＣＧ−ＡＲＴＳ協会出版、２００７年３月１日（第二版二刷）、Ｐ．２０８〜２１０，１２−２節「特徴点検出」

しかしながら、上述の特許文献５、６に記載の技術にあっては、下記のような問題がある。

上記特許文献５、６に記載の技術によれば、画像同士の照合処理によって文字列検知を行う。ここで、対象画像が複雑な背景を文字の下に有している場合、精度良くマッチング処理を行うことが困難になるという問題がある。あらかじめ用意されているモデルの文字列画像は単に文字列のみが描画されていて背景が単調な画像である。そのようなモデル画像と、複雑な背景を有する文字列領域の画像とを比較した場合、たとえ文字列が一致していたとしても、画像同士の比較結果は十分な一致率が得られなくなる。結果として、それは文字列ではない、あるいは、検知対象文字列とは異なるなどの誤検知が生じる虞がある。

なお、特許文献５、６に記載の技術においては、照合処理に利用する文字列の画像を格納するためのメモリ容量の問題がある。

例えば、日本語、中国語、韓国語などの言語においては、文字を綴る方向として、横書き、縦書きの両方が考えられる。同じ文字列でも縦書きと横書きとでは異なる文字列画像として認識されるため、上述の特許文献５、６に記載の技術においては、縦書きと横書きの両方の画像を用意する必要がある。したがって、処理負荷の増大やメモリ容量の問題は、深刻となり、このように照合するべき画像が増えれば、結果として、類似画像検索に要する処理時間も問題となる。上述したとおり、処理時間の問題は、静止画よりも、リアルタイム性が要求される動画を処理するケースにおいては、より一層深刻な問題となる。

さらには、文字の大きさの違いによって異なる文字と判断されたり、文字の書体の違いによって異なる文字と判断されたりする虞があれば、文字の大きさごと、書体ごとにバリエーションに応じた複数の文字列画像をモデル画像として格納しておく必要があるため、メモリ容量および処理時間の問題は、より一層深刻となる。

上記問題点は、上述した特定の言語の文字にのみ生じるものではなく、あらゆる言語の文字検知処理の際に共通に生じる問題であり、また、動画のみならず静止画を含む画像から文字を検知する際に同様に生じる問題である。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、画像に対する文字列検知処理の検知精度の向上を実現する文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体を実現することにある。また、本発明の他の目的は、文字列検知処理を実行する文字列検知装置において、検知精度の向上とともに、処理効率の向上を両立することにある。

本発明の文字列検知装置は、上記課題を解決するために、１以上の文字からなる文字列を画像から検知する文字列検知装置において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも１つ定義するクラスタリング手段と、上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴としている。

上記構成によれば、クラスタリング手段は、検知対象となる画像の領域を、色が類似する画素群ごとに分類して、クラスタを定義する。そして、その類似色ごとに得られたクラスタの画素群だけが含まれるクリッピング画像がクリッピング手段によって生成される。

文字列検知手段は、検知したい目的の文字を検知するとき、画像全体からではなく、類似色ばかりが集められた（その他の色は削ぎ落とされた）クリッピング画像から、目的の文字を検知するだけでよい。

分類したいくつかのクラスタの中に少なくとも１つは、文字列色に該当するものが含まれているはずである。そして、文字色のクラスタについて得られたクリッピング画像は、余分な情報が極力含まれない文字そのものの情報を示していると考えられる。したがって、このような文字色のクラスタから得られた情報を利用することにより、文字の背景が複雑であってもその影響を受けることなく、文字の照合を精度良く行うことが可能となる。

本発明の文字列検知装置は、さらに、上記画像を構成する各画素が有する色情報に基づいて、各画素を、色空間座標系にプロットする画素プロット手段を備え、上記クラスタリング手段は、上記画素プロット手段によって上記色空間座標系にプロットされた画素間の距離が第１閾値より小さい画素群からなるクラスタを上記色空間座標系において定義することができる。

上記構成によれば、画素プロット手段は、色を指し示すための明確な基準となる色空間に基づいて各画素の色を特定することができる。したがって、クラスタリング手段は、明確な基準に基づいて各画素を色で分類する（クラスタ化する）ことが可能になる。

本発明の文字列検知装置は、さらに、上記クラスタリング手段によって定義されたクラスタごとに、該クラスタの代表色を決定する代表色決定手段を備え、上記代表色決定手段は、上記クラスタに属する画素群の色情報の平均値を該クラスタの代表色として決定し、上記クリッピング手段は、上記色空間座標系における、上記代表色からの距離が第２閾値より小さい画素群の領域と、その他の画素群の領域とに分割することができる。

上記構成によれば、クリッピング手段は、決定された代表色を基準として、代表色とどの程度まで類似した色を、クリッピング画像に残す領域とすべきかを決定することができる。また、第２閾値を可変とすることで、クリッピング画像に残す領域とそうでない領域の境界を微調整することが容易に行える。

本発明の文字列検知装置は、さらに、上記クラスタリング手段が定義した複数のクラスタの中から、上記クリッピング手段および上記文字列検知手段が処理すべきクラスタを選択するクラスタ選択手段を備え、上記クラスタ選択手段は、未処理のクラスタのうち、上記色空間座標系におけるクラスタ内の画素群の分散が最も小さいクラスタを、処理すべきクラスタとして選択することが好ましい。

上記構成によれば、下流の工程における各部（上記クリッピング手段および上記文字列検知手段など）は、クラスタ選択手段によって定められた順にクラスタを処理することができる。クラスタ選択手段は、分散が小さいクラスタから順に処理されるようにクラスタを選択する。

自然の背景または実物被写体を写す領域と比較して、文字、図形などは単一色で構成されていることが多く、文字列色のクラスタ内の色分布は、他のクラスタと比較して、ばらつきが極端に少ないと予想される。分散が小さいほど、そのクラスタ内の画素群の色は、所定の単一色に画素の色が集中しているということになり、分散が小さいクラスタほど、そのクラスタが文字列色のクラスタである尤度が高い。

つまり、文字列色のクラスタである可能性が高いものから順に文字列検知処理が実施されるように本発明の文字列検知装置を構成することができるので、文字列検知処理の効率を格段に向上させることが可能となる。

本発明の文字列検知装置は、上記画像から、上記検知対象文字列の少なくとも１文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知手段を備え、上記クラスタリング手段は、上記低次検知手段によって上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義することが好ましい。

上記構成によれば、低次検知手段は、上記検知対象文字列の少なくとも１文字が画像に含まれていないということを確認すれば、文字列の全てを検証する前に、検知対象文字列が画像に含まれていないということを即座に判断することができる。下流の工程（クラスタリング手段以降）は、上記検知対象文字列が含まれている可能性が無い画像についてまで、処理を実行することはない。

このように、上記検知対象文字列が含まれていないと早々に判断された画像に対しては、以降の処理を無駄に実行する必要がなくなるので、文字列検知処理の効率を格段に向上させることが可能となる。

本発明の文字列検知装置における上記低次検知手段は、元の画像から解像度を下げた画像と、文字ごとに予め用意されている、文字の特徴を示す低次モデルとを照合することにより、上記検知対象文字列の文字を検知し、上記低次モデルは、上記文字列検知手段が上記クリッピング画像との照合に用いる高次モデルよりも、有する文字の特徴数が少ないことが好ましい。

上記構成によれば、低次検知手段は、解像度の低い画像と、低次モデルとを照合することにより、目的の文字（少なくとも１文字）を検知する。一方、文字列検知手段は、オリジナルの画像と、二次モデルとを照合することにより、検知対象文字列中のすべての文字を検知することによって、目的の文字列を検知する。

そして、低次モデルは、二次モデルよりも、情報量が少ない簡易なモデルである。

つまり、低次検知手段は、文字列検知手段が行う文字列検知処理よりも、処理する情報量がはるかに少なくて済み、低負荷処理にて、高速に、上記画像に上記検知対象文字列が含まれている可能性の有無を判断することが可能である。

低次検知手段による文字の検知は、目的の文字列が含まれている可能性の有無を判断するのみであるので、「目的の文字である」という判断の正確性よりも、可能性の有無について、低負荷処理によって高速に行うことが求められる。一方、最終的に文字列の検知を行う文字列検知手段による文字列の検知は、上記の正確性が重要となる。

そこで、本発明の文字列検知装置は、低次検知手段の文字検知処理を、解像度の低い画像と低次モデルとによって低負荷処理にて高速に実現し、一方、文字列検知手段の文字列検知のみを、オリジナルの解像度の画像と高次モデルとによって精度良く実現する。

結果として、画像に対する文字列検知処理の検知精度の向上を実現するとともに、処理効率の向上を両立することが可能になる。

本発明の文字列検知装置は、上記画像において、上記低次検知手段によって検知された文字を含むように限定された候補領域を特定する候補領域特定手段を備え、上記クラスタリング手段は、上記候補領域を構成する各画素が有する色情報に基づいて、クラスタを少なくとも１つ定義することが好ましい。

上記構成によれば、低次検知手段によって目的の文字列のうちの少なくとも１文字が検知されると、その文字が含まれるような、画像全体から限定された候補領域が候補領域特定手段によって特定される。下流の工程（上記クラスタリング手段など）は、画像全体から範囲が限定された候補領域についてのみ、文字列検知処理を実施すればよい。

文字同士は並んで配置されるため、検知対象文字列の１文字でも検知されれば、その位置に基づいて、残りの各文字の位置を予想することが可能である。

こうして、画像全体ではなく、残りの文字が含まれている可能性の高い候補領域に対してのみ処理が実施されるので、処理負荷はさらに低減され、結果として、処理効率をさらに向上させることが可能となる。

本発明の文字列検知装置において、上記文字列検知手段は、上記検知対象文字列に含まれる１文字を上記画像から検知すると、次に検知すべき文字を、上記検知対象文字列における文字の並びにおいて、検知済みの文字に最も近い未検知の文字の中から決定してもよい。

文字の並びにおいて検知済みの文字の両隣の文字は、上記画像において、検知済みの文字に最も近い位置に配置されていると考えられる。よって、上記画像における検知済みの文字の位置を基準にして、これらの文字を優先的に検索することで、検知済み文字の近隣から早い段階で、より正しく、目的の文字列の有無を検知することができる。

本発明の文字列検知装置において、上記文字列検知手段は、上記検知済みの文字が、上記検知対象文字列における文字の並びにおいてｎ番目の文字であって、次に検知すべき文字が（ｎ＋１）番目の文字である場合に、検知対象領域を、上記検知済みの文字の右側および下側の領域に限定し、次に検知すべき文字が（ｎ−１）番目の文字である場合に、検知対象領域を、上記検知済みの文字の左側および上側に限定することが好ましい。

上記構成によれば、本来の文字の並びに基づいて、検知済みの文字の位置から、次に検索する文字の位置を、より正確に絞り込むことができる。すなわち、指定された文字列の並びにおいて、次に検索する文字が、検知済みの文字の後にくる文字であれば、横書きであれば検知済みの文字の右側、縦書きであれば検知済みの文字の下側に配置されている可能性が高い。また、次に検索する文字が、検知済みの文字の前にくる文字であれば、横書きであれば検知済みの文字の左側、縦書きであれば検知済みの文字の上側に配置されている可能性が高い。

このように検知される可能性がより高い領域に絞って以降の文字の検索を行うことにより、照合処理を行う範囲を大幅に削減することができ、文字列検知処理の処理負荷軽減および処理時間短縮を実現することが可能となる。

本発明の上述の文字列検知装置は、画像を処理することが可能なあらゆる画像処理装置に適用することが可能であり、本発明の文字列検知装置を搭載した、そのような画像処理装置も本発明の範疇に入る。

本発明の文字列検知方法は、上記課題を解決するために、１以上の文字からなる文字列を画像から検知する文字列検知方法において、上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも１つ定義するクラスタリングステップと、上記画像を、上記クラスタリングステップにて定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピングステップと、上記クリッピングステップにて生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知ステップとを含むことを特徴としている。

さらに、本発明の文字列検知方法は、上記クラスタリングステップに先行して、上記画像から、上記検知対象文字列の少なくとも１文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知ステップを含み、上記クラスタリングステップは、上記低次検知ステップにて上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義するステップであってもよい。

なお、上記文字列検知装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記文字列検知装置をコンピュータにて実現させる上記文字列検知装置の制御プログラム、および、それを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

したがって、画像に対する文字列検知処理の検知精度を向上させることが可能になるという効果を奏する。

本発明の実施形態におけるＤＶＤプレーヤーの要部構成を示すブロック図である。本発明の文字列検知装置（画像処理装置／ＤＶＤプレーヤー）、表示部（デジタルテレビ）、および、操作部（リモコン）の外観と、ユーザが目的の文字列を入力する様子を説明する図である。文字列検知装置のキーワード記憶部４１に保持されるキーワードのデータ構造の一例を示す図である。本実施形態における文字列検知装置の静止画生成部が生成した静止画の一例を示す図である。静止画生成部によって生成された静止画から、特徴量抽出部が抽出した特徴量を反映した特徴量データの一例を示す図である。本実施形態における文字列検知装置の文字情報記憶部に記憶されている文字データベースの一例を示す図である。（ａ）〜（ｃ）は、複雑背景を含む画像における文字認識の問題について説明する図である。本実施形態における文字列検知装置の一次検知部が特徴量データに対して一次検知機能を実行した実行結果の一例を示す図である。本実施形態における文字列検知装置の候補領域特定部が、候補文字位置に基づいて候補領域を特定した結果の一例を示す図である。候補領域特定部によって特定された候補領域に基づいて、トリミングされた結果（トリミング画像およびトリミングデータ）の一例を示す図である。本実施形態における文字列検知装置の画素プロット部が色空間に候補領域の各画素をプロットして得た色分布情報のイメージ図である。本実施形態における文字列検知装置のクリッピング部が特定したクリッピング領域を示すマップ情報の一例を示す図である。上記マップ情報に基づいて、クリッピング部によってクリッピングされた後のクリッピングデータの一例を示す図である。検知済文字の領域に基づいて決定される、次の文字を検知するための検知対象領域の一例を示す図である。検知済文字の領域に基づいて決定される、次の文字を検知するための検知対象領域の具体例を示す図である。ＤＶＤプレーヤーにおける画像処理および文字列検知処理の流れを示すフローチャートである。ＤＶＤプレーヤーの文字列検知装置が実行する文字列検知処理の詳細な流れを示すフローチャートである。ＤＶＤプレーヤーの文字列検知装置が実行する文字列検知処理の詳細な流れを示すフローチャートである。

≪実施形態１≫
本発明の実施形態について、図面に基づいて説明すると以下の通りである。

以下では、一例として、本発明の文字列検知装置を、画像を再生して表示するＤＶＤプレーヤーに搭載した場合について説明する。

なお、本発明の文字列検知装置は、ＤＶＤプレーヤーに限定されず、画像を処理することが可能なあらゆる画像処理装置に適用することが可能である。例えば、これに限定されないが、デジタルビデオレコーダー／プレーヤー、ブルーレイディスクレコーダー／プレーヤー、デジタルビデオカメラ、デジタルカメラ、デジタルテレビ、パーソナルコンピュータ（ＰＣ）、携帯電話、プリンタ、スキャナ、複合機、ファクシミリ装置など、静止画または動画、あるいは、その両方を処理することが可能な各種画像処理装置に適用することが可能である。なお、静止画データおよび動画データをともに、ここでは画像と称する。

本発明の文字列検知装置は、複雑な背景を持つ画像であっても、その中から精度良く、かつ、低負荷処理で効率良く、指定の文字列を検知することが可能な文字列検知装置である。以下、本発明の文字列検知装置としてのＤＶＤプレーヤーの構成を説明する。

〔ＤＶＤプレーヤー１の構成〕
図１は、本発明の実施形態におけるＤＶＤプレーヤー１の要部構成を示すブロック図である。

図１に示すとおり、本実施形態のＤＶＤプレーヤー（画像処理装置）１は、制御部１０、記憶部１１、表示部１２、操作部１３、一時記憶部１４、および、これらの各部でデータの送受信を行うための共通の信号線としてのバス１５を備える構成となっている。

表示部１２は、ＤＶＤプレーヤー１が処理する画像を表示したり、ユーザがＤＶＤプレーヤー１を操作するための操作画面をＧＵＩ（Graphical User Interface）画面として表示したりするものである。表示部１２は、例えば、ＬＣＤ（液晶ディスプレイ）、有機ＥＬディスプレイなどの表示装置で構成される。

操作部１３は、ユーザがＤＶＤプレーヤー１に指示信号を入力し、操作するためのものである。

ＤＶＤプレーヤー１は、バス１５を介して直接データ送受信を行うことが可能な表示部１２および操作部１３を備えていてもよいが、このような構成に限定されない。

本実施形態では、表示部１２は、デジタルテレビで実現されており、バス１５を介して制御部１０と接続するＤＶＤプレーヤー１の外部インターフェース（図示せず）は、ＨＤＭＩ（High Definition Multimedia Interface）端子およびＨＤＭＩケーブルを介して、デジタルテレビとしての表示部１２と接続している。これにより、ＤＶＤプレーヤー１は、自装置が再生する画像を表示部１２（デジタルテレビ）に出力し、表示させることができる。

また、本実施形態では、操作部１３は、一例として、上記デジタルテレビおよび当該ＤＶＤプレーヤー１に共通のリモコンとして実現されていてもよい。操作部１３に設けられたボタン（十字キー、決定キー、文字入力キーなど）に対応する信号は、そのボタンが押下されたときに、赤外線信号として操作部１３の発光部から出力され、ＤＶＤプレーヤー１または上記デジタルテレビの本体に設けられた受光部を介してＤＶＤプレーヤー１またはデジタルテレビに入力される。ＤＶＤプレーヤー１の受光部（図示せず）を介して受信された信号は、バス１５を介して制御部１０に供給され、制御部１０が上記信号に応じた動作を行う。

制御部１０は、記憶部１１から一時記憶部１４に読み出されたプログラムを実行することにより、各種の演算を行うと共に、ＤＶＤプレーヤー１が備える各部を、バス１５を介して統括的に制御するものである。

本実施形態では、制御部１０は、機能ブロックとして、特徴量抽出部２２、一次検知部２３、候補領域特定部２４、画素プロット部２５、クラスタリング部２６、代表色決定部２７、クラスタ選択部２８、クリッピング部２９、二次検知部３０、および、文字列判定部３１を備える構成である。これらの各機能ブロックは、ＤＶＤプレーヤー１を本発明の文字列検知装置として機能させるためのものである。

また、ＤＶＤプレーヤー１は画像処理装置であるので、制御部１０は、ＤＶＤプレーヤー１を画像処理装置として機能させるための機能ブロックとして、動画再生部２０、および、静止画生成部２１を備えている。上記構成は、画像処理装置が基本的に備えている機能ブロックの一例であって、本発明の文字列検知装置の構成を限定するものではなく、画像処理装置の機能に応じて適宜設計されるものである。

上述した制御部１０の各機能ブロック（２０〜３１）は、ＣＰＵ（central processing unit）が、ＲＯＭ（read only memory）等で実現された記憶装置に記憶されているプログラムをＲＡＭ（random access memory）等で実現された一時記憶部１４に読み出して実行することで実現できる。

上述の機能ブロックのうち、特徴量抽出部２２、一次検知部２３、および、候補領域特定部２４が、本発明の文字列検知装置における一次検知機能として機能する。画素プロット部２５、クラスタリング部２６、および、代表色決定部２７が、色分析機能として機能する。クラスタ選択部２８、クリッピング部２９、および、二次検知部３０が、二次検知機能として機能する。

さらに、本実施形態のＤＶＤプレーヤー１は、図示しない文字評価装置を搭載することも可能である。文字評価装置は、本発明の文字列検知装置が検知し得るあらゆる文字を分析して評価するための文字評価機能を備えている。文字評価装置が評価して得られた文字の情報を用いて、文字列検知装置は、画像に含まれる文字列を検知することが可能となる。具体的には、文字評価装置は、文字の形状特性および文字の言語的特性に基づいて、文字を分析し、その文字がどのくらい誤検知され難いのか（どのくらい正しく検知され易いのか）という観点から評価を行って、「誤検知のされ難さ」を表す評価値を求める。評価値は、図示しない文字情報記憶部において文字ごとに予め記憶される。

文字評価装置が求めた評価値によって、本発明の文字列検知装置は、文字の誤検知され難さを文字ごとに予め把握することが可能となる。これにより、文字列検知装置は、指定されたキーワード中の誤検知され難い文字から順に検索を行うことが可能となり、従来と比較して精度良くかつ効率的に文字列検知処理を実現することができる。

ここで、誤検知とは、本来文字ではない背景領域に、目的の文字が含まれていると誤って検知してしまうこと、別の文字を目的の文字と誤って検知してしまうこと、本来目的の文字であるのに目的の文字を検知し損なうことなどを指している。こうした誤検知は、文字の形状がシンプルなもの、異表記文字があるものに起こり易い。例えば、その文字に文字らしき特徴的な形が少なかったり（数字の“１”、長音を表す“ー”など）、漢字の部首など様々な文字の要素の一部としてよく使われる文字であったり（“口”、“日”など）、別の文字であるのに形状が似ているような文字同士であったり（カタカナの“ニ”と漢数字の“二”、カタカナの“ロ”と漢字の“口”、通常の“つ”と促音を表す“っ”など）、逆に、１つの意味で表記が複数ある文字であったり（“沢”と“澤”、“Ａ”と“ａ”など）すると、誤検知の可能性は高まる。

以上のことから、「誤検知のされ難さ」とは、文字の形状が複雑であること、類似形状の文字がないこと、異表記文字がないことなどによって評価できると言える。ただし、これに限定されず、その他の文字形状の特徴、その他の文字特性を、誤検知のされ難さの評価に用いてもよい。

記憶部１１は、制御部１０が実行する制御プログラムおよびＯＳプログラム、ならびに、制御部１０が、ＤＶＤプレーヤー１が有する各種機能（例えば、画像処理機能、一次検知機能、色分析機能、二次検知機能、文字評価機能など）を実行するときに読み出す各種の固定データを記憶するものである。本実施形態では、記憶部１１には、例えば、画像記憶部４０、キーワード記憶部４１、および、文字情報記憶部４２が含まれており、各種の固定データを記憶する。記憶部１１は、例えば、内容の書き換えが可能な不揮発性メモリである、ＥＰＲＯＭ（Erasable ROM）、ＥＥＰＲＯＭ（Electrically EPROM）、フラッシュメモリなどで実現される。なお、内容の書き換えが不要な情報を記憶する記憶部としては、上述したとおり、記憶部１１とは別の、図示しない、読出し専用の半導体メモリであるＲＯＭ（Read Only Memory）などで実現されてもよい。

画像記憶部４０は、ＤＶＤプレーヤー１が画像処理装置として処理する対象となる画像のデータを記憶するものである。本実施形態では、画像記憶部４０は、静止画および動画をいずれも画像として記憶することができる。

キーワード記憶部４１は、ユーザによって指定されたキーワードを記憶するものである。この指定されたキーワードを画像から検知するために、文字列検知装置は、文字列検知処理（一連の一次検知機能、色分析機能、および、二次検知機能を含む）を実行する。このとき、制御部１０の各部は、キーワード記憶部４１を参照して、指定されたキーワードを読み出す。キーワード記憶部４１のデータ構造については後に詳述する。

文字情報記憶部４２は、文字列検知装置が文字列検知処理を実行する際に利用する文字の情報をデータベース化して記憶するものである。文字情報記憶部４２が記憶する文字データベースは、文字ごとに、文字を一意に識別するための文字コード、および、その文字の特徴情報（モデル）を対応付けて格納する。この文字データベースのデータ構造については後に詳述する。

一時記憶部１４は、ＤＶＤプレーヤー１が実行する各種処理の過程で、演算に使用するデータおよび演算結果等を一時的に記憶するいわゆるワーキングメモリであり、ＲＡＭ（Random Access Memory）などで実現される。より具体的には、静止画生成部２１は、画像処理を実行するとき、処理対象となる画像を、一時記憶部１４が備える図示しない画像メモリに展開し、これにより、制御部１０の各部が画像について画素単位で詳細な解析を行うことができる。あるいは、一次検知機能、色分析機能および二次検知機能を実現する各部が実行した実行結果もこの一時記憶部１４に一時的に格納される。

図２は、本発明のＤＶＤプレーヤー１、表示部１２（デジタルテレビ）、および、操作部１３（リモコン）の外観と、ユーザが目的のキーワード（文字列）を入力する様子を説明する図である。図２に示す例では、ＤＶＤプレーヤー１は、ユーザが文字列検知装置を操作するための操作画面を表示部１２に出力し、表示させる。図２に示す例では、表示部１２は、ユーザが検索したい文字列を、操作部１３を操作して入力できるようなＧＵＩ画面を表示する。

ユーザは、操作部１３を操作することにより、処理対象の動画（または静止画）から見つけたい文字列を文字列検知装置に対して入力することができる。図２は、目的の文字列として、キーワード「エース」が入力された例を示している。

図示しないＤＶＤプレーヤー１の入力制御部は、例えば、操作部１３のユーザ操作によってキーワードが入力されて、操作部１３の決定ボタンなどが押下されると、入力されたキーワード（例えば、「エース」）を受け付けて、キーワード記憶部４１に格納する。

図３は、キーワード記憶部４１に保持されるキーワードのデータ構造の一例を示す図である。図３に示すとおり、表示制御部は、取得したキーワードの各文字をキーワードの並びの順に格納する。例えば、キーワード「エース」の場合、「エ」はこのキーワードの中で、１文字目であるので、表示制御部は、文字「エ」を格納し、さらに、当該文字に文字順序「１」の情報を対応付けて記憶する。「ー」、「ス」の各文字についても同様に、文字順序「２」、「３」を対応付けて記憶する。

ここで、ＤＶＤプレーヤー１が文字評価装置を備えている場合には、文字評価装置が「エ」、「ー」、「ス」の３文字を評価して、「誤検知のされ難さ」が高い順に優先順位、すなわち、検索順序を付与することが好ましい。図３に示す例では、上記３文字のうち、最も他の文字と間違え難い「ス」が、優先順位「１」、他の文字と間違えられる可能性がある「エ」が、優先順位「２」、さらに高確率であらゆる図形、文字と間違えられる可能性がある「−」が、優先順位「３」と決定されているものとする。

このように、決定された優先順位を、図３に示すように、入力された各文字に対応付けて格納しておけば、一次検知部２３、および、二次検知部３０は、優先順位に基づいて、文字の検知を実行することができ、間違え難い文字からより確実に文字検知を行うことで、精度良くかつ効率良く指定文字を検知することが可能となる。

さらに、図３に示すとおり、キーワード記憶部４１において、検知が完了した文字には、「検知済」であることを示すフラグを格納するフィールドが確保されていてもよい。

〔ＤＶＤプレーヤー１の機能構成〕
制御部１０の動画再生部２０は、画像記憶部４０に記憶されている動画を読み出して、外部出力用の処理を施し、動画を再生するものである。

動画を再生・表示する旨の指示が入力された場合、動画再生部２０が処理した動画は、一旦図示しない画像メモリに格納され、フレームごとに、図示しない表示制御部の制御の下、表示部１２に出力される。

動画から所定の文字列を検知する旨の指示が入力された場合、動画再生部２０が処理した動画は、静止画生成部２１に出力される。

なお、画像記憶部４０に記憶されている静止画を表示する旨の指示が入力された場合には、上記表示制御部は、画像記憶部４０から静止画を読み出して、表示部１２に出力する。

静止画生成部２１は、動画の各フレームから、文字列検知処理が実行される対象となるフレームを抽出して、処理対象の静止画を生成するものである。静止画生成部２１は、動画に含まれるすべてのフレームをそれぞれ静止画にしてもよいが、本実施形態では、所定秒間隔、または、所定フレーム間隔で、処理対象となる静止画を抜き出す処理を実行する。

なお、静止画から所定の文字列を検知する旨の指示が入力された場合、図示しない表示制御部が指定された静止画を画像記憶部４０から読み出して特徴量抽出部２２に出力する。

特徴量抽出部２２は、静止画生成部２１が生成した静止画、または、上記表示制御部が読み出した静止画から、文字列検知処理に使用する特徴量を抽出するものである。本発明の文字列検知装置が用いる特徴量は、文字列検知装置が、文字の形状を、文字ごとに識別できるものであれば何でもよい。

ただし、一次検知部２３および二次検知部３０は、上記特徴量を既知のモデル特徴量と比較することにより、文字の検知を実現するものである。したがって、文字情報記憶部４２に記憶されている文字ごとのモデルの特徴量と、特徴量抽出部２２が抽出する文字の特徴量とは同じ手法で抽出された同じ種類の特徴量であることが好ましい。なお、画像から文字の特徴量を検出する技術としては、例えば、非特許文献１に記載のコーナー検出技術、輪郭線（エッジ）検出技術を用いることが考えられるが、特徴量抽出部２２の構成は、これに限定されない。あるいは、文字の特徴量とは、文字の画像であってもよい。

図４は、静止画生成部２１が生成した静止画の一例を示す図である。図５は、静止画生成部２１によって生成された静止画から、特徴量抽出部２２が抽出した特徴量を反映した特徴量データの一例を示す図である。本実施形態では、一例として、特徴量抽出部２２は、図４に示す静止画の各画素値に基づいて、上述の輪郭線検出技術などを用いて、急峻な色の変化が生じている領域（エッジ）と、そうでない領域とを２値で表したエッジの特徴量データを得る。

特徴量抽出部２２は、図５のように得られたエッジの特徴量データを、一次検知部２３に供給する。

一次検知部２３は、指定されたキーワードが画像に含まれているか否かを比較的簡単な手順（低負荷処理）により判断するものである。一次検知部２３が実現する一次検知機能の目的は、「指定されたキーワードが画像に含まれていない」、または、「指定されたキーワードが画像に含まれている可能性が高い」の判断を、低負荷処理によって高速に行うことにある。したがって、本実施形態では、一次検知部２３は、指定されたキーワードのうちの少なくとも１文字が、画像に含まれている可能性の有無を判断する。

具体的には、一次検知部２３は、特徴量抽出部２２によって抽出された特徴量データと、指定キーワードの１文字の特徴情報（モデル）とを比較して、上記特徴量データの中から「ス」の特徴が表れている領域を検知する。一次検知部２３は、例えば、指定キーワード「エース」のうち、優先順位が１番目の文字である「ス」の検知を行うことが好ましい。「エース」のうち、最も誤検知され難い「ス」が含まれている可能性がなければ、「指定されたキーワードが画像に含まれていない」と正確に判断することができるので、一次検知機能の目的を達成するのには、優先順位が１番目の１文字について検知処理を行うだけで十分と言える。

本実施形態では、文字情報記憶部４２に、文字ごとのモデルが格納されている。

図６は、本実施形態におけるＤＶＤプレーヤー１の文字情報記憶部４２に記憶されている文字データベースの一例を示す図である。

文字情報記憶部４２には、文字ごとに、文字を一意に識別するための文字コード、および、その文字の特徴情報（モデル）が対応付けて記憶されている。本実施形態では、低負荷処理の一次検知機能で利用する一次モデルと、より精度良く文字列検知を行うための二次検知機能で利用する二次モデルとが、１つの文字に対して関連付けられている。一次検知部２３は、低負荷処理の一次検知を行うため、文字情報記憶部４２に記憶されている一次モデルを用いて、特徴量データから目的の文字を検知する。

一次モデルは、二次モデルと比較して、情報量が少ないが、そのために、一次検知部２３が実行する文字検知処理を比較的低負荷処理で実現することを可能にしている。具体的には、一次モデルは、二次モデルと異なり、その文字においてエッジがあるべき位置を指定する情報（黒丸）の数が少ない。また、エッジがあるべきでない位置を指定する情報（白丸）を採用していない。

このように、二次モデルと比較して条件が緩い一次モデルを利用するので、一次検知部２３が行う文字検知は処理負荷が低くなる一方、おおまかな処理であるので精度はさほど高くない。したがって、実際には、目的の文字でないものも、その文字の可能性があるとして検知してしまう可能性もある。しかし、少ない特徴数（緩い条件）で文字検知を行うことにより、画像中に目的の文字が存在するにもかかわらず見落としてしまうということを削減することができ、むしろ一次検知の目的に適った構成と言える。

図７の（ａ）〜（ｃ）は、複雑背景を含む画像における文字認識の問題について説明する図である。

図７の（ａ）に示すとおり、複雑な背景に文字（例えば「ス」）が重畳している場合、文字「ス」の背景には、文字「ス」を構成するエッジ以外のエッジが検出されることがある。このような画像から、文字「ス」を検知するために、最初から二次モデルとの比較を行うと、以下の弊害がある。すなわち、二次モデルには、図７の（ｂ）に示すとおり、エッジがあるべきでない位置を指定する情報（白丸）が含まれている。一方、複雑背景上の文字「ス」の周囲には、図７の（ｃ）に示すとおり、モデルではエッジがあるべきでないとされる位置にもエッジが検出されている（網点塗りの丸）。したがって、二次モデルを用いると、本来は文字「ス」が含まれているはずの図７の（ａ）の画像は、背景にエッジが検出されてしまったことが悪影響となり、「ス」ではない、と誤った検索結果が出力されてしまうという不都合がある。

しかしながら、上述したとおり、一次検知部２３が実行する一次検知機能は、条件の緩い一次モデルを用いることにより、「ス」が存在する可能性の有無を高速で判断し、「ス」を見落とすことを回避することができる。

つまり、一次検知機能は、指定キーワードが存在する可能性を探ることが目的であるため、多少誤検出しても問題なく、したがって、後述の二次検知機能と比較して処理を簡単化することは処理効率の観点から好ましいことである。二次モデルより少ない特徴数の一次モデルを用いて検知対象文字の存在有無を判定するのはこのためである。

また、一次検知機能を実行する時点では、指定キーワードが画像のどのあたりに存在するのか全く未知であるので、画像全体に対して適用される。このため、上述の通り、一次検知機能の処理を簡単化することによる処理時間短縮の効果は大きい。特に、フルＨＤサイズ（1920ピクセル×1080ピクセル）の画像のように、サイズが大きい画像の場合には、処理効率の効果はより一層大きい。

なお、図６に示す文字データベースにおいて、「誤検知のされ難さ」を示す優先度指数が文字ごとにあらかじめ格納されていてもよい。図６に示す例では、数値が高いほど誤検知され難い文字であることを示す。この優先度指数は、図示しない上述の文字評価装置によって、予め求められているものである。したがって、一次検知部２３は、指定キーワードの各文字について、優先順位を把握することができ、優先順位の高い文字から検知を行うといった判断ができるようになる。

図８は、一次検知部２３が特徴量データに対して一次検知機能を実行した実行結果の一例を示す図である。

一次検知部２３は、文字情報記憶部４２に記憶されている「ス」の一次モデルを取得して、取得した一次モデルと一致する特徴を持つ領域、すなわち、「ス」“らしき”文字が、特徴量データ（図５）の中に１つ以上存在するか否かを判断する。特徴量データの中に「ス」“らしき”文字（候補文字）を検知できなければ、一次検知部２３は、「指定されたキーワード（エース）が画像に含まれていない」と判断することができる。また、候補文字を検知できれば、「指定されたキーワードが画像に含まれている可能性が高い」と判断することができる。

例えば、図８に示すとおり、一次検知部２３は、「ス」の一次モデルと、図５に示す特徴量データとを比較して、「ス」の一次モデルに合致する候補文字の候補文字位置８０および候補文字位置８１を検知する。

一次検知部２３は、検知した候補文字位置の情報を候補領域特定部２４に供給する。ここで、候補文字位置が１つも特定できなかった場合には、文字「ス」は、この画像には含まれていないと判断する。これにより、最後に文字列の判定を行う文字列判定部３１は、「この画像に『エース』は含まれていない」を最終的な判定結果として出力することができる。

候補領域特定部２４は、一次検知部２３によって検知された「ス」“らしき”文字の候補文字位置を手がかりとして、指定キーワード（ここでは、「エース」）が含まれている可能性の高い領域、すなわち、候補領域を特定するものである。

図９は、候補領域特定部２４が、候補文字位置に基づいて候補領域を特定した結果の一例を示す図である。

本実施形態では、一次検知部２３によって、「ス」“らしき”文字の候補文字位置が特定されると、そこが「ス」であると仮定して、指定キーワード「エース」がどのように配置され得るかを予測して、それを包括するような候補領域を特定する。

例えば、候補領域特定部２４は、文字は、縦一列または横一列に配置されること、および、文字「ス」は、指定キーワード「エース」の３番目の文字であることを考慮して、候補文字位置８０の上、下、左、および、右の隣、２文字分の領域を網羅する候補領域９０を特定する。候補文字位置８０に文字「ス」があるとすれば、また、その「ス」が、指定キーワード「エース」を構成する文字であるとすれば、文字「エ」および「ー」は、候補領域９０に含まれる可能性が高い。このため、候補領域９０の中で、文字列「エース」を検知するための二次検知機能を実行すれば、少ない処理量で高確率で目的の文字列を検知することができる。

なお、一次検知部２３によって、候補文字位置が複数特定された場合には、候補領域特定部２４は、２つ目以降の候補文字位置８１についても同様に候補領域９１を特定する。

さらに、候補領域特定部２４は、指定キーワードの言語特性に応じて、候補領域をさらに絞り込んでもよい。例えば、指定キーワード「エース」の言語は、日本語であり、日本語は、特殊な場合を除いて通常左から右へ、または、上から下へ文字を読み進める言語である。候補領域特定部２４は、この言語特定を考慮して、候補文字位置８０について、候補領域９２を特定してもよい。これにより、候補領域をさらに絞り込むことが可能となる。

以上のとおり、候補領域特定部２４が、指定キーワードが含まれている可能性のある領域を、画像全体から、上記候補領域に絞り込むことにより、下流工程では、文字列検知処理の対象領域を大幅に削減することができる。そのため、候補領域特定部２４の構成は、処理の効率化および処理負荷の低減に大きく貢献するものである。

なお、「ス」“らしき”文字が傾いて検知された場合には、候補領域特定部２４は、傾いて特定された候補文字位置に合わせて、傾いた矩形を候補領域として特定してもよい。

また、候補領域特定部２４が候補領域を特定する方法は、上記に限定されない。候補領域特定部２４は、文字数に関係なく、候補文字位置から一定の範囲を候補領域として特定してもよいし、候補領域の形状を、円形、楕円形、長方形などの適宜の形状で定義してもよい。

上記の構成によれば、一次検知機能を実行することが可能となり、低負荷処理で高速に目的の文字列が含まれているか否かを判断するとともに、含まれていると判断された場合には、目的の文字列が含まれている可能性が高い候補領域を、画像全体から絞り込むことができる。

候補領域特定部２４によって特定された候補領域は、次に、色分析機能を実行する各部（例えば、画素プロット部２５）に供給される。色分析機能とは、画像を構成する各画素の色を分析するものである。色分析機能による色の分析結果は、二次検知機能を実行する各部が、高負荷処理となる二次検知機能を、精度良くかつ効率良く実行するために利用される。

図１０は、候補領域特定部２４によって特定された候補領域に基づいてトリミングされた結果の一例を示す図である。

下流工程の各部は、静止画（各画素が色情報を有する）と、特徴量データとを処理するので、候補領域特定部２４は、静止画をトリミングしたトリミング画像７０と、特徴量データをトリミングしたトリミングデータ７１とを画素プロット部２５に供給する。

あるいは、候補領域特定部２４は、候補領域の座標情報を画素プロット部２５に供給してもよい。この場合、画素プロット部２５は、座標情報に基づいて候補領域を、静止画および特徴量データから特定することができる。

下流工程の各部は、画像全体でなく、図１０に示されるようなサイズの小さいトリミング後の情報を処理するだけでよくなり、結果として、以降の処理を精度良くかつ効率良く実行することができる。

画素プロット部２５は、候補領域特定部２４が特定した候補領域の各画素を、任意の色空間に投影するものであり、投影により、上記候補領域の色分布情報を取得するものである。具体的には、画素プロット部２５は、候補領域の各画素の色情報を取得して、その色情報が、上記色空間における座標系のどの座標位置に対応するのかを特定して、画素ごとに座標情報を得る。

図１１は、画素プロット部２５が色空間に候補領域の各画素をプロットして得た色分布情報のイメージ図である。図１１に示す色分布情報は、視覚的に理解し易いように説明のために図示したものであって、画素プロット部２５は、実際にはこのようなイメージ図を生成する必要はない。ただし、色の分析結果を事前にユーザに提示するために、このようなイメージ図を生成し出力することは、ユーザが色の分析結果を直感的に理解できるため好ましい。

図１１に示す例では、画素プロット部２５は、任意の色空間として、ＣＩＥ−Ｌ＊ａ＊ｂ＊カラースペースを用いて、そこに、各画素（の色情報）をプロットする。ここで、色空間としては、均等知覚色空間の標準化のために推奨されているので、上記ＣＩＥ−Ｌ＊ａ＊ｂ＊カラースペースを用いることが好ましい。しかし、本発明の文字列検知装置は、上記に限定されず、既知のあらゆる色空間に基づいて、画素をプロットしてもよい。例えば、ＲＧＢカラースペース、ＣＭＹカラースペース、ＨＳＢカラースペースなどを用いることができる。また、３次元空間だけでなく、ＣＩＥ−ｘｙ色度図などの２次元グラフ上に画素をプロットしてもよい。

画素プロット部２５が色空間に各画素をプロットすると、候補領域がどのような色分布を有しているのかが判明する。詳細には、「点（画素）が多く集中している箇所」、「点の集中度合い（分散）」などを求めることができる。

このように、画素プロット部２５は、候補領域内の各画素の色情報に基づいて、候補領域内の色の分布を分析する。画素プロット部２５が生成した候補領域の色分布情報は、クラスタリング部２６に供給される。

クラスタリング部２６は、画素プロット部２５によって得られた候補領域の色分布情報に基づいて、候補領域内の各画素を、色が類似する画素の集まりごとにクラスタを定義するものである。本実施形態では、一例として、クラスタリング部２６は、まず、上記色空間を予め定められたいくつかのブロックに区分し、点が集中している上位何ブロックかを特定する。点を多く含む上位ブロックが隣接する場合などは、ブロック同士をグループ化してもよい。そして、クラスタリング部２６は、ブロックごとに予め定められている中心座標を、球（クラスタ）の中心と定める。グループ化されたブロックにおいては、各ブロックの中心座標の平均座標を、球の中心と定めてもよい。そして、クラスタリング部２６は、球の半径ｒを０から徐々に増加させてシミュレートを行い、球内に属する点の数の増加率が一定以下になった時点での半径ｒを当該球の半径ｒと定義する。この結果、球の中心と半径ｒとが定義されることによって、色空間においてクラスタが定義される。

これにより、画素間の距離が第１閾値（例えば、球の直径２ｒ）より小さい画素群からなるクラスタが１または複数定義される。すなわち、色空間における距離が近い、類似色の画素同士の集まりに対して、クラスタがそれぞれ定義される。

図１１では、クラスタリング部２６が、点が集中する空間に対して３つのクラスタ８５〜８７を定義した例を示す。

クラスタリング部２６が定義したクラスタの情報（例えば、球の中心座標および半径）は、代表色決定部２７に供給される。

代表色決定部２７は、クラスタリング部２６によって生成されたクラスタのそれぞれについて、代表色を決定するものである。代表色の決定方法はいくつか考えられる。例えば、代表色決定部２７は、生成されたクラスタ内のすべての色情報の平均値を、当該クラスタの代表色Ｃとして決定する。あるいは、クラスタの中心座標をそのまま代表色として決定しても良い。

ここで、取得したいくつかのクラスタのうち、少なくとも１つは、指定キーワードの文字列を構成する画素が属するクラスタがあると考えられる。よって、クラスタごとに決定された代表色の中に、文字列の色（あるいは、それに近い色）が含まれていると考えることができる。

クラスタ選択部２８は、クラスタリング部２６によってクラスタが複数作成された場合に、「指定キーワードの文字列を構成する画素が存在するクラスタ」である尤度を評価して、文字列の色が含まれている可能性の高いクラスタを選択するものである。

文字列色のクラスタである尤度は、例えば、以下のようにして評価できる。自然の背景または実物被写体を写す領域と比較して、文字、図形などは単一色で構成されていることが多く、文字列色のクラスタ内の色分布は、他のクラスタと比較して、ばらつきが極端に少ないと予想される。そこで、クラスタ選択部２８は、各クラスタの分散を求め、分散が小さいクラスタから順に文字列検知処理が実施されるよう、クラスタを選択する。あるいは、各クラスタに、処理順序を付与する。

これにより、下流の工程における各部は、クラスタ選択部２８によって定められた順にクラスタを処理することができる。つまり、文字列色のクラスタである可能性が高いものから順に文字列検知処理が実施されるので、文字列検知処理の効率が向上する。

クリッピング部２９は、候補領域において、クラスタ選択部２８によって選択されたクラスタに属する画素の領域のみが残るように、その他の領域の画素を取り除くものである。

図１２は、クリッピング部２９が特定したクリッピング領域を示すマップ情報の一例を示す図である。図１３は、図１２のマップ情報に基づいてクリッピングされた後のクリッピングデータの一例を示す図である。

図１２は、クリッピング部２９が、候補領域（図１０のトリミング画像７０）において、クラスタ８５に属する画素の領域を特定したマップ情報７２である。マップ情報７２において、斜線領域がクラスタ８５の（残すべき）領域を示し、それ以外が切り落とすべき領域を示している。

クリッピング部２９は、図１０に示すトリミングデータ７１から、図１２に示すマップ情報７２の斜線領域以外の領域を切り落とすことで、クラスタ８５の画素に基づくエッジ特徴のみが残された図１３に示すようなクリッピングデータ７３を得ることできる。

上述したとおり、生成されたクラスタのうちのいずれかは検索文字列についての色味を有したクラスタであるので、色ごとに分類されたクラスタを個々に処理することで、おおよそ文字列色についてのみのエッジ特徴を得ることができる。

下流の工程の各部は、このようにして得られた、余計な色のエッジ特徴が削ぎ落とされたクリッピングデータ７３に基づいて文字を検索することが可能となる。結果として、元々ある複雑背景の情報は削ぎ落とされているので、複雑背景の悪影響を受けることなく、精度良く文字列検知処理が実行されることになる。

クリッピング部２９が生成したクリッピングデータ７３は、二次検知部３０に供給される。

二次検知部３０は、指定されたキーワードが画像に含まれているか否かを判断するものである。具体的には、クリッピング部２９が生成したクリッピングデータ７３を、文字情報記憶部４２に記憶されているモデルと照合して、指定されたキーワードの文字列を文字ごとに検知するものである。

二次検知部３０が実施する二次検知機能においては、誤検知することなく指定キーワードを検知することが必要である。そこで、本実施形態では、二次検知部３０は、文字情報記憶部４２に記憶されている、より詳細な情報を含む二次モデル（図６）を用いてクリッピングデータ７３との照合を行う。

二次モデルは、一次モデルと比較して、文字列検知を精度良く行うために豊富な情報量を有している。情報量が多い二次モデルを用いた照合は高負荷処理ではあるものの、本発明の文字列検知装置においては、これまでの上流工程で、処理範囲が画像全体から、図１２に示す斜線の領域にまで絞り込まれている。このため、短時間で精度の良い文字列検知処理を実現することが可能である。

なお、二次検知部３０は、指定キーワードを検知する際、文字ごとに定められた優先順位にしたがって、目的の文字列を文字ごとに検知することが好ましい。例えば、指定キーワードが「エース」であり、「エ」、「ー」、「ス」の３文字に対して、それぞれ、優先順位「２」、「３」、「１」が付与されているとする。この場合、二次検知部３０は、まず、「ス」の二次モデルとクリッピングデータ７３との照合を行い、「ス」を検知し、同様に、「エ」、「ー」の順に文字の検知を行う。

上述したとおり、優先順位は、「誤検知のされ難さ」に基づいて決定されているものである。したがって、二次検知部３０は、間違え難い文字からより確実に文字検知を行うことで、精度良くかつ効率良く指定文字を検知することが可能となる。なお、本実施形態では、優先順位は、図示しない文字評価装置が文字ごとに評価した「誤検知のされ難さ」に基づいて決定されるものとしたが、これに限定されない。ユーザが、キーワードを入力する際、自己の判断で優先順位を指定し、文字列検知装置に設定しておく構成であってもよい。

さらに、二次検知部３０は、１つ以上の文字の検知に成功した後は、検知済の文字と、これから検知しようとする文字との文字の並びに基づいて、文字同士の位置関係を予測し、検知対象領域を検知済の文字の近隣領域に絞り込んで、文字列検知処理を実行することが好ましい。

詳細には、検知済文字が文字列中のｎ番目の文字であり、次に検索する文字が文字列中の（ｎ＋１）番目の文字である場合には、二次検知部３０は、検知対象領域を、さらに絞り込むことができる。具体的には、上記検知済文字の右側および下側の所定の大きさの領域に限定することができる。また、二次検知部３０は、次に検索する文字が文字列中の（ｎ−１）番目の文字である場合には、上記検知済文字の左側および上側の所定の大きさの領域に限定することができる。

上記構成によれば、クリッピングデータ７３の全領域から順に目的の文字を検索する場合と比べて、さらに検索範囲を絞り込むことができるので、処理時間をさらに短縮することができる。

具体例を用いて説明すると以下の通りである。二次検知部３０が、優先順位１番目の文字「ス」を検知した後、次に、文字「エ」を検索するとする。図３の文字順序によれば、検知済文字「ス」が３番目であるの対し、次に検索する「エ」は１番目である。したがって、「エ」は、「ス」の近隣領域（日本語では、特に、左か上）に存在する可能性が高い。

そこで、二次検知部３０は、「エ」を検索する対象領域を、上記検知済文字「ス」の近隣領域に限定する。例えば、図１４に示すように、「ス」の左側の所定の大きさの領域に限定する（破線枠内網点領域）。所定の大きさとは、例えば、図１４に示すように、検知済文字の領域のサイズをｈ×ｈとすると、その右隣の３ｈ×３ｈの大きさの領域に限定することなどが考えられる。

図１５に示す例では、検知済文字（例えば「ス」）の左の領域（１）において、目的の文字（例えば「エ」）が検知される。このように、検知対象領域を限定すれば、クリッピングデータ７３で定義された領域を頭から順次検索する場合と比較して、はるかに短時間かつ低負荷で、目的の文字「エ」、「ー」を検知することができる。

なお、検知済文字（例えば「ス」）の左の領域（１）に目的の文字（例えば「エ」）が見つからなかった場合には、次に見つかる可能性のある上の領域（２）、右の領域（３）、下の領域（４）というように、順次検知対象領域を広げていき、検索を続ければよい。しかし、それでも見つからなかった場合には、最終的には、クリッピングデータ７３で定義された全領域を対象に戻して再検索すればよい。

上記構成によれば、二次検知部３０における文字列検知処理の処理効率を飛躍的に向上させることが可能となる。

なお、二次検知部３０は、ｎ番目の検知済文字に対し、次に検索する文字の文字順序が、（ｎ±２）番目、（ｎ±３）番目、（ｎ±４）番目、・・・などのように、検知済文字と次に検索する文字との距離が長くなるにつれて、その位置関係を予測し、位置関係に合わせて検知対象領域をさらに広げてもよい。

例えば、指定キーワードが「エース攻略」であって、「略」を検知し、次に「エ」を検知するような場合には、「エ」を検索するための領域を、検知済文字「略」の領域のサイズをｈ×ｈとすると、その左隣の５ｈ×５ｈの大きさの領域に限定することなどが考えられる。

このような場合でも、クリッピングデータ７３の定義領域全体を検知対象領域とする場合に比べて、検知対象領域の面積を大幅に限定することができ、処理負荷の低減および処理時間の短縮を実現することができる。

さらに、二次検知部３０は、クリッピングデータ７３から得られた特徴量から、エッジが密集している帯状の領域を検出し、それが水平方向に延びる帯領域であれば文字は横書きである可能性が高いとして、左右の領域を上下の領域よりも優先的に検索するようにし、垂直方向に延びる帯領域であれば文字は縦書きである可能性が高いとして、上下の領域を左右の領域よりも優先的に検索するようにしてもよい。

上記構成によれば、二次検知部３０における処理効率をさらに向上させることが可能となる。

以上のように、二次検知部３０は、優先順位にしたがって、指定キーワードを文字ごとに検知する。二次検知部３０は、図３に示すとおり、指定キーワードの文字を検知できたら、検知できた文字に対応付けられている検知済フラグを立てる。

文字列判定部３１は、二次検知部３０の文字検知結果に応じて、画像に指定キーワードが含まれているか否かを判定するものである。本実施形態では、文字列判定部３１は、図３に示すキーワード記憶部４１を参照し、キーワードの文字すべてについて検知済フラグが立ったことによって、処理した静止画において指定キーワードが検知されたと判断する。

文字列判定部３１は、二次検知部３０によってすべての指定キーワードの全文字が検知された場合、文字列を検知できた旨を通知する成功メッセージを、表示部１２に表示させるなどして、ユーザに文字列検知の通知を行う。二次検知部３０によって指定キーワードの全文字が検知されなかった場合、文字列を検知できなかった旨を通知する失敗メッセージを、表示部１２に表示させてもよい。

なお、文字列判定部３１は、二次検知部３０が文字列を検知した静止画が、動画の一部であった場合には、文字列が検知された静止画に対応する、上記動画における再生位置を、上記成功メッセージとともにユーザに通知してもよい。

さらに、文字列判定部３１は、個々に検知された各文字の位置関係を把握して、検知された文字列は確かに指定キーワードであるのか否かについて、最終的に検証することが好ましい。

本実施形態では、指定キーワードは、文字の並び順ではなく、優先順位にしたがって、例えば、「ス」、「エ」、「ー」の順に個々に検知される。そのため、検知された各文字は、実際には、指定キーワード「エース」とは異なる単語である可能性もある。そこで、文字列判定部３１は、検知された各文字「ス」、「エ」、「ー」が、一定の方向に「エ」、「ー」、「ス」の順に並んでいるのか否かを判断する。

文字列判定部３１は、文字の並びが「エース」とは異なる場合、例えば、「スエー」であった場合には、検知された各文字は、指定キーワードの文字ではないと判断し、画像に指定キーワードが含まれていないと最終的に判断する。

さらに、文字列判定部３１によれば、指定キーワードの１文字１文字が異なる色（異なるクラスタに分類されるほどに離れた色）で彩色されている場合についても、指定キーワードの有無を判定することができる。

例えば、「エ」、「ー」、「ス」の各文字の画素が、それぞれ、赤、青、黄の異なるクラスタに属している場合、二次検知部３０は、１つのクラスタからまとめてすべての文字を検知することはできない。二次検知部３０は、「ス」を黄のクラスタから、「エ」を赤のクラスタから、「ー」を青のクラスタから、それぞれ別々に検知する。

そこで、文字列判定部３１は、別々のクラスタから検知された各文字「ス」、「エ」、「ー」が、一定の方向に「エ」、「ー」、「ス」の順に並んでいるのか否かを判断する。

文字列判定部３１は、文字の並びが「エース」となっている場合にのみ、指定キーワード「エース」が検知されたと判定することができる。

〔文字列検索処理フロー〕
図１６は、ＤＶＤプレーヤー１における画像処理および文字列検知処理の流れを示すフローチャートである。ここでは、ＤＶＤプレーヤー１が備える文字列検知装置は、動画の中から指定されたキーワードを検索し、目的のキーワードが検知された再生位置を出力するものとする。

まず、文字列検知装置に対して、文字列を検知する旨の指示とともに、検索したい目的の文字列（例えば、キーワード「エース」など）が入力される。キーワードは、１字であっても、複数の文字であってもよい。また、文字ごとに、ユーザによる優先順位指定が行われてもよい。さらに、処理対象となる動画がここで指定されてもよい。

キーワードが入力されると（Ｓ１０１においてＹＥＳ）、図示しない表示制御部は、入力されたキーワードを、キーワード記憶部４１に記憶する（Ｓ１０２）。ここで、上記表示制御部は、文字の並びにしたがって取得した文字ごとに文字順序を対応付けて同じくキーワード記憶部４１に格納する。また、ユーザによって優先順位が指定された場合には、優先順位も文字に対応付けて同じくキーワード記憶部４１に記憶する。優先順位は、図示しない文字評価装置が、図６に示す文字の優先度指数、すなわち、「誤検知のされ難さ」に基づいて決定することで付与されてもよい（Ｓ１０３）。

動画再生部２０は、指定された動画を画像記憶部４０から読み出し、再生位置ｔを初期化（ｔ＝０にセット）して（Ｓ１０４）、動画の再生を開始する（Ｓ１０５）。

本実施形態では、処理効率の観点から、動画の全フレームに対して文字列検知処理を実行せず、所定秒間隔（例えば、ｔｘ秒間隔）で抜き出したフレームを、検知対象フレームとする。

動画再生部２０が動画を再生し、再生位置ｔが、検知対象フレームに到達するまでは（Ｓ１０６においてＮＯ）、動画再生部２０は、動画の再生を進める（Ｓ１１１）。再生位置ｔが、動画の最終フレームに到達しない限りは動画の再生を進めることができる（Ｓ１１２においてＮＯ）。そして、再生位置ｔが進むうちに、再生位置ｔが、検知対象フレームに到達すると（Ｓ１０６においてＹＥＳ）、静止画生成部２１が、到達した検知対象フレームの静止画を生成する（デコード処理）（Ｓ１０７）。

続いて、特徴量抽出部２２は、生成された静止画から特徴量を抽出する（Ｓ１０８）。上記特徴量は、例えば、非特許文献１に記載のコーナー検出技術、輪郭線（エッジ）検出技術などを用いて得られる情報であって、文字列検知装置が文字形状を識別することが可能な情報である。本実施形態では、例えば、図５に示す特徴量データを生成する。

特徴量抽出部２２の下流の各部（２３〜３１）は、検知対象フレームに対して文字列検知処理を実行する（Ｓ１０９）。例えば、指定キーワード「エース」が検知対象フレームに含まれているか否かを判断する。文字列検知処理の流れの詳細は、図１７を参照しながら後述する。Ｓ１０９にて、文字列判定部３１は、当該検知対象フレームについて、指定されたキーワードが検知されたか否かを判断する（Ｓ１１０）。

ここで、指定キーワードの文字列が動画内の検知対象フレームにおいて検知された場合（Ｓ１１０においてＹＥＳ）、文字列判定部３１は、キーワードの検知に成功した旨の成功メッセージと、そのキーワードが検知されたフレームに対応する検知再生位置とを表示部１２に出力する（Ｓ２１３）。

一方、検知対象フレームにおいて指定キーワードの文字列が検知されなかった場合には（Ｓ１１０においてＮＯ）、動画再生部２０は、動画の再生をさらに進める（Ｓ１１０）。動画再生部２０は、再生位置ｔが、動画の最終フレームに到達しない限りは動画の再生を進めることができる（Ｓ１１２においてＮＯ）。そして、次の検知対象フレームに到達すれば（Ｓ１０６においてＹＥＳ）、その検知対象フレームについて、上述の文字列検知処理を繰り返す。

そして、文字列が検知されないままに、最後に、再生位置ｔが最終フレームに到達し、動画の再生が終了した場合には（Ｓ１１０においてＮＯ、Ｓ１１２においてＹＥＳ）、文字列判定部３１は、文字列検知処理の結果を出力する。具体的には、動画中に指定キーワード「エース」が１回も検知されなかった場合、文字列判定部３１は、検知に失敗した旨の失敗メッセージを表示部１２に出力する。

なお、文字列の検知に成功しても、動画再生が終了するまで文字列検知を続行してもよい。この場合、文字列が検知されたフレーム以降も、文字列検知装置の制御部１０は、所定秒（ｔｘ秒）間隔で、検知対象フレームについて文字列検知処理を実行し、キーワード「エース」が検知されたフレームの再生位置を記憶していけばよい。

〔文字列検索処理フロー−詳細〕
図１７および図１８は、ＤＶＤプレーヤー１の文字列検知装置が実行する文字列検知処理の流れを示すフローチャートである。図１６に示すＳ１０８において、特徴量抽出部２２が検知対象フレーム（静止画）の特徴量データ（図５）を抽出すると、文字列検知装置の制御部１０は、Ｓ１０９の文字列検知処理を開始する。

まず、一次検知部２３は、キーワード記憶部４１を参照し、入力されたキーワードの文字のうち、優先順位が最上位の文字を目的文字として取得する。図３に示す例では、文字「ス」が、目的文字として取得される。そして、一次検知部２３は、文字情報記憶部４２を参照し、優先順位が１番目の「ス」の文字の一次モデルを取得する（Ｓ２０１）。

そして、一次検知部２３は、検知対象フレームから抽出された特徴量データ（図５）と、文字情報記憶部４２に記憶されている「ス」の一次モデル（図６）とを照合して、上記検知対象フレームに対し目的文字「ス」の検知を行う（Ｓ２０２）。

一次検知部２３が、目的文字（ここでは「ス」）が上記検知対象フレームに存在しないと判断した場合には（Ｓ２０３においてＮＯ）、一次検知部２３は、「当該検知対象フレームから指定されたキーワードを検知できない」と判断して、その判断結果を文字列判定部３１に対して出力する（Ｓ２０４）。そして、この検知対象フレームに対する文字列検知処理を終了する。一方、一次検知部２３が、目的文字が上記検知対象フレームに存在すると判断した場合には（Ｓ２０３においてＹＥＳ）、「当該検知対象フレームに指定されたキーワードが含まれている可能性がある」と判断する（Ｓ２０５）。一次検知部２３は、特徴量データ上で検知された、１以上の「ス」“らしき”文字を候補文字として特定する（例えば、図８の候補文字位置８０、および、候補文字位置８１）。そして、特定した候補文字位置を、候補領域特定部２４に供給する。

続いて、候補領域特定部２４は、一次検知部２３によって特定された候補文字位置に基づいて、詳細に目的の文字列を検索する対象領域となる候補領域を特定する（Ｓ２０６）。例えば、図９の候補領域９０および候補領域９１を特定する。候補領域特定部２４は、候補領域を１つ特定してもよいし、複数特定してもよい。

Ｓ２０１〜Ｓ２０６の一次検知機能が終了すると、候補領域特定部２４から出力されたｎ個の候補領域は、色分析機能を実行する各部に引き渡される。そして、変数ｉが初期化され（Ｓ２０７）、ここから色分析機能が開始される。ここで、ｉは、１からｎまでの整数であり、ｎは、候補領域特定部２４によって特定された候補領域の総数を表す。

画素プロット部２５は、ｉ番目の候補領域（例えば、図１０のトリミング画像７０）を取得して、この領域の各画素を、各画素の色情報に基づいて、色空間に投影する（Ｓ２０８）。そして、クラスタリング部２６は、色空間における距離が近い（色が類似する）画素同士の集まりを、球（中心座標、および、半径）で定義した、クラスタを生成する（Ｓ２０９）。クラスタリング部２６は、クラスタを１つ生成してもよいし、複数生成してもよい。例えば、図１１に示すとおり、クラスタ８５〜８７を生成する。

ここで、変数ｊが初期化される（Ｓ２１０）。ｊは、１からｍまでの整数であり、ｍは、クラスタリング部２６によって生成されたクラスタの総数を表す。

続いて、代表色決定部２７は、ｊ番目のクラスタを取得して、該クラスタの代表色を決定する。本実施形態では、代表色決定部２７は、クラスタに属する画素の色情報の平均値を代表色Ｃｊとして決定する（Ｓ２１１）。代表色決定部２７は、１つのクラスタについて代表色Ｃを決定すると、ｊを１つインクリメントし（Ｓ２１２）、未処理のクラスタが存在する場合には（Ｓ２１３においてＹＥＳ）、Ｓ２１１の処理を繰り返す。一方、代表色決定部２７が、全てのクラスタについて代表色Ｃを決定すると（Ｓ２１３においてＮＯ）、制御部１０は、二次検知機能の実行に移行する。具体的には、色分析機能の各部は、定義された各クラスタの情報（球の中心座標、球の半径、球の色分布情報、および、代表色の座標など）を、二次検知機能を実行する各部に引き渡す。ここで、ｊは、再び初期化され（Ｓ２１４）、クラスタごとに二次検知機能が開始される。

ここで、クラスタ選択部２８は、クラスタの分散に基づいて、クラスタの処理順序を決定してもよい。例えば、クラスタ選択部２８は、クラスタ内画素の分散が小さいものから順に処理されるように処理順序を決定する。

クリッピング部２９は、ｊ番目のクラスタを取得して、クラスタ内の画素群の領域を特定する（Ｓ２１５）。クリッピング部２９は、例えば、図１２のマップ情報７２を生成する。ここで、クリッピング部２９は、上記ｊ番目のクラスタ内に属する画素群よりも、さらに、当該クラスタの代表色Ｃｊから一定距離（ΔＣｘ；第２閾値）内にある画素群（Ｃｊ±ΔＣｘ）に範囲を少し広げて、クリッピングで残す領域を広げてもよい。これにより、本来目的の文字列が存在する箇所を、誤って文字列が存在しないと判断することを防ぐことが可能となる。さらに、クリッピング部２９は、文字列の検知結果に応じて、ΔＣｘの値を調節してもよい。クリッピング部２９は、文字列が検知されなかった場合には、ΔＣｘの値を段階的に大きくして、クリッピングで残す領域を広げてもよい。あるいは、文字列が検知された場合に、ΔＣｘの値を段階的に小さくして、クリッピングで残す領域を狭めても問題なく検知されるのか検証してもよい。

クリッピング部２９は、生成したマップ情報７２にしたがって、特定された画素群のみを残すようにクリッピングする（Ｓ２１６）。例えば、クリッピング部２９のクリッピング処理によって、図１０に示すトリミングデータ７１は、図１３に示すクリッピングデータ７３のように、不要な複雑背景のエッジ情報が削ぎ落とされた状態になる。

続いて、二次検知部３０は、クリッピング部２９によって得られたクリッピングデータ７３に対して二次検知を実行し、指定キーワードが含まれているか否かを判断する。まず、二次検知部３０は、変数ｋを初期化して（Ｓ２１７）、文字ごとに照合を行う。ここで、ｋは、１からｐまでの整数であり、ｐは、指定キーワードの文字数を表す。本実施形態では、二次検知部３０は、文字の優先順位にしたがって、目的文字の二次検知を実行する。

二次検知部３０は、優先順位がｋ番目の文字を検知すべき目的文字として決定し、該目的文字の二次モデル（図６）を文字情報記憶部４２から取得する（Ｓ２１８）。そして、二次検知部３０は、取得した二次モデルと、クリッピングデータ７３とを照合する（Ｓ２１９）。ここで、二次検知部３０は、目的文字の特徴に合致する特徴をクリッピングデータ７３内に見出した場合（Ｓ２２０においてＹＥＳ）、その文字の検知済フラグ（図３）を立てて、ｋを１つインクリメントする（Ｓ２２１）。

そして、未処理の文字がある場合（Ｓ２２２においてＹＥＳ）、Ｓ２１８以降の二次検索を繰り返す。一方、すべての文字が検知された場合（Ｓ２２０においてＹＥＳ、Ｓ２２２においてＮＯ）、二次検知部３０は、「指定された文字列が検知できた」と判断して、その判断結果を文字列判定部３１に対して出力する（Ｓ２２３）。なお、ここで、文字列判定部３１は、さらに、二次検知部３０が検知したすべての文字の配置を考慮して、その配置が、指定キーワードの文字の並びと対応しない場合には、二次検知部３０が全ての文字を検知しても、指定キーワードは検知されなかったと最終的に判断してもよい。

一方、Ｓ２１９の照合の結果、目的文字の特徴に合致する特徴をクリッピングデータ７３内に見出せなかった場合（Ｓ２２０においてＮＯ）、処理対象のクラスタは文字色のクラスタではなかったと考えられる。

クラスタ選択部２８は、ｊを１つインクリメントし（Ｓ２２４）、未処理のクラスタが存在する場合には（Ｓ２２５においてＹＥＳ）、その、ｊを１つインクリメントされたクラスタを選択して、クリッピング部２９に引き渡す。これにより、新しいクラスタについて、Ｓ２１５以降の処理が繰り返される。一方、未処理のクラスタが存在しない場合には（Ｓ２２５においてＮＯ）、その候補領域のすべてのクラスタについて検知処理が実施されたが目的の文字列は検知できなかったことになる。

色分析機能を実行する各部（例えば、画素プロット部２５）は、ｉを１つインクリメントし（Ｓ２２６）、未処理の候補領域が存在する場合には（Ｓ２２７においてＹＥＳ）、その、ｉを１つインクリメントされた候補領域を選択して、Ｓ２０８以降の処理を繰り返す。一方、未処理の候補領域が存在しない場合には（Ｓ２２７においてＮＯ）、静止画内に認められた全ての候補領域において、目的の文字列は検知できなかったことになる。そこで、二次検知部３０は、「当該検知対象フレームから指定されたキーワードを検知できない」と判断して、その判断結果を文字列判定部３１に対して出力する（Ｓ２２８）。

以上の文字列検知処理によって出力された結果に基づいて、文字列判定部３１は、図１６に示すとおり、検知対象フレームから指定されたキーワードが検知されたのか否かを判定することができる。

以上で述べた文字列検知装置の構成および文字列検知方法によれば、文字列検知装置は、検知対象となる画像の領域を、色が類似する画素群ごとに分類して、その類似色ごとに得られた特徴量と、目的文字のモデルとを照合する。

分類したいくつかのクラスタの中に少なくとも１つは、文字列色に該当するものが含まれているはずである。そして、文字色のクラスタについて得られた特徴量は、余分な情報が含まれない文字そのものの特徴量を示していると考えられる。したがって、このような文字色のクラスタから得られた特徴量を利用することにより、複雑な背景または柄などの影響を受けることなく、文字の照合を精度良く行うことが可能となる。

さらに、本発明の文字列検知装置は、簡単に高速な照合を行う一次検知部２３と、詳細に正確な照合を行う二次検知部３０とを備える構成である。

上記構成によれば、低負荷処理による簡単な一次検知処理によって、まず、「対象の静止画に指定キーワードは含まれない」または「指定キーワードが含まれている可能性がある」の何れかを高速に判断することができる。このため、「対象の静止画に指定キーワードは含まれない」と判断された場合には、指定キーワードが含まれている見込みのない静止画に対して、高負荷処理の二次検知処理が実行されることがなくなるため、無駄な処理を省いて文字列検知処理全体の効率化を図ることができる。

また、「指定キーワードが含まれている可能性がある」と判断された場合には、目的の文字“らしき”候補文字が検知された領域周辺に、指定キーワードが含まれていると考えることができる。そのため、候補文字が検知された領域に基づいて、二次検知の対象領域を静止画全体から絞り込むことができる。したがって、高負荷処理の二次検知は、静止画全体ではなく、指定キーワードが含まれている可能性の高い絞り込まれた領域に対して実行するだけでよくなる。結果として、無駄な処理を省いて文字列検知処理全体の効率化を図ることができる。

さらに、本発明の文字列検知装置は、指定キーワードを検知する際、誤検知され難い文字から順に、文字を検索することができる。誤検知され難い文字は、誤検知され易い文字と比較して、少ない候補の中から正しく、早く検知される可能性が高い。したがって、キーワード中の文字の並びにしたがって順次検索する場合と比べて、短時間・低負荷処理で、より精度よく、より効率的に目的の文字列を画像から検知することができる。

さらに、本発明の文字列検知装置によれば、文字ごとの特徴量を用いて１字１字照合するため、複数文字の文字列画像や特徴量をサンプルとして保存しておく必要がない。つまり、横書き、縦書きの両方のサンプルを容易しておく必要がないため、文字情報記憶部４２における省メモリ化を実現することが可能となる。また、処理時間も従来の構成に比べて有利である。

〔変形例〕
なお、本発明の文字列検知装置は、複雑背景下での指定キーワード文字列の検知だけでなく、検知した指定文字列に続く、任意の文字列の認識にも応用することができる。例えば、テレビ番組あるいはＣＭ中からのＵＲＬ等の検知および認識する技術への応用が考えられる。具体的には、ＵＲＬに一般に含まれる「ｈｔｔｐ」または「ｗｗｗ」などの文字列を指定のキーワード文字列として、文字列検知装置に登録する。文字列検知装置が本発明の文字列検知処理を実行して、上記キーワード文字列を検知できた場合に、続いて、「ｈｔｔｐ」または「ｗｗｗ」に続く文字列を認識する文字認識機能を備えるように文字列検知装置を構成する。このとき、文字列検知処理において文字の色情報を取得できているため、文字認識処理を実行する際には、「ｈｔｔｐ」または「ｗｗｗ」に続く画像領域から、この色情報およびこれに類似する色情報を持つ画素のみを抽出して、文字認識処理を実行することができる。つまり、文字認識処理時には、文字色は既知であり、その上、認識すべき対象領域は、ごく一部に絞られている状態である。このように、本発明の文字列検知装置は、複雑背景下での文字の検知精度および検知効率を向上させるだけでなく、文字の認識精度および認識効率も向上させることができる。

なお、上述の実施形態では、二次検知部３０は、指定キーワードの文字ごとに指定された優先順位の順に、目的の文字を検知していく構成であった。しかしながら、本発明の文字列検知装置の構成はこれに限定されない。例えば、二次検知部３０は、優先順位が１番目の目的文字を画像から検知すると、次に検索する文字を、指定キーワードにおける文字の並びにおいて、検知済みの文字の両隣の文字とし、その両隣の二つの文字のうち、優先順位が上の文字から検索していくという構成であってもよい。文字の並びにおいて検知済みの文字の両隣の文字は、上記画像において、検知済みの文字に最も近い位置に配置されていると考えられる。よって、上記画像における検知済みの文字の位置を基準にして、これらの文字を優先的に検索することで、早い段階で、より正しく、目的の文字列の有無を検知することができる。さらに、両隣のうち、優先順位が上の（すなわち、誤検知され難い）文字から優先的に検索するので、精度はより向上する。

なお、上述の実施形態では、文字同士を照合するにあたり、文字のエッジ特徴を利用する構成について述べたが、本発明の文字列検知装置の構成はこれに限定されない。例えば、本発明の文字列検知装置の一次検知部２３および二次検知部３０は、テンプレートマッチングの技術、または、文字の円形度、文字の線の長さなどの特徴量を用いて文字の照合を行ってもよい。

また、簡易でかつ高速な文字検知を実施する一次検知部２３は、優先順位が１番の候補文字を検知する際、対象となる静止画全体の解像度を下げて照合することが好ましい。解像度を下げて、すなわち、複数画素を１画素にして、テンプレートマッチング（または特徴量の照合）を行えば、さらに低負荷処理にて、さらに高速に判定を実施することが可能となる。

本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

最後に、ＤＶＤプレーヤー１（文字列検知装置）の各ブロック、特に、制御部１０に属する各部（２０〜３１）は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。

すなわち、文字列検知装置は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（central processing unit）、上記プログラムを格納したＲＯＭ（read only memory）、上記プログラムを展開するＲＡＭ（random access memory）、上記プログラムおよび各種データを格納するメモリ等の記憶装置（記録媒体）などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである文字列検知装置の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読み取り可能に記録した記録媒体を、上記文字列検知装置に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー（登録商標）ディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、文字列検知装置を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（virtual private network）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。

本発明の文字列検知装置は、画像から指定の文字を短時間かつ低負荷処理で検知することができるので、画像を処理する、デジタルビデオレコーダー／プレーヤー、ブルーレイディスクレコーダー／プレーヤー、デジタルビデオカメラ、デジタルカメラ、デジタルテレビ、パーソナルコンピュータ（ＰＣ）、携帯電話、プリンタ、スキャナ、複合機、ファクシミリ装置など、静止画または動画、あるいは、その両方を処理することが可能な各種画像処理装置に適用することが可能である。本発明の文字列検知装置は、負荷の大きい動画処理においてもリアルタイム性を損なうことなく短時間で文字列を検知することができるので、本発明の文字列検知装置を、動画処理装置または動画再生装置に適用することは特にメリットが大きい。

１ＤＶＤプレーヤー（文字列検知装置／画像処理装置）
１０制御部
１１記憶部
１２表示部
１３操作部
１４一時記憶部
１５バス
２０動画再生部
２１静止画生成部
２２特徴量抽出部（特徴量抽出手段）
２３一次検知部（低次検知手段）
２４候補領域特定部（候補領域特定手段）
２５画素プロット部（画素プロット手段）
２６クラスタリング部（クラスタリング手段）
２７代表色決定部（代表色決定手段）
２８クラスタ選択部（クラスタ選択手段）
２９クリッピング部（クリッピング手段）
３０二次検知部（文字列検知手段）
３１文字列判定部（文字列判定手段）
４０画像記憶部
４１キーワード記憶部
４２文字情報記憶部
７０トリミング画像
７１トリミングデータ
７２マップ情報
７３クリッピングデータ
８０候補文字位置
８１候補文字位置
８５クラスタ
８６クラスタ
８７クラスタ
９０候補領域
９１候補領域
９２候補領域

そこで、二次検知部３０は、「エ」を検索する対象領域を、上記検知済文字「ス」の近隣領域に限定する。例えば、図１４に示すように、「ス」の左側の所定の大きさの領域に限定する（破線枠内網点領域）。所定の大きさとは、例えば、図１４に示すように、検知済文字の領域のサイズをｈ×ｈとすると、その左隣の３ｈ×３ｈの大きさの領域に限定することなどが考えられる。

ここで、指定キーワードの文字列が動画内の検知対象フレームにおいて検知された場合（Ｓ１１０においてＹＥＳ）、文字列判定部３１は、キーワードの検知に成功した旨の成功メッセージと、そのキーワードが検知されたフレームに対応する検知再生位置とを表示部１２に出力する（Ｓ１１３）。

一方、検知対象フレームにおいて指定キーワードの文字列が検知されなかった場合には（Ｓ１１０においてＮＯ）、動画再生部２０は、動画の再生をさらに進める（Ｓ１１１）。動画再生部２０は、再生位置ｔが、動画の最終フレームに到達しない限りは動画の再生を進めることができる（Ｓ１１２においてＮＯ）。そして、次の検知対象フレームに到達すれば（Ｓ１０６においてＹＥＳ）、その検知対象フレームについて、上述の文字列検知処理を繰り返す。

そして、文字列が検知されないままに、最後に、再生位置ｔが最終フレームに到達し、動画の再生が終了した場合には（Ｓ１１０においてＮＯ、Ｓ１１２においてＹＥＳ）、文字列判定部３１は、文字列検知処理の結果を出力する（Ｓ１１４）。具体的には、動画中に指定キーワード「エース」が１回も検知されなかった場合、文字列判定部３１は、検知に失敗した旨の失敗メッセージを表示部１２に出力する。

Claims

１以上の文字からなる文字列を画像から検知する文字列検知装置において、
上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも１つ定義するクラスタリング手段と、
上記画像を、上記クラスタリング手段によって定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピング手段と、
上記クリッピング手段によって生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知手段とを備えていることを特徴とする文字列検知装置。
上記画像を構成する各画素が有する色情報に基づいて、各画素を、色空間座標系にプロットする画素プロット手段を備え、
上記クラスタリング手段は、
上記画素プロット手段によって上記色空間座標系にプロットされた画素間の距離が第１閾値より小さい画素群からなるクラスタを上記色空間座標系において定義することを特徴とする請求項１に記載の文字列検知装置。
上記クラスタリング手段によって定義されたクラスタごとに、該クラスタの代表色を決定する代表色決定手段を備え、
上記代表色決定手段は、
上記クラスタに属する画素群の色情報の平均値を該クラスタの代表色として決定し、
上記クリッピング手段は、
上記色空間座標系における、上記代表色からの距離が第２閾値より小さい画素群の領域と、その他の画素群の領域とに分割することを特徴とする請求項２に記載の文字列検知装置。
上記クラスタリング手段が定義した複数のクラスタの中から、上記クリッピング手段および上記文字列検知手段が処理すべきクラスタを選択するクラスタ選択手段を備え、
上記クラスタ選択手段は、
未処理のクラスタのうち、上記色空間座標系におけるクラスタ内の画素群の分散が最も小さいクラスタを、処理すべきクラスタとして選択することを特徴とする請求項２または３に記載の文字列検知装置。
上記画像から、上記検知対象文字列の少なくとも１文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知手段を備え、
上記クラスタリング手段は、
上記低次検知手段によって上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義することを特徴とする請求項１から４までのいずれか１項に記載の文字列検知装置。
上記低次検知手段は、
元の画像から解像度を下げた画像と、文字ごとに予め用意されている、文字の特徴を示す低次モデルとを照合することにより、上記検知対象文字列の文字を検知し、
上記低次モデルは、
上記文字列検知手段が上記クリッピング画像との照合に用いる高次モデルよりも、有する文字の特徴数が少ないことを特徴とする請求項５に記載の文字列検知装置。
上記画像において、上記低次検知手段によって検知された文字を含むように限定された候補領域を特定する候補領域特定手段を備え、
上記クラスタリング手段は、
上記候補領域を構成する各画素が有する色情報に基づいて、クラスタを少なくとも１つ定義することを特徴とする請求項５または６に記載の文字列検知装置。
上記文字列検知手段は、
上記検知対象文字列に含まれる１文字を上記画像から検知すると、次に検知すべき文字を、上記検知対象文字列における文字の並びにおいて、検知済みの文字に最も近い未検知の文字の中から決定することを特徴とする請求項１から７までのいずれか１項に記載の文字列検知装置。
上記文字列検知手段は、
上記検知済みの文字が、上記検知対象文字列における文字の並びにおいてｎ番目の文字であって、
次に検知すべき文字が（ｎ＋１）番目の文字である場合に、検知対象領域を、上記検知済みの文字の右側および下側の領域に限定し、
次に検知すべき文字が（ｎ−１）番目の文字である場合に、検知対象領域を、上記検知済みの文字の左側および上側に限定することを特徴とする請求項８に記載の文字列検知装置。
請求項１から９までのいずれか１項に記載の文字列検知装置を備えていることを特徴とする画像処理装置。
１以上の文字からなる文字列を画像から検知する文字列検知方法において、
上記画像を構成する各画素が有する色情報に基づいて、類似色を有する一定数以上の画素群からなるクラスタを少なくとも１つ定義するクラスタリングステップと、
上記画像を、上記クラスタリングステップにて定義された上記クラスタに属する画素群の領域と、その他の画素群の領域とに分割して、上記画像から上記その他の画素群の領域が排除されたクリッピング画像を生成するクリッピングステップと、
上記クリッピングステップにて生成されたクリッピング画像から、検知すべき文字列である検知対象文字列の各文字を検知することにより、該検知対象文字列を検知する文字列検知ステップとを含むことを特徴とする文字列検知方法。
上記クラスタリングステップに先行して、上記画像から、上記検知対象文字列の少なくとも１文字が検知されるか否かに基づいて、上記画像に上記検知対象文字列が含まれている可能性の有無を判断する低次検知ステップを含み、
上記クラスタリングステップは、
上記低次検知ステップにて上記画像に上記検知対象文字列が含まれている可能性が有ると判断された場合に、上記画像についてクラスタを定義するステップであることを特徴とする請求項１１に記載の文字列検知方法。
請求項１１または１２に記載の各ステップを、コンピュータに実行させるための制御プログラム。
請求項１３に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。