以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明を適用した情報処理装置1の構成例を示すブロック図である。
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラム、または、記憶部17からRAM(Random Access Memory)13にロードされたプログラムに従って各種の処理を実行する。RAM13にはまた、CPU11が各種の処理を実行する上において必要なデータなどが適宜記憶される。
CPU11、ROM12、およびRAM13は、バス14を介して相互に接続される。このバス14にはまた、入出力インタフェース15も接続される。
入出力インタフェース15に接続されるコンテンツ受信部16は、図示せぬアンテナから供給されてくる信号を受信し、本放送であるテレビジョン番組と、CMを含む放送コンテンツを取得する。アンテナにおいては、地上アナログ放送、地上ディジタル放送、BS(Broadcasting Satellite)/CS(Communications Satellite)ディジタル放送などの各種の放送波が受信される。コンテンツ受信部16により取得された放送コンテンツは、例えば、入出力インタフェース15を介して記憶部17に供給され、記憶される。
入出力インタフェース15には、記憶部17、通信部18も接続される。
記憶部17は、ハードディスクなどより構成され、コンテンツ受信部16から供給されてきた放送コンテンツなどを記憶する。記憶部17に記憶された放送コンテンツは、適宜、CPU11により読み出され、放送コンテンツ全体からCMが切り出される。ここで、「切り出し」とは、放送コンテンツ全体のうち、テレビジョン番組部分とCM部分とを区別して扱うことができるようにすることをいう。
通信部18は、ネットワークを介しての通信処理を行う。例えば、通信部18は、放送コンテンツ全体からCMを切り出すときにCPU11により参照されるファイル(後述するパターンファイル)を、ネットワークに接続されるサーバからダウンロードする処理などを行う。
入出力インタフェース15にはまた、必要に応じてドライブ19が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア20が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部17にインストールされる。また、コンテンツ受信部16により受信されたものではなく、リムーバブルメディア20に記憶されている放送コンテンツが情報処理装置1において処理される場合、ドライブ19により読み出された放送コンテンツは、入出力インタフェース15を介して記憶部17に供給され、記憶される。
このような構成を有する情報処理装置1においては、上述したように、放送コンテンツ全体からCMが切り出され、その切り出し位置(CMの位置)を表すメタデータが放送コンテンツに付加される。CMの切り出しは、CM毎に用意されるパターンファイルを用いて行われる。
パターンファイルには、例えば、ある商品のCMの終わり付近(CM全体の時間が15秒であるとすると、例えば、最後の1秒間付近)に、その商品のメーカである会社のロゴを表示する1フレームの画像が含まれる場合、その画像により表示されるロゴのイメージ(画像)を指定する情報と、ロゴを表示する1フレームの画像の位置を基準としたCMの開始位置と終了位置が記述されている。情報処理装置1においては、その記述に基づいてCMの開始位置と終了位置が特定され、CMが切り出される。CMの開始位置と終了位置の間の範囲が切り出しの範囲となる。
具体的には、例えば、図2に示すように、会社のロゴである「SOMY」を表示する1フレームの画像を含むCM(CMを含む放送コンテンツ)を処理対象としており、このCMのパターンファイルが用意されている場合、情報処理装置1においては、処理対象の放送コンテンツを構成する画像が1フレームずつ、例えば、表示順に注目され、注目している画像に、パターンファイルにより指定される図2のロゴが含まれるか否かが画像マッチングにより判断される。
マッチングにより、「SOMY」のロゴを表示する1フレームの画像が検出された場合、このCMのパターンファイルには「SOMY」のロゴを表示する1フレームの画像の位置を基準としたCMの開始位置、終了位置が記述されているから、検出された1フレームの画像の位置を基準として、CMの開始位置、終了位置がパターンファイルの記述に基づいて特定される。
図3は、CMの開始位置、終了位置の特定の例を示す図である。
図3に示すように、放送コンテンツを構成する画像が1フレームずつ表示順に注目され、注目された1フレームの画像と、パターンファイルにより指定されるロゴイメージとのマッチングの結果、図2の「SOMY」を表示する1フレームの画像(以下、ロゴ画像という)が位置PLogoで検出された場合、パターンファイルには位置PLogoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置PLogoを基準とした、このCMの開始位置が記述されているから、情報処理装置1においてはCMの開始位置が位置PSであるとして特定される。
同様に、パターンファイルには位置PLogoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置PLogoを基準とした、このCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
以上のことから、1つのパターンファイルは、それにより開始位置、終了位置等が表される1つのCMを切り出すためのヒントを情報処理装置1に与えるものであるといえる。
生成されたメタデータは、例えば、放送コンテンツを再生する場合にCMをスキップするときや、CMを除いて、テレビジョン番組(本放送の部分)だけをDVD(Digital Versatile Disc)などのリムーバブルメディア20に記憶させるときなどに用いられる。
例えば、図3のようにCMの開始位置と終了位置が特定された場合、位置PSから位置PEまでは再生されずにスキップされたり、位置PSから位置PEまでを除いた放送コンテンツ(位置PSから時間的に前の部分、位置PEから時間的に後ろの部分)がリムーバブルメディア20に記憶されることになる。
このように、情報処理装置1は、ロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、無音区間やシーンチェンジを検出して、それらが検出された位置から15秒間、或いは30秒間をCM部分として扱うといったように、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合などに較べて、確実に、CMの位置を特定することができる。
すなわち、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合、無音区間やシーンチェンジがCM中に存在するときには放送コンテンツ中のテレビジョン番組の部分も含めてCMの位置として誤って特定してしまうことがあるが、そのような誤った特定を防止することができる。
CMの位置を特定する情報処理装置1の一連の処理についてはフローチャートを参照して後述する。
図4は、情報処理装置1の機能構成例を示すブロック図である。図4の各機能部の少なくとも一部は、図1のCPU11により所定のプログラムが実行されることによって実現される。
録画制御部31は、コンテンツ受信部16を制御して所定の放送コンテンツを選択し、選択した放送コンテンツ(画像と音声)を記憶部17のコンテンツ記憶部51に記憶させる。
画像認識部32は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの画像(画像シーケンス)を取得し、注目する1フレームの画像に、制御部33から供給されてきたパターンファイルにより指定されるロゴイメージが含まれるか否かをマッチングにより判断する。例えば、画像認識部32によるマッチングは、マッチングの精度を高めるため、また、処理負担を軽減させるため、注目する1フレームの画像のうちの所定の範囲がパターンファイルの記述に基づいて切り出され、切り出された部分の画像にマスク処理を施して得られた結果とロゴイメージに基づいて行われる。
画像認識部32により、注目する1フレームの画像に、パターンファイルにより指定されるロゴイメージが含まれると判断された場合、すなわち、ロゴ画像が検出された場合、ロゴ画像の位置を表す情報がメタデータ生成部42に出力される。
なお、画像認識部32に供給される画像は、コンテンツ記憶部51に一旦記憶され、所定のタイミングで読み出されたものであってもよい。
制御部33は、パターンファイル選択部41とメタデータ生成部42からなる。
パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つずつ選択し、選択したパターンファイルを画像認識部32に出力する。
メタデータ生成部42は、画像認識部32によりロゴ画像が検出されたとき、ロゴ画像の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述(ロゴ画像の検出に用いられたパターンファイルの記述)に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。メタデータ生成部42により生成されたメタデータは、外部のアプリケーションに供給され、放送コンテンツと対応付けて記憶されたり、放送コンテンツの再生(CMのスキップ再生)、放送コンテンツの記録(番組部分のみの記録)等に用いられる。
記憶部17はコンテンツ記憶部51とパターンファイル記憶部52からなる。
コンテンツ記憶部51は、録画制御部31から供給されてきた放送コンテンツを記憶し、パターンファイル記憶部52は、CM毎のパターンファイルを記憶する。なお、説明を簡単にするため、以下の説明においては、全てのCMには1つのロゴ画像が含まれるものとする。
図5は、パターンファイルの例を示す図である。パターンファイルは、例えば、XML(eXtensible Markup Language)により記述される。
パターンファイルには、例えば、「CMタイトル」、「切り出し場所」、「ロゴイメージ」、「マスク」、「CM開始位置」、「CM終了位置」が記述される。
「CMタイトル」は、このパターンファイルにより開始位置、終了位置等が表されるCMのタイトルを表す。例えば、図2の画像を含むCMのパターンファイルには、「SOMY CM」などのようなタイトルが記述される。
「切り出し場所」は、画像認識部32によるマッチングのときに、注目する1フレームの画像のうちの切り出す場所(範囲)を指定する情報である。例えば、図2の画像を含むCMのパターンファイルにおいては、図6の点線で示すように、「SOMY」のロゴを含む範囲が切り出す場所として指定される。
「ロゴイメージ」は、ロゴイメージを指定する情報である。例えば、図2の画像を含むCMのパターンファイルには、「SOMY」のイメージを格納するファイル名などが記述される。
「マスク」は、「切り出し場所」に従って切り出した場所の画像のうち、ロゴ以外の部分を除去するためのマスク画像を指定する情報である。例えば、図6の点線で示す範囲が切り出された場合、切り出された範囲のうちの「SOMY」のロゴの背景の部分がマスク画像により除去され、残ったロゴの部分とロゴイメージのマッチングが行われる。
「CM開始位置」は、ロゴ画像の位置を基準としたCMの開始位置を表す情報であり、「CM終了位置」は、ロゴ画像の位置を基準としたCMの終了位置を表す情報である。CMの開始位置と終了位置は、例えば、フレーム数、時刻などで表される。
このような記述を含むパターンファイルがCM毎に用意され、パターンファイル記憶部52に記憶される。
次に、情報処理装置1の動作についてフローチャートを参照して説明する。
始めに、図7のフローチャートを参照して、メタデータを生成する情報処理装置1の一連の処理について説明する。
ステップS1において、情報処理装置1はCM認識処理を行う。この処理は、処理対象とする放送コンテンツの中から、そのとき選択しているパターンファイルに記述されているロゴイメージを含むロゴ画像を検出し、ロゴ画像を検出した場合、CMの認識に成功したものとする処理である。CM認識処理の詳細については図8のフローチャートを参照して後述する。
ステップS2において、情報処理装置1は、CMの認識に成功したか否かを判定し、CMの認識に成功したと判定した場合、ステップS3に進む。例えば、そのとき選択しているパターンファイルにより指定されているロゴイメージを含むロゴ画像が検出された場合、CMの認識に成功したと判定される。
ステップS3において、情報処理装置1はCM切り出し処理を行う。この処理は、ロゴ画像の位置を基準として、パターンファイルの記述から特定されるCMの開始位置、終了位置を表すメタデータを生成する処理である。CM切り出し処理の詳細については図9のフローチャートを参照して後述する。
ステップS3においてCM切り出し処理が終了された場合、または、ステップS2においてCMの認識に成功していないと判定された場合、処理は終了される。
このような処理が繰り返し行われ、処理対象とする1つの放送コンテンツに含まれるそれぞれのCMの開始位置、終了位置を表すメタデータが生成される。
次に、図8のフローチャートを参照して、図7のステップS1において行われるCM認識処理について説明する。この処理は、例えば、1フレームの画像が入力される毎に行われる。
ステップS11において、制御部33のパターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを画像認識部32に出力する。
ステップS12において、画像認識部32は、入力されてきた画像(テレビジョン番組の画像、CMの画像のいずれか)のうちの1フレームの画像に注目し、パターンファイル選択部41から供給されてきたパターンファイルの「切り出し場所」(図5)に基づいて、注目する1フレームの画像のうちの所定の範囲を切り出す。
ステップS13において、画像認識部32は、ステップS12で切り出した一部の画像に対して、パターンファイルの「マスク」により指定されるマスク画像を用いてマスク処理を施す。
ステップS14において、画像認識部32は、ステップS13のマスク処理により得られた結果と、パターンファイルの「ロゴイメージ」により指定されるロゴイメージとのマッチングを行い、ステップS15に進み、マッチするか否か、すなわち、注目する1フレームの画像が、いま選択されているパターンファイルによりCMの開始位置、終了位置が表されるCMのロゴ画像であるか否かを判定する。
ステップS15において、画像認識部32は、マスク処理により得られた結果とロゴイメージがマッチしないと判定した場合、ステップS16に進む。
ステップS16において、パターンファイル選択部41は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップS11に戻り、それ以降の処理を繰り返す。
パターンファイル選択部41は、ステップS16において、全てのパターンファイルを選択したと判定した場合、図7のステップS2以降の処理を行う。
注目する1フレームの画像がいずれのパターンファイルにより指定されるロゴイメージも含まない場合、そのことは、注目する1フレームの画像が、テレビジョン番組の画像であるか、CMの画像のうちのロゴ画像以外の画像であることを表す。この場合、注目している画像を基準として、パターンファイルの記述からCMの開始位置、終了位置を特定することができないから、図7のステップS2において、CMの認識に失敗したと判定され、処理は終了される。
一方、ステップS15において、画像認識部32は、マスク処理により得られた結果とロゴイメージがマッチすると判定した場合、ステップS17に進み、CM(いま選択されているパターンファイルにより開始位置、終了位置が特定されるCM)の認識に成功したと判断して、ロゴ画像を検出したことをメタデータ生成部42に通知する。
その後、処理は図7のステップS2に進み、ステップS2においてCMが認識されたと判定され、ステップS3のCM切り出し処理が行われる。
以上のように、パターンファイルの「切り出し場所」により、ロゴイメージとのマッチングを行う範囲が絞られるため、注目する1フレームの画像全体と、図2に示すようなロゴ画像全体をマッチングする場合に較べてマッチングの精度を高めることができる。また、パターンファイルの「ロゴイメージ」によりロゴの色なども指定されるため、単に、ロゴの形状、大きさ等が指定され、注目する画像に、指定される形状、大きさのロゴが含まれるか否かをマッチングにより判断する場合に較べてマッチングの精度を高めることができる。
次に、図9のフローチャートを参照して、図7のステップS3において行われるCM切り出し処理について説明する。
ステップS31において、制御部33のメタデータ生成部42は、画像認識部32により検出されたロゴ画像の位置を基準として、いま選択しているパターンファイル(図8のステップS11で選択されたパターンファイル)の「CM開始位置」、「CM終了位置」の記述に基づいてCMの開始位置、終了位置を特定する。
ステップS32において、メタデータ生成部42は、ステップS31で特定したCMの開始位置、終了位置を表すメタデータを生成し、生成したメタデータを外部のアプリケーションに出力する。その後、処理は図7のステップS3に戻り、メタデータ生成処理が終了される。
以上のように、CMに含まれる1つのロゴ画像を検出し、そのロゴ画像の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置を特定することにより、情報処理装置1は、ロゴ画像の位置を正確に検出することができる限り、確実に、かつ、フレーム単位などの非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。
以上においては、画像のマッチングにより、CMの開始位置、終了位置を特定するための基準となる位置(ロゴ画像の位置)が検出され、検出された位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるとしたが、音声のマッチングにより、パターンファイルで指定される、CM中で流れる所定の期間の音声の位置が検出され、検出された音声の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるようにしてもよい。
この場合、パターンファイルには、放送コンテンツの音声とマッチングされる、例えば、「ピンポーン」などのCMの所定のタイミングで流れる特徴的な効果音、或いは、CM全体で流れるバックグランドミュージックを指定する音声の情報と、その音声の位置を基準とした、CMの開始位置、終了位置を表す情報が記述される。以下、適宜、CMの開始位置、終了位置を特定するための基準となる音声を基準音という。
この場合、図10に示すように、情報処理装置1においては、放送コンテンツの所定の期間毎の音声と、パターンファイルにより指定される基準音(図10の例の場合、「ピンポーン」)とのマッチングが繰り返し行われる。マッチングにより基準音が位置PSoundで検出された場合、パターンファイルには位置PSoundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準とした、このCMの開始位置が記述されているから、CMの開始位置が位置PSであるとして特定される。
同様に、パターンファイルには位置PSoundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置1においてはCMの終了位置が位置PEであるとして特定される。
このように、音声に基づいてCMの開始位置、終了位置を特定するようにすることも可能である。
図11は、情報処理装置1の他の機能構成例を示すブロック図である。
図11の構成は、音声認識部61が追加されている点を除いて図4の構成と同じである。重複する説明については適宜省略する。
音声認識部61は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの音声を取得し、取得した音声のうちの所定の期間毎の音声に注目して、注目した音声と、パターンファイル選択部41から供給されてきたパターンファイルにより指定される基準音がマッチするか否かを判断する。
音声認識部61により、注目された期間の音声と基準音がマッチすると判断された場合、すなわち、基準音が検出された場合、基準音の位置を表す情報がメタデータ生成部42に出力される。
パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つずつ選択し、選択したパターンファイルを音声認識部61に出力する。パターンファイル記憶部52には、CM毎に、それぞれのCMの基準音を指定する情報と、基準音の位置を基準としたCMの開始位置、終了位置を記述するパターンファイルが記憶されている。
メタデータ生成部42は、音声認識部61により基準音が検出されたとき、基準音の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。
ここで、図12のフローチャートを参照して、図11の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
ステップS41において、制御部33のパターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを音声認識部61に出力する。
ステップS42において、音声認識部61は、入力された音声(テレビジョン番組の音声、CMの音声のいずれか)のうちの所定の期間の音声に注目し、注目する音声と、パターンファイルにより指定される基準音のマッチングを行う。
音声認識部61は、ステップS43において、注目する音声と基準音がマッチするか否かを判定し、マッチしないと判定した場合、ステップS44に進む。
ステップS44において、パターンファイル選択部41は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップS41に戻り、それ以降の処理を繰り返す。
パターンファイル選択部41は、ステップS44において、全てのパターンファイルを選択したと判定した場合、図7のステップS2以降の処理を行う。
一方、ステップS43において、音声認識部61は、注目する音声と、パターンファイルにより指定される基準音がマッチすると判定した場合、ステップS45に進み、CMの認識に成功したと判断して、基準音を検出したことをメタデータ生成部42に通知する。
その後、処理は図7のステップS2に進み、CMの認識に成功したと判定された後、ステップS3のCM切り出し処理が行われる。ステップS3においては、検出された基準音の位置を基準として、パターンファイルの記述に基づいてCMの開始位置、終了位置が特定され、それらを表すメタデータが生成される。
以上のように、画像によるマッチングだけでなく、パターンファイルで指定されるCM中の音声をマッチングにより検出することによっても、情報処理装置1は、基準音の位置を正確に検出することができる限り、確実に、かつ、非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。
以上においては、例えば、放送コンテンツの全ての画像に対してロゴイメージとのマッチングが行われるとしたが、CMの始まりと終わりにはシーンチェンジが必ず存在することからCMのマッチングの対象の近隣にはシーンチェンジが存在することを利用し、パターンファイルに、シーンチェンジが検出されてから何フレーム後のフレーム、何秒後のフレームというように、マッチングの対象とする画像を指定する情報も記述されている場合、情報処理装置1は、パターンファイルで指定される画像に対してのみ、ロゴイメージとのマッチングを行えばよいことになる。これにより、全ての画像に対してマッチングを行う場合に較べて処理負担が軽減される。
図13は、CMの開始位置、終了位置の特定の他の例を示す図である。
この場合、情報処理装置1においては、例えば、放送コンテンツの先頭から順にシーンチェンジの検出が行われる。
図13に示すように、シーンチェンジが位置PChangeで検出された場合、パターンファイルには、位置PChangeを基準として、何フレーム後または何秒後がロゴ画像の位置であるというように、シーンチェンジの位置PChangeを基準とした、このCMのロゴ画像の位置が記述されているから、情報処理装置1においては、パターンファイルにより指定される位置の画像を対象として、ロゴイメージ(パターンファイルにより指定されるロゴイメージ)とのマッチングが行われる。
例えば、シーンチェンジの位置PChangeを基準としてパターンファイルにより指定される位置PLogoの画像が、図13に示すようにロゴ画像であるとして検出された場合、上述した全ての画像をマッチングの対象とする場合と同様に、パターンファイルには位置PLogoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置を基準とした、このCMの開始位置が記述されているから、情報処理装置1においては、CMの開始位置が位置PS(図13の例ではPS=PChange)であるとして特定される。
また、パターンファイルには位置PLogoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置を基準とした、このCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
このように、情報処理装置1は、シーンチェンジを検出した位置を基準として、パターンファイルで指定される位置の画像のみをマッチングの対象(ロゴ画像の検出対象)とするだけであるから、マッチングの対象を絞ることができ、全ての画像に対してマッチングを行う較べて、処理負担を軽減することができるとともに、マッチングの精度を高めることができる。
また、情報処理装置1は、マッチングによりロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、上述した、全ての画像を対象としてマッチングを行う場合と同様に、確実に、CMの位置を特定することができる。
図14は、以上のように、シーンチェンジの位置を基準として、マッチングの対象とする画像が指定されるパターンファイルの例を示す図である。
図14のパターンファイルは、「ロゴ画像の位置」が追加されている点を除いて、図5のパターンファイルと同じである。この「ロゴ画像の位置」は、シーンチェンジの位置を基準としたロゴ画像の位置を表す情報である。
なお、「ロゴ画像の位置」は、検出されたシーンチェンジの位置を基準として、さらに、所定の数だけ時間的に後のシーンチェンジの何フレーム後といったように、シーンチェンジの数を含めてロゴ画像の位置を指定するようにすることも可能である。当然、シーンチェンジの位置を基準として、何フレーム前または何秒前がロゴ画像の位置であるというように、シーンチェンジの位置の前の位置を指定するようにすることも可能である。
また、シーンチェンジの位置を基準としてマッチングの対象とする画像が指定される場合、「CM開始位置」、「CM終了位置」は、ロゴ画像の位置(例えば、図13の位置PLogo)を基準として記述するのではなく、検出されたシーンチェンジの位置(例えば、図13の位置PChange)を基準として、それぞれの位置を記述するようにしてもよい。
図15は、情報処理装置1の機能構成例を示すブロック図である。
図15の構成は、シーンチェンジ検出部71が追加されている点を除いて図4の構成と同じである。重複する説明については適宜省略する。
シーンチェンジ検出部71は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの画像(画像シーケンス)を取得し、シーンチェンジを検出する。シーンチェンジの検出は、例えば、時間的に連続する2フレームの画像に注目し、それらの各画素の画素値の変化が所定の閾値より大きいか否かに基づいて行われる。シーンチェンジ検出部71は、シーンチェンジを検出したとき、シーンチェンジを検出したことを画像認識部32と制御部33のパターンファイル選択部41に通知する。画像認識部32に対する通知にはシーンチェンジの位置を表す情報が含まれる。
画像認識部32は、シーンチェンジ検出部71によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、特定した画像がロゴ画像であるか否かを判断する。画像認識部32による判断結果はメタデータ生成部42に通知される。
次に、図16のフローチャートを参照して、図15の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
画像が入力されてきたとき、ステップS61において、シーンチェンジ検出部71は、シーンチェンジの検出を行う。
シーンチェンジ検出部71は、ステップS62において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップS61に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで画像認識部32等による処理が行われないことになり、ロゴ画像の検出に要する処理負担が軽減される。
ステップS62において、シーンチェンジ検出部71は、シーンチェンジを検出したと判定した場合、そのことを画像認識部32とパターンファイル選択部41に通知する。
ステップS63において、パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを画像認識部32に出力する。
ステップS64において、画像認識部32は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、ステップS65に進む。
ステップS65以降の処理は、図8のステップS12以降の処理と同様である。すなわち、ステップS65において、ステップS64で特定された画像の一部が切り出され、ステップS66に進み、その切り出された一部の画像に対してマスク処理が施される。
ステップS67において、マスク処理の結果と、パターンファイルで指定されるロゴイメージとのマッチングが行われ、ステップS68に進み、それらがマッチするか否かが判定される。
ステップS68において、マスク処理の結果とロゴイメージがマッチしないと判定された場合、ステップS69に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップS63以降の処理が繰り返される。なお、検出されたシーンチェンジが、いま選択されているパターンファイルにより開始位置、終了位置が表されるCMのロゴ画像の位置を特定する基準となるものではない場合(図13の例の場合、位置PChangeで発生したものではない場合)、選択されているパターンファイルの記述からステップS64において特定されるロゴ認識の対象とする画像はロゴ画像ではないから、この場合、マスク処理の結果とロゴイメージがマッチしないと判定されることになる。
一方、ステップS68において、マスク処理の結果とロゴイメージがマッチすると判定された場合、ステップS70に進み、CMの認識が成功したと判断される。その後、図7のステップS2以降の処理が行われる。
以上においては、シーンチェンジの位置を基準として、マッチングの対象とする画像がパターンファイルにより指定されるとしたが、基準音のマッチングの対象とする音声の期間が、シーンチェンジの位置を基準としてパターンファイルにより指定されるようにしてもよい。
図17は、CMの開始位置、終了位置の特定の他の例を示す図である。
図17に示すように、シーンチェンジが位置PChangeで検出された場合、パターンファイルには、位置PChangeを基準として、何秒後の所定の期間の音声が基準音であるというように、シーンチェンジの位置PChangeを基準とした、このCMの基準音の位置が記述されているから、情報処理装置1においては、パターンファイルにより指定される期間の音声を対象として、基準音(パターンファイルにより指定される基準音)とのマッチングが行われる。
例えば、シーンチェンジの位置PChangeを基準としてパターンファイルにより指定される位置PSoundの期間の音声が、パターンファイルで指定される基準音(図17の例の場合「ピンポーン」)である場合、パターンファイルには位置PSoundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準としたCMの開始位置が記述されているから、情報処理装置1においては、CMの開始位置が位置PS(図17の例ではPS=PChange)であるとして特定される。
また、パターンファイルには位置PSoundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。なお、この場合も、シーンチェンジの位置PChangeを基準としてCMの開始位置、終了位置がパターンファイルに記述されるようにしてもよい。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
図18は、情報処理装置1の他の機能構成例を示すブロック図である。
図18の構成は、音声認識部61が追加されている点を除いて図15の構成と同じである。重複する説明については適宜省略する。
音声認識部61は、シーンチェンジ検出部71によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、特定した期間の音声が基準音であるか否かを判断する。音声認識部61による判断結果はメタデータ生成部42に通知される。
次に、図19のフローチャートを参照して、図18の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
音声認識部61に対して音声の入力があった場合、ステップS81において、シーンチェンジ検出部71は、供給されてくる画像に基づいてシーンチェンジの検出を行う。
シーンチェンジ検出部71は、ステップS82において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップS81に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで音声認識部61等による処理が行われないことになり、基準音の検出に要する処理負担が軽減される。
ステップS82において、シーンチェンジ検出部71は、シーンチェンジを検出したと判定した場合、そのことを音声認識部61とパターンファイル選択部41に通知し、ステップS83に進む。
ステップS83において、パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを音声認識部61に出力する。
ステップS84において、音声認識部61は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、ステップS85に進む。
ステップS85以降の処理は、図12のステップS42以降の処理と同様である。すなわち、ステップS85において、ステップS84で特定された期間の音声と、パターンファイルで指定される基準音とのマッチングが行われ、ステップS86に進み、それらがマッチするか否かが判定される。
ステップS86において、ステップS84で特定された期間の音声と、基準音がマッチしないと判定された場合、ステップS87に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップS83以降の処理が繰り返される。
一方、ステップS86において、ステップS84で特定された期間の音声と、基準音がマッチすると判定された場合、ステップS88に進み、CMの認識が成功したと判断される。その後、図7のステップS2以降の処理が行われる。
以上のように、マッチングの対象とする画像、音声の期間が指定されることによって、情報処理装置1は、全ての画像、全ての期間の音声を対象としてマッチングを行う場合に較べて処理負担を軽減することができる。また、マッチングの対象が絞られるから、マッチングの精度を高めることもできる。
なお、以上においては、マッチングの対象とする位置を指定する基準となるものがシーンチェンジである場合について説明したが、放送コンテンツ中に存在する無音区間を基準としてマッチングの対象とする位置が指定されるようにしてもよい。
また、以上においては、マッチングの対象とする位置を指定することによってCMの認識精度を高めることができるとしたが、画像によるCMの認識(ロゴを検出することによるCMの認識)と、音声によるCMの認識(基準音を検出することによるCMの認識)を組み合わせることによってCMの認識精度を高めることもできる。
この場合、例えば、画像によるCMの認識結果を表すスコア(マッチ度)と、音声によるCMの認識結果を表すスコアが加算され、加算して得られた値が所定の閾値を越えるか否かが判定される。加算して得られた値が所定の閾値を越えたと判定された場合、CMの認識に成功したと判断される。
ここで、図20のフローチャートを参照して、画像によるCMの認識と音声によるCMの認識を組み合わてCMの認識を行う情報処理装置1(図11、図18の情報処理装置1)の処理について説明する。
ステップS101において、パターンファイル選択部41は、画像によるCMの認識を行うためのパターンファイルを選択し、それを画像認識部32に供給するとともに、音声によるCMの認識を行うためのパターンファイルを選択し、それを音声認識部61に供給する。画像認識部32に供給されるパターンファイルと、音声認識部61に供給されるパターンファイルは同じCMについてのものとされる。
ステップS102において、画像認識部32は、図8または図16を参照して説明したような画像によるCM認識を行う。画像認識部32による認識結果を表すスコアは制御部33のメタデータ生成部42に出力される。
一方、音声認識部61は、ステップS103において、図12または図19を参照して説明したような音声によるCM認識を行う。音声認識部61による認識結果を表すスコアもメタデータ生成部42に出力される。
メタデータ生成部42は、ステップS104において、画像認識部32と音声認識部61から供給されてきたスコアに基づいて、画像によるものと音声によるものとのいずれの認識においてもCMが認識されたか否か(画像認識部32によるマッチング対象の画像の一部とロゴイメージがマッチし、音声認識部61によるマッチング対象の期間の音声と基準音がマッチしたか否か)を判定し、CMが認識されたと判定した場合、ステップS105に進む。CMが認識されなかったと判定された場合、ステップS105の処理はスキップされる。
ステップS105において、メタデータ生成部42は、画像認識部32から供給されてきたスコアと、音声認識部61から供給されてきたスコアを加算し、ステップS106に進み、スコアの加算結果が所定の閾値を越えたか否かを判定する。
メタデータ生成部42は、ステップS106において、スコアの加算結果が所定の閾値を越えていないと判定した場合、ステップS107に進み、全てのパターンファイルが選択されたか否かを判定する。
メタデータ生成部42は、ステップS107において、全てのパターンファイルが選択されていないと判定した場合、ステップS101に戻り、それ以降の処理を繰り返し実行し、全てのパターンファイルが選択されたと判定した場合、処理を終了させる。
一方、ステップS106において、メタデータ生成部42は、スコアの加算結果が所定の閾値を越えたと判定した場合、ステップS108に進み、CMの認識に成功したと判断する。その後、処理は図7のステップS2に進む。
このように、画像認識部32によるCMの認識結果と音声認識部61によるCMの認識結果とを組み合わせることによって、それぞれの認識精度があまり信頼できるものではない場合であっても、全体として、CMの認識精度を高めることができる。
なお、以上のようにしてCMの認識に関するヒントを情報処理装置1に与えるパターンファイルは、例えば、所定の周期でサーバからダウンロードされるようにしてもよい。放送されるCMは日々変わっていくものではあるが、最新のCMのパターンファイルがサーバに用意され、それがダウンロードされるようにすることで、ユーザは、新たに放送が開始されたCMについても、録画した放送コンテンツの中からそれを切り出し、番組と分けて取り扱うことができる。
図21は、パターンファイルのダウンロードシステムの概念を示す図である。
例えば、CMの愛好家が、自分がパーソナルコンピュータなどに録画しておいた放送コンテンツを用いて、CMのロゴ画像の位置を基準とした開始位置、終了位置を決め、ロゴイメージを指定する情報と、それらの位置を記述した図5、図14に示すようなパターンファイルを作成する。
多くのCMの愛好家により作成されたパターンファイルがネットワーク上のサーバ81に登録されることによって、サーバ81には、最新のCMも含めて、様々なCMのパターンファイルが登録されることになる。
情報処理装置1と同じ構成を有する情報処理装置82乃至84においては、サーバ81からのパターンファイルのダウンロードが所定の周期で行われ、様々なCMを切り出すことが可能なパターンファイルが記憶される。
当然、CMの愛好家ではなく、サービス業者などがパターンファイルを作成し、サーバ81からダウンロード可能なように提供するようにしてもよい。
図22は、パターンファイルのダウンロード等を管理する情報処理装置1の機能構成例を示すブロック図である。図22の機能部も、図1のCPU11により所定のプログラムが実行されることによって実現される。
パターンファイル管理部91は、通信部18(図1)を制御して、所定のタイミングでネットワークを介してサーバ81にアクセスし、例えば、パターンファイル記憶部52に記憶されていないパターンファイルをダウンロードする。パターンファイル管理部91によりダウンロードされたパターンファイルはパターンファイル記憶部52に記憶される。これにより、パターンファイル記憶部52に記憶されているパターンファイルが更新される。
なお、コンテンツ記憶部51に記憶されている放送コンテンツに含まれていないCMであって、既に放送されていないCMのパターンファイルについては、パターンファイル管理部91により所定のタイミングで順次消去されるようにしてもよい。これにより、不使用のパターンファイルにより記憶部17の容量が圧迫されるのを防止することができる。
ここで、図23のフローチャートを参照して、パターンファイル管理部91により行われるパターンファイル管理処理について説明する。
ステップS111において、パターンファイル管理部91は、パターンファイルの更新のタイミングであるか否かを判定し、更新のタイミングではないと判定した場合、処理を終了させる。例えば、1日毎、1週間毎などのように、所定の周期でパターンファイル管理部91によりパターンファイルが更新される。
パターンファイル管理部91は、ステップS111において、更新のタイミングであると判定した場合、ステップS112に進み、サーバ81にアクセスする。
パターンファイル管理部91は、ステップS113において、最新のパターンファイルをサーバ81からダウンロードし、ダウンロードしたパターンファイルをパターンファイル記憶部52に記憶させる。
これにより、最新のCMのパターンファイルがパターンファイル記憶部52に記憶され、最新のCMであっても放送コンテンツの中から切り出すことが可能になる。
以上においては、CMの位置を特定するための基準になる画像はロゴ画像であるとしたが、CMの所定のタイミングで表示される出演者の顔のイメージ、商品のイメージ、ロゴ以外のテロップなど、CMの特徴を表す画像であれば、どのような画像を基準としてCMの位置が特定されるようにしてもよい。すなわち、この場合、出演者の顔のイメージ、商品のイメージ、テロップなどのイメージが、パターンファイルにより指定される。
なお、CMの位置を特定するための基準となる1フレームの画像に表示されるロゴなどの特徴を表す画像は、最初は遠くにあったものが次第に近づいてきたり、最初は透明度の高かったものが次第にはっきりと表示されたりするように、時間的に、似たような画像が前後に存在するものではなく、前後の画像との相関がなく、瞬間的に表示されるものであることが好ましい。
基準となる1フレームの画像を正確に検出することができることにより、その画像を基準として、CMの開始位置、終了位置をフレーム単位などの高い精度で特定することができる。例えば、似たような画像が前後に存在することから、基準となる1フレームのロゴ画像の検出位置が1フレーム、2フレームでもずれた場合、それに応じて、特定されるCMの開始位置、終了位置も1フレーム、2フレームずれることになるが、そのように、前後の画像との相関がなく、瞬間的に表示される画像を基準とすることにより、特定されるCMの位置が微妙にずれるのを防止することができる。
また、以上においては、パターンファイルには、ある1フレームの画像を基準として、CMの開始位置と終了位置がそれぞれ記述されるとしたが、その1フレームの画像を基準とした開始位置と、開始位置と終了位置との差が記述されるようにしてもよい。
例えば、開始位置から終了位置までのフレーム数や時間などを表す情報が記述されていることにより、情報処理装置1は、特定したCMの開始位置から、終了位置を特定することができる。反対に、1フレームの画像を基準とした終了位置と、終了位置と開始位置との差が記述されるようにしてもよい。
また、以上においては、開始位置、終了位置などの画像シーケンスを構成する各画像の位置は、フレーム数、時刻(時間)で特定されるとしたが、フィールド数で表されるようにしてもよいのはもちろんのこと、MPEG(Moving Picture Experts Group)2,4等のMPEG規格でいうGOP(Group Of Picture)の番号で特定されるようにしてもよい。また、処理対象の動画が、EVD(Enhanced Versatile Disk)規格などの様々な圧縮規格により圧縮された動画の場合であっても、それぞれの圧縮規格で用いられる画像の位置を表す情報によりCMの位置を特定することも可能である。
さらに、以上においては、CM毎にパターンファイルが用意されるとしたが、例えば、あるメーカが販売する商品の複数のCMのそれぞれにおいて、同じタイミングでそのメーカのロゴが表示される場合、パターンファイルは、そのメーカに対して1つだけ用意されるようにしてもよい。
すなわち、あるメーカから商品Aと商品BのCMが提供されており、商品AのCM全体におけるロゴ画像の位置(表示タイミング)と、商品BのCM全体におけるロゴ画像の位置とが同じである場合、商品Aと商品BのCM全体の時間が同じである限り、1つのパターンファイルでそれらのCMを認識させることができる。この場合、1つのパターンファイルが、同じメーカにより提供される複数のCMを認識するために使い回されることになる。
また、パターンファイルは、CMをスキップしたり、CMを除いたテレビジョン番組の部分をリムーバブルメディア20に記憶させたりするために用いられるのではなく、CMだけを集めたりすることに用いられるようにしてもよい。
なお、以上においては、CMを切り出すためのパターンファイルが用意されるとしたが、テレビジョン番組自体(本放送自体)を切り出すためのパターンファイルが用意されるようにしてもよい。この場合、例えば、テレビジョン番組の冒頭で表示される番組のタイトルのイメージがパターンファイルで指定され、そのタイトルの位置を基準とした、番組の開始位置、終了位置などがパターンファイルに記述される。
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
この記録媒体は、図1に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(登録商標)(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア20により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM12や、記憶部17に含まれるハードディスクなどで構成される。
なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。
1 情報処理装置, 32 画像認識部, 33 制御部, 41 パターンファイル選択部, 42 メタデータ生成部, 51 コンテンツ記憶部, 52 パターンファイル記憶部, 61 音声認識部, 71 シーンチェンジ検出部, 81 サーバ, 91 パターンファイル管理部