JP4293105B2

JP4293105B2 - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP4293105B2
Application number: JP2004293616A
Authority: JP
Inventors: 竜夫永松; 邦敏清水; 努寺西; 尚生奥田; 浩川口; 敦光澤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-10-06
Filing date: 2004-10-06
Publication date: 2009-07-08
Anticipated expiration: 2024-10-06
Also published as: US8144991B2; JP2006109126A; US20060072827A1

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、例えば、番組とCM(Commercial)が混在するコンテンツ全体から、CMを正確に切り出すことができるようにする情報処理装置および方法、並びにプログラムに関する。

例えば、録画したテレビジョン番組中のCMのスキップ手法には、そのほとんどが１５秒間、または３０秒間だけ放送されるという特徴から、ユーザ操作に応じて１５秒、または３０秒単位で早送りを行なう手動スキップ手法や、２ヶ国語放送、ステレオ放送などのように、音声のモードがCMのときと本放送（番組放送）のときとで異なることを利用して、CMの音声モードであるステレオ放送の間だけ、早送りを自動的に行うスキップ手法がある。

また、CMをスキップしたり、自動的にカットしたりするためのCMを認識する技術としては、例えば、特許文献１に開示されているように、CMの開始位置を表す無音区間やシーンチェンジの発生を検出し、それらの発生位置からCMの終了部分を推測する技術がある。
特開２０００−１６５７９６号公報

このように、テレビジョン放送中からCMをスキップする技術が各種提案されているものの、例えば、上述した手動による手法の場合、当然、ユーザは、CMが始まるたびにスキップ操作を行なう必要があり、手間かかる。また、スキップ操作は人間が行う操作である以上、CMが始まったことを認識してから操作を行うまでに僅かではあるが時間がかかり、CMスキップ後の、本放送の頭出しを正確に行なうことが難しい。

さらに、例えば、本放送と同じモノラル音声でCMも放送されるといったように、CMのときと本放送のときとで音声モードが同じ放送も存在し、このような場合においては、音声モードの違いを検出して行う上述したスキップ手法ではCMが正確に認識されず、スキップも正確に行われない。

一方、特許文献１に開示されているように、無音区間やシーンチェンジの発生を検出してCMを認識する場合、本放送中に無音区間やシーンチェンジが発生したとき、それ以降の本放送の部分がCMとして認識されたり、反対に、CM中に無音区間やシーンチェンジが複数回発生した場合、CM部分だけを正確に認識することができないことがあるという課題があった。

本発明はこのような状況に鑑みてなされたものであり、例えば、テレビジョン放送中のCMを正確に切り出すことができるようにするものである。

本発明の情報処理装置は、切り出しの対象とするCMに含まれる１フレームの画像と、１フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択手段と、選択手段により選択された切り出し情報に含まれる１フレームの画像と同じ１フレームの画像を、CMを含むコンテンツ全体の中から検出する第１の検出手段と、第１の検出手段により切り出し情報に含まれる１フレームの画像と同じ１フレームの画像が検出されたとき、選択手段により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出し手段とを備える。

本発明の情報処理装置は、コンテンツ全体における、切り出し手段により切り出されたCMの位置を表すメタデータを生成する生成手段をさらに備えるようにすることができる。

切り出し情報には、１フレームのうちの切り出す範囲を指定する情報が含まれ、第１の検出手段には、コンテンツの注目する１フレームのうちの切り出し情報に含まれる情報により指定される範囲の画像と、切り出し情報に含まれる１フレームの画像をマッチングすることによって、１フレームの画像と同じ１フレームの画像を、CMを含むコンテンツ全体の中から検出させることができる。

本発明の情報処理装置は、コンテンツからシーンチェンジを検出する第２の検出手段をさらに備えるようにすることができる。切り出し情報には、シーンチェンジの位置を基準とした１フレームの画像の表示位置を指定する位置情報がさらに含まれ、第１の検出手段は、第２の検出手段によりシーンチェンジが検出された場合、検出されたシーンチェンジの位置を基準として位置情報で指定される位置のフレームを対象として、切り出し情報に含まれる１フレームの画像と同じ１フレームの画像を検出することを行う。

本発明の情報処理装置は、切り出し情報を記憶する記憶手段をさらに備えるようにすることができる。

本発明の情報処理装置は、ネットワークを介して接続されるサーバから切り出し情報をダウンロードすることにより、記憶手段により記憶されている切り出し情報を更新する更新手段をさらに備えるようにすることができる。

本発明の情報処理方法は、切り出しの対象とするCMに含まれる１フレームの画像と、１フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、選択ステップの処理により選択された切り出し情報に含まれる１フレームの画像と同じ１フレームの画像を、CMを含むコンテンツ全体の中から検出する検出ステップと、検出ステップの処理により切り出し情報に含まれる１フレームの画像と同じ１フレームの画像が検出されたとき、選択ステップの処理により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出しステップとを含むことを特徴とする。

本発明のプログラムは、切り出しの対象とするCMに含まれる１フレームの画像と、１フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、選択ステップの処理により選択された切り出し情報に含まれる１フレームの画像と同じ１フレームの画像を、CMを含むコンテンツ全体の中から検出する検出ステップと、検出ステップの処理により切り出し情報に含まれる１フレームの画像と同じ１フレームの画像が検出されたとき、選択ステップの処理により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出しステップとを含む処理をコンピュータに実行させる。

本発明の情報処理装置および方法、並びにプログラムにおいては、切り出しの対象とするCMに含まれる１フレームの画像と、１フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報が選択され、選択された切り出し情報に含まれる１フレームの画像と同じ１フレームの画像が、CMを含むコンテンツ全体の中から検出される。切り出し情報に含まれる１フレームの画像と同じ１フレームの画像が検出されたとき、切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMが切り出される。

本発明によれば、切り出しの対象とするコンテンツがCMである場合、コンテンツ全体からCMを正確に切り出すことができる。

また、本発明によれば、コンテンツの切り出しに用いられる切り出し情報を更新することができる。

以下、本発明の実施の形態について図を参照して説明する。

図１は、本発明を適用した情報処理装置１の構成例を示すブロック図である。

CPU(Central Processing Unit)１１は、ROM(Read Only Memory)１２に記憶されているプログラム、または、記憶部１７からRAM(Random Access Memory)１３にロードされたプログラムに従って各種の処理を実行する。RAM１３にはまた、CPU１１が各種の処理を実行する上において必要なデータなどが適宜記憶される。

CPU１１、ROM１２、およびRAM１３は、バス１４を介して相互に接続される。このバス１４にはまた、入出力インタフェース１５も接続される。

入出力インタフェース１５に接続されるコンテンツ受信部１６は、図示せぬアンテナから供給されてくる信号を受信し、本放送であるテレビジョン番組と、CMを含む放送コンテンツを取得する。アンテナにおいては、地上アナログ放送、地上ディジタル放送、BS(Broadcasting Satellite)／CS(Communications Satellite)ディジタル放送などの各種の放送波が受信される。コンテンツ受信部１６により取得された放送コンテンツは、例えば、入出力インタフェース１５を介して記憶部１７に供給され、記憶される。

入出力インタフェース１５には、記憶部１７、通信部１８も接続される。

記憶部１７は、ハードディスクなどより構成され、コンテンツ受信部１６から供給されてきた放送コンテンツなどを記憶する。記憶部１７に記憶された放送コンテンツは、適宜、CPU１１により読み出され、放送コンテンツ全体からCMが切り出される。ここで、「切り出し」とは、放送コンテンツ全体のうち、テレビジョン番組部分とCM部分とを区別して扱うことができるようにすることをいう。

通信部１８は、ネットワークを介しての通信処理を行う。例えば、通信部１８は、放送コンテンツ全体からCMを切り出すときにCPU１１により参照されるファイル（後述するパターンファイル）を、ネットワークに接続されるサーバからダウンロードする処理などを行う。

入出力インタフェース１５にはまた、必要に応じてドライブ１９が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア２０が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部１７にインストールされる。また、コンテンツ受信部１６により受信されたものではなく、リムーバブルメディア２０に記憶されている放送コンテンツが情報処理装置１において処理される場合、ドライブ１９により読み出された放送コンテンツは、入出力インタフェース１５を介して記憶部１７に供給され、記憶される。

このような構成を有する情報処理装置１においては、上述したように、放送コンテンツ全体からCMが切り出され、その切り出し位置（CMの位置）を表すメタデータが放送コンテンツに付加される。CMの切り出しは、CM毎に用意されるパターンファイルを用いて行われる。

パターンファイルには、例えば、ある商品のCMの終わり付近（CM全体の時間が１５秒であるとすると、例えば、最後の１秒間付近）に、その商品のメーカである会社のロゴを表示する１フレームの画像が含まれる場合、その画像により表示されるロゴのイメージ（画像）を指定する情報と、ロゴを表示する１フレームの画像の位置を基準としたCMの開始位置と終了位置が記述されている。情報処理装置１においては、その記述に基づいてCMの開始位置と終了位置が特定され、CMが切り出される。CMの開始位置と終了位置の間の範囲が切り出しの範囲となる。

具体的には、例えば、図２に示すように、会社のロゴである「ＳＯＭＹ」を表示する１フレームの画像を含むCM（CMを含む放送コンテンツ）を処理対象としており、このCMのパターンファイルが用意されている場合、情報処理装置１においては、処理対象の放送コンテンツを構成する画像が１フレームずつ、例えば、表示順に注目され、注目している画像に、パターンファイルにより指定される図２のロゴが含まれるか否かが画像マッチングにより判断される。

マッチングにより、「ＳＯＭＹ」のロゴを表示する１フレームの画像が検出された場合、このCMのパターンファイルには「ＳＯＭＹ」のロゴを表示する１フレームの画像の位置を基準としたCMの開始位置、終了位置が記述されているから、検出された１フレームの画像の位置を基準として、CMの開始位置、終了位置がパターンファイルの記述に基づいて特定される。

図３は、CMの開始位置、終了位置の特定の例を示す図である。

図３に示すように、放送コンテンツを構成する画像が１フレームずつ表示順に注目され、注目された１フレームの画像と、パターンファイルにより指定されるロゴイメージとのマッチングの結果、図２の「ＳＯＭＹ」を表示する１フレームの画像（以下、ロゴ画像という）が位置Ｐ_Logoで検出された場合、パターンファイルには位置Ｐ_Logoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置Ｐ_Logoを基準とした、このCMの開始位置が記述されているから、情報処理装置１においてはCMの開始位置が位置Ｐ_Sであるとして特定される。

同様に、パターンファイルには位置Ｐ_Logoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置Ｐ_Logoを基準とした、このCMの終了位置が記述されているから、情報処理装置１においては、CMの終了位置が位置Ｐ_Eであるとして特定される。

このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置Ｐ_S、終了位置Ｐ_Eを表すメタデータが生成される。

以上のことから、１つのパターンファイルは、それにより開始位置、終了位置等が表される１つのCMを切り出すためのヒントを情報処理装置１に与えるものであるといえる。

生成されたメタデータは、例えば、放送コンテンツを再生する場合にCMをスキップするときや、CMを除いて、テレビジョン番組（本放送の部分）だけをDVD(Digital Versatile Disc)などのリムーバブルメディア２０に記憶させるときなどに用いられる。

例えば、図３のようにCMの開始位置と終了位置が特定された場合、位置Ｐ_Sから位置Ｐ_Eまでは再生されずにスキップされたり、位置Ｐ_Sから位置Ｐ_Eまでを除いた放送コンテンツ（位置Ｐ_Sから時間的に前の部分、位置Ｐ_Eから時間的に後ろの部分）がリムーバブルメディア２０に記憶されることになる。

このように、情報処理装置１は、ロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、無音区間やシーンチェンジを検出して、それらが検出された位置から１５秒間、或いは３０秒間をCM部分として扱うといったように、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合などに較べて、確実に、CMの位置を特定することができる。

すなわち、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合、無音区間やシーンチェンジがCM中に存在するときには放送コンテンツ中のテレビジョン番組の部分も含めてCMの位置として誤って特定してしまうことがあるが、そのような誤った特定を防止することができる。

CMの位置を特定する情報処理装置１の一連の処理についてはフローチャートを参照して後述する。

図４は、情報処理装置１の機能構成例を示すブロック図である。図４の各機能部の少なくとも一部は、図１のCPU１１により所定のプログラムが実行されることによって実現される。

録画制御部３１は、コンテンツ受信部１６を制御して所定の放送コンテンツを選択し、選択した放送コンテンツ（画像と音声）を記憶部１７のコンテンツ記憶部５１に記憶させる。

画像認識部３２は、コンテンツ受信部１６から供給されてきた放送コンテンツのうちの画像（画像シーケンス）を取得し、注目する１フレームの画像に、制御部３３から供給されてきたパターンファイルにより指定されるロゴイメージが含まれるか否かをマッチングにより判断する。例えば、画像認識部３２によるマッチングは、マッチングの精度を高めるため、また、処理負担を軽減させるため、注目する１フレームの画像のうちの所定の範囲がパターンファイルの記述に基づいて切り出され、切り出された部分の画像にマスク処理を施して得られた結果とロゴイメージに基づいて行われる。

画像認識部３２により、注目する１フレームの画像に、パターンファイルにより指定されるロゴイメージが含まれると判断された場合、すなわち、ロゴ画像が検出された場合、ロゴ画像の位置を表す情報がメタデータ生成部４２に出力される。

なお、画像認識部３２に供給される画像は、コンテンツ記憶部５１に一旦記憶され、所定のタイミングで読み出されたものであってもよい。

制御部３３は、パターンファイル選択部４１とメタデータ生成部４２からなる。

パターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つずつ選択し、選択したパターンファイルを画像認識部３２に出力する。

メタデータ生成部４２は、画像認識部３２によりロゴ画像が検出されたとき、ロゴ画像の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述（ロゴ画像の検出に用いられたパターンファイルの記述）に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。メタデータ生成部４２により生成されたメタデータは、外部のアプリケーションに供給され、放送コンテンツと対応付けて記憶されたり、放送コンテンツの再生（CMのスキップ再生）、放送コンテンツの記録（番組部分のみの記録）等に用いられる。

記憶部１７はコンテンツ記憶部５１とパターンファイル記憶部５２からなる。

コンテンツ記憶部５１は、録画制御部３１から供給されてきた放送コンテンツを記憶し、パターンファイル記憶部５２は、CM毎のパターンファイルを記憶する。なお、説明を簡単にするため、以下の説明においては、全てのCMには１つのロゴ画像が含まれるものとする。

図５は、パターンファイルの例を示す図である。パターンファイルは、例えば、XML(eXtensible Markup Language)により記述される。

パターンファイルには、例えば、「CMタイトル」、「切り出し場所」、「ロゴイメージ」、「マスク」、「CM開始位置」、「CM終了位置」が記述される。

「CMタイトル」は、このパターンファイルにより開始位置、終了位置等が表されるCMのタイトルを表す。例えば、図２の画像を含むCMのパターンファイルには、「SOMY CM」などのようなタイトルが記述される。

「切り出し場所」は、画像認識部３２によるマッチングのときに、注目する１フレームの画像のうちの切り出す場所（範囲）を指定する情報である。例えば、図２の画像を含むCMのパターンファイルにおいては、図６の点線で示すように、「ＳＯＭＹ」のロゴを含む範囲が切り出す場所として指定される。

「ロゴイメージ」は、ロゴイメージを指定する情報である。例えば、図２の画像を含むCMのパターンファイルには、「ＳＯＭＹ」のイメージを格納するファイル名などが記述される。

「マスク」は、「切り出し場所」に従って切り出した場所の画像のうち、ロゴ以外の部分を除去するためのマスク画像を指定する情報である。例えば、図６の点線で示す範囲が切り出された場合、切り出された範囲のうちの「ＳＯＭＹ」のロゴの背景の部分がマスク画像により除去され、残ったロゴの部分とロゴイメージのマッチングが行われる。

「CM開始位置」は、ロゴ画像の位置を基準としたCMの開始位置を表す情報であり、「CM終了位置」は、ロゴ画像の位置を基準としたCMの終了位置を表す情報である。CMの開始位置と終了位置は、例えば、フレーム数、時刻などで表される。

このような記述を含むパターンファイルがCM毎に用意され、パターンファイル記憶部５２に記憶される。

次に、情報処理装置１の動作についてフローチャートを参照して説明する。

始めに、図７のフローチャートを参照して、メタデータを生成する情報処理装置１の一連の処理について説明する。

ステップＳ１において、情報処理装置１はCM認識処理を行う。この処理は、処理対象とする放送コンテンツの中から、そのとき選択しているパターンファイルに記述されているロゴイメージを含むロゴ画像を検出し、ロゴ画像を検出した場合、CMの認識に成功したものとする処理である。CM認識処理の詳細については図８のフローチャートを参照して後述する。

ステップＳ２において、情報処理装置１は、CMの認識に成功したか否かを判定し、CMの認識に成功したと判定した場合、ステップＳ３に進む。例えば、そのとき選択しているパターンファイルにより指定されているロゴイメージを含むロゴ画像が検出された場合、CMの認識に成功したと判定される。

ステップＳ３において、情報処理装置１はCM切り出し処理を行う。この処理は、ロゴ画像の位置を基準として、パターンファイルの記述から特定されるCMの開始位置、終了位置を表すメタデータを生成する処理である。CM切り出し処理の詳細については図９のフローチャートを参照して後述する。

ステップＳ３においてCM切り出し処理が終了された場合、または、ステップＳ２においてCMの認識に成功していないと判定された場合、処理は終了される。

このような処理が繰り返し行われ、処理対象とする１つの放送コンテンツに含まれるそれぞれのCMの開始位置、終了位置を表すメタデータが生成される。

次に、図８のフローチャートを参照して、図７のステップＳ１において行われるCM認識処理について説明する。この処理は、例えば、１フレームの画像が入力される毎に行われる。

ステップＳ１１において、制御部３３のパターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つ選択し、選択したパターンファイルを画像認識部３２に出力する。

ステップＳ１２において、画像認識部３２は、入力されてきた画像（テレビジョン番組の画像、CMの画像のいずれか）のうちの１フレームの画像に注目し、パターンファイル選択部４１から供給されてきたパターンファイルの「切り出し場所」（図５）に基づいて、注目する１フレームの画像のうちの所定の範囲を切り出す。

ステップＳ１３において、画像認識部３２は、ステップＳ１２で切り出した一部の画像に対して、パターンファイルの「マスク」により指定されるマスク画像を用いてマスク処理を施す。

ステップＳ１４において、画像認識部３２は、ステップＳ１３のマスク処理により得られた結果と、パターンファイルの「ロゴイメージ」により指定されるロゴイメージとのマッチングを行い、ステップＳ１５に進み、マッチするか否か、すなわち、注目する１フレームの画像が、いま選択されているパターンファイルによりCMの開始位置、終了位置が表されるCMのロゴ画像であるか否かを判定する。

ステップＳ１５において、画像認識部３２は、マスク処理により得られた結果とロゴイメージがマッチしないと判定した場合、ステップＳ１６に進む。

ステップＳ１６において、パターンファイル選択部４１は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップＳ１１に戻り、それ以降の処理を繰り返す。

パターンファイル選択部４１は、ステップＳ１６において、全てのパターンファイルを選択したと判定した場合、図７のステップＳ２以降の処理を行う。

注目する１フレームの画像がいずれのパターンファイルにより指定されるロゴイメージも含まない場合、そのことは、注目する１フレームの画像が、テレビジョン番組の画像であるか、CMの画像のうちのロゴ画像以外の画像であることを表す。この場合、注目している画像を基準として、パターンファイルの記述からCMの開始位置、終了位置を特定することができないから、図７のステップＳ２において、CMの認識に失敗したと判定され、処理は終了される。

一方、ステップＳ１５において、画像認識部３２は、マスク処理により得られた結果とロゴイメージがマッチすると判定した場合、ステップＳ１７に進み、CM（いま選択されているパターンファイルにより開始位置、終了位置が特定されるCM）の認識に成功したと判断して、ロゴ画像を検出したことをメタデータ生成部４２に通知する。

その後、処理は図７のステップＳ２に進み、ステップＳ２においてCMが認識されたと判定され、ステップＳ３のCM切り出し処理が行われる。

以上のように、パターンファイルの「切り出し場所」により、ロゴイメージとのマッチングを行う範囲が絞られるため、注目する１フレームの画像全体と、図２に示すようなロゴ画像全体をマッチングする場合に較べてマッチングの精度を高めることができる。また、パターンファイルの「ロゴイメージ」によりロゴの色なども指定されるため、単に、ロゴの形状、大きさ等が指定され、注目する画像に、指定される形状、大きさのロゴが含まれるか否かをマッチングにより判断する場合に較べてマッチングの精度を高めることができる。

次に、図９のフローチャートを参照して、図７のステップＳ３において行われるCM切り出し処理について説明する。

ステップＳ３１において、制御部３３のメタデータ生成部４２は、画像認識部３２により検出されたロゴ画像の位置を基準として、いま選択しているパターンファイル（図８のステップＳ１１で選択されたパターンファイル）の「CM開始位置」、「CM終了位置」の記述に基づいてCMの開始位置、終了位置を特定する。

ステップＳ３２において、メタデータ生成部４２は、ステップＳ３１で特定したCMの開始位置、終了位置を表すメタデータを生成し、生成したメタデータを外部のアプリケーションに出力する。その後、処理は図７のステップＳ３に戻り、メタデータ生成処理が終了される。

以上のように、CMに含まれる１つのロゴ画像を検出し、そのロゴ画像の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置を特定することにより、情報処理装置１は、ロゴ画像の位置を正確に検出することができる限り、確実に、かつ、フレーム単位などの非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。

以上においては、画像のマッチングにより、CMの開始位置、終了位置を特定するための基準となる位置（ロゴ画像の位置）が検出され、検出された位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるとしたが、音声のマッチングにより、パターンファイルで指定される、CM中で流れる所定の期間の音声の位置が検出され、検出された音声の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるようにしてもよい。

この場合、パターンファイルには、放送コンテンツの音声とマッチングされる、例えば、「ピンポーン」などのCMの所定のタイミングで流れる特徴的な効果音、或いは、CM全体で流れるバックグランドミュージックを指定する音声の情報と、その音声の位置を基準とした、CMの開始位置、終了位置を表す情報が記述される。以下、適宜、CMの開始位置、終了位置を特定するための基準となる音声を基準音という。

この場合、図１０に示すように、情報処理装置１においては、放送コンテンツの所定の期間毎の音声と、パターンファイルにより指定される基準音（図１０の例の場合、「ピンポーン」）とのマッチングが繰り返し行われる。マッチングにより基準音が位置Ｐ_Soundで検出された場合、パターンファイルには位置Ｐ_Soundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準とした、このCMの開始位置が記述されているから、CMの開始位置が位置Ｐ_Sであるとして特定される。

同様に、パターンファイルには位置Ｐ_Soundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置１においてはCMの終了位置が位置Ｐ_Eであるとして特定される。

このように、音声に基づいてCMの開始位置、終了位置を特定するようにすることも可能である。

図１１は、情報処理装置１の他の機能構成例を示すブロック図である。

図１１の構成は、音声認識部６１が追加されている点を除いて図４の構成と同じである。重複する説明については適宜省略する。

音声認識部６１は、コンテンツ受信部１６から供給されてきた放送コンテンツのうちの音声を取得し、取得した音声のうちの所定の期間毎の音声に注目して、注目した音声と、パターンファイル選択部４１から供給されてきたパターンファイルにより指定される基準音がマッチするか否かを判断する。

音声認識部６１により、注目された期間の音声と基準音がマッチすると判断された場合、すなわち、基準音が検出された場合、基準音の位置を表す情報がメタデータ生成部４２に出力される。

パターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つずつ選択し、選択したパターンファイルを音声認識部６１に出力する。パターンファイル記憶部５２には、CM毎に、それぞれのCMの基準音を指定する情報と、基準音の位置を基準としたCMの開始位置、終了位置を記述するパターンファイルが記憶されている。

メタデータ生成部４２は、音声認識部６１により基準音が検出されたとき、基準音の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。

ここで、図１２のフローチャートを参照して、図１１の情報処理装置１により行われるCM認識処理について説明する。この処理も、図７のステップＳ１において行われるものである。

ステップＳ４１において、制御部３３のパターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つ選択し、選択したパターンファイルを音声認識部６１に出力する。

ステップＳ４２において、音声認識部６１は、入力された音声（テレビジョン番組の音声、CMの音声のいずれか）のうちの所定の期間の音声に注目し、注目する音声と、パターンファイルにより指定される基準音のマッチングを行う。

音声認識部６１は、ステップＳ４３において、注目する音声と基準音がマッチするか否かを判定し、マッチしないと判定した場合、ステップＳ４４に進む。

ステップＳ４４において、パターンファイル選択部４１は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップＳ４１に戻り、それ以降の処理を繰り返す。

パターンファイル選択部４１は、ステップＳ４４において、全てのパターンファイルを選択したと判定した場合、図７のステップＳ２以降の処理を行う。

一方、ステップＳ４３において、音声認識部６１は、注目する音声と、パターンファイルにより指定される基準音がマッチすると判定した場合、ステップＳ４５に進み、CMの認識に成功したと判断して、基準音を検出したことをメタデータ生成部４２に通知する。

その後、処理は図７のステップＳ２に進み、CMの認識に成功したと判定された後、ステップＳ３のCM切り出し処理が行われる。ステップＳ３においては、検出された基準音の位置を基準として、パターンファイルの記述に基づいてCMの開始位置、終了位置が特定され、それらを表すメタデータが生成される。

以上のように、画像によるマッチングだけでなく、パターンファイルで指定されるCM中の音声をマッチングにより検出することによっても、情報処理装置１は、基準音の位置を正確に検出することができる限り、確実に、かつ、非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。

以上においては、例えば、放送コンテンツの全ての画像に対してロゴイメージとのマッチングが行われるとしたが、CMの始まりと終わりにはシーンチェンジが必ず存在することからCMのマッチングの対象の近隣にはシーンチェンジが存在することを利用し、パターンファイルに、シーンチェンジが検出されてから何フレーム後のフレーム、何秒後のフレームというように、マッチングの対象とする画像を指定する情報も記述されている場合、情報処理装置１は、パターンファイルで指定される画像に対してのみ、ロゴイメージとのマッチングを行えばよいことになる。これにより、全ての画像に対してマッチングを行う場合に較べて処理負担が軽減される。

図１３は、CMの開始位置、終了位置の特定の他の例を示す図である。

この場合、情報処理装置１においては、例えば、放送コンテンツの先頭から順にシーンチェンジの検出が行われる。

図１３に示すように、シーンチェンジが位置Ｐ_Changeで検出された場合、パターンファイルには、位置Ｐ_Changeを基準として、何フレーム後または何秒後がロゴ画像の位置であるというように、シーンチェンジの位置Ｐ_Changeを基準とした、このCMのロゴ画像の位置が記述されているから、情報処理装置１においては、パターンファイルにより指定される位置の画像を対象として、ロゴイメージ（パターンファイルにより指定されるロゴイメージ）とのマッチングが行われる。

例えば、シーンチェンジの位置Ｐ_Changeを基準としてパターンファイルにより指定される位置Ｐ_Logoの画像が、図１３に示すようにロゴ画像であるとして検出された場合、上述した全ての画像をマッチングの対象とする場合と同様に、パターンファイルには位置Ｐ_Logoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置を基準とした、このCMの開始位置が記述されているから、情報処理装置１においては、CMの開始位置が位置Ｐ_S（図１３の例ではＰ_S＝Ｐ_Change）であるとして特定される。

また、パターンファイルには位置Ｐ_Logoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置を基準とした、このCMの終了位置が記述されているから、情報処理装置１においては、CMの終了位置が位置Ｐ_Eであるとして特定される。

このように、情報処理装置１は、シーンチェンジを検出した位置を基準として、パターンファイルで指定される位置の画像のみをマッチングの対象（ロゴ画像の検出対象）とするだけであるから、マッチングの対象を絞ることができ、全ての画像に対してマッチングを行う較べて、処理負担を軽減することができるとともに、マッチングの精度を高めることができる。

また、情報処理装置１は、マッチングによりロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、上述した、全ての画像を対象としてマッチングを行う場合と同様に、確実に、CMの位置を特定することができる。

図１４は、以上のように、シーンチェンジの位置を基準として、マッチングの対象とする画像が指定されるパターンファイルの例を示す図である。

図１４のパターンファイルは、「ロゴ画像の位置」が追加されている点を除いて、図５のパターンファイルと同じである。この「ロゴ画像の位置」は、シーンチェンジの位置を基準としたロゴ画像の位置を表す情報である。

なお、「ロゴ画像の位置」は、検出されたシーンチェンジの位置を基準として、さらに、所定の数だけ時間的に後のシーンチェンジの何フレーム後といったように、シーンチェンジの数を含めてロゴ画像の位置を指定するようにすることも可能である。当然、シーンチェンジの位置を基準として、何フレーム前または何秒前がロゴ画像の位置であるというように、シーンチェンジの位置の前の位置を指定するようにすることも可能である。

また、シーンチェンジの位置を基準としてマッチングの対象とする画像が指定される場合、「CM開始位置」、「CM終了位置」は、ロゴ画像の位置（例えば、図１３の位置Ｐ_Logo）を基準として記述するのではなく、検出されたシーンチェンジの位置（例えば、図１３の位置Ｐ_Change）を基準として、それぞれの位置を記述するようにしてもよい。

図１５は、情報処理装置１の機能構成例を示すブロック図である。

図１５の構成は、シーンチェンジ検出部７１が追加されている点を除いて図４の構成と同じである。重複する説明については適宜省略する。

シーンチェンジ検出部７１は、コンテンツ受信部１６から供給されてきた放送コンテンツのうちの画像（画像シーケンス）を取得し、シーンチェンジを検出する。シーンチェンジの検出は、例えば、時間的に連続する２フレームの画像に注目し、それらの各画素の画素値の変化が所定の閾値より大きいか否かに基づいて行われる。シーンチェンジ検出部７１は、シーンチェンジを検出したとき、シーンチェンジを検出したことを画像認識部３２と制御部３３のパターンファイル選択部４１に通知する。画像認識部３２に対する通知にはシーンチェンジの位置を表す情報が含まれる。

画像認識部３２は、シーンチェンジ検出部７１によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部４１から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、特定した画像がロゴ画像であるか否かを判断する。画像認識部３２による判断結果はメタデータ生成部４２に通知される。

次に、図１６のフローチャートを参照して、図１５の情報処理装置１により行われるCM認識処理について説明する。この処理も、図７のステップＳ１において行われるものである。

画像が入力されてきたとき、ステップＳ６１において、シーンチェンジ検出部７１は、シーンチェンジの検出を行う。

シーンチェンジ検出部７１は、ステップＳ６２において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップＳ６１に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで画像認識部３２等による処理が行われないことになり、ロゴ画像の検出に要する処理負担が軽減される。

ステップＳ６２において、シーンチェンジ検出部７１は、シーンチェンジを検出したと判定した場合、そのことを画像認識部３２とパターンファイル選択部４１に通知する。

ステップＳ６３において、パターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つ選択し、選択したパターンファイルを画像認識部３２に出力する。

ステップＳ６４において、画像認識部３２は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部４１から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、ステップＳ６５に進む。

ステップＳ６５以降の処理は、図８のステップＳ１２以降の処理と同様である。すなわち、ステップＳ６５において、ステップＳ６４で特定された画像の一部が切り出され、ステップＳ６６に進み、その切り出された一部の画像に対してマスク処理が施される。

ステップＳ６７において、マスク処理の結果と、パターンファイルで指定されるロゴイメージとのマッチングが行われ、ステップＳ６８に進み、それらがマッチするか否かが判定される。

ステップＳ６８において、マスク処理の結果とロゴイメージがマッチしないと判定された場合、ステップＳ６９に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップＳ６３以降の処理が繰り返される。なお、検出されたシーンチェンジが、いま選択されているパターンファイルにより開始位置、終了位置が表されるCMのロゴ画像の位置を特定する基準となるものではない場合（図１３の例の場合、位置Ｐ_Changeで発生したものではない場合）、選択されているパターンファイルの記述からステップＳ６４において特定されるロゴ認識の対象とする画像はロゴ画像ではないから、この場合、マスク処理の結果とロゴイメージがマッチしないと判定されることになる。

一方、ステップＳ６８において、マスク処理の結果とロゴイメージがマッチすると判定された場合、ステップＳ７０に進み、CMの認識が成功したと判断される。その後、図７のステップＳ２以降の処理が行われる。

以上においては、シーンチェンジの位置を基準として、マッチングの対象とする画像がパターンファイルにより指定されるとしたが、基準音のマッチングの対象とする音声の期間が、シーンチェンジの位置を基準としてパターンファイルにより指定されるようにしてもよい。

図１７は、CMの開始位置、終了位置の特定の他の例を示す図である。

図１７に示すように、シーンチェンジが位置Ｐ_Changeで検出された場合、パターンファイルには、位置Ｐ_Changeを基準として、何秒後の所定の期間の音声が基準音であるというように、シーンチェンジの位置Ｐ_Changeを基準とした、このCMの基準音の位置が記述されているから、情報処理装置１においては、パターンファイルにより指定される期間の音声を対象として、基準音（パターンファイルにより指定される基準音）とのマッチングが行われる。

例えば、シーンチェンジの位置Ｐ_Changeを基準としてパターンファイルにより指定される位置Ｐ_Soundの期間の音声が、パターンファイルで指定される基準音（図１７の例の場合「ピンポーン」）である場合、パターンファイルには位置Ｐ_Soundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準としたCMの開始位置が記述されているから、情報処理装置１においては、CMの開始位置が位置Ｐ_S（図１７の例ではＰ_S＝Ｐ_Change）であるとして特定される。

また、パターンファイルには位置Ｐ_Soundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置１においては、CMの終了位置が位置Ｐ_Eであるとして特定される。なお、この場合も、シーンチェンジの位置Ｐ_Changeを基準としてCMの開始位置、終了位置がパターンファイルに記述されるようにしてもよい。

図１８は、情報処理装置１の他の機能構成例を示すブロック図である。

図１８の構成は、音声認識部６１が追加されている点を除いて図１５の構成と同じである。重複する説明については適宜省略する。

音声認識部６１は、シーンチェンジ検出部７１によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部４１から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、特定した期間の音声が基準音であるか否かを判断する。音声認識部６１による判断結果はメタデータ生成部４２に通知される。

次に、図１９のフローチャートを参照して、図１８の情報処理装置１により行われるCM認識処理について説明する。この処理も、図７のステップＳ１において行われるものである。

音声認識部６１に対して音声の入力があった場合、ステップＳ８１において、シーンチェンジ検出部７１は、供給されてくる画像に基づいてシーンチェンジの検出を行う。

シーンチェンジ検出部７１は、ステップＳ８２において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップＳ８１に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで音声認識部６１等による処理が行われないことになり、基準音の検出に要する処理負担が軽減される。

ステップＳ８２において、シーンチェンジ検出部７１は、シーンチェンジを検出したと判定した場合、そのことを音声認識部６１とパターンファイル選択部４１に通知し、ステップＳ８３に進む。

ステップＳ８３において、パターンファイル選択部４１は、パターンファイル記憶部５２に記憶されているパターンファイルを１つ選択し、選択したパターンファイルを音声認識部６１に出力する。

ステップＳ８４において、音声認識部６１は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部４１から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、ステップＳ８５に進む。

ステップＳ８５以降の処理は、図１２のステップＳ４２以降の処理と同様である。すなわち、ステップＳ８５において、ステップＳ８４で特定された期間の音声と、パターンファイルで指定される基準音とのマッチングが行われ、ステップＳ８６に進み、それらがマッチするか否かが判定される。

ステップＳ８６において、ステップＳ８４で特定された期間の音声と、基準音がマッチしないと判定された場合、ステップＳ８７に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップＳ８３以降の処理が繰り返される。

一方、ステップＳ８６において、ステップＳ８４で特定された期間の音声と、基準音がマッチすると判定された場合、ステップＳ８８に進み、CMの認識が成功したと判断される。その後、図７のステップＳ２以降の処理が行われる。

以上のように、マッチングの対象とする画像、音声の期間が指定されることによって、情報処理装置１は、全ての画像、全ての期間の音声を対象としてマッチングを行う場合に較べて処理負担を軽減することができる。また、マッチングの対象が絞られるから、マッチングの精度を高めることもできる。

なお、以上においては、マッチングの対象とする位置を指定する基準となるものがシーンチェンジである場合について説明したが、放送コンテンツ中に存在する無音区間を基準としてマッチングの対象とする位置が指定されるようにしてもよい。

また、以上においては、マッチングの対象とする位置を指定することによってCMの認識精度を高めることができるとしたが、画像によるCMの認識（ロゴを検出することによるCMの認識）と、音声によるCMの認識（基準音を検出することによるCMの認識）を組み合わせることによってCMの認識精度を高めることもできる。

この場合、例えば、画像によるCMの認識結果を表すスコア（マッチ度）と、音声によるCMの認識結果を表すスコアが加算され、加算して得られた値が所定の閾値を越えるか否かが判定される。加算して得られた値が所定の閾値を越えたと判定された場合、CMの認識に成功したと判断される。

ここで、図２０のフローチャートを参照して、画像によるCMの認識と音声によるCMの認識を組み合わてCMの認識を行う情報処理装置１（図１１、図１８の情報処理装置１）の処理について説明する。

ステップＳ１０１において、パターンファイル選択部４１は、画像によるCMの認識を行うためのパターンファイルを選択し、それを画像認識部３２に供給するとともに、音声によるCMの認識を行うためのパターンファイルを選択し、それを音声認識部６１に供給する。画像認識部３２に供給されるパターンファイルと、音声認識部６１に供給されるパターンファイルは同じCMについてのものとされる。

ステップＳ１０２において、画像認識部３２は、図８または図１６を参照して説明したような画像によるCM認識を行う。画像認識部３２による認識結果を表すスコアは制御部３３のメタデータ生成部４２に出力される。

一方、音声認識部６１は、ステップＳ１０３において、図１２または図１９を参照して説明したような音声によるCM認識を行う。音声認識部６１による認識結果を表すスコアもメタデータ生成部４２に出力される。

メタデータ生成部４２は、ステップＳ１０４において、画像認識部３２と音声認識部６１から供給されてきたスコアに基づいて、画像によるものと音声によるものとのいずれの認識においてもCMが認識されたか否か（画像認識部３２によるマッチング対象の画像の一部とロゴイメージがマッチし、音声認識部６１によるマッチング対象の期間の音声と基準音がマッチしたか否か）を判定し、CMが認識されたと判定した場合、ステップＳ１０５に進む。CMが認識されなかったと判定された場合、ステップＳ１０５の処理はスキップされる。

ステップＳ１０５において、メタデータ生成部４２は、画像認識部３２から供給されてきたスコアと、音声認識部６１から供給されてきたスコアを加算し、ステップＳ１０６に進み、スコアの加算結果が所定の閾値を越えたか否かを判定する。

メタデータ生成部４２は、ステップＳ１０６において、スコアの加算結果が所定の閾値を越えていないと判定した場合、ステップＳ１０７に進み、全てのパターンファイルが選択されたか否かを判定する。

メタデータ生成部４２は、ステップＳ１０７において、全てのパターンファイルが選択されていないと判定した場合、ステップＳ１０１に戻り、それ以降の処理を繰り返し実行し、全てのパターンファイルが選択されたと判定した場合、処理を終了させる。

一方、ステップＳ１０６において、メタデータ生成部４２は、スコアの加算結果が所定の閾値を越えたと判定した場合、ステップＳ１０８に進み、CMの認識に成功したと判断する。その後、処理は図７のステップＳ２に進む。

このように、画像認識部３２によるCMの認識結果と音声認識部６１によるCMの認識結果とを組み合わせることによって、それぞれの認識精度があまり信頼できるものではない場合であっても、全体として、CMの認識精度を高めることができる。

なお、以上のようにしてCMの認識に関するヒントを情報処理装置１に与えるパターンファイルは、例えば、所定の周期でサーバからダウンロードされるようにしてもよい。放送されるCMは日々変わっていくものではあるが、最新のCMのパターンファイルがサーバに用意され、それがダウンロードされるようにすることで、ユーザは、新たに放送が開始されたCMについても、録画した放送コンテンツの中からそれを切り出し、番組と分けて取り扱うことができる。

図２１は、パターンファイルのダウンロードシステムの概念を示す図である。

例えば、CMの愛好家が、自分がパーソナルコンピュータなどに録画しておいた放送コンテンツを用いて、CMのロゴ画像の位置を基準とした開始位置、終了位置を決め、ロゴイメージを指定する情報と、それらの位置を記述した図５、図１４に示すようなパターンファイルを作成する。

多くのCMの愛好家により作成されたパターンファイルがネットワーク上のサーバ８１に登録されることによって、サーバ８１には、最新のCMも含めて、様々なCMのパターンファイルが登録されることになる。

情報処理装置１と同じ構成を有する情報処理装置８２乃至８４においては、サーバ８１からのパターンファイルのダウンロードが所定の周期で行われ、様々なCMを切り出すことが可能なパターンファイルが記憶される。

当然、CMの愛好家ではなく、サービス業者などがパターンファイルを作成し、サーバ８１からダウンロード可能なように提供するようにしてもよい。

図２２は、パターンファイルのダウンロード等を管理する情報処理装置１の機能構成例を示すブロック図である。図２２の機能部も、図１のCPU１１により所定のプログラムが実行されることによって実現される。

パターンファイル管理部９１は、通信部１８（図１）を制御して、所定のタイミングでネットワークを介してサーバ８１にアクセスし、例えば、パターンファイル記憶部５２に記憶されていないパターンファイルをダウンロードする。パターンファイル管理部９１によりダウンロードされたパターンファイルはパターンファイル記憶部５２に記憶される。これにより、パターンファイル記憶部５２に記憶されているパターンファイルが更新される。

なお、コンテンツ記憶部５１に記憶されている放送コンテンツに含まれていないCMであって、既に放送されていないCMのパターンファイルについては、パターンファイル管理部９１により所定のタイミングで順次消去されるようにしてもよい。これにより、不使用のパターンファイルにより記憶部１７の容量が圧迫されるのを防止することができる。

ここで、図２３のフローチャートを参照して、パターンファイル管理部９１により行われるパターンファイル管理処理について説明する。

ステップＳ１１１において、パターンファイル管理部９１は、パターンファイルの更新のタイミングであるか否かを判定し、更新のタイミングではないと判定した場合、処理を終了させる。例えば、１日毎、１週間毎などのように、所定の周期でパターンファイル管理部９１によりパターンファイルが更新される。

パターンファイル管理部９１は、ステップＳ１１１において、更新のタイミングであると判定した場合、ステップＳ１１２に進み、サーバ８１にアクセスする。

パターンファイル管理部９１は、ステップＳ１１３において、最新のパターンファイルをサーバ８１からダウンロードし、ダウンロードしたパターンファイルをパターンファイル記憶部５２に記憶させる。

これにより、最新のCMのパターンファイルがパターンファイル記憶部５２に記憶され、最新のCMであっても放送コンテンツの中から切り出すことが可能になる。

以上においては、CMの位置を特定するための基準になる画像はロゴ画像であるとしたが、CMの所定のタイミングで表示される出演者の顔のイメージ、商品のイメージ、ロゴ以外のテロップなど、CMの特徴を表す画像であれば、どのような画像を基準としてCMの位置が特定されるようにしてもよい。すなわち、この場合、出演者の顔のイメージ、商品のイメージ、テロップなどのイメージが、パターンファイルにより指定される。

なお、CMの位置を特定するための基準となる１フレームの画像に表示されるロゴなどの特徴を表す画像は、最初は遠くにあったものが次第に近づいてきたり、最初は透明度の高かったものが次第にはっきりと表示されたりするように、時間的に、似たような画像が前後に存在するものではなく、前後の画像との相関がなく、瞬間的に表示されるものであることが好ましい。

基準となる１フレームの画像を正確に検出することができることにより、その画像を基準として、CMの開始位置、終了位置をフレーム単位などの高い精度で特定することができる。例えば、似たような画像が前後に存在することから、基準となる１フレームのロゴ画像の検出位置が１フレーム、２フレームでもずれた場合、それに応じて、特定されるCMの開始位置、終了位置も１フレーム、２フレームずれることになるが、そのように、前後の画像との相関がなく、瞬間的に表示される画像を基準とすることにより、特定されるCMの位置が微妙にずれるのを防止することができる。

また、以上においては、パターンファイルには、ある１フレームの画像を基準として、CMの開始位置と終了位置がそれぞれ記述されるとしたが、その１フレームの画像を基準とした開始位置と、開始位置と終了位置との差が記述されるようにしてもよい。

例えば、開始位置から終了位置までのフレーム数や時間などを表す情報が記述されていることにより、情報処理装置１は、特定したCMの開始位置から、終了位置を特定することができる。反対に、１フレームの画像を基準とした終了位置と、終了位置と開始位置との差が記述されるようにしてもよい。

また、以上においては、開始位置、終了位置などの画像シーケンスを構成する各画像の位置は、フレーム数、時刻（時間）で特定されるとしたが、フィールド数で表されるようにしてもよいのはもちろんのこと、MPEG(Moving Picture Experts Group)2，4等のMPEG規格でいうGOP(Group Of Picture)の番号で特定されるようにしてもよい。また、処理対象の動画が、EVD(Enhanced Versatile Disk)規格などの様々な圧縮規格により圧縮された動画の場合であっても、それぞれの圧縮規格で用いられる画像の位置を表す情報によりCMの位置を特定することも可能である。

さらに、以上においては、CM毎にパターンファイルが用意されるとしたが、例えば、あるメーカが販売する商品の複数のCMのそれぞれにおいて、同じタイミングでそのメーカのロゴが表示される場合、パターンファイルは、そのメーカに対して１つだけ用意されるようにしてもよい。

すなわち、あるメーカから商品Ａと商品ＢのCMが提供されており、商品ＡのCM全体におけるロゴ画像の位置（表示タイミング）と、商品ＢのCM全体におけるロゴ画像の位置とが同じである場合、商品Ａと商品ＢのCM全体の時間が同じである限り、１つのパターンファイルでそれらのCMを認識させることができる。この場合、１つのパターンファイルが、同じメーカにより提供される複数のCMを認識するために使い回されることになる。

また、パターンファイルは、CMをスキップしたり、CMを除いたテレビジョン番組の部分をリムーバブルメディア２０に記憶させたりするために用いられるのではなく、CMだけを集めたりすることに用いられるようにしてもよい。

なお、以上においては、CMを切り出すためのパターンファイルが用意されるとしたが、テレビジョン番組自体（本放送自体）を切り出すためのパターンファイルが用意されるようにしてもよい。この場合、例えば、テレビジョン番組の冒頭で表示される番組のタイトルのイメージがパターンファイルで指定され、そのタイトルの位置を基準とした、番組の開始位置、終了位置などがパターンファイルに記述される。

上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。

一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。

この記録媒体は、図１に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disk-Read Only Memory)，DVD(Digital Versatile Disk)を含む）、光磁気ディスク（MD（登録商標）(Mini-Disk)を含む）、もしくは半導体メモリなどよりなるリムーバブルメディア２０により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM１２や、記憶部１７に含まれるハードディスクなどで構成される。

なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。

本発明を適用した情報処理装置の構成例を示すブロック図である。ロゴ画像の例を示す図である。 CMの開始位置、終了位置の特定の例を示す図である。情報処理装置の機能構成例を示すブロック図である。パターンファイルの例を示す図である。切り出し場所の例を示す図である。情報処理装置のメタデータ生成処理について説明するフローチャートである。図７のステップＳ１において行われるCM認識処理について説明するフローチャートである。図７のステップＳ３において行われるCM切り出し処理について説明するフローチャートである。 CMの開始位置、終了位置の特定の他の例を示す図である。情報処理装置の他の機能構成例を示すブロック図である。図７のステップＳ１において行われる他のCM認識処理について説明するフローチャートである。 CMの開始位置、終了位置の特定のさらに他の例を示す図である。パターンファイルの他の例を示す図である。情報処理装置のさらに他の機能構成例を示すブロック図である。図７のステップＳ１において行われるさらに他のCM認識処理について説明するフローチャートである。 CMの開始位置、終了位置の特定の例を示す図である。情報処理装置の機能構成例を示すブロック図である。図７のステップＳ１において行われるさらに他のCM認識処理について説明するフローチャートである。図７のステップＳ１において行われるCM認識処理について説明するフローチャートである。パターンファイルのダウンロードシステムの概念を示す図である。情報処理装置の機能構成例を示すブロック図である。情報処理装置のパターンファイル管理処理について説明するフローチャートである。

符号の説明

１情報処理装置，３２画像認識部，３３制御部，４１パターンファイル選択部，４２メタデータ生成部，５１コンテンツ記憶部，５２パターンファイル記憶部，６１音声認識部，７１シーンチェンジ検出部，８１サーバ，９１パターンファイル管理部

Claims

切り出しの対象とするCMに含まれる１フレームの画像と、前記１フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択手段と、
前記選択手段により選択された前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像を、前記CMを含むコンテンツ全体の中から検出する第１の検出手段と、
前記第１の検出手段により前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像が検出されたとき、前記選択手段により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出し手段と
を備える情報処理装置。
前記コンテンツ全体における、前記切り出し手段により切り出された前記CMの位置を表すメタデータを生成する生成手段をさらに備える
請求項１に記載の情報処理装置。
前記切り出し情報には、１フレームのうちの切り出す範囲を指定する情報が含まれ、
前記第１の検出手段は、前記コンテンツの注目する１フレームのうちの前記切り出し情報に含まれる情報により指定される範囲の画像と、前記切り出し情報に含まれる前記１フレームの画像をマッチングすることによって、前記１フレームの画像と同じ１フレームの画像を、前記CMを含む前記コンテンツ全体の中から検出する
請求項１に記載の情報処理装置。
前記コンテンツからシーンチェンジを検出する第２の検出手段をさらに備え、
前記切り出し情報には、シーンチェンジの位置を基準とした前記１フレームの画像の表示位置を指定する位置情報がさらに含まれ、
前記第１の検出手段は、前記第２の検出手段によりシーンチェンジが検出された場合、検出されたシーンチェンジの位置を基準として前記位置情報で指定される位置のフレームを対象として、前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像を検出することを行う
請求項１に記載の情報処理装置。
前記切り出し情報を記憶する記憶手段をさらに備える
請求項１に記載の情報処理装置。
ネットワークを介して接続されるサーバから前記切り出し情報をダウンロードすることにより、前記記憶手段により記憶されている前記切り出し情報を更新する更新手段をさらに備える
請求項５に記載の情報処理装置。
切り出しの対象とするCMに含まれる１フレームの画像と、前記１フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、
前記選択ステップの処理により選択された前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像を、前記CMを含むコンテンツ全体の中から検出する検出ステップと、
前記検出ステップの処理により前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像が検出されたとき、前記選択ステップの処理により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出しステップと
を含む情報処理方法。
切り出しの対象とするCMに含まれる１フレームの画像と、前記１フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、
前記選択ステップの処理により選択された前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像を、前記CMを含むコンテンツ全体の中から検出する検出ステップと、
前記検出ステップの処理により前記切り出し情報に含まれる前記１フレームの画像と同じ１フレームの画像が検出されたとき、前記選択ステップの処理により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出しステップと
を含む処理をコンピュータに実行させるプログラム。