JP4293105B2 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4293105B2
JP4293105B2 JP2004293616A JP2004293616A JP4293105B2 JP 4293105 B2 JP4293105 B2 JP 4293105B2 JP 2004293616 A JP2004293616 A JP 2004293616A JP 2004293616 A JP2004293616 A JP 2004293616A JP 4293105 B2 JP4293105 B2 JP 4293105B2
Authority
JP
Japan
Prior art keywords
image
information
frame
cutout
pattern file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004293616A
Other languages
English (en)
Other versions
JP2006109126A (ja
Inventor
竜夫 永松
邦敏 清水
努 寺西
尚生 奥田
浩 川口
敦 光澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004293616A priority Critical patent/JP4293105B2/ja
Priority to US11/240,512 priority patent/US8144991B2/en
Publication of JP2006109126A publication Critical patent/JP2006109126A/ja
Application granted granted Critical
Publication of JP4293105B2 publication Critical patent/JP4293105B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、例えば、番組とCM(Commercial)が混在するコンテンツ全体から、CMを正確に切り出すことができるようにする情報処理装置および方法、並びにプログラムに関する。
例えば、録画したテレビジョン番組中のCMのスキップ手法には、そのほとんどが15秒間、または30秒間だけ放送されるという特徴から、ユーザ操作に応じて15秒、または30秒単位で早送りを行なう手動スキップ手法や、2ヶ国語放送、ステレオ放送などのように、音声のモードがCMのときと本放送(番組放送)のときとで異なることを利用して、CMの音声モードであるステレオ放送の間だけ、早送りを自動的に行うスキップ手法がある。
また、CMをスキップしたり、自動的にカットしたりするためのCMを認識する技術としては、例えば、特許文献1に開示されているように、CMの開始位置を表す無音区間やシーンチェンジの発生を検出し、それらの発生位置からCMの終了部分を推測する技術がある。
特開2000−165796号公報
このように、テレビジョン放送中からCMをスキップする技術が各種提案されているものの、例えば、上述した手動による手法の場合、当然、ユーザは、CMが始まるたびにスキップ操作を行なう必要があり、手間かかる。また、スキップ操作は人間が行う操作である以上、CMが始まったことを認識してから操作を行うまでに僅かではあるが時間がかかり、CMスキップ後の、本放送の頭出しを正確に行なうことが難しい。
さらに、例えば、本放送と同じモノラル音声でCMも放送されるといったように、CMのときと本放送のときとで音声モードが同じ放送も存在し、このような場合においては、音声モードの違いを検出して行う上述したスキップ手法ではCMが正確に認識されず、スキップも正確に行われない。
一方、特許文献1に開示されているように、無音区間やシーンチェンジの発生を検出してCMを認識する場合、本放送中に無音区間やシーンチェンジが発生したとき、それ以降の本放送の部分がCMとして認識されたり、反対に、CM中に無音区間やシーンチェンジが複数回発生した場合、CM部分だけを正確に認識することができないことがあるという課題があった。
本発明はこのような状況に鑑みてなされたものであり、例えば、テレビジョン放送中のCMを正確に切り出すことができるようにするものである。
本発明の情報処理装置は切り出しの対象とするCMに含まれる1フレームの画像と、1フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択手段と、選択手段により選択された切り出し情報に含まれる1フレームの画像と同じ1フレームの画像を、CMを含むコンテンツ全体の中から検出する第1の検出手段と、第1の検出手段により切り出し情報に含まれる1フレームの画像と同じ1フレームの画像が検出されたとき、選択手段により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出し手段とを備える
本発明の情報処理装置は、コンテンツ全体における、切り出し手段により切り出されたCMの位置を表すメタデータを生成する生成手段をさらに備えるようにすることができる。
切り出し情報には、1フレームのうちの切り出す範囲を指定する情報が含まれ、第1の検出手段には、コンテンツの注目する1フレームのうちの切り出し情報に含まれる情報により指定される範囲の画像と、切り出し情報に含まれる1フレームの画像をマッチングすることによって、1フレームの画像と同じ1フレームの画像を、CMを含むコンテンツ全体の中から検出させることができる。
本発明の情報処理装置は、コンテンツからシーンチェンジ検出する第2の検出手段をさらに備えるようにすることができる。切り出し情報には、シーンチェンジ位置を基準とした1フレームの画像の表示位置を指定する位置情報がさらに含まれ第1の検出手段は、第2の検出手段によりシーンチェンジが検出された場合、検出されたシーンチェンジの位置を基準として位置情報で指定される位置のフレームを対象として、切り出し情報に含まれる1フレームの画像と同じ1フレームの画像を検出することを行う。
本発明の情報処理装置は、切り出し情報を記憶する記憶手段をさらに備えるようにすることができる。
本発明の情報処理装置は、ネットワークを介して接続されるサーバから切り出し情報をダウンロードすることにより、記憶手段により記憶されている切り出し情報を更新する更新手段をさらに備えるようにすることができる。
本発明の情報処理方法は切り出しの対象とするCMに含まれる1フレームの画像と、1フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、選択ステップの処理により選択された切り出し情報に含まれる1フレームの画像と同じ1フレームの画像を、CMを含むコンテンツ全体の中から検出する検出ステップと、検出ステップの処理により切り出し情報に含まれる1フレームの画像と同じ1フレームの画像が検出されたとき、選択ステップの処理により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出しステップとを含むことを特徴とする。
本発明のプログラムは切り出しの対象とするCMに含まれる1フレームの画像と、1フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、選択ステップの処理により選択された切り出し情報に含まれる1フレームの画像と同じ1フレームの画像を、CMを含むコンテンツ全体の中から検出する検出ステップと、検出ステップの処理により切り出し情報に含まれる1フレームの画像と同じ1フレームの画像が検出されたとき、選択ステップの処理により選択された切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMを切り出す切り出しステップとを含む処理をコンピュータに実行させる
本発明の情報処理装置および方法、並びにプログラムにおいては切り出しの対象とするCMに含まれる1フレームの画像と、1フレームの画像の表示位置を基準として表されるCMの開始位置と終了位置の情報を含む、切り出しの対象とするCM毎に用意される切り出し情報が選択され、選択された切り出し情報に含まれる1フレームの画像と同じ1フレームの画像が、CMを含むコンテンツ全体の中から検出される。切り出し情報に含まれる1フレームの画像と同じ1フレームの画像が検出されたとき、切り出し情報に含まれるCMの開始位置と終了位置の情報に基づいて、切り出しの対象とするCMが切り出される。
本発明によれば、切り出しの対象とするコンテンツがCMである場合、コンテンツ全体からCMを正確に切り出すことができる。
また、本発明によれば、コンテンツの切り出しに用いられる切り出し情報を更新することができる。
以下、本発明の実施の形態について図を参照して説明する。
図1は、本発明を適用した情報処理装置1の構成例を示すブロック図である。
CPU(Central Processing Unit)11は、ROM(Read Only Memory)12に記憶されているプログラム、または、記憶部17からRAM(Random Access Memory)13にロードされたプログラムに従って各種の処理を実行する。RAM13にはまた、CPU11が各種の処理を実行する上において必要なデータなどが適宜記憶される。
CPU11、ROM12、およびRAM13は、バス14を介して相互に接続される。このバス14にはまた、入出力インタフェース15も接続される。
入出力インタフェース15に接続されるコンテンツ受信部16は、図示せぬアンテナから供給されてくる信号を受信し、本放送であるテレビジョン番組と、CMを含む放送コンテンツを取得する。アンテナにおいては、地上アナログ放送、地上ディジタル放送、BS(Broadcasting Satellite)/CS(Communications Satellite)ディジタル放送などの各種の放送波が受信される。コンテンツ受信部16により取得された放送コンテンツは、例えば、入出力インタフェース15を介して記憶部17に供給され、記憶される。
入出力インタフェース15には、記憶部17、通信部18も接続される。
記憶部17は、ハードディスクなどより構成され、コンテンツ受信部16から供給されてきた放送コンテンツなどを記憶する。記憶部17に記憶された放送コンテンツは、適宜、CPU11により読み出され、放送コンテンツ全体からCMが切り出される。ここで、「切り出し」とは、放送コンテンツ全体のうち、テレビジョン番組部分とCM部分とを区別して扱うことができるようにすることをいう。
通信部18は、ネットワークを介しての通信処理を行う。例えば、通信部18は、放送コンテンツ全体からCMを切り出すときにCPU11により参照されるファイル(後述するパターンファイル)を、ネットワークに接続されるサーバからダウンロードする処理などを行う。
入出力インタフェース15にはまた、必要に応じてドライブ19が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどよりなるリムーバブルメディア20が適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部17にインストールされる。また、コンテンツ受信部16により受信されたものではなく、リムーバブルメディア20に記憶されている放送コンテンツが情報処理装置1において処理される場合、ドライブ19により読み出された放送コンテンツは、入出力インタフェース15を介して記憶部17に供給され、記憶される。
このような構成を有する情報処理装置1においては、上述したように、放送コンテンツ全体からCMが切り出され、その切り出し位置(CMの位置)を表すメタデータが放送コンテンツに付加される。CMの切り出しは、CM毎に用意されるパターンファイルを用いて行われる。
パターンファイルには、例えば、ある商品のCMの終わり付近(CM全体の時間が15秒であるとすると、例えば、最後の1秒間付近)に、その商品のメーカである会社のロゴを表示する1フレームの画像が含まれる場合、その画像により表示されるロゴのイメージ(画像)を指定する情報と、ロゴを表示する1フレームの画像の位置を基準としたCMの開始位置と終了位置が記述されている。情報処理装置1においては、その記述に基づいてCMの開始位置と終了位置が特定され、CMが切り出される。CMの開始位置と終了位置の間の範囲が切り出しの範囲となる。
具体的には、例えば、図2に示すように、会社のロゴである「SOMY」を表示する1フレームの画像を含むCM(CMを含む放送コンテンツ)を処理対象としており、このCMのパターンファイルが用意されている場合、情報処理装置1においては、処理対象の放送コンテンツを構成する画像が1フレームずつ、例えば、表示順に注目され、注目している画像に、パターンファイルにより指定される図2のロゴが含まれるか否かが画像マッチングにより判断される。
マッチングにより、「SOMY」のロゴを表示する1フレームの画像が検出された場合、このCMのパターンファイルには「SOMY」のロゴを表示する1フレームの画像の位置を基準としたCMの開始位置、終了位置が記述されているから、検出された1フレームの画像の位置を基準として、CMの開始位置、終了位置がパターンファイルの記述に基づいて特定される。
図3は、CMの開始位置、終了位置の特定の例を示す図である。
図3に示すように、放送コンテンツを構成する画像が1フレームずつ表示順に注目され、注目された1フレームの画像と、パターンファイルにより指定されるロゴイメージとのマッチングの結果、図2の「SOMY」を表示する1フレームの画像(以下、ロゴ画像という)が位置PLogoで検出された場合、パターンファイルには位置PLogoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置PLogoを基準とした、このCMの開始位置が記述されているから、情報処理装置1においてはCMの開始位置が位置PSであるとして特定される。
同様に、パターンファイルには位置PLogoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置PLogoを基準とした、このCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
以上のことから、1つのパターンファイルは、それにより開始位置、終了位置等が表される1つのCMを切り出すためのヒントを情報処理装置1に与えるものであるといえる。
生成されたメタデータは、例えば、放送コンテンツを再生する場合にCMをスキップするときや、CMを除いて、テレビジョン番組(本放送の部分)だけをDVD(Digital Versatile Disc)などのリムーバブルメディア20に記憶させるときなどに用いられる。
例えば、図3のようにCMの開始位置と終了位置が特定された場合、位置PSから位置PEまでは再生されずにスキップされたり、位置PSから位置PEまでを除いた放送コンテンツ(位置PSから時間的に前の部分、位置PEから時間的に後ろの部分)がリムーバブルメディア20に記憶されることになる。
このように、情報処理装置1は、ロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、無音区間やシーンチェンジを検出して、それらが検出された位置から15秒間、或いは30秒間をCM部分として扱うといったように、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合などに較べて、確実に、CMの位置を特定することができる。
すなわち、無音区間やシーンチェンジの検出結果からCMの位置を特定する場合、無音区間やシーンチェンジがCM中に存在するときには放送コンテンツ中のテレビジョン番組の部分も含めてCMの位置として誤って特定してしまうことがあるが、そのような誤った特定を防止することができる。
CMの位置を特定する情報処理装置1の一連の処理についてはフローチャートを参照して後述する。
図4は、情報処理装置1の機能構成例を示すブロック図である。図4の各機能部の少なくとも一部は、図1のCPU11により所定のプログラムが実行されることによって実現される。
録画制御部31は、コンテンツ受信部16を制御して所定の放送コンテンツを選択し、選択した放送コンテンツ(画像と音声)を記憶部17のコンテンツ記憶部51に記憶させる。
画像認識部32は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの画像(画像シーケンス)を取得し、注目する1フレームの画像に、制御部33から供給されてきたパターンファイルにより指定されるロゴイメージが含まれるか否かをマッチングにより判断する。例えば、画像認識部32によるマッチングは、マッチングの精度を高めるため、また、処理負担を軽減させるため、注目する1フレームの画像のうちの所定の範囲がパターンファイルの記述に基づいて切り出され、切り出された部分の画像にマスク処理を施して得られた結果とロゴイメージに基づいて行われる。
画像認識部32により、注目する1フレームの画像に、パターンファイルにより指定されるロゴイメージが含まれると判断された場合、すなわち、ロゴ画像が検出された場合、ロゴ画像の位置を表す情報がメタデータ生成部42に出力される。
なお、画像認識部32に供給される画像は、コンテンツ記憶部51に一旦記憶され、所定のタイミングで読み出されたものであってもよい。
制御部33は、パターンファイル選択部41とメタデータ生成部42からなる。
パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つずつ選択し、選択したパターンファイルを画像認識部32に出力する。
メタデータ生成部42は、画像認識部32によりロゴ画像が検出されたとき、ロゴ画像の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述(ロゴ画像の検出に用いられたパターンファイルの記述)に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。メタデータ生成部42により生成されたメタデータは、外部のアプリケーションに供給され、放送コンテンツと対応付けて記憶されたり、放送コンテンツの再生(CMのスキップ再生)、放送コンテンツの記録(番組部分のみの記録)等に用いられる。
記憶部17はコンテンツ記憶部51とパターンファイル記憶部52からなる。
コンテンツ記憶部51は、録画制御部31から供給されてきた放送コンテンツを記憶し、パターンファイル記憶部52は、CM毎のパターンファイルを記憶する。なお、説明を簡単にするため、以下の説明においては、全てのCMには1つのロゴ画像が含まれるものとする。
図5は、パターンファイルの例を示す図である。パターンファイルは、例えば、XML(eXtensible Markup Language)により記述される。
パターンファイルには、例えば、「CMタイトル」、「切り出し場所」、「ロゴイメージ」、「マスク」、「CM開始位置」、「CM終了位置」が記述される。
「CMタイトル」は、このパターンファイルにより開始位置、終了位置等が表されるCMのタイトルを表す。例えば、図2の画像を含むCMのパターンファイルには、「SOMY CM」などのようなタイトルが記述される。
「切り出し場所」は、画像認識部32によるマッチングのときに、注目する1フレームの画像のうちの切り出す場所(範囲)を指定する情報である。例えば、図2の画像を含むCMのパターンファイルにおいては、図6の点線で示すように、「SOMY」のロゴを含む範囲が切り出す場所として指定される。
「ロゴイメージ」は、ロゴイメージを指定する情報である。例えば、図2の画像を含むCMのパターンファイルには、「SOMY」のイメージを格納するファイル名などが記述される。
「マスク」は、「切り出し場所」に従って切り出した場所の画像のうち、ロゴ以外の部分を除去するためのマスク画像を指定する情報である。例えば、図6の点線で示す範囲が切り出された場合、切り出された範囲のうちの「SOMY」のロゴの背景の部分がマスク画像により除去され、残ったロゴの部分とロゴイメージのマッチングが行われる。
「CM開始位置」は、ロゴ画像の位置を基準としたCMの開始位置を表す情報であり、「CM終了位置」は、ロゴ画像の位置を基準としたCMの終了位置を表す情報である。CMの開始位置と終了位置は、例えば、フレーム数、時刻などで表される。
このような記述を含むパターンファイルがCM毎に用意され、パターンファイル記憶部52に記憶される。
次に、情報処理装置1の動作についてフローチャートを参照して説明する。
始めに、図7のフローチャートを参照して、メタデータを生成する情報処理装置1の一連の処理について説明する。
ステップS1において、情報処理装置1はCM認識処理を行う。この処理は、処理対象とする放送コンテンツの中から、そのとき選択しているパターンファイルに記述されているロゴイメージを含むロゴ画像を検出し、ロゴ画像を検出した場合、CMの認識に成功したものとする処理である。CM認識処理の詳細については図8のフローチャートを参照して後述する。
ステップS2において、情報処理装置1は、CMの認識に成功したか否かを判定し、CMの認識に成功したと判定した場合、ステップS3に進む。例えば、そのとき選択しているパターンファイルにより指定されているロゴイメージを含むロゴ画像が検出された場合、CMの認識に成功したと判定される。
ステップS3において、情報処理装置1はCM切り出し処理を行う。この処理は、ロゴ画像の位置を基準として、パターンファイルの記述から特定されるCMの開始位置、終了位置を表すメタデータを生成する処理である。CM切り出し処理の詳細については図9のフローチャートを参照して後述する。
ステップS3においてCM切り出し処理が終了された場合、または、ステップS2においてCMの認識に成功していないと判定された場合、処理は終了される。
このような処理が繰り返し行われ、処理対象とする1つの放送コンテンツに含まれるそれぞれのCMの開始位置、終了位置を表すメタデータが生成される。
次に、図8のフローチャートを参照して、図7のステップS1において行われるCM認識処理について説明する。この処理は、例えば、1フレームの画像が入力される毎に行われる。
ステップS11において、制御部33のパターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを画像認識部32に出力する。
ステップS12において、画像認識部32は、入力されてきた画像(テレビジョン番組の画像、CMの画像のいずれか)のうちの1フレームの画像に注目し、パターンファイル選択部41から供給されてきたパターンファイルの「切り出し場所」(図5)に基づいて、注目する1フレームの画像のうちの所定の範囲を切り出す。
ステップS13において、画像認識部32は、ステップS12で切り出した一部の画像に対して、パターンファイルの「マスク」により指定されるマスク画像を用いてマスク処理を施す。
ステップS14において、画像認識部32は、ステップS13のマスク処理により得られた結果と、パターンファイルの「ロゴイメージ」により指定されるロゴイメージとのマッチングを行い、ステップS15に進み、マッチするか否か、すなわち、注目する1フレームの画像が、いま選択されているパターンファイルによりCMの開始位置、終了位置が表されるCMのロゴ画像であるか否かを判定する。
ステップS15において、画像認識部32は、マスク処理により得られた結果とロゴイメージがマッチしないと判定した場合、ステップS16に進む。
ステップS16において、パターンファイル選択部41は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップS11に戻り、それ以降の処理を繰り返す。
パターンファイル選択部41は、ステップS16において、全てのパターンファイルを選択したと判定した場合、図7のステップS2以降の処理を行う。
注目する1フレームの画像がいずれのパターンファイルにより指定されるロゴイメージも含まない場合、そのことは、注目する1フレームの画像が、テレビジョン番組の画像であるか、CMの画像のうちのロゴ画像以外の画像であることを表す。この場合、注目している画像を基準として、パターンファイルの記述からCMの開始位置、終了位置を特定することができないから、図7のステップS2において、CMの認識に失敗したと判定され、処理は終了される。
一方、ステップS15において、画像認識部32は、マスク処理により得られた結果とロゴイメージがマッチすると判定した場合、ステップS17に進み、CM(いま選択されているパターンファイルにより開始位置、終了位置が特定されるCM)の認識に成功したと判断して、ロゴ画像を検出したことをメタデータ生成部42に通知する。
その後、処理は図7のステップS2に進み、ステップS2においてCMが認識されたと判定され、ステップS3のCM切り出し処理が行われる。
以上のように、パターンファイルの「切り出し場所」により、ロゴイメージとのマッチングを行う範囲が絞られるため、注目する1フレームの画像全体と、図2に示すようなロゴ画像全体をマッチングする場合に較べてマッチングの精度を高めることができる。また、パターンファイルの「ロゴイメージ」によりロゴの色なども指定されるため、単に、ロゴの形状、大きさ等が指定され、注目する画像に、指定される形状、大きさのロゴが含まれるか否かをマッチングにより判断する場合に較べてマッチングの精度を高めることができる。
次に、図9のフローチャートを参照して、図7のステップS3において行われるCM切り出し処理について説明する。
ステップS31において、制御部33のメタデータ生成部42は、画像認識部32により検出されたロゴ画像の位置を基準として、いま選択しているパターンファイル(図8のステップS11で選択されたパターンファイル)の「CM開始位置」、「CM終了位置」の記述に基づいてCMの開始位置、終了位置を特定する。
ステップS32において、メタデータ生成部42は、ステップS31で特定したCMの開始位置、終了位置を表すメタデータを生成し、生成したメタデータを外部のアプリケーションに出力する。その後、処理は図7のステップS3に戻り、メタデータ生成処理が終了される。
以上のように、CMに含まれる1つのロゴ画像を検出し、そのロゴ画像の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置を特定することにより、情報処理装置1は、ロゴ画像の位置を正確に検出することができる限り、確実に、かつ、フレーム単位などの非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。
以上においては、画像のマッチングにより、CMの開始位置、終了位置を特定するための基準となる位置(ロゴ画像の位置)が検出され、検出された位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるとしたが、音声のマッチングにより、パターンファイルで指定される、CM中で流れる所定の期間の音声の位置が検出され、検出された音声の位置とパターンファイルの記述に基づいてCMの開始位置、終了位置が特定されるようにしてもよい。
この場合、パターンファイルには、放送コンテンツの音声とマッチングされる、例えば、「ピンポーン」などのCMの所定のタイミングで流れる特徴的な効果音、或いは、CM全体で流れるバックグランドミュージックを指定する音声の情報と、その音声の位置を基準とした、CMの開始位置、終了位置を表す情報が記述される。以下、適宜、CMの開始位置、終了位置を特定するための基準となる音声を基準音という。
この場合、図10に示すように、情報処理装置1においては、放送コンテンツの所定の期間毎の音声と、パターンファイルにより指定される基準音(図10の例の場合、「ピンポーン」)とのマッチングが繰り返し行われる。マッチングにより基準音が位置PSoundで検出された場合、パターンファイルには位置PSoundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準とした、このCMの開始位置が記述されているから、CMの開始位置が位置PSであるとして特定される。
同様に、パターンファイルには位置PSoundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置1においてはCMの終了位置が位置PEであるとして特定される。
このように、音声に基づいてCMの開始位置、終了位置を特定するようにすることも可能である。
図11は、情報処理装置1の他の機能構成例を示すブロック図である。
図11の構成は、音声認識部61が追加されている点を除いて図4の構成と同じである。重複する説明については適宜省略する。
音声認識部61は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの音声を取得し、取得した音声のうちの所定の期間毎の音声に注目して、注目した音声と、パターンファイル選択部41から供給されてきたパターンファイルにより指定される基準音がマッチするか否かを判断する。
音声認識部61により、注目された期間の音声と基準音がマッチすると判断された場合、すなわち、基準音が検出された場合、基準音の位置を表す情報がメタデータ生成部42に出力される。
パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つずつ選択し、選択したパターンファイルを音声認識部61に出力する。パターンファイル記憶部52には、CM毎に、それぞれのCMの基準音を指定する情報と、基準音の位置を基準としたCMの開始位置、終了位置を記述するパターンファイルが記憶されている。
メタデータ生成部42は、音声認識部61により基準音が検出されたとき、基準音の位置を基準として、CMの開始位置、終了位置をパターンファイルの記述に従って特定し、特定した開始位置、終了位置を表すメタデータを生成する。
ここで、図12のフローチャートを参照して、図11の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
ステップS41において、制御部33のパターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを音声認識部61に出力する。
ステップS42において、音声認識部61は、入力された音声(テレビジョン番組の音声、CMの音声のいずれか)のうちの所定の期間の音声に注目し、注目する音声と、パターンファイルにより指定される基準音のマッチングを行う。
音声認識部61は、ステップS43において、注目する音声と基準音がマッチするか否かを判定し、マッチしないと判定した場合、ステップS44に進む。
ステップS44において、パターンファイル選択部41は、全てのパターンファイルを選択したか否かを判定し、全てのパターンファイルを選択していないと判定した場合、ステップS41に戻り、それ以降の処理を繰り返す。
パターンファイル選択部41は、ステップS44において、全てのパターンファイルを選択したと判定した場合、図7のステップS2以降の処理を行う。
一方、ステップS43において、音声認識部61は、注目する音声と、パターンファイルにより指定される基準音がマッチすると判定した場合、ステップS45に進み、CMの認識に成功したと判断して、基準音を検出したことをメタデータ生成部42に通知する。
その後、処理は図7のステップS2に進み、CMの認識に成功したと判定された後、ステップS3のCM切り出し処理が行われる。ステップS3においては、検出された基準音の位置を基準として、パターンファイルの記述に基づいてCMの開始位置、終了位置が特定され、それらを表すメタデータが生成される。
以上のように、画像によるマッチングだけでなく、パターンファイルで指定されるCM中の音声をマッチングにより検出することによっても、情報処理装置1は、基準音の位置を正確に検出することができる限り、確実に、かつ、非常に高い精度で、CMの開始位置、終了位置を特定することが可能になる。
以上においては、例えば、放送コンテンツの全ての画像に対してロゴイメージとのマッチングが行われるとしたが、CMの始まりと終わりにはシーンチェンジが必ず存在することからCMのマッチングの対象の近隣にはシーンチェンジが存在することを利用し、パターンファイルに、シーンチェンジが検出されてから何フレーム後のフレーム、何秒後のフレームというように、マッチングの対象とする画像を指定する情報も記述されている場合、情報処理装置1は、パターンファイルで指定される画像に対してのみ、ロゴイメージとのマッチングを行えばよいことになる。これにより、全ての画像に対してマッチングを行う場合に較べて処理負担が軽減される。
図13は、CMの開始位置、終了位置の特定の他の例を示す図である。
この場合、情報処理装置1においては、例えば、放送コンテンツの先頭から順にシーンチェンジの検出が行われる。
図13に示すように、シーンチェンジが位置PChangeで検出された場合、パターンファイルには、位置PChangeを基準として、何フレーム後または何秒後がロゴ画像の位置であるというように、シーンチェンジの位置PChangeを基準とした、このCMのロゴ画像の位置が記述されているから、情報処理装置1においては、パターンファイルにより指定される位置の画像を対象として、ロゴイメージ(パターンファイルにより指定されるロゴイメージ)とのマッチングが行われる。
例えば、シーンチェンジの位置PChangeを基準としてパターンファイルにより指定される位置PLogoの画像が、図13に示すようにロゴ画像であるとして検出された場合、上述した全ての画像をマッチングの対象とする場合と同様に、パターンファイルには位置PLogoを基準として何フレーム前がCMの開始位置、或いは、何秒前がCMの開始位置であるというように、ロゴ画像の位置を基準とした、このCMの開始位置が記述されているから、情報処理装置1においては、CMの開始位置が位置PS(図13の例ではPS=PChange)であるとして特定される。
また、パターンファイルには位置PLogoを基準として何フレーム後がCMの終了位置、或いは、何秒後がCMの終了位置であるというように、ロゴ画像の位置を基準とした、このCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
このように、情報処理装置1は、シーンチェンジを検出した位置を基準として、パターンファイルで指定される位置の画像のみをマッチングの対象(ロゴ画像の検出対象)とするだけであるから、マッチングの対象を絞ることができ、全ての画像に対してマッチングを行う較べて、処理負担を軽減することができるとともに、マッチングの精度を高めることができる。
また、情報処理装置1は、マッチングによりロゴ画像を検出した後は、パターンファイルの記述に従って位置を特定するだけであるから、上述した、全ての画像を対象としてマッチングを行う場合と同様に、確実に、CMの位置を特定することができる。
図14は、以上のように、シーンチェンジの位置を基準として、マッチングの対象とする画像が指定されるパターンファイルの例を示す図である。
図14のパターンファイルは、「ロゴ画像の位置」が追加されている点を除いて、図5のパターンファイルと同じである。この「ロゴ画像の位置」は、シーンチェンジの位置を基準としたロゴ画像の位置を表す情報である。
なお、「ロゴ画像の位置」は、検出されたシーンチェンジの位置を基準として、さらに、所定の数だけ時間的に後のシーンチェンジの何フレーム後といったように、シーンチェンジの数を含めてロゴ画像の位置を指定するようにすることも可能である。当然、シーンチェンジの位置を基準として、何フレーム前または何秒前がロゴ画像の位置であるというように、シーンチェンジの位置の前の位置を指定するようにすることも可能である。
また、シーンチェンジの位置を基準としてマッチングの対象とする画像が指定される場合、「CM開始位置」、「CM終了位置」は、ロゴ画像の位置(例えば、図13の位置PLogo)を基準として記述するのではなく、検出されたシーンチェンジの位置(例えば、図13の位置PChange)を基準として、それぞれの位置を記述するようにしてもよい。
図15は、情報処理装置1の機能構成例を示すブロック図である。
図15の構成は、シーンチェンジ検出部71が追加されている点を除いて図4の構成と同じである。重複する説明については適宜省略する。
シーンチェンジ検出部71は、コンテンツ受信部16から供給されてきた放送コンテンツのうちの画像(画像シーケンス)を取得し、シーンチェンジを検出する。シーンチェンジの検出は、例えば、時間的に連続する2フレームの画像に注目し、それらの各画素の画素値の変化が所定の閾値より大きいか否かに基づいて行われる。シーンチェンジ検出部71は、シーンチェンジを検出したとき、シーンチェンジを検出したことを画像認識部32と制御部33のパターンファイル選択部41に通知する。画像認識部32に対する通知にはシーンチェンジの位置を表す情報が含まれる。
画像認識部32は、シーンチェンジ検出部71によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、特定した画像がロゴ画像であるか否かを判断する。画像認識部32による判断結果はメタデータ生成部42に通知される。
次に、図16のフローチャートを参照して、図15の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
画像が入力されてきたとき、ステップS61において、シーンチェンジ検出部71は、シーンチェンジの検出を行う。
シーンチェンジ検出部71は、ステップS62において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップS61に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで画像認識部32等による処理が行われないことになり、ロゴ画像の検出に要する処理負担が軽減される。
ステップS62において、シーンチェンジ検出部71は、シーンチェンジを検出したと判定した場合、そのことを画像認識部32とパターンファイル選択部41に通知する。
ステップS63において、パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを画像認識部32に出力する。
ステップS64において、画像認識部32は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする画像を特定し、ステップS65に進む。
ステップS65以降の処理は、図8のステップS12以降の処理と同様である。すなわち、ステップS65において、ステップS64で特定された画像の一部が切り出され、ステップS66に進み、その切り出された一部の画像に対してマスク処理が施される。
ステップS67において、マスク処理の結果と、パターンファイルで指定されるロゴイメージとのマッチングが行われ、ステップS68に進み、それらがマッチするか否かが判定される。
ステップS68において、マスク処理の結果とロゴイメージがマッチしないと判定された場合、ステップS69に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップS63以降の処理が繰り返される。なお、検出されたシーンチェンジが、いま選択されているパターンファイルにより開始位置、終了位置が表されるCMのロゴ画像の位置を特定する基準となるものではない場合(図13の例の場合、位置PChangeで発生したものではない場合)、選択されているパターンファイルの記述からステップS64において特定されるロゴ認識の対象とする画像はロゴ画像ではないから、この場合、マスク処理の結果とロゴイメージがマッチしないと判定されることになる。
一方、ステップS68において、マスク処理の結果とロゴイメージがマッチすると判定された場合、ステップS70に進み、CMの認識が成功したと判断される。その後、図7のステップS2以降の処理が行われる。
以上においては、シーンチェンジの位置を基準として、マッチングの対象とする画像がパターンファイルにより指定されるとしたが、基準音のマッチングの対象とする音声の期間が、シーンチェンジの位置を基準としてパターンファイルにより指定されるようにしてもよい。
図17は、CMの開始位置、終了位置の特定の他の例を示す図である。
図17に示すように、シーンチェンジが位置PChangeで検出された場合、パターンファイルには、位置PChangeを基準として、何秒後の所定の期間の音声が基準音であるというように、シーンチェンジの位置PChangeを基準とした、このCMの基準音の位置が記述されているから、情報処理装置1においては、パターンファイルにより指定される期間の音声を対象として、基準音(パターンファイルにより指定される基準音)とのマッチングが行われる。
例えば、シーンチェンジの位置PChangeを基準としてパターンファイルにより指定される位置PSoundの期間の音声が、パターンファイルで指定される基準音(図17の例の場合「ピンポーン」)である場合、パターンファイルには位置PSoundを基準として何秒前がCMの開始位置であるというように、基準音の位置を基準としたCMの開始位置が記述されているから、情報処理装置1においては、CMの開始位置が位置PS(図17の例ではPS=PChange)であるとして特定される。
また、パターンファイルには位置PSoundを基準として何秒後がCMの終了位置であるというように、基準音の位置を基準としたCMの終了位置が記述されているから、情報処理装置1においては、CMの終了位置が位置PEであるとして特定される。なお、この場合も、シーンチェンジの位置PChangeを基準としてCMの開始位置、終了位置がパターンファイルに記述されるようにしてもよい。
このようにしてCMの開始位置、終了位置が特定され、特定されたCMの開始位置PS、終了位置PEを表すメタデータが生成される。
図18は、情報処理装置1の他の機能構成例を示すブロック図である。
図18の構成は、音声認識部61が追加されている点を除いて図15の構成と同じである。重複する説明については適宜省略する。
音声認識部61は、シーンチェンジ検出部71によりシーンチェンジが検出されたとき、シーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、特定した期間の音声が基準音であるか否かを判断する。音声認識部61による判断結果はメタデータ生成部42に通知される。
次に、図19のフローチャートを参照して、図18の情報処理装置1により行われるCM認識処理について説明する。この処理も、図7のステップS1において行われるものである。
音声認識部61に対して音声の入力があった場合、ステップS81において、シーンチェンジ検出部71は、供給されてくる画像に基づいてシーンチェンジの検出を行う。
シーンチェンジ検出部71は、ステップS82において、シーンチェンジを検出したか否かを判定し、検出していないと判定した場合、ステップS81に戻り、それ以降の処理を繰り返す。これにより、シーンチェンジが検出されるまで音声認識部61等による処理が行われないことになり、基準音の検出に要する処理負担が軽減される。
ステップS82において、シーンチェンジ検出部71は、シーンチェンジを検出したと判定した場合、そのことを音声認識部61とパターンファイル選択部41に通知し、ステップS83に進む。
ステップS83において、パターンファイル選択部41は、パターンファイル記憶部52に記憶されているパターンファイルを1つ選択し、選択したパターンファイルを音声認識部61に出力する。
ステップS84において、音声認識部61は、検出されたシーンチェンジの位置を基準として、パターンファイル選択部41から供給されてきたパターンファイルの記述に基づいてマッチングの対象とする音声の期間を特定し、ステップS85に進む。
ステップS85以降の処理は、図12のステップS42以降の処理と同様である。すなわち、ステップS85において、ステップS84で特定された期間の音声と、パターンファイルで指定される基準音とのマッチングが行われ、ステップS86に進み、それらがマッチするか否かが判定される。
ステップS86において、ステップS84で特定された期間の音声と、基準音がマッチしないと判定された場合、ステップS87に進み、全てのパターンファイルを選択したか否かが判定され、選択されたと判定されるまで、ステップS83以降の処理が繰り返される。
一方、ステップS86において、ステップS84で特定された期間の音声と、基準音がマッチすると判定された場合、ステップS88に進み、CMの認識が成功したと判断される。その後、図7のステップS2以降の処理が行われる。
以上のように、マッチングの対象とする画像、音声の期間が指定されることによって、情報処理装置1は、全ての画像、全ての期間の音声を対象としてマッチングを行う場合に較べて処理負担を軽減することができる。また、マッチングの対象が絞られるから、マッチングの精度を高めることもできる。
なお、以上においては、マッチングの対象とする位置を指定する基準となるものがシーンチェンジである場合について説明したが、放送コンテンツ中に存在する無音区間を基準としてマッチングの対象とする位置が指定されるようにしてもよい。
また、以上においては、マッチングの対象とする位置を指定することによってCMの認識精度を高めることができるとしたが、画像によるCMの認識(ロゴを検出することによるCMの認識)と、音声によるCMの認識(基準音を検出することによるCMの認識)を組み合わせることによってCMの認識精度を高めることもできる。
この場合、例えば、画像によるCMの認識結果を表すスコア(マッチ度)と、音声によるCMの認識結果を表すスコアが加算され、加算して得られた値が所定の閾値を越えるか否かが判定される。加算して得られた値が所定の閾値を越えたと判定された場合、CMの認識に成功したと判断される。
ここで、図20のフローチャートを参照して、画像によるCMの認識と音声によるCMの認識を組み合わてCMの認識を行う情報処理装置1(図11、図18の情報処理装置1)の処理について説明する。
ステップS101において、パターンファイル選択部41は、画像によるCMの認識を行うためのパターンファイルを選択し、それを画像認識部32に供給するとともに、音声によるCMの認識を行うためのパターンファイルを選択し、それを音声認識部61に供給する。画像認識部32に供給されるパターンファイルと、音声認識部61に供給されるパターンファイルは同じCMについてのものとされる。
ステップS102において、画像認識部32は、図8または図16を参照して説明したような画像によるCM認識を行う。画像認識部32による認識結果を表すスコアは制御部33のメタデータ生成部42に出力される。
一方、音声認識部61は、ステップS103において、図12または図19を参照して説明したような音声によるCM認識を行う。音声認識部61による認識結果を表すスコアもメタデータ生成部42に出力される。
メタデータ生成部42は、ステップS104において、画像認識部32と音声認識部61から供給されてきたスコアに基づいて、画像によるものと音声によるものとのいずれの認識においてもCMが認識されたか否か(画像認識部32によるマッチング対象の画像の一部とロゴイメージがマッチし、音声認識部61によるマッチング対象の期間の音声と基準音がマッチしたか否か)を判定し、CMが認識されたと判定した場合、ステップS105に進む。CMが認識されなかったと判定された場合、ステップS105の処理はスキップされる。
ステップS105において、メタデータ生成部42は、画像認識部32から供給されてきたスコアと、音声認識部61から供給されてきたスコアを加算し、ステップS106に進み、スコアの加算結果が所定の閾値を越えたか否かを判定する。
メタデータ生成部42は、ステップS106において、スコアの加算結果が所定の閾値を越えていないと判定した場合、ステップS107に進み、全てのパターンファイルが選択されたか否かを判定する。
メタデータ生成部42は、ステップS107において、全てのパターンファイルが選択されていないと判定した場合、ステップS101に戻り、それ以降の処理を繰り返し実行し、全てのパターンファイルが選択されたと判定した場合、処理を終了させる。
一方、ステップS106において、メタデータ生成部42は、スコアの加算結果が所定の閾値を越えたと判定した場合、ステップS108に進み、CMの認識に成功したと判断する。その後、処理は図7のステップS2に進む。
このように、画像認識部32によるCMの認識結果と音声認識部61によるCMの認識結果とを組み合わせることによって、それぞれの認識精度があまり信頼できるものではない場合であっても、全体として、CMの認識精度を高めることができる。
なお、以上のようにしてCMの認識に関するヒントを情報処理装置1に与えるパターンファイルは、例えば、所定の周期でサーバからダウンロードされるようにしてもよい。放送されるCMは日々変わっていくものではあるが、最新のCMのパターンファイルがサーバに用意され、それがダウンロードされるようにすることで、ユーザは、新たに放送が開始されたCMについても、録画した放送コンテンツの中からそれを切り出し、番組と分けて取り扱うことができる。
図21は、パターンファイルのダウンロードシステムの概念を示す図である。
例えば、CMの愛好家が、自分がパーソナルコンピュータなどに録画しておいた放送コンテンツを用いて、CMのロゴ画像の位置を基準とした開始位置、終了位置を決め、ロゴイメージを指定する情報と、それらの位置を記述した図5、図14に示すようなパターンファイルを作成する。
多くのCMの愛好家により作成されたパターンファイルがネットワーク上のサーバ81に登録されることによって、サーバ81には、最新のCMも含めて、様々なCMのパターンファイルが登録されることになる。
情報処理装置1と同じ構成を有する情報処理装置82乃至84においては、サーバ81からのパターンファイルのダウンロードが所定の周期で行われ、様々なCMを切り出すことが可能なパターンファイルが記憶される。
当然、CMの愛好家ではなく、サービス業者などがパターンファイルを作成し、サーバ81からダウンロード可能なように提供するようにしてもよい。
図22は、パターンファイルのダウンロード等を管理する情報処理装置1の機能構成例を示すブロック図である。図22の機能部も、図1のCPU11により所定のプログラムが実行されることによって実現される。
パターンファイル管理部91は、通信部18(図1)を制御して、所定のタイミングでネットワークを介してサーバ81にアクセスし、例えば、パターンファイル記憶部52に記憶されていないパターンファイルをダウンロードする。パターンファイル管理部91によりダウンロードされたパターンファイルはパターンファイル記憶部52に記憶される。これにより、パターンファイル記憶部52に記憶されているパターンファイルが更新される。
なお、コンテンツ記憶部51に記憶されている放送コンテンツに含まれていないCMであって、既に放送されていないCMのパターンファイルについては、パターンファイル管理部91により所定のタイミングで順次消去されるようにしてもよい。これにより、不使用のパターンファイルにより記憶部17の容量が圧迫されるのを防止することができる。
ここで、図23のフローチャートを参照して、パターンファイル管理部91により行われるパターンファイル管理処理について説明する。
ステップS111において、パターンファイル管理部91は、パターンファイルの更新のタイミングであるか否かを判定し、更新のタイミングではないと判定した場合、処理を終了させる。例えば、1日毎、1週間毎などのように、所定の周期でパターンファイル管理部91によりパターンファイルが更新される。
パターンファイル管理部91は、ステップS111において、更新のタイミングであると判定した場合、ステップS112に進み、サーバ81にアクセスする。
パターンファイル管理部91は、ステップS113において、最新のパターンファイルをサーバ81からダウンロードし、ダウンロードしたパターンファイルをパターンファイル記憶部52に記憶させる。
これにより、最新のCMのパターンファイルがパターンファイル記憶部52に記憶され、最新のCMであっても放送コンテンツの中から切り出すことが可能になる。
以上においては、CMの位置を特定するための基準になる画像はロゴ画像であるとしたが、CMの所定のタイミングで表示される出演者の顔のイメージ、商品のイメージ、ロゴ以外のテロップなど、CMの特徴を表す画像であれば、どのような画像を基準としてCMの位置が特定されるようにしてもよい。すなわち、この場合、出演者の顔のイメージ、商品のイメージ、テロップなどのイメージが、パターンファイルにより指定される。
なお、CMの位置を特定するための基準となる1フレームの画像に表示されるロゴなどの特徴を表す画像は、最初は遠くにあったものが次第に近づいてきたり、最初は透明度の高かったものが次第にはっきりと表示されたりするように、時間的に、似たような画像が前後に存在するものではなく、前後の画像との相関がなく、瞬間的に表示されるものであることが好ましい。
基準となる1フレームの画像を正確に検出することができることにより、その画像を基準として、CMの開始位置、終了位置をフレーム単位などの高い精度で特定することができる。例えば、似たような画像が前後に存在することから、基準となる1フレームのロゴ画像の検出位置が1フレーム、2フレームでもずれた場合、それに応じて、特定されるCMの開始位置、終了位置も1フレーム、2フレームずれることになるが、そのように、前後の画像との相関がなく、瞬間的に表示される画像を基準とすることにより、特定されるCMの位置が微妙にずれるのを防止することができる。
また、以上においては、パターンファイルには、ある1フレームの画像を基準として、CMの開始位置と終了位置がそれぞれ記述されるとしたが、その1フレームの画像を基準とした開始位置と、開始位置と終了位置との差が記述されるようにしてもよい。
例えば、開始位置から終了位置までのフレーム数や時間などを表す情報が記述されていることにより、情報処理装置1は、特定したCMの開始位置から、終了位置を特定することができる。反対に、1フレームの画像を基準とした終了位置と、終了位置と開始位置との差が記述されるようにしてもよい。
また、以上においては、開始位置、終了位置などの画像シーケンスを構成する各画像の位置は、フレーム数、時刻(時間)で特定されるとしたが、フィールド数で表されるようにしてもよいのはもちろんのこと、MPEG(Moving Picture Experts Group)2,4等のMPEG規格でいうGOP(Group Of Picture)の番号で特定されるようにしてもよい。また、処理対象の動画が、EVD(Enhanced Versatile Disk)規格などの様々な圧縮規格により圧縮された動画の場合であっても、それぞれの圧縮規格で用いられる画像の位置を表す情報によりCMの位置を特定することも可能である。
さらに、以上においては、CM毎にパターンファイルが用意されるとしたが、例えば、あるメーカが販売する商品の複数のCMのそれぞれにおいて、同じタイミングでそのメーカのロゴが表示される場合、パターンファイルは、そのメーカに対して1つだけ用意されるようにしてもよい。
すなわち、あるメーカから商品Aと商品BのCMが提供されており、商品AのCM全体におけるロゴ画像の位置(表示タイミング)と、商品BのCM全体におけるロゴ画像の位置とが同じである場合、商品Aと商品BのCM全体の時間が同じである限り、1つのパターンファイルでそれらのCMを認識させることができる。この場合、1つのパターンファイルが、同じメーカにより提供される複数のCMを認識するために使い回されることになる。
また、パターンファイルは、CMをスキップしたり、CMを除いたテレビジョン番組の部分をリムーバブルメディア20に記憶させたりするために用いられるのではなく、CMだけを集めたりすることに用いられるようにしてもよい。
なお、以上においては、CMを切り出すためのパターンファイルが用意されるとしたが、テレビジョン番組自体(本放送自体)を切り出すためのパターンファイルが用意されるようにしてもよい。この場合、例えば、テレビジョン番組の冒頭で表示される番組のタイトルのイメージがパターンファイルで指定され、そのタイトルの位置を基準とした、番組の開始位置、終了位置などがパターンファイルに記述される。
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
この記録媒体は、図1に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(登録商標)(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア20により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM12や、記憶部17に含まれるハードディスクなどで構成される。
なお、本明細書において、各ステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表わすものである。
本発明を適用した情報処理装置の構成例を示すブロック図である。 ロゴ画像の例を示す図である。 CMの開始位置、終了位置の特定の例を示す図である。 情報処理装置の機能構成例を示すブロック図である。 パターンファイルの例を示す図である。 切り出し場所の例を示す図である。 情報処理装置のメタデータ生成処理について説明するフローチャートである。 図7のステップS1において行われるCM認識処理について説明するフローチャートである。 図7のステップS3において行われるCM切り出し処理について説明するフローチャートである。 CMの開始位置、終了位置の特定の他の例を示す図である。 情報処理装置の他の機能構成例を示すブロック図である。 図7のステップS1において行われる他のCM認識処理について説明するフローチャートである。 CMの開始位置、終了位置の特定のさらに他の例を示す図である。 パターンファイルの他の例を示す図である。 情報処理装置のさらに他の機能構成例を示すブロック図である。 図7のステップS1において行われるさらに他のCM認識処理について説明するフローチャートである。 CMの開始位置、終了位置の特定の例を示す図である。 情報処理装置の機能構成例を示すブロック図である。 図7のステップS1において行われるさらに他のCM認識処理について説明するフローチャートである。 図7のステップS1において行われるCM認識処理について説明するフローチャートである。 パターンファイルのダウンロードシステムの概念を示す図である。 情報処理装置の機能構成例を示すブロック図である。 情報処理装置のパターンファイル管理処理について説明するフローチャートである。
符号の説明
1 情報処理装置, 32 画像認識部, 33 制御部, 41 パターンファイル選択部, 42 メタデータ生成部, 51 コンテンツ記憶部, 52 パターンファイル記憶部, 61 音声認識部, 71 シーンチェンジ検出部, 81 サーバ, 91 パターンファイル管理部

Claims (8)

  1. 切り出しの対象とするCMに含まれる1フレームの画像と、前記1フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択手段と、
    前記選択手段により選択された前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像を、前記CMを含むコンテンツ全体の中から検出する第1の検出手段と、
    前記第1の検出手段により前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像が検出されたとき、前記選択手段により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出し手段と
    を備える情報処理装置。
  2. 前記コンテンツ全体における、前記切り出し手段により切り出された前記CMの位置を表すメタデータを生成する生成手段をさらに備える
    請求項1に記載の情報処理装置。
  3. 前記切り出し情報には、1フレームのうちの切り出す範囲を指定する情報が含まれ、
    前記第1の検出手段は、前記コンテンツの注目する1フレームのうちの前記切り出し情報に含まれる情報により指定される範囲の画像と、前記切り出し情報に含まれる前記1フレームの画像をマッチングすることによって、前記1フレームの画像と同じ1フレームの画像を、前記CMを含む前記コンテンツ全体の中から検出する
    請求項1に記載の情報処理装置。
  4. 前記コンテンツからシーンチェンジ検出する第2の検出手段をさらに備え、
    前記切り出し情報に、シーンチェンジ位置を基準とした前記1フレームの画像の表示位置を指定する位置情報がさらに含まれ
    前記第1の検出手段は、前記第2の検出手段によりシーンチェンジが検出された場合、検出されたシーンチェンジの位置を基準として前記位置情報で指定される位置のフレームを対象として、前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像を検出することを行う
    請求項1に記載の情報処理装置。
  5. 前記切り出し情報を記憶する記憶手段をさらに備える
    請求項1に記載の情報処理装置。
  6. ネットワークを介して接続されるサーバから前記切り出し情報をダウンロードすることにより、前記記憶手段により記憶されている前記切り出し情報を更新する更新手段をさらに備える
    請求項5に記載の情報処理装置。
  7. 切り出しの対象とするCMに含まれる1フレームの画像と、前記1フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、
    前記選択ステップの処理により選択された前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像を、前記CMを含むコンテンツ全体の中から検出する検出ステップと、
    前記検出ステップの処理により前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像が検出されたとき、前記選択ステップの処理により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出しステップと
    を含む情報処理方法。
  8. 切り出しの対象とするCMに含まれる1フレームの画像と、前記1フレームの画像の表示位置を基準として表される前記CMの開始位置と終了位置の情報を含む、前記切り出しの対象とするCM毎に用意される切り出し情報を選択する選択ステップと、
    前記選択ステップの処理により選択された前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像を、前記CMを含むコンテンツ全体の中から検出する検出ステップと、
    前記検出ステップの処理により前記切り出し情報に含まれる前記1フレームの画像と同じ1フレームの画像が検出されたとき、前記選択ステップの処理により選択された前記切り出し情報に含まれる前記CMの開始位置と終了位置の情報に基づいて、切り出しの対象とする前記CMを切り出す切り出しステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2004293616A 2004-10-06 2004-10-06 情報処理装置および方法、並びにプログラム Expired - Fee Related JP4293105B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004293616A JP4293105B2 (ja) 2004-10-06 2004-10-06 情報処理装置および方法、並びにプログラム
US11/240,512 US8144991B2 (en) 2004-10-06 2005-10-03 Apparatus, method, and computer program for processing information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004293616A JP4293105B2 (ja) 2004-10-06 2004-10-06 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2006109126A JP2006109126A (ja) 2006-04-20
JP4293105B2 true JP4293105B2 (ja) 2009-07-08

Family

ID=36125623

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004293616A Expired - Fee Related JP4293105B2 (ja) 2004-10-06 2004-10-06 情報処理装置および方法、並びにプログラム

Country Status (2)

Country Link
US (1) US8144991B2 (ja)
JP (1) JP4293105B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102007018562A1 (de) * 2007-04-18 2008-10-23 Dialego Ag Verfahren und Vorrichtung zur Ermittlung und Bereitstellung von Information zu einem Bild
CN101681425A (zh) * 2007-05-08 2010-03-24 皇家飞利浦电子股份有限公司 用于检测视频数据流的插入片段的方法和设备
JP4427600B1 (ja) 2008-11-28 2010-03-10 株式会社東芝 映像解析装置およびプログラム
FR2935081A1 (fr) * 2009-02-25 2010-02-19 Continental Automotive France Procede et dispositif pour fournir au moins un type d'image a partir d'un defilement d'images video
US9906582B2 (en) * 2015-06-16 2018-02-27 Airwatch Llc Content snip capture and sharing
JP7268848B2 (ja) * 2019-02-28 2023-05-08 大学共同利用機関法人情報・システム研究機構 コマーシャル検出装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3679512B2 (ja) * 1996-07-05 2005-08-03 キヤノン株式会社 画像抽出装置および方法
US5999689A (en) * 1996-11-01 1999-12-07 Iggulden; Jerry Method and apparatus for controlling a videotape recorder in real-time to automatically identify and selectively skip segments of a television broadcast signal during recording of the television signal
JP2000069414A (ja) 1998-08-17 2000-03-03 Sony Corp 記録装置および記録方法、再生装置および再生方法、ならびに、cm検出方法
JP4026100B2 (ja) * 1998-11-30 2007-12-26 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US6469749B1 (en) * 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
KR100865247B1 (ko) * 2000-01-13 2008-10-27 디지맥 코포레이션 메타데이터를 인증하고 매체 신호들의 워터마크들 내에 메타데이터를 임베딩하는 방법
JP4512969B2 (ja) 2001-07-18 2010-07-28 ソニー株式会社 信号処理装置及び方法、記録媒体、並びにプログラム
JP2004023589A (ja) 2002-06-19 2004-01-22 Funai Electric Co Ltd Cm削除装置
JP2004266769A (ja) 2003-03-04 2004-09-24 Funai Electric Co Ltd Av信号記録装置
US20040237102A1 (en) * 2003-03-07 2004-11-25 Richard Konig Advertisement substitution
JP4296503B2 (ja) * 2004-10-04 2009-07-15 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7690011B2 (en) * 2005-05-02 2010-03-30 Technology, Patents & Licensing, Inc. Video stream modification to defeat detection

Also Published As

Publication number Publication date
US8144991B2 (en) 2012-03-27
JP2006109126A (ja) 2006-04-20
US20060072827A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
US9510044B1 (en) TV content segmentation, categorization and identification and time-aligned applications
US7483624B2 (en) System and method for indexing a video sequence
CN101681664B (zh) 用于在音频信号内确定时间点的方法
EP1954041A1 (en) Digest generating device, and program therefor
JP5135024B2 (ja) コンテンツのシーン出現を通知する装置、方法およびプログラム
JPH11506575A (ja) 情報の選択記憶システム及び方法
US8103149B2 (en) Playback system, apparatus, and method, information processing apparatus and method, and program therefor
US7676821B2 (en) Method and related system for detecting advertising sections of video signal by integrating results based on different detecting rules
US7149365B2 (en) Image information summary apparatus, image information summary method and image information summary processing program
KR20070001240A (ko) 실행중인 방송 또는 저장 콘텐츠를 캐치-업하기 위한 방법및 장치
WO2005017899A1 (en) Video abstracting
EP1892717A1 (en) Content tag attachment support device and content tag attachment support method
JP2008283486A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4814849B2 (ja) フレームの特定方法
JPWO2007029489A1 (ja) コンテンツリプレイ装置、コンテンツ再生装置、コンテンツリプレイ方法、コンテンツ再生方法、プログラム、および記録媒体
US7751681B2 (en) Time-series data recording device and time-series data recording method
US8144991B2 (en) Apparatus, method, and computer program for processing information
KR19980087389A (ko) 영상 신호 기록 장치 및 방법, 영상 신호 재생 장치 및 방법, 영상 신호 기록 및 재생 장치 및 방법, 및 기록 매체
US7876480B2 (en) Apparatus, method, and computer program for processing information
US20180210906A1 (en) Method, apparatus and system for indexing content based on time information
CN113170228B (zh) 用于从视听内容中提取可变长度不相交片段的音频处理
JP2007294020A (ja) 記録再生方法、記録再生装置、記録方法、記録装置、再生方法および再生装置
JP2006270233A (ja) 信号処理方法及び信号記録再生装置
US20070223880A1 (en) Video playback apparatus
JP5242826B1 (ja) 情報処理装置及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090330

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees