以下に、本発明の実施の形態について図面を参照して説明する。
[記録再生装置の構成について]
図1は、本発明を適用した記録再生装置1の構成例を示している。この記録再生装置1は、受信されたデジタルテレビジョン放送の番組を録画し、録画した番組をダイジェスト再生することができる機能を有している。記録再生装置1は、ダイジェスト再生を行うにあたり、チャプタの区切り点を検出するとともに、ダイジェスト再生において再生される映像を選択するための優先度を表すスコアを付与する。
そのチャプタ区切り点およびスコアの付与は、後述するように、チャプタ区切り点およびスコア(以下、適宜、チャプタ情報と称する)の検出に適した番組の分類を識別し、識別したその番組の分類に応じた方法で、チャプタ情報を検出する。
データ分離部11には、図示せぬ受信部から供給された、その受信部により受信された、例えばデジタルテレビジョン放送波のデジタルデータが入力される。データ分離部11は、入力されたデジタルデータをEPG(電子番組ガイド)データ、オーディオデータ、ビデオデータに分離する。以下、適宜、オーディオデータとビデオデータをまとめてAVデータと称する。
データ分離部11は、分離したEPGデータを保持部22に供給して保持させ、分離したAVデータを、入力制御部12に供給する。入力制御部12は、受信された放送番組の録画が行われるとき、データ分離部11から供給されたAVデータを、保持部20に供給して保持させる。入力制御部12はまた、データ分離部11から供給されたAVデータを、チャプタ情報検出対象としてデコーダ13に供給する。
デコーダ13は、入力制御部12から供給されたチャプタ情報の検出対象としてのAVデータ、または保持部20からチャプタ情報の検出対象として読み出したAVデータを、オーディオデータとビデオデータに分離し、オーディオデータをオーディオ特徴量抽出部14に、ビデオデータをビデオ特徴量抽出部15に、それぞれ供給する。
オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
ビデオ特徴量抽出部15は、デコーダ13から供給されたビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。なお、特徴量の抽出対象としてフレーム画像が使用される場合、フレームを小領域に分割し、それぞれの領域の特徴量を連結することで、1枚のフレームの特徴量とすることも可能である。特に、色ヒストグラム、色モーメントなど、それ自体では位置や形状の情報を持たない特徴量を使用するときに有効である。
特徴ベクトル生成部16は、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量の中から、識別部17において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル(以下、特徴ベクトルと称する)を生成する。特徴ベクトル生成部16は、生成した特徴ベクトルを、識別部17に供給する。
識別部17は、特徴ベクトル生成部16から供給された特徴ベクトルに基づいて、番組の分類(いまの例の場合、チャプタ情報を検出するのに適した番組の分類)を識別する。例えば識別部17は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器(後述する)により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組の分類を識別する。
識別部17は、識別結果として、番組の分類を示す情報(以下、分類情報と称する)を、チャプタ情報検出部18に供給する。チャプタ情報検出部18は、識別部17から供給された分類情報が示す番組の分類に応じて、チャプタ情報を検出し、保持部19に供給して保持させる。
例えばチャプタ情報検出部18は、オーティオ特徴量抽出部14またはビデオ特徴量抽出部15から供給される特徴量の中から、番組の分類に応じた特徴量を選択するとともに、番組の分類に応じた演算処理を実行する。
すなわちこの場合、チャプタ情報検出部18は、番組の分類に応じた特徴量の選択および演算を実行するための実行データ(例えば、パラメータやアルゴリズムを含むプログラム)を、番組の分類毎に保持しており、番組の分類に応じた実行データを選択して実行することにより、チャプタ情報を検出する。
再生部21は、保持部20に保持されているAVデータを読み出して、通常の再生やダイジェスト再生を行う。ダイジェスト再生を行う際は、再生部21は、保持部19に保持されているチャプタ情報に基づき、チャプタに付与されたスコアが一定の値以上である映像区間を、保持部20から適宜読み出して再生する。すなわちチャプタ情報に基づいて映像が間引かれて再生される。
サッカーの試合を放送する番組では、図2に示すように、通常、グランドの映像を含むシーンが多く放送されるので、サッカーの試合を放送する番組からは、例えば緑色の頻度が高い色ヒストグラムが多く(例えば、連続して)得られる。
そこで詳細は後述する学習器が行う学習においては、図2に示すようなグランドの映像を含むシーンから構成されるサッカーの試合を放送する番組を、分類が「サッカー番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。
そして、学習器は、分類が「サッカー番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば色ヒストグラムから得られた緑色の頻度の特徴空間上の分布が、「サッカー番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部17に設定されている。
また、事件や出来事を報道する番組は、図3に示すように、人物とスタジオの映像を含むシーンが多く放送されるので、事件や出来事を報道する番組からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムが多く得られる。
そこで詳細は後述する学習器が行う学習においては、図3に示すような人物とスタジオの映像を含むシーンから構成される事件や出来事を報道する番組を、分類が「ニュース番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。
そして学習器は、分類が「ニュース番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば特定の色の頻度の特徴空間上の分布が、「ニュース番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部17に設定されている。
図1の説明に戻り制御部41は、記録再生装置1全体を制御し、番組録画、通常再生、ダイジェスト再生等の処理を実行させる。
[学習器の構成について]
図4は、本発明を適用した学習器の一実施の形態の構成を示す図である。図4に示した学習器100は、入力制御部111、デコーダ112、フレーム抽出部113、ビデオ特徴量抽出部114、リファレンスデータ記憶部115、距離算出部116、最小距離保持部117、学習アルゴリズム処理部118、識別パラメータ保持部119、ドライブ120、通信部121を含む構成とされている。
入力制御部111は、外部から入力されるビデオデータの入力を制御する。ここでは、ビデオデータが入力され、そのビデオデータから識別パラメータが生成される例を挙げて説明をする。そのため、学習器100にはビデオデータが入力されるとして説明を続ける。また、図4に示した学習器100の構成も、ビデオストリームを処理する構成を示している。しかしながら、例えば、オーディオデータが学習器100に入力され、そのオーディオデータから識別パラメータが生成されるようにしてもよい。そのようにした場合、学習器100は、オーディオデータの入力を制御し、オーディオデータから識別パラメータを生成する構成とされる。
デコーダ112は、入力制御部111により入力が制御されたビデオデータをデコード(Decode)する。ビデオデータが何らかの符号化されている場合、その符号化に対応する復号が、デコード112において実行される。デコードされたビデオデータは、フレーム抽出部113に供給される。
フレーム抽出部113は、デコードされたビデオデータから、所定の条件に基づいて、フレームを抽出する。デコードされたビデオデータの全てのフレームを処理対処としても良いが、そのようにすると、処理負担の増大や、処理時間の増大につながるため、処理負担、処理時間の軽減をはかるために、ここでは、所定の条件に基づいて、所定枚数のフレームが処理対象として抽出されるとして説明を続ける。なお、所定の条件などについては、図5のフローチャートを参照した説明で明らかにする。
フレーム抽出部113により抽出されたフレームは処理対象のフレームとして、ビデオ特徴量抽出部114に供給される。ビデオ特徴量抽出部114は、供給されたフレームから特徴量を抽出する。
デコーダ112は、記録再生装置1のデコーダ13(図1)と同様の処理を実行し、ビデオ特徴量抽出部114は、記録再生装置1のビデオ特徴量抽出部15(図1)と同様の処理を実行する。よって、ビデオ特徴量抽出部15が、上記したようにフレームから色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出する場合、ビデオ特徴量抽出部114も、フレームから色ヒストグラム、差分画像、縮小画像などを、ビデオの特徴量として抽出する。
ビデオ特徴量抽出部114からのビデオ特徴量は、リファレンスデータ記憶部115または距離算出部116に供給される。ビデオ特徴量が、リファレンスデータとして用いられる場合、リファレンスデータ記憶部115に供給され、記憶される。一方、ビデオ特徴量が、教師データとしてのビデオデータから抽出され、リファレンスデータとの比較対象とされるデータである場合、距離算出部116に供給される。
リファレンスデータ記憶部115は、リファレンスデータを記憶する。このリファレンスデータ記憶部115は、識別パラメータを生成するために、予め比較対象とされるデータとして記憶されているデータである。
リファレンスデータ記憶部115に記憶されるリファレンスデータは、入力制御部111により入力が制御されたビデオデータから作成されたデータでも良いし、予め他の装置などで作成されたデータであっても良い。他の装置で作成されたデータである場合、例えば、リムーバブルディスク141に記憶されて配布されるようにしても良い。そのような場合、ドライブ120に、そのリムーバブルディスク141がセットされ、そのセットされたリムーバブルディスク141から読み出されることで、リファレンスデータ記憶部115にリファレンスデータが供給され、記憶される。
また、ネットワークを介してリファレンスデータが配信されるようにしても良い。ネットワークを介してリファレンスデータが配信される場合、通信部121により、配信されたリファレンスデータが受信され、その受信されたリファレンスデータが、リファレンスデータ記憶部115に供給されることで、記憶される。
このように、リファレンスデータは、学習器100で生成され、記憶されるようにしても良いし、リムーバブルディスク141などの記録媒体を介して、供給され、記憶されるようにしても良いし、ネットワークを介して供給され、記憶されるようにしても良い。
なお、学習器100は、記録再生装置1に備えることも可能である。学習器100が記録再生装置1に備えられ、学習器100自体でリファレンスデータを生成するように構成された場合、記録再生装置1に入力されたビデオデータからリファレンスデータを生成することができる。また、ネットワークを介して配信されるように構成した場合や、記録媒体を用いて配信されるように構成した場合、リファレンスデータを更新することが容易にできるようなる。
図4に示した学習器100の説明に戻り、距離算出部116は、リファレンスデータ記憶部115に記憶されているリファレンスデータと、ビデオ特徴量抽出部114からの処理対象とされているフレームとの距離を算出する。ここでは、リファレンスデータとしての特徴量と、フレームから抽出された特徴量とが用いられて距離が算出される。
距離算出部116で算出された距離(距離のデータ)は、最小距離保持部117に供給される。最小距離保持部117は、処理対象とされた複数のフレームのうち、リファレンスデータとの距離が最小の距離であったフレームとの距離を保持する。例えば、リファレンスデータが、30フレーム分の特徴量から構成されている場合、それぞれのフレームとの最小距離が、最小距離保持部117に保持されるため、30個の最小距離が保持される。このようにして保持された、例えば、30個の最小距離が、特徴ベクトルとして、学習アルゴリズム処理部118に供給される。
学習アルゴリズム処理部118は、所定のアルゴリズムに基づき、供給された特徴量ベクトルを用いて、識別パラメータを生成する。この生成された識別パラメータは、識別パラメータ保持部119に供給され、保持される。
識別パラメータ保持部119に保持された識別パラメータは、記録再生装置1の識別部17(図1)に供給され、保持される。例えば、ドライブ120に、リムーバブルディスク141がセットされ、そのセットされたリムーバブルディスク141に、識別パラメータ保持部119に保持されている識別パラメータが書き込まれる。そして、その識別パラメータが書き込まれたリムーバブルディスク141が、記録再生装置1にセットされることにより、識別パラメータが、識別部17に供給される。
また、ネットワークを介して識別パラメータが配信されるようにしても良い。この場合、識別パラメータ保持部119に保持されている識別パラメータが、通信部121に読み出され、通信部121の制御の基、記録再生装置1の識別部17に供給される。
このような構成を有する学習器100の学習について、以下に説明する。
[リファレンスデータの取得について]
まず、リファレンスデータ記憶部115に記憶されるリファレンスデータの取得に関する処理について説明する。リファレンスデータは、識別パラメータを生成する前の時点で、リファレンスデータ記憶部115に記憶されている必要がある。そこで、識別パラメータの生成に関する説明の前に、図5のフローチャートを参照し、学習器100でリファレンスデータを作成するときの処理について説明する。
ステップS101において、入力制御部111は、ビデオストリームを取得する。この取得されるビデオストリームは、カテゴリが予めわかっている番組のビデオストリームである。カテゴリとは、例えば、“ニュース”とか、“バラエティ”といった、番組が属するジャンルなどであり、分類に関する情報である。分類とは、上記した説明において、識別部17が、“特徴ベクトル生成部16から供給された特徴ベクトルに基づいて番組の分類を識別する”際の“分類”である。
なお、この分類に関する情報、すなわちカテゴリは、詳細な分類の基、割り振られたカテゴリであることが望ましい。例えば、スポーツというカテゴリも、詳細に分類し、“スポーツ中継”、“スポーツニュース”、“スポーツに関するバラエティ”といったようなカテゴリであることが好ましい。
EPGには、番組に関する情報として、カテゴリに関する情報が記載されているが、その記載されている情報は、例えば、“スポーツ”といった大雑把な情報であることが多い。このような情報に基づいて、例えば、チャプタ情報を検出すると、適切なチャプタ情報を検出できなことがある。換言すれば、“スポーツ中継”の番組と“スポーツニュース”の番組とでは、チャプタ情報を検出するとき、同じアルゴリズムではなく、異なるアルゴリズムで検出した方が、それぞれの番組に適したチャプタ情報を検出できる。
このようなことを考慮したチャプタ情報が検出できるように、学習器100は学習を行う。よって、入力制御部111に入力されるビデオデータに関するカテゴリも、詳細に分類された結果のカテゴリ(その情報)であることが好ましく、以下の説明においては、そのような情報が入力されるとして説明を続ける。
ステップS101において、入力制御部111によりビデオストリームが取得されると、ステップS102において、デコード112は、ビデオデータをデコードし、フレームを生成する。さらに、フレーム抽出部113は、処理対象とするフレームを抽出する。処理対象とするフレームとは、換言すれば、リファレンスデータとして用いるリファレンスフレームである。
ビデオデータから生成される全てのフレームを、リファレンスフレームとすると、後述する特徴ベクトル、そしてその特徴ベクトルから生成される識別パラメータを、それぞれ生成する時の処理などの負担が増大してしまう。このようなことを考慮し、カテゴリに含まれる全てのフレームから、所定の規則に基づき、複数のフレームが抽出されるようにする。所定の規則とは、例えば、ランダムに抽出する、所定の間隔(所定の時間間隔、所定のフレームの枚数での間隔)で抽出する、クラスタリング手法に基づき抽出するなどの規則である。
また、クラスタリング手法でリファレンスフレームを抽出する場合、例えば、後述するフレームの特徴ベクトルを用いてクラスタリングを行い、構成要素数の多い順に所定数のクラスタを選択した後、各クラスタの重心に近いフレームを選択するなどの手法が考えられる。また、リファレンスフレームは一度選択されたら、そのフレームが用いられ、変更されないようにすることが好ましい。
ステップS102において、フレーム抽出部113より抽出されたフレームは、ビデオ特徴量抽出部114に供給される。ステップS103において、ビデオ特徴量抽出部114は、供給されたフレーム(画像)から特徴量を抽出する。特徴量としては、例えば、色ヒストグラム、色モーメント、差分画像、縮小画像などである。ビデオ特徴量抽出部114により抽出された特徴量は、リファレンスデータ記憶部115に供給される。
ステップS104において、リファレンスデータ記憶部115は、ビデオ特徴量抽出部114で抽出された特徴量を、リファレンスデータとして記憶する。
このようにして、1つのカテゴリにつき、複数のフレームからリファレンスデータが抽出される。例えば、1つのカテゴリから、N1枚のフレームが抽出された場合、N1枚分のリファレンスデータ(特徴量)が、リファレンスデータ記憶部115に、そのカテゴリのリファレンスデータとして記憶される。
複数のカテゴリから、同じように、リファレンスデータが抽出されるため、例えば、M個のカテゴリからリファレンスデータが抽出された場合、M個のカテゴリ分のリファレンスデータが、リファレンスデータ記憶部115に記憶される。
なお、このリファレンスデータ記憶部115に記憶されるリファレンスデータでは、上記したように、他の装置で生成され、ネットワークを介して供給されたり、記録媒体に記録されて供給されたりしても良い。このような場合も、他の装置では、上記した処理と同様の処理が実行されることで、リファレンスデータが生成される。
[識別パラメータの生成について]
このようにして、リファレンスデータ記憶部115にリファレンスデータが記憶されているとき、学習器100は、学習、すなわちこの場合、識別パラメータの作成を行う。図6のフローチャートを参照し、識別パラメータの生成について説明する。
ステップS151において、ビデオストリームが取得される。このビデオストリームは、教師データとされ、所定のカテゴリに属し、そのカテゴリは、リファレンスデータの生成時と同じく、細かなカテゴリに分類されている。ビデオストリームが取得されるとき、そのビデオストリームが属するカテゴリの情報も取得される。
次に、ステップS152において、フレームが抽出される。デコーダ112は、入力制御部111により入力が制御されたビデオストリームをデコードする。そのデコードされたフレームのうちの所定の枚数のフレームが、フレーム抽出部113により抽出される。
所定のカテゴリに属する番組のビデオストリームの全てが処理対象とされても良い。例えば、60分の番組であるならば、60分ぶんのビデオストリームが処理対象とされても良い。しかしながら、このようにすると、処理対象となるフレーム数が増大し、処理負担の増大、処理時間の増大を招くことになる。
そこで、所定のカテゴリに属する番組の所定の時間ぶんのビデオストリームが処理対象とされるようにする。例えば、番組の冒頭の10分間ぶんのビデオストリームが処理対象とされる。このようにした場合、入力制御部111は、番組の冒頭の10分間だけ、ビデオストリームが入力されるように制御する。
次に、その10分間ぶんのビデオストリームに含まれる全てのフレームを処理対象としても良い。しかしながら、上記の場合と同様に、処理負担や処理時間の増大を招くことになるため、所定の枚数のフレームが処理対象とされる。所定の枚数として、M枚のフレームが処理対象とされる場合、フレーム抽出部113は、デコーダ112からのビデオストリームから、M枚のフレームを抽出し、ビデオ特徴量抽出部114に出力する。M枚のフレームは、例えば、所定の時間間隔で抽出、ランダムに抽出、所定のフレームの枚数毎に抽出される。
フレーム抽出部113において抽出されたフレームは、処理対象のフレームとして、ビデオ特徴量抽出部114に出力される。ステップS153において、ビデオ特徴量抽出部114は、供給されたフレーム(画像)から、所定の特徴量を抽出する。この所定の特徴量は、色ヒストグラム、色モーメント、差分画像、縮小画像などである。また、この所定の特徴量は、リファレンスデータと同じ特徴量とされる。すなわち、例えば、リファレンスデータとしての特徴量が、色ヒストグラムでの特徴量である場合、ステップS153において、ビデオ特徴量抽出部114により抽出される特徴量も、色ヒストグラムでの特徴量とされる。
ステップS154において、リファレンスデータRiが初期値である“1”に設定される。リファレンスデータは、複数のカテゴリ毎に、複数のフレームから抽出された特徴量で構成されている。M個のカテゴリ毎に、例えば、n1枚、n2枚、n3枚、・・・、nn枚のフレームからそれぞれ特徴量が抽出されている場合、(n1+n2+n3+・・・nn)個の特徴量がリファレンスデータとしてリファレンスデータ記憶部115に記憶されている。
この(n1+n2+n3+・・・nn)個の特徴量に、順に番号を割り振るとする。すなわち、1乃至(n1+n2+n3+・・・nn)番までの番号が、各特徴量に割り振られる。ステップS154においては、初期設定として、このリファレンスデータを構成する特徴量の1番目の特徴量が、処理対象のリファレンスデータとして設定される。
ステップS155において、距離算出部116は、ビデオ特徴量抽出部114から供給された特徴量と、リファレンスデータRiを用いて距離を算出する。すなわち、ビデオ特徴量抽出部114で処理対象とされたフレームと、リファレンスデータRiが抽出されたフレームとの類似度に関する距離が算出される。ここでは、距離が短いほど類似しているとして説明を続ける。
ステップS155において、距離算出部116により算出された距離は、最小距離保持部117に供給される。最小距離保持部117は、ステップS156において、供給された距離と、保持されている距離を比較し、供給された距離の方が短いか否かを判断する。最小距離保持部117は、リファレンスデータRi毎に、距離を保持している。保持される距離は、処理過程のなかで、一番短いとされた距離である。
例えば、リファレンスデータRiが“1”のとき(リファレンスデータR1が処理対象とされているとき)、そのリファレンスデータR1に関連付けられている距離と、供給された距離とを比較し、短い距離の方が保持される。よって、ステップS156において、保持されている距離よりも、供給された距離の方が短いか否かが判断され、短いと判断された場合、ステップS157に処理が進められる。
ステップS157において、その短いと判断された距離が、その時点で処理対象とされているリファレンスデータRiに関連付けられる。すなわちこの場合、その時点でリファレンスデータRiに関連付けられていた距離が、新たな距離に置き換えられる。置き換えが実行された後、処理は、ステップS158に進められる。
一方、ステップS156において、保持されている距離よりも、供給された距離の方が長いと判断された場合、ステップS157の処理はスキップされ、ステップS158に処理が進められる。すなわち、その時点で、リファレンスデータRiに関連付けられている距離が、そのまま関連付けられた状態が維持される。
ステップS158において、次のリファレンスデータRiがあるか否かが判断される。例えば、リファレンスデータR1が処理対象とされているときには、リファレンスデータR2があるか否かが判断される。ステップS158において、次のリファレンスデータRiがあると判断された場合、ステップS159に処理が進められる。
ステップS159において、次のリファレンスデータRiが、新たな処理対象のリファレンスデータRiに設定される。そして、新たに処理対象とされたリファレンスデータRiに対して、ステップS155以下の処理が繰り返される。
このようにステップS155乃至S159の処理が繰り返されることにより、リファレンスデータ記憶部115に記憶されている全てのリファレンスデータRiと、1枚のフレームから抽出された特徴量との距離が算出される。換言すれば、リファレンスデータRiの基になった複数のフレームと、処理対象とされているビデオストリーム内の1つのフレームとの距離が、それぞれ算出され、最小距離のみが保持される。
一方、ステップS158において、次のリファレンスデータRiはないと判断された場合、ステップS152に処理が戻され、次のフレームが処理対象とされる。このように、ステップS152乃至S159の処理が繰り返されることにより、処理対象とされているビデオストリームから抽出された所定枚数のフレームと、リファレンスデータRiを抽出する基となったフレームとの距離が、それぞれ算出され、最小の距離の情報だけが保持される。
このような最小の距離から構成される特徴量ベクトルから、識別パラメータが生成されるが、その説明は、後述する。ここまでの処理について、再度、図7を参照して説明する。
図7を参照するに、カテゴリ1、カテゴリ2、・・・、カテゴリNが設定されている。これらのカテゴリは、詳細に分類されたカテゴリである。例えば、カテゴリ1は“スポーツニュース”であり、カテゴリ2は“スポーツ中継”であり、カテゴリ3は“スポーツバラエティ”といったように、“スポーツ”というジャンルであっても、さらに、どのような番組であるかを示す詳細なカテゴリとされている。
カテゴリ1には、複数枚のフレームが含まれる。その複数枚のフレームから、n1枚のフレームが抽出される。この処理は、図4のフローチャートを参照して説明したステップS101,S102の処理に対応する。同様に、カテゴリ2にも、複数枚のフレームが含まれ、その複数枚のフレームから、n2枚のフレームが抽出される。さらに同様に、カテゴリnにも、複数枚のフレームが含まれ、その複数枚のフレームから、nn枚のフレームが抽出される。
各カテゴリ1乃至nから抽出されたそれぞれのフレームは、リファレンスフレームとされる。このリファレンスフレームから、特徴量が抽出される。この処理は、上述したステップS103に相当し、リファレンスフレームから特徴量が抽出され、その特徴量がリファレンスデータとされる処理である。
よって、カテゴリ1から、n1枚のリファレンスフレームが抽出されるので、n1個のリファレンスデータが生成される。同様に、カテゴリ2から、n2枚のリファレンスフレームが抽出されるので、n2個のリファレンスデータが生成される。同様に、カテゴリnから、nn枚のリファレンスフレームが抽出されるので、nn個のリファレンスデータが生成される。よって、最終的には、(n1+n2+・・・+nn)個のリファレンスデータが生成される。
このように、リファレンスデータ(図7では、リファレンスフレームと記述し、フレームに見立てた四角形を図示してある)が生成され、リファレンスデータ記憶部115に記憶される。各リファレンスデータには、番号が割り振られる。ここでは、図7に示したように、カテゴリ1から抽出されたリファレンスデータを、リファレンスデータR1、リファレンスデータR2、リファレンスデータR3とする。他のリファレンスデータにも番号が割り振られるが、図7には図示していない。
このような状態の時、ビデオストリームV1が取得される。このビデオストリームV1のうちの範囲が限定、例えば、上記したように、番組の先頭の10分間だけ、サンプリングが行われる。その結果、M枚のフレームが抽出される。これらのM枚のフレームのそれぞれから特徴量が抽出される。この処理は、図6のフローチャートにおけるステップS151乃至S153に相当する。
図7においては、M個のフレームからそれぞれ抽出された特徴量を、特徴量M1、特徴量M2、特徴量M3、・・・、特徴量Mmと記述する。
まず、特徴量M1とリファレンスデータR1が用いられ、距離D1が算出される。同様に特徴量M1とリファレンスデータR2が用いられ、距離D2が算出される。さらに同様に、特徴量M1とリファレンスデータR3が用いられ、距離D3が算出される。このようにして、1つの特徴量M1と、全てのリファレンスデータRiとの距離が算出される。よって、この時点で、(n1+n2+・・・+nn)次元の特徴量ベクトルが生成されることになる。この処理は、ステップS154乃至S159の処理に対応する。
このようにして、1つの特徴量Mと、全てのリファレンスデータRiとの距離が求められると、次の特徴量Mと、全てのリファレンスデータRiとの距離が求められる。特徴量M1の後は、特徴量M2が処理対象とされ、リファレンスデータRiとの距離が算出される。
ステップS156の処理として、特徴量M1とリファレンスデータR1との距離D1と、特徴量M2とリファレンスデータR1との距離D1’が比較される。その結果、距離D1’の方が、距離D1よりも短いと判断された場合、その時点で、リファレンスデータR1に関連付けられていた距離D1が、距離D1’に置き換えられる。また、距離D1’の方が、距離D1よりも長いと判断された場合、その時点で、リファレンスデータR1に関連付けられていた距離D1が、そのままリファレンスデータR1に関連付けられている状態が維持される。このようにして、各リファレンスデータRiには、特徴量M1乃至Mmのうちの、一番短いとされた距離の値が関連付けられる。
よって、最終的には、1つのビデオストリームから、(n1+n2+・・・+nn)次元の特徴ベクトルが1つ生成される。このような特徴ベクトルは、処理対象とされたビデオストリームV1の特徴を表すデータである。
このような特徴ベクトルが、複数のビデオストリーム毎に生成されることで、最小距離保持部117には、複数のビデオストリームから生成された複数の特徴ベクトルが保持される。換言すれば、複数のカテゴリ毎に、1または複数の特徴ベクトルが保持される。ここで、1または複数としたのは、1つのカテゴリで1つの特徴ベクトルが生成されるようにしても良いし、1つのカテゴリで複数の特徴ベクトルが生成されるようにしても良いからである。
このようにして、生成された複数の特徴ベクトルが、最小距離保持部117(図4)に保持されている状態のとき、その特徴ベクトルを用いて、学習アルゴリズム処理部118は識別パラメータを生成する。
学習アルゴリズム処理部118は、所定のアルゴリズムに基づいて、また、最小距離保持部117に保持されている特徴ベクトルを用いて、識別パラメータを生成する。所定のアルゴリズムとしては、例えば、最急降下法、サポートベクターマシン、バックプロパゲーションといったアルゴリズムを用いることができる。これらのアルゴリズムに基づき算出された識別パラメータは、カテゴリを識別するパラメータとして識別パラメータ保持部119に保持される。
学習器100は、このようなモデルの学習処理を行い、学習の結果として識別部17において番組の分類の識別に用いられる識別パラメータ、すなわち例えば特徴空間を分割するための直線や曲線を生成するための識別パラメータを、識別部17に供給して設定する。その設定は、上記したように、ネットワークや記録媒体を介して行われたり、直接的に行われたりする。
[分類情報の生成について]
このように、識別パラメータが生成され、記録再生装置1の識別部17に保持されることで、記録再生装置1では、番組のカテゴリを識別することが可能となる。図8のフローチャートを参照し、記録再生装置1(図1)が番組を分類する識別処理について説明する。
ステップS201において、ビデオストリームが取得される。このビデオストリームは、入力制御部12により入力が制御されたビデオストリームであっても良いし、保存部20に保存されているビデオストリームであっても良い。ステップS202において、取得されたビデオストリームから、フレームが抽出される。入力されたビデオストリームから生成される全てのフレームを処理対象とする場合、フレームを抽出するといった処理を省略することが可能である。図1に示した記録再生装置1は、フレームを抽出する部分(フレーム抽出部)は図示していない。
しかしながら、所定のフレームが抽出され、処理対象とされる場合、例えば、デコーダ13とビデオ特徴量抽出部15との間に、フレーム抽出部が設けられ、そのフレーム抽出部によりフレームが抽出されるような構成とされる。図示はしていないが、ここでは、フレームが抽出されるとして説明を続ける。またここでは、ビデオ特徴量抽出部15が、デコーダ13から供給されるフレームを選択することで、フレームの抽出が行われるとする。
また、フレームの抽出は、学習器100のフレーム抽出部113(図4)で行われる処理、換言すれば、ステップS102(図5)や、ステップS152(図6)で行われる処理と同様に行われる。すなわち、番組の冒頭の10分間分のフレームが処理対象とされたり、所定の時間間隔で抽出されたフレームが処理対象とされたりするなどである。
ステップS202において、フレームが抽出されると、そのフレームが処理対象とされ、ステップS203に処理が進められる。ステップS203において、ビデオ特徴量抽出部15は、処理対象とされたフレームから特徴量を抽出する。この処理は、学習器100のビデオ特徴量抽出部114と同じく行われる。すなわち、フレームから、色ヒストグラム、色モーメント、差分画像、縮小画像などのビデオ特徴量が抽出される。
ステップS204において、特徴ベクトル生成部16により特徴ベクトルが生成される。特徴ベクトル生成部16は、ビデオ特徴量抽出部15から供給された特徴量の中から、識別部17において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル(特徴ベクトル)を生成する。特徴ベクトル生成部16は、生成した特徴ベクトルを、識別部17に供給する。
ステップS205において、識別部17は、カテゴリを識別する。識別部17は、特徴ベクトル生成部16から供給された特徴ベクトルと、保持されている識別パターンを用いて、入力されたビデオストリームの番組が属するカテゴリを識別する。例えば識別部17は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器100により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組のカテゴリを識別する。
この識別されるカテゴリは、学習器100における学習で細かく分類されたカテゴリである。そして、そのように細かく分類されたカテゴリに基づいて生成された識別パラメータを用いて識別が行われるため、その識別結果も、細かいカテゴリでの結果とすることが可能となる。
ステップS206において、識別結果としてのカテゴリが、分類情報として、チャプタ情報検出部18に対して出力される。
このようにして、チャプタ情報検出部18に、番組が属する細かく分類されたカテゴリに関する分類情報が供給されることで、以下に説明するような、詳細なチャプタ情報の検出が可能となる。すなわち、番組にもっとも適したチャプタ情報の検出を番組毎に行うことが可能となる。
[チャプタ情報の検出について]
図9乃至図11を参照し、チャプタ情報の検出について説明する。図9に示すような、サッカーの試合を中継して放送する番組からチャプタ情報を検出する場合について説明する。図9の上段には、サッカーの試合を放送する番組を構成する映像が示され、図9の下段には、その映像と同時に出力される音声の音量が示されている。
いまの場合、オーディオ特徴量抽出部14は、デコーダ13から供給された図9に示すように音量が変動する音声のオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
ビデオ特徴量抽出部15は、デコーダ13から供給された図9に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
図9に示した映像からは、図2を参照して上述したように、例えば緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成され、識別部17に供給される。識別部17は、緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカー番組」であることを識別できるように学習している(識別パラメータが取得されている)ので、番組の分類が「サッカー番組」であると識別し、その識別結果として、分類が「サッカー番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
サッカーの試合を放送する番組は、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーン(図9の例では、図中、上向きの矢印が付されている映像F42,F51,F53)で音量が高くなる特徴がある。
すなわちこの盛り上がっているシーンが、ユーザが興味を有する点であるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部17から番組の分類が「サッカー番組」であることを示す分類情報が供給された場合、チャプタ情報検出部18は、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラム、差分画像、音量を選択し、それらを用いて、映像の連続性がない位置(例えば、フレーム)(以下、カット点と称する)を検出するとともに、カット点の検出結果と音量の変化を基にチャプタ区切り点を決定し、音量に基づく盛り上がりの度合いをチャプタのスコアとする演算を行う。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
このように番組の分類が「サッカー番組」であると識別された場合、盛り上がりに基づいたチャプタ情報が検出されると、ダイジェスト再生において、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーンの映像F42,F51,F53等が、ダイジェスト再生される。
次に、図10に示すような、事件や出来事を報道する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
ビデオ特徴量抽出部15は、デコーダ13から供給された図10に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
図10に示した映像からは、図3を参照して上述したように、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成されて、識別部17に供給される。識別部17は、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「ニュース番組」であることを識別できるように学習しているので、番組の分類が「ニュース番組」であると識別し、その識別結果として、分類が「ニュース番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
事件や出来事を報道する番組は、報道の内容を説明するアナウンサーの映像と事件等に応じた映像が順次切り替わる(図10の例では、図中、上向きの矢印が付されている映像F61,F63,F71,F72で切り替わっている)特徴がある。
視聴者にとっては報道の内容を説明するアナウンサーの映像を視聴すればニュースの概要を把握することができるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部17から番組の分類が「ニュース番組」であることを示す分類情報が供給された場合、チャプタ情報検出部18は、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点を検出するとともに、色ヒストグラムの類似性から報道の内容を説明するアナウンサーの映像と報道に応じた映像が切り替わる位置を検出してチャプタ区切り点とし、アナウンサーの映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
このように番組が「ニュース番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、ダイジェスト再生において、報道の内容を説明するアナウンサーの映像F61、F62、F71が、ダイジェスト再生される。
次に、図11に示すような、サッカーの試合結果(いわゆるダイジェスト)を紹介する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部14は、デコーダ13から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
ビデオ特徴量抽出部15は、デコーダ13から供給された図11に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部16およびチャプタ情報検出部18に供給する。
特徴ベクトル生成部16は、いまの例の場合、オーディオ特徴量抽出部14またはビデオ特徴量抽出部15から供給された特徴量のうち、ビデオ特徴量抽出部15から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部17に供給する。
図11に示した映像からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムと、緑色の頻度が高い色ヒストグラムが混在して生成されて、識別部17に供給される。識別部17は、人物とスタジオの特有の色の頻度が高い色ヒストグラムと緑色の頻度が高い色ヒストグラムが混在する特徴ベクトルが特徴ベクトル生成部16から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカーダイジェスト番組」であることを識別できるように学習しているので、番組の分類が「サッカーダイジェスト番組」であると識別し、その識別結果として、分類が「サッカーダイジェスト番組」であることを示す分類情報を、チャプタ情報検出部18に供給する。
識別部17から番組の分類が「サッカーダイジェスト番組」であることを示す分類情報が供給されると、チャプタ情報検出部18は、図10の例の場合と同様に、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点と色ヒストグラムの類似性に基づくチャプタ区切り点と、試合中の映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部18は、その演算の結果検出したチャプタ情報を、保持部19に供給して保持させる。
サッカーの試合結果(いわゆるダイジェスト)を紹介する番組は、試合結果の内容を説明するアナウンサーの映像と試合の映像が順次切り替わる(図11の例では、図中、上向きの矢印が付されている映像F81,F82,F91,F92で切り替わっている)特徴がある。
サッカーの試合結果を紹介する番組においては、アナウンサーの映像よりも試合の映像の方が視聴者にとっては重要である。従って、ダイジェスト再生においては試合の映像が優先的に再生されることが望ましい。
このように番組が「サッカーダイジェスト番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、サッカーの試合結果を紹介する番組に対して最適なダイジェスト再生を行うことができる。図11の例の場合、試合シーンの映像F83,F92等が、ダイジェスト再生される。
例えば図11に示す番組に対して、EPGでの分類に応じて、図9の例の場合のように盛り上がり点をチャプタ情報として検出すると、ダイジェスト再生において適切な映像を再生することができない。
以上のようにして、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類識別が行われ、その分類に基づいてチャプタ情報が検出される。
なお以上においては、放送番組をダイジェスト再生する場合に利用されるチャプタ情報検出を例として説明したが、他のコンテンツをダイジェスト再生する場合のチャプタ情報検出についても同様に適用することができる。例えばカムコーダで撮ったパーソナルコンテンツについても適用することができる。なおパーソナルコンテンツの分類用の学習が必要となるが、図1に示した記録再生装置1に学習器100が内蔵される構成とすることで、その学習を容易に行えるようになる。
また以上においては、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類を識別する場合を例として説明したが、他の処理に適した分類が識別されるようにすることもできる。
また以上においては、分類識別処理が実行されるタイミングについては言及しなかったが、番組を録画とすると同時に行うことができる。すなわち入力制御部12は、AVデータを保持部20に供給して記憶させるとともに(すなわち録画させるとともに)、デコーダ13に供給する。
デコーダ13乃至識別部17は、入力制御部12から供給されたAVデータに基づいて、上述したように分類識別処理を実行する。なおこの際、チャプタ情報検出部18は、動作せず、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15から供給された特徴量は、例えばチャプタ情報検出部18に保持されるようにすることもできるし、破棄されるようにすることもできる。
なおチャプタ情報検出は、番組の録画が完了し、番組の分類が識別された後、保持部20に保持されたAVデータがデコーダ13によって読み出され、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15によって各特徴量が抽出され、チャプタ情報検出部18において、抽出された特徴量から先に識別された番組の分類に応じた特徴量が選択されて、チャプタ情報が検出される。
また分類識別に必要な特徴ベクトルの特徴量を、番組全体に渡って抽出することもできるし、例えば番組の先頭の所定の時間(例えば、10分間)の部分から抽出することもできる。番組全体に渡って特徴量を抽出する場合には、上述したように番組の録画が完了した後、分類識別が行われるが、番組の一部から特徴量を抽出する場合、オーディオ特徴量抽出部14およびビデオ特徴量抽出部15のそれぞれと、チャプタ情報検出部18の間にバッファを設け、特徴ベクトルが生成されて分類が識別されるまでの特徴量をバッファしておけば、分類が識別された後に、直ちにチャプタ情報検出を開始することができる。
また以上においては、番組の分類が「ニュース番組」または「サッカー番組」である場合を例として説明したが、「音楽番組」など、他の分類に識別することができるようにすることができる。
また分類は、いわゆるジャンルに相当するものに限らず、他のものであってもよい。歌や演奏を放送する番組には、以下に示すようなタイプがあるが、それらを分類として識別することができれば、ダイジェスト再生におけるチャプタ情報検出をさらに適切に行うことができる。
・司会者と出演者との会話などよりも、実際の歌や演奏の時間が長いタイプ
・司会者と出演者との会話などが長いタイプ
・ホールなどの収録であって、観客の声援や拍手が入るタイプ
また以上においては、分類識別にあたり、EPGデータを利用しなかったが、保持部22に保持されたEPG情報をさらに利用して番組の分類識別の精度を向上させることもできる。
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)201,ROM(Read Only Memory)202,RAM(Random Access Memory)203は、バス204により相互に接続されている。
バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、キーボード、マウス、マイクロホンなどよりなる入力部206、ディスプレイ、スピーカなどよりなる出力部207、ハードディスクや不揮発性のメモリなどよりなる記憶部208、ネットワークインタフェースなどよりなる通信部209、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア211を駆動するドライブ210が接続されている。
以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを、入出力インタフェース205およびバス204を介して、RAM203にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU201)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア211に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、予めインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。