JP2010237946A

JP2010237946A - 情報処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2010237946A
Application number: JP2009084935A
Authority: JP
Inventors: Shunji Yoshimura; 俊司吉村; Hiroshige Okamoto; 裕成岡本; Tatsuya Narahara; 立也楢原; Le Duy-Dinn; デュイ・ディン・レー; Shinichi Sato; 真一佐藤
Original assignee: Sony Corp; Research Organization of Information and Systems
Current assignee: Sony Corp; Research Organization of Information and Systems
Priority date: 2009-03-31
Filing date: 2009-03-31
Publication date: 2010-10-21
Anticipated expiration: 2029-03-31
Also published as: JP5424306B2

Abstract

【課題】チャプタ情報の検出をより詳細にできるようにする。
【解決手段】リファレンスデータ記憶部１１５には、リファレンスフレームから抽出されたリファレンスデータが記憶されている。このリファレンスデータは、細かい分類がされた所定のカテゴリに属するビデオストリームから抽出される。一方、入力制御部１１１を介して入力されたビデオストリームから抽出された所定数のフレームから、それぞれ特徴量が抽出され、その特徴量とリファレンスデータとの距離が算出される。最小の距離から構成される特徴ベクトルが生成され、その特徴ベクトルと所定のアルゴリズムにより、番組を分類するための識別パラメータが生成される。本発明は例えば、ビデオレコーダに適用できる。
【選択図】図４

Description

本発明は情報処理装置および方法、プログラム、並びに記録媒体に関し、特に、コンテンツの分類に応じてコンテンツに対して所定の処理を行う場合において、その処理に最適なコンテンツの分類を識別し、識別した分類に応じた方法でその処理を実行することができるようにした情報処理装置および方法、プログラム、並びに記録媒体に関する。

デジタルテレビジョン放送の普及に伴い電子番組表（ＥＰＧ（Electric Program Guide））の利用も一般的なものとなってきている。ＥＰＧを構成するデータには、番組のタイトルや放送日時の他、番組がニュース番組であるかサッカー番組であるかなどのジャンルを示す情報（以下、ジャンル情報と称する）などの番組の分類を示す情報が含まれている。

ところでこのＥＰＧから得られる番組のジャンル情報は、記録再生装置における各種の機能に利用されている。例えば、録画した大量の映像の内容を簡単に把握することができるように、録画した映像から、要約映像を作成して再生するいわゆるダイジェスト再生機能が存在するが、このダイジェスト再生では、その精度を向上させる用途として番組のジャンル情報が利用されている（例えば、特許文献１参照）。

特許文献１では、録画された映像から検出された所定の特徴量が、ＥＰＧから取得された番組のジャンル情報に基づいて重み付けされ、その結果に基づいてダイジェスト再生される映像が決定される。
特開２００３−２８３９９３号公報

しかしながら、ＥＰＧは、主として、視聴者が番組選択するのに便利なように、例えば放送局側において作成されるものである。また、それに示されているジャンル情報も、視聴者の番組選択に対応した分類となっている。従ってその分類が、機器側の処理、例えば、ダイジェスト再生といった処理に必ずしも適していない場合がる。

本発明は、このような状況に鑑みてなされたものであり、機器側の処理に最適なコンテンツの分類を識別することができるようにするものである。

本発明の一側面の情報処理装置は、第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段と、第２のコンテンツから第２の特徴量を抽出する抽出手段と、前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出する算出手段と、前記算出手段により算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成するベクトル生成手段と、前記生成手段により生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するパラメータ生成手段とを備える。

前記抽出手段は、前記第２のコンテンツの所定の部分から、前記第２の特徴量を抽出するようにすることができる。

前記第１の特徴量は、複数の前記第１のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された特徴量から構成される複数次元のベクトルであるようにすることができる。

本発明の一側面の情報処理方法は、第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段を備える情報処理装置の情報処理方法において、第２のコンテンツから第２の特徴量を抽出し、前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出し、算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するステップを含む。

本発明の一側面のプログラムは、第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段を備える情報処理装置に、第２のコンテンツから第２の特徴量を抽出し、前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出し、算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するステップを含む処理を実行させるコンピュータが読み取り可能なプログラム。

本発明の一側面の記録媒体は、前記プログラムを記録している。

本発明の一側面の情報処理装置および方法、並びにプログラムにおいては、第１のコンテンツから抽出された第１の特徴量と、第２のコンテンツから抽出された第２の特徴量が用いられて、第１のコンテンツと第２のコンテンツの距離が算出される。さらに、算出された距離のうち、最小の距離から構成される特徴ベクトルが用いられて所定のアルゴリズムに基づく処理が行われることで、コンテンツを分類するためのパラメータが生成される。

本発明の一側面によれば、実行される所定の処理に最適なコンテンツの分類を識別することができ、その分類に応じた方法で所定の処理をコンテンツに対して実行することができる。

本発明を適用した記録再生装置の一実施の形態の構成を示す図である。教師データの例を示す図である。他の教師データの例を示す図である。本発明を適用した学習器の一実施の形態の構成を示す図である。リファレンスデータの取得に関する処理について説明するフローチャートである。識別パラメータの生成に関する処理について説明するフローチャートである。特徴ベクトルの生成について説明する図である。分類識別処理について説明するフローチャートである。チャプタ情報検出対象の番組の例を示す図である。チャプタ情報検出対象の他の番組の例を示す図である。チャプタ情報検出対象の他の番組の例を示す図である。パーソナルコンピュータの構成例を示すブロック図である。

以下に、本発明の実施の形態について図面を参照して説明する。

［記録再生装置の構成について］
図１は、本発明を適用した記録再生装置１の構成例を示している。この記録再生装置１は、受信されたデジタルテレビジョン放送の番組を録画し、録画した番組をダイジェスト再生することができる機能を有している。記録再生装置１は、ダイジェスト再生を行うにあたり、チャプタの区切り点を検出するとともに、ダイジェスト再生において再生される映像を選択するための優先度を表すスコアを付与する。

そのチャプタ区切り点およびスコアの付与は、後述するように、チャプタ区切り点およびスコア（以下、適宜、チャプタ情報と称する）の検出に適した番組の分類を識別し、識別したその番組の分類に応じた方法で、チャプタ情報を検出する。

データ分離部１１には、図示せぬ受信部から供給された、その受信部により受信された、例えばデジタルテレビジョン放送波のデジタルデータが入力される。データ分離部１１は、入力されたデジタルデータをＥＰＧ（電子番組ガイド）データ、オーディオデータ、ビデオデータに分離する。以下、適宜、オーディオデータとビデオデータをまとめてＡＶデータと称する。

データ分離部１１は、分離したＥＰＧデータを保持部２２に供給して保持させ、分離したＡＶデータを、入力制御部１２に供給する。入力制御部１２は、受信された放送番組の録画が行われるとき、データ分離部１１から供給されたＡＶデータを、保持部２０に供給して保持させる。入力制御部１２はまた、データ分離部１１から供給されたＡＶデータを、チャプタ情報検出対象としてデコーダ１３に供給する。

デコーダ１３は、入力制御部１２から供給されたチャプタ情報の検出対象としてのＡＶデータ、または保持部２０からチャプタ情報の検出対象として読み出したＡＶデータを、オーディオデータとビデオデータに分離し、オーディオデータをオーディオ特徴量抽出部１４に、ビデオデータをビデオ特徴量抽出部１５に、それぞれ供給する。

オーディオ特徴量抽出部１４は、デコーダ１３から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

ビデオ特徴量抽出部１５は、デコーダ１３から供給されたビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。なお、特徴量の抽出対象としてフレーム画像が使用される場合、フレームを小領域に分割し、それぞれの領域の特徴量を連結することで、1枚のフレームの特徴量とすることも可能である。特に、色ヒストグラム、色モーメントなど、それ自体では位置や形状の情報を持たない特徴量を使用するときに有効である。

特徴ベクトル生成部１６は、オーディオ特徴量抽出部１４またはビデオ特徴量抽出部１５から供給された特徴量の中から、識別部１７において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル（以下、特徴ベクトルと称する）を生成する。特徴ベクトル生成部１６は、生成した特徴ベクトルを、識別部１７に供給する。

識別部１７は、特徴ベクトル生成部１６から供給された特徴ベクトルに基づいて、番組の分類（いまの例の場合、チャプタ情報を検出するのに適した番組の分類）を識別する。例えば識別部１７は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器（後述する）により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組の分類を識別する。

識別部１７は、識別結果として、番組の分類を示す情報（以下、分類情報と称する）を、チャプタ情報検出部１８に供給する。チャプタ情報検出部１８は、識別部１７から供給された分類情報が示す番組の分類に応じて、チャプタ情報を検出し、保持部１９に供給して保持させる。

例えばチャプタ情報検出部１８は、オーティオ特徴量抽出部１４またはビデオ特徴量抽出部１５から供給される特徴量の中から、番組の分類に応じた特徴量を選択するとともに、番組の分類に応じた演算処理を実行する。

すなわちこの場合、チャプタ情報検出部１８は、番組の分類に応じた特徴量の選択および演算を実行するための実行データ（例えば、パラメータやアルゴリズムを含むプログラム）を、番組の分類毎に保持しており、番組の分類に応じた実行データを選択して実行することにより、チャプタ情報を検出する。

再生部２１は、保持部２０に保持されているＡＶデータを読み出して、通常の再生やダイジェスト再生を行う。ダイジェスト再生を行う際は、再生部２１は、保持部１９に保持されているチャプタ情報に基づき、チャプタに付与されたスコアが一定の値以上である映像区間を、保持部２０から適宜読み出して再生する。すなわちチャプタ情報に基づいて映像が間引かれて再生される。

サッカーの試合を放送する番組では、図２に示すように、通常、グランドの映像を含むシーンが多く放送されるので、サッカーの試合を放送する番組からは、例えば緑色の頻度が高い色ヒストグラムが多く（例えば、連続して）得られる。

そこで詳細は後述する学習器が行う学習においては、図２に示すようなグランドの映像を含むシーンから構成されるサッカーの試合を放送する番組を、分類が「サッカー番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。

そして、学習器は、分類が「サッカー番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば色ヒストグラムから得られた緑色の頻度の特徴空間上の分布が、「サッカー番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部１７に設定されている。

また、事件や出来事を報道する番組は、図３に示すように、人物とスタジオの映像を含むシーンが多く放送されるので、事件や出来事を報道する番組からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムが多く得られる。

そこで詳細は後述する学習器が行う学習においては、図３に示すような人物とスタジオの映像を含むシーンから構成される事件や出来事を報道する番組を、分類が「ニュース番組」の教師データとし、その教師データから得られるフレーム毎の色ヒストグラムの特徴ベクトルが抽出される。

そして学習器は、分類が「ニュース番組」であると識別することができるような識別パラメータを生成する。すなわち、例えば特定の色の頻度の特徴空間上の分布が、「ニュース番組」の領域内となるように特徴空間を分割する直線等を生成するための識別パラメータを生成する。そのように設定された識別パラメータが、識別部１７に設定されている。

図１の説明に戻り制御部４１は、記録再生装置１全体を制御し、番組録画、通常再生、ダイジェスト再生等の処理を実行させる。

［学習器の構成について］
図４は、本発明を適用した学習器の一実施の形態の構成を示す図である。図４に示した学習器１００は、入力制御部１１１、デコーダ１１２、フレーム抽出部１１３、ビデオ特徴量抽出部１１４、リファレンスデータ記憶部１１５、距離算出部１１６、最小距離保持部１１７、学習アルゴリズム処理部１１８、識別パラメータ保持部１１９、ドライブ１２０、通信部１２１を含む構成とされている。

入力制御部１１１は、外部から入力されるビデオデータの入力を制御する。ここでは、ビデオデータが入力され、そのビデオデータから識別パラメータが生成される例を挙げて説明をする。そのため、学習器１００にはビデオデータが入力されるとして説明を続ける。また、図４に示した学習器１００の構成も、ビデオストリームを処理する構成を示している。しかしながら、例えば、オーディオデータが学習器１００に入力され、そのオーディオデータから識別パラメータが生成されるようにしてもよい。そのようにした場合、学習器１００は、オーディオデータの入力を制御し、オーディオデータから識別パラメータを生成する構成とされる。

デコーダ１１２は、入力制御部１１１により入力が制御されたビデオデータをデコード（Decode）する。ビデオデータが何らかの符号化されている場合、その符号化に対応する復号が、デコード１１２において実行される。デコードされたビデオデータは、フレーム抽出部１１３に供給される。

フレーム抽出部１１３は、デコードされたビデオデータから、所定の条件に基づいて、フレームを抽出する。デコードされたビデオデータの全てのフレームを処理対処としても良いが、そのようにすると、処理負担の増大や、処理時間の増大につながるため、処理負担、処理時間の軽減をはかるために、ここでは、所定の条件に基づいて、所定枚数のフレームが処理対象として抽出されるとして説明を続ける。なお、所定の条件などについては、図５のフローチャートを参照した説明で明らかにする。

フレーム抽出部１１３により抽出されたフレームは処理対象のフレームとして、ビデオ特徴量抽出部１１４に供給される。ビデオ特徴量抽出部１１４は、供給されたフレームから特徴量を抽出する。

デコーダ１１２は、記録再生装置１のデコーダ１３（図１）と同様の処理を実行し、ビデオ特徴量抽出部１１４は、記録再生装置１のビデオ特徴量抽出部１５（図１）と同様の処理を実行する。よって、ビデオ特徴量抽出部１５が、上記したようにフレームから色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出する場合、ビデオ特徴量抽出部１１４も、フレームから色ヒストグラム、差分画像、縮小画像などを、ビデオの特徴量として抽出する。

ビデオ特徴量抽出部１１４からのビデオ特徴量は、リファレンスデータ記憶部１１５または距離算出部１１６に供給される。ビデオ特徴量が、リファレンスデータとして用いられる場合、リファレンスデータ記憶部１１５に供給され、記憶される。一方、ビデオ特徴量が、教師データとしてのビデオデータから抽出され、リファレンスデータとの比較対象とされるデータである場合、距離算出部１１６に供給される。

リファレンスデータ記憶部１１５は、リファレンスデータを記憶する。このリファレンスデータ記憶部１１５は、識別パラメータを生成するために、予め比較対象とされるデータとして記憶されているデータである。

リファレンスデータ記憶部１１５に記憶されるリファレンスデータは、入力制御部１１１により入力が制御されたビデオデータから作成されたデータでも良いし、予め他の装置などで作成されたデータであっても良い。他の装置で作成されたデータである場合、例えば、リムーバブルディスク１４１に記憶されて配布されるようにしても良い。そのような場合、ドライブ１２０に、そのリムーバブルディスク１４１がセットされ、そのセットされたリムーバブルディスク１４１から読み出されることで、リファレンスデータ記憶部１１５にリファレンスデータが供給され、記憶される。

また、ネットワークを介してリファレンスデータが配信されるようにしても良い。ネットワークを介してリファレンスデータが配信される場合、通信部１２１により、配信されたリファレンスデータが受信され、その受信されたリファレンスデータが、リファレンスデータ記憶部１１５に供給されることで、記憶される。

このように、リファレンスデータは、学習器１００で生成され、記憶されるようにしても良いし、リムーバブルディスク１４１などの記録媒体を介して、供給され、記憶されるようにしても良いし、ネットワークを介して供給され、記憶されるようにしても良い。

なお、学習器１００は、記録再生装置１に備えることも可能である。学習器１００が記録再生装置１に備えられ、学習器１００自体でリファレンスデータを生成するように構成された場合、記録再生装置１に入力されたビデオデータからリファレンスデータを生成することができる。また、ネットワークを介して配信されるように構成した場合や、記録媒体を用いて配信されるように構成した場合、リファレンスデータを更新することが容易にできるようなる。

図４に示した学習器１００の説明に戻り、距離算出部１１６は、リファレンスデータ記憶部１１５に記憶されているリファレンスデータと、ビデオ特徴量抽出部１１４からの処理対象とされているフレームとの距離を算出する。ここでは、リファレンスデータとしての特徴量と、フレームから抽出された特徴量とが用いられて距離が算出される。

距離算出部１１６で算出された距離（距離のデータ）は、最小距離保持部１１７に供給される。最小距離保持部１１７は、処理対象とされた複数のフレームのうち、リファレンスデータとの距離が最小の距離であったフレームとの距離を保持する。例えば、リファレンスデータが、３０フレーム分の特徴量から構成されている場合、それぞれのフレームとの最小距離が、最小距離保持部１１７に保持されるため、３０個の最小距離が保持される。このようにして保持された、例えば、３０個の最小距離が、特徴ベクトルとして、学習アルゴリズム処理部１１８に供給される。

学習アルゴリズム処理部１１８は、所定のアルゴリズムに基づき、供給された特徴量ベクトルを用いて、識別パラメータを生成する。この生成された識別パラメータは、識別パラメータ保持部１１９に供給され、保持される。

識別パラメータ保持部１１９に保持された識別パラメータは、記録再生装置１の識別部１７（図１）に供給され、保持される。例えば、ドライブ１２０に、リムーバブルディスク１４１がセットされ、そのセットされたリムーバブルディスク１４１に、識別パラメータ保持部１１９に保持されている識別パラメータが書き込まれる。そして、その識別パラメータが書き込まれたリムーバブルディスク１４１が、記録再生装置１にセットされることにより、識別パラメータが、識別部１７に供給される。

また、ネットワークを介して識別パラメータが配信されるようにしても良い。この場合、識別パラメータ保持部１１９に保持されている識別パラメータが、通信部１２１に読み出され、通信部１２１の制御の基、記録再生装置１の識別部１７に供給される。

このような構成を有する学習器１００の学習について、以下に説明する。

［リファレンスデータの取得について］
まず、リファレンスデータ記憶部１１５に記憶されるリファレンスデータの取得に関する処理について説明する。リファレンスデータは、識別パラメータを生成する前の時点で、リファレンスデータ記憶部１１５に記憶されている必要がある。そこで、識別パラメータの生成に関する説明の前に、図５のフローチャートを参照し、学習器１００でリファレンスデータを作成するときの処理について説明する。

ステップＳ１０１において、入力制御部１１１は、ビデオストリームを取得する。この取得されるビデオストリームは、カテゴリが予めわかっている番組のビデオストリームである。カテゴリとは、例えば、“ニュース”とか、“バラエティ”といった、番組が属するジャンルなどであり、分類に関する情報である。分類とは、上記した説明において、識別部１７が、“特徴ベクトル生成部１６から供給された特徴ベクトルに基づいて番組の分類を識別する”際の“分類”である。

なお、この分類に関する情報、すなわちカテゴリは、詳細な分類の基、割り振られたカテゴリであることが望ましい。例えば、スポーツというカテゴリも、詳細に分類し、“スポーツ中継”、“スポーツニュース”、“スポーツに関するバラエティ”といったようなカテゴリであることが好ましい。

ＥＰＧには、番組に関する情報として、カテゴリに関する情報が記載されているが、その記載されている情報は、例えば、“スポーツ”といった大雑把な情報であることが多い。このような情報に基づいて、例えば、チャプタ情報を検出すると、適切なチャプタ情報を検出できなことがある。換言すれば、“スポーツ中継”の番組と“スポーツニュース”の番組とでは、チャプタ情報を検出するとき、同じアルゴリズムではなく、異なるアルゴリズムで検出した方が、それぞれの番組に適したチャプタ情報を検出できる。

このようなことを考慮したチャプタ情報が検出できるように、学習器１００は学習を行う。よって、入力制御部１１１に入力されるビデオデータに関するカテゴリも、詳細に分類された結果のカテゴリ（その情報）であることが好ましく、以下の説明においては、そのような情報が入力されるとして説明を続ける。

ステップＳ１０１において、入力制御部１１１によりビデオストリームが取得されると、ステップＳ１０２において、デコード１１２は、ビデオデータをデコードし、フレームを生成する。さらに、フレーム抽出部１１３は、処理対象とするフレームを抽出する。処理対象とするフレームとは、換言すれば、リファレンスデータとして用いるリファレンスフレームである。

ビデオデータから生成される全てのフレームを、リファレンスフレームとすると、後述する特徴ベクトル、そしてその特徴ベクトルから生成される識別パラメータを、それぞれ生成する時の処理などの負担が増大してしまう。このようなことを考慮し、カテゴリに含まれる全てのフレームから、所定の規則に基づき、複数のフレームが抽出されるようにする。所定の規則とは、例えば、ランダムに抽出する、所定の間隔（所定の時間間隔、所定のフレームの枚数での間隔）で抽出する、クラスタリング手法に基づき抽出するなどの規則である。

また、クラスタリング手法でリファレンスフレームを抽出する場合、例えば、後述するフレームの特徴ベクトルを用いてクラスタリングを行い、構成要素数の多い順に所定数のクラスタを選択した後、各クラスタの重心に近いフレームを選択するなどの手法が考えられる。また、リファレンスフレームは一度選択されたら、そのフレームが用いられ、変更されないようにすることが好ましい。

ステップＳ１０２において、フレーム抽出部１１３より抽出されたフレームは、ビデオ特徴量抽出部１１４に供給される。ステップＳ１０３において、ビデオ特徴量抽出部１１４は、供給されたフレーム（画像）から特徴量を抽出する。特徴量としては、例えば、色ヒストグラム、色モーメント、差分画像、縮小画像などである。ビデオ特徴量抽出部１１４により抽出された特徴量は、リファレンスデータ記憶部１１５に供給される。

ステップＳ１０４において、リファレンスデータ記憶部１１５は、ビデオ特徴量抽出部１１４で抽出された特徴量を、リファレンスデータとして記憶する。

このようにして、１つのカテゴリにつき、複数のフレームからリファレンスデータが抽出される。例えば、１つのカテゴリから、Ｎ１枚のフレームが抽出された場合、Ｎ１枚分のリファレンスデータ（特徴量）が、リファレンスデータ記憶部１１５に、そのカテゴリのリファレンスデータとして記憶される。

複数のカテゴリから、同じように、リファレンスデータが抽出されるため、例えば、Ｍ個のカテゴリからリファレンスデータが抽出された場合、Ｍ個のカテゴリ分のリファレンスデータが、リファレンスデータ記憶部１１５に記憶される。

なお、このリファレンスデータ記憶部１１５に記憶されるリファレンスデータでは、上記したように、他の装置で生成され、ネットワークを介して供給されたり、記録媒体に記録されて供給されたりしても良い。このような場合も、他の装置では、上記した処理と同様の処理が実行されることで、リファレンスデータが生成される。

［識別パラメータの生成について］
このようにして、リファレンスデータ記憶部１１５にリファレンスデータが記憶されているとき、学習器１００は、学習、すなわちこの場合、識別パラメータの作成を行う。図６のフローチャートを参照し、識別パラメータの生成について説明する。

ステップＳ１５１において、ビデオストリームが取得される。このビデオストリームは、教師データとされ、所定のカテゴリに属し、そのカテゴリは、リファレンスデータの生成時と同じく、細かなカテゴリに分類されている。ビデオストリームが取得されるとき、そのビデオストリームが属するカテゴリの情報も取得される。

次に、ステップＳ１５２において、フレームが抽出される。デコーダ１１２は、入力制御部１１１により入力が制御されたビデオストリームをデコードする。そのデコードされたフレームのうちの所定の枚数のフレームが、フレーム抽出部１１３により抽出される。

所定のカテゴリに属する番組のビデオストリームの全てが処理対象とされても良い。例えば、６０分の番組であるならば、６０分ぶんのビデオストリームが処理対象とされても良い。しかしながら、このようにすると、処理対象となるフレーム数が増大し、処理負担の増大、処理時間の増大を招くことになる。

そこで、所定のカテゴリに属する番組の所定の時間ぶんのビデオストリームが処理対象とされるようにする。例えば、番組の冒頭の１０分間ぶんのビデオストリームが処理対象とされる。このようにした場合、入力制御部１１１は、番組の冒頭の１０分間だけ、ビデオストリームが入力されるように制御する。

次に、その１０分間ぶんのビデオストリームに含まれる全てのフレームを処理対象としても良い。しかしながら、上記の場合と同様に、処理負担や処理時間の増大を招くことになるため、所定の枚数のフレームが処理対象とされる。所定の枚数として、Ｍ枚のフレームが処理対象とされる場合、フレーム抽出部１１３は、デコーダ１１２からのビデオストリームから、Ｍ枚のフレームを抽出し、ビデオ特徴量抽出部１１４に出力する。Ｍ枚のフレームは、例えば、所定の時間間隔で抽出、ランダムに抽出、所定のフレームの枚数毎に抽出される。

フレーム抽出部１１３において抽出されたフレームは、処理対象のフレームとして、ビデオ特徴量抽出部１１４に出力される。ステップＳ１５３において、ビデオ特徴量抽出部１１４は、供給されたフレーム（画像）から、所定の特徴量を抽出する。この所定の特徴量は、色ヒストグラム、色モーメント、差分画像、縮小画像などである。また、この所定の特徴量は、リファレンスデータと同じ特徴量とされる。すなわち、例えば、リファレンスデータとしての特徴量が、色ヒストグラムでの特徴量である場合、ステップＳ１５３において、ビデオ特徴量抽出部１１４により抽出される特徴量も、色ヒストグラムでの特徴量とされる。

ステップＳ１５４において、リファレンスデータＲｉが初期値である“１”に設定される。リファレンスデータは、複数のカテゴリ毎に、複数のフレームから抽出された特徴量で構成されている。Ｍ個のカテゴリ毎に、例えば、ｎ₁枚、ｎ₂枚、ｎ₃枚、・・・、ｎ_n枚のフレームからそれぞれ特徴量が抽出されている場合、（ｎ₁＋ｎ₂＋ｎ₃＋・・・ｎ_n）個の特徴量がリファレンスデータとしてリファレンスデータ記憶部１１５に記憶されている。

この（ｎ₁＋ｎ₂＋ｎ₃＋・・・ｎ_n）個の特徴量に、順に番号を割り振るとする。すなわち、１乃至（ｎ₁＋ｎ₂＋ｎ₃＋・・・ｎ_n）番までの番号が、各特徴量に割り振られる。ステップＳ１５４においては、初期設定として、このリファレンスデータを構成する特徴量の１番目の特徴量が、処理対象のリファレンスデータとして設定される。

ステップＳ１５５において、距離算出部１１６は、ビデオ特徴量抽出部１１４から供給された特徴量と、リファレンスデータＲｉを用いて距離を算出する。すなわち、ビデオ特徴量抽出部１１４で処理対象とされたフレームと、リファレンスデータＲｉが抽出されたフレームとの類似度に関する距離が算出される。ここでは、距離が短いほど類似しているとして説明を続ける。

ステップＳ１５５において、距離算出部１１６により算出された距離は、最小距離保持部１１７に供給される。最小距離保持部１１７は、ステップＳ１５６において、供給された距離と、保持されている距離を比較し、供給された距離の方が短いか否かを判断する。最小距離保持部１１７は、リファレンスデータＲｉ毎に、距離を保持している。保持される距離は、処理過程のなかで、一番短いとされた距離である。

例えば、リファレンスデータＲｉが“１”のとき（リファレンスデータＲ１が処理対象とされているとき）、そのリファレンスデータＲ１に関連付けられている距離と、供給された距離とを比較し、短い距離の方が保持される。よって、ステップＳ１５６において、保持されている距離よりも、供給された距離の方が短いか否かが判断され、短いと判断された場合、ステップＳ１５７に処理が進められる。

ステップＳ１５７において、その短いと判断された距離が、その時点で処理対象とされているリファレンスデータＲｉに関連付けられる。すなわちこの場合、その時点でリファレンスデータＲｉに関連付けられていた距離が、新たな距離に置き換えられる。置き換えが実行された後、処理は、ステップＳ１５８に進められる。

一方、ステップＳ１５６において、保持されている距離よりも、供給された距離の方が長いと判断された場合、ステップＳ１５７の処理はスキップされ、ステップＳ１５８に処理が進められる。すなわち、その時点で、リファレンスデータＲｉに関連付けられている距離が、そのまま関連付けられた状態が維持される。

ステップＳ１５８において、次のリファレンスデータＲｉがあるか否かが判断される。例えば、リファレンスデータＲ１が処理対象とされているときには、リファレンスデータＲ２があるか否かが判断される。ステップＳ１５８において、次のリファレンスデータＲｉがあると判断された場合、ステップＳ１５９に処理が進められる。

ステップＳ１５９において、次のリファレンスデータＲｉが、新たな処理対象のリファレンスデータＲｉに設定される。そして、新たに処理対象とされたリファレンスデータＲｉに対して、ステップＳ１５５以下の処理が繰り返される。

このようにステップＳ１５５乃至Ｓ１５９の処理が繰り返されることにより、リファレンスデータ記憶部１１５に記憶されている全てのリファレンスデータＲｉと、１枚のフレームから抽出された特徴量との距離が算出される。換言すれば、リファレンスデータＲｉの基になった複数のフレームと、処理対象とされているビデオストリーム内の１つのフレームとの距離が、それぞれ算出され、最小距離のみが保持される。

一方、ステップＳ１５８において、次のリファレンスデータＲｉはないと判断された場合、ステップＳ１５２に処理が戻され、次のフレームが処理対象とされる。このように、ステップＳ１５２乃至Ｓ１５９の処理が繰り返されることにより、処理対象とされているビデオストリームから抽出された所定枚数のフレームと、リファレンスデータＲｉを抽出する基となったフレームとの距離が、それぞれ算出され、最小の距離の情報だけが保持される。

このような最小の距離から構成される特徴量ベクトルから、識別パラメータが生成されるが、その説明は、後述する。ここまでの処理について、再度、図７を参照して説明する。

図７を参照するに、カテゴリ１、カテゴリ２、・・・、カテゴリＮが設定されている。これらのカテゴリは、詳細に分類されたカテゴリである。例えば、カテゴリ１は“スポーツニュース”であり、カテゴリ２は“スポーツ中継”であり、カテゴリ３は“スポーツバラエティ”といったように、“スポーツ”というジャンルであっても、さらに、どのような番組であるかを示す詳細なカテゴリとされている。

カテゴリ１には、複数枚のフレームが含まれる。その複数枚のフレームから、ｎ₁枚のフレームが抽出される。この処理は、図４のフローチャートを参照して説明したステップＳ１０１，Ｓ１０２の処理に対応する。同様に、カテゴリ２にも、複数枚のフレームが含まれ、その複数枚のフレームから、ｎ₂枚のフレームが抽出される。さらに同様に、カテゴリｎにも、複数枚のフレームが含まれ、その複数枚のフレームから、ｎ_n枚のフレームが抽出される。

各カテゴリ１乃至ｎから抽出されたそれぞれのフレームは、リファレンスフレームとされる。このリファレンスフレームから、特徴量が抽出される。この処理は、上述したステップＳ１０３に相当し、リファレンスフレームから特徴量が抽出され、その特徴量がリファレンスデータとされる処理である。

よって、カテゴリ１から、ｎ₁枚のリファレンスフレームが抽出されるので、ｎ₁個のリファレンスデータが生成される。同様に、カテゴリ２から、ｎ₂枚のリファレンスフレームが抽出されるので、ｎ₂個のリファレンスデータが生成される。同様に、カテゴリｎから、ｎ_n枚のリファレンスフレームが抽出されるので、ｎ_n個のリファレンスデータが生成される。よって、最終的には、（ｎ₁＋ｎ₂＋・・・＋ｎ_n）個のリファレンスデータが生成される。

このように、リファレンスデータ（図７では、リファレンスフレームと記述し、フレームに見立てた四角形を図示してある）が生成され、リファレンスデータ記憶部１１５に記憶される。各リファレンスデータには、番号が割り振られる。ここでは、図７に示したように、カテゴリ１から抽出されたリファレンスデータを、リファレンスデータＲ１、リファレンスデータＲ２、リファレンスデータＲ３とする。他のリファレンスデータにも番号が割り振られるが、図７には図示していない。

このような状態の時、ビデオストリームＶ１が取得される。このビデオストリームＶ１のうちの範囲が限定、例えば、上記したように、番組の先頭の１０分間だけ、サンプリングが行われる。その結果、Ｍ枚のフレームが抽出される。これらのＭ枚のフレームのそれぞれから特徴量が抽出される。この処理は、図６のフローチャートにおけるステップＳ１５１乃至Ｓ１５３に相当する。

図７においては、Ｍ個のフレームからそれぞれ抽出された特徴量を、特徴量Ｍ１、特徴量Ｍ２、特徴量Ｍ３、・・・、特徴量Ｍｍと記述する。

まず、特徴量Ｍ１とリファレンスデータＲ１が用いられ、距離Ｄ１が算出される。同様に特徴量Ｍ１とリファレンスデータＲ２が用いられ、距離Ｄ２が算出される。さらに同様に、特徴量Ｍ１とリファレンスデータＲ３が用いられ、距離Ｄ３が算出される。このようにして、１つの特徴量Ｍ１と、全てのリファレンスデータＲｉとの距離が算出される。よって、この時点で、（ｎ₁＋ｎ₂＋・・・＋ｎ_n）次元の特徴量ベクトルが生成されることになる。この処理は、ステップＳ１５４乃至Ｓ１５９の処理に対応する。

このようにして、１つの特徴量Ｍと、全てのリファレンスデータＲｉとの距離が求められると、次の特徴量Ｍと、全てのリファレンスデータＲｉとの距離が求められる。特徴量Ｍ１の後は、特徴量Ｍ２が処理対象とされ、リファレンスデータＲｉとの距離が算出される。

ステップＳ１５６の処理として、特徴量Ｍ１とリファレンスデータＲ１との距離Ｄ１と、特徴量Ｍ２とリファレンスデータＲ１との距離Ｄ１’が比較される。その結果、距離Ｄ１’の方が、距離Ｄ１よりも短いと判断された場合、その時点で、リファレンスデータＲ１に関連付けられていた距離Ｄ１が、距離Ｄ１’に置き換えられる。また、距離Ｄ１’の方が、距離Ｄ１よりも長いと判断された場合、その時点で、リファレンスデータＲ１に関連付けられていた距離Ｄ１が、そのままリファレンスデータＲ１に関連付けられている状態が維持される。このようにして、各リファレンスデータＲｉには、特徴量Ｍ１乃至Ｍｍのうちの、一番短いとされた距離の値が関連付けられる。

よって、最終的には、１つのビデオストリームから、（ｎ₁＋ｎ₂＋・・・＋ｎ_n）次元の特徴ベクトルが１つ生成される。このような特徴ベクトルは、処理対象とされたビデオストリームＶ１の特徴を表すデータである。

このような特徴ベクトルが、複数のビデオストリーム毎に生成されることで、最小距離保持部１１７には、複数のビデオストリームから生成された複数の特徴ベクトルが保持される。換言すれば、複数のカテゴリ毎に、１または複数の特徴ベクトルが保持される。ここで、１または複数としたのは、１つのカテゴリで１つの特徴ベクトルが生成されるようにしても良いし、１つのカテゴリで複数の特徴ベクトルが生成されるようにしても良いからである。

このようにして、生成された複数の特徴ベクトルが、最小距離保持部１１７（図４）に保持されている状態のとき、その特徴ベクトルを用いて、学習アルゴリズム処理部１１８は識別パラメータを生成する。

学習アルゴリズム処理部１１８は、所定のアルゴリズムに基づいて、また、最小距離保持部１１７に保持されている特徴ベクトルを用いて、識別パラメータを生成する。所定のアルゴリズムとしては、例えば、最急降下法、サポートベクターマシン、バックプロパゲーションといったアルゴリズムを用いることができる。これらのアルゴリズムに基づき算出された識別パラメータは、カテゴリを識別するパラメータとして識別パラメータ保持部１１９に保持される。

学習器１００は、このようなモデルの学習処理を行い、学習の結果として識別部１７において番組の分類の識別に用いられる識別パラメータ、すなわち例えば特徴空間を分割するための直線や曲線を生成するための識別パラメータを、識別部１７に供給して設定する。その設定は、上記したように、ネットワークや記録媒体を介して行われたり、直接的に行われたりする。

［分類情報の生成について］
このように、識別パラメータが生成され、記録再生装置１の識別部１７に保持されることで、記録再生装置１では、番組のカテゴリを識別することが可能となる。図８のフローチャートを参照し、記録再生装置１（図１）が番組を分類する識別処理について説明する。

ステップＳ２０１において、ビデオストリームが取得される。このビデオストリームは、入力制御部１２により入力が制御されたビデオストリームであっても良いし、保存部２０に保存されているビデオストリームであっても良い。ステップＳ２０２において、取得されたビデオストリームから、フレームが抽出される。入力されたビデオストリームから生成される全てのフレームを処理対象とする場合、フレームを抽出するといった処理を省略することが可能である。図１に示した記録再生装置１は、フレームを抽出する部分（フレーム抽出部）は図示していない。

しかしながら、所定のフレームが抽出され、処理対象とされる場合、例えば、デコーダ１３とビデオ特徴量抽出部１５との間に、フレーム抽出部が設けられ、そのフレーム抽出部によりフレームが抽出されるような構成とされる。図示はしていないが、ここでは、フレームが抽出されるとして説明を続ける。またここでは、ビデオ特徴量抽出部１５が、デコーダ１３から供給されるフレームを選択することで、フレームの抽出が行われるとする。

また、フレームの抽出は、学習器１００のフレーム抽出部１１３（図４）で行われる処理、換言すれば、ステップＳ１０２（図５）や、ステップＳ１５２（図６）で行われる処理と同様に行われる。すなわち、番組の冒頭の１０分間分のフレームが処理対象とされたり、所定の時間間隔で抽出されたフレームが処理対象とされたりするなどである。

ステップＳ２０２において、フレームが抽出されると、そのフレームが処理対象とされ、ステップＳ２０３に処理が進められる。ステップＳ２０３において、ビデオ特徴量抽出部１５は、処理対象とされたフレームから特徴量を抽出する。この処理は、学習器１００のビデオ特徴量抽出部１１４と同じく行われる。すなわち、フレームから、色ヒストグラム、色モーメント、差分画像、縮小画像などのビデオ特徴量が抽出される。

ステップＳ２０４において、特徴ベクトル生成部１６により特徴ベクトルが生成される。特徴ベクトル生成部１６は、ビデオ特徴量抽出部１５から供給された特徴量の中から、識別部１７において、チャプタ情報が付される番組の分類を識別するのに用いる所定の特徴量を選択し、選択した特徴量を要素とするベクトル（特徴ベクトル）を生成する。特徴ベクトル生成部１６は、生成した特徴ベクトルを、識別部１７に供給する。

ステップＳ２０５において、識別部１７は、カテゴリを識別する。識別部１７は、特徴ベクトル生成部１６から供給された特徴ベクトルと、保持されている識別パターンを用いて、入力されたビデオストリームの番組が属するカテゴリを識別する。例えば識別部１７は、線形識別器、非線形識別器、またはニューラルネットなどの識別器で構成され、特徴ベクトルを構成する各要素を、学習器１００により設定された識別パラメータに基づいて生成した直線や曲線等で分割した所定の特徴空間に配置し、配置した各要素の分布が属する特徴空間の分割領域に基づいて、番組のカテゴリを識別する。

この識別されるカテゴリは、学習器１００における学習で細かく分類されたカテゴリである。そして、そのように細かく分類されたカテゴリに基づいて生成された識別パラメータを用いて識別が行われるため、その識別結果も、細かいカテゴリでの結果とすることが可能となる。

ステップＳ２０６において、識別結果としてのカテゴリが、分類情報として、チャプタ情報検出部１８に対して出力される。

このようにして、チャプタ情報検出部１８に、番組が属する細かく分類されたカテゴリに関する分類情報が供給されることで、以下に説明するような、詳細なチャプタ情報の検出が可能となる。すなわち、番組にもっとも適したチャプタ情報の検出を番組毎に行うことが可能となる。

［チャプタ情報の検出について］
図９乃至図１１を参照し、チャプタ情報の検出について説明する。図９に示すような、サッカーの試合を中継して放送する番組からチャプタ情報を検出する場合について説明する。図９の上段には、サッカーの試合を放送する番組を構成する映像が示され、図９の下段には、その映像と同時に出力される音声の音量が示されている。

いまの場合、オーディオ特徴量抽出部１４は、デコーダ１３から供給された図９に示すように音量が変動する音声のオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

ビデオ特徴量抽出部１５は、デコーダ１３から供給された図９に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

特徴ベクトル生成部１６は、いまの例の場合、オーディオ特徴量抽出部１４またはビデオ特徴量抽出部１５から供給された特徴量のうち、ビデオ特徴量抽出部１５から供給された色ヒストグラムを用いて、特徴ベクトルを生成し、識別部１７に供給する。

図９に示した映像からは、図２を参照して上述したように、例えば緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成され、識別部１７に供給される。識別部１７は、緑色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部１６から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカー番組」であることを識別できるように学習している（識別パラメータが取得されている）ので、番組の分類が「サッカー番組」であると識別し、その識別結果として、分類が「サッカー番組」であることを示す分類情報を、チャプタ情報検出部１８に供給する。

サッカーの試合を放送する番組は、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーン（図９の例では、図中、上向きの矢印が付されている映像Ｆ４２，Ｆ５１，Ｆ５３）で音量が高くなる特徴がある。

すなわちこの盛り上がっているシーンが、ユーザが興味を有する点であるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部１７から番組の分類が「サッカー番組」であることを示す分類情報が供給された場合、チャプタ情報検出部１８は、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５から供給された特徴量の中から色ヒストグラム、差分画像、音量を選択し、それらを用いて、映像の連続性がない位置（例えば、フレーム）（以下、カット点と称する）を検出するとともに、カット点の検出結果と音量の変化を基にチャプタ区切り点を決定し、音量に基づく盛り上がりの度合いをチャプタのスコアとする演算を行う。チャプタ情報検出部１８は、その演算の結果検出したチャプタ情報を、保持部１９に供給して保持させる。

このように番組の分類が「サッカー番組」であると識別された場合、盛り上がりに基づいたチャプタ情報が検出されると、ダイジェスト再生において、キックオフのとき、ゴールチャンスがあったとき、またはゴールがあったとき等の盛り上がっているシーンの映像Ｆ４２，Ｆ５１，Ｆ５３等が、ダイジェスト再生される。

次に、図１０に示すような、事件や出来事を報道する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部１４は、デコーダ１３から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

ビデオ特徴量抽出部１５は、デコーダ１３から供給された図１０に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

図１０に示した映像からは、図３を参照して上述したように、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが生成されて、識別部１７に供給される。識別部１７は、人物とスタジオの特有の色の頻度が高い色ヒストグラムを多く含む特徴ベクトルが特徴ベクトル生成部１６から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「ニュース番組」であることを識別できるように学習しているので、番組の分類が「ニュース番組」であると識別し、その識別結果として、分類が「ニュース番組」であることを示す分類情報を、チャプタ情報検出部１８に供給する。

事件や出来事を報道する番組は、報道の内容を説明するアナウンサーの映像と事件等に応じた映像が順次切り替わる（図１０の例では、図中、上向きの矢印が付されている映像Ｆ６１，Ｆ６３，Ｆ７１，Ｆ７２で切り替わっている）特徴がある。

視聴者にとっては報道の内容を説明するアナウンサーの映像を視聴すればニュースの概要を把握することができるので、ダイジェスト再生においてはこのシーンが再生されることが望ましい。そこで識別部１７から番組の分類が「ニュース番組」であることを示す分類情報が供給された場合、チャプタ情報検出部１８は、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点を検出するとともに、色ヒストグラムの類似性から報道の内容を説明するアナウンサーの映像と報道に応じた映像が切り替わる位置を検出してチャプタ区切り点とし、アナウンサーの映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部１８は、その演算の結果検出したチャプタ情報を、保持部１９に供給して保持させる。

このように番組が「ニュース番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、ダイジェスト再生において、報道の内容を説明するアナウンサーの映像Ｆ６１、Ｆ６２、Ｆ７１が、ダイジェスト再生される。

次に、図１１に示すような、サッカーの試合結果（いわゆるダイジェスト）を紹介する番組からチャプタ情報を検出する場合について説明する。オーディオ特徴量抽出部１４は、デコーダ１３から供給されたオーディオデータから、音量、周波数スペクトラム、左右チャンネル相関値などを、オーディオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

ビデオ特徴量抽出部１５は、デコーダ１３から供給された図１１に示す映像のビデオデータから、色ヒストグラム、色モーメント、差分画像、縮小画像などを、ビデオの特徴量として抽出し、特徴ベクトル生成部１６およびチャプタ情報検出部１８に供給する。

図１１に示した映像からは、人物とスタジオの特有の色の頻度が高い色ヒストグラムと、緑色の頻度が高い色ヒストグラムが混在して生成されて、識別部１７に供給される。識別部１７は、人物とスタジオの特有の色の頻度が高い色ヒストグラムと緑色の頻度が高い色ヒストグラムが混在する特徴ベクトルが特徴ベクトル生成部１６から供給されると、上述したように、そのような特徴ベクトルからは、番組の分類が「サッカーダイジェスト番組」であることを識別できるように学習しているので、番組の分類が「サッカーダイジェスト番組」であると識別し、その識別結果として、分類が「サッカーダイジェスト番組」であることを示す分類情報を、チャプタ情報検出部１８に供給する。

識別部１７から番組の分類が「サッカーダイジェスト番組」であることを示す分類情報が供給されると、チャプタ情報検出部１８は、図１０の例の場合と同様に、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５から供給された特徴量の中から色ヒストグラムと差分画像を選択し、それらを用いて、カット点と色ヒストグラムの類似性に基づくチャプタ区切り点と、試合中の映像に高いスコアを与えるような演算を実行する。チャプタ情報検出部１８は、その演算の結果検出したチャプタ情報を、保持部１９に供給して保持させる。

サッカーの試合結果（いわゆるダイジェスト）を紹介する番組は、試合結果の内容を説明するアナウンサーの映像と試合の映像が順次切り替わる（図１１の例では、図中、上向きの矢印が付されている映像Ｆ８１，Ｆ８２，Ｆ９１，Ｆ９２で切り替わっている）特徴がある。

サッカーの試合結果を紹介する番組においては、アナウンサーの映像よりも試合の映像の方が視聴者にとっては重要である。従って、ダイジェスト再生においては試合の映像が優先的に再生されることが望ましい。

このように番組が「サッカーダイジェスト番組」であると識別された場合、カット点と色ヒストグラムの類似性に基づいたチャプタ情報が検出されると、サッカーの試合結果を紹介する番組に対して最適なダイジェスト再生を行うことができる。図１１の例の場合、試合シーンの映像Ｆ８３，Ｆ９２等が、ダイジェスト再生される。

例えば図１１に示す番組に対して、ＥＰＧでの分類に応じて、図９の例の場合のように盛り上がり点をチャプタ情報として検出すると、ダイジェスト再生において適切な映像を再生することができない。

以上のようにして、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類識別が行われ、その分類に基づいてチャプタ情報が検出される。

なお以上においては、放送番組をダイジェスト再生する場合に利用されるチャプタ情報検出を例として説明したが、他のコンテンツをダイジェスト再生する場合のチャプタ情報検出についても同様に適用することができる。例えばカムコーダで撮ったパーソナルコンテンツについても適用することができる。なおパーソナルコンテンツの分類用の学習が必要となるが、図１に示した記録再生装置１に学習器１００が内蔵される構成とすることで、その学習を容易に行えるようになる。

また以上においては、ダイジェスト再生で利用されるチャプタ情報の検出に適した番組の分類を識別する場合を例として説明したが、他の処理に適した分類が識別されるようにすることもできる。

また以上においては、分類識別処理が実行されるタイミングについては言及しなかったが、番組を録画とすると同時に行うことができる。すなわち入力制御部１２は、ＡＶデータを保持部２０に供給して記憶させるとともに（すなわち録画させるとともに）、デコーダ１３に供給する。

デコーダ１３乃至識別部１７は、入力制御部１２から供給されたＡＶデータに基づいて、上述したように分類識別処理を実行する。なおこの際、チャプタ情報検出部１８は、動作せず、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５から供給された特徴量は、例えばチャプタ情報検出部１８に保持されるようにすることもできるし、破棄されるようにすることもできる。

なおチャプタ情報検出は、番組の録画が完了し、番組の分類が識別された後、保持部２０に保持されたＡＶデータがデコーダ１３によって読み出され、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５によって各特徴量が抽出され、チャプタ情報検出部１８において、抽出された特徴量から先に識別された番組の分類に応じた特徴量が選択されて、チャプタ情報が検出される。

また分類識別に必要な特徴ベクトルの特徴量を、番組全体に渡って抽出することもできるし、例えば番組の先頭の所定の時間（例えば、１０分間）の部分から抽出することもできる。番組全体に渡って特徴量を抽出する場合には、上述したように番組の録画が完了した後、分類識別が行われるが、番組の一部から特徴量を抽出する場合、オーディオ特徴量抽出部１４およびビデオ特徴量抽出部１５のそれぞれと、チャプタ情報検出部１８の間にバッファを設け、特徴ベクトルが生成されて分類が識別されるまでの特徴量をバッファしておけば、分類が識別された後に、直ちにチャプタ情報検出を開始することができる。

また以上においては、番組の分類が「ニュース番組」または「サッカー番組」である場合を例として説明したが、「音楽番組」など、他の分類に識別することができるようにすることができる。

また分類は、いわゆるジャンルに相当するものに限らず、他のものであってもよい。歌や演奏を放送する番組には、以下に示すようなタイプがあるが、それらを分類として識別することができれば、ダイジェスト再生におけるチャプタ情報検出をさらに適切に行うことができる。
・司会者と出演者との会話などよりも、実際の歌や演奏の時間が長いタイプ
・司会者と出演者との会話などが長いタイプ
・ホールなどの収録であって、観客の声援や拍手が入るタイプ

また以上においては、分類識別にあたり、ＥＰＧデータを利用しなかったが、保持部２２に保持されたＥＰＧ情報をさらに利用して番組の分類識別の精度を向上させることもできる。

図１２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）２０１，ROM（Read Only Memory）２０２，RAM（Random Access Memory）２０３は、バス２０４により相互に接続されている。

バス２０４には、さらに、入出力インタフェース２０５が接続されている。入出力インタフェース２０５には、キーボード、マウス、マイクロホンなどよりなる入力部２０６、ディスプレイ、スピーカなどよりなる出力部２０７、ハードディスクや不揮発性のメモリなどよりなる記憶部２０８、ネットワークインタフェースなどよりなる通信部２０９、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどのリムーバブルメディア２１１を駆動するドライブ２１０が接続されている。

以上のように構成されるコンピュータでは、CPU２０１が、例えば、記憶部２０８に記憶されているプログラムを、入出力インタフェース２０５およびバス２０４を介して、RAM２０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU２０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア２１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア２１１をドライブ２１０に装着することにより、入出力インタフェース２０５を介して、記憶部２０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部２０９で受信し、記憶部２０８にインストールすることができる。その他、プログラムは、ROM２０２や記憶部２０８に、予めインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

１記録再生装置，１１データ分離部，１２入力制御部，１３デコーダ，
１４オーディオ特徴量抽出部，１５ビデオ特徴量抽出部，１６特徴ベクトル
生成部，１７識別部，１８チャプタ情報検出部，１９保持部，２０保持部，２１再生部，２２保持部，４１制御部，１００学習器，１１１入力制御部，１１２デコーダ，１１３フレーム抽出部，１１４ビデオ特徴量抽出部，１１５リファレンスデータ記憶部，１１６距離算出部，１１７最小距離保持部，１１８学習アルゴリズム処理部，１１９識別パラメータ保持部，１２０ドライブ，１２１通信部

Claims

第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段と、
第２のコンテンツから第２の特徴量を抽出する抽出手段と、
前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出する算出手段と、
前記算出手段により算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成するベクトル生成手段と、
前記生成手段により生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成するパラメータ生成手段と
を備える情報処理装置。
前記抽出手段は、前記第２のコンテンツの所定の部分から、前記第２の特徴量を抽出する
請求項１に記載の情報処理装置。
前記第１の特徴量は、複数の前記第１のコンテンツから、所定枚数のフレームが抽出され、その抽出されたそれぞれのフレームから特徴量が抽出され、その抽出された特徴量から構成される複数次元のベクトルである
請求項１に記載の情報処理装置。
第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段を備える情報処理装置の情報処理方法において、
第２のコンテンツから第２の特徴量を抽出し、
前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出し、
算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、
生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成する
ステップを含む情報処理方法。
第１のコンテンツから抽出された第１の特徴量を記憶する記憶手段を備える情報処理装置に、
第２のコンテンツから第２の特徴量を抽出し、
前記第１の特徴量と前記第２の特徴量を用いて、前記第１のコンテンツと第２のコンテンツの距離を算出し、
算出された距離のうち、最小の距離だけを保持し、その最小の距離から構成される特徴ベクトルを生成し、
生成された前記特徴ベクトルを用いて所定のアルゴリズムに基づく処理を行い、コンテンツを分類するためのパラメータを生成する
ステップを含む処理を実行させるコンピュータが読み取り可能なプログラム。
請求項５に記載のプログラムを記録した
記録媒体。