JP2002238027A

JP2002238027A - ビデオ及びオーディオ情報処理

Info

Publication number: JP2002238027A
Application number: JP2001375044A
Authority: JP
Inventors: Mark John Mcgrath; マークジョンマクグラス; Morgan William Amos David; モルガンウィリアムアモスデビット; Jonathan Thorpe; ジョナサンソープ
Original assignee: Sony United Kingdom Ltd
Current assignee: Sony Europe BV United Kingdom Branch
Priority date: 2000-12-07
Filing date: 2001-12-07
Publication date: 2002-08-23
Also published as: US20020122659A1; EP1213915A3; EP1213915A2; GB0029880D0; US7409144B2

Abstract

(57)【要約】（修正有）【課題】新たに取得されたビデオテープ等のマテリアル
をレビューして編集する時に、コンテンツ編集者の作業
を減らし短時間で実施できるようにする。【解決手段】カメラ記録装置は、複数のビデオ画像を撮
像する撮像素子と、後の読出のためにビデオ画像を記録
するストレージ媒体と、ビデオ画像の撮像時において、
実質的にリアルタイムに、少なくとも１つのビデオ画像
の画像コンテンツから各画像又は画像のグループに関連
付けられた画像特性を抽出する特徴抽出手段と、抽出し
た画像特性をカメラ記録装置から外部データ処理装置に
転送するデータパスとを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、オーディオ及びビ
デオ情報の処理に関する。

【０００２】

【従来の技術】ビデオカメラは、オーディオ及びビデオ
情報を生成し、このような情報は、通常、拡張的に編集
された後、放送品質の番組が作成される。編集処理は非
常に時間がかかる作業であり、したがって、あらゆる番
組の作成コストの大きな部分を占めている。

【０００３】ビデオ画像及びオーディオデータは、通
常、コンピュータを用いた非線形編集装置により「オフ
ライン」で編集される。非線形編集装置は、記録された
シーケンスのいかなる点からも情報を編集できるという
柔軟性を有している。デジタル編集用の画像としては、
通常、元のソースマテリアルの解像度を落としたコピー
が使用される。このようなコピーは、放送品質は満足さ
せないが、記録されたマテリアルをブラウズし、オフラ
イン編集判断を行うには十分な画質を有する。ビデオデ
ータとオーディオデータは、個別に編集することができ
る。

【０００４】オフライン編集処理により最終的には、編
集判断リスト（edit decision list：以下、ＥＤＬとい
う。）が作成される。ＥＤＬは、編集点をタイムコード
アドレスで指定するファイルであり、すなわち、番組を
編集するための要求されたインストラクションを含む。
ＥＤＬは、後にオフライン編集からオンライン編集に編
集判断を伝えるために使用され、オンライン編集では、
マスタテープを用いて、編集された番組の放送品質の高
解像度コピーが作成される。

【０００５】

【発明が解決しようとする課題】オフラインの非線形編
集処理は、柔軟性を有しているが、非常に時間がかかる
作業である。この処理では、人間のオペレータが情報を
リアルタイムで再生し、ショットをサブショットにセグ
メント化し、時間軸に沿った所望のシーケンスとして、
これらのショットを配列する。ショットを最終的なシー
ケンスとして配列するまでには、ショットを複数回再生
し、その全体のコンテンツを確認し、そのショットを最
終的なシーケンスのどこに挿入するかを判断する必要が
あることが多い。

【０００６】オーディオデータは、編集段階では、音声
検出アルゴリズムを適用して、音声を含む可能性が高い
オーディオフレームを識別することにより、自動的に処
理することもできる。あるいは、編集者がオーディオデ
ータをリアルタイムで聞き取り、そのコンテンツ全体を
把握する必要がある場合もある。

【０００７】本質的には、編集者は、最初から生のオー
ディオフレーム及びビデオ画像を再生し、その情報のコ
ンテンツを丹念に確認する必要がある。このような作業
を行ってはじめて、ショットをどのようにセグメント化
し、どのような順序でシーケンスを作成するかを判断す
ることができる。

【０００８】

【課題を解決するための手段】本発明に係るカメラ記録
装置は、複数のビデオ画像を撮像する撮像素子と、後の
読出のためにビデオ画像を記録するストレージ媒体と、
ビデオ画像の撮像時において、実質的にリアルタイム
に、少なくとも１つのビデオ画像の画像コンテンツから
各画像又は画像のグループに関連付けられた画像特性を
抽出する特徴抽出手段と、抽出した画像特性をカメラ記
録装置から外部データ処理装置に転送するデータパスと
を備える。

【０００９】本発明は、人間である編集者が新たに取得
されたビデオテープ等におけるマテリアルをレビューす
る作業は、編集処理における大きな負担となり、全体の
編集に要する時間を長引かせてしまう、といった問題を
解決する。ここで、編集装置において単に自動的レビュ
ーを行う手法では、大きな効果を期待できない。このよ
うな単なる自動化によっても、（高コストな）人間が介
在する操作を省略できるが、処置の時間は、大幅には短
縮されない。このような処理時間の要素は、例えばニュ
ース番組の編集等、時間的に厳しい状況で行われる編集
処理において特に重要である。

【００１０】一方、本発明では、カメラ記録装置におい
て、画像コンテンツのデータ特性を実質的にリアルタイ
ムで抽出するので、データをより素早く分析することが
でき、したがって、編集装置において、ビデオマテリア
ル全体をレビューする必要はない。これにより、編集処
理の自動的準備段階に要する時間を著しく短縮すること
ができる。

【００１１】

【発明の実施の形態】図１は、本発明に基づくダウンス
トリームオーディオビジュアル処理装置の構成を示す図
である。カメラ１０は、オーディオ及びビデオデータを
カメラ内のビデオテープに記録する。カメラ１１０は、
「メタデータ」として知られる、記録されたビデオ情報
に関する追加的な情報を作成及び記録する。メタデータ
は、通常、録画日、記録開始／終了フラグ又はタイムコ
ード、カメラ状態データ、及びＳＭＰＴＥＵＭＩＤと
して知られる記録マテリアルに対する固有の識別インデ
クスを含む。

【００１２】ＵＭＩＤについては、「ＳＭＰＴＥジャー
ナル（SMPTE Journal）」の２０００年３月号に記載さ
れている。「拡張ＵＭＩＤ（extended UMID）」は、
「基礎ＵＭＩＤ（basic UMID）」に相当する第１の３２
バイトの組と、「シグネチャメタデータ（signature me
tadata）」である第２の３２バイトの組から構成されて
いる。

【００１３】基礎ＵＭＩＤは、キーレングスバリュー
（key-length-value：ＫＬＶ）構造を有し、以下のよう
な情報から構成されている。・ＳＭＰＴＥＵＭＩＤ自身及びＵＭＩＤが指示するマ
テリアルの種類を識別する１２バイトの汎用ラベル又は
キー。この汎用ラベル又はキーは、後述する包括的固有
マテリアル（globally unique Material）番号及び局所
的固有インスタンス（locally unique Instance）番号
を生成する手法を定義する。・ＵＭＩＤの残りの部分の長さを特定する１バイトのレ
ングス値。・同じマテリアル番号を有する異なる「インスタンス」
又はマテリアルのコピー間を区別するために使用される
３バイトのインスタンス番号。・各クリップを識別するために使用される１６バイトの
マテリアル番号。・マテリアル番号は、少なくとも各ショット及び可能性
として各画像フレームに付される。

【００１４】シグネチャメタデータは、以下のような情
報から構成される。・ＵＭＩＤが適用される「コンテンツユニット」の作成
日時を識別する８バイトの日時コード。最初の４バイト
は世界時コード（ＵＴＣ）ベースのコンポーネントであ
る。・コンテンツユニット作成時の（ＧＰＳ）に基づく空間
的座標を定義する１２バイトの値。・国コード、組織コ
ード及びユーザコードを表すそれぞれ４バイトの３つの
グループ。

【００１５】記録自体の特性を識別する役割を有する上
述の基礎的メタデータとは別に、記録されたオーディオ
データ及びビデオ画像のコンテンツを詳細に記述する追
加的メタデータも提供される。追加的メタデータは、好
ましくはフレーム毎の「特徴ベクトル（feature-vector
s）」を含み、カメラ１０内のハードウェアにより、撮
像された生のビデオ及びオーディオデータをリアルタイ
ムで（又は直後に）処理することにより生成される。

【００１６】特徴ベクトルは、例えば、与えられたフレ
ームが音声（speach）に関連しているか否か、あるいは
人物の顔の画像を表しているか否かを示す。さらに、特
徴ベクトルは、各フレームの色相成分の大きさ等、ある
種の画像特性に関する情報を含むこともできる。

【００１７】ＵＭＩＤ及び開始／終了タイムコードを含
むメインメタデータは、オーディオ／ビデオデータとと
もにビデオテープに記録することができるが、例えばソ
ニー株式会社の「テレファイル：Ｔｅｌｅ−Ｆｉｌｅ
（商標）」システム等の専用システムを用いて保存する
ことが好ましい。このテレファイルシステムでは、ビデ
オカセットラベルに設けられ、ラベルへの直接的な電気
的接触を行うことなくデータを読み書きできる非接触型
メモリ集積回路に記憶される。

【００１８】全てのメタデータ情報は、メタデータデー
タパス１５を介して、メタストア２０に格納される。メ
タデータデータパス１５は、ビデオテープ、リムーバブ
ルハードディスク、無線ローカルエリアネットワーク
（無線ＬＡＮ）のいずれであってもよい。メタストア２
０は、ストレージ３０と、メタデータの抽出及び分析の
ための演算処理を行う中央演算処理ユニット（central
processing unit：以下、ＣＰＵという。）４０とを備
える。メタストア２０は、特徴ベクトルメタデータを用
いて、サブショットセグメント化等の機能を自動化し、
一連の連続するフレームにおける人物の顔とスピーチの
同時検出により示されるインタビューに対応する可能性
が高い情報を識別し、オフライン編集装置で使用するた
めの、各ショットの主要なコンテンツを反映する代表画
像を作成し、オーディオ及びビデオ情報のエンコードに
関連する特性を算出する。

【００１９】このように、メタデータによる特徴ベクト
ル情報は、編集処理に先行する前処理の自動化に貢献す
る。オーディオ及びビデオデータを記述するメタデータ
は、メタストア２０に集中的に保存され、例えばＳＭＰ
ＴＥＵＭＩＤ等の固有の識別しによりオーディオ及び
ビデオデータに関連付けられる。オーディオ及びビデオ
データは、通常、メタデータとは別に保存される。メタ
ストア２０を用いることにより、特徴ベクトルに用にア
クセスでき、大量の情報を保存することができる。

【００２０】メタストアは、特徴ベクトルに対する追加
的な処理を行い、従来、編集者がしなくてはならなかっ
た多くの処理を自動化する。処理された特徴ベクトル
は、オフライン編集の最初から使用することができ、こ
れにより作業が効率的になり、編集に要する時間を短縮
できる。

【００２１】図２は、本発明に基づき、ビデオカメラ１
０のメインコンポーネントと、メタストア２０とがどの
ようにインタラクトするかを説明する図である。撮像素
子５０は、オーディオ及びビデオデータ信号２５５を生
成し、このオーディオ及びビデオデータ信号５５を画像
処理モジュール６０に供給する。画像処理モジュール６
０は、標準的な画像処理を行い、処理されたオーディオ
及びビデオデータをメインデータパス８５を介して出力
する。オーディオ及びビデオデータ信号５５は、特徴ベ
クトル抽出モジュール８０にも供給され、特徴ベクトル
抽出モジュール８０は、音声検出及び色相ヒストグラム
算出等の処理を行い、その結果として得られる特徴ベク
トルデータ９５を出力する。撮像素子５０は、信号６５
をメタデータ生成ユニット７０に供給し、メタデータ生
成ユニット７０は、基礎ＵＭＩＤ及び開始／終了タイム
コードを含む基礎的メタデータ情報７５を生成する。こ
の基礎的メタデータ情報７５及び特徴ベクトルデータ９
５は混合され、メタデータデータパス１５を介して出力
される。

【００２２】メタデータデータパス１５を介して伝送さ
れるデータは、メタストア２０内に設けられたメタデー
タ抽出モジュール９０に供給される。メタデータ抽出モ
ジュール９０は、メタデータ抽出処理を実行し、ビデオ
カメラ１０により生成された特徴ベクトルデータ９５を
用いて、記録された音声及び画像のコンテンツに関する
追加的な情報を生成する。メタデータ抽出モジュール９
０は、例えば、色相特徴ベクトル（すなわち、追加的メ
タデータ）を用いて、サブショットセグメント化処理を
実行する。この処理については後に説明する。メタデー
タ抽出モジュール９０からの出力データ１１５は、オフ
ライン編集装置により読出可能な、メタストア２０内の
メインストレージ領域であるストレージ３０に記録され
る。

【００２３】図３は、本発明に基づく特徴抽出モジュー
ル２８０と、メタデータ抽出モジュール２９０の構成を
示す図である。

【００２４】図３の左側に示す特徴抽出モジュール８０
は、上述のように、ビデオカメラ１０内に設けられ、色
相ヒストグラム算出ユニット１００と、音声検出ユニッ
ト１１０と、顔検出ユニット１２０とを備える。これら
特徴抽出ユニットから出力されるデータは、メタデータ
抽出モジュール９０に供給され、さらに処理される。

【００２５】色相ヒストグラム算出ユニット１００は、
各画像の色相値を分析する。ビデオカメラ２１０内の撮
像素子２５０は、赤、緑、青（ＲＧＢ）の３原色信号を
検出する。これらの信号は、フォーマット変換され、異
なる色空間表現で記録される。アナログビデオテープ
（ＰＡＬやＮＴＳＣ等）においては、信号はＹＵＶ空間
に記録され、一方、デジタルビデオシステムは、標準Ｙ
ＣｒＣｂ色空間に信号を記録する。第３の色空間は、色
相−彩度−値（hue-saturation-value：以下、ＨＳＶと
いう。）色空間である。色相は、スペクトル分布の主要
な波長を反映し、彩度は、単一の波長におけるスペクト
ル分布の集中度を表し、値は、色の強さを表す。ＨＳＶ
色空間において、色相は、色を３６０°の範囲で特定す
る。

【００２６】色相ヒストグラム算出ユニット１００は、
必要に応じて、任意の色空間のオーディオ及びビデオデ
ータ信号をＨＳＶ色空間に変換する。色相ヒストグラム
算出ユニット１００は、各フレームの画素の色相値を結
合し、色相値の関数として、各フレームに対する発生頻
度の色相ヒストグラムを生成する。色相値は、０°以上
３６０°以下の値をとり、ヒストグラムのビンサイズ
（bin-size）は、潜在的に調整可能であるが、通常１°
とする。この具体例においては、３６０のエレメントを
有する特徴ベクトルが各フレーム毎に生成される。色相
特徴ベクトルの各エレメントは、そのエレメントに関連
する色相値の発生頻度を表す。色相値は、通常、フレー
ム内の全ての画素について算出するが、（例えば平均化
処理により）複数の画素からなるグループに単一の色相
値を対応させてもよい。色相ベクトルは、後にメタデー
タ抽出モジュール２９０がサブショットセグメント化及
び代表画像抽出処理に使用することができる。

【００２７】特徴抽出モジュール８０内の音声検出ユニ
ット１１０は、記録されたオーディオデータを分析す
る。音声検出ユニット１１０は、通常、フレーム毎にオ
ーディオマテリアルのスペクトル分析を行う。なお、音
声検出ユニット１１０の説明において、「フレーム」と
いう用語は、ビデオフレームではなく、例えば４０ミリ
秒の期間を有するオーディオフレームを指すものとす
る。各オーディオフレームのスペクトルコンテンツは、
ソフトウェア又はハードウェアを用いた高速フーリエ変
換（fast Fourier transform：以下、ＦＦＴという。）
をオーディオデータに適用することにより算出される。
このスペクトルコンテンツは、周波数の関数であるパワ
ーに関するオーディオデータのプロファイルを提供す
る。

【００２８】この具体例における音声検出処理は、人間
の音声が生来的に高調波成分を多く含むという事実に基
づいている。このような現象は、特に母音の発声音に顕
著に現れる。声の高さは、話者により異なり、フレーム
毎にも変化するが、人間の声の周波数は、通常、５０〜
２５０Ｈｚの範囲内である。オーディオデータのコンテ
ンツは、一連の「櫛フィルタ」を適用することにより分
析される。櫛フィルタは、無限インパルス応答（Infini
te Impulse Response：ＩＩＲ）フィルタであり、出力
サンプルを所定時間遅延させた後、入力に戻す。櫛フィ
ルタは、比較的狭い複数の通過帯域を有し、各通過帯域
の中心周波数は、特定のフィルタに関連する基礎周波数
の整数倍に設定されている。特定の基礎周波数に基づく
櫛フィルタの出力信号は、そのフレームのオーディオ信
号が基礎周波数に対してどれほど高調波成分を含んでい
るかを示す。オーディオ信号には、５０〜２５０Ｈｚの
範囲の基礎周波数を有する一連の櫛フィルタが適用され
る。

【００２９】この具体例では、まず、オーディオマテリ
アルにＦＦＴ処理を適用するため、櫛フィルタは、単に
任意のＦＦＴ係数を選択することにより実現することが
できる。スライド式櫛フィルタ（sliding comb filte
r）は、疑似連続的な一連の出力信号（quasi-continuou
s series of outputs）を生成し、これらの出力信号
は、オーディオ信号における、それぞれ特定の基礎オー
ディオ周波数に対する高調波成分の割合を示す。各オー
ディオフレームについて、この一連の出力信号のうち、
最大の出力信号が選択される。この最大の出力信号は、
「高調波インデクス（Harmonic Index：ＨＩ）と呼ば
れ、その値を所定の閾値と比較することにより、関連す
るオーディオフレームが音声を含む可能性が高いか否か
が判定される。

【００３０】特徴抽出モジュール８０内に設けられた音
声検出ユニット１１０は、各オーディオフレームについ
て、特徴ベクトルを生成する。この特徴ベクトルは、最
も単純な形式としては、音声が存在するか否かを示すフ
ラグとして実現してもよい。なお、各フレームの高調波
インデクスに対応するデータを特徴ベクトルデータとし
て用いてもよい。音声検出ユニット１１０の変形例とし
て、各オーディオフレームに対してＦＦＴ係数を含む特
徴ベクトルを出力してもよく、この場合、高調波インデ
クスの算出及び音声が含まれているか否かの判定は、メ
タデータ抽出モジュール９０により行うことができる。
特徴ベクトル抽出モジュール８０には、音声フレームに
おける音楽シーケンス又は音声の休止（pauses）を検出
する追加的ユニット１３０を設けてもよい。

【００３１】また、特徴ベクトル抽出モジュール８０に
設けられた顔検出ユニット１２０は、ビデオ画像を分析
し、画像内に人間の顔が含まれているか否かを判定す
る。この顔検出ユニット３２０は、本出願の優先日以前
にビジョニクス社（VisionicsCorporation）から市販さ
れているＦａｃｅＩｔ（商標）アルゴリズム等のアルゴ
リズムにより人間の顔を検出する。この顔検出アルゴリ
ズムは、全ての顔画像がそれ以上単純化できない基礎的
構成要素の組から合成できるという事実に基づいてい
る。基礎的構成要素は、統計的手法を用いて、人間の顔
の代表的な集合から導出される。顔の要素（elements）
の数は、顔の部分（parts）より多い。個別の顔は、そ
の顔が有する要素と、その要素幾何学的組み合わせによ
り識別される。このアルゴリズムにより、個別の顔の識
別情報を「フェースプリント（faceprint）」と呼ばれ
る数式にマッピングすることができる。顔の画像は、約
８４バイトのサイズのフェースプリントに圧縮すること
ができる。個別の顔は、光の変化、肌の色、表情、髪
型、眼鏡の有無等にかかわらず、フェースプリントから
認識することができる。カメラに撮像される顔の角度の
変化は、全ての方向について最大約３５°であり、顔の
移動は許容される。

【００３２】したがって、このアルゴリズムを用いて、
画像毎に、画像内に人間の顔が含まれるか否かを判定で
きるとともに、同じフェースプリン後が現れる連続的画
像のシーケンスを特定することができる。このソフトウ
ェアの製造業者によれば、このアルゴリズムを用いて、
画像領域内の１％以上を人間の顔が占めれば、その顔を
認識できる。

【００３３】顔検出ユニット１２０は、各画像毎に、各
画像において顔が検出されたか否かを示す単純なフラグ
を含む基礎的特徴ベクトル１５５を出力する。さらに、
少なくとも１つの顔が検出された各画像を対応する検出
されたフェースプリントに関連付けるキー又はルックア
ップテーブルとともに、検出された顔のそれぞれのフェ
ースプリントデータが特徴ベクトルデータ１５５として
出力される。このデータにより、編集者は、特定のフェ
ースプリントが出現する全てのビデオ画像を検索及び選
択することができる。

【００３４】ビデオカメラ１０内に設けられたメタデー
タ抽出モジュール９０は、図３の右側に示すように、代
表画像抽出ユニット１５０と、「アクティビティ」算出
ユニット１６０と、サブショットセグメント化ユニット
１７０と、インタービュー検出ユニット１８０とを備え
る。

【００３５】代表画像抽出ユニット１５０は、色相画像
特性を表す特徴ベクトルデータ１５５を用いて、ショッ
ト内の主要なコンテンツを反映する代表画像を抽出す
る。特徴ベクトルデータ１５５に含まれる色相データ
は、各画像の色相ヒストグラムを含んでいる。この特徴
ベクトルデータ１５５は、サブショットセグメント化ユ
ニット１７０から出力されるセグメント化情報に結合さ
れ、これにより各ショットの平均色相ヒストグラムデー
タが算出される。

【００３６】ショット内の各フレームの色相ヒストグラ
ムデータを用いて、以下の式により、ショットの平均ヒ
ストグラムが算出される。

【００３７】

【数１】

【００３８】ここで、ｉはヒストグラムのビン（histog
ram bins）のインデクスであり、ｈ’ｉはｉ番目のビン
に関連付けられた色相値の平均発生頻度を表し、ｈはフ
レームＦのｉ番目のビンに関連付けられた色相値を表
し、ｎ_Ｆはショット内のフレーム数を表す。ショット内
の大多数のフレームが同じシーンに対応していれば、こ
れらのショットにおける色相ヒストグラムは類似するは
ずであり、したがって、平均色相ヒストグラムを強く重
み付けして、その主要なシーンの色相プロファイルを反
映する。

【００３９】代表画像は、ショット内の各フレームの色
相ヒストグラムとそのショットの平均色相ヒストグラム
とを比較することにより抽出される。差を示す単一の値
ｄｉｆｆ_Ｆは、以下の式により算出することができる。

【００４０】

【数２】

【００４１】ショット内の各フレームＦ（１≦Ｆ≦
ｎ_Ｆ）について、ｄｉｆｆ_Ｆが算出され、ｎ_Ｆ個のフレ
ームのうちから、ｄｉｆｆ_Ｆが最も小さいフレームが選
択される。上述の式は、差異を表す値を算出する好適な
手法を示しているが、他の式を用いて同様の効果を得る
こともできる。例えば、差異（ｈ’_ｉ−ｈ_ｉ）の絶対値
の総和を求め、差異の重み付け加算値を算出してもよ
く、各フレームの各画像プロパティの差を表す値を組み
合わせてもよい。差異が最小のフレームは、平均色相ヒ
ストグラムの最も近い色相ヒストグラムを有するはずで
あり、このため、このフレームを関連するショットの代
表的キースタンプ（representative keystamp：ＲＫ
Ｓ）画像として選択することが望ましい。すなわち、差
異が最小のフレームは、平均色相ヒストグラムに最も近
い色相ヒストグラムを有するフレームであるとみなすこ
とができる。ここで、２以上のフレームが最小の差異を
示す場合、複数のフレームが平均色相フレームに最も近
い色相ヒストグラムを有することとなるが、この場合、
これらフレームのうち例えば時間的に最も早いフレーム
を代表的キースタンプとして選択することができる。ま
た、平均色相ヒストグラムに最も近い色相ヒストグラム
を有するフレームをＲＫＳとして選択することが望まし
いが、これに代えて、差異を表す値の上限を示す閾値を
設け、ショットの時間的シーケンス内で、この閾値以下
の最小差異を有する最初のフレームをＲＫＳとして選択
してもよい。なお、最小差異が閾値以下であるショット
内のいかなるフレームをＲＫＳとして用いてもよいこと
は明らかである。代表画像抽出ユニット１５０は、ＲＫ
Ｓ画像を出力する。

【００４２】ＲＫＳ画像は、オフライン編集現場におい
て、ショットのコンテンツを表すサムネイルとして使用
することができる。編集者は、一目でＲＫＳ画像を確認
することができ、これにより、ショットをリアルタイム
で再生する必要がある状況を減らすことができる。

【００４３】「アクティビティ（activity）」算出ユニ
ット１６０は、色相ヒストグラム算出ユニット１００が
生成した特徴ベクトルデータを用いて、捕捉されたビデ
オ画像のアクティビティ値を算出する。アクティビティ
値は、画像がフレーム間でどれほど変化しているかを示
す値である。アクティビティ値は、例えばショットの時
間的シーケンス全体に亘る包括的レベルで算出してもよ
く、画像及びその周辺のフレームについて局所的レベル
で算出してもよい。この具体例においては、色相値の局
所的変化に基づいてアクティビティ値を算出している。
もちろん、輝度等のこの他の画像特性の局所的な変化を
用いて、アクティビティ値を算出してもよい。ここで、
特に色相を用いる利点は、光の環境変化がアクティビテ
ィ値に与える影響を小さくできるという点である。さら
に、動きベクトルを用いてアクティビティ値を算出して
もよい。

【００４４】アクティビティ算出ユニット１５０から出
力されるアクティビティ値は、オフライン編集装置及び
ビデオテープレコーダやデジタルビデオディスクプレー
ヤ等のメタデータに対応した装置において使用され、こ
れにより、ユーザは、「ビデオ要約（video skim）」及
び「情報シャトル」機能を用いて記録されたビデオ画像
を再生することができる。

【００４５】ビデオ要約機能とは、高速に表示されるビ
デオシーケンスを自動的に生成する機能である。高速再
生においては、時間的シーケンスにおいて、アクティビ
ティ値が所定の閾値以下の部分は、高速シャトルモード
で再生されるか、あるいは完全にスキップされる。

【００４６】情報シャトル機能は、ユーザ操作子（例え
ば、ビデオテープレコーダに設けられたダイアル）の設
定と、ビデオ画像のアクティビティ値から判定された情
報表示レートとの間のマッピングを行う機能である。こ
の機能は、再生されている画像のコンテンツを考慮する
ことなく、ユーザ操作子の設定を単なるビデオ再生速度
にマッピングする従来の早送り再生機能とは異なるもの
である。

【００４７】「アクティビティ値」算出ユニット１６０
は、ビデオ画像に関連するオーディオ信号のアクティビ
ティレベルを算出する。「アクティビティ値」算出ユニ
ット１６０は、音声検出ユニット１１０により生成され
た特徴ベクトルを用いて、通常の音声のアクティビティ
の時間的シーケンスを識別し、音声の停止（pauses）を
識別し、音声を無音状態及び背景雑音から区別する処理
を実行する。音声アクティビティの高さを識別するため
に、音量を使用することもできる。音量に基づく音声ア
クティビティ情報は、特に、スポーツイベントのビデオ
情報における重要なセクションの識別に有用である。ス
ポーツイベントでは、観衆の反応により、興味のレベル
を測定することができる。

【００４８】サブショットセグメント化モジュール１７
０は、特徴ベクトルデータ１５５における色相画像特性
を用いて、サブショットセグメント化処理を実行する。
サブショットセグメント化処理は、連続する画像の色相
ヒストグラム間の要素毎の差を算出し、これらの差を組
み合わせて単一の差を表す値を生成することにより実行
される。シーンの変更位置は、この差を表す単一の値が
所定の閾値以上である画像の位置を特定することにより
示される。

【００４９】同様に、例えばシーンに新たな役者が登場
する等の映像の主題の変更は、与えられた画像の色相ヒ
ストグラムと、先行する１秒間のビデオ映像における平
均色相値を表す色相ヒストグラムとの間の差を示す単一
の値を算出することにより検出することができる。

【００５０】インタビュー検出ユニット１８０は、特徴
抽出モジュール８０から出力された特徴ベクトルデータ
１５５を用いて、インタービューシーケンスに対応する
画像及び関連するオーディオフレームを識別する。詳し
くは、インタビュー検出ユニット１８０は、音声検出ユ
ニット１１０及び顔検出ユニット１２０から出力される
特徴ベクトルデータを組み合わせて、インタビューを検
出する。基礎的なレベルにおいては、音声の有無及び少
なくとも１人の人間の顔の有無を示すフラグを用いて、
音声及び少なくとも１人の人間の顔が存在することを示
すフラグが立てられた連続的画像のシーケンスを識別す
る。これらのショットは、インタビューシーケンスに対
応する可能性が高い。

【００５１】インタビューに関連するショットにフラグ
が立てられると、特徴ベクトルのフェイスプリントデー
タに基づいて、各インタビューの参加者が識別される。
さらに、特徴ベクトルから導き出される高調波オーディ
オデータを用いて、インタビュアとインタビューされる
人とを区別することもできる。このように、インタビュ
ー検出ユニットは、インタビューに関連するショットを
識別し、編集者に対し、各インタビューの参加者に関す
るフェイスプリントを提供する。

【００５２】図４は、本発明の第２の具体例であるカメ
ラ及び個人情報携帯端末（personaldigital assistan
t：以下、ＰＤＡという。）を示す図である。カメラ１
０は、ダウンストリームオーディオ／ビデオデータ処理
に関する機能を有する取得アダプタ（acquisition adap
ter）２７０を備える。この具体例に示す取得アダプタ
２７０は、ビルトイン連結コネクタ（built-in docking
connector）を介してカメラ１０に対するインタフェー
スを司る独立したユニットである。なお、この取得アダ
プタ２７０に対応するハードウェアをカメラ１０本体に
組み込んでもよいことは明らかである。

【００５３】カメラ１０の本体内では、メタデータ生成
ユニット７０は、基礎ＵＭＩＤ及びショット毎のイン／
アウトタイムコードを含む出力信号２０５を出力する。
メタデータ生成ユニット７０からの出力信号は、ビデオ
ストレージ及び読出モジュール２００に入力される。ビ
デオストレージ及び読出モジュール２００は、メインメ
タデータ及びカメラ１００が記録したオーディオ／ビデ
オデータを保存する。メインメタデータ２０５は、オー
ディオデータとビデオデータを記録するビデオテープと
同じビデオテープ上に記録してもよく、あるいは、例え
ばカセットラベルの一部を構成するメモリ集積回路等に
オーディオ／ビデオデータとは別に保存してもよい。

【００５４】オーディオ／ビデオデータ及び基礎メタデ
ータ２０５は、未処理データ信号２１５として、カメラ
１０に接続された取得アダプタ２７０に供給される。未
処理データ信号２１５は、特徴ベクトル生成モジュール
２２０に供給され、特徴ベクトル生成モジュール２２０
は、フレーム音にオーディオ／ビデオデータを処理し、
各フレームのコンテンツを特徴付ける特徴ベクトルデー
タを生成する。特徴ベクトル生成モジュール２２０の出
力信号２２５は、オーディオデータ、ビデオ画像、メイ
ンメタデータ及び特徴ベクトルデータを含んでいる。こ
れら全てのデータは、メタデータ処理モジュール２３０
に供給される。

【００５５】メタデータ処理モジュール２３０は、拡張
ＵＭＩＤ用の３２バイトのシグネチャメタデータを生成
する。メタデータ処理モジュール２３０は、例えば色相
特徴ベクトルを分析し、ショットの主要なコンテンツを
代表する画像をショットから選択する等、特徴ベクトル
を利用した処理を行う。色相特徴ベクトルは、サブショ
ットセグメント化にも使用できる。この具体例において
は、特徴ベクトルの処理は、取得アダプタ２７０内にお
いて実行されるが、この処理はメタストア２０内で行っ
てもよいことは明らかである。メタデータ処理モジュー
ル２３０の出力信号２３５は、処理されたメタデータと
未処理のメタデータを含み、これらはリムーバブルスト
レージユニット２４０に保存される。リムーバブルスト
レージユニット２４０は、フラッシュメモリＰＣカード
又はリムーバブルハードディスクドライブであってもよ
い。

【００５６】メタデータは、好ましくは、拡張マークア
ップ言語（ＸＭＬ）等のフォーマットで記録するとよ
く、これにより選択的な、コンテンツに基づくデータの
読出を行うことができる。この選択的なデータの読出
は、ＸＭＬ文書内において、メタデータオブジェクト及
びメタデータトラック等、特別なカテゴリに基づくセク
ションをマークするカスタム「タグ」を定義することに
より実現できる。

【００５７】この具体例においては、リムーバブルスト
レージユニット２４０は、ビデオカメラ１０から物理的
に取り外され、取得ＰＤＡ３００に直接差し込むことが
でき、これにより取得ＰＤＡ３００においてメタデータ
を確認し、編集することができる。

【００５８】記録された基礎的なオーディオ／ビデオデ
ータを含むメインカメラユニットにより生成された未処
理のデータ信号２１５は、特徴ベクトル生成モジュール
２２０とは別に、取得アダプタ２７０内に設けられてい
るＡＶプロキシ生成モジュール２１０にも供給される。
ＡＶプロキシ生成モジュール２１０は、カメラ１０によ
り生成された高ビットレートの放送品質のオーディオ／
ビデオデータ信号２１５の低ビットレートコピーである
ＡＶプロキシを生成する。

【００５９】業務用のデジタルベータカムカメラ等、ハ
イエンド機器のビデオビットレートは、約１００メガビ
ット毎秒であり、このようなデータレートは、例えばパ
ーソナルコンピュータやＰＤＡ等のローエンド機器で使
用するには高すぎるため、このようなＡＶプロキシが必
要となる。ＡＶプロキシ生成モジュール２１０は、強力
なデータ圧縮処理を行い、マスタマテリアルに対して、
高度に圧縮されたビットレート（例えば、４メガビット
毎秒）のコピーを生成する。すなわち、ＡＶプロキシ生
成モジュール２１０からの出力信号２４５は、低ビット
レートのビデオ画像及びオーディオデータを表してい
る。低ビットレートのＡＶプロキシは、放送品質を有し
ていないが、記録された映像をブラウジングし、及びオ
フライン編集において編集判断を行うための十分な解像
度を有している。ＡＶプロキシ生成モジュール２１０か
らの出力信号２４５は、メタデータ２３５とともに、リ
ムーバブルストレージユニット２４０に格納される。こ
のリムーバブルストレージユニット２４０を取得アダプ
タ２７０から取得ＰＤＡ３００に移動させることによ
り、ＡＶプロキシを取得ＰＤＡ３００に表示させること
ができる。

【００６０】図５は、本発明の第２の具体例におけるカ
メラ及びＰＤＡの構成を示す図である。この具体例に示
す多くのモジュールは、図４に示す具体例内のモジュー
ルと同一である。これらの共通のモジュールの機能につ
いては、図４を用いて既に説明しているので、ここでは
繰り返さない。

【００６１】図５に示す具体例では、追加的コンポーネ
ントとして、取得アダプタ２７０内にグローバルポジシ
ョニングシステム（Global Positioning System：以
下、ＧＰＳという。）受信機２５０が設けられている。
ＧＰＳ受信機２５０は、拡張ＵＭＩＤのシグネチャメタ
データの生成に必要とされる空間座標データ信号２５５
を出力する。このシグネチャメタデータは、メタデータ
処理モジュール２３０において生成される。カメラのＧ
ＰＳ座標は、本質的には、記録マテリアルの識別情報と
して使用される。なお、ＧＰＳ受信機２５０は、図４に
示す具体例に追加的に設けてもよい。

【００６２】図５に示す第２の具体例と、図４に示す具
体例との主な相違点は、図５に示す第２の具体例には、
カメラ側に無線ネットワークインタフェースＰＣカード
２６０及びアンテナ２８０Ａが設けられ、ＰＤＡ側にア
ンテナ２８０Ｂが設けられている点である。すなわち、
この具体例では、取得アダプタ２７０は、無線ローカル
エリアネットワーク（local area network：ＬＡＮ）を
介して取得ＰＤＡ３００に接続されている。

【００６３】無線ＬＡＮ（１０／１００ｂａｓｅ−ｔに
よる無線８０２．１１ｂ）は、通常、半径５０メートル
の範囲内で約１１Ｍビット毎秒のデータ通信を実現す
る。放送品質の画像は、１画像あたり約１Ｍビットの大
きさを有するので、無線ＬＡＮを介して放送品質のビデ
オ情報を伝送することは難しい。一方、帯域幅が削減さ
れたＡＶプロキシは、無線ＬＡＮを介して、取得ＰＤＡ
３００に効果的に伝送することができる。

【００６４】なお、リムーバブルストレージユニット２
４０を用いて、取得アダプタ２７０から取得ＰＤＡ３０
０に物理的にデータを転送することもできるが、リムー
バブルストレージユニット２４０は、カメラの記録処理
中は、カメラ内にあるため、無線ＬＡＮリンクがなけれ
ば、カメラが記録処理を行っている間は、注釈メタデー
タ（metadata annotations）を生成することができな
い。すなわち、カメラ１０及び取得ＰＤＡ３００間の無
線ＬＡＮリンクを設ける利点は、カメラが記録処理を実
行している間に、インタビューを受けている人物の氏名
やショットのタイトル等、注釈メタデータを取得ＰＤＡ
３００から送信できる点である。これらの注釈メタデー
タは、カメラ１０に装着された取得アダプタ２７０内に
挿入されているリムーバブルストレージユニット２４０
に保存することができる。また、無線ＬＡＮ接続によ
り、カメラの動作中に、記録されたサウンドの低ビット
レートバージョンを取得ＰＤＡ３００にダウンロードす
ることもできる。

【００６５】リムーバブルストレージユニット２４０に
おいて、メタデータ及びＡＶプロキシがＸＭＬ等の形式
で格納されている場合、取得ＰＤＡ３００は、カメラ内
のＸＭＬデータファイルから選択的にデータを読み出す
ことにより、貴重な帯域幅の浪費を回避する。

【００６６】図６は、本発明に基づく取得ＰＤＡ３００
の内部コンポーネントを示す図である。取得ＰＤＡ３０
０は、無線ネットワークインタフェースＰＣカード３４
０及びアンテナ２８０Ｂを備え、これらにより無線ＬＡ
Ｎに接続することができる。さらに、取得ＰＤＡ３００
には、ウェブブラウザ３５０を設けてもよく、これによ
りインターネット上のデータにアクセスすることができ
る。

【００６７】ユーザは、メタデータ注釈モジュール３１
０を用いて、記録されたオーディオ及びビデオデータに
対する注釈メタデータを作成することができる。この注
釈メタデータには、役者の名前及び免許（credential
s）、カメラクールの詳細、カメラの設定、ショットの
タイトル等が含まれる。

【００６８】ＡＶプロキシ視聴モジュール３２０は、取
得アダプタ２７０により生成されたマスタレコーディン
グの低ビットレートのコピーを表示する。ＡＶプロキシ
視聴モジュール３２０は、オフライン編集機能を有し、
これにより、取得ＰＤＡ３００を用いて、基礎的な編集
処理を行い、この編集処理における編集判断を編集判断
リストとして記録し、この編集判断リストをオンライン
編集に用いることができる。取得ＰＤＡ３００は、カメ
ラ設定及び制御モジュール３３０を備え、これにより、
ユーザは、取得ＰＤＡ３００を介して、カメラ１０の角
度や設定を遠隔制御することができる。リムーバブルス
トレージユニット２４０は、カメラ１０と取得ＰＤＡ３
００との間で記録オーディオ／ビデオデータ及びメタデ
ータを送受するために使用される。

【００６９】図７は、本発明に基づくオーディオ／ビデ
オ情報処理及び配信システムの構成を示す図である。こ
のシステムの基盤（backbone）は、ネットワーク４００
であり、このネットワーク４００は、イントラネット等
のローカルネットワークであってもよく、あるいはイン
ターネットであってもよい。

【００７０】カメラ１０は、無線ＬＡＮ及び／又はリム
ーバブルストレージユニット２４０を介して、ＰＤＡ３
００に接続されている。カメラ１０及びＰＤＡ３００
は、ネットワーク４００を介して、メタストア２０と通
信を行う。ビデオテープレコーダ又はオフライン編集装
置であるメタデータ活用装置（metadata enhanced devi
ce）４１０は、ネットワーク４００を介してメタストア
２０にアクセスすることができる。ネットワーク４００
には、複数のメタデータ活用装置を接続してもよい。こ
のオーディオ／ビデオ情報処理及び配信システムによ
り、メタストア２０に格納されている全てのメタデータ
への遠隔アクセスが実現される。すなわち、ビデオテー
プに記録された任意のオーディオデータ及びビデオ画像
に関連付けられたメタデータは、ＵＭＩＤにより識別さ
れ、ネットワーク４００を介してダウンロードすること
ができる。

【図面の簡単な説明】

【図１】本発明に基づくダウンストリームオーディオ／
ビデオ処理システムの構成を示す図である。

【図２】本発明に基づくビデオカメラ及びメタストアを
示す図である。

【図３】本発明に基づく特徴抽出モジュール及びメタデ
ータ抽出モジュールの内部構成を示す図である。

【図４】本発明の第１の具体例として示すビデオカメラ
とＰＤＡを示す図である。

【図５】本発明の第２の具体例として示すビデオカメラ
とＰＤＡを示す図である。

【図６】本発明に基づくＰＤＡの内部コンポーネントを
示す図である。

【図７】本発明に基づくオーディオ／ビデオ情報処理及
び分配システムの構成を示す図である。

フロントページの続き (72)発明者マクグラスマークジョンイギリス国ケーティー13 ０エックスダブリューサリーウエィブリッジブルックランズザハイツ（番地なし）ソニーユナイテッドキングダムリミテッド内 (72)発明者デビットモルガンウィリアムアモスイギリス国ケーティー13 ０エックスダブリューサリーウエィブリッジブルックランズザハイツ（番地なし）ソニーユナイテッドキングダムリミテッド内 (72)発明者ソープジョナサンイギリス国ケーティー13 ０エックスダブリューサリーウエィブリッジブルックランズザハイツ（番地なし）ソニーユナイテッドキングダムリミテッド内Ｆターム(参考） 5C052 AA01 DD04 DD06 5C053 FA14 HA29 JA21 LA02 LA06 LA11 LA14 5D044 AB05 AB07 BC01 BC04 CC03 CC04 DE17 DE49 DE58 EF05 HL14

Claims

【特許請求の範囲】

【請求項１】カメラ記録装置において、複数のビデオ画像を撮像する撮像素子と、後の読出のためにビデオ画像を記録するストレージ媒体
と、ビデオ画像の撮像時において、実質的にリアルタイム
に、少なくとも１つのビデオ画像の画像コンテンツから
各画像又は画像のグループに関連付けられた画像特性を
抽出する特徴抽出手段と、上記抽出した画像特性を当該カメラ記録装置から外部デ
ータ処理装置に転送するデータパスとを備えるカメラ記
録装置。
【請求項２】上記ビデオ画像に関連するオーディオ信
号を記録するオーディオ信号記録手段を備え、上記特徴
抽出手段は、少なくとも１つのビデオ画像に関連するオ
ーディオ信号の部分に関するオーディオ特性データを抽
出することを特徴とする請求項１記載のカメラ記録装
置。
【請求項３】上記画像特性データは、各ビデオ画像毎
に生成されることを特徴とする請求項１又は２記載のカ
メラ記録装置。
【請求項４】ビデオ画像を圧縮し、各ビデオ画像の低
ビットレートのコピーを生成するプロキシ生成手段を備
える請求項１乃至３いずれか１項記載のカメラ記録装
置。
【請求項５】上記データパスは、上記画像特性データ
を格納するリムーバブルストレージ媒体を備えることを
特徴とする請求項１乃至４いずれか１項記載のカメラ記
録装置。
【請求項６】上記データパスは、上記外部データ処理
装置への無線リンクを実現する無線ネットワーク接続回
路及びアンテナを備えることを特徴とする請求項１乃至
５いずれか１項記載のカメラ記録装置。
【請求項７】上記画像特性データは、色分布データ、
顔認識データ画像アクティビティデータのうちの少なく
とも１つを含むことを特徴とする請求項１乃至６いずれ
か１項記載のカメラ記録装置。
【請求項８】カメラ記録装置により、画像を取得する
画像取得方法において、複数のビデオ画像を撮像するステップと、後の読出のために上記ビデオ画像を保存するステップ
と、ビデオ画像の撮像時において、実質的にリアルタイム
に、少なくとも１つのビデオ画像の画像コンテンツから
各画像又は画像のグループに関連付けられた画像特性を
抽出するステップと、データパスを介して、上記抽出した画像特性を外部デー
タ処理装置に転送するステップとを有する画像取得方
法。
【請求項９】添付の図面を用いて実質的に以下に説明
する画像取得方法。
【請求項１０】請求項８又は９記載の画像取得方法を
実行するプログラムコードを有するコンピュータソフト
ウェア。
【請求項１１】請求項１０記載のコンピュータソフト
ウェアを提供するデータ提供媒体。
【請求項１２】上記データ提供媒体は、伝送媒体であ
ることを特徴とする請求項１１記載のデータ提供媒体。
【請求項１３】上記データ提供媒体は、記録媒体であ
ることを特徴とする請求項１１記載のデータ提供媒体。
【請求項１４】添付の図面を用いて実質的に以下に説
明するカメラ記録装置。