JP2000285242A

JP2000285242A - 信号処理方法及び映像音声処理装置

Info

Publication number: JP2000285242A
Application number: JP2000023337A
Authority: JP
Inventors: Walker Toby; ウォーカートビー; Hiroshi Matsubara; 弘松原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-01-29
Filing date: 2000-01-27
Publication date: 2000-10-13

Abstract

(57)【要約】【課題】種々のビデオにおける高いレベルのビデオ構
造を抽出する。【解決手段】映像音声処理装置１０は、入力したビデ
オデータのストリームから分割された映像セグメント及
び／又は音声セグメントから抽出された特徴量と、この
特徴量を用いて、各特徴量毎に計算された、映像セグメ
ント及び／又は音声セグメントの対の間の類似性を測定
する測定基準とを用いて、映像セグメント及び／又は音
声セグメントのうち、互いの時間的距離が所定の時間閾
値以内であるとともに、互いの非類似性が所定の非類似
性閾値以下である２つの映像セグメント及び／又は音声
セグメントを検出し、ビデオデータの内容の意味構造を
反映し時間的に連続する映像セグメント及び／又は音声
セグメントからなるシーンにまとめるシーン検出部１６
を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、信号の基礎となる
意味構造を反映するパターンを検出して解析する信号処
理方法及びビデオ信号の基礎となる意味構造を反映する
映像及び／又は音声のパターンを検出して解析する映像
音声処理装置に関する。

【０００２】

【従来の技術】例えばビデオデータに録画されたテレビ
番組といった大量の異なる映像データにより構成される
映像アプリケーションの中から、興味のある部分等の所
望の部分を探して再生したい場合がある。

【０００３】このように、所望の映像内容を抽出するた
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリーボードがある。このストーリーボードは、ビ
デオデータをいわゆるショットに分解し、各ショットに
おいて代表される映像を表示したものである。このよう
な映像抽出技術は、そのほとんどが、例えば“G. Ahang
er and T.D.C. Little, A survey of technologies for
parsing and indexing digital video, J. ofVisual C
ommunication and Image Representation 7:28-4, 199
6”に記載されているように、ビデオデータからショッ
トを自動的に検出して抽出するものである。

【０００４】

【発明が解決しようとする課題】ところで、例えば代表
的な３０分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいては、ユーザが抽出された膨大な数のショットを並
べたストーリーボードを調べる必要があり、このような
ストーリーボードを理解するにはユーザに大きな負担を
強いる必要があった。また、従来の映像抽出技術におい
ては、例えば話し手の変化に応じて交互に２者を撮影し
た会話場面におけるショットは、冗長のものが多いとい
う問題があった。このように、ショットは、ビデオ構造
を抽出する対象としては階層が低すぎて無駄な情報量が
多く、このようなショットを抽出する従来の映像抽出技
術は、ユーザにとって利便のよいものとはいえなかっ
た。

【０００５】また、他の映像抽出技術としては、例えば
“A. Merlino, D. Morey and M. Maybury, Broadcast n
ews navigation using story segmentation, Proc. of
ACMMultimedia 97, 1997”や特開平１０−１３６２９７
号公報に記載されているように、ニュースやフットボー
ルゲームといった特定の内容ジャンルに関する非常に専
門的な知識を用いるものがある。しかしながら、この従
来の映像抽出技術は、目的のジャンルに関しては良好な
結果を得ることができるものの他のジャンルには全く役
に立たず、さらにジャンルに限定される結果、容易に一
般化することができないという問題があった。

【０００６】さらに、他の映像抽出技術としては、例え
ばU.S. Patent #5,708,767号公報に記載されているよう
に、いわゆるストーリーユニットを抽出するものがあ
る。しかしながら、この従来の映像抽出技術は、完全に
自動化されたものではなく、どのショットが同じ内容を
示すものであるかを決定するために、ユーザの介入が必
要であった。また、この従来の映像抽出技術は、処理に
要する計算が複雑であるとともに、適用対象として映像
情報のみに限定されるといった問題もあった。

【０００７】さらにまた、他の映像抽出技術としては、
例えば特開平９−２１４８７９号公報に記載されている
ように、ショット検出と無音部分検出とを組み合わせる
ことによりショットを識別するものがある。しかしなが
ら、この従来の映像抽出技術は、無音部分がショット境
界に対応した場合のみに限定されたものであった。

【０００８】また、他の映像抽出技術としては、例えば
“H. Aoki, S. Shimotsuji and O.Hori, A shot classi
fication method to select effective key-frames for
video browsing, IPSJ Human Interface SIG Notes,
7:43-50, 1996”や特開平９−９３５８８号公報に記載
されているように、ストーリーボードにおける表示の冗
長を低減するために、反復された類似ショットを検出す
るものがある。しかしながら、この従来の映像抽出技術
は、映像情報のみに適用できるものであり、音声情報に
適用できるものではなかった。

【０００９】本発明は、このような実情に鑑みてなされ
たものであり、上述した従来の映像抽出技術の問題を解
決し、種々のビデオデータにおける高いレベルのビデオ
構造を抽出する信号処理方法及び映像音声処理装置を提
供することを目的とするものである。

【００１０】

【課題を解決するための手段】上述した目的を達成する
本発明にかかる信号処理方法は、供給された信号の内容
の意味構造を反映するパターンを検出して解析する信号
処理方法であって、信号を構成する連続したフレームの
ひと続きから形成されるセグメントから、その特徴を表
す少なくとも１つ以上の特徴量を抽出する特徴量抽出工
程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメ
ントの対の間の類似性を測定する測定基準を算出して、
この測定基準によりセグメントの対の間の類似性を測定
する類似性測定工程と、特徴量と測定基準とを用いて、
セグメントのうち、互いの時間的距離が所定の時間閾値
以内であるとともに、互いの非類似性が所定の非類似性
閾値以下である２つのセグメントを検出し、信号の内容
の意味構造を反映し時間的に連続するセグメントからな
るシーンにまとめるグループ化工程とを備えることを特
徴としている。

【００１１】このような本発明にかかる信号処理方法
は、信号において類似したセグメントを検出してシーン
にまとめる。

【００１２】また、上述した目的を達成する本発明にか
かる映像音声処理装置は、供給されたビデオ信号の内容
の意味構造を反映する映像及び／又は音声のパターンを
検出して解析する映像音声処理装置であって、ビデオ信
号を構成する連続した映像及び／又は音声フレームのひ
と続きから形成される映像及び／又は音声セグメントか
ら、その特徴を表す少なくとも１つ以上の特徴量を抽出
する特徴量抽出手段と、特徴量を用いて、特徴量のそれ
ぞれ毎に、映像及び／又は音声セグメントの対の間の類
似性を測定する測定基準を算出して、この測定基準によ
り映像及び／又は音声セグメントの対の間の類似性を測
定する類似性測定手段と、特徴量と測定基準とを用い
て、映像及び／又は音声セグメントのうち、互いの時間
的距離が所定の時間閾値以内であるとともに、互いの非
類似性が所定の非類似性閾値以下である２つの映像及び
／又は音声セグメントを検出し、ビデオ信号の内容の意
味構造を反映し時間的に連続する映像及び／又は音声セ
グメントからなるシーンにまとめるグループ化手段とを
備えることを特徴としている。

【００１３】このような本発明にかかる映像音声処理装
置は、ビデオ信号において類似した映像及び／又は音声
セグメントを検出してまとめ、シーンとして出力する。

【００１４】

【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について図面を参照しながら詳細に説明す
る。

【００１５】本発明を適用した実施の形態は、録画され
たビデオデータから所望の内容を自動的に探し出して抽
出する映像音声処理装置である。この映像音声処理装置
の具体的な説明を行う前に、ここではまず本発明におい
て対象とするビデオデータに関する説明を行う。

【００１６】本発明において対象とするビデオデータに
ついては、図１に示すようにモデル化し、フレーム、セ
グメント、シーンの３つのレベルに階層化された構造を
有するものとする。すなわち、ビデオデータは、最下位
層において、一連のフレームにより構成される。また、
ビデオデータは、フレームの１つ上の階層として、連続
するフレームのひと続きから形成されるセグメントによ
り構成される。さらに、ビデオデータは、最上位層にお
いて、このセグメントを意味のある関連に基づきまとめ
て形成されるシーンにより構成される。

【００１７】このビデオデータは、映像及び音声の両方
の情報を含む。すなわち、このビデオデータにおけるフ
レームには、単一の静止画像である映像フレームと、一
般に数十〜数百ミリセカンド／長といった短時間におい
てサンプルされた音声情報を表す音声フレームとが含ま
れる。

【００１８】また、セグメントは、単一のカメラにより
連続的に撮影された映像フレームのひと続きから構成さ
れ、一般にはショットと呼ばれる。そして、このセグメ
ントには、映像セグメント及び／又は音声セグメントが
含まれ、ビデオ構造における基本単位となる。これらの
セグメントの中で、特に音声セグメントについては、多
くの定義が可能であり、例として次に示すようなものが
考えられる。まず、音声セグメントは、一般によく知ら
れている方法により検出されたビデオデータ中の無音期
間により境界を定められて形成される場合がある。ま
た、音声セグメントは、“D. Kimber and L. Wilcox, A
coustic Segmentation for Audio Browsers, Xerox Par
c Technical Report”に記載されているように、例え
ば、音声、音楽、ノイズ、無音等のように少数のカテゴ
リに分類された音声フレームのひと続きから形成される
場合もある。さらに、音声セグメントは、“S. Pfeiffe
r, S.Fischer and E. Wolfgang, Automatic Audio Cont
ent Analysis, Proceeding ofACM Multimedia 96, Nov.
1996, pp21-30”に記載されているように、２枚の連続
する音声フレーム間の或る特徴における大きな変化を音
声カット点として検出し、この音声カット点に基づいて
決定される場合もある。

【００１９】さらに、シーンは、ビデオデータの内容を
意味に基づくより高いレベルで記述するために、映像セ
グメント（ショット）検出或いは音声セグメント検出に
より得られたセグメントを、例えばセグメント内の知覚
的アクティビティ量といったセグメントの特徴を表す特
徴量を用いて意味のあるまとまりにグループ化したもの
である。シーンは、主観的なものであり、ビデオデータ
の内容或いはジャンルに依存するが、ここでは、その特
徴量が互いに類似性を示す映像セグメント又は音声セグ
メントの反復パターンをグループ化したものとする。具
体的には、図２に示すように、２人の話し手が互いに会
話している場面で、映像セグメントは、話し手に応じて
交互に現れる。このような反復パターンを有するビデオ
データにおいて、一方の話し手における一連の映像セグ
メントＡと、他方の話し手における一連の映像セグメン
トＢとは、それぞれ、グループにまとめられて１つのシ
ーンを構成する。このような反復パターンは、ビデオデ
ータにおける高いレベルでの意味のある構造と非常に関
係があり、シーンは、このようなビデオデータにおける
高いレベルでの意味を持ったまとまりを示すものであ
る。

【００２０】本発明を適用した実施の形態として図３に
示す映像音声処理装置１０は、上述したビデオデータに
おけるセグメントの特徴量を用いてセグメント間の類似
性を測定し、これらのセグメントをシーンにまとめてビ
デオ構造を自動的に抽出するものであり、映像セグメン
ト及び音声セグメントの両方に適用できるものである。

【００２１】映像音声処理装置１０は、同図に示すよう
に、入力したビデオデータのストリームを映像、音声又
はこれらの両方のセグメントに分割するビデオ分割部１
１と、ビデオデータの分割情報を記憶するビデオセグメ
ントメモリ１２と、各映像セグメントにおける特徴量を
抽出する特徴量抽出手段である映像特徴量抽出部１３
と、各音声セグメントにおける特徴量を抽出する特徴量
抽出手段である音声特徴量抽出部１４と、映像セグメン
ト及び音声セグメントの特徴量を記憶するセグメント特
徴量メモリ１５と、映像セグメント及び音声セグメント
をシーンにまとめるグループ化手段であるシーン検出部
１６と、２つのセグメント間の類似性を測定する類似性
測定手段である特徴量類似性測定部１７とを備える。

【００２２】ビデオ分割部１１は、例えば、ＭＰＥＧ１
（Moving Picture Experts Group phase 1）やＭＰＥＧ
２（Moving Picture Experts Group phase 2）、或いは
いわゆるＤＶ（Digital Video）のような圧縮ビデオデ
ータフォーマットを含む種々のディジタル化されたフォ
ーマットにおける映像データと音声データとからなるビ
デオデータのストリームを入力し、このビデオデータを
映像、音声又はこれらの両方のセグメントに分割するも
のである。このビデオ分割部１１は、入力したビデオデ
ータが圧縮フォーマットであった場合、この圧縮ビデオ
データを完全伸張することなく直接処理することができ
る。ビデオ分割部１１は、入力したビデオデータを処理
し、映像セグメントと音声セグメントとに分割する。ま
た、ビデオ分割部１１は、入力したビデオデータを分割
した結果である分割情報を後段のビデオセグメントメモ
リ１２に供給する。さらに、ビデオ分割部１１は、映像
セグメントと音声セグメントとに応じて、分割情報を後
段の映像特徴量抽出部１３及び音声特徴量抽出部１４に
供給する。

【００２３】ビデオセグメントメモリ１２は、ビデオ分
割部１１から供給されたビデオデータの分割情報を記憶
する。また、ビデオセグメントメモリ１２は、後述する
シーン検出部１６からの問い合わせに応じて、分割情報
をシーン検出部１６に供給する。

【００２４】映像特徴量抽出部１３は、ビデオ分割部１
１によりビデオデータを分割して得た各映像セグメント
毎の特徴量を抽出する。映像特徴量抽出部１３は、圧縮
映像データを完全伸張することなく直接処理することが
できる。映像特徴量抽出部１３は、抽出した各映像セグ
メントの特徴量を後段のセグメント特徴量メモリ１５に
供給する。

【００２５】音声特徴量抽出部１４は、ビデオ分割部１
１によりビデオデータを分割して得た各音声セグメント
毎の特徴量を抽出する。音声特徴量抽出部１４は、圧縮
音声データを完全伸張することなく直接処理することが
できる。音声特徴量抽出部１４は、抽出した各音声セグ
メントの特徴量を後段のセグメント特徴量メモリ１５に
供給する。

【００２６】セグメント特徴量メモリ１５は、映像特徴
量抽出部１３及び音声特徴量抽出部１４からそれぞれ供
給された映像セグメント及び音声セグメントの特徴量を
記憶する。セグメント特徴量メモリ１５は、後述する特
徴量類似性測定部１７からの問い合わせに応じて、記憶
している特徴量やセグメントを特徴量類似性測定部１７
に供給する。

【００２７】シーン検出部１６は、ビデオセグメントメ
モリ１２に保持された分割情報と、１対のセグメント間
の類似性とを用いて、映像セグメント及び音声セグメン
トをそれぞれシーンにまとめる。シーン検出部１６は、
グループ内の各セグメントから開始して、セグメント群
の中から類似しているセグメントの反復パターンを検出
し、このようなセグメントを同一シーンとしてまとめて
グループ化する。このシーン検出部１６は、或るシーン
におけるセグメントをまとめてグループを徐々に大きく
していき、全てのセグメントをグループ化するまで処理
を行い、最終的に検出シーンを生成して出力する。シー
ン検出部１６は、特徴量類似性測定部１７を用いて、２
つのセグメントがどの程度類似しているかを判断する。

【００２８】特徴量類似性測定部１７は、２つのセグメ
ント間の類似性を測定する。特徴量類似性測定部１７
は、或るセグメントに関する特徴量を検索するようにセ
グメント特徴量メモリ１５に問いかける。

【００２９】時間的に近接して反復している類似したセ
グメントは、ほぼ同一シーンの一部であるため、映像音
声処理装置１０は、このようなセグメントを検出してグ
ループ化していくことによって、シーンを検出する。こ
のような映像音声処理装置１０は、図４に概略を示すよ
うな一連の処理を行うことによって、シーンを検出す
る。

【００３０】まず、映像音声処理装置１０は、同図に示
すように、ステップＳ１において、ビデオ分割を行う。
すなわち、映像音声処理装置１０は、ビデオ分割部１１
に入力されたビデオデータを映像セグメント又は音声セ
グメントのいずれか、或いは可能であればその両方に分
割する。映像音声処理装置１０は、適用するビデオ分割
方法に特に前提要件を設けない。例えば、映像音声処理
装置１０は、“G. Ahanger and T.D.C. Little, A surv
ey of technologies for parsing and indexing digita
l video, J. of Visual Communication and Image Repr
esentation 7:28-4, 1996”に記載されているような方
法によりビデオ分割を行う。このようなビデオ分割の方
法は、当該技術分野ではよく知られたものであり、映像
音声処理装置１０は、いかなるビデオ分割方法も適用で
きるものとする。

【００３１】続いて、映像音声処理装置１０は、ステッ
プＳ２において、特徴量の抽出を行う。すなわち、映像
音声処理装置１０は、映像特徴量抽出部１３や音声特徴
量抽出部１４によって、そのセグメントの特徴を表す特
徴量を計算する。映像音声処理装置１０においては、例
えば、各セグメントの時間長、カラーヒストグラムやテ
クスチャフィーチャといった映像特徴量や、周波数解析
結果、レベル、ピッチといった音声特徴量や、アクティ
ビティ測定結果等が、適用可能な特徴量として計算され
る。勿論、映像音声処理装置１０は、適用可能な特徴量
としてこれらに限定されるものではない。

【００３２】続いて、映像音声処理装置１０は、ステッ
プＳ３において、特徴量を用いたセグメントの類似性測
定を行う。すなわち、映像音声処理装置１０は、特徴量
類似性測定部１７により非類似性測定を行い、その測定
基準によって、２つのセグメントがどの程度類似してい
るかを測定する。映像音声処理装置１０は、先のステッ
プＳ２において抽出した特徴量を用いて、非類似性測定
基準を計算する。

【００３３】そして、映像音声処理装置１０は、ステッ
プＳ４において、セグメントのグループ化を行う。すな
わち、映像音声処理装置１０は、先のステップＳ３にお
いて計算した非類似性測定基準と、先のステップＳ２に
おいて抽出した特徴量とを用いて、時間的に近接して類
似したセグメントを繰り返しまとめ、これらのセグメン
トをグループ化する。映像音声処理装置１０は、このよ
うにして最終的に生成されたグループを検出シーンとし
て出力する。

【００３４】このような一連の処理を経ることによっ
て、映像音声処理装置１０は、ビデオデータからシーン
を検出することができる。したがって、ユーザは、この
結果を用いることによって、ビデオデータの内容を要約
したり、ビデオデータ中の興味のあるポイントに迅速に
アクセスしたりすることが可能となる。

【００３５】以下、同図に示した映像音声処理装置１０
における処理を各工程毎により詳細に説明していく。

【００３６】まず、ステップＳ１におけるビデオ分割に
ついて説明する。映像音声処理装置１０は、ビデオ分割
部１１に入力されたビデオデータを映像セグメント又は
音声セグメントのいずれか、或いは可能であればその両
方に分割するが、このビデオデータにおけるセグメント
の境界を自動的に検出するための技術は多くのものがあ
り、当該映像音声処理装置１０において、このビデオ分
割方法に特別な前提要件を設けないことは上述した通り
である。一方、映像音声処理装置１０において、後の工
程によるシーン検出の精度は、本質的に、基礎となるビ
デオ分割の精度に依存する。なお、映像音声処理装置１
０におけるシーン検出は、或る程度ビデオ分割時のエラ
ーを許容することができる。特に、映像音声処理装置１
０において、ビデオ分割は、セグメント検出が不十分で
ある場合よりも、セグメント検出を過度に行う場合の方
が好ましい。映像音声処理装置１０は、類似したセグメ
ントの検出が過度である結果である限り、一般に、シー
ン検出の際に検出過度であるセグメントを同一シーンと
してまとめることができる。

【００３７】つぎに、ステップＳ２における特徴量抽出
について説明する。特徴量とは、セグメントの特徴を表
すとともに、異なるセグメント間の類似性を測定するた
めのデータを供給するセグメントの属性である。映像音
声処理装置１０は、映像特徴量抽出部１３や音声特徴量
抽出部１４により各セグメントの特徴量を計算し、セグ
メントの特徴を表す。映像音声処理装置１０は、いかな
る特徴量の具体的詳細にも依存するものではないが、当
該映像音声処理装置１０において用いて効果的であると
考えられる特徴量としては、例えば以下に示す映像特徴
量、音声特徴量、映像音声共通特徴量のようなものがあ
る。映像音声処理装置１０において適用可能となるこれ
らの特徴量の必要条件は、非類似性の測定が可能である
ことである。また、映像音声処理装置１０は、効率化の
ために、特徴量抽出と上述したビデオ分割とを同時に行
うことがある。以下に説明する特徴量は、このような処
理を可能にするものである。

【００３８】特徴量としては、まず映像に関するものが
挙げられる。以下では、これを映像特徴量と称すること
にする。映像セグメントは、連続する映像フレームによ
り構成されるため、映像セグメントから適切な映像フレ
ームを抽出することによって、その映像セグメントの描
写内容を、抽出した映像フレームで特徴付けることが可
能である。すなわち、映像セグメントの類似性は、適切
に抽出された映像フレームの類似性で代替可能である。
このことから、映像特徴量は、映像音声処理装置１０で
用いることができる重要な特徴量の１つである。この場
合の映像特徴量は、単独では静的な情報しか表せない
が、映像音声処理装置１０は、後述するような方法を適
用することによって、この映像特徴量に基づく映像セグ
メントの動的な特徴を抽出することもできる。

【００３９】映像特徴量として既知のものは多数存在す
るが、シーン検出のためには以下に示す色特徴量（ヒス
トグラム）及び映像相関が、計算コストと精度との良好
な兼ね合いを与えることを見出したことから、映像音声
処理装置１０は、映像特徴量として、これらの色特徴量
及び映像相関を用いることとする。

【００４０】映像音声処理装置１０において、映像にお
ける色は、２つの映像が類似しているかを判断する際の
重要な材料となる。カラーヒストグラムを用いて映像の
類似性を判断することは、例えば“G. Ahanger and T.
D.C. Little, A survey of technologies for parsing
and indexing digital video, J. of Visual Communica
tion and Image Representation 7:28-4, 1996”に記載
されているように、よく知られている。ここで、カラー
ヒストグラムとは、例えばＨＳＶやＲＧＢ等の３次元色
空間をｎ個の領域に分割し、映像における画素の、各領
域での出現頻度の相対的割合を計算したものである。そ
して、得られた情報からは、ｎ次元ベクトルが与えられ
る。圧縮されたビデオデータに関しても、例えばU.S. P
atent #5,708,767号公報に記載されているように、カラ
ーヒストグラムを、圧縮データから直接抽出することが
できる。

【００４１】映像音声処理装置１０では、セグメントを
構成する映像におけるもともとのＹＵＶ色空間を、色チ
ャンネル当たり２ビットでサンプルして構成した、２
^2・3＝６４次元のヒストグラムベクトルを用いている。

【００４２】このようなヒストグラムは、映像の全体的
な色調を表すが、これには時間情報が含まれていない。
そこで、映像音声処理装置１０においては、もう１つの
映像特徴量として、映像相関を計算する。映像音声処理
装置１０におけるシーン検出において、複数の類似セグ
メントが互いに交差した構造は、それがまとまった１つ
のシーン構造であることを示す有力な指標となる。例え
ば会話場面において、カメラの位置は、２人の話し手の
間を交互に移動するが、カメラは通常、同一の話し手を
再度撮影するときには、ほぼ同じ位置に戻る。このよう
な場合における構造を検出するためには、グレイスケー
ルの縮小映像に基づく相関がセグメントの類似性の良好
な指標となることを見出したことから、映像音声処理装
置１０では、元の映像をＭ×Ｎの大きさのグレイスケー
ル映像へ間引き縮小し、これを用いて映像相関を計算す
る。ここで、ＭとＮは、両方とも小さな値で十分であ
り、例えば８×８である。すなわち、これらの縮小グレ
イスケール映像は、ＭＮ次元の特徴量ベクトルとして解
釈される。

【００４３】さらに上述した映像特徴量とは異なる特徴
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、映像音声処理装置１０は、この音声特徴
量として、周波数解析、ピッチ、レベル等を用いること
ができる。これらの音声特徴量は、種々の文献により知
られているものである。

【００４４】まず、映像音声処理装置１０は、フーリエ
変換等の周波数解析を行うことによって、単一の音声フ
レームにおける周波数情報の分布を決定することができ
る。映像音声処理装置１０は、例えば、１つの音声セグ
メントにわたる周波数情報の分布を表すために、ＦＦＴ
（Fast Fourier Transform；高速フーリエ変換）成分、
周波数ヒストグラム、パワースペクトル、その他の特徴
量を用いることができる。

【００４５】また、映像音声処理装置１０は、平均ピッ
チや最大ピッチ等のピッチや、平均ラウドネスや最大ラ
ウドネス等の音声レベルもまた、音声セグメントを表す
有効な音声特徴量として用いることができる。

【００４６】さらに他の特徴量としては、映像音声共通
特徴量が挙げられる。これは、映像特徴量でもなく音声
特徴量でもないが、映像音声処理装置１０において、シ
ーン内のセグメントの特徴を表すのに有用な情報を与え
るものである。映像音声処理装置１０は、この映像音声
共通特徴量として、セグメント長とアクティビティとを
用いる。

【００４７】映像音声処理装置１０は、映像音声共通特
徴量として、セグメント長を用いることができる。この
セグメント長は、セグメントにおける時間長である。一
般に、シーンは、そのシーンに固有のリズム特徴を有す
る。このリズム特徴は、シーン内のセグメント長の変化
として表れる。例えば、迅速に連なった短いセグメント
は、コマーシャルを表す。一方、会話シーンにおけるセ
グメントは、コマーシャルの場合よりも長く、また会話
シーンには、相互に組み合わされたセグメントが互いに
類似しているという特徴がある。映像音声処理装置１０
は、このような特徴を有するセグメント長を映像音声共
通特徴量として用いることができる。

【００４８】また、映像音声処理装置１０は、映像音声
共通特徴量として、アクティビティを用いることができ
る。アクティビティとは、セグメントの内容がどの程度
動的或いは静的であるように感じられるかを表す指標で
ある。例えば、視覚的に動的である場合、アクティビテ
ィは、カメラが対象物に沿って迅速に移動する度合い若
しくは撮影されているオブジェクトが迅速に変化する度
合いを表す。

【００４９】このアクティビティは、カラーヒストグラ
ムのような特徴量のフレーム間非類似性の平均値を測定
することによって、間接的に計算される。ここで、フレ
ームｉとフレームｊとの間で測定された特徴量Ｆに対す
る非類似性測定基準をｄ_F（ｉ，ｊ）と定義すると、映
像アクティビティＶ_Fは、次式（１）のように定義され
る。

【００５０】

【数１】

【００５１】式（１）において、ｂとｆは、それぞれ、
１セグメントにおける最初と最後のフレームのフレーム
番号である。映像音声処理装置１０は、具体的には、例
えば上述したヒストグラムを用いて、映像アクティビテ
ィＶ_Fを計算することができる。

【００５２】ところで、上述した映像特徴量を始めとす
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、動的情報をも考慮する必要が
ある。そこで、映像音声処理装置１０は、以下に示すよ
うな特徴量のサンプリング方法により動的情報を表す。

【００５３】映像音声処理装置１０は、例えば図５に示
すように、１セグメント内の異なる時点から１以上の静
的な特徴量を抽出する。このとき、映像音声処理装置１
０は、特徴量の抽出数を、そのセグメント表現における
忠実度の最大化とデータ冗長度の最小化とのバランスを
とることにより決定する。例えば、セグメント内の或る
１画像が当該セグメントのキーフレームとして指定可能
な場合には、そのキーフレームから計算されたヒストグ
ラムが、抽出すべき特徴量となる。

【００５４】映像音声処理装置１０は、後述するサンプ
リング方法を用いて、対象とするセグメントにおいて、
特徴として抽出可能なサンプルのうち、どのサンプルを
選択するかを決定する。

【００５５】ところで、或るサンプルが常に所定の時
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化（fade）
していく任意の２つのセグメントについては、サンプル
が同一の黒フレームとなるため、同一の特徴量が得られ
る結果になる恐れがある。すなわち、これらのセグメン
トの映像内容がいかなるものであれ、選択した２つのフ
レームは、極めて類似していると判断されてしまう。こ
のような問題は、サンプルが良好な代表値でないために
発生するものである。

【００５６】そこで、映像音声処理装置１０は、このよ
うに固定点で特徴量を抽出するのではなく、セグメント
全体における統計的な代表値を抽出することとする。こ
こでは、一般的な特徴量のサンプリング方法を２つの場
合、すなわち、（１）特徴量を実数のｎ次元ベクトルと
して表すことができる場合と、（２）非類似性測定基準
しか利用できない場合とについて説明する。なお、
（１）には、ヒストグラムやパワースペクトル等、最も
よく知られている映像特徴量及び音声特徴量が含まれ
る。

【００５７】（１）においては、サンプル数は、事前に
ｋと決められており、映像音声処理装置１０は、“L. K
aufman and P.J. Rousseeuw, Finding Groups in Data:
An Introduction to Cluster Analysis, John-Wiley an
d sons, 1990”に記載されてよく知られているｋ平均値
クラスタリング法（k-means-clustering method）を用
いて、セグメント全体についての特徴量をｋ個の異なる
グループに自動的に分割する。そして、映像音声処理装
置１０は、サンプル値として、ｋ個の各グループから、
グループの重心値（centroid）又はこの重心値に近いサ
ンプルを選択する。映像音声処理装置１０におけるこの
処理の複雑度は、サンプル数に関して単に直線的に増加
するにとどまる。

【００５８】一方、（２）においては、映像音声処理装
置１０は、“L. Kaufman and P.J.Rousseeuw, Finding
Groups in Data:An Introduction to Cluster Analysi
s, John-Wiley and sons, 1990”に記載されているｋ−
メドイドアルゴリズム法（k-medoids algorithm metho
d）を用いて、ｋ個のグループを形成する。そして、映
像音声処理装置１０は、サンプル値として、ｋ個のグル
ープ毎に、上述したグループのメドイド（medoid）を用
いる。

【００５９】なお、映像音声処理装置１０においては、
抽出された動的特徴を表す特徴量についての非類似性測
定基準を構成する方法は、その基礎となる静的な特徴量
の非類似性測定基準に基づくが、これについては後述す
る。

【００６０】このようにして、映像音声処理装置１０
は、静的な特徴量を複数抽出し、これらの複数の静的な
特徴量を用いることによって、動的特徴を表すことがで
きる。

【００６１】以上のように、映像音声処理装置１０は、
種々の特徴量を抽出することができる。これらの各特徴
量は、一般に、単一ではセグメントの特徴を表すのに不
十分であることが多い。そこで、映像音声処理装置１０
は、これらの各種特徴量を組み合わせることで、互いに
補完し合う特徴量の組を選択することができる。例え
ば、映像音声処理装置１０は、上述したカラーヒストグ
ラムと映像相関とを組み合わせることによって、各特徴
量が有する情報よりも多くの情報を得ることができる。

【００６２】つぎに、図４中ステップＳ３における特徴
量を用いたセグメントの類似性測定について説明する。
映像音声処理装置１０は、２つの特徴量について、それ
がどの程度非類似であるかを測定する実数値を計算する
関数である非類似性測定基準を用いて、特徴量類似性測
定部１７によりセグメントの類似性測定を行う。この非
類似性測定基準は、その値が小さい場合は２つの特徴量
が類似していることを示し、値が大きい場合は非類似で
あることを示す。ここでは、特徴量Ｆに関する２つのセ
グメントＳ₁，Ｓ₂の非類似性を計算する関数を非類似性
測定基準ｄ_F（Ｓ₁，Ｓ₂）と定義する。このような関数
は、以下の式（２）で与えられる関係を満足させる必要
がある。

【００６３】

【数２】

【００６４】ところで、非類似性測定基準の中には、或
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、ｎ次元空間
における点として表される特徴量についての類似性を測
定するのに適用可能である。その具体例は、ユークリッ
ド距離、内積、Ｌ１距離等である。ここで、特にＬ１距
離が、ヒストグラムや映像相関等の特徴量を含む種々の
特徴量に対して有効に作用することから、映像音声処理
装置１０は、Ｌ１距離を導入する。ここで、２つのｎ次
元ベクトルをＡ，Ｂとした場合、Ａ，Ｂ間のＬ１距離ｄ
_L1（Ａ，Ｂ）は、次式（３）で与えられる。

【００６５】

【数３】

【００６６】ここで、下付文字ｉは、ｎ次元ベクトル
Ａ，Ｂのそれぞれのｉ番目の要素を示すものである。

【００６７】また、映像音声処理装置１０は、上述した
ように、動的特徴を表す特徴量として、セグメントにお
ける様々な時点での静的な特徴量を抽出する。そして、
映像音声処理装置１０は、抽出された２つの動的特徴量
の間の類似性を決定するために、その非類似性測定基準
として、その基礎となる静的特徴量の間の非類似性測定
基準を用いる。これらの動的特徴量の非類似性測定基準
は、多くの場合、各動的特徴量から選択された最も類似
した静的特徴量の対の非類似性値を用いて決定されるの
が最良である。この場合、２つの抽出された動的特徴量
ＳＦ₁，ＳＦ₂の間の非類似性測定基準は、次式（４）の
ように定義される。

【００６８】

【数４】

【００６９】上式（４）における関数ｄ_F（Ｆ₁，Ｆ₂）
は、その基礎となる静的特徴量Ｆについての非類似性測
定基準を示す。なお、場合によっては、特徴量の非類似
性の最小値をとる代わりに、最大値又は平均値をとって
もよい。

【００７０】ところで、映像音声処理装置１０は、セグ
メントの類似性を決定する上で、単一の特徴量だけでは
不十分であり、同一セグメントに関する多数の特徴量か
らの情報を組み合わせることを必要とする場合も多い。
この１つの方法として、映像音声処理装置１０は、種々
の特徴量に基づく非類似性を、それぞれの特徴量の重み
付き組み合わせとして計算する。すなわち、映像音声処
理装置１０は、ｋ個の特徴量Ｆ₁，Ｆ₂，・・・，Ｆ_kが
存在する場合、次式（５）に表される組み合わせた特徴
量に関する非類似性測定基準ｄ_F（Ｓ₁，Ｓ₂）を用い
る。

【００７１】

【数５】

【００７２】ここで、｛ｗ_i｝は、Σ_iｗ_i＝１となる重
み係数である。

【００７３】以上のように、映像音声処理装置１０は、
図４中ステップＳ２において抽出された特徴量を用いて
非類似性測定基準を計算し、当該セグメント間の類似性
を測定することができる。

【００７４】つぎに、図４中ステップＳ４におけるセグ
メントのグループ化について説明する。映像音声処理装
置１０は、非類似性測定基準と抽出した特徴量とを用い
て、時間的に近接して類似したセグメントを繰り返しま
とめてグループ化し、最終的に生成されたグループを検
出シーンとして出力する。

【００７５】映像音声処理装置１０は、セグメントをグ
ループ化してシーンを検出する際に、２つの基本的な処
理を行う。映像音声処理装置１０は、まず第１の処理と
して、互いに時間的に近接して類似したセグメントのグ
ループを検出する。この処理により得られるグループ
は、ほとんどが同一シーンの一部となるものである。そ
して、映像音声処理装置１０は、第２の処理として、互
いに時間が重複したセグメントのグループを１つにまと
める。映像音声処理装置１０は、このような処理を各セ
グメントが独立した状態から開始し、反復して繰り返
す。そして、映像音声処理装置１０は、徐々にセグメン
トのグループを大きく構築していき、最終的に生成した
グループをシーンの組として出力する。

【００７６】このような処理において、映像音声処理装
置１０は、その処理動作を制御するために２つの制約を
用いる。

【００７７】すなわち、映像音声処理装置１０は、第１
の制約として、２つのセグメントがどの程度類似してい
る場合に、同一のシーンのものであるとみなすかを決定
する非類似性閾値δ_simを用いる。例えば、図６に示す
ように、映像音声処理装置１０は、或るセグメントに対
して、一方のセグメントが類似性領域に属するか非類似
性領域に属するかを判断する。

【００７８】なお、映像音声処理装置１０は、非類似性
閾値δ_simをユーザにより設定するようにしてもよく、
また、後述するように、自動的に決定してもよい。

【００７９】また、映像音声処理装置１０は、第２の制
約として、２つのセグメントがなお同一シーン内のセグ
メントとみなし得る時間軸上の隔たりの最大値として、
時間閾値Ｔを用いる。例えば、図７に示すように、映像
音声処理装置１０は、時間閾値Ｔの範囲内で互いに近接
して続いている類似した２つのセグメントＡ，Ｂを同一
シーンにまとめるが、時間的に大きく離れていて時間閾
値Ｔの範囲外である２つのセグメントＢ，Ｃをまとめる
ことはない。このように、映像音声処理装置１０は、こ
の時間閾値Ｔによる時間制約があるために、互いに類似
しているものの時間軸上で大きく隔たっているセグメン
トを同一シーンにまとめてしまうというエラーを発生す
ることがない。

【００８０】なお、この時間閾値Ｔとしては、６〜８シ
ョット分に相当する時間を設定した場合が概して良好な
結果を与えることを見出したことから、映像音声処理装
置１０は、基本的に、時間閾値Ｔを６〜８ショット単位
として用いることとする。

【００８１】映像音声処理装置１０は、類似セグメント
のグループを求めるために、ここでは、“L. Kaufman a
nd P.J. Rousseeuw, Finding Groups in Data:An Intro
duction to Cluster Analysis, John-Wiley and sons,
1990”に記載されている階層的クラスタ分割方法（hier
archical clustering method）を適合させて用いること
にする。このアルゴリズムにおいては、２つのクラスタ
Ｃ₁，Ｃ₂間の非類似性測定基準ｄ_C（Ｃ₁，Ｃ₂）につい
て、次式（６）に示すように、それぞれのクラスタに含
まれる要素間の最小非類似性として定義する。

【００８２】

【数６】

【００８３】なお、映像音声処理装置１０においては、
上式（６）で示される最小関数を最大関数又は平均関数
に容易に置換することができる。

【００８４】まず、映像音声処理装置１０は、図８に示
すように、ステップＳ１１において、変数Ｎを初期状態
のセグメントの数に初期化する。この変数Ｎは、常に現
在検出されているグループの数を示すものである。

【００８５】続いて、映像音声処理装置１０は、ステッ
プＳ１２において、クラスタの組を生成する。映像音声
処理装置１０は、初期状態では、Ｎ個の各セグメントを
異なるクラスタとみなす。すなわち、初期状態では、Ｎ
個のクラスタが存在することになる。各クラスタは、Ｃ
^startとＣ^endとにより表されるその開始時と終了時とを
示す特徴を有する。クラスタに含まれる要素は、Ｃ
^startにより順序付けられたリストとして管理される。

【００８６】続いて、映像音声処理装置１０は、ステッ
プＳ１３において、変数ｔを１に初期化し、ステップＳ
１４において、変数ｔが時間閾値Ｔよりも大きいか否か
を判別する。ここで、映像音声処理装置１０は、変数ｔ
が時間閾値Ｔよりも大きい場合には、ステップＳ２３へ
と処理を移行し、変数ｔが時間閾値Ｔよりも小さい場合
には、ステップＳ１５へと処理を移行する。ただし、こ
こでは、変数ｔが１であるため、映像音声処理装置１０
は、ステップＳ１５へと処理を移行する。

【００８７】映像音声処理装置１０は、ステップＳ１５
において、非類似性測定基準ｄ_Cを計算し、Ｎ個のクラ
スタの中から最も類似した２つのクラスタを検出する。
ただし、ここでは、変数ｔが１であるため、映像音声処
理装置１０は、隣接したクラスタ間の非類似性測定基準
ｄ_Cを計算し、その中から最も類似したクラスタの対を
検出する。

【００８８】このような最も類似した２つのクラスタを
検出する方法としては、対象となる全てのクラスタの対
を求めることが考えられる。しかしながら、ここでは、
対象とするクラスタの時間的隔たりを表す変数ｔがセグ
メント単位で与えられ、さらにクラスタが時間順に整頓
されていることから、映像音声処理装置１０は、或るク
ラスタにおいて、その前後ｔ個までのクラスタを非類似
性の計算対象とすればよい。

【００８９】ここで、検出された２つのクラスタをそれ
ぞれＣ_i，Ｃ_jと定義し、これらのクラスタＣ_i，Ｃ_jの間
の非類似性の値をｄ_ijと定義する。

【００９０】映像音声処理装置１０は、ステップＳ１６
において、非類似性値ｄ_ijが非類似性閾値δ_simよりも
大きいか否かを判別する。ここで、映像音声処理装置１
０は、非類似性値ｄ_ijが非類似性閾値δ_simよりも大き
い場合には、ステップＳ２１へと処理を移行し、非類似
性値ｄ_ijが非類似性閾値δ_simよりも小さい場合には、
ステップＳ１７へと処理を移行する。ここでは、非類似
性値ｄ_ijが非類似性閾値δ_simよりも小さいものとす
る。

【００９１】映像音声処理装置１０は、ステップＳ１７
において、クラスタＣ_jをクラスタＣ_iに結合する。すな
わち、映像音声処理装置１０は、クラスタＣ_jの要素の
全てをクラスタＣ_iに加える。

【００９２】続いて、映像音声処理装置１０は、ステッ
プＳ１８において、クラスタＣ_jをクラスタの組から除
去する。なお、２つのクラスタＣ_i，Ｃ_jを結合すること
により開始時Ｃ_i ^startの値が変化した場合には、映像音
声処理装置１０は、クラスタの組の要素を開始時Ｃ_i
^startに基づいて再び並べ替える。

【００９３】続いて、映像音声処理装置１０は、ステッ
プＳ１９において、変数Ｎから１を減じる。

【００９４】そして、映像音声処理装置１０は、ステッ
プＳ２０において、変数Ｎが１であるか否かを判別す
る。ここで、映像音声処理装置１０は、変数Ｎが１であ
る場合には、ステップＳ２３へと処理を移行し、変数Ｎ
が１でない場合には、ステップＳ１５へと処理を移行す
る。ここでは、変数Ｎが１でないものとする。

【００９５】すると、映像音声処理装置１０は、ステッ
プＳ１５において、再び非類似性測定基準ｄ_Cを計算
し、Ｎ−１個のクラスタの中から最も類似した２つのク
ラスタを検出する。ここでも、変数ｔが１であるため、
映像音声処理装置１０は、隣接したクラスタ間の非類似
性測定基準ｄ_Cを計算し、その中から最も類似したクラ
スタの対を検出する。

【００９６】続いて、映像音声処理装置１０は、ステッ
プＳ１６において、非類似性値ｄ_ijが非類似性閾値δ
_simよりも大きいか否かを判別する。ここでも、非類似
性値ｄ_i _jが非類似性閾値δ_simよりも小さいものとす
る。

【００９７】そして、映像音声処理装置１０は、ステッ
プＳ１７乃至ステップＳ２０の処理を行う。

【００９８】映像音声処理装置１０は、このような処理
を繰り返し、変数Ｎが減算されていった結果、ステップ
Ｓ２０において、変数Ｎが１であると判別した場合に
は、ステップＳ２３において、単一のセグメントのみを
含むクラスタを結合する。最終的には、映像音声処理装
置１０は、この場合は、全てのセグメントが１つのクラ
スタにまとめられる形となり、一連の処理を終了する。

【００９９】さて、映像音声処理装置１０は、ステップ
Ｓ１６において、非類似性値ｄ_ijが非類似性閾値δ_sim
よりも大きいと判別した場合には、ステップＳ２１へと
処理を移行するが、この場合には、ステップＳ２１にお
いて、時間的に重複しているクラスタを繰り返し結合す
る。すなわち、Ｃ_iの時間間隔［Ｃ_i ^start，Ｃ_i ^end］
が、Ｃ_jの時間間隔［Ｃ_j ^start，Ｃ_j ^end］と相交してい
る場合には、２つのクラスタＣ_iとＣ_jは、時間軸上で重
複している。これにより、映像音声処理装置１０は、ク
ラスタをその組の開始時Ｃ_i ^startに基づいて整頓するこ
とによって、重複しているクラスタを検出し、それらの
クラスタを１つに結合することができる。

【０１００】そして、映像音声処理装置１０は、ステッ
プＳ２２において、変数ｔに１を加算してｔ＝２とし、
ステップＳ１４へと処理を移行して変数ｔが時間閾値Ｔ
よりも大きいか否かを判別する。ここでも、変数ｔが時
間閾値Ｔよりも小さいものとし、映像音声処理装置１０
は、ステップＳ１５へと処理を移行するものとする。

【０１０１】映像音声処理装置１０は、ステップＳ１５
において、非類似性測定基準ｄ_Cを計算し、現在存在す
る複数のクラスタの中から最も類似した２つのクラスタ
を検出する。ただし、ここでは、変数ｔが２であるた
め、映像音声処理装置１０は、隣接クラスタ及び１つお
きに隔たっているクラスタ間の非類似性測定基準ｄ_Cを
計算し、その中から最も類似したクラスタの対を検出す
る。

【０１０２】そして、映像音声処理装置１０は、ステッ
プＳ１６において、隣接クラスタ及び１つおきに隔たっ
ているクラスタＣ_i，Ｃ_jの非類似性値ｄ_ijが非類似性閾
値δ_simよりも大きいか否かを判別する。ここでも、非
類似性値ｄ_ijが非類似性閾値δ_simよりも大きいものと
し、映像音声処理装置１０は、ステップＳ２１及びステ
ップＳ２２の処理を経て、変数ｔに１を加算してｔ＝３
として再びステップＳ１４以降の処理へと移行する。こ
こで、映像音声処理装置１０は、変数ｔが３のときに
は、ステップＳ１５において、２つおきに隔たっている
クラスタまでに存在するクラスタとの間の非類似性測定
基準ｄ_Cを計算し、その中から最も類似したクラスタの
対を検出する。

【０１０３】映像音声処理装置１０は、このような処理
を繰り返し、変数ｔが加算されていった結果、ステップ
Ｓ１４において、変数ｔが時間閾値Ｔよりも大きいと判
別すると、ステップＳ２３へと処理を移行し、単一のセ
グメントのみを含むクラスタを結合する。すなわち、映
像音声処理装置１０は、孤立しているクラスタを単一の
セグメントのみを含むクラスタとみなし、このような一
連のクラスタが存在している場合には、これらのクラス
タをまとめて結合していく。この工程は、近接のシーン
とは類似性関連を有さないセグメントをまとめるもので
ある。なお、映像音声処理装置１０は、必ずしもこの工
程を行う必要はない。

【０１０４】このような一連の処理によって、映像音声
処理装置１０は、複数のクラスタをまとめていき、検出
シーンを生成することができる。

【０１０５】なお、映像音声処理装置１０は、非類似性
閾値δ_simをユーザにより設定するようにしてもよく、
自動的に決定してもよいことは上述した通りである。た
だし、非類似性閾値δ_simとして固定値を用いる場合に
は、その最適値は、ビデオデータの内容に依存すること
となる。例えば、変化に富んだ映像内容を有するビデオ
データの場合、非類似性閾値δ_simは、高い値に設定さ
れる必要がある。一方、変化が少ない映像内容を有する
ビデオデータの場合、非類似性閾値δ_simは、低い値に
設定される必要がある。ここで一般に、非類似性閾値δ
_simが高い場合には、検出されるシーンは少なくなり、
非類似性閾値δ_simが低い場合には、検出されるシーン
が多くなるという性質がある。

【０１０６】これより、映像音声処理装置１０において
は、最適な非類似性閾値δ_simを決定することが、その
性能を左右する上で重要となる。そのため、映像音声処
理装置１０においては、非類似性閾値δ_simをユーザに
より設定する場合には、上述したことを考慮した上で設
定する必要がある。一方、映像音声処理装置１０は、以
下に示す方法により、有効な非類似性閾値δ_simを自動
的に決定することもできる。

【０１０７】例えば、その１つの方法として、映像音声
処理装置１０は、（ｎ）（ｎ−１）／２個のセグメント
対の間の非類似性の分布における平均値やメジアン（中
央値）といった統計量を用いて、非類似性閾値δ_simを
得ることができる。いま、全てのセグメント対における
非類似性の平均値とその標準偏差をそれぞれμ，σとし
た場合、非類似性閾値δ_simは、ａμ＋ｂσの形式で表
すことができる。ここで、ａ及びｂは定数であり、それ
ぞれ、０．５及び０．１に設定することが良好な結果を
与えることを見出している。

【０１０８】実用上においては、映像音声処理装置１０
は、全てのセグメント対について、それらの間の非類似
性を求める必要はなく、その平均値μ及び標準偏差σが
真値に十分近い結果を与えるに足りるセグメント対を、
全セグメント対集合からランダムに選択し、その非類似
性を求めればよい。映像音声処理装置１０は、このよう
にして得られた平均値μ及び標準偏差σを用いることに
よって、適切な非類似性閾値δ_simを自動的に決定する
ことができる。

【０１０９】また、映像音声処理装置１０は、シーンを
検出する際に、セグメントが同一グループに属するか否
かを決定するために、単一の非類似性測定基準を用いる
ばかりではなく、重み付け関数を用いて、異種の特徴量
に関する多様な非類似性測定基準を組み合わせることが
できることは上述した通りである。映像音声処理装置１
０において、このような特徴量の重み付けは、試行錯誤
の末得られるものであるが、各特徴量が質的に異なるタ
イプのものである場合には、通常、適切な重み付けを行
うことは困難である。しかしながら、例えば、カラーヒ
ストグラムとテクスチャフィーチャとを組み合わせる場
合には、映像音声処理装置１０は、各特徴量に関してそ
れぞれシーンを検出し、検出された各シーン構造を単一
のシーン構造に合成することによって、両者の特徴を考
慮したシーン検出を実現することができる。ここで、各
特徴量に関してシーンを検出したそれぞれの結果をシー
ン層と称することにする。例えば、特徴量としてカラー
ヒストグラムとセグメント長とを用いる場合、映像音声
処理装置１０は、それぞれの特徴量に基づいたシーン検
出によって、カラーヒストグラムについてのシーン層
と、セグメント長についてのシーン層とを得ることがで
きる。そして、映像音声処理装置１０は、これらのシー
ン層を単一のシーン構造に組み合わせることができる。

【０１１０】さらに、一般には、映像領域と音声領域と
からの情報を組み合わせることはできないが、映像音声
処理装置１０は、質的に異なるタイプの特徴量に基づい
た構造を組み合わせる場合と同様な方法により、映像領
域と音声領域とからの情報に基づいて得られるシーン層
を単一のシーン構造に組み合わせることができる。

【０１１１】このような処理のアルゴリズムについて説
明する。ここでは、それぞれが類似性の１つの基準を表
すｋ個の特徴量Ｆ₁，Ｆ₂，・・・，Ｆ_kがあるものと
し、各特徴量Ｆ_iに対応して、非類似性測定基準ｄ
_F ⁱと、非類似性閾値δⁱ _simと、時間閾値Ｔⁱとがあるも
のとする。映像音声処理装置１０は、これらの各特徴量
Ｆ_iに対する非類似性測定基準ｄ_F ⁱと、非類似性閾値δⁱ
_simと、時間閾値Ｔⁱとを用いて、シーン層の組Ｘ_i＝
｛Ｘ_i ^j｝を検出する。例えば、映像音声処理装置１０
は、映像情報と音声情報とに対して分割的にシーン層を
検出し、映像情報と音声情報とに関する２つの独立した
シーン層Ｘ_i＝｛Ｘ_i ^j｝（ｉ＝１，２）を生成する。

【０１１２】映像音声処理装置１０においては、異なる
シーン層を単一のシーン構造に組み合わせるため、シー
ン境界の組み合わせ方を決定する必要がある。このシー
ン境界は、互いにそろっている保証はない。ここで、各
シーン層に関して、シーン境界を示す一連の時間で表さ
れる境界点をｔ_i1，ｔ_i2，・・・，ｔｉ｜Ｘ_i｜で与え
ることとする。まず、映像音声処理装置１０は、種々の
シーン層を単一のグループに組み合わせるために、最初
に或るシーン層を境界点の整列に関する基礎とするため
に選択する。そして、映像音声処理装置１０は、他のシ
ーン層の境界が最終的に組み合わせて生成するシーン構
造におけるシーン境界かどうかを各境界点ｔ_i1，ｔ_i2，
・・・，ｔｉ｜Ｘ_i｜に対して決定していく。

【０１１３】ここで、Ｂ_i（ｔ）を、ｉ番目のシーン層
Ｘ_iにおいて、或る時間ｔで近接にそのシーン層の境界
点があるかどうかを示す論理関数とする。この「近接」
の意味は、シーン層Ｘ_iの状況に応じて変化し、例え
ば、映像情報と音声情報とのそれぞれに基づくシーン層
を結合する場合には、０．５秒程度が適当である。

【０１１４】映像音声処理装置１０は、各境界点ｔ_j＝
ｔ_ij，ｊ＝１，・・・，｜Ｘ_j｜に関して、ｌ＝１，・
・・，ｋのそれぞれについて、関数Ｂ_l（ｔ_j）の結果を
計算する。この結果は、それぞれのシーン層に関して、
時間ｔ_jの近くに境界点があるかどうかを示している。
そして、映像音声処理装置１０は、結合シーン構造にお
いて時間ｔ_jがシーン境界であるかどうかを決定する際
に、決定関数として、Ｂ_i（ｔ_j）の値を用いる。

【０１１５】このような決定関数の１つの単純な例は、
Ｂ_i（ｔ_j）が真である個数を計数し、この個数が定数ｍ
以上となった場合に、結合シーン構造のシーン境界とみ
なすことである。特に、ｍ＝１の場合には、全てのシー
ン層の境界点を最終シーン構造の境界点とみなすことと
同義であり、一方、ｍ＝ｋの場合には、全てのシーン層
において共通してシーン境界とみなされた場合のみ、結
合シーン構造の境界点とすることと同義である。

【０１１６】このようにして、映像音声処理装置１０
は、異なるシーン層を単一のシーン構造に結合すること
ができる。

【０１１７】以上説明してきたように、本発明の実施の
形態として示す映像音声処理装置１０は、シーン構造を
抽出するものである。この映像音声処理装置１０におけ
る本手法が、例えばテレビドラマや映画等の様々な内容
のビデオデータに対して、そのシーン構造を抽出可能で
あることは、既に実験により検証済みである。

【０１１８】また、映像音声処理装置１０は、完全に自
動的であり、上述した非類似性閾値や時間閾値を設定す
るために、ユーザの介入を必要とせず、ビデオデータの
内容の変化に応じて、適切な閾値を自動的に決定するこ
とができる。

【０１１９】さらに、映像音声処理装置１０は、ユーザ
が事前にビデオデータの意味的な構造を知る必要はない
ものである。

【０１２０】さらにまた、映像音声処理装置１０は、非
常に単純であり計算上の負荷も少ないため、セットトッ
プボックスやディジタルビデオレコーダ、ホームサーバ
等の家庭用電子機器にも適用することができる。

【０１２１】また、映像音声処理装置１０は、シーンを
検出した結果、ビデオブラウジングのための新たな高レ
ベルアクセスの基礎を与えることができる。そのため、
映像音声処理装置１０は、セグメントではなくシーンと
いった高レベルのビデオ構造を用いてビデオデータの内
容を視覚化することにより、内容に基づいたビデオデー
タへの容易なアクセスを可能とする。例えば、映像音声
処理装置１０は、シーンを表示することにより、ユーザ
は、番組の要旨をすばやく知ることができ、興味のある
部分を迅速に見つけることができる。

【０１２２】さらに、映像音声処理装置１０は、シーン
検出の結果、ビデオデータの概要又は要約を自動的に作
成するための基盤が得られる。一般に、一貫した要約を
作成するには、ビデオデータからのランダムな断片を組
み合わせるのではなく、ビデオデータを、再構成可能な
意味を持つ成分に分解することができることを必要とす
る。映像音声処理装置１０により検出されたシーンは、
そのような要約を作成するための基盤となる。

【０１２３】なお、本発明は、上述した実施の形態に限
定されるものではなく、例えば、セグメント間の類似性
測定のために用いる特徴量等は、上述したもの以外でも
よいことは勿論であり、その他、本発明の趣旨を逸脱し
ない範囲で適宜変更が可能であることはいうまでもな
い。

【０１２４】

【発明の効果】以上詳細に説明したように、本発明にか
かる信号処理方法は、供給された信号の内容の意味構造
を反映するパターンを検出して解析する信号処理方法で
あって、信号を構成する連続したフレームのひと続きか
ら形成されるセグメントから、その特徴を表す少なくと
も１つ以上の特徴量を抽出する特徴量抽出工程と、特徴
量を用いて、特徴量のそれぞれ毎に、セグメントの対の
間の類似性を測定する測定基準を算出して、この測定基
準によりセグメントの対の間の類似性を測定する類似性
測定工程と、特徴量と測定基準とを用いて、セグメント
のうち、互いの時間的距離が所定の時間閾値以内である
とともに、互いの非類似性が所定の非類似性閾値以下で
ある２つのセグメントを検出し、信号の内容の意味構造
を反映し時間的に連続するセグメントからなるシーンに
まとめるグループ化工程とを備える。

【０１２５】したがって、本発明にかかる信号処理方法
は、信号において類似したセグメントを検出してシーン
にまとめることができ、セグメントよりも高いレベルの
構造を抽出することができる。

【０１２６】また、本発明にかかる映像音声処理装置
は、供給されたビデオ信号の内容の意味構造を反映する
映像及び／又は音声のパターンを検出して解析する映像
音声処理装置であって、ビデオ信号を構成する連続した
映像及び／又は音声フレームのひと続きから形成される
映像及び／又は音声セグメントから、その特徴を表す少
なくとも１つ以上の特徴量を抽出する特徴量抽出手段
と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び
／又は音声セグメントの対の間の類似性を測定する測定
基準を算出して、この測定基準により映像及び／又は音
声セグメントの対の間の類似性を測定する類似性測定手
段と、特徴量と測定基準とを用いて、映像及び／又は音
声セグメントのうち、互いの時間的距離が所定の時間閾
値以内であるとともに、互いの非類似性が所定の非類似
性閾値以下である２つの映像及び／又は音声セグメント
を検出し、ビデオ信号の内容の意味構造を反映し時間的
に連続する映像及び／又は音声セグメントからなるシー
ンにまとめるグループ化手段とを備える。

【０１２７】したがって、本発明にかかる映像音声処理
装置は、ビデオ信号において類似した映像及び／又は音
声セグメントを検出してまとめ、シーンとして出力する
ことが可能であり、映像及び／又は音声セグメントより
も高いレベルのビデオ構造を抽出することが可能とな
る。

【図面の簡単な説明】

【図１】本発明において適用するビデオデータの構成を
説明する図であって、モデル化したビデオデータの構造
を説明する図である。

【図２】シーンを説明する図である。

【図３】本発明の実施の形態として示す映像音声処理装
置の構成を説明するブロック図である。

【図４】同映像音声処理装置において、シーンを検出し
てグループ化する際の一連の工程を説明するフローチャ
ートである。

【図５】同映像音声処理装置における動的特徴量サンプ
リング処理を説明する図である。

【図６】非類似性閾値を説明する図である。

【図７】時間閾値を説明する図である。

【図８】同映像音声処理装置において、セグメントをグ
ループ化する際の一連の工程を説明するフローチャート
である。

【符号の説明】

１０映像音声処理装置、１１ビデオ分割部、１
２ビデオセグメントメモリ、１３映像特徴量抽出
部、１４音声特徴量抽出部、１５セグメント特
徴量メモリ、１６シーン検出部、１７特徴量類
似性測定部

Claims

【特許請求の範囲】

【請求項１】供給された信号の内容の意味構造を反映
するパターンを検出して解析する信号処理方法であっ
て、上記信号を構成する連続したフレームのひと続きから形
成されるセグメントから、その特徴を表す少なくとも１
つ以上の特徴量を抽出する特徴量抽出工程と、上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記
セグメントの対の間の類似性を測定する測定基準を算出
して、この測定基準により上記セグメントの対の間の類
似性を測定する類似性測定工程と、上記特徴量と上記測定基準とを用いて、上記セグメント
のうち、互いの時間的距離が所定の時間閾値以内である
とともに、互いの非類似性が所定の非類似性閾値以下で
ある２つのセグメントを検出し、上記信号の内容の意味
構造を反映し時間的に連続するセグメントからなるシー
ンにまとめるグループ化工程とを備えることを特徴とす
る信号処理方法。
【請求項２】上記信号とは、ビデオデータにおける映
像信号と音声信号との少なくとも１つであることを特徴
とする請求項１記載の信号処理方法。
【請求項３】上記特徴量抽出工程によって、単一のセ
グメント内の異なる時点における複数の上記特徴量の単
一の統計的な代表値を選択して抽出することを特徴とす
る請求項１記載の信号処理方法。
【請求項４】上記非類似性閾値は、複数個のセグメン
トの対の間の類似性の統計値を用いて決定されることを
特徴とする請求項１記載の信号処理方法。
【請求項５】上記セグメントのうち、上記グループ化
工程にてシーンにまとめられなかった少なくとも１つ以
上のセグメントを、単一のシーンとしてまとめることを
特徴とする請求項１記載の信号処理方法。
【請求項６】上記グループ化工程により得られた任意
の特徴量に関するシーン検出結果と、上記グループ化工
程により得られた上記任意の特徴量とは異なる特徴量に
関する少なくとも１つ以上のシーン検出結果とを単一に
まとめることを特徴とする請求項１記載の信号処理方
法。
【請求項７】上記グループ化工程により得られた上記
映像信号における少なくとも１つ以上のシーン検出結果
と、上記グループ化工程により得られた上記音声信号に
おける少なくとも１つ以上のシーン検出結果とを単一に
まとめることを特徴とする請求項２記載の信号処理方
法。
【請求項８】供給されたビデオ信号の内容の意味構造
を反映する映像及び／又は音声のパターンを検出して解
析する映像音声処理装置であって、上記ビデオ信号を構成する連続した映像及び／又は音声
フレームのひと続きから形成される映像及び／又は音声
セグメントから、その特徴を表す少なくとも１つ以上の
特徴量を抽出する特徴量抽出手段と、上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記
映像及び／又は音声セグメントの対の間の類似性を測定
する測定基準を算出して、この測定基準により上記映像
及び／又は音声セグメントの対の間の類似性を測定する
類似性測定手段と、上記特徴量と上記測定基準とを用いて、上記映像及び／
又は音声セグメントのうち、互いの時間的距離が所定の
時間閾値以内であるとともに、互いの非類似性が所定の
非類似性閾値以下である２つの映像及び／又は音声セグ
メントを検出し、上記ビデオ信号の内容の意味構造を反
映し時間的に連続する映像及び／又は音声セグメントか
らなるシーンにまとめるグループ化手段とを備えること
を特徴とする映像音声処理装置。
【請求項９】上記特徴量抽出手段は、単一の映像及び
／又は音声セグメント内の異なる時点における複数の上
記特徴量の単一の統計的な代表値を選択して抽出するこ
とを特徴とする請求項８記載の映像音声処理装置。
【請求項１０】上記非類似性閾値は、複数個の映像及
び／又は音声セグメントの対の間の類似性の統計値を用
いて決定されることを特徴とする請求項８記載の映像音
声処理装置。
【請求項１１】上記映像及び／又は音声セグメントの
うち、上記グループ化手段によりシーンにまとめられな
かった少なくとも１つ以上の映像及び／又は音声セグメ
ントを、単一のシーンとしてまとめることを特徴とする
請求項８記載の映像音声処理装置。
【請求項１２】上記グループ化手段により得られた任
意の特徴量に関するシーン検出結果と、上記グループ化
手段により得られた上記任意の特徴量とは異なる特徴量
に関する少なくとも１つ以上のシーン検出結果とを単一
にまとめることを特徴とする請求項８記載の映像音声処
理装置。
【請求項１３】上記グループ化工程により得られた上
記ビデオ信号の映像信号における少なくとも１つ以上の
シーン検出結果と、上記グループ化工程により得られた
上記ビデオ信号の音声信号における少なくとも１つ以上
のシーン検出結果とを単一にまとめることを特徴とする
請求項８記載の映像音声処理装置。