JP2000285242A - 信号処理方法及び映像音声処理装置 - Google Patents

信号処理方法及び映像音声処理装置

Info

Publication number
JP2000285242A
JP2000285242A JP2000023337A JP2000023337A JP2000285242A JP 2000285242 A JP2000285242 A JP 2000285242A JP 2000023337 A JP2000023337 A JP 2000023337A JP 2000023337 A JP2000023337 A JP 2000023337A JP 2000285242 A JP2000285242 A JP 2000285242A
Authority
JP
Japan
Prior art keywords
video
audio
segments
feature
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000023337A
Other languages
English (en)
Inventor
Walker Toby
ウォーカー トビー
Hiroshi Matsubara
弘 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000023337A priority Critical patent/JP2000285242A/ja
Publication of JP2000285242A publication Critical patent/JP2000285242A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 種々のビデオにおける高いレベルのビデオ構
造を抽出する。 【解決手段】 映像音声処理装置10は、入力したビデ
オデータのストリームから分割された映像セグメント及
び/又は音声セグメントから抽出された特徴量と、この
特徴量を用いて、各特徴量毎に計算された、映像セグメ
ント及び/又は音声セグメントの対の間の類似性を測定
する測定基準とを用いて、映像セグメント及び/又は音
声セグメントのうち、互いの時間的距離が所定の時間閾
値以内であるとともに、互いの非類似性が所定の非類似
性閾値以下である2つの映像セグメント及び/又は音声
セグメントを検出し、ビデオデータの内容の意味構造を
反映し時間的に連続する映像セグメント及び/又は音声
セグメントからなるシーンにまとめるシーン検出部16
を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、信号の基礎となる
意味構造を反映するパターンを検出して解析する信号処
理方法及びビデオ信号の基礎となる意味構造を反映する
映像及び/又は音声のパターンを検出して解析する映像
音声処理装置に関する。
【0002】
【従来の技術】例えばビデオデータに録画されたテレビ
番組といった大量の異なる映像データにより構成される
映像アプリケーションの中から、興味のある部分等の所
望の部分を探して再生したい場合がある。
【0003】このように、所望の映像内容を抽出するた
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリーボードがある。このストーリーボードは、ビ
デオデータをいわゆるショットに分解し、各ショットに
おいて代表される映像を表示したものである。このよう
な映像抽出技術は、そのほとんどが、例えば“G. Ahang
er and T.D.C. Little, A survey of technologies for
parsing and indexing digital video, J. ofVisual C
ommunication and Image Representation 7:28-4, 199
6”に記載されているように、ビデオデータからショッ
トを自動的に検出して抽出するものである。
【0004】
【発明が解決しようとする課題】ところで、例えば代表
的な30分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいては、ユーザが抽出された膨大な数のショットを並
べたストーリーボードを調べる必要があり、このような
ストーリーボードを理解するにはユーザに大きな負担を
強いる必要があった。また、従来の映像抽出技術におい
ては、例えば話し手の変化に応じて交互に2者を撮影し
た会話場面におけるショットは、冗長のものが多いとい
う問題があった。このように、ショットは、ビデオ構造
を抽出する対象としては階層が低すぎて無駄な情報量が
多く、このようなショットを抽出する従来の映像抽出技
術は、ユーザにとって利便のよいものとはいえなかっ
た。
【0005】また、他の映像抽出技術としては、例えば
“A. Merlino, D. Morey and M. Maybury, Broadcast n
ews navigation using story segmentation, Proc. of
ACMMultimedia 97, 1997”や特開平10−136297
号公報に記載されているように、ニュースやフットボー
ルゲームといった特定の内容ジャンルに関する非常に専
門的な知識を用いるものがある。しかしながら、この従
来の映像抽出技術は、目的のジャンルに関しては良好な
結果を得ることができるものの他のジャンルには全く役
に立たず、さらにジャンルに限定される結果、容易に一
般化することができないという問題があった。
【0006】さらに、他の映像抽出技術としては、例え
ばU.S. Patent #5,708,767号公報に記載されているよう
に、いわゆるストーリーユニットを抽出するものがあ
る。しかしながら、この従来の映像抽出技術は、完全に
自動化されたものではなく、どのショットが同じ内容を
示すものであるかを決定するために、ユーザの介入が必
要であった。また、この従来の映像抽出技術は、処理に
要する計算が複雑であるとともに、適用対象として映像
情報のみに限定されるといった問題もあった。
【0007】さらにまた、他の映像抽出技術としては、
例えば特開平9−214879号公報に記載されている
ように、ショット検出と無音部分検出とを組み合わせる
ことによりショットを識別するものがある。しかしなが
ら、この従来の映像抽出技術は、無音部分がショット境
界に対応した場合のみに限定されたものであった。
【0008】また、他の映像抽出技術としては、例えば
“H. Aoki, S. Shimotsuji and O.Hori, A shot classi
fication method to select effective key-frames for
video browsing, IPSJ Human Interface SIG Notes,
7:43-50, 1996”や特開平9−93588号公報に記載
されているように、ストーリーボードにおける表示の冗
長を低減するために、反復された類似ショットを検出す
るものがある。しかしながら、この従来の映像抽出技術
は、映像情報のみに適用できるものであり、音声情報に
適用できるものではなかった。
【0009】本発明は、このような実情に鑑みてなされ
たものであり、上述した従来の映像抽出技術の問題を解
決し、種々のビデオデータにおける高いレベルのビデオ
構造を抽出する信号処理方法及び映像音声処理装置を提
供することを目的とするものである。
【0010】
【課題を解決するための手段】上述した目的を達成する
本発明にかかる信号処理方法は、供給された信号の内容
の意味構造を反映するパターンを検出して解析する信号
処理方法であって、信号を構成する連続したフレームの
ひと続きから形成されるセグメントから、その特徴を表
す少なくとも1つ以上の特徴量を抽出する特徴量抽出工
程と、特徴量を用いて、特徴量のそれぞれ毎に、セグメ
ントの対の間の類似性を測定する測定基準を算出して、
この測定基準によりセグメントの対の間の類似性を測定
する類似性測定工程と、特徴量と測定基準とを用いて、
セグメントのうち、互いの時間的距離が所定の時間閾値
以内であるとともに、互いの非類似性が所定の非類似性
閾値以下である2つのセグメントを検出し、信号の内容
の意味構造を反映し時間的に連続するセグメントからな
るシーンにまとめるグループ化工程とを備えることを特
徴としている。
【0011】このような本発明にかかる信号処理方法
は、信号において類似したセグメントを検出してシーン
にまとめる。
【0012】また、上述した目的を達成する本発明にか
かる映像音声処理装置は、供給されたビデオ信号の内容
の意味構造を反映する映像及び/又は音声のパターンを
検出して解析する映像音声処理装置であって、ビデオ信
号を構成する連続した映像及び/又は音声フレームのひ
と続きから形成される映像及び/又は音声セグメントか
ら、その特徴を表す少なくとも1つ以上の特徴量を抽出
する特徴量抽出手段と、特徴量を用いて、特徴量のそれ
ぞれ毎に、映像及び/又は音声セグメントの対の間の類
似性を測定する測定基準を算出して、この測定基準によ
り映像及び/又は音声セグメントの対の間の類似性を測
定する類似性測定手段と、特徴量と測定基準とを用い
て、映像及び/又は音声セグメントのうち、互いの時間
的距離が所定の時間閾値以内であるとともに、互いの非
類似性が所定の非類似性閾値以下である2つの映像及び
/又は音声セグメントを検出し、ビデオ信号の内容の意
味構造を反映し時間的に連続する映像及び/又は音声セ
グメントからなるシーンにまとめるグループ化手段とを
備えることを特徴としている。
【0013】このような本発明にかかる映像音声処理装
置は、ビデオ信号において類似した映像及び/又は音声
セグメントを検出してまとめ、シーンとして出力する。
【0014】
【発明の実施の形態】以下、本発明を適用した具体的な
実施の形態について図面を参照しながら詳細に説明す
る。
【0015】本発明を適用した実施の形態は、録画され
たビデオデータから所望の内容を自動的に探し出して抽
出する映像音声処理装置である。この映像音声処理装置
の具体的な説明を行う前に、ここではまず本発明におい
て対象とするビデオデータに関する説明を行う。
【0016】本発明において対象とするビデオデータに
ついては、図1に示すようにモデル化し、フレーム、セ
グメント、シーンの3つのレベルに階層化された構造を
有するものとする。すなわち、ビデオデータは、最下位
層において、一連のフレームにより構成される。また、
ビデオデータは、フレームの1つ上の階層として、連続
するフレームのひと続きから形成されるセグメントによ
り構成される。さらに、ビデオデータは、最上位層にお
いて、このセグメントを意味のある関連に基づきまとめ
て形成されるシーンにより構成される。
【0017】このビデオデータは、映像及び音声の両方
の情報を含む。すなわち、このビデオデータにおけるフ
レームには、単一の静止画像である映像フレームと、一
般に数十〜数百ミリセカンド/長といった短時間におい
てサンプルされた音声情報を表す音声フレームとが含ま
れる。
【0018】また、セグメントは、単一のカメラにより
連続的に撮影された映像フレームのひと続きから構成さ
れ、一般にはショットと呼ばれる。そして、このセグメ
ントには、映像セグメント及び/又は音声セグメントが
含まれ、ビデオ構造における基本単位となる。これらの
セグメントの中で、特に音声セグメントについては、多
くの定義が可能であり、例として次に示すようなものが
考えられる。まず、音声セグメントは、一般によく知ら
れている方法により検出されたビデオデータ中の無音期
間により境界を定められて形成される場合がある。ま
た、音声セグメントは、“D. Kimber and L. Wilcox, A
coustic Segmentation for Audio Browsers, Xerox Par
c Technical Report”に記載されているように、例え
ば、音声、音楽、ノイズ、無音等のように少数のカテゴ
リに分類された音声フレームのひと続きから形成される
場合もある。さらに、音声セグメントは、“S. Pfeiffe
r, S.Fischer and E. Wolfgang, Automatic Audio Cont
ent Analysis, Proceeding ofACM Multimedia 96, Nov.
1996, pp21-30”に記載されているように、2枚の連続
する音声フレーム間の或る特徴における大きな変化を音
声カット点として検出し、この音声カット点に基づいて
決定される場合もある。
【0019】さらに、シーンは、ビデオデータの内容を
意味に基づくより高いレベルで記述するために、映像セ
グメント(ショット)検出或いは音声セグメント検出に
より得られたセグメントを、例えばセグメント内の知覚
的アクティビティ量といったセグメントの特徴を表す特
徴量を用いて意味のあるまとまりにグループ化したもの
である。シーンは、主観的なものであり、ビデオデータ
の内容或いはジャンルに依存するが、ここでは、その特
徴量が互いに類似性を示す映像セグメント又は音声セグ
メントの反復パターンをグループ化したものとする。具
体的には、図2に示すように、2人の話し手が互いに会
話している場面で、映像セグメントは、話し手に応じて
交互に現れる。このような反復パターンを有するビデオ
データにおいて、一方の話し手における一連の映像セグ
メントAと、他方の話し手における一連の映像セグメン
トBとは、それぞれ、グループにまとめられて1つのシ
ーンを構成する。このような反復パターンは、ビデオデ
ータにおける高いレベルでの意味のある構造と非常に関
係があり、シーンは、このようなビデオデータにおける
高いレベルでの意味を持ったまとまりを示すものであ
る。
【0020】本発明を適用した実施の形態として図3に
示す映像音声処理装置10は、上述したビデオデータに
おけるセグメントの特徴量を用いてセグメント間の類似
性を測定し、これらのセグメントをシーンにまとめてビ
デオ構造を自動的に抽出するものであり、映像セグメン
ト及び音声セグメントの両方に適用できるものである。
【0021】映像音声処理装置10は、同図に示すよう
に、入力したビデオデータのストリームを映像、音声又
はこれらの両方のセグメントに分割するビデオ分割部1
1と、ビデオデータの分割情報を記憶するビデオセグメ
ントメモリ12と、各映像セグメントにおける特徴量を
抽出する特徴量抽出手段である映像特徴量抽出部13
と、各音声セグメントにおける特徴量を抽出する特徴量
抽出手段である音声特徴量抽出部14と、映像セグメン
ト及び音声セグメントの特徴量を記憶するセグメント特
徴量メモリ15と、映像セグメント及び音声セグメント
をシーンにまとめるグループ化手段であるシーン検出部
16と、2つのセグメント間の類似性を測定する類似性
測定手段である特徴量類似性測定部17とを備える。
【0022】ビデオ分割部11は、例えば、MPEG1
(Moving Picture Experts Group phase 1)やMPEG
2(Moving Picture Experts Group phase 2)、或いは
いわゆるDV(Digital Video)のような圧縮ビデオデ
ータフォーマットを含む種々のディジタル化されたフォ
ーマットにおける映像データと音声データとからなるビ
デオデータのストリームを入力し、このビデオデータを
映像、音声又はこれらの両方のセグメントに分割するも
のである。このビデオ分割部11は、入力したビデオデ
ータが圧縮フォーマットであった場合、この圧縮ビデオ
データを完全伸張することなく直接処理することができ
る。ビデオ分割部11は、入力したビデオデータを処理
し、映像セグメントと音声セグメントとに分割する。ま
た、ビデオ分割部11は、入力したビデオデータを分割
した結果である分割情報を後段のビデオセグメントメモ
リ12に供給する。さらに、ビデオ分割部11は、映像
セグメントと音声セグメントとに応じて、分割情報を後
段の映像特徴量抽出部13及び音声特徴量抽出部14に
供給する。
【0023】ビデオセグメントメモリ12は、ビデオ分
割部11から供給されたビデオデータの分割情報を記憶
する。また、ビデオセグメントメモリ12は、後述する
シーン検出部16からの問い合わせに応じて、分割情報
をシーン検出部16に供給する。
【0024】映像特徴量抽出部13は、ビデオ分割部1
1によりビデオデータを分割して得た各映像セグメント
毎の特徴量を抽出する。映像特徴量抽出部13は、圧縮
映像データを完全伸張することなく直接処理することが
できる。映像特徴量抽出部13は、抽出した各映像セグ
メントの特徴量を後段のセグメント特徴量メモリ15に
供給する。
【0025】音声特徴量抽出部14は、ビデオ分割部1
1によりビデオデータを分割して得た各音声セグメント
毎の特徴量を抽出する。音声特徴量抽出部14は、圧縮
音声データを完全伸張することなく直接処理することが
できる。音声特徴量抽出部14は、抽出した各音声セグ
メントの特徴量を後段のセグメント特徴量メモリ15に
供給する。
【0026】セグメント特徴量メモリ15は、映像特徴
量抽出部13及び音声特徴量抽出部14からそれぞれ供
給された映像セグメント及び音声セグメントの特徴量を
記憶する。セグメント特徴量メモリ15は、後述する特
徴量類似性測定部17からの問い合わせに応じて、記憶
している特徴量やセグメントを特徴量類似性測定部17
に供給する。
【0027】シーン検出部16は、ビデオセグメントメ
モリ12に保持された分割情報と、1対のセグメント間
の類似性とを用いて、映像セグメント及び音声セグメン
トをそれぞれシーンにまとめる。シーン検出部16は、
グループ内の各セグメントから開始して、セグメント群
の中から類似しているセグメントの反復パターンを検出
し、このようなセグメントを同一シーンとしてまとめて
グループ化する。このシーン検出部16は、或るシーン
におけるセグメントをまとめてグループを徐々に大きく
していき、全てのセグメントをグループ化するまで処理
を行い、最終的に検出シーンを生成して出力する。シー
ン検出部16は、特徴量類似性測定部17を用いて、2
つのセグメントがどの程度類似しているかを判断する。
【0028】特徴量類似性測定部17は、2つのセグメ
ント間の類似性を測定する。特徴量類似性測定部17
は、或るセグメントに関する特徴量を検索するようにセ
グメント特徴量メモリ15に問いかける。
【0029】時間的に近接して反復している類似したセ
グメントは、ほぼ同一シーンの一部であるため、映像音
声処理装置10は、このようなセグメントを検出してグ
ループ化していくことによって、シーンを検出する。こ
のような映像音声処理装置10は、図4に概略を示すよ
うな一連の処理を行うことによって、シーンを検出す
る。
【0030】まず、映像音声処理装置10は、同図に示
すように、ステップS1において、ビデオ分割を行う。
すなわち、映像音声処理装置10は、ビデオ分割部11
に入力されたビデオデータを映像セグメント又は音声セ
グメントのいずれか、或いは可能であればその両方に分
割する。映像音声処理装置10は、適用するビデオ分割
方法に特に前提要件を設けない。例えば、映像音声処理
装置10は、“G. Ahanger and T.D.C. Little, A surv
ey of technologies for parsing and indexing digita
l video, J. of Visual Communication and Image Repr
esentation 7:28-4, 1996”に記載されているような方
法によりビデオ分割を行う。このようなビデオ分割の方
法は、当該技術分野ではよく知られたものであり、映像
音声処理装置10は、いかなるビデオ分割方法も適用で
きるものとする。
【0031】続いて、映像音声処理装置10は、ステッ
プS2において、特徴量の抽出を行う。すなわち、映像
音声処理装置10は、映像特徴量抽出部13や音声特徴
量抽出部14によって、そのセグメントの特徴を表す特
徴量を計算する。映像音声処理装置10においては、例
えば、各セグメントの時間長、カラーヒストグラムやテ
クスチャフィーチャといった映像特徴量や、周波数解析
結果、レベル、ピッチといった音声特徴量や、アクティ
ビティ測定結果等が、適用可能な特徴量として計算され
る。勿論、映像音声処理装置10は、適用可能な特徴量
としてこれらに限定されるものではない。
【0032】続いて、映像音声処理装置10は、ステッ
プS3において、特徴量を用いたセグメントの類似性測
定を行う。すなわち、映像音声処理装置10は、特徴量
類似性測定部17により非類似性測定を行い、その測定
基準によって、2つのセグメントがどの程度類似してい
るかを測定する。映像音声処理装置10は、先のステッ
プS2において抽出した特徴量を用いて、非類似性測定
基準を計算する。
【0033】そして、映像音声処理装置10は、ステッ
プS4において、セグメントのグループ化を行う。すな
わち、映像音声処理装置10は、先のステップS3にお
いて計算した非類似性測定基準と、先のステップS2に
おいて抽出した特徴量とを用いて、時間的に近接して類
似したセグメントを繰り返しまとめ、これらのセグメン
トをグループ化する。映像音声処理装置10は、このよ
うにして最終的に生成されたグループを検出シーンとし
て出力する。
【0034】このような一連の処理を経ることによっ
て、映像音声処理装置10は、ビデオデータからシーン
を検出することができる。したがって、ユーザは、この
結果を用いることによって、ビデオデータの内容を要約
したり、ビデオデータ中の興味のあるポイントに迅速に
アクセスしたりすることが可能となる。
【0035】以下、同図に示した映像音声処理装置10
における処理を各工程毎により詳細に説明していく。
【0036】まず、ステップS1におけるビデオ分割に
ついて説明する。映像音声処理装置10は、ビデオ分割
部11に入力されたビデオデータを映像セグメント又は
音声セグメントのいずれか、或いは可能であればその両
方に分割するが、このビデオデータにおけるセグメント
の境界を自動的に検出するための技術は多くのものがあ
り、当該映像音声処理装置10において、このビデオ分
割方法に特別な前提要件を設けないことは上述した通り
である。一方、映像音声処理装置10において、後の工
程によるシーン検出の精度は、本質的に、基礎となるビ
デオ分割の精度に依存する。なお、映像音声処理装置1
0におけるシーン検出は、或る程度ビデオ分割時のエラ
ーを許容することができる。特に、映像音声処理装置1
0において、ビデオ分割は、セグメント検出が不十分で
ある場合よりも、セグメント検出を過度に行う場合の方
が好ましい。映像音声処理装置10は、類似したセグメ
ントの検出が過度である結果である限り、一般に、シー
ン検出の際に検出過度であるセグメントを同一シーンと
してまとめることができる。
【0037】つぎに、ステップS2における特徴量抽出
について説明する。特徴量とは、セグメントの特徴を表
すとともに、異なるセグメント間の類似性を測定するた
めのデータを供給するセグメントの属性である。映像音
声処理装置10は、映像特徴量抽出部13や音声特徴量
抽出部14により各セグメントの特徴量を計算し、セグ
メントの特徴を表す。映像音声処理装置10は、いかな
る特徴量の具体的詳細にも依存するものではないが、当
該映像音声処理装置10において用いて効果的であると
考えられる特徴量としては、例えば以下に示す映像特徴
量、音声特徴量、映像音声共通特徴量のようなものがあ
る。映像音声処理装置10において適用可能となるこれ
らの特徴量の必要条件は、非類似性の測定が可能である
ことである。また、映像音声処理装置10は、効率化の
ために、特徴量抽出と上述したビデオ分割とを同時に行
うことがある。以下に説明する特徴量は、このような処
理を可能にするものである。
【0038】特徴量としては、まず映像に関するものが
挙げられる。以下では、これを映像特徴量と称すること
にする。映像セグメントは、連続する映像フレームによ
り構成されるため、映像セグメントから適切な映像フレ
ームを抽出することによって、その映像セグメントの描
写内容を、抽出した映像フレームで特徴付けることが可
能である。すなわち、映像セグメントの類似性は、適切
に抽出された映像フレームの類似性で代替可能である。
このことから、映像特徴量は、映像音声処理装置10で
用いることができる重要な特徴量の1つである。この場
合の映像特徴量は、単独では静的な情報しか表せない
が、映像音声処理装置10は、後述するような方法を適
用することによって、この映像特徴量に基づく映像セグ
メントの動的な特徴を抽出することもできる。
【0039】映像特徴量として既知のものは多数存在す
るが、シーン検出のためには以下に示す色特徴量(ヒス
トグラム)及び映像相関が、計算コストと精度との良好
な兼ね合いを与えることを見出したことから、映像音声
処理装置10は、映像特徴量として、これらの色特徴量
及び映像相関を用いることとする。
【0040】映像音声処理装置10において、映像にお
ける色は、2つの映像が類似しているかを判断する際の
重要な材料となる。カラーヒストグラムを用いて映像の
類似性を判断することは、例えば“G. Ahanger and T.
D.C. Little, A survey of technologies for parsing
and indexing digital video, J. of Visual Communica
tion and Image Representation 7:28-4, 1996”に記載
されているように、よく知られている。ここで、カラー
ヒストグラムとは、例えばHSVやRGB等の3次元色
空間をn個の領域に分割し、映像における画素の、各領
域での出現頻度の相対的割合を計算したものである。そ
して、得られた情報からは、n次元ベクトルが与えられ
る。圧縮されたビデオデータに関しても、例えばU.S. P
atent #5,708,767号公報に記載されているように、カラ
ーヒストグラムを、圧縮データから直接抽出することが
できる。
【0041】映像音声処理装置10では、セグメントを
構成する映像におけるもともとのYUV色空間を、色チ
ャンネル当たり2ビットでサンプルして構成した、2
2・3=64次元のヒストグラムベクトルを用いている。
【0042】このようなヒストグラムは、映像の全体的
な色調を表すが、これには時間情報が含まれていない。
そこで、映像音声処理装置10においては、もう1つの
映像特徴量として、映像相関を計算する。映像音声処理
装置10におけるシーン検出において、複数の類似セグ
メントが互いに交差した構造は、それがまとまった1つ
のシーン構造であることを示す有力な指標となる。例え
ば会話場面において、カメラの位置は、2人の話し手の
間を交互に移動するが、カメラは通常、同一の話し手を
再度撮影するときには、ほぼ同じ位置に戻る。このよう
な場合における構造を検出するためには、グレイスケー
ルの縮小映像に基づく相関がセグメントの類似性の良好
な指標となることを見出したことから、映像音声処理装
置10では、元の映像をM×Nの大きさのグレイスケー
ル映像へ間引き縮小し、これを用いて映像相関を計算す
る。ここで、MとNは、両方とも小さな値で十分であ
り、例えば8×8である。すなわち、これらの縮小グレ
イスケール映像は、MN次元の特徴量ベクトルとして解
釈される。
【0043】さらに上述した映像特徴量とは異なる特徴
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、映像音声処理装置10は、この音声特徴
量として、周波数解析、ピッチ、レベル等を用いること
ができる。これらの音声特徴量は、種々の文献により知
られているものである。
【0044】まず、映像音声処理装置10は、フーリエ
変換等の周波数解析を行うことによって、単一の音声フ
レームにおける周波数情報の分布を決定することができ
る。映像音声処理装置10は、例えば、1つの音声セグ
メントにわたる周波数情報の分布を表すために、FFT
(Fast Fourier Transform;高速フーリエ変換)成分、
周波数ヒストグラム、パワースペクトル、その他の特徴
量を用いることができる。
【0045】また、映像音声処理装置10は、平均ピッ
チや最大ピッチ等のピッチや、平均ラウドネスや最大ラ
ウドネス等の音声レベルもまた、音声セグメントを表す
有効な音声特徴量として用いることができる。
【0046】さらに他の特徴量としては、映像音声共通
特徴量が挙げられる。これは、映像特徴量でもなく音声
特徴量でもないが、映像音声処理装置10において、シ
ーン内のセグメントの特徴を表すのに有用な情報を与え
るものである。映像音声処理装置10は、この映像音声
共通特徴量として、セグメント長とアクティビティとを
用いる。
【0047】映像音声処理装置10は、映像音声共通特
徴量として、セグメント長を用いることができる。この
セグメント長は、セグメントにおける時間長である。一
般に、シーンは、そのシーンに固有のリズム特徴を有す
る。このリズム特徴は、シーン内のセグメント長の変化
として表れる。例えば、迅速に連なった短いセグメント
は、コマーシャルを表す。一方、会話シーンにおけるセ
グメントは、コマーシャルの場合よりも長く、また会話
シーンには、相互に組み合わされたセグメントが互いに
類似しているという特徴がある。映像音声処理装置10
は、このような特徴を有するセグメント長を映像音声共
通特徴量として用いることができる。
【0048】また、映像音声処理装置10は、映像音声
共通特徴量として、アクティビティを用いることができ
る。アクティビティとは、セグメントの内容がどの程度
動的或いは静的であるように感じられるかを表す指標で
ある。例えば、視覚的に動的である場合、アクティビテ
ィは、カメラが対象物に沿って迅速に移動する度合い若
しくは撮影されているオブジェクトが迅速に変化する度
合いを表す。
【0049】このアクティビティは、カラーヒストグラ
ムのような特徴量のフレーム間非類似性の平均値を測定
することによって、間接的に計算される。ここで、フレ
ームiとフレームjとの間で測定された特徴量Fに対す
る非類似性測定基準をdF(i,j)と定義すると、映
像アクティビティVFは、次式(1)のように定義され
る。
【0050】
【数1】
【0051】式(1)において、bとfは、それぞれ、
1セグメントにおける最初と最後のフレームのフレーム
番号である。映像音声処理装置10は、具体的には、例
えば上述したヒストグラムを用いて、映像アクティビテ
ィVFを計算することができる。
【0052】ところで、上述した映像特徴量を始めとす
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、動的情報をも考慮する必要が
ある。そこで、映像音声処理装置10は、以下に示すよ
うな特徴量のサンプリング方法により動的情報を表す。
【0053】映像音声処理装置10は、例えば図5に示
すように、1セグメント内の異なる時点から1以上の静
的な特徴量を抽出する。このとき、映像音声処理装置1
0は、特徴量の抽出数を、そのセグメント表現における
忠実度の最大化とデータ冗長度の最小化とのバランスを
とることにより決定する。例えば、セグメント内の或る
1画像が当該セグメントのキーフレームとして指定可能
な場合には、そのキーフレームから計算されたヒストグ
ラムが、抽出すべき特徴量となる。
【0054】映像音声処理装置10は、後述するサンプ
リング方法を用いて、対象とするセグメントにおいて、
特徴として抽出可能なサンプルのうち、どのサンプルを
選択するかを決定する。
【0055】ところで、或るサンプルが常に所定の時
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化(fade)
していく任意の2つのセグメントについては、サンプル
が同一の黒フレームとなるため、同一の特徴量が得られ
る結果になる恐れがある。すなわち、これらのセグメン
トの映像内容がいかなるものであれ、選択した2つのフ
レームは、極めて類似していると判断されてしまう。こ
のような問題は、サンプルが良好な代表値でないために
発生するものである。
【0056】そこで、映像音声処理装置10は、このよ
うに固定点で特徴量を抽出するのではなく、セグメント
全体における統計的な代表値を抽出することとする。こ
こでは、一般的な特徴量のサンプリング方法を2つの場
合、すなわち、(1)特徴量を実数のn次元ベクトルと
して表すことができる場合と、(2)非類似性測定基準
しか利用できない場合とについて説明する。なお、
(1)には、ヒストグラムやパワースペクトル等、最も
よく知られている映像特徴量及び音声特徴量が含まれ
る。
【0057】(1)においては、サンプル数は、事前に
kと決められており、映像音声処理装置10は、“L. K
aufman and P.J. Rousseeuw, Finding Groups in Data:
An Introduction to Cluster Analysis, John-Wiley an
d sons, 1990”に記載されてよく知られているk平均値
クラスタリング法(k-means-clustering method)を用
いて、セグメント全体についての特徴量をk個の異なる
グループに自動的に分割する。そして、映像音声処理装
置10は、サンプル値として、k個の各グループから、
グループの重心値(centroid)又はこの重心値に近いサ
ンプルを選択する。映像音声処理装置10におけるこの
処理の複雑度は、サンプル数に関して単に直線的に増加
するにとどまる。
【0058】一方、(2)においては、映像音声処理装
置10は、“L. Kaufman and P.J.Rousseeuw, Finding
Groups in Data:An Introduction to Cluster Analysi
s, John-Wiley and sons, 1990”に記載されているk−
メドイドアルゴリズム法(k-medoids algorithm metho
d)を用いて、k個のグループを形成する。そして、映
像音声処理装置10は、サンプル値として、k個のグル
ープ毎に、上述したグループのメドイド(medoid)を用
いる。
【0059】なお、映像音声処理装置10においては、
抽出された動的特徴を表す特徴量についての非類似性測
定基準を構成する方法は、その基礎となる静的な特徴量
の非類似性測定基準に基づくが、これについては後述す
る。
【0060】このようにして、映像音声処理装置10
は、静的な特徴量を複数抽出し、これらの複数の静的な
特徴量を用いることによって、動的特徴を表すことがで
きる。
【0061】以上のように、映像音声処理装置10は、
種々の特徴量を抽出することができる。これらの各特徴
量は、一般に、単一ではセグメントの特徴を表すのに不
十分であることが多い。そこで、映像音声処理装置10
は、これらの各種特徴量を組み合わせることで、互いに
補完し合う特徴量の組を選択することができる。例え
ば、映像音声処理装置10は、上述したカラーヒストグ
ラムと映像相関とを組み合わせることによって、各特徴
量が有する情報よりも多くの情報を得ることができる。
【0062】つぎに、図4中ステップS3における特徴
量を用いたセグメントの類似性測定について説明する。
映像音声処理装置10は、2つの特徴量について、それ
がどの程度非類似であるかを測定する実数値を計算する
関数である非類似性測定基準を用いて、特徴量類似性測
定部17によりセグメントの類似性測定を行う。この非
類似性測定基準は、その値が小さい場合は2つの特徴量
が類似していることを示し、値が大きい場合は非類似で
あることを示す。ここでは、特徴量Fに関する2つのセ
グメントS1,S2の非類似性を計算する関数を非類似性
測定基準dF(S1,S2)と定義する。このような関数
は、以下の式(2)で与えられる関係を満足させる必要
がある。
【0063】
【数2】
【0064】ところで、非類似性測定基準の中には、或
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、n次元空間
における点として表される特徴量についての類似性を測
定するのに適用可能である。その具体例は、ユークリッ
ド距離、内積、L1距離等である。ここで、特にL1距
離が、ヒストグラムや映像相関等の特徴量を含む種々の
特徴量に対して有効に作用することから、映像音声処理
装置10は、L1距離を導入する。ここで、2つのn次
元ベクトルをA,Bとした場合、A,B間のL1距離d
L1(A,B)は、次式(3)で与えられる。
【0065】
【数3】
【0066】ここで、下付文字iは、n次元ベクトル
A,Bのそれぞれのi番目の要素を示すものである。
【0067】また、映像音声処理装置10は、上述した
ように、動的特徴を表す特徴量として、セグメントにお
ける様々な時点での静的な特徴量を抽出する。そして、
映像音声処理装置10は、抽出された2つの動的特徴量
の間の類似性を決定するために、その非類似性測定基準
として、その基礎となる静的特徴量の間の非類似性測定
基準を用いる。これらの動的特徴量の非類似性測定基準
は、多くの場合、各動的特徴量から選択された最も類似
した静的特徴量の対の非類似性値を用いて決定されるの
が最良である。この場合、2つの抽出された動的特徴量
SF1,SF2の間の非類似性測定基準は、次式(4)の
ように定義される。
【0068】
【数4】
【0069】上式(4)における関数dF(F1,F2
は、その基礎となる静的特徴量Fについての非類似性測
定基準を示す。なお、場合によっては、特徴量の非類似
性の最小値をとる代わりに、最大値又は平均値をとって
もよい。
【0070】ところで、映像音声処理装置10は、セグ
メントの類似性を決定する上で、単一の特徴量だけでは
不十分であり、同一セグメントに関する多数の特徴量か
らの情報を組み合わせることを必要とする場合も多い。
この1つの方法として、映像音声処理装置10は、種々
の特徴量に基づく非類似性を、それぞれの特徴量の重み
付き組み合わせとして計算する。すなわち、映像音声処
理装置10は、k個の特徴量F1,F2,・・・,Fk
存在する場合、次式(5)に表される組み合わせた特徴
量に関する非類似性測定基準dF(S1,S2)を用い
る。
【0071】
【数5】
【0072】ここで、{wi}は、Σii=1となる重
み係数である。
【0073】以上のように、映像音声処理装置10は、
図4中ステップS2において抽出された特徴量を用いて
非類似性測定基準を計算し、当該セグメント間の類似性
を測定することができる。
【0074】つぎに、図4中ステップS4におけるセグ
メントのグループ化について説明する。映像音声処理装
置10は、非類似性測定基準と抽出した特徴量とを用い
て、時間的に近接して類似したセグメントを繰り返しま
とめてグループ化し、最終的に生成されたグループを検
出シーンとして出力する。
【0075】映像音声処理装置10は、セグメントをグ
ループ化してシーンを検出する際に、2つの基本的な処
理を行う。映像音声処理装置10は、まず第1の処理と
して、互いに時間的に近接して類似したセグメントのグ
ループを検出する。この処理により得られるグループ
は、ほとんどが同一シーンの一部となるものである。そ
して、映像音声処理装置10は、第2の処理として、互
いに時間が重複したセグメントのグループを1つにまと
める。映像音声処理装置10は、このような処理を各セ
グメントが独立した状態から開始し、反復して繰り返
す。そして、映像音声処理装置10は、徐々にセグメン
トのグループを大きく構築していき、最終的に生成した
グループをシーンの組として出力する。
【0076】このような処理において、映像音声処理装
置10は、その処理動作を制御するために2つの制約を
用いる。
【0077】すなわち、映像音声処理装置10は、第1
の制約として、2つのセグメントがどの程度類似してい
る場合に、同一のシーンのものであるとみなすかを決定
する非類似性閾値δsimを用いる。例えば、図6に示す
ように、映像音声処理装置10は、或るセグメントに対
して、一方のセグメントが類似性領域に属するか非類似
性領域に属するかを判断する。
【0078】なお、映像音声処理装置10は、非類似性
閾値δsimをユーザにより設定するようにしてもよく、
また、後述するように、自動的に決定してもよい。
【0079】また、映像音声処理装置10は、第2の制
約として、2つのセグメントがなお同一シーン内のセグ
メントとみなし得る時間軸上の隔たりの最大値として、
時間閾値Tを用いる。例えば、図7に示すように、映像
音声処理装置10は、時間閾値Tの範囲内で互いに近接
して続いている類似した2つのセグメントA,Bを同一
シーンにまとめるが、時間的に大きく離れていて時間閾
値Tの範囲外である2つのセグメントB,Cをまとめる
ことはない。このように、映像音声処理装置10は、こ
の時間閾値Tによる時間制約があるために、互いに類似
しているものの時間軸上で大きく隔たっているセグメン
トを同一シーンにまとめてしまうというエラーを発生す
ることがない。
【0080】なお、この時間閾値Tとしては、6〜8シ
ョット分に相当する時間を設定した場合が概して良好な
結果を与えることを見出したことから、映像音声処理装
置10は、基本的に、時間閾値Tを6〜8ショット単位
として用いることとする。
【0081】映像音声処理装置10は、類似セグメント
のグループを求めるために、ここでは、“L. Kaufman a
nd P.J. Rousseeuw, Finding Groups in Data:An Intro
duction to Cluster Analysis, John-Wiley and sons,
1990”に記載されている階層的クラスタ分割方法(hier
archical clustering method)を適合させて用いること
にする。このアルゴリズムにおいては、2つのクラスタ
1,C2間の非類似性測定基準dC(C1,C2)につい
て、次式(6)に示すように、それぞれのクラスタに含
まれる要素間の最小非類似性として定義する。
【0082】
【数6】
【0083】なお、映像音声処理装置10においては、
上式(6)で示される最小関数を最大関数又は平均関数
に容易に置換することができる。
【0084】まず、映像音声処理装置10は、図8に示
すように、ステップS11において、変数Nを初期状態
のセグメントの数に初期化する。この変数Nは、常に現
在検出されているグループの数を示すものである。
【0085】続いて、映像音声処理装置10は、ステッ
プS12において、クラスタの組を生成する。映像音声
処理装置10は、初期状態では、N個の各セグメントを
異なるクラスタとみなす。すなわち、初期状態では、N
個のクラスタが存在することになる。各クラスタは、C
startとCendとにより表されるその開始時と終了時とを
示す特徴を有する。クラスタに含まれる要素は、C
startにより順序付けられたリストとして管理される。
【0086】続いて、映像音声処理装置10は、ステッ
プS13において、変数tを1に初期化し、ステップS
14において、変数tが時間閾値Tよりも大きいか否か
を判別する。ここで、映像音声処理装置10は、変数t
が時間閾値Tよりも大きい場合には、ステップS23へ
と処理を移行し、変数tが時間閾値Tよりも小さい場合
には、ステップS15へと処理を移行する。ただし、こ
こでは、変数tが1であるため、映像音声処理装置10
は、ステップS15へと処理を移行する。
【0087】映像音声処理装置10は、ステップS15
において、非類似性測定基準dCを計算し、N個のクラ
スタの中から最も類似した2つのクラスタを検出する。
ただし、ここでは、変数tが1であるため、映像音声処
理装置10は、隣接したクラスタ間の非類似性測定基準
Cを計算し、その中から最も類似したクラスタの対を
検出する。
【0088】このような最も類似した2つのクラスタを
検出する方法としては、対象となる全てのクラスタの対
を求めることが考えられる。しかしながら、ここでは、
対象とするクラスタの時間的隔たりを表す変数tがセグ
メント単位で与えられ、さらにクラスタが時間順に整頓
されていることから、映像音声処理装置10は、或るク
ラスタにおいて、その前後t個までのクラスタを非類似
性の計算対象とすればよい。
【0089】ここで、検出された2つのクラスタをそれ
ぞれCi,Cjと定義し、これらのクラスタCi,Cjの間
の非類似性の値をdijと定義する。
【0090】映像音声処理装置10は、ステップS16
において、非類似性値dijが非類似性閾値δsimよりも
大きいか否かを判別する。ここで、映像音声処理装置1
0は、非類似性値dijが非類似性閾値δsimよりも大き
い場合には、ステップS21へと処理を移行し、非類似
性値dijが非類似性閾値δsimよりも小さい場合には、
ステップS17へと処理を移行する。ここでは、非類似
性値dijが非類似性閾値δsimよりも小さいものとす
る。
【0091】映像音声処理装置10は、ステップS17
において、クラスタCjをクラスタCiに結合する。すな
わち、映像音声処理装置10は、クラスタCjの要素の
全てをクラスタCiに加える。
【0092】続いて、映像音声処理装置10は、ステッ
プS18において、クラスタCjをクラスタの組から除
去する。なお、2つのクラスタCi,Cjを結合すること
により開始時Ci startの値が変化した場合には、映像音
声処理装置10は、クラスタの組の要素を開始時Ci
startに基づいて再び並べ替える。
【0093】続いて、映像音声処理装置10は、ステッ
プS19において、変数Nから1を減じる。
【0094】そして、映像音声処理装置10は、ステッ
プS20において、変数Nが1であるか否かを判別す
る。ここで、映像音声処理装置10は、変数Nが1であ
る場合には、ステップS23へと処理を移行し、変数N
が1でない場合には、ステップS15へと処理を移行す
る。ここでは、変数Nが1でないものとする。
【0095】すると、映像音声処理装置10は、ステッ
プS15において、再び非類似性測定基準dCを計算
し、N−1個のクラスタの中から最も類似した2つのク
ラスタを検出する。ここでも、変数tが1であるため、
映像音声処理装置10は、隣接したクラスタ間の非類似
性測定基準dCを計算し、その中から最も類似したクラ
スタの対を検出する。
【0096】続いて、映像音声処理装置10は、ステッ
プS16において、非類似性値dijが非類似性閾値δ
simよりも大きいか否かを判別する。ここでも、非類似
性値di jが非類似性閾値δsimよりも小さいものとす
る。
【0097】そして、映像音声処理装置10は、ステッ
プS17乃至ステップS20の処理を行う。
【0098】映像音声処理装置10は、このような処理
を繰り返し、変数Nが減算されていった結果、ステップ
S20において、変数Nが1であると判別した場合に
は、ステップS23において、単一のセグメントのみを
含むクラスタを結合する。最終的には、映像音声処理装
置10は、この場合は、全てのセグメントが1つのクラ
スタにまとめられる形となり、一連の処理を終了する。
【0099】さて、映像音声処理装置10は、ステップ
S16において、非類似性値dijが非類似性閾値δsim
よりも大きいと判別した場合には、ステップS21へと
処理を移行するが、この場合には、ステップS21にお
いて、時間的に重複しているクラスタを繰り返し結合す
る。すなわち、Ciの時間間隔[Ci start,Ci end
が、Cjの時間間隔[Cj start,Cj end]と相交してい
る場合には、2つのクラスタCiとCjは、時間軸上で重
複している。これにより、映像音声処理装置10は、ク
ラスタをその組の開始時Ci startに基づいて整頓するこ
とによって、重複しているクラスタを検出し、それらの
クラスタを1つに結合することができる。
【0100】そして、映像音声処理装置10は、ステッ
プS22において、変数tに1を加算してt=2とし、
ステップS14へと処理を移行して変数tが時間閾値T
よりも大きいか否かを判別する。ここでも、変数tが時
間閾値Tよりも小さいものとし、映像音声処理装置10
は、ステップS15へと処理を移行するものとする。
【0101】映像音声処理装置10は、ステップS15
において、非類似性測定基準dCを計算し、現在存在す
る複数のクラスタの中から最も類似した2つのクラスタ
を検出する。ただし、ここでは、変数tが2であるた
め、映像音声処理装置10は、隣接クラスタ及び1つお
きに隔たっているクラスタ間の非類似性測定基準dC
計算し、その中から最も類似したクラスタの対を検出す
る。
【0102】そして、映像音声処理装置10は、ステッ
プS16において、隣接クラスタ及び1つおきに隔たっ
ているクラスタCi,Cjの非類似性値dijが非類似性閾
値δsimよりも大きいか否かを判別する。ここでも、非
類似性値dijが非類似性閾値δsimよりも大きいものと
し、映像音声処理装置10は、ステップS21及びステ
ップS22の処理を経て、変数tに1を加算してt=3
として再びステップS14以降の処理へと移行する。こ
こで、映像音声処理装置10は、変数tが3のときに
は、ステップS15において、2つおきに隔たっている
クラスタまでに存在するクラスタとの間の非類似性測定
基準dCを計算し、その中から最も類似したクラスタの
対を検出する。
【0103】映像音声処理装置10は、このような処理
を繰り返し、変数tが加算されていった結果、ステップ
S14において、変数tが時間閾値Tよりも大きいと判
別すると、ステップS23へと処理を移行し、単一のセ
グメントのみを含むクラスタを結合する。すなわち、映
像音声処理装置10は、孤立しているクラスタを単一の
セグメントのみを含むクラスタとみなし、このような一
連のクラスタが存在している場合には、これらのクラス
タをまとめて結合していく。この工程は、近接のシーン
とは類似性関連を有さないセグメントをまとめるもので
ある。なお、映像音声処理装置10は、必ずしもこの工
程を行う必要はない。
【0104】このような一連の処理によって、映像音声
処理装置10は、複数のクラスタをまとめていき、検出
シーンを生成することができる。
【0105】なお、映像音声処理装置10は、非類似性
閾値δsimをユーザにより設定するようにしてもよく、
自動的に決定してもよいことは上述した通りである。た
だし、非類似性閾値δsimとして固定値を用いる場合に
は、その最適値は、ビデオデータの内容に依存すること
となる。例えば、変化に富んだ映像内容を有するビデオ
データの場合、非類似性閾値δsimは、高い値に設定さ
れる必要がある。一方、変化が少ない映像内容を有する
ビデオデータの場合、非類似性閾値δsimは、低い値に
設定される必要がある。ここで一般に、非類似性閾値δ
simが高い場合には、検出されるシーンは少なくなり、
非類似性閾値δsimが低い場合には、検出されるシーン
が多くなるという性質がある。
【0106】これより、映像音声処理装置10において
は、最適な非類似性閾値δsimを決定することが、その
性能を左右する上で重要となる。そのため、映像音声処
理装置10においては、非類似性閾値δsimをユーザに
より設定する場合には、上述したことを考慮した上で設
定する必要がある。一方、映像音声処理装置10は、以
下に示す方法により、有効な非類似性閾値δsimを自動
的に決定することもできる。
【0107】例えば、その1つの方法として、映像音声
処理装置10は、(n)(n−1)/2個のセグメント
対の間の非類似性の分布における平均値やメジアン(中
央値)といった統計量を用いて、非類似性閾値δsim
得ることができる。いま、全てのセグメント対における
非類似性の平均値とその標準偏差をそれぞれμ,σとし
た場合、非類似性閾値δsimは、aμ+bσの形式で表
すことができる。ここで、a及びbは定数であり、それ
ぞれ、0.5及び0.1に設定することが良好な結果を
与えることを見出している。
【0108】実用上においては、映像音声処理装置10
は、全てのセグメント対について、それらの間の非類似
性を求める必要はなく、その平均値μ及び標準偏差σが
真値に十分近い結果を与えるに足りるセグメント対を、
全セグメント対集合からランダムに選択し、その非類似
性を求めればよい。映像音声処理装置10は、このよう
にして得られた平均値μ及び標準偏差σを用いることに
よって、適切な非類似性閾値δsimを自動的に決定する
ことができる。
【0109】また、映像音声処理装置10は、シーンを
検出する際に、セグメントが同一グループに属するか否
かを決定するために、単一の非類似性測定基準を用いる
ばかりではなく、重み付け関数を用いて、異種の特徴量
に関する多様な非類似性測定基準を組み合わせることが
できることは上述した通りである。映像音声処理装置1
0において、このような特徴量の重み付けは、試行錯誤
の末得られるものであるが、各特徴量が質的に異なるタ
イプのものである場合には、通常、適切な重み付けを行
うことは困難である。しかしながら、例えば、カラーヒ
ストグラムとテクスチャフィーチャとを組み合わせる場
合には、映像音声処理装置10は、各特徴量に関してそ
れぞれシーンを検出し、検出された各シーン構造を単一
のシーン構造に合成することによって、両者の特徴を考
慮したシーン検出を実現することができる。ここで、各
特徴量に関してシーンを検出したそれぞれの結果をシー
ン層と称することにする。例えば、特徴量としてカラー
ヒストグラムとセグメント長とを用いる場合、映像音声
処理装置10は、それぞれの特徴量に基づいたシーン検
出によって、カラーヒストグラムについてのシーン層
と、セグメント長についてのシーン層とを得ることがで
きる。そして、映像音声処理装置10は、これらのシー
ン層を単一のシーン構造に組み合わせることができる。
【0110】さらに、一般には、映像領域と音声領域と
からの情報を組み合わせることはできないが、映像音声
処理装置10は、質的に異なるタイプの特徴量に基づい
た構造を組み合わせる場合と同様な方法により、映像領
域と音声領域とからの情報に基づいて得られるシーン層
を単一のシーン構造に組み合わせることができる。
【0111】このような処理のアルゴリズムについて説
明する。ここでは、それぞれが類似性の1つの基準を表
すk個の特徴量F1,F2,・・・,Fkがあるものと
し、各特徴量Fiに対応して、非類似性測定基準d
F iと、非類似性閾値δi simと、時間閾値Tiとがあるも
のとする。映像音声処理装置10は、これらの各特徴量
iに対する非類似性測定基準dF iと、非類似性閾値δi
simと、時間閾値Tiとを用いて、シーン層の組Xi
{Xi j}を検出する。例えば、映像音声処理装置10
は、映像情報と音声情報とに対して分割的にシーン層を
検出し、映像情報と音声情報とに関する2つの独立した
シーン層Xi={Xi j}(i=1,2)を生成する。
【0112】映像音声処理装置10においては、異なる
シーン層を単一のシーン構造に組み合わせるため、シー
ン境界の組み合わせ方を決定する必要がある。このシー
ン境界は、互いにそろっている保証はない。ここで、各
シーン層に関して、シーン境界を示す一連の時間で表さ
れる境界点をti1,ti2,・・・,ti|Xi|で与え
ることとする。まず、映像音声処理装置10は、種々の
シーン層を単一のグループに組み合わせるために、最初
に或るシーン層を境界点の整列に関する基礎とするため
に選択する。そして、映像音声処理装置10は、他のシ
ーン層の境界が最終的に組み合わせて生成するシーン構
造におけるシーン境界かどうかを各境界点ti1,ti2
・・・,ti|Xi|に対して決定していく。
【0113】ここで、Bi(t)を、i番目のシーン層
iにおいて、或る時間tで近接にそのシーン層の境界
点があるかどうかを示す論理関数とする。この「近接」
の意味は、シーン層Xiの状況に応じて変化し、例え
ば、映像情報と音声情報とのそれぞれに基づくシーン層
を結合する場合には、0.5秒程度が適当である。
【0114】映像音声処理装置10は、各境界点tj
ij,j=1,・・・,|Xj|に関して、l=1,・
・・,kのそれぞれについて、関数Bl(tj)の結果を
計算する。この結果は、それぞれのシーン層に関して、
時間tjの近くに境界点があるかどうかを示している。
そして、映像音声処理装置10は、結合シーン構造にお
いて時間tjがシーン境界であるかどうかを決定する際
に、決定関数として、Bi(tj)の値を用いる。
【0115】このような決定関数の1つの単純な例は、
i(tj)が真である個数を計数し、この個数が定数m
以上となった場合に、結合シーン構造のシーン境界とみ
なすことである。特に、m=1の場合には、全てのシー
ン層の境界点を最終シーン構造の境界点とみなすことと
同義であり、一方、m=kの場合には、全てのシーン層
において共通してシーン境界とみなされた場合のみ、結
合シーン構造の境界点とすることと同義である。
【0116】このようにして、映像音声処理装置10
は、異なるシーン層を単一のシーン構造に結合すること
ができる。
【0117】以上説明してきたように、本発明の実施の
形態として示す映像音声処理装置10は、シーン構造を
抽出するものである。この映像音声処理装置10におけ
る本手法が、例えばテレビドラマや映画等の様々な内容
のビデオデータに対して、そのシーン構造を抽出可能で
あることは、既に実験により検証済みである。
【0118】また、映像音声処理装置10は、完全に自
動的であり、上述した非類似性閾値や時間閾値を設定す
るために、ユーザの介入を必要とせず、ビデオデータの
内容の変化に応じて、適切な閾値を自動的に決定するこ
とができる。
【0119】さらに、映像音声処理装置10は、ユーザ
が事前にビデオデータの意味的な構造を知る必要はない
ものである。
【0120】さらにまた、映像音声処理装置10は、非
常に単純であり計算上の負荷も少ないため、セットトッ
プボックスやディジタルビデオレコーダ、ホームサーバ
等の家庭用電子機器にも適用することができる。
【0121】また、映像音声処理装置10は、シーンを
検出した結果、ビデオブラウジングのための新たな高レ
ベルアクセスの基礎を与えることができる。そのため、
映像音声処理装置10は、セグメントではなくシーンと
いった高レベルのビデオ構造を用いてビデオデータの内
容を視覚化することにより、内容に基づいたビデオデー
タへの容易なアクセスを可能とする。例えば、映像音声
処理装置10は、シーンを表示することにより、ユーザ
は、番組の要旨をすばやく知ることができ、興味のある
部分を迅速に見つけることができる。
【0122】さらに、映像音声処理装置10は、シーン
検出の結果、ビデオデータの概要又は要約を自動的に作
成するための基盤が得られる。一般に、一貫した要約を
作成するには、ビデオデータからのランダムな断片を組
み合わせるのではなく、ビデオデータを、再構成可能な
意味を持つ成分に分解することができることを必要とす
る。映像音声処理装置10により検出されたシーンは、
そのような要約を作成するための基盤となる。
【0123】なお、本発明は、上述した実施の形態に限
定されるものではなく、例えば、セグメント間の類似性
測定のために用いる特徴量等は、上述したもの以外でも
よいことは勿論であり、その他、本発明の趣旨を逸脱し
ない範囲で適宜変更が可能であることはいうまでもな
い。
【0124】
【発明の効果】以上詳細に説明したように、本発明にか
かる信号処理方法は、供給された信号の内容の意味構造
を反映するパターンを検出して解析する信号処理方法で
あって、信号を構成する連続したフレームのひと続きか
ら形成されるセグメントから、その特徴を表す少なくと
も1つ以上の特徴量を抽出する特徴量抽出工程と、特徴
量を用いて、特徴量のそれぞれ毎に、セグメントの対の
間の類似性を測定する測定基準を算出して、この測定基
準によりセグメントの対の間の類似性を測定する類似性
測定工程と、特徴量と測定基準とを用いて、セグメント
のうち、互いの時間的距離が所定の時間閾値以内である
とともに、互いの非類似性が所定の非類似性閾値以下で
ある2つのセグメントを検出し、信号の内容の意味構造
を反映し時間的に連続するセグメントからなるシーンに
まとめるグループ化工程とを備える。
【0125】したがって、本発明にかかる信号処理方法
は、信号において類似したセグメントを検出してシーン
にまとめることができ、セグメントよりも高いレベルの
構造を抽出することができる。
【0126】また、本発明にかかる映像音声処理装置
は、供給されたビデオ信号の内容の意味構造を反映する
映像及び/又は音声のパターンを検出して解析する映像
音声処理装置であって、ビデオ信号を構成する連続した
映像及び/又は音声フレームのひと続きから形成される
映像及び/又は音声セグメントから、その特徴を表す少
なくとも1つ以上の特徴量を抽出する特徴量抽出手段
と、特徴量を用いて、特徴量のそれぞれ毎に、映像及び
/又は音声セグメントの対の間の類似性を測定する測定
基準を算出して、この測定基準により映像及び/又は音
声セグメントの対の間の類似性を測定する類似性測定手
段と、特徴量と測定基準とを用いて、映像及び/又は音
声セグメントのうち、互いの時間的距離が所定の時間閾
値以内であるとともに、互いの非類似性が所定の非類似
性閾値以下である2つの映像及び/又は音声セグメント
を検出し、ビデオ信号の内容の意味構造を反映し時間的
に連続する映像及び/又は音声セグメントからなるシー
ンにまとめるグループ化手段とを備える。
【0127】したがって、本発明にかかる映像音声処理
装置は、ビデオ信号において類似した映像及び/又は音
声セグメントを検出してまとめ、シーンとして出力する
ことが可能であり、映像及び/又は音声セグメントより
も高いレベルのビデオ構造を抽出することが可能とな
る。
【図面の簡単な説明】
【図1】本発明において適用するビデオデータの構成を
説明する図であって、モデル化したビデオデータの構造
を説明する図である。
【図2】シーンを説明する図である。
【図3】本発明の実施の形態として示す映像音声処理装
置の構成を説明するブロック図である。
【図4】同映像音声処理装置において、シーンを検出し
てグループ化する際の一連の工程を説明するフローチャ
ートである。
【図5】同映像音声処理装置における動的特徴量サンプ
リング処理を説明する図である。
【図6】非類似性閾値を説明する図である。
【図7】時間閾値を説明する図である。
【図8】同映像音声処理装置において、セグメントをグ
ループ化する際の一連の工程を説明するフローチャート
である。
【符号の説明】
10 映像音声処理装置、 11 ビデオ分割部、 1
2 ビデオセグメントメモリ、 13 映像特徴量抽出
部、 14 音声特徴量抽出部、 15 セグメント特
徴量メモリ、 16 シーン検出部、 17 特徴量類
似性測定部

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 供給された信号の内容の意味構造を反映
    するパターンを検出して解析する信号処理方法であっ
    て、 上記信号を構成する連続したフレームのひと続きから形
    成されるセグメントから、その特徴を表す少なくとも1
    つ以上の特徴量を抽出する特徴量抽出工程と、 上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記
    セグメントの対の間の類似性を測定する測定基準を算出
    して、この測定基準により上記セグメントの対の間の類
    似性を測定する類似性測定工程と、 上記特徴量と上記測定基準とを用いて、上記セグメント
    のうち、互いの時間的距離が所定の時間閾値以内である
    とともに、互いの非類似性が所定の非類似性閾値以下で
    ある2つのセグメントを検出し、上記信号の内容の意味
    構造を反映し時間的に連続するセグメントからなるシー
    ンにまとめるグループ化工程とを備えることを特徴とす
    る信号処理方法。
  2. 【請求項2】 上記信号とは、ビデオデータにおける映
    像信号と音声信号との少なくとも1つであることを特徴
    とする請求項1記載の信号処理方法。
  3. 【請求項3】 上記特徴量抽出工程によって、単一のセ
    グメント内の異なる時点における複数の上記特徴量の単
    一の統計的な代表値を選択して抽出することを特徴とす
    る請求項1記載の信号処理方法。
  4. 【請求項4】 上記非類似性閾値は、複数個のセグメン
    トの対の間の類似性の統計値を用いて決定されることを
    特徴とする請求項1記載の信号処理方法。
  5. 【請求項5】 上記セグメントのうち、上記グループ化
    工程にてシーンにまとめられなかった少なくとも1つ以
    上のセグメントを、単一のシーンとしてまとめることを
    特徴とする請求項1記載の信号処理方法。
  6. 【請求項6】 上記グループ化工程により得られた任意
    の特徴量に関するシーン検出結果と、上記グループ化工
    程により得られた上記任意の特徴量とは異なる特徴量に
    関する少なくとも1つ以上のシーン検出結果とを単一に
    まとめることを特徴とする請求項1記載の信号処理方
    法。
  7. 【請求項7】 上記グループ化工程により得られた上記
    映像信号における少なくとも1つ以上のシーン検出結果
    と、上記グループ化工程により得られた上記音声信号に
    おける少なくとも1つ以上のシーン検出結果とを単一に
    まとめることを特徴とする請求項2記載の信号処理方
    法。
  8. 【請求項8】 供給されたビデオ信号の内容の意味構造
    を反映する映像及び/又は音声のパターンを検出して解
    析する映像音声処理装置であって、 上記ビデオ信号を構成する連続した映像及び/又は音声
    フレームのひと続きから形成される映像及び/又は音声
    セグメントから、その特徴を表す少なくとも1つ以上の
    特徴量を抽出する特徴量抽出手段と、 上記特徴量を用いて、上記特徴量のそれぞれ毎に、上記
    映像及び/又は音声セグメントの対の間の類似性を測定
    する測定基準を算出して、この測定基準により上記映像
    及び/又は音声セグメントの対の間の類似性を測定する
    類似性測定手段と、 上記特徴量と上記測定基準とを用いて、上記映像及び/
    又は音声セグメントのうち、互いの時間的距離が所定の
    時間閾値以内であるとともに、互いの非類似性が所定の
    非類似性閾値以下である2つの映像及び/又は音声セグ
    メントを検出し、上記ビデオ信号の内容の意味構造を反
    映し時間的に連続する映像及び/又は音声セグメントか
    らなるシーンにまとめるグループ化手段とを備えること
    を特徴とする映像音声処理装置。
  9. 【請求項9】 上記特徴量抽出手段は、単一の映像及び
    /又は音声セグメント内の異なる時点における複数の上
    記特徴量の単一の統計的な代表値を選択して抽出するこ
    とを特徴とする請求項8記載の映像音声処理装置。
  10. 【請求項10】 上記非類似性閾値は、複数個の映像及
    び/又は音声セグメントの対の間の類似性の統計値を用
    いて決定されることを特徴とする請求項8記載の映像音
    声処理装置。
  11. 【請求項11】 上記映像及び/又は音声セグメントの
    うち、上記グループ化手段によりシーンにまとめられな
    かった少なくとも1つ以上の映像及び/又は音声セグメ
    ントを、単一のシーンとしてまとめることを特徴とする
    請求項8記載の映像音声処理装置。
  12. 【請求項12】 上記グループ化手段により得られた任
    意の特徴量に関するシーン検出結果と、上記グループ化
    手段により得られた上記任意の特徴量とは異なる特徴量
    に関する少なくとも1つ以上のシーン検出結果とを単一
    にまとめることを特徴とする請求項8記載の映像音声処
    理装置。
  13. 【請求項13】 上記グループ化工程により得られた上
    記ビデオ信号の映像信号における少なくとも1つ以上の
    シーン検出結果と、上記グループ化工程により得られた
    上記ビデオ信号の音声信号における少なくとも1つ以上
    のシーン検出結果とを単一にまとめることを特徴とする
    請求項8記載の映像音声処理装置。
JP2000023337A 1999-01-29 2000-01-27 信号処理方法及び映像音声処理装置 Pending JP2000285242A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000023337A JP2000285242A (ja) 1999-01-29 2000-01-27 信号処理方法及び映像音声処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-23064 1999-01-29
JP2306499 1999-01-29
JP2000023337A JP2000285242A (ja) 1999-01-29 2000-01-27 信号処理方法及び映像音声処理装置

Publications (1)

Publication Number Publication Date
JP2000285242A true JP2000285242A (ja) 2000-10-13

Family

ID=26360360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000023337A Pending JP2000285242A (ja) 1999-01-29 2000-01-27 信号処理方法及び映像音声処理装置

Country Status (1)

Country Link
JP (1) JP2000285242A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100438302B1 (ko) * 2002-04-30 2004-07-01 엘지전자 주식회사 비디오 스키밍 방법 및 장치
WO2007049378A1 (ja) * 2005-10-25 2007-05-03 Mitsubishi Electric Corporation 映像識別装置
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
JP2008092153A (ja) * 2006-09-29 2008-04-17 Fuji Xerox Co Ltd 動的情報処理装置及び情報処理プログラム
JP2008236056A (ja) * 2007-03-16 2008-10-02 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009048489A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 映像処理装置、プログラムおよび方法
JP2009134862A (ja) * 2003-01-06 2009-06-18 Thomson Licensing ディスプレイを使用することなしにオーディオコンテンツのメニューを作成及びアクセスするための方法
US9105306B2 (en) 2006-12-27 2015-08-11 Nec Corporation Identifying objects in images using object identity probabilities based on interframe distances
CN105427303A (zh) * 2015-11-18 2016-03-23 江苏省电力公司检修分公司 一种变电站遗留物的视觉测量与估计方法
WO2021085105A1 (ja) * 2019-10-28 2021-05-06 ソニー株式会社 情報処理装置、提案装置、情報処理方法および提案方法
US11146619B2 (en) 2013-05-28 2021-10-12 Qualcomm Incorporated Systems and methods for selecting media items

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100438302B1 (ko) * 2002-04-30 2004-07-01 엘지전자 주식회사 비디오 스키밍 방법 및 장치
JP2009134862A (ja) * 2003-01-06 2009-06-18 Thomson Licensing ディスプレイを使用することなしにオーディオコンテンツのメニューを作成及びアクセスするための方法
JP4621782B2 (ja) * 2003-01-06 2011-01-26 トムソン ライセンシング ディスプレイを使用することなしにオーディオコンテンツのメニューを作成及びアクセスするための方法
CN101292267B (zh) * 2005-10-25 2012-08-22 三菱电机株式会社 影像识别装置
WO2007049378A1 (ja) * 2005-10-25 2007-05-03 Mitsubishi Electric Corporation 映像識別装置
US8014606B2 (en) 2005-10-25 2011-09-06 Mitsubishi Electric Corporation Image discrimination apparatus
JPWO2007049378A1 (ja) * 2005-10-25 2009-04-30 三菱電機株式会社 映像識別装置
KR100963701B1 (ko) * 2005-10-25 2010-06-14 미쓰비시덴키 가부시키가이샤 영상 식별 장치
JP4620126B2 (ja) * 2005-10-25 2011-01-26 三菱電機株式会社 映像識別装置
JP2008005167A (ja) * 2006-06-21 2008-01-10 Hokkaido Univ 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
JP4759745B2 (ja) * 2006-06-21 2011-08-31 国立大学法人北海道大学 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
JP2008092153A (ja) * 2006-09-29 2008-04-17 Fuji Xerox Co Ltd 動的情報処理装置及び情報処理プログラム
US9105306B2 (en) 2006-12-27 2015-08-11 Nec Corporation Identifying objects in images using object identity probabilities based on interframe distances
JP2008236056A (ja) * 2007-03-16 2008-10-02 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
JP2009048489A (ja) * 2007-08-21 2009-03-05 Toshiba Corp 映像処理装置、プログラムおよび方法
US8224038B2 (en) 2007-08-21 2012-07-17 Kabushiki Kaisha Toshiba Apparatus, computer program product, and method for processing pictures
US11146619B2 (en) 2013-05-28 2021-10-12 Qualcomm Incorporated Systems and methods for selecting media items
US11706285B2 (en) 2013-05-28 2023-07-18 Qualcomm Incorporated Systems and methods for selecting media items
CN105427303A (zh) * 2015-11-18 2016-03-23 江苏省电力公司检修分公司 一种变电站遗留物的视觉测量与估计方法
WO2021085105A1 (ja) * 2019-10-28 2021-05-06 ソニー株式会社 情報処理装置、提案装置、情報処理方法および提案方法
US11895288B2 (en) 2019-10-28 2024-02-06 Sony Group Corporation Information processing device, proposal device, information processing method, and proposal method

Similar Documents

Publication Publication Date Title
JP4683253B2 (ja) Av信号処理装置および方法、プログラム、並びに記録媒体
EP1081960B1 (en) Signal processing method and video/voice processing device
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
US6744922B1 (en) Signal processing method and video/voice processing device
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP4253989B2 (ja) ビデオの類似性探索方法及び記録媒体
JP4258090B2 (ja) ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体
US8442384B2 (en) Method and apparatus for video digest generation
JP4345321B2 (ja) 線形メディアの最適要約を自動作成する方法および情報を格納する情報格納メディアを備える製品
JP4201454B2 (ja) 動画要約生成方法及び動画要約生成装置
JP4332988B2 (ja) 信号処理装置及び方法
CN1938714A (zh) 用于对视频序列的场景进行语义分段的方法和系统
EP1067786B1 (en) Data describing method and data processor
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
JP2000285243A (ja) 信号処理方法及び映像音声処理装置
KR20080031737A (ko) 메타 서머리 데이터를 통해 콘텐트 아이템들을 표현할 수있게 하는 디바이스 및 그 방법
JP4702577B2 (ja) コンテンツ再生順序決定システムと、その方法及びプログラム
JPH11259061A (ja) デジタル動画像処理装置およびデジタル動画像処理方法
JP4512969B2 (ja) 信号処理装置及び方法、記録媒体、並びにプログラム
JP4032122B2 (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP3408800B2 (ja) 信号検出方法、装置及びそのプログラム、記録媒体
Shao et al. Automatically generating summaries for musical video
JP2000287166A (ja) データ記述方法及びデータ処理装置
JP4224917B2 (ja) 信号処理方法及び映像音声処理装置
JP2000069420A (ja) 映像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090818