JP2002140712A

JP2002140712A - Ａｖ信号処理装置および方法、プログラム、並びに記録媒体

Info

Publication number: JP2002140712A
Application number: JP2001170611A
Authority: JP
Inventors: Hiromasa Shibata; 浩正柴田; Walker Toby; ウォーカートビー
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-07-14
Filing date: 2001-06-06
Publication date: 2002-05-17
Anticipated expiration: 2021-06-06
Also published as: US7027508B2; JP4683253B2; US20060114992A1; US20020061136A1

Abstract

(57)【要約】【課題】シーンの境界を検出する。【解決手段】ステップＳ１において、入力されたビデ
オデータを映像セグメントまたは音声セグメントのいず
れか、あるいは可能であればその両方に分割する。ステ
ップＳ２において、セグメントの特徴を表す特徴量を計
算する。ステップＳ３において、特徴量を用いたセグメ
ントの類似性測定を行う。ステップＳ４において、セグ
メントがシーンの切れ目にあたるか否かを判断する。す
なわち、映像音声処理装置は、先のステップＳ３におい
て計算した非類似性測定基準と、先のステップＳ２にお
いて抽出した特徴量とを用いて、各セグメントを現在と
見なし、近接の類似したセグメントが、その基準とする
セグメントに対し過去か未来かどちらに存在比率が高い
かを求め、その存在比の率変化のパターンを調べ、シー
ンの境界であるか否かの判断をする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＡＶ信号処理装置
および方法、プログラム、並びに記録媒体に関し、特
に、一連の映像信号の中から所望する部分を選択して再
生させる場合に用いて好適なＡＶ信号処理装置および方
法、プログラム、並びに記録媒体に関する。

【０００２】

【従来の技術】例えば、ビデオデータに録画されたテレ
ビ番組のような大量の異なる映像データにより構成され
る映像アプリケーションの中から、興味のある部分等の
所望の部分を探して再生したい場合がある。

【０００３】このように、所望の映像内容を抽出するた
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリボードがある。このストーリボードは、ビデオ
データをいわゆるショットに分解し、各ショットにおい
て代表される映像を表示したものである。このような映
像抽出技術は、そのほとんどが、例えば“G. Ahanger a
nd T.D.C. Little, Asurvey of technologies for pars
ing and indexing digital video, J. of Visual Commu
nication and Image Representation 7:28-4, 1996”に
記載されているように、ビデオデータからショットを自
動的に検出して抽出するものである。

【０００４】

【発明が解決しようとする課題】ところで、例えば代表
的な３０分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいて、ユーザは、抽出された膨大な数のショットを並
べたストーリボードを調べる必要があり、このようなス
トーリボードを理解するにはユーザに大きな負担を強い
る必要があった。

【０００５】また、従来の映像抽出技術においては、例
えば、話し手の変化に応じて交互に２者を撮影した会話
場面におけるショットは、冗長のものが多いという問題
があった。このように、ショットは、ビデオ構造を抽出
する対象としては階層が低すぎて無駄な情報量が多く、
このようなショットを抽出する従来の映像抽出技術は、
ユーザにとって利便性のよいものではなかった。

【０００６】また、他の映像抽出技術としては、例えば
“A. Merlino, D. Morey and M. Maybury, Broadcast n
ews navigation using story segmentation, Proc. of
ACMMultimedia 97, 1997”や特開平１０−１３６２９７
号公報に記載されているように、ニュースやフットボー
ルゲームといった特定の内容ジャンルに関する非常に専
門的な知識を用いるものがある。しかしながら、この従
来の映像抽出技術は、目的のジャンルに関しては良好な
結果を得ることができるが、他のジャンルには全く役に
立たず、更にジャンルに限定される結果、容易に一般化
することができないという問題があった。

【０００７】さらに、他の映像抽出技術としては、例え
ば米国特許５７０８７６７号公報に記載されているよう
に、いわゆるストーリユニットを抽出するものがある。
しかしながら、この従来の映像抽出技術は、完全に自動
化されたものではなく、どのショットが同じ内容を示す
ものであるかを決定するために、ユーザの操作が必要で
あった。また、この従来の映像抽出技術は、処理に要す
る計算が複雑であるとともに、適用対象として映像情報
のみに限定されるといった問題もあった。

【０００８】さらにまた、他の映像抽出技術としては、
例えば特開平９−２１４８７９号公報に記載されている
ように、ショット検出と無音部分検出とを組み合わせる
ことによりシーンを識別するものがある。しかしなが
ら、この従来の映像抽出技術は、無音部分がショット境
界に対応した場合のみに限定されたものであった。

【０００９】また、他の映像抽出技術としては、例えば
“H. Aoki, S. Shimotsuji and O.Hori, A shot classi
fication method to select effective key-frames for
video browsing, IPSJ Human Interface SIG Notes,
7:43-50, 1996”や特開平９−９３５８８号公報に記載
されているように、ストーリボードにおける表示の冗長
度を低減する為に、反復された類似ショットを検出する
ものがある。しかしながら、この従来の映像抽出技術
は、映像情報のみに適用できるものであり、音声情報に
適用できるものではなかった。

【００１０】さらに、これら従来技術ではセットトップ
ボックスやディジタルビデオレコーダなどの家庭機器に
実装するにあたり、複数の問題が生じている。それは、
主に従来技術では後処理を行うことが前提とされていた
ためである。具体的には、次の３つの問題が挙げられ
る。

【００１１】１つ目の問題は、セグメント数は、コンテ
ンツの長さに依存し、一定であってもその中に含まれる
ショットの数が一定でない。そのためシーン検出に必要
なメモリ量の固定ができないので必要とするメモリ量を
過剰に設定しなければならなかった。これはメモリ量の
少ない家庭機器では大きな問題であった。

【００１２】２つ目の問題は、家庭機器では、決められ
た時間内に決められた処理を必ず終わらせなければなら
ない実時間処理が必要とされる。しかし、セグメント数
が固定できなく、また、後処理処理を行わなければなら
ないため、常に決められた時間内に処理を終わらせるの
は困難であった。このことは家庭用機器に実装されてい
る高性能でないCPUを使用しなければならない場合、さ
らに実時間処理を行うことが困難であることを意味す
る。

【００１３】３つ目の問題は、今まで述べてきたように
後処理処理が必要であるため、セグメントが生成される
毎にシーン検出の処理結果が終わらせることができな
い。これは録画途中で何らかの理由で録画状態が止まっ
た場合、それまでの途中結果を得られないことを意味す
る。これは録画しながら逐次処理ができないことを意味
し、家庭用機器では大きな問題になる。

【００１４】また、従来技術では、シーンを決定する場
合、セグメントの繰り返しのパターンやそれ以外のセグ
メントのグループ化などによる方法を用いていたためシ
ーンの検出結果は一意的になっていた。故に検出された
境界が実際のシーンの境界である可能性が高いか低いか
を判断することは不可能であり、段階的にシーンの検出
数を制御することができなかった。

【００１５】さらに、ビデオを一覧するに当たって、見
易くするため得られたシーンの数をできる限り少なくす
ることが必要となる。そのゆえに、検出したシーンの数
が限定された場合に、どのシーンを見せるとよいかとい
う問題が生じる。そのため、得られたシーンの各々の重
要性が解れば、その重要性の順番に従い、シーンを見せ
ると一覧するためによい。ただし、従来技術では得られ
たシーンがどの程度重要であるかを計る尺度を提供して
いない。

【００１６】本発明はこのような状況に鑑みてなされた
ものであり、録画したビデオデータを任意のシーンから
再生できるように、シーンの境界を検出することを目的
とする。

【００１７】

【課題を解決するための手段】本発明のＡＶ信号処理装
置は、ＡＶ信号を構成する一連のフレームによって形成
されるセグメントの特徴量を抽出する特徴量抽出手段
と、基準となるセグメントと他のセグメントとの特徴量
の類似性を測定するための測定基準を算出する算出手段
と、測定基準を用いて、基準となるセグメントと他のセ
グメントとの類似性を測定する類似性測定手段と、類似
性測定手段が測定した類似性を用いて、基準となるセグ
メントがシーンの境界である可能性を示す測定値を計算
する測定値計算手段と、測定値計算手段が計算した測定
値の時間的パターンの変化を解析し、解析結果に基づい
て基準となるセグメントがシーンの境界であるか否かを
判定する境界判定手段とを含むことを特徴とする。

【００１８】ＡＶ信号には、映像信号および音声信号の
うちの少なくとも一方を含むようにすることができる。

【００１９】本発明のＡＶ信号処理装置は、基準となる
セグメントに対応する測定値の変化の程度を示す強度値
を計算する強度値計算手段をさらに含むことができる。

【００２０】前記測定値計算手段には、基準となるセグ
メントに対して、所定の時間領域内における類似セグメ
ントを求め、類似セグメントの時間分布を解析し、過去
と未来に存在する比率を数値化して測定値を計算させる
ようにすることができる。

【００２１】前記境界判定手段には、測定値の絶対値の
総和にも基づき、基準となるセグメントがシーンの境界
であるか否かを判定させるようにすることができる。

【００２２】本発明のＡＶ信号処理装置は、ＡＶ信号に
映像信号が含まれる場合、映像セグメントの基本単位と
なるショットを検出して、音声セグメントを生成する音
声セグメント生成手段をさらに含むことができる。

【００２３】本発明のＡＶ信号処理装置は、ＡＶ信号に
音声信号が含まれる場合、音声信号の特徴量および無音
区間のうちの少なくとも一方を用いて、音声セグメント
を生成する音声セグメント生成手段をさらに含むことが
できる。

【００２４】映像信号の特徴量には、少なくともカラー
ヒストグラムが含まれるようにすることができる。

【００２５】音声信号の特徴量には、音量およびスペク
トラムのうちの少なくとも一方が含まれるようにするこ
とができる。

【００２６】前記境界判定手段には、予め設定され閾値
と測定値を比較することにより、基準となるセグメント
がシーンの境界であるか否かを判定させるようにするこ
とができる。

【００２７】本発明のＡＶ信号処理方法は、ＡＶ信号を
構成する一連のフレームによって形成されるセグメント
の特徴量を抽出する特徴量抽出ステップと、基準となる
セグメントと他のセグメントとの特徴量の類似性を測定
するための測定基準を算出する算出ステップと、測定基
準を用いて、基準となるセグメントと他のセグメントと
の類似性を測定する類似性測定ステップと、類似性測定
ステップの処理で測定された類似性を用いて、基準とな
るセグメントがシーンの境界である可能性を示す測定値
を計算する測定値計算ステップと、測定値計算ステップ
の処理で計算された測定値の時間的パターンの変化を解
析し、解析結果に基づいて基準となるセグメントがシー
ンの境界であるか否かを判定する境界判定ステップとを
含むことを特徴とする。

【００２８】本発明のプログラムは、ＡＶ信号を構成す
る一連のフレームによって形成されるセグメントの特徴
量を抽出する特徴量抽出ステップと、基準となるセグメ
ントと他のセグメントとの特徴量の類似性を測定するた
めの測定基準を算出する算出ステップと、測定基準を用
いて、基準となるセグメントと他のセグメントとの類似
性を測定する類似性測定ステップと、類似性測定ステッ
プの処理で測定された類似性を用いて、基準となるセグ
メントがシーンの境界である可能性を示す測定値を計算
する測定値計算ステップと、測定値計算ステップの処理
で計算された測定値の時間的パターンの変化を解析し、
解析結果に基づいて基準となるセグメントがシーンの境
界であるか否かを判定する境界判定ステップとをコンピ
ュータに実行させることを特徴とする。

【００２９】本発明の記録媒体のプログラムは、ＡＶ信
号を構成する一連のフレームによって形成されるセグメ
ントの特徴量を抽出する特徴量抽出ステップと、基準と
なるセグメントと他のセグメントとの特徴量の類似性を
測定するための測定基準を算出する算出ステップと、測
定基準を用いて、基準となるセグメントと他のセグメン
トとの類似性を測定する類似性測定ステップと、類似性
測定ステップの処理で測定された類似性を用いて、基準
となるセグメントがシーンの境界である可能性を示す測
定値を計算する測定値計算ステップと、測定値計算ステ
ップの処理で計算された測定値の時間的パターンの変化
を解析し、解析結果に基づいて基準となるセグメントが
シーンの境界であるか否かを判定する境界判定ステップ
とを含むことを特徴とする。

【００３０】本発明のＡＶ信号処理装置および方法、並
びにプログラムにおいては、ＡＶ信号を構成する一連の
フレームによって形成されるセグメントの特徴量が抽出
され、基準となるセグメントと他のセグメントとの特徴
量の類似性を測定するための測定基準が算出され、測定
基準を用いて、基準となるセグメントと他のセグメント
との類似性が測定され、測定された類似性を用いて、基
準となるセグメントがシーンの境界である可能性を示す
測定値が計算される。また、計算された測定値の時間的
パターンの変化が解析され、解析結果に基づいて基準と
なるセグメントがシーンの境界であるか否かが判定され
る。

【００３１】

【発明の実施の形態】本発明は、ビデオデータをシーン
に切り分けることが目的である。この切り分けるという
意味はシーンとシーンの境界を検出するということであ
る。シーンは、１以上のセグメントによって構成され
る。各シーンは、それぞれに固有な特徴を持っているた
め、隣接するシーンの各境界のセグメントを比較した場
合、それらの特徴には顕著な違いが現れる。換言すれ
ば、そのような顕著な違いが現れるところがシーンの境
界であり、それを検出することによりセグメント単位
で、シーンを切り分けることが可能になる。

【００３２】この処理を行うに当たり、上述した従来技
術と同ように、最初に対象となるビデオデータをセグメ
ント単位に分割する。分割して得たセグメントは時系列
を成し、各セグメントについて、次のセグメントとの間
にシーン境界があるか否かを判断することが必要とな
る。各セグメントを基準とし、その近隣のセグメントの
中に似ているセグメントが時間的に何処にあるのかを調
べる。

【００３３】シーン境界があると判断された場合、過去
に集中して存在していたパターンから、未来に集中して
存在するパターンへと短い時間で特異な変化が現れる変
化点が検出される。その変化点から次の変化点までが一
つのシーンである。このようなパターンの変化が起こる
ところを見つけるため、シーンの境界の前後で局所的な
変化を見るだけで十分な情報が得られる。

【００３４】さらにこの局所的変化の大きさの大小を測
定することによりシーンの切り分けを段階的に制御する
ことも可能である。これは視覚的な変化点がシーンの意
味的な変化点と良く一致することが経験的に判明したこ
とからである。本発明は以上のことを基本にしてシーン
の境界を検出し、ビデオデータなどのシーンを切り分け
るためのものである。またこのシーン境界情報をもとに
ビデオデータを見やすく表示することを可能とする。

【００３５】次に、本発明の概要を具体的に説明する。
まず、シーンとシーンの境界が存在する場合と存在しな
い場合に分けて、それぞれの特徴について説明する。あ
るビデオデータの具体例を図２に示す。同図では、ビデ
オデータの単位はセグメント単位で示されており、３つ
のシーン１乃至シーン３によって構成されているもので
ある。同図において時間軸は右方向に向いているものと
する。境界が存在しない領域を非境界領域とし、境界が
存在している領域を境界領域とし、図４に詳細に示して
ある。

【００３６】図４（Ａ）の非境界領域に示してあるのは
シーン２の時間内の部分であり、他のシーンとの境界が
存在していないセグメント３乃至セグメント１１の時間
領域である。また、これと対照的に図４（Ｂ）の境界領
域はシーン２とシーン３の境界領域を含むところでシー
ンとシーンの隣接しているセグメント８乃至セグメント
１５の時間領域を示している。

【００３７】まず、境界が存在しない場合を表している
非境界領域の特徴について説明する。非境界領域は、類
似したセグメントだけで構成されているので、非境界領
域の中の基準セグメントに対して過去、未来の時間帯と
分けた場合ほぼ均等に類似セグメントは存在する。その
ため類似セグメントの分布パターンには特異な変化のパ
ターンは現れない。

【００３８】境界領域は、非境界領域と異なり、２つの
シーンが隣接している境界点を含む時間帯の部分を表し
ている。ここでシーンというのは互いに高い類似性を持
ったセグメントからなっているものを意味する。そのた
め、シーン２を構成しているセグメント８乃至セグメン
ト１１と、異なるシーン３を構成しているセグメント１
２乃至セグメント１５とが隣り合っており、それらの境
界を挟んでシーンのセグメントの特徴がそれぞれ異な
る。

【００３９】シーンの境界を検出するには、まず各セグ
メントを時間的基準(現在)と仮定する。それぞれに対
し、最も類似したセグメントの時間的分布パターン(基
準から見て過去であるのか未来であるのか)の変化を調
べることにより実現できる。

【００４０】これは図４（Ｂ）に示す境界領域からわか
るように、セグメント８乃至セグメント１１が順に時間
的基準となって境界に近づくにつれ、最も類似なセグメ
ントが未来に対して過去に存在する比率が高くなって行
き、境界直近(シーンの終り)では１００％になる。そし
て境界を越えた直後(次のシーンの先頭)では過去に対し
て未来に存在する比率が１００％になり、セグメント１
２乃至セグメント１５が順に時間的基準となるにつれ、
その比率が低くなって行く。

【００４１】したがって、このような最も類似なセグメ
ントの時間分布比率のパターンの変化によって、シーン
の境界である可能性が高い場所を特定できる。また、こ
の典型的なパターンはシーンの境界付近の局所的な部分
に現れる確率が非常に高いので、境界近辺だけを調べれ
ばそのパターンの変化から境界を特定できる。これは言
い換えれば、類似セグメントの分布パターンを調べる時
間領域を必要以上に大きく取らなくても良いということ
になる。

【００４２】また、これらのパターンの変化を数値化す
ると、その値の変化の度合いがシーンの視覚的変化の度
合いに連動している。そしてシーンの視覚的変化の度合
いはシーンの意味的な変化の度合いに連動していること
が経験上および実験的結果によってわかっている。した
がってこの数値化した値を境界性測定値とすると、この
値の大小によりシーンの意味的度合いの大小に対応した
シーンを検出することが可能となる。

【００４３】次に、本発明の一実施の形態である映像音
声処理装置について説明するが、その前に、映像音声処
理装置が処理の対象とするビデオデータについて説明す
る。

【００４４】本発明においては、処理対象とするビデオ
データを、図１に示すようにモデル化し、フレーム、セ
グメント、シーンの３つのレベルに階層化されたデータ
構造を有するものとする。すなわち、ビデオデータは、
最下位層において、一連のフレームにより構成される。
また、ビデオデータは、フレームの１つ上の階層とし
て、連続するフレームのひと続きから形成されるセグメ
ントにより構成される。さらに、ビデオデータは、最上
位層において、このセグメントを意味のある関連に基づ
きまとめて形成されるシーンにより構成される。

【００４５】このビデオデータは、一般に、映像および
音声の両方の情報を含む。すなわち、このビデオデータ
においてフレームは、単一の静止画像である映像フレー
ムと、数ＫＨｚ乃至数十ＫＨｚ」のサンプリングレート
でサンプルされた音声情報を表す音声フレームが含まれ
る。

【００４６】また、映像セグメントは、単一のカメラに
より連続的に撮影された一連の映像フレームから構成さ
れ、一般にはショットと呼ばれる。

【００４７】一方、音声セグメントについては、多くの
定義が可能であり、例として次に示すようなものが考え
られる。音声セグメントは、一般によく知られている方
法により検出されたビデオデータ中の無音期間により境
界を定められて形成されるものがある。また、音声セグ
メントは、“D. Kimber and L. Wilcox, Acoustic Segm
entation for Audio Browsers, Xerox Parc Technical
Report”に記載されているように、例えば、音声、音
楽、ノイズ、無音等のように少数のカテゴリに分類され
た音声フレームのひと続きから形成されるものがある。
さらに、音声セグメントは、“S. Pfeiffer, S. Fische
r and E. Wolfgang, Automatic Audio Content Analysi
s, Proceeding of ACM Multimedia 96, Nov. 1996, pp2
1-30”に記載されているように、２枚の連続する音声フ
レーム間のある特徴における大きな変化を音声の変わり
目として検出し、これに基づいて決定される場合もあ
る。

【００４８】シーンは、ビデオデータの内容を意味に基
づくより高いレベルのものである。シーンは、主観的な
ものであり、ビデオデータの内容あるいはジャンルに依
存する。シーンは、その特徴が互いに類似性を示す映像
セグメントまたは音声セグメントで構成されている。

【００４９】ここでは、ビデオデータ内の各セグメント
について、その近隣に存在する類似的特徴を持っている
セグメントが、過去に集中して存在していたパターンか
ら、未来に集中して存在するパターンへと特異な変化を
示す変化点を検出し、その変化点から次の変化点を一つ
のシーンとするものである。このようなパターンがシー
ンの切れ目と対応するのは、各シーンに含まれているセ
グメントの特徴が異なるためにシーンの境界でセグメン
トの類似的特徴が大きく変化するからである。これはビ
デオデータにおける高いレベルでの意味のある構造と非
常に関係があり、シーンは、このようなビデオデータに
おける高いレベルでの意味を持ったまとまりを示すもの
である。

【００５０】次に、本発明の一実施の形態である映像音
声処理装置の構成例について、図３を参照して説明す
る。映像音声処理装置は、上述したビデオデータにおけ
るセグメントの特徴量を用いてセグメント間の類似性を
測定し、これらのセグメントをシーンにまとめてビデオ
構造を自動的に抽出するものであり、映像セグメントお
よび音声セグメントの両方に適用できるものである。

【００５１】映像音声処理装置は、図３に示すように、
入力されるビデオデータのストリームを映像または音
声、あるいは両方のセグメントに分割するビデオ分割部
１１、ビデオデータの分割情報を記憶するビデオセグメ
ントメモリ１２、各映像セグメントにおける特徴量を抽
出する映像特徴量抽出部１３、各音声セグメントにおけ
る特徴量を抽出する音声特徴量抽出部１４、映像セグメ
ントおよび音声セグメントの特徴量を記憶するセグメン
ト特徴量メモリ１５、映像セグメントおよび音声セグメ
ントをシーンにまとめるシーン検出部１６、および２つ
のセグメント間の類似性を測定する特徴量類似性測定部
１７より構成される。

【００５２】ビデオ分割部１１は、入力される、例え
ば、MPEG(Moving Picture Experts Group)１、MPEG２、
またはいわゆるＤＶ(Digital Video)などの圧縮ビデオ
データフォーマットを含む種々のディジタル化されたフ
ォーマットにおける映像データと音声データとからなる
ビデオデータのストリームを映像、音声またはこれらの
両方のセグメントに分割するものである。

【００５３】ビデオ分割部１１は、入力されるビデオデ
ータが圧縮フォーマットであった場合、この圧縮ビデオ
データを完全伸張することなく直接処理することができ
る。ビデオ分割部１１は、入力されたビデオデータを処
理し、映像セグメントと音声セグメントとに分割する。
また、ビデオ分割部１１は、入力したビデオデータを分
割した結果である分割情報を後段のビデオセグメントメ
モリ１２に出力する。さらに、ビデオ分割部１１は、映
像セグメントと音声セグメントとに応じて、分割情報を
後段の映像特徴量抽出部１３および音声特徴量抽出部１
４に出力する。

【００５４】ビデオセグメントメモリ１２は、ビデオ分
割部１１から供給されたビデオデータの分割情報を記憶
する。また、ビデオセグメントメモリ１２は、後述する
シーン検出部１６からの問い合わせに応じて、分割情報
をシーン検出部１６に出力する。

【００５５】映像特徴量抽出部１３は、ビデオ分割部１
１によりビデオデータを分割して得た各映像セグメント
の特徴量を抽出する。映像特徴量抽出部１３は、圧縮映
像データを完全伸張することなく直接処理することがで
きる。映像特徴量抽出部１３は、抽出した各映像セグメ
ントの特徴量を後段のセグメント特徴量メモリ１５に出
力する。

【００５６】音声特徴量抽出部１４は、ビデオ分割部１
１によりビデオデータを分割して得た各音声セグメント
の特徴量を抽出する。音声特徴量抽出部１４は、圧縮音
声データを完全伸張することなく直接処理することがで
きる。音声特徴量抽出部１４は、抽出した各音声セグメ
ントの特徴量を後段のセグメント特徴量メモリ１５に出
力する。

【００５７】セグメント特徴量メモリ１５は、映像特徴
量抽出部１３および音声特徴量抽出部１４からそれぞれ
供給された映像セグメントおよび音声セグメントの特徴
量を記憶する。セグメント特徴量メモリ１５は、後述す
る特徴量類似性測定部１７からの問い合わせに応じて、
記憶している特徴量やセグメントを特徴量類似性測定部
１７に出力する。

【００５８】シーン検出部１６は、ビデオセグメントメ
モリ１２に保持された分割情報と、セグメント間の類似
性とを用いて、映像セグメントおよび音声セグメントが
シーンの境界であるかを判断する。シーン検出部１６
は、各セグメントの近隣の最も類似な特徴量を持つセグ
メントの分布パターンが、過去に集中した状態から未来
に集中した状態へ切り替わる変化点を特定することによ
り、シーンの境界を検出し先頭部と最後部を確定する。
シーン検出部１６は、セグメントが発生する毎に1セグ
メント分、時系列的に移動させ、近隣の最も類似してい
るセグメントの分布パターンを測定する。シーン検出部
１６は、特徴量類似性測定部１７を用いて、近隣のセグ
メントで最も類似しているものの数を特定する。すなわ
ち、特徴空間における特徴量の最近傍の数を求める。そ
してセグメントの最近傍の類似セグメントがそのセグメ
ントを境にして過去に存在するものと未来に存在するも
のとの個数の違いのパターンの変化からシーンの境界を
特定する。

【００５９】特徴量類似性測定部１７は、各セグメント
とその近隣のセグメントとの類似性を測定する。特徴量
類似性測定部１７は、あるセグメントに関する特徴量を
検索するようにセグメント特徴量メモリ１５に問いかけ
る。

【００６０】ビデオデータ記録部１８は、ビデオストリ
ームおよびビデオデータに関する各種のデータである、
いわゆる付加情報データを記録する。ここにシーン検出
部１６から出力されたシーン境界情報およびシーンに対
して計算された強度値が保存される。

【００６１】ビデオ表示部１９は、ビデオデータ記録部
１８からのビデオデータを、各種付加情報データに基
き、サムネイルのような表示方法やランダムアクセス方
法などを実現する。これはユーザの視聴方法に自由度を
増やし、利便性良くビデオデータを表示する。

【００６２】制御部２０は、ドライブ２１を制御して、
磁気ディスク２２、光ディスク２３、光磁気ディスク２
４、または半導体メモリ２５に記憶されている制御用プ
ログラムを読み出し、読み出した制御用プログラムに基
づいて、映像音声処理装置の各部を制御する。

【００６３】映像音声処理装置は、図５に概略を示すよ
うな一連の処理を行うことによって、シーンを検出す
る。

【００６４】まず、映像音声処理装置は、同図に示すよ
うに、ステップＳ１において、ビデオ分割を行う。すな
わち映像音声処理装置は、ビデオ分割部１１に入力され
たビデオデータを映像セグメントまたは音声セグメント
のいずれか、あるいは可能であればその両方に分割す
る。

【００６５】映像音声処理装置が適用するビデオ分割方
法には、特に前提要件を設けない。例えば、映像音声処
理装置は、“G. Ahanger and T.D.C. Little, A survey
oftechnologies for parsing and indexing digital v
ideo, J. of Visual Communication and Image Represe
ntation 7:28-4, 1996”に記載されているような方法に
よりビデオ分割を行う。このようなビデオ分割の方法
は、当該技術分野ではよく知られたものであり、映像音
声処理装置は、いかなるビデオ分割方法も適用できるも
のとする。

【００６６】次に、映像音声処理装置は、ステップＳ２
において、特徴量の抽出を行う。すなわち映像音声処理
装置は、映像特徴量抽出部１３や音声特徴量抽出部１４
により、そのセグメントの特徴を表す特徴量を計算す
る。映像音声処理装置では、例えば、各セグメントの時
間長や、カラーヒストグラムやテクスチャフィーチャと
いった映像特徴量や、周波数解析結果、レベル、ピッチ
といった音声特徴量やアクティビティ測定結果等が、適
用可能な特徴量として計算される。勿論、映像音声処理
装置は、適用可能な特徴量としてこれらに限定されるも
のではない。

【００６７】続いて、映像音声処理装置は、ステップＳ
３において、特徴量を用いたセグメントの類似性測定を
行う。すなわち映像音声処理装置は、特徴量類似性測定
部１７により非類似性測定を行い、その測定基準によ
り、セグメントとその近隣のセグメントがどの程度類似
しているかを測定する。映像音声処理装置は、先のステ
ップＳ２において抽出した特徴量を用いて、非類似性測
定基準を計算する。

【００６８】そして、映像音声処理装置は、ステップＳ
４において、セグメントがシーンの切れ目にあたるか否
かを判断する。すなわち、映像音声処理装置は、先のス
テップＳ３において計算した非類似性測定基準と、先の
ステップＳ２において抽出した特徴量とを用いて、各セ
グメントを現在と見なし、近接の類似したセグメント
が、その基準とするセグメントに対し過去か未来かどち
らに存在比率が高いかを求め、その存在比の率変化のパ
ターンを調べ、シーンの境界であるか否かの判断をす
る。映像音声処理装置は、このようにして最終的に各セ
グメントがシーンの切れ目であるか否かを出力する。

【００６９】このような一連の処理を経ることによっ
て、映像音声処理装置は、ビデオデータからシーンを検
出することができる。

【００７０】したがって、ユーザは、この結果を用いる
ことによって、ビデオデータの内容を要約したり、ビデ
オデータ中の興味のあるポイントに迅速にアクセスした
りすることが可能となる。

【００７１】以下、上述した処理の各ステップをより詳
細に説明する。

【００７２】ステップＳ１におけるビデオ分割について
説明する。映像音声処理装置は、ビデオ分割部１１に入
力されたビデオデータを映像セグメントまたは音声セグ
メントのいずれか、あるいは可能であればその両方に分
割するが、このビデオデータにおけるセグメントの境界
を自動的に検出するための技術は多くのものがあり、映
像音声処理装置において、このビデオ分割方法に特別な
前提要件を設けないことは上述した通りである。

【００７３】一方、映像音声処理装置において、後の処
理によるシーン検出の精度は、本質的に、基礎となるビ
デオ分割の精度に依存する。なお、映像音声処理装置に
おけるシーン検出は、ある程度ビデオ分割時のエラーを
許容することができる。特に、映像音声処理装置におい
て、ビデオ分割は、セグメント検出が不十分である場合
よりも、セグメント検出を過度に行う場合の方が好まし
い。映像音声処理装置は、類似したセグメントの検出が
過度である結果である限り、一般に、シーン検出の際に
検出過度であるセグメントを同一シーンとしてまとめる
ことができる。

【００７４】ステップＳ２における特徴量抽出について
説明する。特徴量とは、セグメントの特徴を表すととも
に、異なるセグメント間の類似性を測定するためのデー
タを供給するセグメントの属性である。映像音声処理装
置は、映像特徴量抽出部１３や音声特徴量抽出部１４に
おいて各セグメントの特徴量を計算し、セグメントの特
徴を表す。

【００７５】映像音声処理装置は、いかなる特徴量の具
体的詳細にも依存するものではないが、映像音声処理装
置において用いて効果的であると考えられる特徴量とし
ては、例えば以下に示す映像特徴量、音声特徴量、映像
音声共通特徴量のようなものがある。映像音声処理装置
において適用可能となるこれら特徴量の必要条件は、非
類似性の測定が可能であることである。また映像音声処
理装置は、効率化のために、特徴量抽出と上述したビデ
オ分割とを同時に行うことがある。以下に説明する特徴
量は、このような処理を可能にするものである。

【００７６】上記特徴量としては、まず映像に関するも
のが挙げられる。以下では、これを映像特徴量と称する
ことにする。映像セグメントは、連続する映像フレーム
により構成されるため、映像セグメントから適切な映像
フレームを抽出することによって、その映像セグメント
の描写内容を、抽出した映像フレームで特徴付けること
が可能である。すなわち映像セグメントの類似性は、適
切に抽出された映像フレームの類似性で代替可能であ
る。つまり映像特徴量は、映像音声処理装置で用いるこ
とができる重要な特徴量の１つである。この場合の映像
特徴量は、単独では静的な情報しか表せないが、映像音
声処理装置は、後述するような方法を適用することによ
って、この映像特徴量に基づく映像セグメントの動的な
特徴を抽出する。

【００７７】映像特徴量として既知のものは多数存在す
るが、シーン検出のためには以下に示す色特徴量（ヒス
トグラム）および映像相関が、計算コストと精度との良
好な兼ね合いを与えることを見出したことから、映像音
声処理装置は、映像特徴として、色特徴量および映像相
関を用いることにする。

【００７８】映像音声処理装置において、映像における
色は、２つの映像が類似しているかを判断する際の重要
な材料となる。カラーヒストグラムを用いて映像の類似
性を判断することは、例えば“G. Ahanger and T.D.C.
Little, A survey of technologies for parsing and i
ndexing digital video, J. of Visual Communication
and Image Representation 7:28-4, 1996”に記載され
ているように、よく知られている。

【００７９】ここでカラーヒストグラムとは、例えばLU
VやRGB等の３次元色空間をｎ個の領域に分割し、映像に
おける画素の、各領域での出現頻度の相対的割合を計算
したものである。そして、得られた情報からは、ｎ次元
ベクトルが与えられる。圧縮されたビデオデータについ
ては、例えば米国特許５７０８７６７号公報に記載され
ているように、カラーヒストグラムを、圧縮データから
直接抽出することができる。

【００８０】映像音声処理装置では、セグメントを構成
する映像（MPEG1／2，DVなど一般的に使われている方
式）における元々のYUV色空間のヒストグラムベクトル
を得る。

【００８１】映像音声処理装置では、セグメントを構成
する映像（MPEG1／2，DVなど一般的に使われている方
式）における元来のYUV色空間を、色チャンネル当たり
２ビットでサンプリングして構成した、２^2・3＝６４次
元のヒストグラムベクトルを得る。

【００８２】このようなヒストグラムは、映像の全体的
な色調を表すが、これには時間情報が含まれていない。
そこで、映像音声処理装置では、もう１つの映像特徴量
として、映像相関を計算する。映像音声処理装置でのシ
ーン検出において、複数の類似セグメントが互いに交差
した構造は、それがまとまった１つのシーン構造である
ことの有力な指標となる。

【００８３】例えば会話場面において、カメラの位置
は、２人の話し手の間を交互に移動するが、カメラは通
常、同一の話し手を再度撮影するときには、ほぼ同じ位
置に戻る。このような場合における構造を検出するため
には、グレイスケールの縮小映像に基づく相関がセグメ
ントの類似性の良好な指標となることを見出したことか
ら、映像音声処理装置では、元の映像をＭ×Ｎの大きさ
のグレイスケール映像に間引き縮小し、これを用いて映
像相関を計算する。ここで、ＭとＮは、両方とも小さな
値で十分であり、例えば８×８である。つまり、これら
の縮小グレイスケール映像は、ＭＮ次元の特徴量ベクト
ルとして解釈される。

【００８４】さらに上述した映像特徴量とは異なる特徴
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、映像音声処理装置は、この音声特徴量と
して、周波数解析、ピッチ、レベル等を用いることがで
きる。これらの音声特徴量は、種々の文献により知られ
ているものである。

【００８５】まず、映像音声処理装置は、フーリエ変換
等の周波数解析を行うことによって、単一の音声フレー
ムにおける周波数情報の分布を決定することができる。
映像音声処理装置は、例えば、１つの音声セグメントに
わたる周波数情報の分布を表すために、FFT（Fast Four
ier Transform；高速フーリエ変換）成分、周波数ヒス
トグラム、パワースペクトル、ケプストラム(Cepstru
m)、その他の特徴量を用いることができる。

【００８６】また、映像音声処理装置は、平均ピッチや
最大ピッチなどのピッチや、平均ラウドネスや最大ラウ
ドネスなどの音声レベルもまた、音声セグメントを表す
有効な音声特徴量として用いることができる。

【００８７】さらに他の特徴量としては、映像音声共通
特徴量が挙げられる。これは、特に映像特徴量でもなく
音声特徴量でもないが、映像音声処理装置において、シ
ーン内のセグメントの特徴を表すのに有用な情報を与え
るものである。映像音声処理装置は、この映像音声共通
特徴量として、セグメント長とアクティビティとを用い
る。

【００８８】映像音声処理装置は、映像音声共通特徴量
として、セグメント長を用いることができる。このセグ
メント長は、セグメントにおける時間長である。一般
に、シーンは、そのシーンに固有のリズム特徴を有す
る。このリズム特徴は、シーン内のセグメント長の変化
として表れる。例えば、迅速に連なった短いセグメント
は、コマーシャルを表す。一方、会話シーンにおけるセ
グメントは、コマーシャルの場合よりも長く、また会話
シーンには、相互に組み合わされたセグメントが互いに
類似しているという特徴がある。映像音声処理装置は、
このような特徴を有するセグメント長を映像音声共通特
徴量として用いることができる。

【００８９】また、映像音声処理装置は、映像音声共通
特徴量として、アクティビティを用いることができる。
アクティビティとは、セグメントの内容がどの程度動的
あるいは静的であるように感じられるかを表す指標であ
る。例えば、視覚的に動的である場合、アクティビティ
は、カメラが対象物に沿って迅速に移動する度合い、ま
たは撮影されているオブジェクトが迅速に変化する度合
いを表す。

【００９０】このアクティビティは、カラーヒストグラ
ムのような特徴量のフレーム間非類似性の平均値を測定
することにより、間接的に計算される。ここで、フレー
ムｉとフレームｊとの間で測定された特徴量Ｆに対する
非類似性測定基準をｄＦ（ｉ，ｊ）と定義すると、映像
アクティビティＶＦは、次式（１）のように定義され
る。

【数１】

【００９１】式（１）において、ｂとｆはそれぞれ、１
セグメントにおける最初と最後のフレームのフレーム番
号である。映像音声処理装置は、具体的には、例えば上
述したヒストグラムを用いて、映像アクティビティＶＦ
を計算する。

【００９２】ところで、上述した映像特徴量を始めとす
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、その動的情報も考慮する必要
がある。そこで、映像音声処理装置は、以下に示すよう
な特徴量のサンプリング方法により動的情報を表す。

【００９３】映像音声処理装置は、例えば図５に示すよ
うに、１セグメント内の異なる時点から１以上の静的な
特徴量を抽出する。このとき、映像音声処理装置は、特
徴量の抽出数を、そのセグメント表現における忠実度の
最大化とデータ冗長度の最小化とのバランスをとること
により決定する。例えば、セグメント内のある１画像が
当該セグメントのキーフレームとして指定可能な場合に
は、そのキーフレームから計算されたヒストグラムが、
抽出すべきサンプリング特徴量となる。

【００９４】映像音声処理装置は、後述するサンプリン
グ方法を用いて、対象とするセグメントにおいて、特徴
として抽出可能なサンプルのうち、どのサンプルを選択
するかを決定する。

【００９５】ところで、あるサンプルが常に所定の時
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化してゆく
（フェードしてゆく）任意の２つのセグメントについて
は、サンプルが同一の黒フレームとなるため、同一の特
徴量が得られる結果になる恐れがある。すなわち、これ
らのセグメントの映像内容がいかなるものであれ、選択
した２つのフレームは、極めて類似していると判断され
てしまう。このような問題は、サンプルが良好な代表値
でないために発生するものである。

【００９６】そこで、映像音声処理装置は、このように
固定点で特徴量を抽出するのではなく、セグメント全体
における統計的な代表値を抽出することとする。ここで
は、一般的な特徴量のサンプリング方法を２つの場合、
すなわち、特徴量を実数のｎ次元ベクトルとして表すこ
とができる第１の場合と、非類似性測定基準しか利用で
きない第２の場合とについて説明する。なお、第１の場
合は、ヒストグラムやパワースペクトル等、最もよく知
られている映像特徴量および音声特徴量が含まれる。

【００９７】第１の場合においては、サンプル数ｋは予
め決められており、映像音声処理装置は、“L. Kaufman
and P.J. Rousseeuw, Finding Groups in Data:An Int
roduction to Cluster Analysis, John-Wiley and son
s, 1990”に記載されてよく知られているｋ平均値クラ
スタリング法(k-means-clustering method)を用いて、
セグメント全体についての特徴量をｋ個の異なるグルー
プに自動的に分割する。そして、映像音声処理装置は、
サンプル値として、ｋ個の各グループから、グループの
重心値（centroid）またはこの重心値に近いサンプルを
選択する。映像音声処理装置におけるこの処理の複雑度
は、サンプル数に関して単に直線的に増加するに留ま
る。

【００９８】一方、第２の場合においては、映像音声処
理装置は、“L. Kaufman and P.J.Rousseeuw, Finding
Groups in Data:An Introduction to Cluster Analysi
s, John-Wiley and sons, 1990”に記載されているｋ−
メドイドアルゴリズム法(k-medoids algorithm method)
を用いて、ｋ個のグループを形成する。そして、映像音
声処理装置は、サンプル値として、ｋ個の各グループ毎
に、上述したグループのメドイド(medoid)を用いる。

【００９９】なお、映像音声処理装置においては、抽出
された動的特徴を表す特徴量についての非類似性測定基
準を構成する方法は、その基礎となる静的な特徴量の非
類似性測定基準に基づくが、これについては後述する。

【０１００】このようにして、映像音声処理装置は、静
的な特徴量を複数抽出し、これら複数の静的な特徴量を
用いることで、動的特徴を表すことができる。

【０１０１】以上のように、映像音声処理装置は、種々
の特徴量を抽出することができる。これらの各特徴量
は、一般に、単一ではセグメントの特徴を表すのに不十
分であることが多い。そこで、映像音声処理装置は、こ
れらの各種特徴量を組み合わせることで、互いに補完し
合う特徴量の組を選択することができる。例えば、映像
音声処理装置は、上述したカラーヒストグラムと映像相
関とを組み合わせることによって、各特徴量が有する情
報よりも多くの情報を得ることができる。

【０１０２】次に、図５のステップＳ３における特徴量
を用いたセグメントの類似性測定について説明する。映
像音声処理装置は、２つの特徴量について、それがどの
程度非類似であるかを測定する実数値を計算する関数で
ある非類似性測定基準を用いて、特徴量類似性測定部１
７によりセグメントの類似性測定を行う。この非類似性
測定基準は、その値が小さい場合は２つの特徴量が類似
していることを示し、値が大きい場合は非類似であるこ
とを示す。ここでは、特徴量Ｆに関する２つのセグメン
トＳ₁，Ｓ₂の非類似性を計算する関数を非類似性測定基
準ｄＦ（Ｓ₁，Ｓ₂）と定義する。なお、この関数は、以
下の式（２）で与えられる関係を満足させる必要があ
る。

【数２】

【０１０３】ところで、非類似性測定基準の中には、あ
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、ｎ次元空間
における点として表される特徴量についての類似性を測
定することに適用可能である。

【０１０４】その具体例は、ユークリッド距離、内積、
Ｌ１距離等である。ここで、特にＬ１距離が、ヒストグ
ラムや映像相関などの特徴量を含む種々の特徴量に対し
て有効に作用することから、映像音声処理装置は、Ｌ１
距離を導入する。ここで、２つのｎ次元ベクトルをＡ，
Ｂとした場合、Ａ，Ｂ間のＬ１距離ｄＬ１（Ａ，Ｂ）は
次式（３）で与えられる。

【数３】ここでＡ，Ｂの添え字ｉは、ｎ次元ベクトルＡ，Ｂそれ
ぞれのｉ次元の要素を示すものである。

【０１０５】また、映像音声処理装置は、上述したよう
に、動的特徴を表す特徴量として、セグメントにおける
様々な時点での静的な特徴量を抽出する。そして、映像
音声処理装置は、抽出された二つの動的特徴量間の類似
性を決定するために、その非類似性測定基準として、そ
の基礎となる静的特徴量の間の非類似性測定基準を用い
る。これら動的特徴量の非類似性測定基準は、多くの場
合、各動的特徴量から選択された最も類似した静的特徴
量の対の非類似性値を用いて決定されるのが最良であ
る。この場合、２つの抽出された動的特徴量ＳＦ₁，Ｓ
Ｆ₂の間の非類似性測定基準は、次式（４）のように定
義される。

【数４】

【０１０６】ここで、上式（４）における関数ｄＦ（Ｆ
₁，Ｆ₂）は、その基礎となる静的特徴量Ｆについての非
類似性測定基準を示す。なお、場合によっては、特徴量
の非類似性の最小値をとる代わりに、最大値または平均
値をとってもよい。

【０１０７】ところで、映像音声処理装置は、セグメン
トの類似性を決定する上で、単一の特徴量だけでは不十
分であり、同一セグメントに関する多数の特徴量からの
情報を組み合わせることを必要とする場合も多い。この
１つの方法として、映像音声処理装置は、種々の特徴量
に基づく非類似性を、それぞれの特徴量の重み付き組み
合わせとして計算する。すなわち、映像音声処理装置
は、ｋ個の特徴量Ｆ₁，Ｆ₂，・・・，Ｆ_kが存在する場
合、次式（５）に示すような組み合わせた特徴量に関す
る非類似性測定基準ｄＦ（Ｓ₁，Ｓ₂）を用いる。

【数５】

【０１０８】ここで、｛ｗ_i｝は、Σｉｗ_i＝１となる重
み係数である。

【０１０９】以上のように、映像音声処理装置は、図５
のステップＳ２において抽出された特徴量を用いて非類
似性測定基準を計算し、当該セグメント間の類似性を測
定することができる。

【０１１０】次に図５のステップＳ４におけるシーンの
切り分けについて説明する。映像音声処理装置は、非類
似性測定基準と抽出した特徴量とを用いて、各セグメン
トに対する近隣の最も類似したセグメントの分布パター
ンの変化を検出し、シーンの切れ目か否かを判断して出
力する。

【０１１１】映像音声処理装置は、シーンを検出する際
に、次のような４つの処理を行う。

【０１１２】の処理では、各セグメントを基準とした
とき、一定の時間枠の中で最も類似したセグメントを一
定数検出する。

【０１１３】の処理では、の処理の後、基準セグメ
ントに対し過去と未来の時間帯に存在する類似セグメン
トの数の比率を計算し(実際には未来に存在している類
似セグメントの個数から過去に存在している類似セグメ
ントの個数を減算するなど)、その計算結果を境界性測
定値とする。

【０１１４】の処理では、の処理で得られた境界性
測定値を、各セグメントを基準としたときの時間変化を
調べ、過去比率が高いものがいくつか連続し、未来比率
の高いものがいくつか連続するパターンを示すセグメン
ト位置を検出する。

【０１１５】の処理では、の処理のとき、境界性測
定値の絶対値を合計し、この合計値をシーン強度値と呼
ぶことにする。このシーン強度値があらかじめ決められ
た閾値を超えた場合、シーンの境界とする。

【０１１６】これらの処理について、図６を参照して具
体的に説明する。の処理では、例えば図６（Ａ）のよ
うに、各セグメントに対して過去に任意のｋ個のセグメ
ント、未来にもｋ個のセグメントの時間枠を設定し(例
えばここでは５個)、類似セグメントをこの時間枠の中
でＮ個検出する(ここでは４個)。時間は各セグメントを
表す数字が大きくなるに連れて未来へと進んで行く。同
図の真中の濃い網掛けのセグメント７が、ある時間の基
準のセグメントであり、これに対して類似なセグメント
はそれよりも薄い網掛けになっているセグメント４，
６，９，１０である。ここでは４個の類似セグメントを
抽出しており、過去に２個、未来に２個存在する。

【０１１７】の処理では、このとき境界性測定値は、
(過去の個数)を(未来の個数)で除算するか、または(未
来の個数)から(過去の個数)を減算するかのいずれかの
方法で計算する。ここでは、後者の方法で境界性測定値
を計算する。ここで、各境界性測定値をＦ_iと表す。ｉ
は各セグメントの位置(番号)である。いま、後者の方法
で計算すると同図(Ａ)の境界性測定値Ｆ₆は０となる。

【０１１８】の処理では、の処理での計算を時間軸
に沿って行って行く。同図（Ｂ）は同図（Ａ）から３セ
グメント進んだときのセグメント１０に対して過去にセ
グメント５，８，９の３個、未来にセグメント１１の１
個類似セグメントが存在している。このときの境界性測
定値Ｆ₁₀＝１−３＝−２となる。

【０１１９】また、同図（Ｃ）はさらに１セグメント進
んでシーンの境界直前に到達した状態であり、セグメン
ト１１の類似セグメント６，７，９，１０はすべて過去
に集中している。このとき境界性測定値はＦ₁₁＝０−４
＝−４となる。

【０１２０】次に、同図（Ｄ）は同図（Ｃ）から１セグ
メント進んだ状態であり、境界を越えて新しいシーンに
入った直後であって、シーンの先頭がセグメント１２で
ある場合である。類似セグメントは１３，１４，１５、
１６である。このとき類似セグメントは未来にすべて存
在するパターンに変化している。Ｆ１２＝４−０＝４と
なる。

【０１２１】最後に、同図（Ｅ）は、さらに１セグメン
ト進んだ状態のセグメント１３の場合である。同様に、
Ｆ₁₃＝３−１＝２となる。この方法ではこのように過去
の方に類似セグメントの比率が大きいときは負符号（マ
イナス符号）であり、正符号（プラス符号）は未来に比
率が大きいことを示している。このときの境界性測定値
Ｆ_iの変化は、０ … （−２）→（−４）→（＋４）→（＋２）・・・（６）のようなパターンを示す。

【０１２２】（−４）→（＋４）と変化しているところ
がシーンの境界に対応している。これは図６（Ａ）のよ
うにシーンの中間にある場合は時間枠内にある類似的セ
グメントは各セグメントを挟んで過去、未来にほぼ均等
に存在する。しかし、シーンの境界に近づくにつれて同
図（Ｂ）のように過去に存在する比率が高くなって行
き、同図（Ｃ）で過去の存在比率が１００％になり、同
図（Ｄ）のように境界を超えた直後は未来に存在比率が
１００％に変わるパターンを持つことを表している。こ
のようなパターンを検出することによりほぼ過去１００
％の存在比率から未来への存在比率ほぼ１００％へ大き
く変動する変化点がシーンの切れ目と対応付けられる。

【０１２３】また、シーンの非境界領域の中であっても
過去比率が高いパターンから未来比率の高い比率へ一時
的に変化(１セグメント間のみ)する場合がある。しか
し、それはシーンの境界ではないことが多い。なぜなら
ば、このような一時的な変化の多くは偶発的に発生する
からである。非境界領域のような類似セグメントが過去
に存在比率の大きい境界性測定値が複数続いたあとに、
未来に存在比率の大きい境界性測定値が複数続くパター
ンが検出されたときにシーンの境界の可能性が高いと判
断する。そうでないときはシーンの境界ではない可能性
が高いため、シーンの境界と見なさない。

【０１２４】の処理では、の処理の後、境界性測定
値を合計し、シーン境界点の「強さ」を計算する。その
強さを測定するために、境界性測定値の絶対値を足すこ
ととする。その値の変化の度合いがシーンの視覚的変化
の度合いに対応しており、また、シーンの視覚的変化の
度合いはシーンの意味的な変化の度合いに対応してい
る。したがってこの値の大小によりシーンの意味的度合
いの大小に対応したシーンを検出することが可能とな
る。

【０１２５】ここではこの絶対値の合計をシーン強度値
Ｖｉと定義する。その定義ではｉはセグメントの番号を
表す。例えば４つの境界性測定値（各セグメントにおい
て過去の２つのセグメントと未来の１つのセグメント
と、そのセグメントの境界性測定値の計４つのセグメン
トＦ_i-2，Ｆ_i-1，Ｆ_i，Ｆ_i+1）の絶対値の合計を使って
いる。

【０１２６】シーンの境界での境界性測定値の変化のパ
ターンは理論的には、先に示したようにＦ_i-1→Ｆ_iの値
−４→＋４のように１００％過去に類似セグメントが存
在した場合から１００％未来に存在する変化が起こると
考えられる。

【０１２７】このようにシーンの境界では、１セグメン
ト間で大きな変化が起こる。そして式（６）のパターン
のように、４セグメント以上に渡って境界性測定値の絶
対値が大きいままパターンの変化が起こる可能性は、シ
ーンの境界付近でないと高くない。このパターンの変化
の特性から、シーン強度値Ｖ_iがある大きさ以上のもの
だけを実際のシーンの境界と判断することにより、希望
とするシーン検出を行うことができる。

【０１２８】図７は、実際の音楽番組を録音した３０分
程度のビデオデータを使用した結果をグラフ化したもの
である。縦軸にシーン強度値、横軸に各セグメントを表
している。色の濃い棒のところのセグメントが実際のシ
ーンの境界(ここではシーンの先頭セグメント)である。
この結果の場合、シーン強度値が１２以上をシーンの境
界とすると６／７の確率で実際のシーンと一致する。

【０１２９】図７のグラフが生成される過程について図
８を参照して説明する。ここで説明することは映像音声
処理装置で示したシーン検出部１６で行われることであ
り、この処理はセグメントが生成される毎に以下の処理
を行う。

【０１３０】ステップＳ１１では各セグメントに対し、
そのセグメントを中心に±ｋ個のセグメント範囲の中
で、特徴量類似性測定部１７を用いて最近傍の類似セグ
メントをＮ個検出し、それらが過去に存在する個数と未
来に存在する個数を求める。

【０１３１】ステップＳ１２では、各セグメントの境界
性測定値Ｆ_iとして、ステップＳ１１の処理で求められ
たＮ個の類似セグメントのうち、未来に存在する類似セ
グメントの個数から、過去に存在する類似セグメント個
数を減じた数を算出して保存する。

【０１３２】ステップＳ１３では、２ｎ個のセグメント
の境界性測定値Ｆ_i-n，・・・，Ｆ_i，Ｆ_i+nのパターン
の変化からシーンの境界の可能性の高い場所を特定す
る。ｎは、ｉセグメントから過去の比率と未来の比率の
パターン変化を見るために必要な境界測定値の数であ
る。

【０１３３】ここで、シーンの境界を示唆する変化パタ
ーンについての３つの条件を次のように定義する。境界性測定値Ｆ_i-n乃至Ｆ_i+nが一様に０ではないこと境界性測定値Ｆ_i-n乃至Ｆ_i-1が０以下であること境界性測定値Ｆ_i乃至Ｆ_i+nが０以上であること

【０１３４】そして、上述した乃至の３条件を全て
満足するか否かを判定する。３条件を全て満足すると判
定された場合、シーンの境界の可能性が高いと判断し、
次のステップＳ１４に移行する。そうでない場合は処理
がステップ１６に進む。

【０１３５】ステップＳ１４では、さらにステップＳ１
３での境界性測定値を次式に適用して境界性測定値Ｆ
_i-n，・・・，Ｆ_i，Ｆ_i+nからシーン強度Ｖ_iを計算す
る。Ｖ_i＝|Ｆ_i-n| + … + |Ｆ_i-1| + |Ｆ_i| + … + |Ｆ
_i+n|

【０１３６】そして、強度値に対する閾値を越える条件
が設けられた場合、その条件を満たすシーン強度値が現
れたときには、求めるシーンの視覚的変化の強度である
と判断し、処理しているビデオデータのシーンの境界の
１つであるとして、その位置を出力する。強度値に関す
る条件が必要とされない場合、各セグメントについての
強度値を付加情報データとしてビデオデータ記録部１８
に出力して記録する。

【０１３７】以上の処理を繰り返して行くことによりシ
ーンの境界を検出する。シーンはこの境界から境界に含
まれるセグメント群がシーンを形成されることとなる。

【０１３８】以上説明したように、本発明を適用した映
像音声処理装置は、シーン構造を抽出するためのもので
ある。上述した映像音声処理装置の一連の処理が、テレ
ビドラマや映画など、様々な内容のビデオデータに対し
て、そのシーン構造を抽出可能であることは、既に実験
にて検証済みである。

【０１３９】なお、検出されるシーンの境界の数は、シ
ーン強度値を任意に変更することによって調整すること
が可能である。そのため、このシーン強度値を調整する
ことにより、いろいろなコンテンツにより良く適応した
シーンの境界検出を行うことが可能である。

【０１４０】さらに、一定時間のビデオデータの各シー
ンを一覧表示する場合、検出するシーンの数を制限する
ことによって一覧表示を見易くことが考えられる。その
場合、どのシーンを一覧表示に含めればビデオデータを
把握し易いかという問題が生じる。そのためには、得ら
れた各シーンの重要性の順番に従って一覧表示に用いる
シーンを決定すればよい。本発明では、得られたシーン
の重要性の尺度であるシーン強度値を提供することがで
き、さらにその尺度を変更する(シーン強度閾値を変更
する)ことにより、シーンの個数を変更することが可能
であり、ユーザの興味に応じて利便性の良い視聴表現を
行うことができる。

【０１４１】しかも、シーンの個数を変更するにあた
り、再度シーン検出処理を行うことを必要とせず、シー
ン強度閾値を変更することのみで保存された強度値時系
列を簡単に処理することが可能である。

【０１４２】以上のように、本発明は、従来技術におけ
る上述した全ての問題点を解決したものである。

【０１４３】まず、映像音声処理装置は、ユーザが事前
にビデオデータの意味的な構造を知る必要はない。

【０１４４】さらに、映像音声処理装置は、各セグメン
トに対し行われている処理は次の項目を含む。特徴量抽出すること一定個数の時間領域内にセグメント対の間の非類似性
を測定すること非類似性測定結果を用い、一定個数の最も類似したセ
グメントを抽出すること類似したセグメントの存在比率より境界性測定値を計
算すること境界性測定値を用い、シーン境界点の強度値を求める
こと

【０１４５】いずれの処理も計算上の負荷が少ない。そ
のため、セットトップボックスやディジタルビデオレコ
ーダ、ホームサーバ等の家庭用電子機器にも適用するこ
とができる。

【０１４６】また、映像音声処理装置は、シーンを検出
した結果、ビデオブラウジングのための新たな高レベル
アクセスの基礎を与えることができる。そのため、映像
音声処理装置は、セグメントではなくシーンといった高
レベルのビデオ構造を用いてビデオデータの内容を視覚
化することにより、内容に基づいたビデオデータへの容
易なアクセスを可能とする。例えば、映像音声処理装置
は、シーンを表示することにより、ユーザは、番組の要
旨をすばやく知ることができ、興味のある部分を迅速に
見つけることができる。

【０１４７】さらに、映像音声処理装置は、シーン検出
の結果、ビデオデータの概要または要約を自動的に作成
するための基盤が得られる。一般に、一貫した要約を作
成するには、ビデオデータからのランダムな断片を組み
合わせるのではなく、ビデオデータを、再構成可能な意
味を持つ成分に分解することを必要とする。映像音声処
理装置により検出されたシーンは、そのような要約を作
成するための基礎となる。

【０１４８】なお、本発明は、上述した実施の形態に限
定されるものではなく、例えば、セグメント間の類似性
測定のために用いる特徴量等は、上述したもの以外でも
よいことは勿論であり、その他、本発明の趣旨を逸脱し
ない範囲で適宜変更が可能であることはいうまでもな
い。

【０１４９】またさらに、本発明はシーン強度値を任意
に変更することにより、コンテンツ構造上、重要な変化
点であるシーンが得られる。なぜなら、強度値がコンテ
ンツ内容の変化の度合いに対応できるからである。すな
わち、ビデオを閲覧する際に、シーン強度値閾値を調整
することにより、検出シーンの個数を制御できる。しか
も、目的に応じて、コンテンツを表示する個数を増やし
たり減らしたりすることが可能となる。

【０１５０】つまり、コンテンツのいわゆる閲覧粒度(g
ranularity)が目的に応じて自由に制御することができ
る。例えば、ある一時間ビデオを見るときに、最初に強度
値を高く設定し、コンテンツに対して重要であるシーン
からなる短い要約を示す。次に、若し興味が増し、詳しく
見てみたいと思ったなら、強度値を下げることにより、よ
り細かいシーンによって構成されている要約を表示する
ことができる。しかも本発明の方法を利用すれば、従来
技術と異なって、強度値を調整する度に検出を再び行う
必要がなく、保存された強度値時系列を簡単に処理を行
うことだけ十分である。

【０１５１】セットトップボックスやディジタルビデオ
レコーダなどの家庭機器に実装するにあたり、以下のよ
うな効果がある。

【０１５２】１つ目の効果は、調べるセグメントを一定
数に固定できることである。本発明のシーン検出は各セ
グメントに対する類似セグメントの局所的な変化を調べ
ることで実現できるので、そのため処理に必要なメモリ
量を固定化することが可能になり、メモリ量の少ないセ
ットトップボックスやディジタルレコーダなどの家庭機
器でも実装可能となる。

【０１５３】２つ目の効果は、各セグメントの処理にか
かる時間が一定とすることができることである。これ
は、これは決められた時間内に決められた処理を必ず終
わらせなければならないセットトップボックスやディジ
タルビデオレコーダなどの家庭機器などに適している。

【０１５４】３つ目の効果は、１つの処理が終わる毎に
新たなセグメントの処理を行う逐次処理が可能であるこ
とである。このことは、セットトップボックスやディジ
タルビデオレコーダなどの家庭機器において、ビデオ信
号などの記録を終了する場合、その終了時刻とほぼ同時
に処理を終了することが可能である。また何らかの理由
で記録状態が停止した場合でも、それまでの記録を残し
ておくことが可能である。

【０１５５】ところで、上述した一連の処理は、ハード
ウェアにより実行させることもできるが、ソフトウェア
により実行させることもできる。一連の処理をソフトウ
ェアにより実行させる場合には、そのソフトウェアを構
成するプログラムが、専用のハードウェアに組み込まれ
ているコンピュータ、または、各種のプログラムをイン
ストールすることで、各種の機能を実行することが可能
な、例えば汎用のパーソナルコンピュータなどに、記録
媒体からインストールされる。

【０１５６】この記録媒体は、図３に示すように、コン
ピュータとは別に、ユーザにプログラムを提供するため
に配布される、プログラムが記録されている磁気ディス
ク２２（フロッピディスクを含む）、光ディスク２３
（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digit
al Versatile Disc)を含む）、光磁気ディスク２４（Ｍ
Ｄ(Mini Disc)を含む）、もしくは半導体メモリ２５な
どよりなるパッケージメディアにより構成されるだけで
なく、コンピュータに予め組み込まれた状態でユーザに
提供される、プログラムが記録されているROMやハード
ディスクなどで構成される。

【０１５７】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に従って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。

【０１５８】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。

【０１５９】

【発明の効果】以上のように、本発明のＡＶ信号処理装
置および方法、並びにプログラムによれば、基準となる
セグメントと他のセグメントとの特徴量の類似性を測定
するための測定基準を算出し、測定基準を用いて、基準
となるセグメントと他のセグメントとの類似性を測定
し、測定し類似性を用いて、基準となるセグメントがシ
ーンの境界である可能性を示す測定値を計算するように
したので、シーンの境界を検出することが可能となる。

【図面の簡単な説明】

【図１】ビデオデータの階層モデルを示す図である。

【図２】シーンの境界領域と非境界領域を説明するため
の図である。

【図３】本発明の一実施の形態である映像音声処理装置
の構成例を示すブロック図である。

【図４】シーンの境界領域を説明するための図である。

【図５】映像音声処理装置の動作を説明するフローチャ
ートである。

【図６】類似セグメントの分布パターンの例を示す図で
ある。

【図７】シーン検出結果を示す図である。

【図８】シーン検出部１６の処理を説明するフローチャ
ートである。

【符号の説明】

１１ビデオ分割部，１２ビデオセグメントメモ
リ，１３映像特徴量抽出部，１４音声特徴量抽
出部，１５セグメント特徴量メモリ，１６シーン
検出部，１７特徴量類似性測定部，１８ビデオ
データ記録部，１９ビデオ表示部，２０制御部，
２１ドライバ，２２磁気ディスク，２３光
ディスク，２４光磁気ディスク，２５半導体メ
モリ

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C053 FA14 GB09 HA29 LA06 LA11 5D015 FF06 5L096 AA02 CA04 FA23 FA37 HA01 JA03 JA11

Claims

【特許請求の範囲】

【請求項１】供給されたＡＶ信号の内容の意味構造を
反映するパターンを検出して解析し、意味のある区切り
であるシーンを検出するＡＶ信号処理装置において、前記ＡＶ信号を構成する一連のフレームによって形成さ
れるセグメントの特徴量を抽出する特徴量抽出手段と、基準となるセグメントと他のセグメントとの前記特徴量
の類似性を測定するための測定基準を算出する算出手段
と、前記測定基準を用いて、前記基準となるセグメントと前
記他のセグメントとの前記類似性を測定する類似性測定
手段と、類似性測定手段が測定した前記類似性を用いて、前記基
準となるセグメントが前記シーンの境界である可能性を
示す測定値を計算する測定値計算手段と、前記測定値計算手段が計算した前記測定値の時間的パタ
ーンの変化を解析し、解析結果に基づいて前記基準とな
るセグメントが前記シーンの境界であるか否かを判定す
る境界判定手段とを含むことを特徴とするＡＶ信号処理
装置。
【請求項２】前記ＡＶ信号は、映像信号および音声信
号のうちの少なくとも一方を含むことを特徴とする請求
項１に記載のＡＶ信号処理装置。
【請求項３】前記基準となるセグメントに対応する前
記測定値の変化の程度を示す強度値を計算する強度値計
算手段をさらに含むことを特徴とするＡＶ信号処理装
置。
【請求項４】前記測定値計算手段は、前記基準となる
セグメントに対して、所定の時間領域内における類似セ
グメントを求め、前記類似セグメントの時間分布を解析
し、過去と未来に存在する比率を数値化して前記測定値
を計算することを特徴とする請求１に記載のＡＶ信号処
理装置。
【請求項５】前記境界判定手段は、前記測定値の絶対
値の総和にも基づき、前記基準となるセグメントが前記
シーンの境界であるか否かを判定することを特徴とする
請求項１に記載のＡＶ信号処理装置。
【請求項６】前記ＡＶ信号に映像信号が含まれる場
合、映像セグメントの基本単位となるショットを検出し
て、前記音声セグメントを生成する音声セグメント生成
手段をさらに含むことを特徴とする請求項２に記載のＡ
Ｖ信号処理装置。
【請求項７】前記ＡＶ信号に音声信号が含まれる場
合、前記音声信号の前記特徴量および無音区間のうちの
少なくとも一方を用いて、音声セグメントを生成する音
声セグメント生成手段をさらに含むことを特徴とする請
求項２に記載のＡＶ信号処理装置。
【請求項８】前記映像信号の前記特徴量には、少なく
ともカラーヒストグラムが含まれることを特徴とする請
求項２に記載のＡＶ信号処理装置。
【請求項９】前記音声信号の前記特徴量には、音量お
よびスペクトラムのうちの少なくとも一方が含まれるこ
とを特徴とする請求項２に記載のＡＶ信号処理装置。
【請求項１０】前記境界判定手段は、予め設定され閾
値と前記測定値を比較することにより、前記基準となる
セグメントが前記シーンの境界であるか否かを判定する
ことを特徴とする請求項１に記載のＡＶ信号処理装置。
【請求項１１】供給されたＡＶ信号の内容の意味構造
を反映するパターンを検出して解析し、意味のある区切
りであるシーンを検出するＡＶ信号処理装置のＡＶ信号
処理方法において、前記ＡＶ信号を構成する一連のフレームによって形成さ
れるセグメントの特徴量を抽出する特徴量抽出ステップ
と、基準となるセグメントと他のセグメントとの前記特徴量
の類似性を測定するための測定基準を算出する算出ステ
ップと、前記測定基準を用いて、前記基準となるセグメントと前
記他のセグメントとの前記類似性を測定する類似性測定
ステップと、類似性測定ステップの処理で測定された前記類似性を用
いて、前記基準となるセグメントが前記シーンの境界で
ある可能性を示す測定値を計算する測定値計算ステップ
と、前記測定値計算ステップの処理で計算された前記測定値
の時間的パターンの変化を解析し、解析結果に基づいて
前記基準となるセグメントが前記シーンの境界であるか
否かを判定する境界判定ステップとを含むことを特徴と
するＡＶ信号処理方法。
【請求項１２】供給されたＡＶ信号の内容の意味構造
を反映するパターンを検出して解析し、意味のある区切
りであるシーンを検出するコンピュータに、前記ＡＶ信号を構成する一連のフレームによって形成さ
れるセグメントの特徴量を抽出する特徴量抽出ステップ
と、基準となるセグメントと他のセグメントとの前記特徴量
の類似性を測定するための測定基準を算出する算出ステ
ップと、前記測定基準を用いて、前記基準となるセグメントと前
記他のセグメントとの前記類似性を測定する類似性測定
ステップと、類似性測定ステップの処理で測定された前記類似性を用
いて、前記基準となるセグメントが前記シーンの境界で
ある可能性を示す測定値を計算する測定値計算ステップ
と、前記測定値計算ステップの処理で計算された前記測定値
の時間的パターンの変化を解析し、解析結果に基づいて
前記基準となるセグメントが前記シーンの境界であるか
否かを判定する境界判定ステップとを実行させるプログ
ラム。
【請求項１３】供給されたＡＶ信号の内容の意味構造
を反映するパターンを検出して解析し、意味のある区切
りであるシーンを検出するＡＶ信号処理用のプログラム
であって、前記ＡＶ信号を構成する一連のフレームによって形成さ
れるセグメントの特徴量を抽出する特徴量抽出ステップ
と、基準となるセグメントと他のセグメントとの前記特徴量
の類似性を測定するための測定基準を算出する算出ステ
ップと、前記測定基準を用いて、前記基準となるセグメントと前
記他のセグメントとの前記類似性を測定する類似性測定
ステップと、類似性測定ステップの処理で測定された前記類似性を用
いて、前記基準となるセグメントが前記シーンの境界で
ある可能性を示す測定値を計算する測定値計算ステップ
と、前記測定値計算ステップの処理で計算された前記測定値
の時間的パターンの変化を解析し、解析結果に基づいて
前記基準となるセグメントが前記シーンの境界であるか
否かを判定する境界判定ステップとを含むことを特徴と
するコンピュータが読み取り可能なプログラムが記録さ
れている記録媒体。