JP2002140712A - Av信号処理装置および方法、プログラム、並びに記録媒体 - Google Patents

Av信号処理装置および方法、プログラム、並びに記録媒体

Info

Publication number
JP2002140712A
JP2002140712A JP2001170611A JP2001170611A JP2002140712A JP 2002140712 A JP2002140712 A JP 2002140712A JP 2001170611 A JP2001170611 A JP 2001170611A JP 2001170611 A JP2001170611 A JP 2001170611A JP 2002140712 A JP2002140712 A JP 2002140712A
Authority
JP
Japan
Prior art keywords
segment
video
scene
boundary
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001170611A
Other languages
English (en)
Other versions
JP4683253B2 (ja
Inventor
Hiromasa Shibata
浩正 柴田
Walker Toby
ウォーカー トビー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001170611A priority Critical patent/JP4683253B2/ja
Priority to US09/905,049 priority patent/US7027508B2/en
Publication of JP2002140712A publication Critical patent/JP2002140712A/ja
Priority to US11/326,203 priority patent/US20060114992A1/en
Application granted granted Critical
Publication of JP4683253B2 publication Critical patent/JP4683253B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

(57)【要約】 【課題】 シーンの境界を検出する。 【解決手段】 ステップS1において、入力されたビデ
オデータを映像セグメントまたは音声セグメントのいず
れか、あるいは可能であればその両方に分割する。ステ
ップS2において、セグメントの特徴を表す特徴量を計
算する。ステップS3において、特徴量を用いたセグメ
ントの類似性測定を行う。ステップS4において、セグ
メントがシーンの切れ目にあたるか否かを判断する。す
なわち、映像音声処理装置は、先のステップS3におい
て計算した非類似性測定基準と、先のステップS2にお
いて抽出した特徴量とを用いて、各セグメントを現在と
見なし、近接の類似したセグメントが、その基準とする
セグメントに対し過去か未来かどちらに存在比率が高い
かを求め、その存在比の率変化のパターンを調べ、シー
ンの境界であるか否かの判断をする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、AV信号処理装置
および方法、プログラム、並びに記録媒体に関し、特
に、一連の映像信号の中から所望する部分を選択して再
生させる場合に用いて好適なAV信号処理装置および方
法、プログラム、並びに記録媒体に関する。
【0002】
【従来の技術】例えば、ビデオデータに録画されたテレ
ビ番組のような大量の異なる映像データにより構成され
る映像アプリケーションの中から、興味のある部分等の
所望の部分を探して再生したい場合がある。
【0003】このように、所望の映像内容を抽出するた
めの一般的な技術としては、アプリケーションの主要場
面を描いた一連の映像を並べて作成されたパネルである
ストーリボードがある。このストーリボードは、ビデオ
データをいわゆるショットに分解し、各ショットにおい
て代表される映像を表示したものである。このような映
像抽出技術は、そのほとんどが、例えば“G. Ahanger a
nd T.D.C. Little, Asurvey of technologies for pars
ing and indexing digital video, J. of Visual Commu
nication and Image Representation 7:28-4, 1996”に
記載されているように、ビデオデータからショットを自
動的に検出して抽出するものである。
【0004】
【発明が解決しようとする課題】ところで、例えば代表
的な30分のテレビ番組中には、数百ものショットが含
まれている。そのため、上述した従来の映像抽出技術に
おいて、ユーザは、抽出された膨大な数のショットを並
べたストーリボードを調べる必要があり、このようなス
トーリボードを理解するにはユーザに大きな負担を強い
る必要があった。
【0005】また、従来の映像抽出技術においては、例
えば、話し手の変化に応じて交互に2者を撮影した会話
場面におけるショットは、冗長のものが多いという問題
があった。このように、ショットは、ビデオ構造を抽出
する対象としては階層が低すぎて無駄な情報量が多く、
このようなショットを抽出する従来の映像抽出技術は、
ユーザにとって利便性のよいものではなかった。
【0006】また、他の映像抽出技術としては、例えば
“A. Merlino, D. Morey and M. Maybury, Broadcast n
ews navigation using story segmentation, Proc. of
ACMMultimedia 97, 1997”や特開平10−136297
号公報に記載されているように、ニュースやフットボー
ルゲームといった特定の内容ジャンルに関する非常に専
門的な知識を用いるものがある。しかしながら、この従
来の映像抽出技術は、目的のジャンルに関しては良好な
結果を得ることができるが、他のジャンルには全く役に
立たず、更にジャンルに限定される結果、容易に一般化
することができないという問題があった。
【0007】さらに、他の映像抽出技術としては、例え
ば米国特許5708767号公報に記載されているよう
に、いわゆるストーリユニットを抽出するものがある。
しかしながら、この従来の映像抽出技術は、完全に自動
化されたものではなく、どのショットが同じ内容を示す
ものであるかを決定するために、ユーザの操作が必要で
あった。また、この従来の映像抽出技術は、処理に要す
る計算が複雑であるとともに、適用対象として映像情報
のみに限定されるといった問題もあった。
【0008】さらにまた、他の映像抽出技術としては、
例えば特開平9−214879号公報に記載されている
ように、ショット検出と無音部分検出とを組み合わせる
ことによりシーンを識別するものがある。しかしなが
ら、この従来の映像抽出技術は、無音部分がショット境
界に対応した場合のみに限定されたものであった。
【0009】また、他の映像抽出技術としては、例えば
“H. Aoki, S. Shimotsuji and O.Hori, A shot classi
fication method to select effective key-frames for
video browsing, IPSJ Human Interface SIG Notes,
7:43-50, 1996”や特開平9−93588号公報に記載
されているように、ストーリボードにおける表示の冗長
度を低減する為に、反復された類似ショットを検出する
ものがある。しかしながら、この従来の映像抽出技術
は、映像情報のみに適用できるものであり、音声情報に
適用できるものではなかった。
【0010】さらに、これら従来技術ではセットトップ
ボックスやディジタルビデオレコーダなどの家庭機器に
実装するにあたり、複数の問題が生じている。それは、
主に従来技術では後処理を行うことが前提とされていた
ためである。具体的には、次の3つの問題が挙げられ
る。
【0011】1つ目の問題は、セグメント数は、コンテ
ンツの長さに依存し、一定であってもその中に含まれる
ショットの数が一定でない。そのためシーン検出に必要
なメモリ量の固定ができないので必要とするメモリ量を
過剰に設定しなければならなかった。これはメモリ量の
少ない家庭機器では大きな問題であった。
【0012】2つ目の問題は、家庭機器では、決められ
た時間内に決められた処理を必ず終わらせなければなら
ない実時間処理が必要とされる。しかし、セグメント数
が固定できなく、また、後処理処理を行わなければなら
ないため、常に決められた時間内に処理を終わらせるの
は困難であった。このことは家庭用機器に実装されてい
る高性能でないCPUを使用しなければならない場合、さ
らに実時間処理を行うことが困難であることを意味す
る。
【0013】3つ目の問題は、今まで述べてきたように
後処理処理が必要であるため、セグメントが生成される
毎にシーン検出の処理結果が終わらせることができな
い。これは録画途中で何らかの理由で録画状態が止まっ
た場合、それまでの途中結果を得られないことを意味す
る。これは録画しながら逐次処理ができないことを意味
し、家庭用機器では大きな問題になる。
【0014】また、従来技術では、シーンを決定する場
合、セグメントの繰り返しのパターンやそれ以外のセグ
メントのグループ化などによる方法を用いていたためシ
ーンの検出結果は一意的になっていた。故に検出された
境界が実際のシーンの境界である可能性が高いか低いか
を判断することは不可能であり、段階的にシーンの検出
数を制御することができなかった。
【0015】さらに、ビデオを一覧するに当たって、見
易くするため得られたシーンの数をできる限り少なくす
ることが必要となる。そのゆえに、検出したシーンの数
が限定された場合に、どのシーンを見せるとよいかとい
う問題が生じる。そのため、得られたシーンの各々の重
要性が解れば、その重要性の順番に従い、シーンを見せ
ると一覧するためによい。ただし、従来技術では得られ
たシーンがどの程度重要であるかを計る尺度を提供して
いない。
【0016】本発明はこのような状況に鑑みてなされた
ものであり、録画したビデオデータを任意のシーンから
再生できるように、シーンの境界を検出することを目的
とする。
【0017】
【課題を解決するための手段】本発明のAV信号処理装
置は、AV信号を構成する一連のフレームによって形成
されるセグメントの特徴量を抽出する特徴量抽出手段
と、基準となるセグメントと他のセグメントとの特徴量
の類似性を測定するための測定基準を算出する算出手段
と、測定基準を用いて、基準となるセグメントと他のセ
グメントとの類似性を測定する類似性測定手段と、類似
性測定手段が測定した類似性を用いて、基準となるセグ
メントがシーンの境界である可能性を示す測定値を計算
する測定値計算手段と、測定値計算手段が計算した測定
値の時間的パターンの変化を解析し、解析結果に基づい
て基準となるセグメントがシーンの境界であるか否かを
判定する境界判定手段とを含むことを特徴とする。
【0018】AV信号には、映像信号および音声信号の
うちの少なくとも一方を含むようにすることができる。
【0019】本発明のAV信号処理装置は、基準となる
セグメントに対応する測定値の変化の程度を示す強度値
を計算する強度値計算手段をさらに含むことができる。
【0020】前記測定値計算手段には、基準となるセグ
メントに対して、所定の時間領域内における類似セグメ
ントを求め、類似セグメントの時間分布を解析し、過去
と未来に存在する比率を数値化して測定値を計算させる
ようにすることができる。
【0021】前記境界判定手段には、測定値の絶対値の
総和にも基づき、基準となるセグメントがシーンの境界
であるか否かを判定させるようにすることができる。
【0022】本発明のAV信号処理装置は、AV信号に
映像信号が含まれる場合、映像セグメントの基本単位と
なるショットを検出して、音声セグメントを生成する音
声セグメント生成手段をさらに含むことができる。
【0023】本発明のAV信号処理装置は、AV信号に
音声信号が含まれる場合、音声信号の特徴量および無音
区間のうちの少なくとも一方を用いて、音声セグメント
を生成する音声セグメント生成手段をさらに含むことが
できる。
【0024】映像信号の特徴量には、少なくともカラー
ヒストグラムが含まれるようにすることができる。
【0025】音声信号の特徴量には、音量およびスペク
トラムのうちの少なくとも一方が含まれるようにするこ
とができる。
【0026】前記境界判定手段には、予め設定され閾値
と測定値を比較することにより、基準となるセグメント
がシーンの境界であるか否かを判定させるようにするこ
とができる。
【0027】本発明のAV信号処理方法は、AV信号を
構成する一連のフレームによって形成されるセグメント
の特徴量を抽出する特徴量抽出ステップと、基準となる
セグメントと他のセグメントとの特徴量の類似性を測定
するための測定基準を算出する算出ステップと、測定基
準を用いて、基準となるセグメントと他のセグメントと
の類似性を測定する類似性測定ステップと、類似性測定
ステップの処理で測定された類似性を用いて、基準とな
るセグメントがシーンの境界である可能性を示す測定値
を計算する測定値計算ステップと、測定値計算ステップ
の処理で計算された測定値の時間的パターンの変化を解
析し、解析結果に基づいて基準となるセグメントがシー
ンの境界であるか否かを判定する境界判定ステップとを
含むことを特徴とする。
【0028】本発明のプログラムは、AV信号を構成す
る一連のフレームによって形成されるセグメントの特徴
量を抽出する特徴量抽出ステップと、基準となるセグメ
ントと他のセグメントとの特徴量の類似性を測定するた
めの測定基準を算出する算出ステップと、測定基準を用
いて、基準となるセグメントと他のセグメントとの類似
性を測定する類似性測定ステップと、類似性測定ステッ
プの処理で測定された類似性を用いて、基準となるセグ
メントがシーンの境界である可能性を示す測定値を計算
する測定値計算ステップと、測定値計算ステップの処理
で計算された測定値の時間的パターンの変化を解析し、
解析結果に基づいて基準となるセグメントがシーンの境
界であるか否かを判定する境界判定ステップとをコンピ
ュータに実行させることを特徴とする。
【0029】本発明の記録媒体のプログラムは、AV信
号を構成する一連のフレームによって形成されるセグメ
ントの特徴量を抽出する特徴量抽出ステップと、基準と
なるセグメントと他のセグメントとの特徴量の類似性を
測定するための測定基準を算出する算出ステップと、測
定基準を用いて、基準となるセグメントと他のセグメン
トとの類似性を測定する類似性測定ステップと、類似性
測定ステップの処理で測定された類似性を用いて、基準
となるセグメントがシーンの境界である可能性を示す測
定値を計算する測定値計算ステップと、測定値計算ステ
ップの処理で計算された測定値の時間的パターンの変化
を解析し、解析結果に基づいて基準となるセグメントが
シーンの境界であるか否かを判定する境界判定ステップ
とを含むことを特徴とする。
【0030】本発明のAV信号処理装置および方法、並
びにプログラムにおいては、AV信号を構成する一連の
フレームによって形成されるセグメントの特徴量が抽出
され、基準となるセグメントと他のセグメントとの特徴
量の類似性を測定するための測定基準が算出され、測定
基準を用いて、基準となるセグメントと他のセグメント
との類似性が測定され、測定された類似性を用いて、基
準となるセグメントがシーンの境界である可能性を示す
測定値が計算される。また、計算された測定値の時間的
パターンの変化が解析され、解析結果に基づいて基準と
なるセグメントがシーンの境界であるか否かが判定され
る。
【0031】
【発明の実施の形態】本発明は、ビデオデータをシーン
に切り分けることが目的である。この切り分けるという
意味はシーンとシーンの境界を検出するということであ
る。シーンは、1以上のセグメントによって構成され
る。各シーンは、それぞれに固有な特徴を持っているた
め、隣接するシーンの各境界のセグメントを比較した場
合、それらの特徴には顕著な違いが現れる。換言すれ
ば、そのような顕著な違いが現れるところがシーンの境
界であり、それを検出することによりセグメント単位
で、シーンを切り分けることが可能になる。
【0032】この処理を行うに当たり、上述した従来技
術と同ように、最初に対象となるビデオデータをセグメ
ント単位に分割する。分割して得たセグメントは時系列
を成し、各セグメントについて、次のセグメントとの間
にシーン境界があるか否かを判断することが必要とな
る。各セグメントを基準とし、その近隣のセグメントの
中に似ているセグメントが時間的に何処にあるのかを調
べる。
【0033】シーン境界があると判断された場合、過去
に集中して存在していたパターンから、未来に集中して
存在するパターンへと短い時間で特異な変化が現れる変
化点が検出される。その変化点から次の変化点までが一
つのシーンである。このようなパターンの変化が起こる
ところを見つけるため、シーンの境界の前後で局所的な
変化を見るだけで十分な情報が得られる。
【0034】さらにこの局所的変化の大きさの大小を測
定することによりシーンの切り分けを段階的に制御する
ことも可能である。これは視覚的な変化点がシーンの意
味的な変化点と良く一致することが経験的に判明したこ
とからである。本発明は以上のことを基本にしてシーン
の境界を検出し、ビデオデータなどのシーンを切り分け
るためのものである。またこのシーン境界情報をもとに
ビデオデータを見やすく表示することを可能とする。
【0035】次に、本発明の概要を具体的に説明する。
まず、シーンとシーンの境界が存在する場合と存在しな
い場合に分けて、それぞれの特徴について説明する。あ
るビデオデータの具体例を図2に示す。同図では、ビデ
オデータの単位はセグメント単位で示されており、3つ
のシーン1乃至シーン3によって構成されているもので
ある。同図において時間軸は右方向に向いているものと
する。境界が存在しない領域を非境界領域とし、境界が
存在している領域を境界領域とし、図4に詳細に示して
ある。
【0036】図4(A)の非境界領域に示してあるのは
シーン2の時間内の部分であり、他のシーンとの境界が
存在していないセグメント3乃至セグメント11の時間
領域である。また、これと対照的に図4(B)の境界領
域はシーン2とシーン3の境界領域を含むところでシー
ンとシーンの隣接しているセグメント8乃至セグメント
15の時間領域を示している。
【0037】まず、境界が存在しない場合を表している
非境界領域の特徴について説明する。非境界領域は、類
似したセグメントだけで構成されているので、非境界領
域の中の基準セグメントに対して過去、未来の時間帯と
分けた場合ほぼ均等に類似セグメントは存在する。その
ため類似セグメントの分布パターンには特異な変化のパ
ターンは現れない。
【0038】境界領域は、非境界領域と異なり、2つの
シーンが隣接している境界点を含む時間帯の部分を表し
ている。ここでシーンというのは互いに高い類似性を持
ったセグメントからなっているものを意味する。そのた
め、シーン2を構成しているセグメント8乃至セグメン
ト11と、異なるシーン3を構成しているセグメント1
2乃至セグメント15とが隣り合っており、それらの境
界を挟んでシーンのセグメントの特徴がそれぞれ異な
る。
【0039】シーンの境界を検出するには、まず各セグ
メントを時間的基準(現在)と仮定する。それぞれに対
し、最も類似したセグメントの時間的分布パターン(基
準から見て過去であるのか未来であるのか)の変化を調
べることにより実現できる。
【0040】これは図4(B)に示す境界領域からわか
るように、セグメント8乃至セグメント11が順に時間
的基準となって境界に近づくにつれ、最も類似なセグメ
ントが未来に対して過去に存在する比率が高くなって行
き、境界直近(シーンの終り)では100%になる。そし
て境界を越えた直後(次のシーンの先頭)では過去に対し
て未来に存在する比率が100%になり、セグメント1
2乃至セグメント15が順に時間的基準となるにつれ、
その比率が低くなって行く。
【0041】したがって、このような最も類似なセグメ
ントの時間分布比率のパターンの変化によって、シーン
の境界である可能性が高い場所を特定できる。また、こ
の典型的なパターンはシーンの境界付近の局所的な部分
に現れる確率が非常に高いので、境界近辺だけを調べれ
ばそのパターンの変化から境界を特定できる。これは言
い換えれば、類似セグメントの分布パターンを調べる時
間領域を必要以上に大きく取らなくても良いということ
になる。
【0042】また、これらのパターンの変化を数値化す
ると、その値の変化の度合いがシーンの視覚的変化の度
合いに連動している。そしてシーンの視覚的変化の度合
いはシーンの意味的な変化の度合いに連動していること
が経験上および実験的結果によってわかっている。した
がってこの数値化した値を境界性測定値とすると、この
値の大小によりシーンの意味的度合いの大小に対応した
シーンを検出することが可能となる。
【0043】次に、本発明の一実施の形態である映像音
声処理装置について説明するが、その前に、映像音声処
理装置が処理の対象とするビデオデータについて説明す
る。
【0044】本発明においては、処理対象とするビデオ
データを、図1に示すようにモデル化し、フレーム、セ
グメント、シーンの3つのレベルに階層化されたデータ
構造を有するものとする。すなわち、ビデオデータは、
最下位層において、一連のフレームにより構成される。
また、ビデオデータは、フレームの1つ上の階層とし
て、連続するフレームのひと続きから形成されるセグメ
ントにより構成される。さらに、ビデオデータは、最上
位層において、このセグメントを意味のある関連に基づ
きまとめて形成されるシーンにより構成される。
【0045】このビデオデータは、一般に、映像および
音声の両方の情報を含む。すなわち、このビデオデータ
においてフレームは、単一の静止画像である映像フレー
ムと、数KHz乃至数十KHz」のサンプリングレート
でサンプルされた音声情報を表す音声フレームが含まれ
る。
【0046】また、映像セグメントは、単一のカメラに
より連続的に撮影された一連の映像フレームから構成さ
れ、一般にはショットと呼ばれる。
【0047】一方、音声セグメントについては、多くの
定義が可能であり、例として次に示すようなものが考え
られる。音声セグメントは、一般によく知られている方
法により検出されたビデオデータ中の無音期間により境
界を定められて形成されるものがある。また、音声セグ
メントは、“D. Kimber and L. Wilcox, Acoustic Segm
entation for Audio Browsers, Xerox Parc Technical
Report”に記載されているように、例えば、音声、音
楽、ノイズ、無音等のように少数のカテゴリに分類され
た音声フレームのひと続きから形成されるものがある。
さらに、音声セグメントは、“S. Pfeiffer, S. Fische
r and E. Wolfgang, Automatic Audio Content Analysi
s, Proceeding of ACM Multimedia 96, Nov. 1996, pp2
1-30”に記載されているように、2枚の連続する音声フ
レーム間のある特徴における大きな変化を音声の変わり
目として検出し、これに基づいて決定される場合もあ
る。
【0048】シーンは、ビデオデータの内容を意味に基
づくより高いレベルのものである。シーンは、主観的な
ものであり、ビデオデータの内容あるいはジャンルに依
存する。シーンは、その特徴が互いに類似性を示す映像
セグメントまたは音声セグメントで構成されている。
【0049】ここでは、ビデオデータ内の各セグメント
について、その近隣に存在する類似的特徴を持っている
セグメントが、過去に集中して存在していたパターンか
ら、未来に集中して存在するパターンへと特異な変化を
示す変化点を検出し、その変化点から次の変化点を一つ
のシーンとするものである。このようなパターンがシー
ンの切れ目と対応するのは、各シーンに含まれているセ
グメントの特徴が異なるためにシーンの境界でセグメン
トの類似的特徴が大きく変化するからである。これはビ
デオデータにおける高いレベルでの意味のある構造と非
常に関係があり、シーンは、このようなビデオデータに
おける高いレベルでの意味を持ったまとまりを示すもの
である。
【0050】次に、本発明の一実施の形態である映像音
声処理装置の構成例について、図3を参照して説明す
る。映像音声処理装置は、上述したビデオデータにおけ
るセグメントの特徴量を用いてセグメント間の類似性を
測定し、これらのセグメントをシーンにまとめてビデオ
構造を自動的に抽出するものであり、映像セグメントお
よび音声セグメントの両方に適用できるものである。
【0051】映像音声処理装置は、図3に示すように、
入力されるビデオデータのストリームを映像または音
声、あるいは両方のセグメントに分割するビデオ分割部
11、ビデオデータの分割情報を記憶するビデオセグメ
ントメモリ12、各映像セグメントにおける特徴量を抽
出する映像特徴量抽出部13、各音声セグメントにおけ
る特徴量を抽出する音声特徴量抽出部14、映像セグメ
ントおよび音声セグメントの特徴量を記憶するセグメン
ト特徴量メモリ15、映像セグメントおよび音声セグメ
ントをシーンにまとめるシーン検出部16、および2つ
のセグメント間の類似性を測定する特徴量類似性測定部
17より構成される。
【0052】ビデオ分割部11は、入力される、例え
ば、MPEG(Moving Picture Experts Group)1、MPEG2、
またはいわゆるDV(Digital Video)などの圧縮ビデオ
データフォーマットを含む種々のディジタル化されたフ
ォーマットにおける映像データと音声データとからなる
ビデオデータのストリームを映像、音声またはこれらの
両方のセグメントに分割するものである。
【0053】ビデオ分割部11は、入力されるビデオデ
ータが圧縮フォーマットであった場合、この圧縮ビデオ
データを完全伸張することなく直接処理することができ
る。ビデオ分割部11は、入力されたビデオデータを処
理し、映像セグメントと音声セグメントとに分割する。
また、ビデオ分割部11は、入力したビデオデータを分
割した結果である分割情報を後段のビデオセグメントメ
モリ12に出力する。さらに、ビデオ分割部11は、映
像セグメントと音声セグメントとに応じて、分割情報を
後段の映像特徴量抽出部13および音声特徴量抽出部1
4に出力する。
【0054】ビデオセグメントメモリ12は、ビデオ分
割部11から供給されたビデオデータの分割情報を記憶
する。また、ビデオセグメントメモリ12は、後述する
シーン検出部16からの問い合わせに応じて、分割情報
をシーン検出部16に出力する。
【0055】映像特徴量抽出部13は、ビデオ分割部1
1によりビデオデータを分割して得た各映像セグメント
の特徴量を抽出する。映像特徴量抽出部13は、圧縮映
像データを完全伸張することなく直接処理することがで
きる。映像特徴量抽出部13は、抽出した各映像セグメ
ントの特徴量を後段のセグメント特徴量メモリ15に出
力する。
【0056】音声特徴量抽出部14は、ビデオ分割部1
1によりビデオデータを分割して得た各音声セグメント
の特徴量を抽出する。音声特徴量抽出部14は、圧縮音
声データを完全伸張することなく直接処理することがで
きる。音声特徴量抽出部14は、抽出した各音声セグメ
ントの特徴量を後段のセグメント特徴量メモリ15に出
力する。
【0057】セグメント特徴量メモリ15は、映像特徴
量抽出部13および音声特徴量抽出部14からそれぞれ
供給された映像セグメントおよび音声セグメントの特徴
量を記憶する。セグメント特徴量メモリ15は、後述す
る特徴量類似性測定部17からの問い合わせに応じて、
記憶している特徴量やセグメントを特徴量類似性測定部
17に出力する。
【0058】シーン検出部16は、ビデオセグメントメ
モリ12に保持された分割情報と、セグメント間の類似
性とを用いて、映像セグメントおよび音声セグメントが
シーンの境界であるかを判断する。シーン検出部16
は、各セグメントの近隣の最も類似な特徴量を持つセグ
メントの分布パターンが、過去に集中した状態から未来
に集中した状態へ切り替わる変化点を特定することによ
り、シーンの境界を検出し先頭部と最後部を確定する。
シーン検出部16は、セグメントが発生する毎に1セグ
メント分、時系列的に移動させ、近隣の最も類似してい
るセグメントの分布パターンを測定する。シーン検出部
16は、特徴量類似性測定部17を用いて、近隣のセグ
メントで最も類似しているものの数を特定する。すなわ
ち、特徴空間における特徴量の最近傍の数を求める。そ
してセグメントの最近傍の類似セグメントがそのセグメ
ントを境にして過去に存在するものと未来に存在するも
のとの個数の違いのパターンの変化からシーンの境界を
特定する。
【0059】特徴量類似性測定部17は、各セグメント
とその近隣のセグメントとの類似性を測定する。特徴量
類似性測定部17は、あるセグメントに関する特徴量を
検索するようにセグメント特徴量メモリ15に問いかけ
る。
【0060】ビデオデータ記録部18は、ビデオストリ
ームおよびビデオデータに関する各種のデータである、
いわゆる付加情報データを記録する。ここにシーン検出
部16から出力されたシーン境界情報およびシーンに対
して計算された強度値が保存される。
【0061】ビデオ表示部19は、ビデオデータ記録部
18からのビデオデータを、各種付加情報データに基
き、サムネイルのような表示方法やランダムアクセス方
法などを実現する。これはユーザの視聴方法に自由度を
増やし、利便性良くビデオデータを表示する。
【0062】制御部20は、ドライブ21を制御して、
磁気ディスク22、光ディスク23、光磁気ディスク2
4、または半導体メモリ25に記憶されている制御用プ
ログラムを読み出し、読み出した制御用プログラムに基
づいて、映像音声処理装置の各部を制御する。
【0063】映像音声処理装置は、図5に概略を示すよ
うな一連の処理を行うことによって、シーンを検出す
る。
【0064】まず、映像音声処理装置は、同図に示すよ
うに、ステップS1において、ビデオ分割を行う。すな
わち映像音声処理装置は、ビデオ分割部11に入力され
たビデオデータを映像セグメントまたは音声セグメント
のいずれか、あるいは可能であればその両方に分割す
る。
【0065】映像音声処理装置が適用するビデオ分割方
法には、特に前提要件を設けない。例えば、映像音声処
理装置は、“G. Ahanger and T.D.C. Little, A survey
oftechnologies for parsing and indexing digital v
ideo, J. of Visual Communication and Image Represe
ntation 7:28-4, 1996”に記載されているような方法に
よりビデオ分割を行う。このようなビデオ分割の方法
は、当該技術分野ではよく知られたものであり、映像音
声処理装置は、いかなるビデオ分割方法も適用できるも
のとする。
【0066】次に、映像音声処理装置は、ステップS2
において、特徴量の抽出を行う。すなわち映像音声処理
装置は、映像特徴量抽出部13や音声特徴量抽出部14
により、そのセグメントの特徴を表す特徴量を計算す
る。映像音声処理装置では、例えば、各セグメントの時
間長や、カラーヒストグラムやテクスチャフィーチャと
いった映像特徴量や、周波数解析結果、レベル、ピッチ
といった音声特徴量やアクティビティ測定結果等が、適
用可能な特徴量として計算される。勿論、映像音声処理
装置は、適用可能な特徴量としてこれらに限定されるも
のではない。
【0067】続いて、映像音声処理装置は、ステップS
3において、特徴量を用いたセグメントの類似性測定を
行う。すなわち映像音声処理装置は、特徴量類似性測定
部17により非類似性測定を行い、その測定基準によ
り、セグメントとその近隣のセグメントがどの程度類似
しているかを測定する。映像音声処理装置は、先のステ
ップS2において抽出した特徴量を用いて、非類似性測
定基準を計算する。
【0068】そして、映像音声処理装置は、ステップS
4において、セグメントがシーンの切れ目にあたるか否
かを判断する。すなわち、映像音声処理装置は、先のス
テップS3において計算した非類似性測定基準と、先の
ステップS2において抽出した特徴量とを用いて、各セ
グメントを現在と見なし、近接の類似したセグメント
が、その基準とするセグメントに対し過去か未来かどち
らに存在比率が高いかを求め、その存在比の率変化のパ
ターンを調べ、シーンの境界であるか否かの判断をす
る。映像音声処理装置は、このようにして最終的に各セ
グメントがシーンの切れ目であるか否かを出力する。
【0069】このような一連の処理を経ることによっ
て、映像音声処理装置は、ビデオデータからシーンを検
出することができる。
【0070】したがって、ユーザは、この結果を用いる
ことによって、ビデオデータの内容を要約したり、ビデ
オデータ中の興味のあるポイントに迅速にアクセスした
りすることが可能となる。
【0071】以下、上述した処理の各ステップをより詳
細に説明する。
【0072】ステップS1におけるビデオ分割について
説明する。映像音声処理装置は、ビデオ分割部11に入
力されたビデオデータを映像セグメントまたは音声セグ
メントのいずれか、あるいは可能であればその両方に分
割するが、このビデオデータにおけるセグメントの境界
を自動的に検出するための技術は多くのものがあり、映
像音声処理装置において、このビデオ分割方法に特別な
前提要件を設けないことは上述した通りである。
【0073】一方、映像音声処理装置において、後の処
理によるシーン検出の精度は、本質的に、基礎となるビ
デオ分割の精度に依存する。なお、映像音声処理装置に
おけるシーン検出は、ある程度ビデオ分割時のエラーを
許容することができる。特に、映像音声処理装置におい
て、ビデオ分割は、セグメント検出が不十分である場合
よりも、セグメント検出を過度に行う場合の方が好まし
い。映像音声処理装置は、類似したセグメントの検出が
過度である結果である限り、一般に、シーン検出の際に
検出過度であるセグメントを同一シーンとしてまとめる
ことができる。
【0074】ステップS2における特徴量抽出について
説明する。特徴量とは、セグメントの特徴を表すととも
に、異なるセグメント間の類似性を測定するためのデー
タを供給するセグメントの属性である。映像音声処理装
置は、映像特徴量抽出部13や音声特徴量抽出部14に
おいて各セグメントの特徴量を計算し、セグメントの特
徴を表す。
【0075】映像音声処理装置は、いかなる特徴量の具
体的詳細にも依存するものではないが、映像音声処理装
置において用いて効果的であると考えられる特徴量とし
ては、例えば以下に示す映像特徴量、音声特徴量、映像
音声共通特徴量のようなものがある。映像音声処理装置
において適用可能となるこれら特徴量の必要条件は、非
類似性の測定が可能であることである。また映像音声処
理装置は、効率化のために、特徴量抽出と上述したビデ
オ分割とを同時に行うことがある。以下に説明する特徴
量は、このような処理を可能にするものである。
【0076】上記特徴量としては、まず映像に関するも
のが挙げられる。以下では、これを映像特徴量と称する
ことにする。映像セグメントは、連続する映像フレーム
により構成されるため、映像セグメントから適切な映像
フレームを抽出することによって、その映像セグメント
の描写内容を、抽出した映像フレームで特徴付けること
が可能である。すなわち映像セグメントの類似性は、適
切に抽出された映像フレームの類似性で代替可能であ
る。つまり映像特徴量は、映像音声処理装置で用いるこ
とができる重要な特徴量の1つである。この場合の映像
特徴量は、単独では静的な情報しか表せないが、映像音
声処理装置は、後述するような方法を適用することによ
って、この映像特徴量に基づく映像セグメントの動的な
特徴を抽出する。
【0077】映像特徴量として既知のものは多数存在す
るが、シーン検出のためには以下に示す色特徴量(ヒス
トグラム)および映像相関が、計算コストと精度との良
好な兼ね合いを与えることを見出したことから、映像音
声処理装置は、映像特徴として、色特徴量および映像相
関を用いることにする。
【0078】映像音声処理装置において、映像における
色は、2つの映像が類似しているかを判断する際の重要
な材料となる。カラーヒストグラムを用いて映像の類似
性を判断することは、例えば“G. Ahanger and T.D.C.
Little, A survey of technologies for parsing and i
ndexing digital video, J. of Visual Communication
and Image Representation 7:28-4, 1996”に記載され
ているように、よく知られている。
【0079】ここでカラーヒストグラムとは、例えばLU
VやRGB等の3次元色空間をn個の領域に分割し、映像に
おける画素の、各領域での出現頻度の相対的割合を計算
したものである。そして、得られた情報からは、n次元
ベクトルが与えられる。圧縮されたビデオデータについ
ては、例えば米国特許5708767号公報に記載され
ているように、カラーヒストグラムを、圧縮データから
直接抽出することができる。
【0080】映像音声処理装置では、セグメントを構成
する映像(MPEG1/2,DVなど一般的に使われている方
式)における元々のYUV色空間のヒストグラムベクトル
を得る。
【0081】映像音声処理装置では、セグメントを構成
する映像(MPEG1/2,DVなど一般的に使われている方
式)における元来のYUV色空間を、色チャンネル当たり
2ビットでサンプリングして構成した、22・3=64次
元のヒストグラムベクトルを得る。
【0082】このようなヒストグラムは、映像の全体的
な色調を表すが、これには時間情報が含まれていない。
そこで、映像音声処理装置では、もう1つの映像特徴量
として、映像相関を計算する。映像音声処理装置でのシ
ーン検出において、複数の類似セグメントが互いに交差
した構造は、それがまとまった1つのシーン構造である
ことの有力な指標となる。
【0083】例えば会話場面において、カメラの位置
は、2人の話し手の間を交互に移動するが、カメラは通
常、同一の話し手を再度撮影するときには、ほぼ同じ位
置に戻る。このような場合における構造を検出するため
には、グレイスケールの縮小映像に基づく相関がセグメ
ントの類似性の良好な指標となることを見出したことか
ら、映像音声処理装置では、元の映像をM×Nの大きさ
のグレイスケール映像に間引き縮小し、これを用いて映
像相関を計算する。ここで、MとNは、両方とも小さな
値で十分であり、例えば8×8である。つまり、これら
の縮小グレイスケール映像は、MN次元の特徴量ベクト
ルとして解釈される。
【0084】さらに上述した映像特徴量とは異なる特徴
量としては、音声に関するものが挙げられる。以下で
は、この特徴量を音声特徴量と称することにする。音声
特徴量とは、音声セグメントの内容を表すことができる
特徴量であり、映像音声処理装置は、この音声特徴量と
して、周波数解析、ピッチ、レベル等を用いることがで
きる。これらの音声特徴量は、種々の文献により知られ
ているものである。
【0085】まず、映像音声処理装置は、フーリエ変換
等の周波数解析を行うことによって、単一の音声フレー
ムにおける周波数情報の分布を決定することができる。
映像音声処理装置は、例えば、1つの音声セグメントに
わたる周波数情報の分布を表すために、FFT(Fast Four
ier Transform;高速フーリエ変換)成分、周波数ヒス
トグラム、パワースペクトル、ケプストラム(Cepstru
m)、その他の特徴量を用いることができる。
【0086】また、映像音声処理装置は、平均ピッチや
最大ピッチなどのピッチや、平均ラウドネスや最大ラウ
ドネスなどの音声レベルもまた、音声セグメントを表す
有効な音声特徴量として用いることができる。
【0087】さらに他の特徴量としては、映像音声共通
特徴量が挙げられる。これは、特に映像特徴量でもなく
音声特徴量でもないが、映像音声処理装置において、シ
ーン内のセグメントの特徴を表すのに有用な情報を与え
るものである。映像音声処理装置は、この映像音声共通
特徴量として、セグメント長とアクティビティとを用い
る。
【0088】映像音声処理装置は、映像音声共通特徴量
として、セグメント長を用いることができる。このセグ
メント長は、セグメントにおける時間長である。一般
に、シーンは、そのシーンに固有のリズム特徴を有す
る。このリズム特徴は、シーン内のセグメント長の変化
として表れる。例えば、迅速に連なった短いセグメント
は、コマーシャルを表す。一方、会話シーンにおけるセ
グメントは、コマーシャルの場合よりも長く、また会話
シーンには、相互に組み合わされたセグメントが互いに
類似しているという特徴がある。映像音声処理装置は、
このような特徴を有するセグメント長を映像音声共通特
徴量として用いることができる。
【0089】また、映像音声処理装置は、映像音声共通
特徴量として、アクティビティを用いることができる。
アクティビティとは、セグメントの内容がどの程度動的
あるいは静的であるように感じられるかを表す指標であ
る。例えば、視覚的に動的である場合、アクティビティ
は、カメラが対象物に沿って迅速に移動する度合い、ま
たは撮影されているオブジェクトが迅速に変化する度合
いを表す。
【0090】このアクティビティは、カラーヒストグラ
ムのような特徴量のフレーム間非類似性の平均値を測定
することにより、間接的に計算される。ここで、フレー
ムiとフレームjとの間で測定された特徴量Fに対する
非類似性測定基準をdF(i,j)と定義すると、映像
アクティビティVFは、次式(1)のように定義され
る。
【数1】
【0091】式(1)において、bとfはそれぞれ、1
セグメントにおける最初と最後のフレームのフレーム番
号である。映像音声処理装置は、具体的には、例えば上
述したヒストグラムを用いて、映像アクティビティVF
を計算する。
【0092】ところで、上述した映像特徴量を始めとす
る特徴量は、基本的にはセグメントの静的情報を表すも
のであることは上述した通りであるが、セグメントの特
徴を正確に表すためには、その動的情報も考慮する必要
がある。そこで、映像音声処理装置は、以下に示すよう
な特徴量のサンプリング方法により動的情報を表す。
【0093】映像音声処理装置は、例えば図5に示すよ
うに、1セグメント内の異なる時点から1以上の静的な
特徴量を抽出する。このとき、映像音声処理装置は、特
徴量の抽出数を、そのセグメント表現における忠実度の
最大化とデータ冗長度の最小化とのバランスをとること
により決定する。例えば、セグメント内のある1画像が
当該セグメントのキーフレームとして指定可能な場合に
は、そのキーフレームから計算されたヒストグラムが、
抽出すべきサンプリング特徴量となる。
【0094】映像音声処理装置は、後述するサンプリン
グ方法を用いて、対象とするセグメントにおいて、特徴
として抽出可能なサンプルのうち、どのサンプルを選択
するかを決定する。
【0095】ところで、あるサンプルが常に所定の時
点、例えばセグメント内の最後の時点において選択され
る場合を考える。この場合、黒フレームへ変化してゆく
(フェードしてゆく)任意の2つのセグメントについて
は、サンプルが同一の黒フレームとなるため、同一の特
徴量が得られる結果になる恐れがある。すなわち、これ
らのセグメントの映像内容がいかなるものであれ、選択
した2つのフレームは、極めて類似していると判断され
てしまう。このような問題は、サンプルが良好な代表値
でないために発生するものである。
【0096】そこで、映像音声処理装置は、このように
固定点で特徴量を抽出するのではなく、セグメント全体
における統計的な代表値を抽出することとする。ここで
は、一般的な特徴量のサンプリング方法を2つの場合、
すなわち、特徴量を実数のn次元ベクトルとして表すこ
とができる第1の場合と、非類似性測定基準しか利用で
きない第2の場合とについて説明する。なお、第1の場
合は、ヒストグラムやパワースペクトル等、最もよく知
られている映像特徴量および音声特徴量が含まれる。
【0097】第1の場合においては、サンプル数kは予
め決められており、映像音声処理装置は、“L. Kaufman
and P.J. Rousseeuw, Finding Groups in Data:An Int
roduction to Cluster Analysis, John-Wiley and son
s, 1990”に記載されてよく知られているk平均値クラ
スタリング法(k-means-clustering method)を用いて、
セグメント全体についての特徴量をk個の異なるグルー
プに自動的に分割する。そして、映像音声処理装置は、
サンプル値として、k個の各グループから、グループの
重心値(centroid)またはこの重心値に近いサンプルを
選択する。映像音声処理装置におけるこの処理の複雑度
は、サンプル数に関して単に直線的に増加するに留ま
る。
【0098】一方、第2の場合においては、映像音声処
理装置は、“L. Kaufman and P.J.Rousseeuw, Finding
Groups in Data:An Introduction to Cluster Analysi
s, John-Wiley and sons, 1990”に記載されているk−
メドイドアルゴリズム法(k-medoids algorithm method)
を用いて、k個のグループを形成する。そして、映像音
声処理装置は、サンプル値として、k個の各グループ毎
に、上述したグループのメドイド(medoid)を用いる。
【0099】なお、映像音声処理装置においては、抽出
された動的特徴を表す特徴量についての非類似性測定基
準を構成する方法は、その基礎となる静的な特徴量の非
類似性測定基準に基づくが、これについては後述する。
【0100】このようにして、映像音声処理装置は、静
的な特徴量を複数抽出し、これら複数の静的な特徴量を
用いることで、動的特徴を表すことができる。
【0101】以上のように、映像音声処理装置は、種々
の特徴量を抽出することができる。これらの各特徴量
は、一般に、単一ではセグメントの特徴を表すのに不十
分であることが多い。そこで、映像音声処理装置は、こ
れらの各種特徴量を組み合わせることで、互いに補完し
合う特徴量の組を選択することができる。例えば、映像
音声処理装置は、上述したカラーヒストグラムと映像相
関とを組み合わせることによって、各特徴量が有する情
報よりも多くの情報を得ることができる。
【0102】次に、図5のステップS3における特徴量
を用いたセグメントの類似性測定について説明する。映
像音声処理装置は、2つの特徴量について、それがどの
程度非類似であるかを測定する実数値を計算する関数で
ある非類似性測定基準を用いて、特徴量類似性測定部1
7によりセグメントの類似性測定を行う。この非類似性
測定基準は、その値が小さい場合は2つの特徴量が類似
していることを示し、値が大きい場合は非類似であるこ
とを示す。ここでは、特徴量Fに関する2つのセグメン
トS1,S2の非類似性を計算する関数を非類似性測定基
準dF(S1,S2)と定義する。なお、この関数は、以
下の式(2)で与えられる関係を満足させる必要があ
る。
【数2】
【0103】ところで、非類似性測定基準の中には、あ
る特定の特徴量にのみ適用可能なものがあるが、“G. A
hanger and T.D.C. Little, A survey of technologies
forparsing and indexing digital video, J. of Visu
al Communication and Image Representation 7:28-4,
1996”や“L. Kaufman and P.J. Rousseeuw, Finding G
roups in Data:An Introduction to Cluster Analysis,
John-Wiley and sons, 1990”に記載されているよう
に、一般には、多くの非類似性測定基準は、n次元空間
における点として表される特徴量についての類似性を測
定することに適用可能である。
【0104】その具体例は、ユークリッド距離、内積、
L1距離等である。ここで、特にL1距離が、ヒストグ
ラムや映像相関などの特徴量を含む種々の特徴量に対し
て有効に作用することから、映像音声処理装置は、L1
距離を導入する。ここで、2つのn次元ベクトルをA,
Bとした場合、A,B間のL1距離dL1(A,B)は
次式(3)で与えられる。
【数3】 ここでA,Bの添え字iは、n次元ベクトルA,Bそれ
ぞれのi次元の要素を示すものである。
【0105】また、映像音声処理装置は、上述したよう
に、動的特徴を表す特徴量として、セグメントにおける
様々な時点での静的な特徴量を抽出する。そして、映像
音声処理装置は、抽出された二つの動的特徴量間の類似
性を決定するために、その非類似性測定基準として、そ
の基礎となる静的特徴量の間の非類似性測定基準を用い
る。これら動的特徴量の非類似性測定基準は、多くの場
合、各動的特徴量から選択された最も類似した静的特徴
量の対の非類似性値を用いて決定されるのが最良であ
る。この場合、2つの抽出された動的特徴量SF1,S
2の間の非類似性測定基準は、次式(4)のように定
義される。
【数4】
【0106】ここで、上式(4)における関数dF(F
1,F2)は、その基礎となる静的特徴量Fについての非
類似性測定基準を示す。なお、場合によっては、特徴量
の非類似性の最小値をとる代わりに、最大値または平均
値をとってもよい。
【0107】ところで、映像音声処理装置は、セグメン
トの類似性を決定する上で、単一の特徴量だけでは不十
分であり、同一セグメントに関する多数の特徴量からの
情報を組み合わせることを必要とする場合も多い。この
1つの方法として、映像音声処理装置は、種々の特徴量
に基づく非類似性を、それぞれの特徴量の重み付き組み
合わせとして計算する。すなわち、映像音声処理装置
は、k個の特徴量F1,F2,・・・,Fkが存在する場
合、次式(5)に示すような組み合わせた特徴量に関す
る非類似性測定基準dF(S1,S2)を用いる。
【数5】
【0108】ここで、{wi}は、Σiwi=1となる重
み係数である。
【0109】以上のように、映像音声処理装置は、図5
のステップS2において抽出された特徴量を用いて非類
似性測定基準を計算し、当該セグメント間の類似性を測
定することができる。
【0110】次に図5のステップS4におけるシーンの
切り分けについて説明する。映像音声処理装置は、非類
似性測定基準と抽出した特徴量とを用いて、各セグメン
トに対する近隣の最も類似したセグメントの分布パター
ンの変化を検出し、シーンの切れ目か否かを判断して出
力する。
【0111】映像音声処理装置は、シーンを検出する際
に、次のような4つの処理を行う。
【0112】の処理では、各セグメントを基準とした
とき、一定の時間枠の中で最も類似したセグメントを一
定数検出する。
【0113】の処理では、の処理の後、基準セグメ
ントに対し過去と未来の時間帯に存在する類似セグメン
トの数の比率を計算し(実際には未来に存在している類
似セグメントの個数から過去に存在している類似セグメ
ントの個数を減算するなど)、その計算結果を境界性測
定値とする。
【0114】の処理では、の処理で得られた境界性
測定値を、各セグメントを基準としたときの時間変化を
調べ、過去比率が高いものがいくつか連続し、未来比率
の高いものがいくつか連続するパターンを示すセグメン
ト位置を検出する。
【0115】の処理では、の処理のとき、境界性測
定値の絶対値を合計し、この合計値をシーン強度値と呼
ぶことにする。このシーン強度値があらかじめ決められ
た閾値を超えた場合、シーンの境界とする。
【0116】これらの処理について、図6を参照して具
体的に説明する。の処理では、例えば図6(A)のよ
うに、各セグメントに対して過去に任意のk個のセグメ
ント、未来にもk個のセグメントの時間枠を設定し(例
えばここでは5個)、類似セグメントをこの時間枠の中
でN個検出する(ここでは4個)。時間は各セグメントを
表す数字が大きくなるに連れて未来へと進んで行く。同
図の真中の濃い網掛けのセグメント7が、ある時間の基
準のセグメントであり、これに対して類似なセグメント
はそれよりも薄い網掛けになっているセグメント4,
6,9,10である。ここでは4個の類似セグメントを
抽出しており、過去に2個、未来に2個存在する。
【0117】の処理では、このとき境界性測定値は、
(過去の個数)を(未来の個数)で除算するか、または(未
来の個数)から(過去の個数)を減算するかのいずれかの
方法で計算する。ここでは、後者の方法で境界性測定値
を計算する。ここで、各境界性測定値をFiと表す。i
は各セグメントの位置(番号)である。いま、後者の方法
で計算すると同図(A)の境界性測定値F6は0となる。
【0118】の処理では、の処理での計算を時間軸
に沿って行って行く。同図(B)は同図(A)から3セ
グメント進んだときのセグメント10に対して過去にセ
グメント5,8,9の3個、未来にセグメント11の1
個類似セグメントが存在している。このときの境界性測
定値F10=1−3=−2となる。
【0119】また、同図(C)はさらに1セグメント進
んでシーンの境界直前に到達した状態であり、セグメン
ト11の類似セグメント6,7,9,10はすべて過去
に集中している。このとき境界性測定値はF11=0−4
=−4となる。
【0120】次に、同図(D)は同図(C)から1セグ
メント進んだ状態であり、境界を越えて新しいシーンに
入った直後であって、シーンの先頭がセグメント12で
ある場合である。類似セグメントは13,14,15、
16である。このとき類似セグメントは未来にすべて存
在するパターンに変化している。F12=4−0=4と
なる。
【0121】最後に、同図(E)は、さらに1セグメン
ト進んだ状態のセグメント13の場合である。同様に、
13=3−1=2となる。この方法ではこのように過去
の方に類似セグメントの比率が大きいときは負符号(マ
イナス符号)であり、正符号(プラス符号)は未来に比
率が大きいことを示している。このときの境界性測定値
iの変化は、 0 … (−2)→(−4)→(+4)→(+2)・・・(6) のようなパターンを示す。
【0122】(−4)→(+4)と変化しているところ
がシーンの境界に対応している。これは図6(A)のよ
うにシーンの中間にある場合は時間枠内にある類似的セ
グメントは各セグメントを挟んで過去、未来にほぼ均等
に存在する。しかし、シーンの境界に近づくにつれて同
図(B)のように過去に存在する比率が高くなって行
き、同図(C)で過去の存在比率が100%になり、同
図(D)のように境界を超えた直後は未来に存在比率が
100%に変わるパターンを持つことを表している。こ
のようなパターンを検出することによりほぼ過去100
%の存在比率から未来への存在比率ほぼ100%へ大き
く変動する変化点がシーンの切れ目と対応付けられる。
【0123】また、シーンの非境界領域の中であっても
過去比率が高いパターンから未来比率の高い比率へ一時
的に変化(1セグメント間のみ)する場合がある。しか
し、それはシーンの境界ではないことが多い。なぜなら
ば、このような一時的な変化の多くは偶発的に発生する
からである。非境界領域のような類似セグメントが過去
に存在比率の大きい境界性測定値が複数続いたあとに、
未来に存在比率の大きい境界性測定値が複数続くパター
ンが検出されたときにシーンの境界の可能性が高いと判
断する。そうでないときはシーンの境界ではない可能性
が高いため、シーンの境界と見なさない。
【0124】の処理では、の処理の後、境界性測定
値を合計し、シーン境界点の「強さ」を計算する。その
強さを測定するために、境界性測定値の絶対値を足すこ
ととする。その値の変化の度合いがシーンの視覚的変化
の度合いに対応しており、また、シーンの視覚的変化の
度合いはシーンの意味的な変化の度合いに対応してい
る。したがってこの値の大小によりシーンの意味的度合
いの大小に対応したシーンを検出することが可能とな
る。
【0125】ここではこの絶対値の合計をシーン強度値
Viと定義する。その定義ではiはセグメントの番号を
表す。例えば4つの境界性測定値(各セグメントにおい
て過去の2つのセグメントと未来の1つのセグメント
と、そのセグメントの境界性測定値の計4つのセグメン
トFi-2,Fi-1,Fi,Fi+1)の絶対値の合計を使って
いる。
【0126】シーンの境界での境界性測定値の変化のパ
ターンは理論的には、先に示したようにFi-1→Fiの値
−4→+4のように100%過去に類似セグメントが存
在した場合から100%未来に存在する変化が起こると
考えられる。
【0127】このようにシーンの境界では、1セグメン
ト間で大きな変化が起こる。そして式(6)のパターン
のように、4セグメント以上に渡って境界性測定値の絶
対値が大きいままパターンの変化が起こる可能性は、シ
ーンの境界付近でないと高くない。このパターンの変化
の特性から、シーン強度値Viがある大きさ以上のもの
だけを実際のシーンの境界と判断することにより、希望
とするシーン検出を行うことができる。
【0128】図7は、実際の音楽番組を録音した30分
程度のビデオデータを使用した結果をグラフ化したもの
である。縦軸にシーン強度値、横軸に各セグメントを表
している。色の濃い棒のところのセグメントが実際のシ
ーンの境界(ここではシーンの先頭セグメント)である。
この結果の場合、シーン強度値が12以上をシーンの境
界とすると6/7の確率で実際のシーンと一致する。
【0129】図7のグラフが生成される過程について図
8を参照して説明する。ここで説明することは映像音声
処理装置で示したシーン検出部16で行われることであ
り、この処理はセグメントが生成される毎に以下の処理
を行う。
【0130】ステップS11では各セグメントに対し、
そのセグメントを中心に±k個のセグメント範囲の中
で、特徴量類似性測定部17を用いて最近傍の類似セグ
メントをN個検出し、それらが過去に存在する個数と未
来に存在する個数を求める。
【0131】ステップS12では、各セグメントの境界
性測定値Fiとして、ステップS11の処理で求められ
たN個の類似セグメントのうち、未来に存在する類似セ
グメントの個数から、過去に存在する類似セグメント個
数を減じた数を算出して保存する。
【0132】ステップS13では、2n個のセグメント
の境界性測定値Fi-n,・・・,Fi,Fi+nのパターン
の変化からシーンの境界の可能性の高い場所を特定す
る。nは、iセグメントから過去の比率と未来の比率の
パターン変化を見るために必要な境界測定値の数であ
る。
【0133】ここで、シーンの境界を示唆する変化パタ
ーンについての3つの条件を次のように定義する。 境界性測定値Fi-n乃至Fi+nが一様に0ではないこと 境界性測定値Fi-n乃至Fi-1が0以下であること 境界性測定値Fi乃至Fi+nが0以上であること
【0134】そして、上述した乃至の3条件を全て
満足するか否かを判定する。3条件を全て満足すると判
定された場合、シーンの境界の可能性が高いと判断し、
次のステップS14に移行する。そうでない場合は処理
がステップ16に進む。
【0135】ステップS14では、さらにステップS1
3での境界性測定値を次式に適用して境界性測定値F
i-n,・・・,Fi,Fi+nからシーン強度Viを計算す
る。Vi=|Fi-n| + … + |Fi-1| + |Fi| + … + |F
i+n|
【0136】そして、強度値に対する閾値を越える条件
が設けられた場合、その条件を満たすシーン強度値が現
れたときには、求めるシーンの視覚的変化の強度である
と判断し、処理しているビデオデータのシーンの境界の
1つであるとして、その位置を出力する。強度値に関す
る条件が必要とされない場合、各セグメントについての
強度値を付加情報データとしてビデオデータ記録部18
に出力して記録する。
【0137】以上の処理を繰り返して行くことによりシ
ーンの境界を検出する。シーンはこの境界から境界に含
まれるセグメント群がシーンを形成されることとなる。
【0138】以上説明したように、本発明を適用した映
像音声処理装置は、シーン構造を抽出するためのもので
ある。上述した映像音声処理装置の一連の処理が、テレ
ビドラマや映画など、様々な内容のビデオデータに対し
て、そのシーン構造を抽出可能であることは、既に実験
にて検証済みである。
【0139】なお、検出されるシーンの境界の数は、シ
ーン強度値を任意に変更することによって調整すること
が可能である。そのため、このシーン強度値を調整する
ことにより、いろいろなコンテンツにより良く適応した
シーンの境界検出を行うことが可能である。
【0140】さらに、一定時間のビデオデータの各シー
ンを一覧表示する場合、検出するシーンの数を制限する
ことによって一覧表示を見易くことが考えられる。その
場合、どのシーンを一覧表示に含めればビデオデータを
把握し易いかという問題が生じる。そのためには、得ら
れた各シーンの重要性の順番に従って一覧表示に用いる
シーンを決定すればよい。本発明では、得られたシーン
の重要性の尺度であるシーン強度値を提供することがで
き、さらにその尺度を変更する(シーン強度閾値を変更
する)ことにより、シーンの個数を変更することが可能
であり、ユーザの興味に応じて利便性の良い視聴表現を
行うことができる。
【0141】しかも、シーンの個数を変更するにあた
り、再度シーン検出処理を行うことを必要とせず、シー
ン強度閾値を変更することのみで保存された強度値時系
列を簡単に処理することが可能である。
【0142】以上のように、本発明は、従来技術におけ
る上述した全ての問題点を解決したものである。
【0143】まず、映像音声処理装置は、ユーザが事前
にビデオデータの意味的な構造を知る必要はない。
【0144】さらに、映像音声処理装置は、各セグメン
トに対し行われている処理は次の項目を含む。 特徴量抽出すること 一定個数の時間領域内にセグメント対の間の非類似性
を測定すること 非類似性測定結果を用い、一定個数の最も類似したセ
グメントを抽出すること 類似したセグメントの存在比率より境界性測定値を計
算すること 境界性測定値を用い、シーン境界点の強度値を求める
こと
【0145】いずれの処理も計算上の負荷が少ない。そ
のため、セットトップボックスやディジタルビデオレコ
ーダ、ホームサーバ等の家庭用電子機器にも適用するこ
とができる。
【0146】また、映像音声処理装置は、シーンを検出
した結果、ビデオブラウジングのための新たな高レベル
アクセスの基礎を与えることができる。そのため、映像
音声処理装置は、セグメントではなくシーンといった高
レベルのビデオ構造を用いてビデオデータの内容を視覚
化することにより、内容に基づいたビデオデータへの容
易なアクセスを可能とする。例えば、映像音声処理装置
は、シーンを表示することにより、ユーザは、番組の要
旨をすばやく知ることができ、興味のある部分を迅速に
見つけることができる。
【0147】さらに、映像音声処理装置は、シーン検出
の結果、ビデオデータの概要または要約を自動的に作成
するための基盤が得られる。一般に、一貫した要約を作
成するには、ビデオデータからのランダムな断片を組み
合わせるのではなく、ビデオデータを、再構成可能な意
味を持つ成分に分解することを必要とする。映像音声処
理装置により検出されたシーンは、そのような要約を作
成するための基礎となる。
【0148】なお、本発明は、上述した実施の形態に限
定されるものではなく、例えば、セグメント間の類似性
測定のために用いる特徴量等は、上述したもの以外でも
よいことは勿論であり、その他、本発明の趣旨を逸脱し
ない範囲で適宜変更が可能であることはいうまでもな
い。
【0149】またさらに、本発明はシーン強度値を任意
に変更することにより、コンテンツ構造上、重要な変化
点であるシーンが得られる。なぜなら、強度値がコンテ
ンツ内容の変化の度合いに対応できるからである。すな
わち、ビデオを閲覧する際に、シーン強度値閾値を調整
することにより、検出シーンの個数を制御できる。しか
も、目的に応じて、コンテンツを表示する個数を増やし
たり減らしたりすることが可能となる。
【0150】つまり、コンテンツのいわゆる閲覧粒度(g
ranularity)が目的に応じて自由に制御することができ
る。例えば、ある一時間ビデオを見るときに、最初に強度
値を高く設定し、コンテンツに対して重要であるシーン
からなる短い要約を示す。次に、若し興味が増し、詳しく
見てみたいと思ったなら、強度値を下げることにより、よ
り細かいシーンによって構成されている要約を表示する
ことができる。しかも本発明の方法を利用すれば、従来
技術と異なって、強度値を調整する度に検出を再び行う
必要がなく、保存された強度値時系列を簡単に処理を行
うことだけ十分である。
【0151】セットトップボックスやディジタルビデオ
レコーダなどの家庭機器に実装するにあたり、以下のよ
うな効果がある。
【0152】1つ目の効果は、調べるセグメントを一定
数に固定できることである。本発明のシーン検出は各セ
グメントに対する類似セグメントの局所的な変化を調べ
ることで実現できるので、そのため処理に必要なメモリ
量を固定化することが可能になり、メモリ量の少ないセ
ットトップボックスやディジタルレコーダなどの家庭機
器でも実装可能となる。
【0153】2つ目の効果は、各セグメントの処理にか
かる時間が一定とすることができることである。これ
は、これは決められた時間内に決められた処理を必ず終
わらせなければならないセットトップボックスやディジ
タルビデオレコーダなどの家庭機器などに適している。
【0154】3つ目の効果は、1つの処理が終わる毎に
新たなセグメントの処理を行う逐次処理が可能であるこ
とである。このことは、セットトップボックスやディジ
タルビデオレコーダなどの家庭機器において、ビデオ信
号などの記録を終了する場合、その終了時刻とほぼ同時
に処理を終了することが可能である。また何らかの理由
で記録状態が停止した場合でも、それまでの記録を残し
ておくことが可能である。
【0155】ところで、上述した一連の処理は、ハード
ウェアにより実行させることもできるが、ソフトウェア
により実行させることもできる。一連の処理をソフトウ
ェアにより実行させる場合には、そのソフトウェアを構
成するプログラムが、専用のハードウェアに組み込まれ
ているコンピュータ、または、各種のプログラムをイン
ストールすることで、各種の機能を実行することが可能
な、例えば汎用のパーソナルコンピュータなどに、記録
媒体からインストールされる。
【0156】この記録媒体は、図3に示すように、コン
ピュータとは別に、ユーザにプログラムを提供するため
に配布される、プログラムが記録されている磁気ディス
ク22(フロッピディスクを含む)、光ディスク23
(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digit
al Versatile Disc)を含む)、光磁気ディスク24(M
D(Mini Disc)を含む)、もしくは半導体メモリ25な
どよりなるパッケージメディアにより構成されるだけで
なく、コンピュータに予め組み込まれた状態でユーザに
提供される、プログラムが記録されているROMやハード
ディスクなどで構成される。
【0157】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に従って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。
【0158】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表すものであ
る。
【0159】
【発明の効果】以上のように、本発明のAV信号処理装
置および方法、並びにプログラムによれば、基準となる
セグメントと他のセグメントとの特徴量の類似性を測定
するための測定基準を算出し、測定基準を用いて、基準
となるセグメントと他のセグメントとの類似性を測定
し、測定し類似性を用いて、基準となるセグメントがシ
ーンの境界である可能性を示す測定値を計算するように
したので、シーンの境界を検出することが可能となる。
【図面の簡単な説明】
【図1】ビデオデータの階層モデルを示す図である。
【図2】シーンの境界領域と非境界領域を説明するため
の図である。
【図3】本発明の一実施の形態である映像音声処理装置
の構成例を示すブロック図である。
【図4】シーンの境界領域を説明するための図である。
【図5】映像音声処理装置の動作を説明するフローチャ
ートである。
【図6】類似セグメントの分布パターンの例を示す図で
ある。
【図7】シーン検出結果を示す図である。
【図8】シーン検出部16の処理を説明するフローチャ
ートである。
【符号の説明】
11 ビデオ分割部, 12 ビデオセグメントメモ
リ, 13 映像特徴量抽出部, 14 音声特徴量抽
出部, 15 セグメント特徴量メモリ, 16シーン
検出部, 17 特徴量類似性測定部, 18 ビデオ
データ記録部,19 ビデオ表示部, 20 制御部,
21 ドライバ, 22 磁気ディスク, 23 光
ディスク, 24 光磁気ディスク, 25 半導体メ
モリ
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5C053 FA14 GB09 HA29 LA06 LA11 5D015 FF06 5L096 AA02 CA04 FA23 FA37 HA01 JA03 JA11

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 供給されたAV信号の内容の意味構造を
    反映するパターンを検出して解析し、意味のある区切り
    であるシーンを検出するAV信号処理装置において、 前記AV信号を構成する一連のフレームによって形成さ
    れるセグメントの特徴量を抽出する特徴量抽出手段と、 基準となるセグメントと他のセグメントとの前記特徴量
    の類似性を測定するための測定基準を算出する算出手段
    と、 前記測定基準を用いて、前記基準となるセグメントと前
    記他のセグメントとの前記類似性を測定する類似性測定
    手段と、 類似性測定手段が測定した前記類似性を用いて、前記基
    準となるセグメントが前記シーンの境界である可能性を
    示す測定値を計算する測定値計算手段と、 前記測定値計算手段が計算した前記測定値の時間的パタ
    ーンの変化を解析し、解析結果に基づいて前記基準とな
    るセグメントが前記シーンの境界であるか否かを判定す
    る境界判定手段とを含むことを特徴とするAV信号処理
    装置。
  2. 【請求項2】 前記AV信号は、映像信号および音声信
    号のうちの少なくとも一方を含むことを特徴とする請求
    項1に記載のAV信号処理装置。
  3. 【請求項3】 前記基準となるセグメントに対応する前
    記測定値の変化の程度を示す強度値を計算する強度値計
    算手段をさらに含むことを特徴とするAV信号処理装
    置。
  4. 【請求項4】 前記測定値計算手段は、前記基準となる
    セグメントに対して、所定の時間領域内における類似セ
    グメントを求め、前記類似セグメントの時間分布を解析
    し、過去と未来に存在する比率を数値化して前記測定値
    を計算することを特徴とする請求1に記載のAV信号処
    理装置。
  5. 【請求項5】 前記境界判定手段は、前記測定値の絶対
    値の総和にも基づき、前記基準となるセグメントが前記
    シーンの境界であるか否かを判定することを特徴とする
    請求項1に記載のAV信号処理装置。
  6. 【請求項6】 前記AV信号に映像信号が含まれる場
    合、映像セグメントの基本単位となるショットを検出し
    て、前記音声セグメントを生成する音声セグメント生成
    手段をさらに含むことを特徴とする請求項2に記載のA
    V信号処理装置。
  7. 【請求項7】 前記AV信号に音声信号が含まれる場
    合、前記音声信号の前記特徴量および無音区間のうちの
    少なくとも一方を用いて、音声セグメントを生成する音
    声セグメント生成手段をさらに含むことを特徴とする請
    求項2に記載のAV信号処理装置。
  8. 【請求項8】 前記映像信号の前記特徴量には、少なく
    ともカラーヒストグラムが含まれることを特徴とする請
    求項2に記載のAV信号処理装置。
  9. 【請求項9】 前記音声信号の前記特徴量には、音量お
    よびスペクトラムのうちの少なくとも一方が含まれるこ
    とを特徴とする請求項2に記載のAV信号処理装置。
  10. 【請求項10】 前記境界判定手段は、予め設定され閾
    値と前記測定値を比較することにより、前記基準となる
    セグメントが前記シーンの境界であるか否かを判定する
    ことを特徴とする請求項1に記載のAV信号処理装置。
  11. 【請求項11】 供給されたAV信号の内容の意味構造
    を反映するパターンを検出して解析し、意味のある区切
    りであるシーンを検出するAV信号処理装置のAV信号
    処理方法において、 前記AV信号を構成する一連のフレームによって形成さ
    れるセグメントの特徴量を抽出する特徴量抽出ステップ
    と、 基準となるセグメントと他のセグメントとの前記特徴量
    の類似性を測定するための測定基準を算出する算出ステ
    ップと、 前記測定基準を用いて、前記基準となるセグメントと前
    記他のセグメントとの前記類似性を測定する類似性測定
    ステップと、 類似性測定ステップの処理で測定された前記類似性を用
    いて、前記基準となるセグメントが前記シーンの境界で
    ある可能性を示す測定値を計算する測定値計算ステップ
    と、 前記測定値計算ステップの処理で計算された前記測定値
    の時間的パターンの変化を解析し、解析結果に基づいて
    前記基準となるセグメントが前記シーンの境界であるか
    否かを判定する境界判定ステップとを含むことを特徴と
    するAV信号処理方法。
  12. 【請求項12】 供給されたAV信号の内容の意味構造
    を反映するパターンを検出して解析し、意味のある区切
    りであるシーンを検出するコンピュータに、 前記AV信号を構成する一連のフレームによって形成さ
    れるセグメントの特徴量を抽出する特徴量抽出ステップ
    と、 基準となるセグメントと他のセグメントとの前記特徴量
    の類似性を測定するための測定基準を算出する算出ステ
    ップと、 前記測定基準を用いて、前記基準となるセグメントと前
    記他のセグメントとの前記類似性を測定する類似性測定
    ステップと、 類似性測定ステップの処理で測定された前記類似性を用
    いて、前記基準となるセグメントが前記シーンの境界で
    ある可能性を示す測定値を計算する測定値計算ステップ
    と、 前記測定値計算ステップの処理で計算された前記測定値
    の時間的パターンの変化を解析し、解析結果に基づいて
    前記基準となるセグメントが前記シーンの境界であるか
    否かを判定する境界判定ステップとを実行させるプログ
    ラム。
  13. 【請求項13】 供給されたAV信号の内容の意味構造
    を反映するパターンを検出して解析し、意味のある区切
    りであるシーンを検出するAV信号処理用のプログラム
    であって、 前記AV信号を構成する一連のフレームによって形成さ
    れるセグメントの特徴量を抽出する特徴量抽出ステップ
    と、 基準となるセグメントと他のセグメントとの前記特徴量
    の類似性を測定するための測定基準を算出する算出ステ
    ップと、 前記測定基準を用いて、前記基準となるセグメントと前
    記他のセグメントとの前記類似性を測定する類似性測定
    ステップと、 類似性測定ステップの処理で測定された前記類似性を用
    いて、前記基準となるセグメントが前記シーンの境界で
    ある可能性を示す測定値を計算する測定値計算ステップ
    と、 前記測定値計算ステップの処理で計算された前記測定値
    の時間的パターンの変化を解析し、解析結果に基づいて
    前記基準となるセグメントが前記シーンの境界であるか
    否かを判定する境界判定ステップとを含むことを特徴と
    するコンピュータが読み取り可能なプログラムが記録さ
    れている記録媒体。
JP2001170611A 2000-07-14 2001-06-06 Av信号処理装置および方法、プログラム、並びに記録媒体 Expired - Fee Related JP4683253B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001170611A JP4683253B2 (ja) 2000-07-14 2001-06-06 Av信号処理装置および方法、プログラム、並びに記録媒体
US09/905,049 US7027508B2 (en) 2000-07-14 2001-07-13 AV signal processing apparatus for detecting a boundary between scenes, method and recording medium therefore
US11/326,203 US20060114992A1 (en) 2000-07-14 2006-01-05 AV signal processing apparatus for detecting a boundary between scenes, method, recording medium and computer program therefor

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-214238 2000-07-14
JP2000214238 2000-07-14
JP2001170611A JP4683253B2 (ja) 2000-07-14 2001-06-06 Av信号処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2002140712A true JP2002140712A (ja) 2002-05-17
JP4683253B2 JP4683253B2 (ja) 2011-05-18

Family

ID=26596060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001170611A Expired - Fee Related JP4683253B2 (ja) 2000-07-14 2001-06-06 Av信号処理装置および方法、プログラム、並びに記録媒体

Country Status (2)

Country Link
US (2) US7027508B2 (ja)
JP (1) JP4683253B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005094527A (ja) * 2003-09-19 2005-04-07 Seiko Epson Corp 複数のフレーム画像データに基づく静止画像データの生成処理
JP2006172437A (ja) * 2004-11-12 2006-06-29 Fuji Xerox Co Ltd データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
JP2008092594A (ja) * 2003-09-30 2008-04-17 Toshiba Corp 動画像処理装置
KR100914317B1 (ko) 2006-12-04 2009-08-27 한국전자통신연구원 오디오 신호를 이용한 장면 경계 검출 방법
JP2012023727A (ja) * 2010-07-12 2012-02-02 Mitsubishi Electric R&D Centre Europe Bv 意味的ビデオ境界の検出
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
JP2012227645A (ja) * 2011-04-18 2012-11-15 Nikon Corp 画像処理プログラム、画像処理方法、画像処理装置、撮像装置
JP2016109620A (ja) * 2014-12-09 2016-06-20 日本放送協会 音量監視装置及びプログラム
JP2017069708A (ja) * 2015-09-29 2017-04-06 富士通株式会社 動画像再生装置、動画像配信サーバ、動画像再生方法、動画像配信方法、動画像再生プログラム、及び動画像配信プログラム
KR20190005651A (ko) * 2017-07-07 2019-01-16 삼성에스디에스 주식회사 장면전환 검출 장치 및 방법

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60045699D1 (de) * 1999-01-29 2011-04-21 Sony Corp Daten-beschreibungs-verfahren und daten-bearbeitung-vorrichtung
US20030041111A1 (en) * 2001-08-27 2003-02-27 Delaney Beth M.P. System for emailing images with audio as a separate file
US7349477B2 (en) * 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
JP4189654B2 (ja) * 2003-04-18 2008-12-03 セイコーエプソン株式会社 画像処理装置
JP4235490B2 (ja) * 2003-06-04 2009-03-11 パイオニア株式会社 音楽番組内容メニュー作成装置及び方法
US7313269B2 (en) * 2003-12-12 2007-12-25 Mitsubishi Electric Research Laboratories, Inc. Unsupervised learning of video structures in videos using hierarchical statistical models to detect events
JP4166707B2 (ja) * 2004-01-20 2008-10-15 パイオニア株式会社 映像内容認識装置、録画装置、映像内容認識方法、録画方法、映像内容認識プログラム、および録画プログラム
JP2006025007A (ja) * 2004-07-06 2006-01-26 Fuji Photo Film Co Ltd 画像処理装置及び画像処理プログラム
WO2006016461A1 (ja) * 2004-08-09 2006-02-16 Nikon Corporation 撮像装置
JP4373961B2 (ja) * 2005-05-17 2009-11-25 株式会社東芝 映像録画再生装置及び映像録画再生方法
FR2894692B1 (fr) * 2005-12-08 2008-06-13 Thomson Licensing Sas Procede d'identification d'un document enregistre par affichage et selection d'images clefs, et recepteur associe.
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US8214374B1 (en) * 2011-09-26 2012-07-03 Limelight Networks, Inc. Methods and systems for abridging video files
US8396878B2 (en) 2006-09-22 2013-03-12 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
US7956893B2 (en) * 2006-12-11 2011-06-07 Mavs Lab. Inc. Method of indexing last pitching shots in a video of a baseball game
KR100963005B1 (ko) * 2008-07-09 2010-06-10 한국전자통신연구원 자유시점 av 서비스에 따른 파일 생성 방법
WO2011106440A1 (en) * 2010-02-23 2011-09-01 Loma Linda University Medical Center Method of analyzing a medical image
US9064538B2 (en) * 2011-04-07 2015-06-23 Infosys Technologies, Ltd. Method and system for generating at least one of: comic strips and storyboards from videos
CN102509338B (zh) * 2011-09-20 2014-05-07 北京航空航天大学 一种基于轮廓骨架图的视频场景行为生成方法
US9110562B1 (en) * 2012-07-26 2015-08-18 Google Inc. Snapping a pointing-indicator to a scene boundary of a video
CN103577488B (zh) * 2012-08-08 2018-09-18 莱内尔系统国际有限公司 用于增强的视觉内容数据库检索的方法和系统
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US10834470B2 (en) * 2014-01-17 2020-11-10 Telefonaktiebolaget Lm Ericsson (Publ) Processing media content with scene changes
CN104320670A (zh) * 2014-11-17 2015-01-28 东方网力科技股份有限公司 一种网络视频的摘要信息提取方法及系统
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
KR101650153B1 (ko) * 2015-03-19 2016-08-23 네이버 주식회사 만화 데이터 편집 방법 및 만화 데이터 편집 장치
US10074015B1 (en) 2015-04-13 2018-09-11 Google Llc Methods, systems, and media for generating a summarized video with video thumbnails
US11200536B2 (en) * 2018-09-07 2021-12-14 Texas Tech University System Systems and methods for predictively managing collections of items
US11150923B2 (en) 2019-09-16 2021-10-19 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing manual thereof
US11880408B2 (en) 2020-09-10 2024-01-23 Adobe Inc. Interacting with hierarchical clusters of video segments using a metadata search
US11810358B2 (en) 2020-09-10 2023-11-07 Adobe Inc. Video search segmentation
US11631434B2 (en) 2020-09-10 2023-04-18 Adobe Inc. Selecting and performing operations on hierarchical clusters of video segments
US11455731B2 (en) 2020-09-10 2022-09-27 Adobe Inc. Video segmentation based on detected video features using a graphical model
US11887629B2 (en) 2020-09-10 2024-01-30 Adobe Inc. Interacting with semantic video segments through interactive tiles
US11450112B2 (en) 2020-09-10 2022-09-20 Adobe Inc. Segmentation and hierarchical clustering of video
US11630562B2 (en) * 2020-09-10 2023-04-18 Adobe Inc. Interacting with hierarchical clusters of video segments using a video timeline
US11887371B2 (en) 2020-09-10 2024-01-30 Adobe Inc. Thumbnail video segmentation identifying thumbnail locations for a video

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08227462A (ja) * 1995-02-21 1996-09-03 Hitachi Ltd 動画像の変化点検出方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708767A (en) * 1995-02-03 1998-01-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
JP3780623B2 (ja) * 1997-05-16 2006-05-31 株式会社日立製作所 動画像の記述方法
JPH11103441A (ja) * 1997-09-26 1999-04-13 Matsushita Electric Ind Co Ltd クリップ表示方法とその表示装置
US6493042B1 (en) * 1999-03-18 2002-12-10 Xerox Corporation Feature based hierarchical video segmentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08227462A (ja) * 1995-02-21 1996-09-03 Hitachi Ltd 動画像の変化点検出方法及び装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4529397B2 (ja) * 2003-09-19 2010-08-25 セイコーエプソン株式会社 複数のフレーム画像データに基づく静止画像データの生成処理
JP2005094527A (ja) * 2003-09-19 2005-04-07 Seiko Epson Corp 複数のフレーム画像データに基づく静止画像データの生成処理
JP2008092594A (ja) * 2003-09-30 2008-04-17 Toshiba Corp 動画像処理装置
JP4491009B2 (ja) * 2003-09-30 2010-06-30 株式会社東芝 動画像処理装置
JP2006172437A (ja) * 2004-11-12 2006-06-29 Fuji Xerox Co Ltd データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
KR100914317B1 (ko) 2006-12-04 2009-08-27 한국전자통신연구원 오디오 신호를 이용한 장면 경계 검출 방법
JP2012023727A (ja) * 2010-07-12 2012-02-02 Mitsubishi Electric R&D Centre Europe Bv 意味的ビデオ境界の検出
US8942540B2 (en) 2011-01-05 2015-01-27 Panasonic Intellectual Property Corporation Of America Interesting section extracting device, interesting section extracting method
WO2012093430A1 (ja) * 2011-01-05 2012-07-12 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
JPWO2012093430A1 (ja) * 2011-01-05 2014-06-09 パナソニック株式会社 興味区間抽出装置、興味区間抽出方法
JP5658285B2 (ja) * 2011-01-05 2015-01-21 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 興味区間抽出装置、興味区間抽出方法
JP2012227645A (ja) * 2011-04-18 2012-11-15 Nikon Corp 画像処理プログラム、画像処理方法、画像処理装置、撮像装置
JP2016109620A (ja) * 2014-12-09 2016-06-20 日本放送協会 音量監視装置及びプログラム
JP2017069708A (ja) * 2015-09-29 2017-04-06 富士通株式会社 動画像再生装置、動画像配信サーバ、動画像再生方法、動画像配信方法、動画像再生プログラム、及び動画像配信プログラム
KR20190005651A (ko) * 2017-07-07 2019-01-16 삼성에스디에스 주식회사 장면전환 검출 장치 및 방법
KR102235386B1 (ko) * 2017-07-07 2021-04-01 삼성에스디에스 주식회사 장면전환 검출 장치 및 방법

Also Published As

Publication number Publication date
US7027508B2 (en) 2006-04-11
JP4683253B2 (ja) 2011-05-18
US20060114992A1 (en) 2006-06-01
US20020061136A1 (en) 2002-05-23

Similar Documents

Publication Publication Date Title
JP4683253B2 (ja) Av信号処理装置および方法、プログラム、並びに記録媒体
EP1081960B1 (en) Signal processing method and video/voice processing device
US9734407B2 (en) Videolens media engine
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
US8938393B2 (en) Extended videolens media engine for audio recognition
US8090200B2 (en) Redundancy elimination in a content-adaptive video preview system
JP4201454B2 (ja) 動画要約生成方法及び動画要約生成装置
KR101237229B1 (ko) 콘텐츠 처리 장치 및 콘텐츠 처리 방법
JP4332988B2 (ja) 信号処理装置及び方法
KR20020050264A (ko) 컬러링된 슬라이더 바를 제공하는 재생 장치
US20070198508A1 (en) Information processing apparatus, method, and program product
EP1067786B1 (en) Data describing method and data processor
JP2000285243A (ja) 信号処理方法及び映像音声処理装置
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
JP4702577B2 (ja) コンテンツ再生順序決定システムと、その方法及びプログラム
JPH10187182A (ja) 映像分類方法および装置
US20090030947A1 (en) Information processing device, information processing method, and program therefor
JPH11259061A (ja) デジタル動画像処理装置およびデジタル動画像処理方法
JP2005536937A (ja) 一連のビデオ画像中でのコンテンツ特性の検出用のユニット及び方法
JP2005136810A (ja) コンテンツ品質評価装置、その方法及びそのプログラム
KR100863122B1 (ko) 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
JP4032122B2 (ja) 映像編集装置、映像編集プログラム、記録媒体、および映像編集方法
JP3408800B2 (ja) 信号検出方法、装置及びそのプログラム、記録媒体
KR100642888B1 (ko) 스토리 이해 가능한 서사 구조 중심의 비디오 요약생성방법 및 그 방법을 구현하기 위한 프로그램이 저장된기록매체
JP2009135754A (ja) ダイジェスト作成装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080311

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110113

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees