JP4224917B2 - 信号処理方法及び映像音声処理装置 - Google Patents

信号処理方法及び映像音声処理装置 Download PDF

Info

Publication number
JP4224917B2
JP4224917B2 JP2000038247A JP2000038247A JP4224917B2 JP 4224917 B2 JP4224917 B2 JP 4224917B2 JP 2000038247 A JP2000038247 A JP 2000038247A JP 2000038247 A JP2000038247 A JP 2000038247A JP 4224917 B2 JP4224917 B2 JP 4224917B2
Authority
JP
Japan
Prior art keywords
video
segment
segments
audio
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000038247A
Other languages
English (en)
Other versions
JP2000307996A (ja
Inventor
ウォーカー トビー
弘 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000038247A priority Critical patent/JP4224917B2/ja
Publication of JP2000307996A publication Critical patent/JP2000307996A/ja
Application granted granted Critical
Publication of JP4224917B2 publication Critical patent/JP4224917B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、信号を構成する互いに異なる任意のセグメント間の類似性を測定する信号処理方法及びビデオ信号を構成する互いに異なる任意の映像及び/又は音声セグメント間の類似性を測定する映像音声処理装置に関する。
【0002】
【従来の技術】
例えばビデオデータに録画されたテレビ番組といった大量の異なる映像データにより構成される映像アプリケーションの中から、興味のある部分等の所望の部分を探索して再生したい場合がある。
【0003】
このように、ビデオデータといったマルチメディアデータを探索する場合には、多くのコンピュータアプリケーションで用いられているデータとは本質的に異なり、正確に一致するもの同士を発見することは期待できず、むしろ、似ているものを探索することとなる。そのため、マルチメディアデータの内容に基づく探索に関する技術のうち、ほとんど全ての技術は、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”等に記載されているように、類似性に基づく探索を基礎としている。
【0004】
このような類似性に基づく探索を行う技術においては、まず内容の類似性が数値的に測定される。そして、この技術においては、類似性の測定結果を用いて、対象とするアイテムとの類似性測定基準に基づいて類似性の高いものから順位付けする。その結果得られたリストにおいては、最も類似しているもの同士は、そのリストの先頭付近に現れることとなる。
【0005】
このようなマルチメディアデータの内容に基づく探索方法においては、映像データ並びに音声データ、及び本質的には信号処理によるビデオ処理技術を用いて、まずマルチメディアデータから低レベルの特徴量を抽出する。そして、この探索方法においては、抽出した特徴量を用いて、類似性に基づく探索のために必要となる類似性測定基準を求める。
【0006】
マルチメディアデータの内容に基づく探索に関する研究は、最初は、イメージ(静止画像)の探索に焦点を当てたものが多い。このような研究においては、イメージ同士の類似性を測定するために、いわゆる色、テクスチャ、形状といった多数の低レベルな映像特徴量を用いている。
【0007】
また、最近では、ビデオデータについての内容に基づく探索に関する研究も行われている。ビデオデータの場合には、通常、長いビデオデータの中において一致する部分を探索することから、ビデオCBR(Contents Base Retrieval)に関するほとんどの技術においては、まずビデオデータをセグメントという連続するフレームのひと続き単位に分割する。これらのセグメントは、類似性に基づく探索を行う際の対象となるものである。このビデオデータをセグメントに分割する既存の方法としては、例えば上述した“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、通常、ショット検出アルゴリズムを用いて、ビデオデータをいわゆるショットに分割するものがある。そして、探索を行う際には、得られたショットから類似性に基づく比較を可能とする特徴量を抽出する。
【0008】
しかしながら、ショットにおける際立った特徴量を捉え、且つ、類似性に基づくショット同士の比較を可能とするような特徴量を検出することは困難である。そこで、ビデオデータについての内容に基づく探索への既存のアプローチとしては、通常、各ショットから代表フレームを抽出し、これらの代表フレームの集合に対して探索を行うことで代替される。これらの代表フレームは、通常、キーフレームと称されるものである。すなわち、ショット内容に基づく探索技術は、ショット・キーフレームの比較を行うことによって、イメージ内容に基づく探索技術に帰着される。例えば、ショットについてキーフレームからカラーヒストグラムを抽出した場合、これらキーフレームのヒストグラムを用いて2つのショットの類似性を測定することができる。このアプローチは、キーフレームを選択する際にも有効である。
【0009】
簡単なアプローチとしては、各ショットから固定的に1つの決まったフレームを選択するものがある。また、多数のフレームを選択するための他の方法としては、“B.L. Yeo and B. Liu, Rapid scene analysis on compressed video, IEEE Transactions on Circuits and Systems for Video Technology, vol.5, no.6, pp.533, December 1995”に記載されているフレーム差や、“W. Wolf, Key frame selection by motion analysis, Proceedings of IEEE Int'l Conference on Acoustic, Speech and Signal Proceeding, 1996”に記載されている運動分析や、“Y. Zhuang, Y. Rui, T. Huang and S. Mehrotra, Adaptive key frame extraction using unsupervised clustering, Proceedings of IEEE Int'l Conference on Image Proceeding, Chicago, IL, , October 4-7 1998”に記載されているクラスタリング技術を用いるものがある。
【0010】
【発明が解決しようとする課題】
ところで、キーフレームに基づく上述した探索技術は、ショットの類似性に基づく探索に限定されるものである。しかしながら、例えば代表的な30分のテレビ番組中には、数百ものショットが含まれているため、上述した従来の探索技術においては、抽出された膨大な数のショットを調べる必要があり、このような膨大な数のデータを探索対象とすることは大きな負担であった。
【0011】
そのため、例えばセグメントを或る関連に基づいてまとめたシーンやプログラムといった、ショットよりも長い映像セグメント及び音声セグメント同士の類似性を比較することによって、負担を軽減する必要があった。
【0012】
しかしながら、従来の探索技術は、例えば、特定のコマーシャルに類似したセグメントを探索したり、或るテレビ番組において、同一演技を描いた関連ショット群で構成された或るシーンに類似したシーンを探索するといった要求に応えるものではなかった。
【0013】
このように、ショットのレベルよりも高いレベルのセグメントの類似性に基づく比較を論じた刊行済みの研究は、ほとんど見受けられない。この種の唯一の研究としては、“J. Kender and B.L. Yeo, Video Scene Segmentation via Continuous Video Coherence, IBM Research Report, RC21061, December 18, 1997”がある。この研究は、2つのシーンの類似性を比較するための方法を提供している。この研究における探索技術は、ビデオデータの全てのショットをカテゴリに分類した後、各シーンについて、各カテゴリに属するシーン中のショットの数を数える。得られた結果は、標準の類似性測定基準を用いて比較することが可能なヒストグラムである。この研究では、類似するシーン同士の類似性を比較する上で、ある程度成功したことが報告されている。
【0014】
しかしながら、この方法は、ビデオデータの全てのショットを分類する必要があった。全てのショットを分類することは困難なものであって、通常、膨大な計算を要する技術を必要とする。
【0015】
また、この方法は、たとえ全てのショットを正確に分類することができたとしても、カテゴリ同士の類似性を考慮していないことから、紛らわしい結果を与える可能性があった。例えば、ビデオデータのショットが3つのカテゴリA,B,Cに分割されるものとし、或るシーンXが、カテゴリB及びカテゴリCのショットを全く有しておらず、カテゴリAのショットを2つ有するものとし、異なるシーンYが、カテゴリA及びカテゴリCのショットを全く有しておらず、カテゴリBのショットを2つ有するものとする。この場合、この方法においては、シーンXとシーンYとの類似性がないものと判断する。ところが、カテゴリAとカテゴリBとのショットが互いに類似している場合には、類似性の値は、ゼロであるべきではない。すなわち、この方法においては、ショット自体の類似性を考慮していないことから、このような誤った判断がなされることがあった。
【0016】
本発明は、このような実情に鑑みてなされたものであり、上述した従来の探索技術の問題を解決し、種々のビデオデータにおける様々なレベルのセグメントの類似性に基づく探索を行う信号処理方法及び映像音声処理装置を提供することを目的とするものである。
【0017】
【課題を解決するための手段】
上述した目的を達成する本発明にかかる信号処理方法は、映像信号、音声信号のうち少なくとも1つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程とを備えることを特徴としている。
【0018】
このような本発明にかかる信号処理方法は、セグメントに関するシグネチャを抽出する。
【0019】
また、上述した目的を達成する本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び/又は音声セグメントに含まれる映像及び/又は音声サブセグメントのうち、上記映像及び/又は音声セグメントの内容を代表する映像及び/又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、上記映像及び/又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備えることを特徴としている。
【0020】
このように構成された本発明にかかる映像音声処理装置は、映像及び/又は音声セグメントに関するシグネチャを抽出する。
【0021】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。
【0022】
本発明を適用した実施の形態は、ビデオデータから所望の内容を自動的に探し出して抽出するために、ビデオデータ内の任意の集合を代表するデータを自動的に抽出する映像音声処理装置である。この映像音声処理装置の具体的な説明を行う前に、ここではまず本発明において対象とするビデオデータに関する説明を行う。
【0023】
本発明において対象とするビデオデータについては、図1に示すようにモデル化し、フレーム、セグメント、プログラムといったレベルに階層化された構造を有するものとする。すなわち、ビデオデータは、その最上位層でありビデオデータ全体を表すプログラムと、その最下位層である一連のフレームとの間を、複数階層からなるセグメントにより構成されるものとする。
【0024】
ビデオデータにおけるセグメントとしては、連続するフレームのひと続きから形成されるものや、また、このようなフレームの並びを或る関連に基づきシーンとしてまとめたものもあり、さらには、このようなシーンを或る関連に基づきさらにまとめたものもある。また、広い意味では、単一のフレームもセグメントの一種であると考えることができる。
【0025】
すなわち、ビデオデータにおけるセグメントとは、ここでは、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係に総称したものであって、ビデオデータのストリームの何らかの連続的部分であると定義する。勿論、セグメントは、上述した連続するフレームのひと続きから形成されるものと、シーンとの中間構造といったように、何らかの意味を持った中間的な構造であってもよい。一方、例えば、任意のセグメントXが、異なるセグメントYの中に完全に包含されるものである場合には、セグメントXは、セグメントYのサブセグメントであると定義する。
【0026】
このようなビデオデータは、一般に、映像及び音声の両方の情報を含む。すなわち、このビデオデータにおいてフレームは、単一の静止画像である映像フレームと、一般に数十〜数百ミリセカンド/長といった短時間において標本化された音声情報を表す音声フレームとを含むものとする。
【0027】
また、セグメントは、映像セグメントと音声セグメントとを含むものである。すなわち、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きからなるいわゆるショットや、この特徴を表す特徴量を用いて、ショットを意味のあるまとまりにグループ化したシーン等の映像セグメントを含む。さらに、セグメントは、例えば、一般によく知られている方法により検出されたビデオデータ中の無音期間により境界を定められて形成されるものや、“D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report”に記載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成されるものや、“S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30”に記載されているように、2枚の連続する音声フレーム間の或る特徴における大きな変化を検出する音声カット検出を用いて決定されるものや、一連の音声フレームを何らかの特徴量に基づいて意味のあるまとまりにグループ化したものといった音声セグメントを含む。
【0028】
本発明を適用した実施の形態として示す映像音声処理装置は、上述したビデオデータにおけるセグメントの内容を特徴付ける一般的な特徴量であるシグネチャ(Signature)を自動的に抽出するとともに、2つのシグネチャの類似性を比較するものであり、映像セグメント及び音声セグメントの両方に適用できるものである。得られる類似性測定基準は、セグメントの探索及び分類を行うための汎用ツールを与えるものである。
【0029】
ここで、シグネチャについて説明する。シグネチャとは、一般に、或る対象を識別するものであって、その対象よりも少ない情報によって、その対象を高い精度で識別する何らかのデータである。例えば、人間に関するシグネチャとしては、指紋がその一種として挙げられる。すなわち、或る物体に付着した2組の指紋の類似性を比較することは、同一人物がその指紋を付けたか否かを正確に判定することを可能とする。
【0030】
同様に、映像セグメント及び音声セグメントに関するシグネチャは、映像セグメント及び音声セグメントを識別することを可能とするデータである。このシグネチャは、ここでは、セグメントを分割して得られる上述したサブセグメントの重み付き集合として与えられるものとする。例えば、或るセグメントXに関するシグネチャSは、後述するように、セグメントXを代表するサブセグメントを要素とする代表セグメントRと、この代表セグメントRの各要素に重みを割り当てる関数である重み付け関数Wとで表される対<R,W>であると定義される。
【0031】
以下の説明では、いわゆる代表フレームを表す用語であるrフレーム(Representative frame)を拡張して、代表セグメントをrセグメントと記すこととする。これより、或るシグネチャが含む全てのrセグメントの集合は、そのシグネチャのrセグメントと称される。また、rセグメントのタイプを、そのシグネチャのrタイプと称す。そして、シグネチャのrタイプを明示する必要がある場合には、そのタイプを“シグネチャ”という用語の前に付ける。例えば、映像フレームシグネチャは、そのrセグメントが全て映像フレームであるシグネチャを示す。また、ショットシグネチャは、そのrセグメントが上述したショットであるシグネチャを示す。一方、或るシグネチャSにより記述されるセグメントを、当該シグネチャSの対象セグメントと称す。シグネチャは、映像セグメント、音声セグメント、或いはこれらの両方の組み合わせを含むrセグメントを用いることができる。
【0032】
このようなシグネチャは、セグメントを有効に表す幾つかの性質を有する。
【0033】
まず、シグネチャは、最も重要な性質として、ショット等の短いセグメントを記述するのみならず、或るシーン全体或いはビデオデータ全体といったさらに長いセグメントを記述することを可能とする。
【0034】
また、長い対象セグメントを特徴付けるために必要なrセグメントは、通常、僅かの数に過ぎない。すなわち、シグネチャは、僅かのデータ量でセグメントを特徴付けることを可能とする。
【0035】
さらに、シグネチャにおいては、各rセグメントに割り当てられた重みが、各rセグメントの重要性又は関連性を表し、対象とするセグメントを識別することを可能とする。
【0036】
さらにまた、フレームのみならず、ショットやシーン等のいかなるセグメントもrセグメントとして用いることができるため、シグネチャとは、いわゆるキーフレームという概念を拡張して一般化したものに他ならないといえる。
【0037】
また、セグメントをより単純なサブセグメントの集合に分解できる場合には、それらのサブセグメントをrセグメントとして用いることができる。
【0038】
このようなシグネチャは、コンピュータ支援・ユーザ・インターフェースを介して、ユーザが任意に作成することもできるが、ほとんどのアプリケーションにおいては、自動的に抽出されることが望ましい。
【0039】
ここで、シグネチャの実例について幾つか説明する。
【0040】
まず、ショットについての映像フレームシグネチャは、図2に示すように、そのrセグメントが静止画像であるシグネチャである。このようなシグネチャを作成する1つの方法は、各ショットについてのキーフレームをrセグメントとして用い、当該キーフレームにほぼ一致するショット内映像フレームの、ショット内全映像フレームに対する割合を重み付けとして用いることである。
【0041】
また、シーンについてのショットシグネチャは、図3に示すように、そのrセグメントがショットであるシグネチャである。ここで、シーン中のショットをn個のグループに分類できるとする。この場合、n個のrセグメントからなるシグネチャを作成することができる。すなわち、各グループについて、或る1つのショットをrセグメントとして振る舞うものとして選択する。ここで、各rセグメントについての重み付けであるが、後述するように、シーンを構成する全ショット数に対する各グループを構成するショット数の割合として与えることができる。
【0042】
さらに、シグネチャは、視覚情報のみを用いることには限定されず、図4に示すように、シーンについての音声セグメントシグネチャもシグネチャの実例として挙げることができる。ここで、シーンについての音声セグメントシグネチャとは、音声セグメントの集合をrセグメントとして用いるものである。例えば、互いに会話をしている複数人からなるシーンを考える。この場合、話し手を自動的に区別することが可能であれば、各話し手の短いスピーチセグメントをrセグメントとして使うことができる。
【0043】
さらにまた、シグネチャは、短いセグメントを記述するために役立つばかりではなく、ビデオ全体を記述するためにも用いることができる。例えば、複数のショットを適宜選択することによって、特定のテレビ番組を他のテレビ番組から明確に区別することが可能となる。このようなショットは、当該テレビ番組で繰り返し使用されるものであり、例えば、図5に示すようなニュース番組における始まりのロゴ・ショットと、ニュースキャスターを示すショットとがこれに相当する。この場合、重み付けは、ショットの重要性を表すことから、ロゴ・ショットとニュースキャスターのショットとに同じ重みを割り当てることが適当である。
【0044】
このようなシグネチャを自動的に抽出するとともに、2つのシグネチャの類似性を比較する映像音声処理装置10は、図6に示すように、各部の動作を制御するとともに、ROM12に記憶されているプログラムを実行してセグメントのシグネチャを抽出する実行手段であるCPU(Central Processing Unit)11と、シグネチャを抽出するためにCPU11が実行するプログラムや、使用する数値等を記憶しておく読み出し専用のメモリであるROM(Read Only Memory)12と、入力したセグメントを分割して得られるサブセグメントや、rセグメント等を記憶する作業領域としての機能を有するメモリであるRAM(Random Access Memory)13と、作成したシグネチャ等を必要に応じて図示しない記録媒体に対して記録及び/又は再生するHDD(Hard Disk Drive)14と、シグネチャを求めるセグメントを入力するとともに、rセグメントの集合とこれらの各rセグメントについての重みとをシグネチャとして出力するインターフェース(以下、I/Fと略記する。)15とを備え、これらの各部は、バス16により相互に接続されている。
【0045】
このような映像音声処理装置10は、CPU11がROM12に記憶されているプログラムを読み出して実行し、図7に示すような一連の処理を行うことによって、シグネチャを抽出する。
【0046】
まず、映像音声処理装置10は、同図に示すように、ステップS1において、I/F15を介して入力したセグメントをサブセグメントに分割する。ここで分割されて得られたサブセグメントは、rセグメントの候補である候補rセグメントとなる。
【0047】
映像音声処理装置10は、セグメントをサブセグメントに分割する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。このような方法は、使われるサブセグメントのタイプに大きく依存する。ここでは、セグメントをさらに小さいセグメントの集合に分解する方法を用いる。具体的には、映像音声処理装置10は、例えば、rセグメントが映像フレームである場合には、容易に分解することができ、そのセグメント中の全ての映像フレーム(静止画像)の集合がサブセグメントの候補集合となる。また、映像音声処理装置10は、rセグメントがショットである場合には、例えば“B. Furht(Editor), Handbook of Multimedia Computing, CRC Press, 1998”や“J. Kender and B.L. Yeo, Video Scene Segmentation via Continuous Video Coherence, IBM Research Report, RC21061, December 18, 1997”に記載されているような既存のアルゴリズムを用いて、セグメントをショットに分割する。さらに、映像音声処理装置10は、サブセグメントが音声セグメントである場合には、例えば上述した“D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report”や“S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30”に記載されているようなオーディオ分割手法を用いて、サブセグメント間の境界を検出する。
【0048】
このように、映像音声処理装置10は、セグメントのタイプに依存せずにセグメントをサブセグメントに分割する。なお、映像音声処理装置10は、セグメントがフレームであった場合には、この分割工程を行う必要はない。
【0049】
次に、映像音声処理装置10は、ステップS2において、互いに類似したサブセグメントをグループ化する。すなわち、互いに類似したサブセグメントのグループは、対象とするセグメントの内容を最も良好に表すと考えられることから、映像音声処理装置10は、互いに類似したサブセグメントを検出してグループ化する。なお、互いに類似したサブセグメントとは、各サブセグメントが有する後述する特徴量において、それらの非類似性測定基準の値が小さいサブセグメント同士のことを示す。
【0050】
映像音声処理装置10は、ステップS1と同様に、互いに類似したサブセグメントをグループ化する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。映像音声処理装置10は、例えば、“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されてよく知られているk平均値クラスタリング法(k-means-clustering method)やk−メドイドアルゴリズム法(k-medoids algorithm method)といったクラスタリング・アルゴリズムを用いて、候補rセグメントの集合内に類似グループを生成する。このようなクラスタリング・アルゴリズムのほとんどは、2つのサブセグメントを比較するために、サブセグメントから抽出した後述する特徴量に関する非類似性測定基準のみを必要とする。映像音声処理装置10は、映像フレームやショット等について広く知られている類似性に基づく測定基準のいずれをも用いることができる。
【0051】
ここで、特徴量について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメントの属性である。映像音声処理装置10は、いかなる特徴の具体的詳細にも依存するものではないが、当該映像音声処理装置10において用いて効果的であると考えられる特徴量としては、例えば、以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。
【0052】
映像特徴量として既知のものは多数存在し、例えば色特徴量(ヒストグラム)や映像相関がある。
【0053】
映像における色は、2つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、よく知られている。ここで、カラーヒストグラムとは、例えばHSVやRGB等の3次元色空間をn個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、n次元ベクトルが与えられる。圧縮されたビデオデータについては、例えばU.S. Patent #5,708,767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。
【0054】
サブセグメントからの特徴量としてヒストグラムを抽出する場合には、映像音声処理装置10は、サブセグメントを構成する映像におけるもともとのYUV色空間を、色チャンネル当たり2ビットでサンプルして構成した、長さ22・3=64次元のヒストグラムベクトルを得る。
【0055】
このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置10では、もう1つの映像特徴量として、映像相関を計算することもできる。複数の類似セグメントが互いに交差した構造は、それがまとまった1つの構造であることの有力な指標となる。例えば会話場面において、カメラの位置は、2人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケール映像の縮小画像に基づく相関がサブセグメントの類似性の良好な指標となることから、映像音声処理装置10は、元の映像をM×Nの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、MとNは、両方とも小さい値で十分であり、例えば8×8である。すなわち、これらの縮小グレイスケール映像は、MN次元の特徴量ベクトルとして解釈される。
【0056】
さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量である。音声特徴量としては、例えば、周波数解析、ピッチ、レベルが挙げられる。これらの音声特徴量は、種々の文献により知られているものである。
【0057】
まず、音声特徴量として、フーリエ変換等の周波数解析を行うことにより得られる、単一の音声フレームにおける周波数情報の分布が挙げられる。映像音声処理装置10は、例えば、1つの音声サブセグメントにわたる周波数情報の分布を表すために、FFT(Fast Fourier Transform;高速フーリエ変換)成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。
【0058】
また、映像音声処理装置10は、平均ピッチや最大ピッチといったピッチや、平均音量や最大音量等の音声レベルもまた、音声サブセグメントを表す有効な音声特徴量として用いることができる。
【0059】
さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、特に映像特徴量でもなく音声特徴量でもないが、映像音声処理装置10において、サブセグメントの特徴を表すのに有用な情報を与えるものである。映像音声処理装置10は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。
【0060】
映像音声処理装置10は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長とは、セグメントにおける時間長である。一般に、シーンは、そのシーン固有のリズム特徴を有する。そのリズム特徴は、シーン内のセグメント長の変化として現れる。例えば、迅速に連なった短いセグメントは、コマーシャルを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメントが互いに類似しているという特徴がある。映像音声処理装置10は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。
【0061】
また、映像音声処理装置10は、映像音声共通特徴量として、アクティビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、アクティビティは、カメラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。
【0062】
このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することにより間接的に計算される。ここで、フレームiとフレームjとの間で測定された特徴量Fに対する非類似性測定基準をdF(i,j)と定義すると、映像アクティビティVFは、次式(1)のように定義される。
【0063】
【数1】
Figure 0004224917
【0064】
式(1)において、bとfは、それぞれ、1セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置10は、具体的には、例えば上述したヒストグラムを用いて、映像アクティビティVFを計算する。
【0065】
映像音声処理装置10は、このような特徴量をサブセグメントから抽出して互いに類似したサブセグメントをクラスタリング・アルゴリズムにより検出してグループ化する。
【0066】
なお、2つのサブセグメントの類似性を測定する実数値を算出する関数である非類似性測定基準については、後述する。
【0067】
次に、映像音声処理装置10は、ステップS3において、サブセグメントをグループ化して得た類似グループの中から、シグネチャの対象グループを選択する。ここで、映像音声処理装置10は、セグメントの正確な特徴付けのために必要となるrセグメントの数を決定する際に、各グループへ分類されたサブセグメントの数を考慮する。
【0068】
具体的には、映像音声処理装置10は、シグネチャの対象グループを選択するために、グループ中に存在するサブセグメントの個数に対して閾値を設定する。
【0069】
映像音声処理装置10においては、通常、この閾値は、全サブセグメント数に対する、或るグループに含まれるサブセグメント数の比として与えられる。すなわち、映像音声処理装置10は、得られたグループのうち、その要素数が閾値を上回るグループを、シグネチャの対象グループとする。
【0070】
一方、映像音声処理装置10は、任意の定数kをrセグメントの個数として設定することもできる。この場合には、映像音声処理装置10は、全てのグループを、それが含む要素数の順に並べ、要素数が大きい順にk個のグループのみをシグネチャの対象グループとして選択する。
【0071】
このようにして、映像音声処理装置10は、グループの中から、シグネチャの対象グループを選択する。
【0072】
次に、映像音声処理装置10は、ステップS4において、rセグメントを選び取る。すなわち、映像音声処理装置10は、ステップS3にて選択された各グループを構成するサブセグメントの中から1つのサブセグメントのみを選択し、そのサブセグメントをrセグメントとして、シグネチャの要素とする。
【0073】
映像音声処理装置10は、具体的には、各グループから任意のサブセグメントを選び取ることができる。或いは、映像音声処理装置10は、より洗練されたアプローチとして、各グループにおけるサブセグメントの平均値又は中央値(median)に対し、それに最も類似したサブセグメントをrセグメントとして選び取ることもできる。
【0074】
このようにして、映像音声処理装置10は、選択した各対象グループから、rセグメントを選び取る。
【0075】
そして、映像音声処理装置10は、ステップS5において、rセグメントのそれぞれについての重みを算出する。映像音声処理装置10は、重みを、各rセグメントが対応するグループが含むサブセグメント数の、総数に対する比として設定する。
【0076】
映像音声処理装置10は、以上のような一連の工程を全てのセグメントに対して行うことによって、各セグメントに関するシグネチャを抽出する。
【0077】
このような一連の処理をさらに具体的に説明するために、図8に示す或るシーンに関するショットシグネチャを抽出する例について説明する。
【0078】
このシーンは、2人の人物が互いに会話している場面を示すものであり、2人の人物の両方を示すショットから始まり、以降、2人の人物が話し手に応じて交互に出現するショットが続いている。
【0079】
このようなシーンの場合、映像音声処理装置10は、図7中ステップS1において、シーンをサブセグメントであるショットに分割する。すなわち、この場合には、映像音声処理装置10は、ショット検出方法を用いて、図8に示すような9個の異なるサブセグメントを検出して分割する。
【0080】
次に、映像音声処理装置10は、図7中ステップS2において、互いに類似したサブセグメントを分類してグループ化する。すなわち、この場合には、映像音声処理装置10は、ショットの視覚的な類似性に基づいて、図8に示したシーンにおける2人の人物の両方を示す第1番目のショットのみを要素とする第1のグループと、各話し手についての4ショットずつをまとめた第2、第3グループとの3つのグループに分類する。
【0081】
また、映像音声処理装置10は、図7中ステップS3において、シーンを特徴付けるために必要なグループを選択する。ここでは、図8に示したシーンにおける第1グループ乃至第3グループのいずれも重要であることから、映像音声処理装置10は、第1グループ乃至第3グループの全てをショットシグネチャに用いることを決定する。
【0082】
さらに、映像音声処理装置10は、図7中ステップS4において、各グループから1ショットをrセグメントとして選び取る。ここでは、映像音声処理装置10は、第1グループ乃至第3グループから、それぞれ、図9に示す3つのショットをrセグメントとして選び取る。
【0083】
そして、映像音声処理装置10は、図7中ステップS5において、第1グループ乃至第3グループのそれぞれについて、各グループに含まれるショット数の割合に応じた重みを算出する。この場合には、図8に示す9個のショットのうち、第1グループが1つのショットを要素とし、第2、第3グループがぞれぞれ4つのショットを要素とすることから、映像音声処理装置10は、第1グループ乃至第3グループのそれぞれについて、1/9,4/9,4/9の重み付けを得る。
【0084】
このようにして、映像音声処理装置10は、図8に示すシーンに関するシグネチャとして、図9に示すrセグメントと重みとを得る。
【0085】
つぎに、抽出したシグネチャを用いて、2つのセグメントの類似性を比較する方法について説明する。具体的には、2つのセグメントの類似性を、rセグメントに基づくシグネチャの類似性として定義する。ここで、実際には、上述した非類似性測定基準或いは類似性の度合い測定基準を定義することに注意する必要がある。
【0086】
ここでは、P={(rp1,wp1),・・・,(rp1,wpm)}及びQ={(rq1,wq1),・・・,(rq1,wqn)}が、それぞれのシグネチャであるものとする。(r,w)という表記は、上述したように、rセグメントと、それに付随する重み付け関数を表したものである。また、dR(r1,r2)を、2つのrセグメントについての非類似性測定基準とする。
【0087】
まず、ここでは、非類似性測定基準について説明することにする。非類似性測定基準は、その値が小さい場合は2つのセグメントが類似していることを示し、値が大きい場合は非類似であることを示す。非類似性測定基準dR(r1,r2)は、以下の式(2)で与える関係を満足させる必要がある。
【0088】
【数2】
Figure 0004224917
【0089】
ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものもあるが、“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”や“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されているように、一般には、多くの非類似性測定基準は、n次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユークリッド距離、内積、L1距離等である。ここで、特にL1距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置10は、L1距離を導入する。ここで、2つのn次元ベクトルをA,Bとした場合、A,B間のL1距離dL1(A,B)は、次式(3)で与えられる。
【0090】
【数3】
Figure 0004224917
【0091】
ここで、下付文字iは、n次元ベクトルA,Bのそれぞれのi番目の要素を示すものである。
【0092】
非類似性測定基準としては、上述したものの他にも、幾つかの例が知られているが、ここでは、それらの詳細は省略する。映像音声処理装置10は、上述したCPU11によって、上述したような非類似性測定基準により表される2つのシグネチャ間の類似性を測定し、これらの2つのシグネチャの対象セグメントの類似性を、それらのrセグメントの類似性に基づき、以下の方法のいずれかにより定義する。
【0093】
まず、映像音声処理装置10は、第1の方法として、次式(4)に示す重み付き最小値を用いて、2つのシグネチャ間の距離を算出する。
【0094】
【数4】
Figure 0004224917
【0095】
また、映像音声処理装置10は、第2の方法として、次式(5)に示す重み付き平均距離を用いて、2つのシグネチャ間の距離を算出する。
【0096】
【数5】
Figure 0004224917
【0097】
さらに、映像音声処理装置10は、第3の方法として、次式(6)に示す重み付き中央値距離を用いて、2つのシグネチャ間の距離を算出する。
【0098】
【数6】
Figure 0004224917
【0099】
さらにまた、映像音声処理装置10は、第4の方法として、“Y. Rubner, C. Tomasi and L.J. Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998”に記載されている距離計量法から応用して、静止画像についてのカラーショートメッセージの場合に用いた次式(7)に示すアース・ムーバ(Earth Mover)の距離を用いて、2つのシグネチャ間の距離を算出する。この方法では、m×nコスト・マトリックスCを定義する。ここで、Cijは、関数を最小にする値である。
【0100】
【数7】
Figure 0004224917
【0101】
なお、この式(7)を適用する際には、次式(8)に示す制約条件を満たす必要がある。
【0102】
【数8】
Figure 0004224917
【0103】
映像音声処理装置10は、“Y. Rubner, C. Tomasi and L.J. Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998”に記載されているアルゴリズムを用いることによって、この式(8)に示すような制約条件にしたがって、式(7)に示す関数を最小にするCijの値を検出することができる。映像音声処理装置10においては、2つのシグネチャ間の距離の値を式(7)に示す関数の最小値と定義する。
【0104】
映像音声処理装置10は、このような方法のいずれかによって、2つのセグメントの類似性を、rセグメントに基づくシグネチャの類似性として求める。そして、映像音声処理装置10は、近似的なセグメント間の類似性に基づいて、セグメントをグループ化するか否かを決定する。
【0105】
このようにすることによって、映像音声処理装置10は、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係にグループ化することができる。
【0106】
以上説明してきたように、本発明の実施の形態として示す映像音声処理装置10は、ビデオデータの様々な階層におけるシグネチャを自動的に抽出するとともに、2つのシグネチャの類似性を比較することによって、対応するセグメント間の類似性を比較することができるものである。この映像音声処理装置10は、ビデオデータの様々な階層におけるセグメントをグループ化することを可能とするものであって、異なるタイプのビデオデータにも適用できるものである。このように、映像音声処理装置10は、ビデオデータの任意の構造を自動的に探索して抽出するための汎用のツールとなり得るものである。
【0107】
なお、本発明は、上述した実施の形態に限定されるものではなく、例えば、互いに類似したサブセグメントをグループ化する際に用いる特徴量は、上述したもの以外でもよいことは勿論である。すなわち、本発明においては、何らかの情報に基づいて、互いに関連し合うサブセグメントをグループ化することができればよい。
【0108】
また、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【0109】
【発明の効果】
以上詳細に説明したように、本発明にかかる信号処理方法は、映像信号、音声信号のうち少なくとも1つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程とを備える。
【0110】
したがって、本発明にかかる信号処理方法は、セグメントに関するシグネチャを抽出することができ、このシグネチャを用いて、信号におけるセグメントの階層に関わらず、互いに異なるセグメント間の類似性を比較することができる。このことから、本発明にかかる信号処理方法は、種々の信号における様々な階層のセグメントに対し、類似性に基づいて所望の内容を持つセグメントの探索を行うことができる。
【0111】
また、本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び/又は音声セグメントに含まれる映像及び/又は音声サブセグメントのうち、上記映像及び/又は音声セグメントの内容を代表する映像及び/又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、上記映像及び/又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備える。
【0112】
したがって、本発明にかかる映像音声処理装置は、映像及び/又は音声セグメントに関するシグネチャを抽出することが可能であって、このシグネチャを用いて、ビデオ信号における映像及び/又は音声セグメントの階層に関わらず、互いに異なる映像及び/又は音声セグメント間の類似性を比較することが可能となる。このことから、本発明にかかる映像音声処理装置は、種々のビデオ信号における様々な階層の映像及び/又は音声セグメントに対し、類似性に基づいて所望の内容を持つ映像及び/又は音声セグメントの探索を行うことができる。
【図面の簡単な説明】
【図1】本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である。
【図2】ショットについての映像フレームシグネチャを説明する図である。
【図3】シーンについてのショットシグネチャを説明する図である。
【図4】シーンについての音声セグメントシグネチャを説明する図である。
【図5】テレビ番組についてのショットシグネチャを説明する図である。
【図6】本発明の実施の形態として示す映像音声処理装置の構成を説明するブロック図である。
【図7】同映像音声処理装置において、シグネチャを抽出する際の一連の工程を説明するフローチャートである。
【図8】図7における一連の工程を具体的に説明するために適用したシーンを説明する図である。
【図9】図8に示すシーンから選び取られたrセグメントを説明する図である。
【符号の説明】
10 映像音声処理装置、 11 CPU、 12 ROM、 13 RAM、 14 HDD、 15 I/F

Claims (17)

  1. 映像信号、音声信号のうち少なくとも1つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、
    上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、
    上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、
    上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程と
    を備える信号処理方法。
  2. 互いに異なるセグメントの各代表セグメント間のシグネチャの類似性を比較して得た比較結果と、上記重み算出工程により算出した各代表セグメントに付随する重みとを用いて、互いに異なるセグメント間の類似性を比較する請求項1記載の信号処理方法。
  3. 上記セグメントを、上記代表セグメントの候補となる複数のサブセグメントに分割するセグメント分割工程と、
    上記セグメント分割工程にて得たサブセグメントのうち、上記特徴量の類似性に基づいて、上記サブセグメントを分類してグループ化するグループ化工程と
    を備える請求項記載の信号処理方法。
  4. 互いに異なるセグメント間の類似性を比較して得た比較結果に基づいてセグメントをグループ化する請求項2記載の信号処理方法。
  5. 上記特徴量は、色特徴量、映像相関、音声特徴量、セグメント長、アクティビティのうち少なくとも1つである請求項1記載の信号処理方法。
  6. 上記セグメントとは、上記信号の任意の連続部分である請求項1記載の信号処理方法。
  7. 上記サブセグメントとは、上記セグメントに含まれる任意の連続部分である請求項1記載の信号処理方法。
  8. 上記セグメントは、上記信号を構成する連続したフレームのひと続きから形成されるセグメント又は時間的に連続するセグメントからなるシーンである請求項1記載の信号処理方法。
  9. 上記セグメントは、上記信号を構成するフレーム又は上記信号の全体を表すプログラムである請求項1記載の信号処理方法。
  10. 供給されたビデオ信号を構成する映像及び/又は音声セグメントに含まれる映像及び/又は音声サブセグメントのうち、上記映像及び/又は音声セグメントの内容を代表する映像及び/又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、
    上記映像及び/又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備える映像音声処理装置。
  11. 上記実行手段は、互いに異なる映像及び/又は音声セグメントの各代表セグメント間のシグネチャの類似性を比較して得た比較結果と、算出した各代表セグメントに付随する重みとを用いて、互いに異なる映像及び/又は音声セグメント間の類似性を比較し、当該比較結果に基づいて映像及び/又は音声セグメントをグループ化する請求項10記載の映像音声処理装置。
  12. 上記実行手段は、上記映像及び/又は音声セグメントを、上記代表セグメントの候補となる複数の映像及び/又は音声サブセグメントに分割し、この得られた映像及び/又は音声サブセグメントのうち、上記特徴量の類似性に基づいて、上記映像及び/又は音声サブセグメントを分類してグループ化する請求項10記載の映像音声処理装置。
  13. 上記特徴量は、色特徴量、映像相関、音声特徴量、セグメント長、アクティビティのうち少なくとも1つである請求項10記載の映像音声処理装置。
  14. 上記映像及び/又は音声セグメントとは、上記ビデオ信号の任意の連続部分である請求項10記載の映像音声処理装置。
  15. 上記映像及び/又は音声サブセグメントとは、上記映像及び/又は音声セグメントに含まれる任意の連続部分である請求項10記載の映像音声処理装置。
  16. 上記映像及び/又は音声セグメントは、上記ビデオ信号を構成する連続した映像及び/又は音声フレームのひと続きから形成される映像及び/又は音声セグメント、又は時間的に連続する映像及び/又は音声セグメントからなるシーンである請求項10記載の映像音声処理装置。
  17. 上記映像及び/又は音声セグメントは、上記ビデオ信号を構成する映像及び/又は音声フレーム、又は上記ビデオ信号の全体を表すプログラムである請求項10記載の映像音声処理装置。
JP2000038247A 1999-02-15 2000-02-10 信号処理方法及び映像音声処理装置 Expired - Fee Related JP4224917B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000038247A JP4224917B2 (ja) 1999-02-15 2000-02-10 信号処理方法及び映像音声処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-36338 1999-02-15
JP3633899 1999-02-15
JP2000038247A JP4224917B2 (ja) 1999-02-15 2000-02-10 信号処理方法及び映像音声処理装置

Publications (2)

Publication Number Publication Date
JP2000307996A JP2000307996A (ja) 2000-11-02
JP4224917B2 true JP4224917B2 (ja) 2009-02-18

Family

ID=26375382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000038247A Expired - Fee Related JP4224917B2 (ja) 1999-02-15 2000-02-10 信号処理方法及び映像音声処理装置

Country Status (1)

Country Link
JP (1) JP4224917B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
EP1435620A1 (en) * 2003-01-06 2004-07-07 Thomson Licensing S.A. Method for creating and accessing a menu for audio content without using a display

Also Published As

Publication number Publication date
JP2000307996A (ja) 2000-11-02

Similar Documents

Publication Publication Date Title
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
US9665775B2 (en) Identifying scene boundaries using group sparsity analysis
US8467611B2 (en) Video key-frame extraction using bi-level sparsity
JP4258090B2 (ja) ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体
US6741655B1 (en) Algorithms and system for object-oriented content-based video search
US20120148149A1 (en) Video key frame extraction using sparse representation
US9076043B2 (en) Video summarization using group sparsity analysis
US6928233B1 (en) Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
JP4253989B2 (ja) ビデオの類似性探索方法及び記録媒体
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
US8913835B2 (en) Identifying key frames using group sparsity analysis
Priya et al. Shot based keyframe extraction for ecological video indexing and retrieval
JP2002125178A (ja) メディア・セグメント化システムおよび関連する方法
US6996171B1 (en) Data describing method and data processor
JP2003141540A (ja) 類似性判定装置及び類似性判定方法並びにプログラム
JP2000285242A (ja) 信号処理方法及び映像音声処理装置
WO1998050869A1 (en) Algorithms and system for object-oriented content-based video search
JP4224917B2 (ja) 信号処理方法及び映像音声処理装置
JP3529036B2 (ja) 文書付き画像の分類方法
Mervitz et al. Comparison of early and late fusion techniques for movie trailer genre labelling
Haloi et al. Video Searching and Retrieval using Scene Classification in Multimedia Databases
EP1237374A1 (en) A method for extracting video objects from a video clip
Liu et al. Learning semantic visual concepts from video
Cunha et al. VSRV: Video Summarization for Rushes Videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees