JP4224917B2

JP4224917B2 - 信号処理方法及び映像音声処理装置

Info

Publication number: JP4224917B2
Application number: JP2000038247A
Authority: JP
Inventors: ウォーカートビー; 弘松原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1999-02-15
Filing date: 2000-02-10
Publication date: 2009-02-18
Anticipated expiration: 2020-02-10
Also published as: JP2000307996A

Description

【０００１】
【発明の属する技術分野】
本発明は、信号を構成する互いに異なる任意のセグメント間の類似性を測定する信号処理方法及びビデオ信号を構成する互いに異なる任意の映像及び／又は音声セグメント間の類似性を測定する映像音声処理装置に関する。
【０００２】
【従来の技術】
例えばビデオデータに録画されたテレビ番組といった大量の異なる映像データにより構成される映像アプリケーションの中から、興味のある部分等の所望の部分を探索して再生したい場合がある。
【０００３】
このように、ビデオデータといったマルチメディアデータを探索する場合には、多くのコンピュータアプリケーションで用いられているデータとは本質的に異なり、正確に一致するもの同士を発見することは期待できず、むしろ、似ているものを探索することとなる。そのため、マルチメディアデータの内容に基づく探索に関する技術のうち、ほとんど全ての技術は、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”等に記載されているように、類似性に基づく探索を基礎としている。
【０００４】
このような類似性に基づく探索を行う技術においては、まず内容の類似性が数値的に測定される。そして、この技術においては、類似性の測定結果を用いて、対象とするアイテムとの類似性測定基準に基づいて類似性の高いものから順位付けする。その結果得られたリストにおいては、最も類似しているもの同士は、そのリストの先頭付近に現れることとなる。
【０００５】
このようなマルチメディアデータの内容に基づく探索方法においては、映像データ並びに音声データ、及び本質的には信号処理によるビデオ処理技術を用いて、まずマルチメディアデータから低レベルの特徴量を抽出する。そして、この探索方法においては、抽出した特徴量を用いて、類似性に基づく探索のために必要となる類似性測定基準を求める。
【０００６】
マルチメディアデータの内容に基づく探索に関する研究は、最初は、イメージ（静止画像）の探索に焦点を当てたものが多い。このような研究においては、イメージ同士の類似性を測定するために、いわゆる色、テクスチャ、形状といった多数の低レベルな映像特徴量を用いている。
【０００７】
また、最近では、ビデオデータについての内容に基づく探索に関する研究も行われている。ビデオデータの場合には、通常、長いビデオデータの中において一致する部分を探索することから、ビデオＣＢＲ（Contents Base Retrieval）に関するほとんどの技術においては、まずビデオデータをセグメントという連続するフレームのひと続き単位に分割する。これらのセグメントは、類似性に基づく探索を行う際の対象となるものである。このビデオデータをセグメントに分割する既存の方法としては、例えば上述した“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、通常、ショット検出アルゴリズムを用いて、ビデオデータをいわゆるショットに分割するものがある。そして、探索を行う際には、得られたショットから類似性に基づく比較を可能とする特徴量を抽出する。
【０００８】
しかしながら、ショットにおける際立った特徴量を捉え、且つ、類似性に基づくショット同士の比較を可能とするような特徴量を検出することは困難である。そこで、ビデオデータについての内容に基づく探索への既存のアプローチとしては、通常、各ショットから代表フレームを抽出し、これらの代表フレームの集合に対して探索を行うことで代替される。これらの代表フレームは、通常、キーフレームと称されるものである。すなわち、ショット内容に基づく探索技術は、ショット・キーフレームの比較を行うことによって、イメージ内容に基づく探索技術に帰着される。例えば、ショットについてキーフレームからカラーヒストグラムを抽出した場合、これらキーフレームのヒストグラムを用いて２つのショットの類似性を測定することができる。このアプローチは、キーフレームを選択する際にも有効である。
【０００９】
簡単なアプローチとしては、各ショットから固定的に１つの決まったフレームを選択するものがある。また、多数のフレームを選択するための他の方法としては、“B.L. Yeo and B. Liu, Rapid scene analysis on compressed video, IEEE Transactions on Circuits and Systems for Video Technology, vol.5, no.6, pp.533, December 1995”に記載されているフレーム差や、“W. Wolf, Key frame selection by motion analysis, Proceedings of IEEE Int'l Conference on Acoustic, Speech and Signal Proceeding, 1996”に記載されている運動分析や、“Y. Zhuang, Y. Rui, T. Huang and S. Mehrotra, Adaptive key frame extraction using unsupervised clustering, Proceedings of IEEE Int'l Conference on Image Proceeding, Chicago, IL, , October 4-7 1998”に記載されているクラスタリング技術を用いるものがある。
【００１０】
【発明が解決しようとする課題】
ところで、キーフレームに基づく上述した探索技術は、ショットの類似性に基づく探索に限定されるものである。しかしながら、例えば代表的な３０分のテレビ番組中には、数百ものショットが含まれているため、上述した従来の探索技術においては、抽出された膨大な数のショットを調べる必要があり、このような膨大な数のデータを探索対象とすることは大きな負担であった。
【００１１】
そのため、例えばセグメントを或る関連に基づいてまとめたシーンやプログラムといった、ショットよりも長い映像セグメント及び音声セグメント同士の類似性を比較することによって、負担を軽減する必要があった。
【００１２】
しかしながら、従来の探索技術は、例えば、特定のコマーシャルに類似したセグメントを探索したり、或るテレビ番組において、同一演技を描いた関連ショット群で構成された或るシーンに類似したシーンを探索するといった要求に応えるものではなかった。
【００１３】
このように、ショットのレベルよりも高いレベルのセグメントの類似性に基づく比較を論じた刊行済みの研究は、ほとんど見受けられない。この種の唯一の研究としては、“J. Kender and B.L. Yeo, Video Scene Segmentation via Continuous Video Coherence, IBM Research Report, RC21061, December 18, 1997”がある。この研究は、２つのシーンの類似性を比較するための方法を提供している。この研究における探索技術は、ビデオデータの全てのショットをカテゴリに分類した後、各シーンについて、各カテゴリに属するシーン中のショットの数を数える。得られた結果は、標準の類似性測定基準を用いて比較することが可能なヒストグラムである。この研究では、類似するシーン同士の類似性を比較する上で、ある程度成功したことが報告されている。
【００１４】
しかしながら、この方法は、ビデオデータの全てのショットを分類する必要があった。全てのショットを分類することは困難なものであって、通常、膨大な計算を要する技術を必要とする。
【００１５】
また、この方法は、たとえ全てのショットを正確に分類することができたとしても、カテゴリ同士の類似性を考慮していないことから、紛らわしい結果を与える可能性があった。例えば、ビデオデータのショットが３つのカテゴリＡ，Ｂ，Ｃに分割されるものとし、或るシーンＸが、カテゴリＢ及びカテゴリＣのショットを全く有しておらず、カテゴリＡのショットを２つ有するものとし、異なるシーンＹが、カテゴリＡ及びカテゴリＣのショットを全く有しておらず、カテゴリＢのショットを２つ有するものとする。この場合、この方法においては、シーンＸとシーンＹとの類似性がないものと判断する。ところが、カテゴリＡとカテゴリＢとのショットが互いに類似している場合には、類似性の値は、ゼロであるべきではない。すなわち、この方法においては、ショット自体の類似性を考慮していないことから、このような誤った判断がなされることがあった。
【００１６】
本発明は、このような実情に鑑みてなされたものであり、上述した従来の探索技術の問題を解決し、種々のビデオデータにおける様々なレベルのセグメントの類似性に基づく探索を行う信号処理方法及び映像音声処理装置を提供することを目的とするものである。
【００１７】
【課題を解決するための手段】
上述した目的を達成する本発明にかかる信号処理方法は、映像信号、音声信号のうち少なくとも１つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程とを備えることを特徴としている。
【００１８】
このような本発明にかかる信号処理方法は、セグメントに関するシグネチャを抽出する。
【００１９】
また、上述した目的を達成する本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び／又は音声セグメントに含まれる映像及び／又は音声サブセグメントのうち、上記映像及び／又は音声セグメントの内容を代表する映像及び／又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、上記映像及び／又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備えることを特徴としている。
【００２０】
このように構成された本発明にかかる映像音声処理装置は、映像及び／又は音声セグメントに関するシグネチャを抽出する。
【００２１】
【発明の実施の形態】
以下、本発明を適用した具体的な実施の形態について図面を参照しながら詳細に説明する。
【００２２】
本発明を適用した実施の形態は、ビデオデータから所望の内容を自動的に探し出して抽出するために、ビデオデータ内の任意の集合を代表するデータを自動的に抽出する映像音声処理装置である。この映像音声処理装置の具体的な説明を行う前に、ここではまず本発明において対象とするビデオデータに関する説明を行う。
【００２３】
本発明において対象とするビデオデータについては、図１に示すようにモデル化し、フレーム、セグメント、プログラムといったレベルに階層化された構造を有するものとする。すなわち、ビデオデータは、その最上位層でありビデオデータ全体を表すプログラムと、その最下位層である一連のフレームとの間を、複数階層からなるセグメントにより構成されるものとする。
【００２４】
ビデオデータにおけるセグメントとしては、連続するフレームのひと続きから形成されるものや、また、このようなフレームの並びを或る関連に基づきシーンとしてまとめたものもあり、さらには、このようなシーンを或る関連に基づきさらにまとめたものもある。また、広い意味では、単一のフレームもセグメントの一種であると考えることができる。
【００２５】
すなわち、ビデオデータにおけるセグメントとは、ここでは、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係に総称したものであって、ビデオデータのストリームの何らかの連続的部分であると定義する。勿論、セグメントは、上述した連続するフレームのひと続きから形成されるものと、シーンとの中間構造といったように、何らかの意味を持った中間的な構造であってもよい。一方、例えば、任意のセグメントＸが、異なるセグメントＹの中に完全に包含されるものである場合には、セグメントＸは、セグメントＹのサブセグメントであると定義する。
【００２６】
このようなビデオデータは、一般に、映像及び音声の両方の情報を含む。すなわち、このビデオデータにおいてフレームは、単一の静止画像である映像フレームと、一般に数十〜数百ミリセカンド／長といった短時間において標本化された音声情報を表す音声フレームとを含むものとする。
【００２７】
また、セグメントは、映像セグメントと音声セグメントとを含むものである。すなわち、セグメントは、単一のカメラにより連続的に撮影された映像フレームのひと続きからなるいわゆるショットや、この特徴を表す特徴量を用いて、ショットを意味のあるまとまりにグループ化したシーン等の映像セグメントを含む。さらに、セグメントは、例えば、一般によく知られている方法により検出されたビデオデータ中の無音期間により境界を定められて形成されるものや、“D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report”に記載されているように、例えば、音声、音楽、ノイズ、無音等のように少数のカテゴリに分類された音声フレームのひと続きから形成されるものや、“S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30”に記載されているように、２枚の連続する音声フレーム間の或る特徴における大きな変化を検出する音声カット検出を用いて決定されるものや、一連の音声フレームを何らかの特徴量に基づいて意味のあるまとまりにグループ化したものといった音声セグメントを含む。
【００２８】
本発明を適用した実施の形態として示す映像音声処理装置は、上述したビデオデータにおけるセグメントの内容を特徴付ける一般的な特徴量であるシグネチャ（Signature）を自動的に抽出するとともに、２つのシグネチャの類似性を比較するものであり、映像セグメント及び音声セグメントの両方に適用できるものである。得られる類似性測定基準は、セグメントの探索及び分類を行うための汎用ツールを与えるものである。
【００２９】
ここで、シグネチャについて説明する。シグネチャとは、一般に、或る対象を識別するものであって、その対象よりも少ない情報によって、その対象を高い精度で識別する何らかのデータである。例えば、人間に関するシグネチャとしては、指紋がその一種として挙げられる。すなわち、或る物体に付着した２組の指紋の類似性を比較することは、同一人物がその指紋を付けたか否かを正確に判定することを可能とする。
【００３０】
同様に、映像セグメント及び音声セグメントに関するシグネチャは、映像セグメント及び音声セグメントを識別することを可能とするデータである。このシグネチャは、ここでは、セグメントを分割して得られる上述したサブセグメントの重み付き集合として与えられるものとする。例えば、或るセグメントＸに関するシグネチャＳは、後述するように、セグメントＸを代表するサブセグメントを要素とする代表セグメントＲと、この代表セグメントＲの各要素に重みを割り当てる関数である重み付け関数Ｗとで表される対＜Ｒ，Ｗ＞であると定義される。
【００３１】
以下の説明では、いわゆる代表フレームを表す用語であるｒフレーム（Representative frame）を拡張して、代表セグメントをｒセグメントと記すこととする。これより、或るシグネチャが含む全てのｒセグメントの集合は、そのシグネチャのｒセグメントと称される。また、ｒセグメントのタイプを、そのシグネチャのｒタイプと称す。そして、シグネチャのｒタイプを明示する必要がある場合には、そのタイプを“シグネチャ”という用語の前に付ける。例えば、映像フレームシグネチャは、そのｒセグメントが全て映像フレームであるシグネチャを示す。また、ショットシグネチャは、そのｒセグメントが上述したショットであるシグネチャを示す。一方、或るシグネチャＳにより記述されるセグメントを、当該シグネチャＳの対象セグメントと称す。シグネチャは、映像セグメント、音声セグメント、或いはこれらの両方の組み合わせを含むｒセグメントを用いることができる。
【００３２】
このようなシグネチャは、セグメントを有効に表す幾つかの性質を有する。
【００３３】
まず、シグネチャは、最も重要な性質として、ショット等の短いセグメントを記述するのみならず、或るシーン全体或いはビデオデータ全体といったさらに長いセグメントを記述することを可能とする。
【００３４】
また、長い対象セグメントを特徴付けるために必要なｒセグメントは、通常、僅かの数に過ぎない。すなわち、シグネチャは、僅かのデータ量でセグメントを特徴付けることを可能とする。
【００３５】
さらに、シグネチャにおいては、各ｒセグメントに割り当てられた重みが、各ｒセグメントの重要性又は関連性を表し、対象とするセグメントを識別することを可能とする。
【００３６】
さらにまた、フレームのみならず、ショットやシーン等のいかなるセグメントもｒセグメントとして用いることができるため、シグネチャとは、いわゆるキーフレームという概念を拡張して一般化したものに他ならないといえる。
【００３７】
また、セグメントをより単純なサブセグメントの集合に分解できる場合には、それらのサブセグメントをｒセグメントとして用いることができる。
【００３８】
このようなシグネチャは、コンピュータ支援・ユーザ・インターフェースを介して、ユーザが任意に作成することもできるが、ほとんどのアプリケーションにおいては、自動的に抽出されることが望ましい。
【００３９】
ここで、シグネチャの実例について幾つか説明する。
【００４０】
まず、ショットについての映像フレームシグネチャは、図２に示すように、そのｒセグメントが静止画像であるシグネチャである。このようなシグネチャを作成する１つの方法は、各ショットについてのキーフレームをｒセグメントとして用い、当該キーフレームにほぼ一致するショット内映像フレームの、ショット内全映像フレームに対する割合を重み付けとして用いることである。
【００４１】
また、シーンについてのショットシグネチャは、図３に示すように、そのｒセグメントがショットであるシグネチャである。ここで、シーン中のショットをｎ個のグループに分類できるとする。この場合、ｎ個のｒセグメントからなるシグネチャを作成することができる。すなわち、各グループについて、或る１つのショットをｒセグメントとして振る舞うものとして選択する。ここで、各ｒセグメントについての重み付けであるが、後述するように、シーンを構成する全ショット数に対する各グループを構成するショット数の割合として与えることができる。
【００４２】
さらに、シグネチャは、視覚情報のみを用いることには限定されず、図４に示すように、シーンについての音声セグメントシグネチャもシグネチャの実例として挙げることができる。ここで、シーンについての音声セグメントシグネチャとは、音声セグメントの集合をｒセグメントとして用いるものである。例えば、互いに会話をしている複数人からなるシーンを考える。この場合、話し手を自動的に区別することが可能であれば、各話し手の短いスピーチセグメントをｒセグメントとして使うことができる。
【００４３】
さらにまた、シグネチャは、短いセグメントを記述するために役立つばかりではなく、ビデオ全体を記述するためにも用いることができる。例えば、複数のショットを適宜選択することによって、特定のテレビ番組を他のテレビ番組から明確に区別することが可能となる。このようなショットは、当該テレビ番組で繰り返し使用されるものであり、例えば、図５に示すようなニュース番組における始まりのロゴ・ショットと、ニュースキャスターを示すショットとがこれに相当する。この場合、重み付けは、ショットの重要性を表すことから、ロゴ・ショットとニュースキャスターのショットとに同じ重みを割り当てることが適当である。
【００４４】
このようなシグネチャを自動的に抽出するとともに、２つのシグネチャの類似性を比較する映像音声処理装置１０は、図６に示すように、各部の動作を制御するとともに、ＲＯＭ１２に記憶されているプログラムを実行してセグメントのシグネチャを抽出する実行手段であるＣＰＵ（Central Processing Unit）１１と、シグネチャを抽出するためにＣＰＵ１１が実行するプログラムや、使用する数値等を記憶しておく読み出し専用のメモリであるＲＯＭ（Read Only Memory）１２と、入力したセグメントを分割して得られるサブセグメントや、ｒセグメント等を記憶する作業領域としての機能を有するメモリであるＲＡＭ（Random Access Memory）１３と、作成したシグネチャ等を必要に応じて図示しない記録媒体に対して記録及び／又は再生するＨＤＤ（Hard Disk Drive）１４と、シグネチャを求めるセグメントを入力するとともに、ｒセグメントの集合とこれらの各ｒセグメントについての重みとをシグネチャとして出力するインターフェース（以下、Ｉ／Ｆと略記する。）１５とを備え、これらの各部は、バス１６により相互に接続されている。
【００４５】
このような映像音声処理装置１０は、ＣＰＵ１１がＲＯＭ１２に記憶されているプログラムを読み出して実行し、図７に示すような一連の処理を行うことによって、シグネチャを抽出する。
【００４６】
まず、映像音声処理装置１０は、同図に示すように、ステップＳ１において、Ｉ／Ｆ１５を介して入力したセグメントをサブセグメントに分割する。ここで分割されて得られたサブセグメントは、ｒセグメントの候補である候補ｒセグメントとなる。
【００４７】
映像音声処理装置１０は、セグメントをサブセグメントに分割する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。このような方法は、使われるサブセグメントのタイプに大きく依存する。ここでは、セグメントをさらに小さいセグメントの集合に分解する方法を用いる。具体的には、映像音声処理装置１０は、例えば、ｒセグメントが映像フレームである場合には、容易に分解することができ、そのセグメント中の全ての映像フレーム（静止画像）の集合がサブセグメントの候補集合となる。また、映像音声処理装置１０は、ｒセグメントがショットである場合には、例えば“B. Furht(Editor), Handbook of Multimedia Computing, CRC Press, 1998”や“J. Kender and B.L. Yeo, Video Scene Segmentation via Continuous Video Coherence, IBM Research Report, RC21061, December 18, 1997”に記載されているような既存のアルゴリズムを用いて、セグメントをショットに分割する。さらに、映像音声処理装置１０は、サブセグメントが音声セグメントである場合には、例えば上述した“D. Kimber and L. Wilcox, Acoustic Segmentation for Audio Browsers, Xerox Parc Technical Report”や“S. Pfeiffer, S. Fischer and E. Wolfgang, Automatic Audio Content Analysis, Proceeding of ACM Multimedia 96, Nov. 1996, pp21-30”に記載されているようなオーディオ分割手法を用いて、サブセグメント間の境界を検出する。
【００４８】
このように、映像音声処理装置１０は、セグメントのタイプに依存せずにセグメントをサブセグメントに分割する。なお、映像音声処理装置１０は、セグメントがフレームであった場合には、この分割工程を行う必要はない。
【００４９】
次に、映像音声処理装置１０は、ステップＳ２において、互いに類似したサブセグメントをグループ化する。すなわち、互いに類似したサブセグメントのグループは、対象とするセグメントの内容を最も良好に表すと考えられることから、映像音声処理装置１０は、互いに類似したサブセグメントを検出してグループ化する。なお、互いに類似したサブセグメントとは、各サブセグメントが有する後述する特徴量において、それらの非類似性測定基準の値が小さいサブセグメント同士のことを示す。
【００５０】
映像音声処理装置１０は、ステップＳ１と同様に、互いに類似したサブセグメントをグループ化する方法として特に限定は設けず、適用可能な方法であればいかなる方法であってもよい。映像音声処理装置１０は、例えば、“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されてよく知られているｋ平均値クラスタリング法（k-means-clustering method）やｋ−メドイドアルゴリズム法（k-medoids algorithm method）といったクラスタリング・アルゴリズムを用いて、候補ｒセグメントの集合内に類似グループを生成する。このようなクラスタリング・アルゴリズムのほとんどは、２つのサブセグメントを比較するために、サブセグメントから抽出した後述する特徴量に関する非類似性測定基準のみを必要とする。映像音声処理装置１０は、映像フレームやショット等について広く知られている類似性に基づく測定基準のいずれをも用いることができる。
【００５１】
ここで、特徴量について説明する。特徴量とは、セグメントの特徴を表すとともに、異なるセグメント間の類似性を測定するためのデータを供給するセグメントの属性である。映像音声処理装置１０は、いかなる特徴の具体的詳細にも依存するものではないが、当該映像音声処理装置１０において用いて効果的であると考えられる特徴量としては、例えば、以下に示す映像特徴量、音声特徴量、映像音声共通特徴量のようなものがある。
【００５２】
映像特徴量として既知のものは多数存在し、例えば色特徴量（ヒストグラム）や映像相関がある。
【００５３】
映像における色は、２つの映像が類似しているかを判断する際の重要な材料となる。カラーヒストグラムを用いて映像の類似性を判断することは、例えば“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”に記載されているように、よく知られている。ここで、カラーヒストグラムとは、例えばＨＳＶやＲＧＢ等の３次元色空間をｎ個の領域に分割し、映像における画素の、各領域での出現頻度の相対的割合を計算したものである。そして、得られた情報からは、ｎ次元ベクトルが与えられる。圧縮されたビデオデータについては、例えばU.S. Patent #5,708,767号公報に記載されているように、カラーヒストグラムを、圧縮データから直接抽出することができる。
【００５４】
サブセグメントからの特徴量としてヒストグラムを抽出する場合には、映像音声処理装置１０は、サブセグメントを構成する映像におけるもともとのＹＵＶ色空間を、色チャンネル当たり２ビットでサンプルして構成した、長さ２^2・3＝６４次元のヒストグラムベクトルを得る。
【００５５】
このようなヒストグラムは、映像の全体的な色調を表すが、これには時間情報が含まれていない。そこで、映像音声処理装置１０では、もう１つの映像特徴量として、映像相関を計算することもできる。複数の類似セグメントが互いに交差した構造は、それがまとまった１つの構造であることの有力な指標となる。例えば会話場面において、カメラの位置は、２人の話し手の間を交互に移動するが、カメラは通常、同一の話し手を再度撮影するときには、ほぼ同じ位置に戻る。このような場合における構造を検出するためには、グレイスケール映像の縮小画像に基づく相関がサブセグメントの類似性の良好な指標となることから、映像音声処理装置１０は、元の映像をＭ×Ｎの大きさのグレイスケール映像へ間引き縮小し、これを用いて映像相関を計算する。ここで、ＭとＮは、両方とも小さい値で十分であり、例えば８×８である。すなわち、これらの縮小グレイスケール映像は、ＭＮ次元の特徴量ベクトルとして解釈される。
【００５６】
さらに上述した映像特徴量とは異なる特徴量としては、音声に関するものが挙げられる。以下では、この特徴量を音声特徴量と称することにする。音声特徴量とは、音声セグメントの内容を表すことができる特徴量である。音声特徴量としては、例えば、周波数解析、ピッチ、レベルが挙げられる。これらの音声特徴量は、種々の文献により知られているものである。
【００５７】
まず、音声特徴量として、フーリエ変換等の周波数解析を行うことにより得られる、単一の音声フレームにおける周波数情報の分布が挙げられる。映像音声処理装置１０は、例えば、１つの音声サブセグメントにわたる周波数情報の分布を表すために、ＦＦＴ（Fast Fourier Transform；高速フーリエ変換）成分、周波数ヒストグラム、パワースペクトル、その他の特徴量を用いることができる。
【００５８】
また、映像音声処理装置１０は、平均ピッチや最大ピッチといったピッチや、平均音量や最大音量等の音声レベルもまた、音声サブセグメントを表す有効な音声特徴量として用いることができる。
【００５９】
さらに他の特徴量としては、映像音声共通特徴量が挙げられる。これは、特に映像特徴量でもなく音声特徴量でもないが、映像音声処理装置１０において、サブセグメントの特徴を表すのに有用な情報を与えるものである。映像音声処理装置１０は、この映像音声共通特徴量として、セグメント長とアクティビティとを用いる。
【００６０】
映像音声処理装置１０は、映像音声共通特徴量として、セグメント長を用いることができる。このセグメント長とは、セグメントにおける時間長である。一般に、シーンは、そのシーン固有のリズム特徴を有する。そのリズム特徴は、シーン内のセグメント長の変化として現れる。例えば、迅速に連なった短いセグメントは、コマーシャルを表す。一方、会話シーンにおけるセグメントは、コマーシャルの場合よりも長く、また会話シーンには、相互に組み合わされたセグメントが互いに類似しているという特徴がある。映像音声処理装置１０は、このような特徴を有するセグメント長を映像音声共通特徴量として用いることができる。
【００６１】
また、映像音声処理装置１０は、映像音声共通特徴量として、アクティビティを用いることができる。アクティビティとは、セグメントの内容がどの程度動的或いは静的であるように感じられるかを表す指標である。例えば、視覚的に動的である場合、アクティビティは、カメラが対象物に沿って迅速に移動する度合い若しくは撮影されているオブジェクトが迅速に変化する度合いを表す。
【００６２】
このアクティビティは、カラーヒストグラムのような特徴量のフレーム間非類似性の平均値を測定することにより間接的に計算される。ここで、フレームｉとフレームｊとの間で測定された特徴量Ｆに対する非類似性測定基準をｄ_F（ｉ，ｊ）と定義すると、映像アクティビティＶ_Fは、次式（１）のように定義される。
【００６３】
【数１】

【００６４】
式（１）において、ｂとｆは、それぞれ、１セグメントにおける最初と最後のフレームのフレーム番号である。映像音声処理装置１０は、具体的には、例えば上述したヒストグラムを用いて、映像アクティビティＶ_Fを計算する。
【００６５】
映像音声処理装置１０は、このような特徴量をサブセグメントから抽出して互いに類似したサブセグメントをクラスタリング・アルゴリズムにより検出してグループ化する。
【００６６】
なお、２つのサブセグメントの類似性を測定する実数値を算出する関数である非類似性測定基準については、後述する。
【００６７】
次に、映像音声処理装置１０は、ステップＳ３において、サブセグメントをグループ化して得た類似グループの中から、シグネチャの対象グループを選択する。ここで、映像音声処理装置１０は、セグメントの正確な特徴付けのために必要となるｒセグメントの数を決定する際に、各グループへ分類されたサブセグメントの数を考慮する。
【００６８】
具体的には、映像音声処理装置１０は、シグネチャの対象グループを選択するために、グループ中に存在するサブセグメントの個数に対して閾値を設定する。
【００６９】
映像音声処理装置１０においては、通常、この閾値は、全サブセグメント数に対する、或るグループに含まれるサブセグメント数の比として与えられる。すなわち、映像音声処理装置１０は、得られたグループのうち、その要素数が閾値を上回るグループを、シグネチャの対象グループとする。
【００７０】
一方、映像音声処理装置１０は、任意の定数ｋをｒセグメントの個数として設定することもできる。この場合には、映像音声処理装置１０は、全てのグループを、それが含む要素数の順に並べ、要素数が大きい順にｋ個のグループのみをシグネチャの対象グループとして選択する。
【００７１】
このようにして、映像音声処理装置１０は、グループの中から、シグネチャの対象グループを選択する。
【００７２】
次に、映像音声処理装置１０は、ステップＳ４において、ｒセグメントを選び取る。すなわち、映像音声処理装置１０は、ステップＳ３にて選択された各グループを構成するサブセグメントの中から１つのサブセグメントのみを選択し、そのサブセグメントをｒセグメントとして、シグネチャの要素とする。
【００７３】
映像音声処理装置１０は、具体的には、各グループから任意のサブセグメントを選び取ることができる。或いは、映像音声処理装置１０は、より洗練されたアプローチとして、各グループにおけるサブセグメントの平均値又は中央値（median）に対し、それに最も類似したサブセグメントをｒセグメントとして選び取ることもできる。
【００７４】
このようにして、映像音声処理装置１０は、選択した各対象グループから、ｒセグメントを選び取る。
【００７５】
そして、映像音声処理装置１０は、ステップＳ５において、ｒセグメントのそれぞれについての重みを算出する。映像音声処理装置１０は、重みを、各ｒセグメントが対応するグループが含むサブセグメント数の、総数に対する比として設定する。
【００７６】
映像音声処理装置１０は、以上のような一連の工程を全てのセグメントに対して行うことによって、各セグメントに関するシグネチャを抽出する。
【００７７】
このような一連の処理をさらに具体的に説明するために、図８に示す或るシーンに関するショットシグネチャを抽出する例について説明する。
【００７８】
このシーンは、２人の人物が互いに会話している場面を示すものであり、２人の人物の両方を示すショットから始まり、以降、２人の人物が話し手に応じて交互に出現するショットが続いている。
【００７９】
このようなシーンの場合、映像音声処理装置１０は、図７中ステップＳ１において、シーンをサブセグメントであるショットに分割する。すなわち、この場合には、映像音声処理装置１０は、ショット検出方法を用いて、図８に示すような９個の異なるサブセグメントを検出して分割する。
【００８０】
次に、映像音声処理装置１０は、図７中ステップＳ２において、互いに類似したサブセグメントを分類してグループ化する。すなわち、この場合には、映像音声処理装置１０は、ショットの視覚的な類似性に基づいて、図８に示したシーンにおける２人の人物の両方を示す第１番目のショットのみを要素とする第１のグループと、各話し手についての４ショットずつをまとめた第２、第３グループとの３つのグループに分類する。
【００８１】
また、映像音声処理装置１０は、図７中ステップＳ３において、シーンを特徴付けるために必要なグループを選択する。ここでは、図８に示したシーンにおける第１グループ乃至第３グループのいずれも重要であることから、映像音声処理装置１０は、第１グループ乃至第３グループの全てをショットシグネチャに用いることを決定する。
【００８２】
さらに、映像音声処理装置１０は、図７中ステップＳ４において、各グループから１ショットをｒセグメントとして選び取る。ここでは、映像音声処理装置１０は、第１グループ乃至第３グループから、それぞれ、図９に示す３つのショットをｒセグメントとして選び取る。
【００８３】
そして、映像音声処理装置１０は、図７中ステップＳ５において、第１グループ乃至第３グループのそれぞれについて、各グループに含まれるショット数の割合に応じた重みを算出する。この場合には、図８に示す９個のショットのうち、第１グループが１つのショットを要素とし、第２、第３グループがぞれぞれ４つのショットを要素とすることから、映像音声処理装置１０は、第１グループ乃至第３グループのそれぞれについて、１／９，４／９，４／９の重み付けを得る。
【００８４】
このようにして、映像音声処理装置１０は、図８に示すシーンに関するシグネチャとして、図９に示すｒセグメントと重みとを得る。
【００８５】
つぎに、抽出したシグネチャを用いて、２つのセグメントの類似性を比較する方法について説明する。具体的には、２つのセグメントの類似性を、ｒセグメントに基づくシグネチャの類似性として定義する。ここで、実際には、上述した非類似性測定基準或いは類似性の度合い測定基準を定義することに注意する必要がある。
【００８６】
ここでは、Ｐ＝｛（ｒ_p1，ｗ_p1），・・・，（ｒ_p1，ｗ_pm）｝及びＱ＝｛（ｒ_q1，ｗ_q1），・・・，（ｒ_q1，ｗ_qn）｝が、それぞれのシグネチャであるものとする。（ｒ，ｗ）という表記は、上述したように、ｒセグメントと、それに付随する重み付け関数を表したものである。また、ｄ_R（ｒ₁，ｒ₂）を、２つのｒセグメントについての非類似性測定基準とする。
【００８７】
まず、ここでは、非類似性測定基準について説明することにする。非類似性測定基準は、その値が小さい場合は２つのセグメントが類似していることを示し、値が大きい場合は非類似であることを示す。非類似性測定基準ｄ_R（ｒ₁，ｒ₂）は、以下の式（２）で与える関係を満足させる必要がある。
【００８８】
【数２】

【００８９】
ところで、非類似性測定基準の中には、或る特定の特徴量にのみ適用可能なものもあるが、“G. Ahanger and T.D.C. Little, A survey of technologies for parsing and indexing digital video, J. of Visual Communication and Image Representation 7:28-4, 1996”や“L. Kaufman and P.J. Rousseeuw, Finding Groups in Data:An Introduction to Cluster Analysis, John-Wiley and sons, 1990”に記載されているように、一般には、多くの非類似性測定基準は、ｎ次元空間における点として表される特徴量についての類似性を測定するのに適用可能である。その具体例は、ユークリッド距離、内積、Ｌ１距離等である。ここで、特にＬ１距離が、ヒストグラムや映像相関等の特徴量を含む種々の特徴量に対して有効に作用することから、映像音声処理装置１０は、Ｌ１距離を導入する。ここで、２つのｎ次元ベクトルをＡ，Ｂとした場合、Ａ，Ｂ間のＬ１距離ｄ_L1（Ａ，Ｂ）は、次式（３）で与えられる。
【００９０】
【数３】

【００９１】
ここで、下付文字ｉは、ｎ次元ベクトルＡ，Ｂのそれぞれのｉ番目の要素を示すものである。
【００９２】
非類似性測定基準としては、上述したものの他にも、幾つかの例が知られているが、ここでは、それらの詳細は省略する。映像音声処理装置１０は、上述したＣＰＵ１１によって、上述したような非類似性測定基準により表される２つのシグネチャ間の類似性を測定し、これらの２つのシグネチャの対象セグメントの類似性を、それらのｒセグメントの類似性に基づき、以下の方法のいずれかにより定義する。
【００９３】
まず、映像音声処理装置１０は、第１の方法として、次式（４）に示す重み付き最小値を用いて、２つのシグネチャ間の距離を算出する。
【００９４】
【数４】

【００９５】
また、映像音声処理装置１０は、第２の方法として、次式（５）に示す重み付き平均距離を用いて、２つのシグネチャ間の距離を算出する。
【００９６】
【数５】

【００９７】
さらに、映像音声処理装置１０は、第３の方法として、次式（６）に示す重み付き中央値距離を用いて、２つのシグネチャ間の距離を算出する。
【００９８】
【数６】

【００９９】
さらにまた、映像音声処理装置１０は、第４の方法として、“Y. Rubner, C. Tomasi and L.J. Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998”に記載されている距離計量法から応用して、静止画像についてのカラーショートメッセージの場合に用いた次式（７）に示すアース・ムーバ（Earth Mover）の距離を用いて、２つのシグネチャ間の距離を算出する。この方法では、ｍ×ｎコスト・マトリックスＣを定義する。ここで、Ｃ_ijは、関数を最小にする値である。
【０１００】
【数７】

【０１０１】
なお、この式（７）を適用する際には、次式（８）に示す制約条件を満たす必要がある。
【０１０２】
【数８】

【０１０３】
映像音声処理装置１０は、“Y. Rubner, C. Tomasi and L.J. Guibas, A Metric for Distributions with Applications to Image Databases, Proceedings of the 1998 IEEE International Conference on Computer Vision, Bombay, India, January 1998”に記載されているアルゴリズムを用いることによって、この式（８）に示すような制約条件にしたがって、式（７）に示す関数を最小にするＣ_ijの値を検出することができる。映像音声処理装置１０においては、２つのシグネチャ間の距離の値を式（７）に示す関数の最小値と定義する。
【０１０４】
映像音声処理装置１０は、このような方法のいずれかによって、２つのセグメントの類似性を、ｒセグメントに基づくシグネチャの類似性として求める。そして、映像音声処理装置１０は、近似的なセグメント間の類似性に基づいて、セグメントをグループ化するか否かを決定する。
【０１０５】
このようにすることによって、映像音声処理装置１０は、プログラムとフレームとを含めたビデオデータにおける或るまとまりを、階層の高低とは無関係にグループ化することができる。
【０１０６】
以上説明してきたように、本発明の実施の形態として示す映像音声処理装置１０は、ビデオデータの様々な階層におけるシグネチャを自動的に抽出するとともに、２つのシグネチャの類似性を比較することによって、対応するセグメント間の類似性を比較することができるものである。この映像音声処理装置１０は、ビデオデータの様々な階層におけるセグメントをグループ化することを可能とするものであって、異なるタイプのビデオデータにも適用できるものである。このように、映像音声処理装置１０は、ビデオデータの任意の構造を自動的に探索して抽出するための汎用のツールとなり得るものである。
【０１０７】
なお、本発明は、上述した実施の形態に限定されるものではなく、例えば、互いに類似したサブセグメントをグループ化する際に用いる特徴量は、上述したもの以外でもよいことは勿論である。すなわち、本発明においては、何らかの情報に基づいて、互いに関連し合うサブセグメントをグループ化することができればよい。
【０１０８】
また、その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【０１０９】
【発明の効果】
以上詳細に説明したように、本発明にかかる信号処理方法は、映像信号、音声信号のうち少なくとも１つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程とを備える。
【０１１０】
したがって、本発明にかかる信号処理方法は、セグメントに関するシグネチャを抽出することができ、このシグネチャを用いて、信号におけるセグメントの階層に関わらず、互いに異なるセグメント間の類似性を比較することができる。このことから、本発明にかかる信号処理方法は、種々の信号における様々な階層のセグメントに対し、類似性に基づいて所望の内容を持つセグメントの探索を行うことができる。
【０１１１】
また、本発明にかかる映像音声処理装置は、供給されたビデオ信号を構成する映像及び／又は音声セグメントに含まれる映像及び／又は音声サブセグメントのうち、上記映像及び／又は音声セグメントの内容を代表する映像及び／又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、上記映像及び／又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備える。
【０１１２】
したがって、本発明にかかる映像音声処理装置は、映像及び／又は音声セグメントに関するシグネチャを抽出することが可能であって、このシグネチャを用いて、ビデオ信号における映像及び／又は音声セグメントの階層に関わらず、互いに異なる映像及び／又は音声セグメント間の類似性を比較することが可能となる。このことから、本発明にかかる映像音声処理装置は、種々のビデオ信号における様々な階層の映像及び／又は音声セグメントに対し、類似性に基づいて所望の内容を持つ映像及び／又は音声セグメントの探索を行うことができる。
【図面の簡単な説明】
【図１】本発明において適用するビデオデータの構成を説明する図であって、モデル化したビデオデータの構造を説明する図である。
【図２】ショットについての映像フレームシグネチャを説明する図である。
【図３】シーンについてのショットシグネチャを説明する図である。
【図４】シーンについての音声セグメントシグネチャを説明する図である。
【図５】テレビ番組についてのショットシグネチャを説明する図である。
【図６】本発明の実施の形態として示す映像音声処理装置の構成を説明するブロック図である。
【図７】同映像音声処理装置において、シグネチャを抽出する際の一連の工程を説明するフローチャートである。
【図８】図７における一連の工程を具体的に説明するために適用したシーンを説明する図である。
【図９】図８に示すシーンから選び取られたｒセグメントを説明する図である。
【符号の説明】
１０映像音声処理装置、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４ＨＤＤ、１５Ｉ／Ｆ

Claims

映像信号、音声信号のうち少なくとも１つを含む信号を構成するセグメントに含まれるサブセグメントのうち、上記セグメントの内容を代表するサブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する信号処理方法であって、
上記サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択するグループ選択工程と、
上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択する代表セグメント選択工程と、
上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する重み算出工程と
を備える信号処理方法。
互いに異なるセグメントの各代表セグメント間のシグネチャの類似性を比較して得た比較結果と、上記重み算出工程により算出した各代表セグメントに付随する重みとを用いて、互いに異なるセグメント間の類似性を比較する請求項１記載の信号処理方法。
上記セグメントを、上記代表セグメントの候補となる複数のサブセグメントに分割するセグメント分割工程と、
上記セグメント分割工程にて得たサブセグメントのうち、上記特徴量の類似性に基づいて、上記サブセグメントを分類してグループ化するグループ化工程と
を備える請求項２記載の信号処理方法。
互いに異なるセグメント間の類似性を比較して得た比較結果に基づいてセグメントをグループ化する請求項２記載の信号処理方法。
上記特徴量は、色特徴量、映像相関、音声特徴量、セグメント長、アクティビティのうち少なくとも１つである請求項１記載の信号処理方法。
上記セグメントとは、上記信号の任意の連続部分である請求項１記載の信号処理方法。
上記サブセグメントとは、上記セグメントに含まれる任意の連続部分である請求項１記載の信号処理方法。
上記セグメントは、上記信号を構成する連続したフレームのひと続きから形成されるセグメント又は時間的に連続するセグメントからなるシーンである請求項１記載の信号処理方法。
上記セグメントは、上記信号を構成するフレーム又は上記信号の全体を表すプログラムである請求項１記載の信号処理方法。
供給されたビデオ信号を構成する映像及び／又は音声セグメントに含まれる映像及び／又は音声サブセグメントのうち、上記映像及び／又は音声セグメントの内容を代表する映像及び／又は音声サブセグメントである代表セグメントと、この代表セグメントに重みを割り当てる重み付け関数とにより定義されるシグネチャを抽出する映像音声処理装置であって、
上記映像及び／又は音声サブセグメントを特徴量の類似性に基づいて分類して得たグループのうち、サブセグメントの数が閾値以上のグループ又はサブセグメントの数が多い順番に所定数のグループを、対象グループとして選択し、上記対象グループより、上記特徴量の平均値又は中央値に最も近いサブセグメントを代表セグメントとして選択し、上記代表セグメントについての重みを、全ての対象グループのサブセグメントの数に対する各対象グループのサブセグメントの数の割合として算出する実行手段を備える映像音声処理装置。
上記実行手段は、互いに異なる映像及び／又は音声セグメントの各代表セグメント間のシグネチャの類似性を比較して得た比較結果と、算出した各代表セグメントに付随する重みとを用いて、互いに異なる映像及び／又は音声セグメント間の類似性を比較し、当該比較結果に基づいて映像及び／又は音声セグメントをグループ化する請求項１０記載の映像音声処理装置。
上記実行手段は、上記映像及び／又は音声セグメントを、上記代表セグメントの候補となる複数の映像及び／又は音声サブセグメントに分割し、この得られた映像及び／又は音声サブセグメントのうち、上記特徴量の類似性に基づいて、上記映像及び／又は音声サブセグメントを分類してグループ化する請求項１０記載の映像音声処理装置。
上記特徴量は、色特徴量、映像相関、音声特徴量、セグメント長、アクティビティのうち少なくとも１つである請求項１０記載の映像音声処理装置。
上記映像及び／又は音声セグメントとは、上記ビデオ信号の任意の連続部分である請求項１０記載の映像音声処理装置。
上記映像及び／又は音声サブセグメントとは、上記映像及び／又は音声セグメントに含まれる任意の連続部分である請求項１０記載の映像音声処理装置。
上記映像及び／又は音声セグメントは、上記ビデオ信号を構成する連続した映像及び／又は音声フレームのひと続きから形成される映像及び／又は音声セグメント、又は時間的に連続する映像及び／又は音声セグメントからなるシーンである請求項１０記載の映像音声処理装置。
上記映像及び／又は音声セグメントは、上記ビデオ信号を構成する映像及び／又は音声フレーム、又は上記ビデオ信号の全体を表すプログラムである請求項１０記載の映像音声処理装置。