JP2005522074A

JP2005522074A - 話者識別に基づくビデオのインデックスシステムおよび方法

Info

Publication number: JP2005522074A
Application number: JP2003581078A
Authority: JP
Inventors: ペレ・オブラドール; トン・ツァン
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2002-03-25
Filing date: 2003-03-20
Publication date: 2005-07-21
Also published as: WO2003083726A2; AU2003241278A8; TW200304600A; EP1488352A2; US7184955B2; WO2003083726A3; AU2003241278A1; US20030182118A1

Abstract

【課題】マルチメディアファイルをインデックスする。
【解決手段】本発明は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、マルチメディアセグメントを識別する。所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話であり、音響特性は話者特性である。発話を含むビデオセグメントは、ビデオファイルの音響コンテンツの分析により検出される（７０２）。次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる（６０４、６０６）。発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索せずに、特定の話者からの発話を含むビデオセグメントに選択的にアクセスできるようになる。

Description

［発明の分野］
本発明は、包括的には、ビデオ処理に関し、詳細には、ビデオをインデックスするシステムおよび方法に関する。

［発明の背景］
近年、価格の引き下げが進むことによって、ビデオカメラの人気が増してきた。
ほとんどのビデオカメラは、磁気ビデオテープを使用して、取り込んだビデオシーンをアナログまたはデジタルフォーマットで記憶する。
磁気ビデオテープは、比較的安価であり、大量のビデオを記憶することができる。
単一の磁気ビデオテープが、複数のビデオシーンを含むことがある。
１つのビデオシーンは、連続した期間および空間にわたって共通の主題を有するビデオシーケンスとして定義することができる。
したがって、１つのビデオシーンは、１つのストーリを含むか、１つの独立した意味論的な意味を少なくとも含む。
１つのビデオシーンは、１つまたは複数のビデオショットを含むことができる。
１つのビデオショットは、或る期間にわたって連続して取り込まれた１つのビデオセグメントである。

磁気ビデオテープを使用することには、他の形式のビデオ記憶装置よりも不利な点がいくつかある。
主な不利な点の１つは、１つまたは複数の所望のビデオシーンまたはビデオショットの検索が、困難な作業となる可能性があるということである。
取り込まれたビデオシーンは、時間について直線的にビデオテープに記憶されるので、ユーザは、所望のビデオシーンまたはビデオショットを見つけるのにビデオテープ全体を探索しなければならないことがある。
所望のビデオシーンまたはビデオショットを含み得るビデオテープが複数ある場合に、その所望のビデオシーンまたはビデオショットを見つける際の困難さはさらに増加する。

所望のビデオシーンまたはビデオショットをビデオテープから検索することをより容易にする１つ解決法は、ビデオインデックスソフトウェアを有するパーソナルコンピュータ等のビデオインデックスデバイスにビデオテープのコンテンツを転送することである。
ビデオシーンがアナログフォーマットでビデオテープに記憶されている場合、ビデオシーンは、まずデジタルフォーマットに変換される。
デジタルフォーマットでは、ビデオインデックスを生成して、異なるビデオシーンおよびビデオショットを「マーキング」することができる。
これらのビデオインデックスは、従来のビデオインデックスアルゴリズムを使用して自動的に生成することができる。
このビデオインデックスアルゴリズムは、ビデオシーン間およびビデオショット間の視覚的変化を検出して、ビデオシーンおよびビデオショットを識別し、インデックスすることができる。
また、ビデオインデックスアルゴリズムは、各ビデオシーンから、そのビデオシーンを最もよく表す重要なビデオフレーム（「キーフレーム」）を選択することもできる。
同様に、ビデオインデックスアルゴリズムは、各ビデオショットから、そのビデオショットを最もよく表すキーフレームを選択することもできる。
単一のキーフレームが、ビデオシーンとそのシーンのビデオショットとの双方を表すことができる。
ビデオシーンおよびビデオショットのキーフレームは、所望のビデオシーンまたはビデオショットを容易に検索できるように、その後、ユーザに提示される。
PATEL N V 他, 「Video classification using speaker identification」, 1997年2月13-14日, STORAGE AND RETRIEVAL FOR IMGAE AND VIDEO DATABASES 5., San Jose, 1997年2月13日, SPIE会報, BELLINGHAM, SPIE, US, vol. 3022, p218-225 TSEKERIDOU S 他, 「Speaker dependent video indexing based on audio−visual interaction」, IMAGE PROCESSING, 1998年, ICIP 98, 1998 INTERNATIONAL CONFENRENCE ON CHICAGO, IL, USA, 1998年10月, LOS ALMITOS, CA, USA, IEEE COMPUT. SOC., US, 1998年10月4日, p358-362 MAKHOUL J 他, 「Speech and language tchnologies for audio indexing and retrieval」, IEEE会報, IEEE. NEW YORK, US, vol. 88, No. 8, 2000年8月,p1338-1353 NAM J 他, 「Speaker identification and video analysis for hierarchical video shot classification」, IMAGE PROCESSING, 1997会報, INTERNATIONAL CONFERENCE ON SANTA BARBARA, CA USA, 1997年10月26-29日, LOS ALMITOS, CA USA, IEEE COMPUT. SOC, US, 1997年10月26日, p550-553

従来のビデオインデックスアルゴリズムに関する問題は、インデックスされたビデオシーンおよびビデオショットを音響コンテンツに基づいて検索できないということである。
ビデオシーンおよびビデオショットは、視覚情報に従ってインデックスされるので、ユーザは、特定の話者からの発話等の所望の音響コンテンツを含むビデオセグメント、ビデオショット、またはビデオの他の部分を選択的に検索することができない。
なお、このビデオセグメントは、ビデオシーンの場合もある。
多くの状況において、ユーザは、特定の話者が発話中のビデオセグメントのみを検索したい場合がある。
従来のビデオインデックスアルゴリズムでは、キーフレームが、所望の話者の視覚的な表示を何も提供しないと、ユーザは、その話者からの発話を含んだビデオシーンもビデオショットも選択することができない。
さらに、従来のビデオインデックスアルゴリズムは、視覚情報のみを使用するので、インデックスされたビデオシーンまたはビデオショットは、発話を含むこともあるし、含まないこともある。
ビデオシーンまたはビデオショットが所望の話者からの発話を含む場合であっても、そのビデオシーンまたはビデオショットの小さなセグメントしかその話者の発話を含まないことがある。
したがって、ユーザは、不必要にビデオシーンまたはビデオショット全体を注視しなければならないことがある。

上述した問題に鑑み、ビデオに含まれる音響情報に基づいてビデオをインデックスするシステムおよび方法が必要とされている。

［発明の概要］
マルチメディアファイルをインデックスするシステムおよび方法は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、選択されたマルチメディアセグメントを識別する。
例示の実施の形態では、所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話である。
さらに、音響特性は話者特性である。
発話を含むビデオセグメントは、ビデオファイルの音響コンテンツを分析することによって検出される。
次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる。
発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索する必要なく、特定の話者からの発話を含むビデオセグメントに選択的にアクセスすることが可能になる。

本発明によるビデオファイルをインデックスするシステムは、発話検出器、話者識別モジュール、およびプロセッサを含む。
発話検出器は、ビデオファイルの発話を含むビデオセグメントを検出するように構成される。
話者識別モジュールは、ビデオセグメントに含まれる発話の話者特性に従って、発話を含むビデオセグメントを分類するように構成される。
プロセッサは、話者特性の分類に従って、発話を含むビデオセグメントの位置のインデックスを生成するように構成される。

一実施の形態では、発話検出器は、エネルギー分析器、ゼロ交差分析器、および／またはスペクトル分析器を含む。
エネルギー分析器は、ビデオファイルの音響部分のエネルギー値を比較して、発話を含まない音響部分を選別するように構成される。
ゼロ交差分析器は、音響部分のゼロ交差レート（ＺＣＲ）の分散値およびＺＣＲの振幅範囲（amplitude span）値を対応する閾値と比較して、発話を含まない音響部分をさらに選別するように構成される。
スペクトル分析器は、ビデオファイルの音響部分についてスペクトルのピークの調波発話関係（harmonic speech relation）を検査して、音響部分が発話を含むかどうかを判断するように構成される。

一実施の形態では、話者識別モジュールは、特徴ジェネレータ、モデル化ユニット、およびクラスタ化ユニットを含む。
特徴ジェネレータは、発話を含むビデオセグメントの音響部分について、スペクトルに基づく特徴係数を生成するように構成される。
このスペクトルに基づく特徴係数は、メル周波数ケプストラム係数とすることができる。
モデル化ユニットは、発話を含むビデオセグメントについて、スペクトルに基づく特徴係数を音響モデルにモデル化するように構成される。
クラスタ化ユニットは、発話を含むビデオセグメントの音響モデルをクラスタ化して、発話を含むビデオセグメントを話者特性に従って分類するように構成される。

本発明によるビデオファイルをインデックスする方法は、ビデオファイルの発話を含むビデオセグメントを検出するステップと、発話を含むビデオセグメントを話者特性に従って分類するステップと、発話を含むビデオセグメントのビデオファイルにおける位置のインデックスを話者特性の分類に従って生成するステップとを含む。

一実施の形態では、発話を含むビデオセグメントを検出するステップは、ビデオファイルの音響部分のエネルギー値をエネルギー閾値と比較して、発話を含まない音響部分を選別することを含む。
さらに、発話を含むビデオセグメントを検出するステップは、ビデオファイルの音響部分についてＺＣＲの分散値およびＺＣＲの振幅範囲値を比較して、発話を含まない音響部分をさらに選別することを含むこともできる。
その上、発話を含むビデオセグメントを検出するステップは、音響部分についてスペクトルのピークの調波発話関係を検査して、その音響部分が発話を含むかどうかを判断することを含むこともできる。

本発明の他の態様および利点は、本発明の原理を例として示す添付図面と共に以下の詳細な説明を読めば明らかとなる。

［詳細な説明］
図１を参照して、本発明の例示の実施の形態によるビデオインデックスシステム１００が示されている。
このビデオインデックスシステムは、ビデオに含まれる音響情報に基づいてビデオをインデックスするように動作する。
特に、このビデオインデックスシステムは、発話を含むビデオセグメントを検出し、次いで、発話を含むビデオセグメントを種々の話者に相関させるように動作する。
したがって、このビデオインデックスシステムによって、ユーザは、効率的な方法で、ビデオデータの中から、特定の話者に対応した発話を含むビデオセグメントを選択的に検索することが可能になる。

図１に示すように、ビデオインデックスシステム１００は、入力デバイス１０２、出力デバイス１０４、および処理デバイス１０６を含む。
これらのデバイスは、個別のデバイスとして示されているが、これらのデバイスの２つ以上を１つに統合することもできる。
入力デバイス１０２は、ユーザがコマンドをシステムに入力することを可能にするものである。
さらに、入力デバイスは、ユーザが、システムによって使用されるパラメータを入力して、ビデオをインデックスすることも可能にするものである。
例示の実施の形態では、入力デバイスは、コンピュータキーボード１０８およびカーソルポインティングメカニズム１１０を含む。
しかしながら、入力デバイスは、あらゆるタイプの電子入力デバイスを含むことができる。
入力デバイスおよび処理デバイスが統合される一実施の形態では、入力デバイスは、単に、処理デバイス上のボタン、ダイヤル、レバー、および／またはスイッチであってもよい。

ビデオインデックスシステム１００の出力デバイス１０４は、ユーザがビデオを見ることを可能にするものである。
また、出力デバイスは、ユーザが、ビデオに付随した音響コンテンツを聞くことも可能にするものである。
例示の実施の形態では、出力デバイスは、ＣＲＴモニタやフラットパネルディスプレイ等のコンピュータモニタおよび１つまたは複数のスピーカを含む。
出力デバイスおよび処理デバイス１０６が統合される一実施の形態では、出力デバイスは、液晶ディスプレイおよび１つまたは複数のスピーカを含むことができ、これらは、処理デバイスに取り付けられる。

ビデオインデックスシステム１００の処理デバイス１０６は、ビデオインデックス用にビデオを処理するように動作する。
図１に示すように、処理デバイスは、入力データインターフェース１１２、発話検出器１１４、話者識別モジュール１１６、メモリ１１８、プロセッサ１２０、および入出力（Ｉ／Ｏ）インターフェース１２２を含む。
処理デバイスの発話検出器および話者識別モジュールは、本明細書では、個別のユニットとして図示および説明されるが、これらのコンポーネントは、機能ブロックを表すものであり、その結果、物理的に個別のユニットの形で具体化されることもあるし、されないこともある。
したがって、これらのコンポーネントは、単一のモジュールに結合することができる。
あるいは、これらのコンポーネントの一方または双方を２つ以上のモジュールに分割することもできる。
したがって、処理デバイスは、図示および説明するものよりも少ないコンポーネントまたは多くのコンポーネントを含む場合がある。
例示の実施の形態では、発話検出器および話者識別モジュールは、コンピュータ内のソフトウェアとして実施される。
しかしながら、これらのコンポーネントは、ハードウェア、ファームウェア、および／またはソフトウェアのどの組み合わせでも実施することができる。

処理デバイス１０６の入力データインターフェース１１２は、デジタルビデオカメラ、ポータブル記憶媒体、またはリモートコンピュータ／サーバ等の外部ビデオ源（図示せず）から入力ビデオ１２４を受け取る手段を提供する。
例示の実施の形態では、入力データインターフェースは、デジタル化されたビデオまたはデジタルビデオファイルを受け取るように構成される。
入力ビデオがアナログビデオである場合、処理デバイスは、受け取ったアナログビデオをデジタルビデオファイルに変換するアナログ／デジタルビデオ変換器（図示せず）を含むことができる。
入力データインターフェースは、モデム、ＵＳＢポート、シリアルポート、ＦｉｒｅＷｉｒｅカード、またはビデオインデックスシステム１００を外部ビデオ源に接続し、通信リンクを通じて入力ビデオを転送するように設計される他の任意のインターフェースポートとすることができる。
あるいは、入力データインターフェースは、デジタルビデオファイルとして１つまたは複数の入力ビデオを含む半導体メモリカード等のポータブル記憶媒体を収容するメモリスロットとすることもできる。

処理デバイス１０６のメモリ１１８、プロセッサ１２０、およびＩ／Ｏインターフェース１２２は、パーソナルコンピュータに一般に見られるコンポーネントである。
メモリ１１８は、デジタルビデオファイルを記憶する記憶媒体である。
メモリに記憶できるビデオファイル数は、メモリの記憶容量にのみ制限される。
また、メモリは、ビデオインデックスシステム１００によって使用されるさまざまなパラメータに加えて、他の情報も記憶することができる。
メモリは、ハードディスクドライブ、読み出し専用メモリ（ＲＯＭ）、または他の形式のメモリとすることができる。
プロセッサ１２０は、後述するように、処理デバイスの他のコンポーネントと共に信号処理オペレーションを実行する。
プロセッサは、任意のタイプのデジタル信号プロセッサとすることができる。
Ｉ／Ｏインターフェース１２２は、処理デバイス１０６と入力デバイス１０２および出力デバイス１０４との間のインターフェースを提供する。

処理デバイス１０６の発話検出器１１４および話者識別モジュール１１６は、まず、デジタルビデオファイル内の発話を含むビデオセグメントを検出し、次に、その発話を含むビデオセグメントを話者に従って関連付けるように、プロセッサ１２０と共に動作する。
これらのコンポーネントの全体のオペレーションは、図２Ａおよび図２Ｂを参照して説明する。
図２Ａには、デジタルビデオファイル２００が、連続した直線状のテープとして示されている。
このテープは、ビデオデータ２０２および対応する音響データ２０４に分離される。
ビデオデータ２０２は、ビデオファイル２００の視覚コンテンツに対応する一方、音響データ２０４は、音響コンテンツに対応する。
ビデオファイルは、ビデオセグメント２０６〜２１８に区画されている。
ビデオセグメント２０６、２１０、２１４、および２１８は発話を含む一方、ビデオセグメント２０８、２１２、および２１６は、他の形式の音響コンテンツを含むか、または、音響コンテンツを含まない。
発話を含むビデオセグメント２０６および２１４は、話者＃１からの発話を含み、発話を含むビデオセグメント２１０および２１８は、話者＃２からの発話を含む。
発話検出器１１４は、ビデオファイル２００を処理して、音響データ２０４の音響特性を既知の発話特性と比較することにより、発話を含むビデオセグメント２０６、２１０、２１４、および２１８を検出するように構成される。
話者識別モジュール１１６は、発話を含むビデオセグメント２０６、２１０、２１４、および２１８を処理し、ビデオセグメントにおける音響コンテンツの話者識別特徴を使用して、発話を含むビデオセグメントを話者に従って分類するように構成される。
このように、この例では、話者識別モジュールは、発話を含むビデオセグメント２０６および２１４を共に、特定の話者（すなわち、話者＃１）からの発話を含むものとして関連付け、発話を含むビデオセグメント２１０および２１８を、別の話者（すなわち、話者＃２）からの発話を含むものとして関連付ける。
この情報を使用すると、プロセッサ１２０は、特定の話者に関連付けられた発話を含むビデオセグメントに容易にアクセスできるように、ビデオファイル２００の発話を含むビデオセグメント２０６、２１０、２１４、および２１８をインデックスすることができる。

図３に示すように、処理デバイス１０６の発話検出器１１４は、エネルギー分析器３０２、ゼロ交差分析器３０４、およびスペクトル分析器３０６を含む。
発話検出器のこれらのコンポーネントは、所与のビデオファイルの小さな音響部分を処理して、それらの音響部分が発話を含むかどうかを判断する。
なお、小さな音響部分は、オーバラップウィンドウ（overlapping window）を使用して音響フレームに分割される。
一例として、音響部分は１秒または２秒の音響データとすることができ、音響フレームは約１０ミリ秒から２０ミリ秒の音響データとすることができる。
これらの音響部分は、エネルギー分析器３０２、ゼロ交差分析器３０４、およびスペクトル分析器３０６によって順次分析され、３ステップ手法で発話を含む音響部分が特定される。
一方、所与の音響部分が発話を含まないとこれらの分析器の１つが判断すると、その音響部分はそれ以上処理されない。
音響部分が発話を含むかどうかを判断するこの３ステップ手法によって、すべての音響部分が、スペクトル分析器３０６および／またはゼロ交差分析器３０４によって不必要に分析されるとは限らないことが確保される。
その結果、発話検出器は、効率的な方法で発話検出を実行することができる。

発話検出器１１４のエネルギー分析器３０６は、音響部分の各音響フレームのエネルギーを検査することによって、発話を含まない所与のビデオファイルの音響部分を選別するように動作する。
具体的には、エネルギー分析器は、所与の音響部分の音響フレームのエネルギー値を計算し、次いで、計算したエネルギー値を所定の最小エネルギー閾値と比較する。
一般に、発話は、背景雑音等の他のタイプの音響コンテンツよりも高いエネルギーを有する。
このように、所与のビデオファイルの音響部分が発話を含むかどうかの予備的判断は、音響部分の音響フレームのエネルギー値を閾値と比較することによって行うことができる。
最小エネルギー閾値は、発話を含む音響部分の例を使用して経験的に決定することができる。
最小エネルギー閾値は、処理デバイス１０６のメモリ１１８に記憶することができる。
所与の音響部分について計算したエネルギー値の１つまたは複数が、所定の最小エネルギー閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、所与の音響部分のすべてのエネルギー値が、所定の最小エネルギー閾値よりも小さい場合には、その音響部分は発話を含まないとみなされる。
エネルギー値は、以下の公式を使用して計算することができる。

ここで、ｘ（ｍ）は離散時刻の（デジタル化された）音響サンプルであり、ｍは音響サンプルの時間インデックスであり、ｎはエネルギーの時間インデックスであり、Ｎは方形サンプリングウィンドウの長さであり、ｗ（ｍ）は、
０≦ｍ≦Ｎ−１の場合には、ｗ（ｍ）＝１
それ以外の場合には、ｗ（ｍ）＝０
によって定義される方形ウィンドウである。
音響信号が小さな間隔をおいて比較的ゆっくりと変化すると仮定することによって、Ｅ_ｎは、１０ミリ秒から２０ミリ秒ごとに計算することができ、これは、音響フレームの長さに対応する。
例えば、音響データを取り込んでデジタル化するのに使用されるサンプリングレートが８０００Ｈｚであったとすると、１００個の音響サンプルごとにＥ_ｎを計算することができる。

発話検出器１１４のゼロ交差分析器３０４は、残りの音響部分の各音響フレームにおけるゼロ交差を検査することによって、残りの音響部分をさらに選別するように動作する。
具体的には、ゼロ交差分析器は、所与の音響部分の各音響フレームの平均ゼロ交差レート（ＺＣＲ）値を計算し、次いで、所与の音響部分のＺＣＲ値の分散およびＺＣＲ値の振幅範囲を計算する。
次に、計算したＺＣＲの分散および振幅範囲は、それぞれの閾値と比較され、現時点の音響部分が発話を含み得るかどうかが判断される。
離散時刻の（デジタル化された）音響の場合には、ゼロ交差は、連続したサンプルが異なる符号を有する場合に発生すると言われている。
したがって、ゼロ交差レートは、信号の周波数成分の簡単な測度である。

発話生成モデルは、発話を生成する物理的なプロセスのモデルであり、声門波によって導入されたスペクトル減衰のために有声発話信号（母音）が３ｋＨｚ未満に集中する一方、エネルギーのほとんどは、無声発話信号（子音）用のより高い周波数に見られることを示唆している。
ＺＣＲは、周波数レベルの測度であるので、有声発話成分は低いＺＣＲ値を有する一方、無声発話成分は高いＺＣＲ値を有する。
有声発話成分および無声発話成分は、発話信号において互いに交互に配置される。
したがって、発話のＺＣＲは、音楽等のいくつかの他のタイプの音響コンテンツのＺＣＲ値よりもはるかに高い分散および振幅範囲を有する。
ゼロ交差分析器３０４は、この結論を利用して、ＺＣＲ分散およびＺＣＲ振幅範囲を所定の閾値と比較することにより残りの音響部分を選別する。

音響フレームの平均ＺＣＲ値は、以下の式を使用して計算することができる。

ここで、
ｘ（ｍ）≧０の場合には、ｓｇｎ［ｘ（ｍ）］＝１
ｘ（ｍ）<０の場合には、ｓｇｎ［ｘ（ｍ）］＝０
であり、
０≦ｍ≦Ｎ−１の場合には、ｗ（ｍ）＝１
それ以外の場合には、ｗ（ｍ）＝０
である。
この場合も、Ｎは方形ウィンドウｗ（ｍ）の長さである。
エネルギー値と同様に、ＺＣＲ値も、１０ミリ秒から２０ミリ秒ごとに計算することができる。

ＺＣＲ値から、ゼロ交差分析器３０４は、音響部分のＺＣＲ値の分散およびＺＣＲ値の振幅範囲を計算する。
ＺＣＲ値の振幅範囲は、音響部分の最高ＺＣＲ値と最低ＺＣＲ値との間の距離として定義される。
代替的な構成では、ゼロ交差分析器は、音響部分のより小さなセグメントについてＺＣＲの分散およびＺＣＲの振幅範囲を計算することができる。
この代替的な構成では、所与の音響部分をより小さなセグメントに分割することができ、ＺＣＲの分散およびＺＣＲの振幅範囲を各セグメントについて計算することができる。
いずれの構成においても、計算した各ＺＣＲの分散は、所定のＺＣＲ分散閾値と比較される。
同様に、計算した各ＺＣＲの振幅範囲は、所定のＺＣＲ振幅範囲閾値と比較される。
これらのＺＣＲ分散閾値およびＺＣＲ振幅範囲閾値は、経験的に決定することができ、メモリ１１８に記憶することができる。
所与の音響部分について計算したＺＣＲの分散およびＺＣＲの振幅範囲のうちのいずれかが、それぞれの閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、計算したＺＣＲの分散およびＺＣＲの振幅範囲のすべてが、それぞれの閾値よりも小さい場合には、その音響部分は、発話を含むものとはみなされない。

発話検出器１１４のスペクトル分析器３０６は、スペクトル分析を使用して、選別された音響部分が発話を含むかどうかの最終判断を行うように動作する。
動作中、スペクトル分析器は、まず、所与の音響部分の各音響フレームのスペクトルを計算する。
一例として、スペクトル分析器は、音響フレームに高速フーリエ変換（ＦＦＴ）を適用することができる。
しかしながら、スペクトル分析器は、他のオペレーションを適用して、スペクトルのより滑らかなものを導出したり、周波数ピークの検出がより簡単なスペクトルを導出したりすることもできる。
次に、スペクトル分析器は、スペクトルの顕著なピーク（significant peaks）を選ぶことによって、各スペクトルの調波部分音（harmonic partials）を検出する。
顕著なピークは、本明細書では、所定の範囲の振幅、幅、およびシャープネスを有するスペクトルピークとして定義される。
スペクトル分析器は、次に、調波発話関係を得るために、この顕著なピークを検査する。
すなわち、調波発話信号は、人間の音声の共通の基本周波数にピークを有し、この基本周波数の整数倍にピークを有することがあるので、顕著なスペクトルピークは、ピークの周波数がこの基本周波数の整数倍であるかどうかを調べるために検査される。
人間の音声の基本周波数は、約１００Ｈｚ〜３００Ｈｚである。
顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍である場合には、その音響部分は、発話を含むものと判断される。
一方、顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍でない場合には、その音響部分は、発話を含まないものと判断される。

有声発話成分（母音）および無声発話成分（子音）は、発話信号において互いに交互に配置される。
したがって、時間パターンの観点から、発話は、基本周波数値が同じであるか、または、次第に変化した状態で、複数の連続した音響フレームに調波部分音を含むことがある。
したがって、調波部分音は、有声発話の複数の連続した音響フレームの間は存在し、無声発話期間中は消滅する。
その後、調波部分音は、次の有声発話で再び現れる。
この極めて特徴的な時間パターンは発話に特徴的なものである。
このように、スペクトル分析器１１４は、この特徴的な発話の時間パターンを利用して、所与の音響部分が発話を含むかどうかを判断する。

スペクトル分析器３０６の最終判断を使用すると、プロセッサ１２０は、発話を含むものと判断されたビデオファイルの音響部分を分析することによって、発話を含むビデオセグメントの開始および終了を特定することができる。
音響部分全体を使用して、発話を含むビデオセグメントを特定することができる。
あるいは、音響部分の音響フレームを使用して、発話を含むビデオセグメントの開始および終了をより正確に特定することもできる。
プロセッサは、隣接した音響部分の検出結果を融合することによって、所定の継続時間（例えば、１秒または２秒）よりも短い、発話を含むいかなるビデオセグメントも無視することができる。
プロセッサは、発話を含むビデオセグメントの境界位置の指示子またはインデックスをビデオファイルに含めたコンピュータファイルを生成することによって、発話を含むビデオセグメントをインデックスすることができる。

次に、ビデオファイルの発話を含むビデオセグメントを検出する発話検出器１１４の全体的なオペレーションを図４を参照して説明する。
ステップ４０２において、ビデオファイルの処理される音響部分が選択される。
次に、ステップ４０４において、選択された音響部分のすべての音響フレームのエネルギー値が計算される。
ステップ４０６において、計算されたエネルギー値が、所定の最小エネルギー閾値と比較される。
計算されたエネルギー値のいずれもが閾値よりも大きくない場合には、プロセスはステップ４２０に進み、ステップ４０２において、現時点の音響部分は発話を含まないものと確認される。
一方、計算されたいずれかのエネルギー値が閾値よりも大きい場合には、プロセスはステップ４０８に進む。

ステップ４０８において、現時点の音響部分の音響フレームのＺＣＲ値が計算される。
次に、ステップ４１０において、現時点の音響部分のＺＣＲの分散およびＺＣＲの振幅範囲が計算される。
代替的な構成では、ＺＣＲの分散およびＺＣＲの振幅範囲は、現時点の音響部分のより小さなセグメントに対して計算される。
ステップ４１２において、ＺＣＲの分散およびＺＣＲの振幅範囲は、それぞれ、所定のＺＣＲ分散閾値および所定のＺＣＲ振幅範囲閾値と比較される。
ＺＣＲの分散および振幅範囲の双方が、それぞれの閾値よりも小さい場合には、プロセスはステップ４２０に進み、ステップ４２０において、現時点の音響部分は、発話を含まないものと確認される。
一方、ＺＣＲの分散および振幅範囲の一方または双方がそれぞれの閾値よりも大きい場合には、プロセスはステップ４１４に進み、ステップ４１４において、現時点の音響部分の各音響フレームのスペクトルが計算される。

次に、ステップ４１６において、計算されたスペクトルの顕著なピークが検査され、調波発話関係が存在するかどうかが判断される。
ピークについて調波発話関係が存在する場合には、プロセスはステップ４１８に進み、ステップ４１８において、現時点の音響部分は、発話を含むものと確認される。
一方、調波発話関係が存在しない場合には、プロセスはステップ４２０に進み、ステップ４２０において、現時点の音響部分は、発話を含まないものと確認される。
次に、ステップ４２２において、現時点の音響部分がビデオファイルの最後の音響部分であるかどうかの判断が行われる。
最後の音響部分である場合には、プロセスは終了する。
一方、現時点の音響部分が最後の音響部分でない場合には、プロセスはステップ４０２に戻り、ステップ４０２において、ビデオファイルの処理される次の音響部分が選択される。

代替的な実施の形態では、発話を検出する前に、まず、連続したビデオフレームのヒストグラムの差分に基づくビデオショット検出方法等のビデオショット検出方式を使用して、ビデオファイルを所定のビデオセグメントまたはビデオショットにセグメント化することができる。
この実施の形態では、処理デバイス１０６の発話検出器１１４は、上述した発話検出方法を使用して、所与のビデオショットが発話を含むかどうかを判断することのみ行う。

次に、図５に移って、話者識別モジュール１１６のコンポーネントが示されている。
図５に示すように、話者識別モジュールは、特徴ベクトルジェネレータ５０２、モデル化ユニット５０４、およびクラスタ化ユニット５０６を含む。
上述したように、話者識別モジュールは、検出された、発話を含むビデオセグメントを種々の話者と相関させるように動作する。
例示の実施の形態では、話者識別モジュールは、発話を含むビデオセグメントに相関された種々の話者を特定も認識もしない。
しかしながら、話者識別モジュールの結果は、話者の特定を行うのに使用することができる。

発話識別モジュール１１６の特徴ベクトルジェネレータ５０２は、スペクトルに基づく特徴ベクトルを生成するように動作する。
このスペクトルに基づく特徴ベクトルは、話者の特徴に従って、発話を含むビデオセグメントに含まれる発話を特徴付けるものである。
例示の実施の形態では、特徴ベクトルジェネレータは、発話を含む所与のビデオセグメントの各音響セグメントについてメル周波数ケプストラム係数（ＭＦＣＣ）の特徴ベクトルを生成するように構成される。
一例として、音響セグメントは、２０ｍｓの音響データとすることができる。
したがって、この例では、特徴ベクトルジェネレータは、２０ｍｓの音響セグメントにおいて、発話を含むビデオセグメントの音響データを処理する。
音響セグメントのＭＦＣＣの生成プロセスは既知であり、したがって、本明細書では簡単に説明するだけにする。
高速フーリエ変換（ＦＦＴ）が、所与の音響セグメントに適用されて、音響セグメントが周波数領域に変換される。
一実施の形態では、発話検出器１１４のスペクトル分析器３０２のオペレーションからのＦＦＴの結果が使用される。
次に、音響セグメントのケプストラムが、ＦＦＴの対数の大きさの逆ＦＦＴを取ることによって計算される。
これは、数学的には以下のように記述される。
ケプストラム（セグメント）＝ＦＦＴ^−１（ｌｏｇ｜ＦＦＴ（セグメント）｜）

逆ＦＦＴの結果が、ＭＦＣＣの特徴ベクトルである。
次に、特徴ベクトルジェネレータ５０２は、最初のＭＦＣＣから始まる所定の個数のＭＦＣＣを選択して、さらに処理を行う。
低いＭＦＣＣは、これらの係数がケプストラムを表すのにより重要であることから選択される。
一例として、特徴ベクトルジェネレータは、最初の１０個のＭＦＣＣのみを選択して、さらに処理を行うことができる。
したがって、特徴ベクトルジェネレータは、発話を含むビデオセグメントの各音響セグメントについて１組のＭＦＣＣを出力する。
特徴ベクトルジェネレータは、例示の実施の形態ではＭＦＣＣを利用するが、知覚線形予測係数（perceptual linear predictive coefficients）等の他のタイプのスペクトルに基づく特徴を使用して、発話を含むビデオセグメントの発話を特徴付けることもできる。

話者識別モジュール１１６のモデル化ユニット５０４は、それぞれの組のＭＦＣＣを使用して、発話を含む各ビデオセグメントの話者の特性をモデル化するように動作する。
例示の実施の形態では、モデル化ユニットは、ガウス混合モデル（ＧＭＭ）を利用して、発話を含むビデオセグメントの話者の特性をモデル化する。
モデル化ユニットは、以下の式を使用して、発話を含む各ビデオセグメントのガウス混合分布値Ｐを生成する。
なお、このガウス混合分布値Ｐは、ガウス分布の加重和である。

ここで、Ｍは経験的に選ばれる分布の数であり、Ｇ_ｉはそのビデオセグメントの共通のＭＦＣＣの分布であり、ｑ_ｉは重みであり、以下の特性を有する。

ガウス分布のパラメータは、ガウス混合分布値Ｐが全体の最大値に到達できるような最適化手順を通じて計算することができる。
その結果生成される１組のパラメータは、この場合、発話を含むビデオセグメントの話者の特性を表す。

話者識別モジュール１１６のクラスタ化ユニット５０６は、計算されたガウス混合分布パラメータをクラスタ化して、発話を含むビデオセグメントを話者クラスに分類し、同じ話者クラスに分類されるビデオセグメントが、共通の話者からの発話を含むものとみなされるようにする。
クラスタ化ユニットは、最近傍アルゴリズム、適応型サンプルセット構成方法（adaptive sample set construction method）、ベクトル量子化方法等のクラスタ化アルゴリズムを利用して、ガウス混合分布パラメータをクラスタ化し、発話を含む各ビデオセグメントを一意の話者に関連付けることができるようにする。

次に、発話を含むビデオセグメントの分類を使用し、話者クラスに従ってビデオファイルをインデックスすることができる。
これは、処理デバイス１０６のプロセッサ１２０によって実行することができる。
プロセッサは、図２Ｂに示すように、発話を含むビデオセグメントの境界の指示子またはインデックスを種々の話者に関連付けることができる。

話者識別モジュールの全体のオペレーションを図６を参照して説明する。
ステップ６０２において、ビデオファイルの処理される、発話を含むビデオセグメントが選択される。
次に、ステップ６０４において、発話を含む現時点のビデオセグメントのすべての音響セグメントのスペクトルに基づく特徴係数が計算される。
例示の実施の形態では、ＭＦＣＣが計算される。
ステップ６０６において、発話を含むビデオセグメントの話者特性が、ビデオセグメントにおける音響セグメントの計算されたすべての特徴係数を使用してモデル化される。
例示の実施の形態では、発話を含むセグメントの話者特性が、ガウス混合分布値を計算することによってモデル化される。
次に、ステップ６０８において、発話を含む現時点のビデオセグメントが、ビデオファイルの発話を含む最後のビデオセグメントであるかどうかの判断が行われる。
最後のビデオセグメントである場合には、プロセスはステップ６１０に進む。
一方、発話を含む現時点のビデオセグメントが、発話を含む最後のビデオセグメントでない場合には、プロセスはステップ６０２に戻り、ステップ６０２において、処理される、発話を含む次のビデオセグメントが選択される。

次に、ステップ６１０において、話者特性モデル、例えばガウス混合分布パラメータが、発話を含むビデオセグメントを話者特性に基づいて関連付けるクラスタ化アルゴリズムを使用してクラスタ化される。
したがって、共通の話者特性を有する、発話を含むビデオセグメントを、単一の話者からの発話を含むビデオセグメントとして共に関連付けることができる。
次に、発話を含むビデオセグメントの話者特性に基づく関連付けを使用して、所与のビデオファイルをインデックスすることができる。
さらに、ビデオシーンおよびビデオショット等の他のビデオイベントのインデックスを使用して、所与のビデオファイルをさらにインデックスし、より意味のあるインデックスされた構造を提供することもできる。

本発明の例示の実施の形態によるビデオファイルのインデックス方法を図７のプロセスフロー図を参照して説明する。
ステップ７０２において、発話を含む所与のビデオファイルのビデオセグメントが検出される。
例示の実施の形態では、発話を含むビデオセグメントは、ビデオファイルの音響部分のエネルギー値、ゼロ交差レート、およびスペクトルを使用して音響部分を選別することにより検出される。
しかしながら、他の発話検出技法を使用して、発話を含むビデオセグメントを検出することもできる。
次に、ステップ７０４において、発話を含むビデオセグメントが、そのビデオセグメントに含まれる発話の話者特性に従って分類される。
ステップ７０６において、ビデオファイルの位置のインデックスが、検出された発話を含むビデオセグメントおよび話者特性に従って生成されて、ビデオファイルをインデックスする。

本発明の特定の実施の形態を説明および図示してきたが、本発明は、そのように図示および説明した部分の特定の形態にも、特定の配置にも限定されるものではない。
本発明の範囲は、本明細書に添付した特許請求の範囲およびその均等物によって画定されるべきである。

本発明の例示の実施の形態によるビデオインデックスシステムのブロック図である。発話を含むビデオセグメントに分割され、次いで、話者識別に基づいて分類されたビデオファイルの表現である。発話を含むビデオセグメントに分割され、次いで、話者識別に基づいて分類されたビデオファイルの表現である。図１のビデオインデックスシステムに含まれる発話検出器のコンポーネントのブロック図である。発話検出器のオペレーションのプロセスフロー図である。図１のビデオインデックスシステムに含まれる話者識別モジュールのコンポーネントのブロック図である。話者識別モジュールのオペレーションのプロセスフロー図である。本発明の例示の実施の形態によるビデオファイルのインデックス方法のプロセスフロー図である。

符号の説明

１０２・・・入力デバイス
１０４・・・表示デバイス
１０６・・・処理デバイス
１１２・・・入力データインターフェース
１１４・・・発話検出器
１１６・・・話者識別モジュール
１１８・・・メモリ
１２０・・・プロセッサ
１２２・・・Ｉ／Ｏインターフェース
１２４・・・入力ビデオ
３０２・・・エネルギー分析器
３０４・・・ゼロ交差分析器
３０６・・・スペクトル分析器
５０２・・・特徴ベクトルジェネレータ
５０４・・・モデル化ユニット
５０６・・・クラスタ化ユニット

Claims

マルチメディアデータをインデックスする方法であって、
所定の音響コンテンツを含む、前記マルチメディアデータの特定のマルチメディアセグメントを検出すること（７０２）と、
前記特定のマルチメディアセグメントの前記所定の音響コンテンツの音響特性に従って前記特定のマルチメディアセグメントを分類すること（７０４）と、
前記特定のマルチメディアセグメントの前記マルチメディアデータにおける位置のインデックスを生成すること（７０６）であって、前記インデックスは、前記音響特性に従った前記特定のマルチメディアセグメントの分類情報を含む、生成すること（７０６）と
を含むマルチメディアデータをインデックスする方法。
前記特定のマルチメディアセグメントの音響部分の、スペクトルに基づく特徴係数を生成するステップ（６０２）
をさらに含む請求項１に記載の方法。
前記スペクトルに基づく特徴係数を生成するステップ（６０２）は、
メル周波数ケプストラム係数を生成すること
を含む
請求項２に記載の方法。
前記特定のマルチメディアセグメントの、前記スペクトルに基づく特徴係数を音響モデルにモデル化するステップ（６０６）
をさらに含む請求項２または３に記載の方法。
前記特定のマルチメディアセグメントを分類するステップ（７０４）は、
前記特定のマルチメディアセグメントの前記音響モデルをクラスタ化すること（６１０）
を含む
請求項４に記載の方法。
マルチメディアデータをインデックスするシステム（１００）であって、
所定の音響コンテンツを含む、前記マルチメディアデータの特定のマルチメディアセグメントを検出するように構成される検出器（１１４）と、
前記特定のマルチメディアセグメントの前記所定の音響コンテンツの音響特性に従って前記特定のマルチメディアセグメントを分類するように構成されるモジュール（１１６）と、
前記特定のマルチメディアセグメントの前記マルチメディアデータにおける位置のインデックスを生成するように構成されるプロセッサ（１２０）であって、前記インデックスは、前記音響特性に従った前記特定のマルチメディアセグメントの分類情報を含むプロセッサ（１２０）と
を備えるシステム。
前記モジュール（１１６）は、
前記特定のマルチメディアセグメントの音響部分のスペクトルに基づく特徴係数を生成するように構成される特徴ジェネレータ（５０２）
を含む
請求項６に記載のシステム。
前記特徴ジェネレータ（５０２）は、メル周波数ケプストラム係数を生成するように構成される
請求項７に記載のシステム。
前記モジュール（１１６）は、
前記特定のマルチメディアセグメントの、前記スペクトルに基づく特徴係数を音響モデルにモデル化するように構成されるモデル化ユニット（５０４）
を含む
請求項７または８に記載のシステム。
前記モジュール（１１６）は、
前記特定のマルチメディアセグメントの前記音響モデルをクラスタ化して、前記特定のマルチメディアセグメントを分類するように構成されるクラスタ化ユニット（５０６）
を含む
請求項９に記載のシステム。