JP2005522074A - 話者識別に基づくビデオのインデックスシステムおよび方法 - Google Patents
話者識別に基づくビデオのインデックスシステムおよび方法 Download PDFInfo
- Publication number
- JP2005522074A JP2005522074A JP2003581078A JP2003581078A JP2005522074A JP 2005522074 A JP2005522074 A JP 2005522074A JP 2003581078 A JP2003581078 A JP 2003581078A JP 2003581078 A JP2003581078 A JP 2003581078A JP 2005522074 A JP2005522074 A JP 2005522074A
- Authority
- JP
- Japan
- Prior art keywords
- video
- acoustic
- utterance
- segment
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000001228 spectrum Methods 0.000 claims description 32
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 20
- 238000009826 distribution Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Television Signal Processing For Recording (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
【課題】 マルチメディアファイルをインデックスする。
【解決手段】 本発明は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、マルチメディアセグメントを識別する。所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話であり、音響特性は話者特性である。発話を含むビデオセグメントは、ビデオファイルの音響コンテンツの分析により検出される(702)。次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる(604、606)。発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索せずに、特定の話者からの発話を含むビデオセグメントに選択的にアクセスできるようになる。
【解決手段】 本発明は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、マルチメディアセグメントを識別する。所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話であり、音響特性は話者特性である。発話を含むビデオセグメントは、ビデオファイルの音響コンテンツの分析により検出される(702)。次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる(604、606)。発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索せずに、特定の話者からの発話を含むビデオセグメントに選択的にアクセスできるようになる。
Description
[発明の分野]
本発明は、包括的には、ビデオ処理に関し、詳細には、ビデオをインデックスするシステムおよび方法に関する。
本発明は、包括的には、ビデオ処理に関し、詳細には、ビデオをインデックスするシステムおよび方法に関する。
[発明の背景]
近年、価格の引き下げが進むことによって、ビデオカメラの人気が増してきた。
ほとんどのビデオカメラは、磁気ビデオテープを使用して、取り込んだビデオシーンをアナログまたはデジタルフォーマットで記憶する。
磁気ビデオテープは、比較的安価であり、大量のビデオを記憶することができる。
単一の磁気ビデオテープが、複数のビデオシーンを含むことがある。
1つのビデオシーンは、連続した期間および空間にわたって共通の主題を有するビデオシーケンスとして定義することができる。
したがって、1つのビデオシーンは、1つのストーリを含むか、1つの独立した意味論的な意味を少なくとも含む。
1つのビデオシーンは、1つまたは複数のビデオショットを含むことができる。
1つのビデオショットは、或る期間にわたって連続して取り込まれた1つのビデオセグメントである。
近年、価格の引き下げが進むことによって、ビデオカメラの人気が増してきた。
ほとんどのビデオカメラは、磁気ビデオテープを使用して、取り込んだビデオシーンをアナログまたはデジタルフォーマットで記憶する。
磁気ビデオテープは、比較的安価であり、大量のビデオを記憶することができる。
単一の磁気ビデオテープが、複数のビデオシーンを含むことがある。
1つのビデオシーンは、連続した期間および空間にわたって共通の主題を有するビデオシーケンスとして定義することができる。
したがって、1つのビデオシーンは、1つのストーリを含むか、1つの独立した意味論的な意味を少なくとも含む。
1つのビデオシーンは、1つまたは複数のビデオショットを含むことができる。
1つのビデオショットは、或る期間にわたって連続して取り込まれた1つのビデオセグメントである。
磁気ビデオテープを使用することには、他の形式のビデオ記憶装置よりも不利な点がいくつかある。
主な不利な点の1つは、1つまたは複数の所望のビデオシーンまたはビデオショットの検索が、困難な作業となる可能性があるということである。
取り込まれたビデオシーンは、時間について直線的にビデオテープに記憶されるので、ユーザは、所望のビデオシーンまたはビデオショットを見つけるのにビデオテープ全体を探索しなければならないことがある。
所望のビデオシーンまたはビデオショットを含み得るビデオテープが複数ある場合に、その所望のビデオシーンまたはビデオショットを見つける際の困難さはさらに増加する。
主な不利な点の1つは、1つまたは複数の所望のビデオシーンまたはビデオショットの検索が、困難な作業となる可能性があるということである。
取り込まれたビデオシーンは、時間について直線的にビデオテープに記憶されるので、ユーザは、所望のビデオシーンまたはビデオショットを見つけるのにビデオテープ全体を探索しなければならないことがある。
所望のビデオシーンまたはビデオショットを含み得るビデオテープが複数ある場合に、その所望のビデオシーンまたはビデオショットを見つける際の困難さはさらに増加する。
所望のビデオシーンまたはビデオショットをビデオテープから検索することをより容易にする1つ解決法は、ビデオインデックスソフトウェアを有するパーソナルコンピュータ等のビデオインデックスデバイスにビデオテープのコンテンツを転送することである。
ビデオシーンがアナログフォーマットでビデオテープに記憶されている場合、ビデオシーンは、まずデジタルフォーマットに変換される。
デジタルフォーマットでは、ビデオインデックスを生成して、異なるビデオシーンおよびビデオショットを「マーキング」することができる。
これらのビデオインデックスは、従来のビデオインデックスアルゴリズムを使用して自動的に生成することができる。
このビデオインデックスアルゴリズムは、ビデオシーン間およびビデオショット間の視覚的変化を検出して、ビデオシーンおよびビデオショットを識別し、インデックスすることができる。
また、ビデオインデックスアルゴリズムは、各ビデオシーンから、そのビデオシーンを最もよく表す重要なビデオフレーム(「キーフレーム」)を選択することもできる。
同様に、ビデオインデックスアルゴリズムは、各ビデオショットから、そのビデオショットを最もよく表すキーフレームを選択することもできる。
単一のキーフレームが、ビデオシーンとそのシーンのビデオショットとの双方を表すことができる。
ビデオシーンおよびビデオショットのキーフレームは、所望のビデオシーンまたはビデオショットを容易に検索できるように、その後、ユーザに提示される。
PATEL N V 他, 「Video classification using speaker identification」, 1997年2月13-14日, STORAGE AND RETRIEVAL FOR IMGAE AND VIDEO DATABASES 5., San Jose, 1997年2月13日, SPIE会報, BELLINGHAM, SPIE, US, vol. 3022, p218-225 TSEKERIDOU S 他, 「Speaker dependent video indexing based on audio−visual interaction」, IMAGE PROCESSING, 1998年, ICIP 98, 1998 INTERNATIONAL CONFENRENCE ON CHICAGO, IL, USA, 1998年10月, LOS ALMITOS, CA, USA, IEEE COMPUT. SOC., US, 1998年10月4日, p358-362 MAKHOUL J 他, 「Speech and language tchnologies for audio indexing and retrieval」, IEEE会報, IEEE. NEW YORK, US, vol. 88, No. 8, 2000年8月,p1338-1353 NAM J 他, 「Speaker identification and video analysis for hierarchical video shot classification」, IMAGE PROCESSING, 1997会報, INTERNATIONAL CONFERENCE ON SANTA BARBARA, CA USA, 1997年10月26-29日, LOS ALMITOS, CA USA, IEEE COMPUT. SOC, US, 1997年10月26日, p550-553
ビデオシーンがアナログフォーマットでビデオテープに記憶されている場合、ビデオシーンは、まずデジタルフォーマットに変換される。
デジタルフォーマットでは、ビデオインデックスを生成して、異なるビデオシーンおよびビデオショットを「マーキング」することができる。
これらのビデオインデックスは、従来のビデオインデックスアルゴリズムを使用して自動的に生成することができる。
このビデオインデックスアルゴリズムは、ビデオシーン間およびビデオショット間の視覚的変化を検出して、ビデオシーンおよびビデオショットを識別し、インデックスすることができる。
また、ビデオインデックスアルゴリズムは、各ビデオシーンから、そのビデオシーンを最もよく表す重要なビデオフレーム(「キーフレーム」)を選択することもできる。
同様に、ビデオインデックスアルゴリズムは、各ビデオショットから、そのビデオショットを最もよく表すキーフレームを選択することもできる。
単一のキーフレームが、ビデオシーンとそのシーンのビデオショットとの双方を表すことができる。
ビデオシーンおよびビデオショットのキーフレームは、所望のビデオシーンまたはビデオショットを容易に検索できるように、その後、ユーザに提示される。
PATEL N V 他, 「Video classification using speaker identification」, 1997年2月13-14日, STORAGE AND RETRIEVAL FOR IMGAE AND VIDEO DATABASES 5., San Jose, 1997年2月13日, SPIE会報, BELLINGHAM, SPIE, US, vol. 3022, p218-225 TSEKERIDOU S 他, 「Speaker dependent video indexing based on audio−visual interaction」, IMAGE PROCESSING, 1998年, ICIP 98, 1998 INTERNATIONAL CONFENRENCE ON CHICAGO, IL, USA, 1998年10月, LOS ALMITOS, CA, USA, IEEE COMPUT. SOC., US, 1998年10月4日, p358-362 MAKHOUL J 他, 「Speech and language tchnologies for audio indexing and retrieval」, IEEE会報, IEEE. NEW YORK, US, vol. 88, No. 8, 2000年8月,p1338-1353 NAM J 他, 「Speaker identification and video analysis for hierarchical video shot classification」, IMAGE PROCESSING, 1997会報, INTERNATIONAL CONFERENCE ON SANTA BARBARA, CA USA, 1997年10月26-29日, LOS ALMITOS, CA USA, IEEE COMPUT. SOC, US, 1997年10月26日, p550-553
従来のビデオインデックスアルゴリズムに関する問題は、インデックスされたビデオシーンおよびビデオショットを音響コンテンツに基づいて検索できないということである。
ビデオシーンおよびビデオショットは、視覚情報に従ってインデックスされるので、ユーザは、特定の話者からの発話等の所望の音響コンテンツを含むビデオセグメント、ビデオショット、またはビデオの他の部分を選択的に検索することができない。
なお、このビデオセグメントは、ビデオシーンの場合もある。
多くの状況において、ユーザは、特定の話者が発話中のビデオセグメントのみを検索したい場合がある。
従来のビデオインデックスアルゴリズムでは、キーフレームが、所望の話者の視覚的な表示を何も提供しないと、ユーザは、その話者からの発話を含んだビデオシーンもビデオショットも選択することができない。
さらに、従来のビデオインデックスアルゴリズムは、視覚情報のみを使用するので、インデックスされたビデオシーンまたはビデオショットは、発話を含むこともあるし、含まないこともある。
ビデオシーンまたはビデオショットが所望の話者からの発話を含む場合であっても、そのビデオシーンまたはビデオショットの小さなセグメントしかその話者の発話を含まないことがある。
したがって、ユーザは、不必要にビデオシーンまたはビデオショット全体を注視しなければならないことがある。
ビデオシーンおよびビデオショットは、視覚情報に従ってインデックスされるので、ユーザは、特定の話者からの発話等の所望の音響コンテンツを含むビデオセグメント、ビデオショット、またはビデオの他の部分を選択的に検索することができない。
なお、このビデオセグメントは、ビデオシーンの場合もある。
多くの状況において、ユーザは、特定の話者が発話中のビデオセグメントのみを検索したい場合がある。
従来のビデオインデックスアルゴリズムでは、キーフレームが、所望の話者の視覚的な表示を何も提供しないと、ユーザは、その話者からの発話を含んだビデオシーンもビデオショットも選択することができない。
さらに、従来のビデオインデックスアルゴリズムは、視覚情報のみを使用するので、インデックスされたビデオシーンまたはビデオショットは、発話を含むこともあるし、含まないこともある。
ビデオシーンまたはビデオショットが所望の話者からの発話を含む場合であっても、そのビデオシーンまたはビデオショットの小さなセグメントしかその話者の発話を含まないことがある。
したがって、ユーザは、不必要にビデオシーンまたはビデオショット全体を注視しなければならないことがある。
上述した問題に鑑み、ビデオに含まれる音響情報に基づいてビデオをインデックスするシステムおよび方法が必要とされている。
[発明の概要]
マルチメディアファイルをインデックスするシステムおよび方法は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、選択されたマルチメディアセグメントを識別する。
例示の実施の形態では、所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話である。
さらに、音響特性は話者特性である。
発話を含むビデオセグメントは、ビデオファイルの音響コンテンツを分析することによって検出される。
次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる。
発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索する必要なく、特定の話者からの発話を含むビデオセグメントに選択的にアクセスすることが可能になる。
マルチメディアファイルをインデックスするシステムおよび方法は、マルチメディアファイルの選択されたマルチメディアセグメントに含まれる所定の音響コンテンツの音響特性を利用して、選択されたマルチメディアセグメントを識別する。
例示の実施の形態では、所定の音響コンテンツは、ビデオファイルのビデオセグメントに含まれる発話である。
さらに、音響特性は話者特性である。
発話を含むビデオセグメントは、ビデオファイルの音響コンテンツを分析することによって検出される。
次いで、発話を含むビデオセグメントの音響コンテンツは、話者に従ってビデオセグメントを識別するために特徴付けられる。
発話を含むビデオセグメントを話者に基づいてインデックスすることにより、ユーザは、発話を含むすべてのビデオセグメントを手動で探索する必要なく、特定の話者からの発話を含むビデオセグメントに選択的にアクセスすることが可能になる。
本発明によるビデオファイルをインデックスするシステムは、発話検出器、話者識別モジュール、およびプロセッサを含む。
発話検出器は、ビデオファイルの発話を含むビデオセグメントを検出するように構成される。
話者識別モジュールは、ビデオセグメントに含まれる発話の話者特性に従って、発話を含むビデオセグメントを分類するように構成される。
プロセッサは、話者特性の分類に従って、発話を含むビデオセグメントの位置のインデックスを生成するように構成される。
発話検出器は、ビデオファイルの発話を含むビデオセグメントを検出するように構成される。
話者識別モジュールは、ビデオセグメントに含まれる発話の話者特性に従って、発話を含むビデオセグメントを分類するように構成される。
プロセッサは、話者特性の分類に従って、発話を含むビデオセグメントの位置のインデックスを生成するように構成される。
一実施の形態では、発話検出器は、エネルギー分析器、ゼロ交差分析器、および/またはスペクトル分析器を含む。
エネルギー分析器は、ビデオファイルの音響部分のエネルギー値を比較して、発話を含まない音響部分を選別するように構成される。
ゼロ交差分析器は、音響部分のゼロ交差レート(ZCR)の分散値およびZCRの振幅範囲(amplitude span)値を対応する閾値と比較して、発話を含まない音響部分をさらに選別するように構成される。
スペクトル分析器は、ビデオファイルの音響部分についてスペクトルのピークの調波発話関係(harmonic speech relation)を検査して、音響部分が発話を含むかどうかを判断するように構成される。
エネルギー分析器は、ビデオファイルの音響部分のエネルギー値を比較して、発話を含まない音響部分を選別するように構成される。
ゼロ交差分析器は、音響部分のゼロ交差レート(ZCR)の分散値およびZCRの振幅範囲(amplitude span)値を対応する閾値と比較して、発話を含まない音響部分をさらに選別するように構成される。
スペクトル分析器は、ビデオファイルの音響部分についてスペクトルのピークの調波発話関係(harmonic speech relation)を検査して、音響部分が発話を含むかどうかを判断するように構成される。
一実施の形態では、話者識別モジュールは、特徴ジェネレータ、モデル化ユニット、およびクラスタ化ユニットを含む。
特徴ジェネレータは、発話を含むビデオセグメントの音響部分について、スペクトルに基づく特徴係数を生成するように構成される。
このスペクトルに基づく特徴係数は、メル周波数ケプストラム係数とすることができる。
モデル化ユニットは、発話を含むビデオセグメントについて、スペクトルに基づく特徴係数を音響モデルにモデル化するように構成される。
クラスタ化ユニットは、発話を含むビデオセグメントの音響モデルをクラスタ化して、発話を含むビデオセグメントを話者特性に従って分類するように構成される。
特徴ジェネレータは、発話を含むビデオセグメントの音響部分について、スペクトルに基づく特徴係数を生成するように構成される。
このスペクトルに基づく特徴係数は、メル周波数ケプストラム係数とすることができる。
モデル化ユニットは、発話を含むビデオセグメントについて、スペクトルに基づく特徴係数を音響モデルにモデル化するように構成される。
クラスタ化ユニットは、発話を含むビデオセグメントの音響モデルをクラスタ化して、発話を含むビデオセグメントを話者特性に従って分類するように構成される。
本発明によるビデオファイルをインデックスする方法は、ビデオファイルの発話を含むビデオセグメントを検出するステップと、発話を含むビデオセグメントを話者特性に従って分類するステップと、発話を含むビデオセグメントのビデオファイルにおける位置のインデックスを話者特性の分類に従って生成するステップとを含む。
一実施の形態では、発話を含むビデオセグメントを検出するステップは、ビデオファイルの音響部分のエネルギー値をエネルギー閾値と比較して、発話を含まない音響部分を選別することを含む。
さらに、発話を含むビデオセグメントを検出するステップは、ビデオファイルの音響部分についてZCRの分散値およびZCRの振幅範囲値を比較して、発話を含まない音響部分をさらに選別することを含むこともできる。
その上、発話を含むビデオセグメントを検出するステップは、音響部分についてスペクトルのピークの調波発話関係を検査して、その音響部分が発話を含むかどうかを判断することを含むこともできる。
さらに、発話を含むビデオセグメントを検出するステップは、ビデオファイルの音響部分についてZCRの分散値およびZCRの振幅範囲値を比較して、発話を含まない音響部分をさらに選別することを含むこともできる。
その上、発話を含むビデオセグメントを検出するステップは、音響部分についてスペクトルのピークの調波発話関係を検査して、その音響部分が発話を含むかどうかを判断することを含むこともできる。
本発明の他の態様および利点は、本発明の原理を例として示す添付図面と共に以下の詳細な説明を読めば明らかとなる。
[詳細な説明]
図1を参照して、本発明の例示の実施の形態によるビデオインデックスシステム100が示されている。
このビデオインデックスシステムは、ビデオに含まれる音響情報に基づいてビデオをインデックスするように動作する。
特に、このビデオインデックスシステムは、発話を含むビデオセグメントを検出し、次いで、発話を含むビデオセグメントを種々の話者に相関させるように動作する。
したがって、このビデオインデックスシステムによって、ユーザは、効率的な方法で、ビデオデータの中から、特定の話者に対応した発話を含むビデオセグメントを選択的に検索することが可能になる。
図1を参照して、本発明の例示の実施の形態によるビデオインデックスシステム100が示されている。
このビデオインデックスシステムは、ビデオに含まれる音響情報に基づいてビデオをインデックスするように動作する。
特に、このビデオインデックスシステムは、発話を含むビデオセグメントを検出し、次いで、発話を含むビデオセグメントを種々の話者に相関させるように動作する。
したがって、このビデオインデックスシステムによって、ユーザは、効率的な方法で、ビデオデータの中から、特定の話者に対応した発話を含むビデオセグメントを選択的に検索することが可能になる。
図1に示すように、ビデオインデックスシステム100は、入力デバイス102、出力デバイス104、および処理デバイス106を含む。
これらのデバイスは、個別のデバイスとして示されているが、これらのデバイスの2つ以上を1つに統合することもできる。
入力デバイス102は、ユーザがコマンドをシステムに入力することを可能にするものである。
さらに、入力デバイスは、ユーザが、システムによって使用されるパラメータを入力して、ビデオをインデックスすることも可能にするものである。
例示の実施の形態では、入力デバイスは、コンピュータキーボード108およびカーソルポインティングメカニズム110を含む。
しかしながら、入力デバイスは、あらゆるタイプの電子入力デバイスを含むことができる。
入力デバイスおよび処理デバイスが統合される一実施の形態では、入力デバイスは、単に、処理デバイス上のボタン、ダイヤル、レバー、および/またはスイッチであってもよい。
これらのデバイスは、個別のデバイスとして示されているが、これらのデバイスの2つ以上を1つに統合することもできる。
入力デバイス102は、ユーザがコマンドをシステムに入力することを可能にするものである。
さらに、入力デバイスは、ユーザが、システムによって使用されるパラメータを入力して、ビデオをインデックスすることも可能にするものである。
例示の実施の形態では、入力デバイスは、コンピュータキーボード108およびカーソルポインティングメカニズム110を含む。
しかしながら、入力デバイスは、あらゆるタイプの電子入力デバイスを含むことができる。
入力デバイスおよび処理デバイスが統合される一実施の形態では、入力デバイスは、単に、処理デバイス上のボタン、ダイヤル、レバー、および/またはスイッチであってもよい。
ビデオインデックスシステム100の出力デバイス104は、ユーザがビデオを見ることを可能にするものである。
また、出力デバイスは、ユーザが、ビデオに付随した音響コンテンツを聞くことも可能にするものである。
例示の実施の形態では、出力デバイスは、CRTモニタやフラットパネルディスプレイ等のコンピュータモニタおよび1つまたは複数のスピーカを含む。
出力デバイスおよび処理デバイス106が統合される一実施の形態では、出力デバイスは、液晶ディスプレイおよび1つまたは複数のスピーカを含むことができ、これらは、処理デバイスに取り付けられる。
また、出力デバイスは、ユーザが、ビデオに付随した音響コンテンツを聞くことも可能にするものである。
例示の実施の形態では、出力デバイスは、CRTモニタやフラットパネルディスプレイ等のコンピュータモニタおよび1つまたは複数のスピーカを含む。
出力デバイスおよび処理デバイス106が統合される一実施の形態では、出力デバイスは、液晶ディスプレイおよび1つまたは複数のスピーカを含むことができ、これらは、処理デバイスに取り付けられる。
ビデオインデックスシステム100の処理デバイス106は、ビデオインデックス用にビデオを処理するように動作する。
図1に示すように、処理デバイスは、入力データインターフェース112、発話検出器114、話者識別モジュール116、メモリ118、プロセッサ120、および入出力(I/O)インターフェース122を含む。
処理デバイスの発話検出器および話者識別モジュールは、本明細書では、個別のユニットとして図示および説明されるが、これらのコンポーネントは、機能ブロックを表すものであり、その結果、物理的に個別のユニットの形で具体化されることもあるし、されないこともある。
したがって、これらのコンポーネントは、単一のモジュールに結合することができる。
あるいは、これらのコンポーネントの一方または双方を2つ以上のモジュールに分割することもできる。
したがって、処理デバイスは、図示および説明するものよりも少ないコンポーネントまたは多くのコンポーネントを含む場合がある。
例示の実施の形態では、発話検出器および話者識別モジュールは、コンピュータ内のソフトウェアとして実施される。
しかしながら、これらのコンポーネントは、ハードウェア、ファームウェア、および/またはソフトウェアのどの組み合わせでも実施することができる。
図1に示すように、処理デバイスは、入力データインターフェース112、発話検出器114、話者識別モジュール116、メモリ118、プロセッサ120、および入出力(I/O)インターフェース122を含む。
処理デバイスの発話検出器および話者識別モジュールは、本明細書では、個別のユニットとして図示および説明されるが、これらのコンポーネントは、機能ブロックを表すものであり、その結果、物理的に個別のユニットの形で具体化されることもあるし、されないこともある。
したがって、これらのコンポーネントは、単一のモジュールに結合することができる。
あるいは、これらのコンポーネントの一方または双方を2つ以上のモジュールに分割することもできる。
したがって、処理デバイスは、図示および説明するものよりも少ないコンポーネントまたは多くのコンポーネントを含む場合がある。
例示の実施の形態では、発話検出器および話者識別モジュールは、コンピュータ内のソフトウェアとして実施される。
しかしながら、これらのコンポーネントは、ハードウェア、ファームウェア、および/またはソフトウェアのどの組み合わせでも実施することができる。
処理デバイス106の入力データインターフェース112は、デジタルビデオカメラ、ポータブル記憶媒体、またはリモートコンピュータ/サーバ等の外部ビデオ源(図示せず)から入力ビデオ124を受け取る手段を提供する。
例示の実施の形態では、入力データインターフェースは、デジタル化されたビデオまたはデジタルビデオファイルを受け取るように構成される。
入力ビデオがアナログビデオである場合、処理デバイスは、受け取ったアナログビデオをデジタルビデオファイルに変換するアナログ/デジタルビデオ変換器(図示せず)を含むことができる。
入力データインターフェースは、モデム、USBポート、シリアルポート、FireWireカード、またはビデオインデックスシステム100を外部ビデオ源に接続し、通信リンクを通じて入力ビデオを転送するように設計される他の任意のインターフェースポートとすることができる。
あるいは、入力データインターフェースは、デジタルビデオファイルとして1つまたは複数の入力ビデオを含む半導体メモリカード等のポータブル記憶媒体を収容するメモリスロットとすることもできる。
例示の実施の形態では、入力データインターフェースは、デジタル化されたビデオまたはデジタルビデオファイルを受け取るように構成される。
入力ビデオがアナログビデオである場合、処理デバイスは、受け取ったアナログビデオをデジタルビデオファイルに変換するアナログ/デジタルビデオ変換器(図示せず)を含むことができる。
入力データインターフェースは、モデム、USBポート、シリアルポート、FireWireカード、またはビデオインデックスシステム100を外部ビデオ源に接続し、通信リンクを通じて入力ビデオを転送するように設計される他の任意のインターフェースポートとすることができる。
あるいは、入力データインターフェースは、デジタルビデオファイルとして1つまたは複数の入力ビデオを含む半導体メモリカード等のポータブル記憶媒体を収容するメモリスロットとすることもできる。
処理デバイス106のメモリ118、プロセッサ120、およびI/Oインターフェース122は、パーソナルコンピュータに一般に見られるコンポーネントである。
メモリ118は、デジタルビデオファイルを記憶する記憶媒体である。
メモリに記憶できるビデオファイル数は、メモリの記憶容量にのみ制限される。
また、メモリは、ビデオインデックスシステム100によって使用されるさまざまなパラメータに加えて、他の情報も記憶することができる。
メモリは、ハードディスクドライブ、読み出し専用メモリ(ROM)、または他の形式のメモリとすることができる。
プロセッサ120は、後述するように、処理デバイスの他のコンポーネントと共に信号処理オペレーションを実行する。
プロセッサは、任意のタイプのデジタル信号プロセッサとすることができる。
I/Oインターフェース122は、処理デバイス106と入力デバイス102および出力デバイス104との間のインターフェースを提供する。
メモリ118は、デジタルビデオファイルを記憶する記憶媒体である。
メモリに記憶できるビデオファイル数は、メモリの記憶容量にのみ制限される。
また、メモリは、ビデオインデックスシステム100によって使用されるさまざまなパラメータに加えて、他の情報も記憶することができる。
メモリは、ハードディスクドライブ、読み出し専用メモリ(ROM)、または他の形式のメモリとすることができる。
プロセッサ120は、後述するように、処理デバイスの他のコンポーネントと共に信号処理オペレーションを実行する。
プロセッサは、任意のタイプのデジタル信号プロセッサとすることができる。
I/Oインターフェース122は、処理デバイス106と入力デバイス102および出力デバイス104との間のインターフェースを提供する。
処理デバイス106の発話検出器114および話者識別モジュール116は、まず、デジタルビデオファイル内の発話を含むビデオセグメントを検出し、次に、その発話を含むビデオセグメントを話者に従って関連付けるように、プロセッサ120と共に動作する。
これらのコンポーネントの全体のオペレーションは、図2Aおよび図2Bを参照して説明する。
図2Aには、デジタルビデオファイル200が、連続した直線状のテープとして示されている。
このテープは、ビデオデータ202および対応する音響データ204に分離される。
ビデオデータ202は、ビデオファイル200の視覚コンテンツに対応する一方、音響データ204は、音響コンテンツに対応する。
ビデオファイルは、ビデオセグメント206〜218に区画されている。
ビデオセグメント206、210、214、および218は発話を含む一方、ビデオセグメント208、212、および216は、他の形式の音響コンテンツを含むか、または、音響コンテンツを含まない。
発話を含むビデオセグメント206および214は、話者#1からの発話を含み、発話を含むビデオセグメント210および218は、話者#2からの発話を含む。
発話検出器114は、ビデオファイル200を処理して、音響データ204の音響特性を既知の発話特性と比較することにより、発話を含むビデオセグメント206、210、214、および218を検出するように構成される。
話者識別モジュール116は、発話を含むビデオセグメント206、210、214、および218を処理し、ビデオセグメントにおける音響コンテンツの話者識別特徴を使用して、発話を含むビデオセグメントを話者に従って分類するように構成される。
このように、この例では、話者識別モジュールは、発話を含むビデオセグメント206および214を共に、特定の話者(すなわち、話者#1)からの発話を含むものとして関連付け、発話を含むビデオセグメント210および218を、別の話者(すなわち、話者#2)からの発話を含むものとして関連付ける。
この情報を使用すると、プロセッサ120は、特定の話者に関連付けられた発話を含むビデオセグメントに容易にアクセスできるように、ビデオファイル200の発話を含むビデオセグメント206、210、214、および218をインデックスすることができる。
これらのコンポーネントの全体のオペレーションは、図2Aおよび図2Bを参照して説明する。
図2Aには、デジタルビデオファイル200が、連続した直線状のテープとして示されている。
このテープは、ビデオデータ202および対応する音響データ204に分離される。
ビデオデータ202は、ビデオファイル200の視覚コンテンツに対応する一方、音響データ204は、音響コンテンツに対応する。
ビデオファイルは、ビデオセグメント206〜218に区画されている。
ビデオセグメント206、210、214、および218は発話を含む一方、ビデオセグメント208、212、および216は、他の形式の音響コンテンツを含むか、または、音響コンテンツを含まない。
発話を含むビデオセグメント206および214は、話者#1からの発話を含み、発話を含むビデオセグメント210および218は、話者#2からの発話を含む。
発話検出器114は、ビデオファイル200を処理して、音響データ204の音響特性を既知の発話特性と比較することにより、発話を含むビデオセグメント206、210、214、および218を検出するように構成される。
話者識別モジュール116は、発話を含むビデオセグメント206、210、214、および218を処理し、ビデオセグメントにおける音響コンテンツの話者識別特徴を使用して、発話を含むビデオセグメントを話者に従って分類するように構成される。
このように、この例では、話者識別モジュールは、発話を含むビデオセグメント206および214を共に、特定の話者(すなわち、話者#1)からの発話を含むものとして関連付け、発話を含むビデオセグメント210および218を、別の話者(すなわち、話者#2)からの発話を含むものとして関連付ける。
この情報を使用すると、プロセッサ120は、特定の話者に関連付けられた発話を含むビデオセグメントに容易にアクセスできるように、ビデオファイル200の発話を含むビデオセグメント206、210、214、および218をインデックスすることができる。
図3に示すように、処理デバイス106の発話検出器114は、エネルギー分析器302、ゼロ交差分析器304、およびスペクトル分析器306を含む。
発話検出器のこれらのコンポーネントは、所与のビデオファイルの小さな音響部分を処理して、それらの音響部分が発話を含むかどうかを判断する。
なお、小さな音響部分は、オーバラップウィンドウ(overlapping window)を使用して音響フレームに分割される。
一例として、音響部分は1秒または2秒の音響データとすることができ、音響フレームは約10ミリ秒から20ミリ秒の音響データとすることができる。
これらの音響部分は、エネルギー分析器302、ゼロ交差分析器304、およびスペクトル分析器306によって順次分析され、3ステップ手法で発話を含む音響部分が特定される。
一方、所与の音響部分が発話を含まないとこれらの分析器の1つが判断すると、その音響部分はそれ以上処理されない。
音響部分が発話を含むかどうかを判断するこの3ステップ手法によって、すべての音響部分が、スペクトル分析器306および/またはゼロ交差分析器304によって不必要に分析されるとは限らないことが確保される。
その結果、発話検出器は、効率的な方法で発話検出を実行することができる。
発話検出器のこれらのコンポーネントは、所与のビデオファイルの小さな音響部分を処理して、それらの音響部分が発話を含むかどうかを判断する。
なお、小さな音響部分は、オーバラップウィンドウ(overlapping window)を使用して音響フレームに分割される。
一例として、音響部分は1秒または2秒の音響データとすることができ、音響フレームは約10ミリ秒から20ミリ秒の音響データとすることができる。
これらの音響部分は、エネルギー分析器302、ゼロ交差分析器304、およびスペクトル分析器306によって順次分析され、3ステップ手法で発話を含む音響部分が特定される。
一方、所与の音響部分が発話を含まないとこれらの分析器の1つが判断すると、その音響部分はそれ以上処理されない。
音響部分が発話を含むかどうかを判断するこの3ステップ手法によって、すべての音響部分が、スペクトル分析器306および/またはゼロ交差分析器304によって不必要に分析されるとは限らないことが確保される。
その結果、発話検出器は、効率的な方法で発話検出を実行することができる。
発話検出器114のエネルギー分析器306は、音響部分の各音響フレームのエネルギーを検査することによって、発話を含まない所与のビデオファイルの音響部分を選別するように動作する。
具体的には、エネルギー分析器は、所与の音響部分の音響フレームのエネルギー値を計算し、次いで、計算したエネルギー値を所定の最小エネルギー閾値と比較する。
一般に、発話は、背景雑音等の他のタイプの音響コンテンツよりも高いエネルギーを有する。
このように、所与のビデオファイルの音響部分が発話を含むかどうかの予備的判断は、音響部分の音響フレームのエネルギー値を閾値と比較することによって行うことができる。
最小エネルギー閾値は、発話を含む音響部分の例を使用して経験的に決定することができる。
最小エネルギー閾値は、処理デバイス106のメモリ118に記憶することができる。
所与の音響部分について計算したエネルギー値の1つまたは複数が、所定の最小エネルギー閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、所与の音響部分のすべてのエネルギー値が、所定の最小エネルギー閾値よりも小さい場合には、その音響部分は発話を含まないとみなされる。
エネルギー値は、以下の公式を使用して計算することができる。
具体的には、エネルギー分析器は、所与の音響部分の音響フレームのエネルギー値を計算し、次いで、計算したエネルギー値を所定の最小エネルギー閾値と比較する。
一般に、発話は、背景雑音等の他のタイプの音響コンテンツよりも高いエネルギーを有する。
このように、所与のビデオファイルの音響部分が発話を含むかどうかの予備的判断は、音響部分の音響フレームのエネルギー値を閾値と比較することによって行うことができる。
最小エネルギー閾値は、発話を含む音響部分の例を使用して経験的に決定することができる。
最小エネルギー閾値は、処理デバイス106のメモリ118に記憶することができる。
所与の音響部分について計算したエネルギー値の1つまたは複数が、所定の最小エネルギー閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、所与の音響部分のすべてのエネルギー値が、所定の最小エネルギー閾値よりも小さい場合には、その音響部分は発話を含まないとみなされる。
エネルギー値は、以下の公式を使用して計算することができる。
ここで、x(m)は離散時刻の(デジタル化された)音響サンプルであり、mは音響サンプルの時間インデックスであり、nはエネルギーの時間インデックスであり、Nは方形サンプリングウィンドウの長さであり、w(m)は、
0≦m≦N−1の場合には、w(m)=1
それ以外の場合には、w(m)=0
によって定義される方形ウィンドウである。
音響信号が小さな間隔をおいて比較的ゆっくりと変化すると仮定することによって、Enは、10ミリ秒から20ミリ秒ごとに計算することができ、これは、音響フレームの長さに対応する。
例えば、音響データを取り込んでデジタル化するのに使用されるサンプリングレートが8000Hzであったとすると、100個の音響サンプルごとにEnを計算することができる。
0≦m≦N−1の場合には、w(m)=1
それ以外の場合には、w(m)=0
によって定義される方形ウィンドウである。
音響信号が小さな間隔をおいて比較的ゆっくりと変化すると仮定することによって、Enは、10ミリ秒から20ミリ秒ごとに計算することができ、これは、音響フレームの長さに対応する。
例えば、音響データを取り込んでデジタル化するのに使用されるサンプリングレートが8000Hzであったとすると、100個の音響サンプルごとにEnを計算することができる。
発話検出器114のゼロ交差分析器304は、残りの音響部分の各音響フレームにおけるゼロ交差を検査することによって、残りの音響部分をさらに選別するように動作する。
具体的には、ゼロ交差分析器は、所与の音響部分の各音響フレームの平均ゼロ交差レート(ZCR)値を計算し、次いで、所与の音響部分のZCR値の分散およびZCR値の振幅範囲を計算する。
次に、計算したZCRの分散および振幅範囲は、それぞれの閾値と比較され、現時点の音響部分が発話を含み得るかどうかが判断される。
離散時刻の(デジタル化された)音響の場合には、ゼロ交差は、連続したサンプルが異なる符号を有する場合に発生すると言われている。
したがって、ゼロ交差レートは、信号の周波数成分の簡単な測度である。
具体的には、ゼロ交差分析器は、所与の音響部分の各音響フレームの平均ゼロ交差レート(ZCR)値を計算し、次いで、所与の音響部分のZCR値の分散およびZCR値の振幅範囲を計算する。
次に、計算したZCRの分散および振幅範囲は、それぞれの閾値と比較され、現時点の音響部分が発話を含み得るかどうかが判断される。
離散時刻の(デジタル化された)音響の場合には、ゼロ交差は、連続したサンプルが異なる符号を有する場合に発生すると言われている。
したがって、ゼロ交差レートは、信号の周波数成分の簡単な測度である。
発話生成モデルは、発話を生成する物理的なプロセスのモデルであり、声門波によって導入されたスペクトル減衰のために有声発話信号(母音)が3kHz未満に集中する一方、エネルギーのほとんどは、無声発話信号(子音)用のより高い周波数に見られることを示唆している。
ZCRは、周波数レベルの測度であるので、有声発話成分は低いZCR値を有する一方、無声発話成分は高いZCR値を有する。
有声発話成分および無声発話成分は、発話信号において互いに交互に配置される。
したがって、発話のZCRは、音楽等のいくつかの他のタイプの音響コンテンツのZCR値よりもはるかに高い分散および振幅範囲を有する。
ゼロ交差分析器304は、この結論を利用して、ZCR分散およびZCR振幅範囲を所定の閾値と比較することにより残りの音響部分を選別する。
ZCRは、周波数レベルの測度であるので、有声発話成分は低いZCR値を有する一方、無声発話成分は高いZCR値を有する。
有声発話成分および無声発話成分は、発話信号において互いに交互に配置される。
したがって、発話のZCRは、音楽等のいくつかの他のタイプの音響コンテンツのZCR値よりもはるかに高い分散および振幅範囲を有する。
ゼロ交差分析器304は、この結論を利用して、ZCR分散およびZCR振幅範囲を所定の閾値と比較することにより残りの音響部分を選別する。
音響フレームの平均ZCR値は、以下の式を使用して計算することができる。
ここで、
x(m)≧0の場合には、sgn[x(m)]=1
x(m)<0の場合には、sgn[x(m)]=0
であり、
0≦m≦N−1の場合には、w(m)=1
それ以外の場合には、w(m)=0
である。
この場合も、Nは方形ウィンドウw(m)の長さである。
エネルギー値と同様に、ZCR値も、10ミリ秒から20ミリ秒ごとに計算することができる。
x(m)≧0の場合には、sgn[x(m)]=1
x(m)<0の場合には、sgn[x(m)]=0
であり、
0≦m≦N−1の場合には、w(m)=1
それ以外の場合には、w(m)=0
である。
この場合も、Nは方形ウィンドウw(m)の長さである。
エネルギー値と同様に、ZCR値も、10ミリ秒から20ミリ秒ごとに計算することができる。
ZCR値から、ゼロ交差分析器304は、音響部分のZCR値の分散およびZCR値の振幅範囲を計算する。
ZCR値の振幅範囲は、音響部分の最高ZCR値と最低ZCR値との間の距離として定義される。
代替的な構成では、ゼロ交差分析器は、音響部分のより小さなセグメントについてZCRの分散およびZCRの振幅範囲を計算することができる。
この代替的な構成では、所与の音響部分をより小さなセグメントに分割することができ、ZCRの分散およびZCRの振幅範囲を各セグメントについて計算することができる。
いずれの構成においても、計算した各ZCRの分散は、所定のZCR分散閾値と比較される。
同様に、計算した各ZCRの振幅範囲は、所定のZCR振幅範囲閾値と比較される。
これらのZCR分散閾値およびZCR振幅範囲閾値は、経験的に決定することができ、メモリ118に記憶することができる。
所与の音響部分について計算したZCRの分散およびZCRの振幅範囲のうちのいずれかが、それぞれの閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、計算したZCRの分散およびZCRの振幅範囲のすべてが、それぞれの閾値よりも小さい場合には、その音響部分は、発話を含むものとはみなされない。
ZCR値の振幅範囲は、音響部分の最高ZCR値と最低ZCR値との間の距離として定義される。
代替的な構成では、ゼロ交差分析器は、音響部分のより小さなセグメントについてZCRの分散およびZCRの振幅範囲を計算することができる。
この代替的な構成では、所与の音響部分をより小さなセグメントに分割することができ、ZCRの分散およびZCRの振幅範囲を各セグメントについて計算することができる。
いずれの構成においても、計算した各ZCRの分散は、所定のZCR分散閾値と比較される。
同様に、計算した各ZCRの振幅範囲は、所定のZCR振幅範囲閾値と比較される。
これらのZCR分散閾値およびZCR振幅範囲閾値は、経験的に決定することができ、メモリ118に記憶することができる。
所与の音響部分について計算したZCRの分散およびZCRの振幅範囲のうちのいずれかが、それぞれの閾値よりも大きい場合には、その音響部分は、発話を含む音響部分の候補とみなされる。
一方、計算したZCRの分散およびZCRの振幅範囲のすべてが、それぞれの閾値よりも小さい場合には、その音響部分は、発話を含むものとはみなされない。
発話検出器114のスペクトル分析器306は、スペクトル分析を使用して、選別された音響部分が発話を含むかどうかの最終判断を行うように動作する。
動作中、スペクトル分析器は、まず、所与の音響部分の各音響フレームのスペクトルを計算する。
一例として、スペクトル分析器は、音響フレームに高速フーリエ変換(FFT)を適用することができる。
しかしながら、スペクトル分析器は、他のオペレーションを適用して、スペクトルのより滑らかなものを導出したり、周波数ピークの検出がより簡単なスペクトルを導出したりすることもできる。
次に、スペクトル分析器は、スペクトルの顕著なピーク(significant peaks)を選ぶことによって、各スペクトルの調波部分音(harmonic partials)を検出する。
顕著なピークは、本明細書では、所定の範囲の振幅、幅、およびシャープネスを有するスペクトルピークとして定義される。
スペクトル分析器は、次に、調波発話関係を得るために、この顕著なピークを検査する。
すなわち、調波発話信号は、人間の音声の共通の基本周波数にピークを有し、この基本周波数の整数倍にピークを有することがあるので、顕著なスペクトルピークは、ピークの周波数がこの基本周波数の整数倍であるかどうかを調べるために検査される。
人間の音声の基本周波数は、約100Hz〜300Hzである。
顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍である場合には、その音響部分は、発話を含むものと判断される。
一方、顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍でない場合には、その音響部分は、発話を含まないものと判断される。
動作中、スペクトル分析器は、まず、所与の音響部分の各音響フレームのスペクトルを計算する。
一例として、スペクトル分析器は、音響フレームに高速フーリエ変換(FFT)を適用することができる。
しかしながら、スペクトル分析器は、他のオペレーションを適用して、スペクトルのより滑らかなものを導出したり、周波数ピークの検出がより簡単なスペクトルを導出したりすることもできる。
次に、スペクトル分析器は、スペクトルの顕著なピーク(significant peaks)を選ぶことによって、各スペクトルの調波部分音(harmonic partials)を検出する。
顕著なピークは、本明細書では、所定の範囲の振幅、幅、およびシャープネスを有するスペクトルピークとして定義される。
スペクトル分析器は、次に、調波発話関係を得るために、この顕著なピークを検査する。
すなわち、調波発話信号は、人間の音声の共通の基本周波数にピークを有し、この基本周波数の整数倍にピークを有することがあるので、顕著なスペクトルピークは、ピークの周波数がこの基本周波数の整数倍であるかどうかを調べるために検査される。
人間の音声の基本周波数は、約100Hz〜300Hzである。
顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍である場合には、その音響部分は、発話を含むものと判断される。
一方、顕著なスペクトルピークの周波数が、人間の音声の基本周波数の整数倍でない場合には、その音響部分は、発話を含まないものと判断される。
有声発話成分(母音)および無声発話成分(子音)は、発話信号において互いに交互に配置される。
したがって、時間パターンの観点から、発話は、基本周波数値が同じであるか、または、次第に変化した状態で、複数の連続した音響フレームに調波部分音を含むことがある。
したがって、調波部分音は、有声発話の複数の連続した音響フレームの間は存在し、無声発話期間中は消滅する。
その後、調波部分音は、次の有声発話で再び現れる。
この極めて特徴的な時間パターンは発話に特徴的なものである。
このように、スペクトル分析器114は、この特徴的な発話の時間パターンを利用して、所与の音響部分が発話を含むかどうかを判断する。
したがって、時間パターンの観点から、発話は、基本周波数値が同じであるか、または、次第に変化した状態で、複数の連続した音響フレームに調波部分音を含むことがある。
したがって、調波部分音は、有声発話の複数の連続した音響フレームの間は存在し、無声発話期間中は消滅する。
その後、調波部分音は、次の有声発話で再び現れる。
この極めて特徴的な時間パターンは発話に特徴的なものである。
このように、スペクトル分析器114は、この特徴的な発話の時間パターンを利用して、所与の音響部分が発話を含むかどうかを判断する。
スペクトル分析器306の最終判断を使用すると、プロセッサ120は、発話を含むものと判断されたビデオファイルの音響部分を分析することによって、発話を含むビデオセグメントの開始および終了を特定することができる。
音響部分全体を使用して、発話を含むビデオセグメントを特定することができる。
あるいは、音響部分の音響フレームを使用して、発話を含むビデオセグメントの開始および終了をより正確に特定することもできる。
プロセッサは、隣接した音響部分の検出結果を融合することによって、所定の継続時間(例えば、1秒または2秒)よりも短い、発話を含むいかなるビデオセグメントも無視することができる。
プロセッサは、発話を含むビデオセグメントの境界位置の指示子またはインデックスをビデオファイルに含めたコンピュータファイルを生成することによって、発話を含むビデオセグメントをインデックスすることができる。
音響部分全体を使用して、発話を含むビデオセグメントを特定することができる。
あるいは、音響部分の音響フレームを使用して、発話を含むビデオセグメントの開始および終了をより正確に特定することもできる。
プロセッサは、隣接した音響部分の検出結果を融合することによって、所定の継続時間(例えば、1秒または2秒)よりも短い、発話を含むいかなるビデオセグメントも無視することができる。
プロセッサは、発話を含むビデオセグメントの境界位置の指示子またはインデックスをビデオファイルに含めたコンピュータファイルを生成することによって、発話を含むビデオセグメントをインデックスすることができる。
次に、ビデオファイルの発話を含むビデオセグメントを検出する発話検出器114の全体的なオペレーションを図4を参照して説明する。
ステップ402において、ビデオファイルの処理される音響部分が選択される。
次に、ステップ404において、選択された音響部分のすべての音響フレームのエネルギー値が計算される。
ステップ406において、計算されたエネルギー値が、所定の最小エネルギー閾値と比較される。
計算されたエネルギー値のいずれもが閾値よりも大きくない場合には、プロセスはステップ420に進み、ステップ402において、現時点の音響部分は発話を含まないものと確認される。
一方、計算されたいずれかのエネルギー値が閾値よりも大きい場合には、プロセスはステップ408に進む。
ステップ402において、ビデオファイルの処理される音響部分が選択される。
次に、ステップ404において、選択された音響部分のすべての音響フレームのエネルギー値が計算される。
ステップ406において、計算されたエネルギー値が、所定の最小エネルギー閾値と比較される。
計算されたエネルギー値のいずれもが閾値よりも大きくない場合には、プロセスはステップ420に進み、ステップ402において、現時点の音響部分は発話を含まないものと確認される。
一方、計算されたいずれかのエネルギー値が閾値よりも大きい場合には、プロセスはステップ408に進む。
ステップ408において、現時点の音響部分の音響フレームのZCR値が計算される。
次に、ステップ410において、現時点の音響部分のZCRの分散およびZCRの振幅範囲が計算される。
代替的な構成では、ZCRの分散およびZCRの振幅範囲は、現時点の音響部分のより小さなセグメントに対して計算される。
ステップ412において、ZCRの分散およびZCRの振幅範囲は、それぞれ、所定のZCR分散閾値および所定のZCR振幅範囲閾値と比較される。
ZCRの分散および振幅範囲の双方が、それぞれの閾値よりも小さい場合には、プロセスはステップ420に進み、ステップ420において、現時点の音響部分は、発話を含まないものと確認される。
一方、ZCRの分散および振幅範囲の一方または双方がそれぞれの閾値よりも大きい場合には、プロセスはステップ414に進み、ステップ414において、現時点の音響部分の各音響フレームのスペクトルが計算される。
次に、ステップ410において、現時点の音響部分のZCRの分散およびZCRの振幅範囲が計算される。
代替的な構成では、ZCRの分散およびZCRの振幅範囲は、現時点の音響部分のより小さなセグメントに対して計算される。
ステップ412において、ZCRの分散およびZCRの振幅範囲は、それぞれ、所定のZCR分散閾値および所定のZCR振幅範囲閾値と比較される。
ZCRの分散および振幅範囲の双方が、それぞれの閾値よりも小さい場合には、プロセスはステップ420に進み、ステップ420において、現時点の音響部分は、発話を含まないものと確認される。
一方、ZCRの分散および振幅範囲の一方または双方がそれぞれの閾値よりも大きい場合には、プロセスはステップ414に進み、ステップ414において、現時点の音響部分の各音響フレームのスペクトルが計算される。
次に、ステップ416において、計算されたスペクトルの顕著なピークが検査され、調波発話関係が存在するかどうかが判断される。
ピークについて調波発話関係が存在する場合には、プロセスはステップ418に進み、ステップ418において、現時点の音響部分は、発話を含むものと確認される。
一方、調波発話関係が存在しない場合には、プロセスはステップ420に進み、ステップ420において、現時点の音響部分は、発話を含まないものと確認される。
次に、ステップ422において、現時点の音響部分がビデオファイルの最後の音響部分であるかどうかの判断が行われる。
最後の音響部分である場合には、プロセスは終了する。
一方、現時点の音響部分が最後の音響部分でない場合には、プロセスはステップ402に戻り、ステップ402において、ビデオファイルの処理される次の音響部分が選択される。
ピークについて調波発話関係が存在する場合には、プロセスはステップ418に進み、ステップ418において、現時点の音響部分は、発話を含むものと確認される。
一方、調波発話関係が存在しない場合には、プロセスはステップ420に進み、ステップ420において、現時点の音響部分は、発話を含まないものと確認される。
次に、ステップ422において、現時点の音響部分がビデオファイルの最後の音響部分であるかどうかの判断が行われる。
最後の音響部分である場合には、プロセスは終了する。
一方、現時点の音響部分が最後の音響部分でない場合には、プロセスはステップ402に戻り、ステップ402において、ビデオファイルの処理される次の音響部分が選択される。
代替的な実施の形態では、発話を検出する前に、まず、連続したビデオフレームのヒストグラムの差分に基づくビデオショット検出方法等のビデオショット検出方式を使用して、ビデオファイルを所定のビデオセグメントまたはビデオショットにセグメント化することができる。
この実施の形態では、処理デバイス106の発話検出器114は、上述した発話検出方法を使用して、所与のビデオショットが発話を含むかどうかを判断することのみ行う。
この実施の形態では、処理デバイス106の発話検出器114は、上述した発話検出方法を使用して、所与のビデオショットが発話を含むかどうかを判断することのみ行う。
次に、図5に移って、話者識別モジュール116のコンポーネントが示されている。
図5に示すように、話者識別モジュールは、特徴ベクトルジェネレータ502、モデル化ユニット504、およびクラスタ化ユニット506を含む。
上述したように、話者識別モジュールは、検出された、発話を含むビデオセグメントを種々の話者と相関させるように動作する。
例示の実施の形態では、話者識別モジュールは、発話を含むビデオセグメントに相関された種々の話者を特定も認識もしない。
しかしながら、話者識別モジュールの結果は、話者の特定を行うのに使用することができる。
図5に示すように、話者識別モジュールは、特徴ベクトルジェネレータ502、モデル化ユニット504、およびクラスタ化ユニット506を含む。
上述したように、話者識別モジュールは、検出された、発話を含むビデオセグメントを種々の話者と相関させるように動作する。
例示の実施の形態では、話者識別モジュールは、発話を含むビデオセグメントに相関された種々の話者を特定も認識もしない。
しかしながら、話者識別モジュールの結果は、話者の特定を行うのに使用することができる。
発話識別モジュール116の特徴ベクトルジェネレータ502は、スペクトルに基づく特徴ベクトルを生成するように動作する。
このスペクトルに基づく特徴ベクトルは、話者の特徴に従って、発話を含むビデオセグメントに含まれる発話を特徴付けるものである。
例示の実施の形態では、特徴ベクトルジェネレータは、発話を含む所与のビデオセグメントの各音響セグメントについてメル周波数ケプストラム係数(MFCC)の特徴ベクトルを生成するように構成される。
一例として、音響セグメントは、20msの音響データとすることができる。
したがって、この例では、特徴ベクトルジェネレータは、20msの音響セグメントにおいて、発話を含むビデオセグメントの音響データを処理する。
音響セグメントのMFCCの生成プロセスは既知であり、したがって、本明細書では簡単に説明するだけにする。
高速フーリエ変換(FFT)が、所与の音響セグメントに適用されて、音響セグメントが周波数領域に変換される。
一実施の形態では、発話検出器114のスペクトル分析器302のオペレーションからのFFTの結果が使用される。
次に、音響セグメントのケプストラムが、FFTの対数の大きさの逆FFTを取ることによって計算される。
これは、数学的には以下のように記述される。
ケプストラム(セグメント)=FFT−1(log|FFT(セグメント)|)
このスペクトルに基づく特徴ベクトルは、話者の特徴に従って、発話を含むビデオセグメントに含まれる発話を特徴付けるものである。
例示の実施の形態では、特徴ベクトルジェネレータは、発話を含む所与のビデオセグメントの各音響セグメントについてメル周波数ケプストラム係数(MFCC)の特徴ベクトルを生成するように構成される。
一例として、音響セグメントは、20msの音響データとすることができる。
したがって、この例では、特徴ベクトルジェネレータは、20msの音響セグメントにおいて、発話を含むビデオセグメントの音響データを処理する。
音響セグメントのMFCCの生成プロセスは既知であり、したがって、本明細書では簡単に説明するだけにする。
高速フーリエ変換(FFT)が、所与の音響セグメントに適用されて、音響セグメントが周波数領域に変換される。
一実施の形態では、発話検出器114のスペクトル分析器302のオペレーションからのFFTの結果が使用される。
次に、音響セグメントのケプストラムが、FFTの対数の大きさの逆FFTを取ることによって計算される。
これは、数学的には以下のように記述される。
ケプストラム(セグメント)=FFT−1(log|FFT(セグメント)|)
逆FFTの結果が、MFCCの特徴ベクトルである。
次に、特徴ベクトルジェネレータ502は、最初のMFCCから始まる所定の個数のMFCCを選択して、さらに処理を行う。
低いMFCCは、これらの係数がケプストラムを表すのにより重要であることから選択される。
一例として、特徴ベクトルジェネレータは、最初の10個のMFCCのみを選択して、さらに処理を行うことができる。
したがって、特徴ベクトルジェネレータは、発話を含むビデオセグメントの各音響セグメントについて1組のMFCCを出力する。
特徴ベクトルジェネレータは、例示の実施の形態ではMFCCを利用するが、知覚線形予測係数(perceptual linear predictive coefficients)等の他のタイプのスペクトルに基づく特徴を使用して、発話を含むビデオセグメントの発話を特徴付けることもできる。
次に、特徴ベクトルジェネレータ502は、最初のMFCCから始まる所定の個数のMFCCを選択して、さらに処理を行う。
低いMFCCは、これらの係数がケプストラムを表すのにより重要であることから選択される。
一例として、特徴ベクトルジェネレータは、最初の10個のMFCCのみを選択して、さらに処理を行うことができる。
したがって、特徴ベクトルジェネレータは、発話を含むビデオセグメントの各音響セグメントについて1組のMFCCを出力する。
特徴ベクトルジェネレータは、例示の実施の形態ではMFCCを利用するが、知覚線形予測係数(perceptual linear predictive coefficients)等の他のタイプのスペクトルに基づく特徴を使用して、発話を含むビデオセグメントの発話を特徴付けることもできる。
話者識別モジュール116のモデル化ユニット504は、それぞれの組のMFCCを使用して、発話を含む各ビデオセグメントの話者の特性をモデル化するように動作する。
例示の実施の形態では、モデル化ユニットは、ガウス混合モデル(GMM)を利用して、発話を含むビデオセグメントの話者の特性をモデル化する。
モデル化ユニットは、以下の式を使用して、発話を含む各ビデオセグメントのガウス混合分布値Pを生成する。
なお、このガウス混合分布値Pは、ガウス分布の加重和である。
例示の実施の形態では、モデル化ユニットは、ガウス混合モデル(GMM)を利用して、発話を含むビデオセグメントの話者の特性をモデル化する。
モデル化ユニットは、以下の式を使用して、発話を含む各ビデオセグメントのガウス混合分布値Pを生成する。
なお、このガウス混合分布値Pは、ガウス分布の加重和である。
ここで、Mは経験的に選ばれる分布の数であり、Giはそのビデオセグメントの共通のMFCCの分布であり、qiは重みであり、以下の特性を有する。
ガウス分布のパラメータは、ガウス混合分布値Pが全体の最大値に到達できるような最適化手順を通じて計算することができる。
その結果生成される1組のパラメータは、この場合、発話を含むビデオセグメントの話者の特性を表す。
その結果生成される1組のパラメータは、この場合、発話を含むビデオセグメントの話者の特性を表す。
話者識別モジュール116のクラスタ化ユニット506は、計算されたガウス混合分布パラメータをクラスタ化して、発話を含むビデオセグメントを話者クラスに分類し、同じ話者クラスに分類されるビデオセグメントが、共通の話者からの発話を含むものとみなされるようにする。
クラスタ化ユニットは、最近傍アルゴリズム、適応型サンプルセット構成方法(adaptive sample set construction method)、ベクトル量子化方法等のクラスタ化アルゴリズムを利用して、ガウス混合分布パラメータをクラスタ化し、発話を含む各ビデオセグメントを一意の話者に関連付けることができるようにする。
クラスタ化ユニットは、最近傍アルゴリズム、適応型サンプルセット構成方法(adaptive sample set construction method)、ベクトル量子化方法等のクラスタ化アルゴリズムを利用して、ガウス混合分布パラメータをクラスタ化し、発話を含む各ビデオセグメントを一意の話者に関連付けることができるようにする。
次に、発話を含むビデオセグメントの分類を使用し、話者クラスに従ってビデオファイルをインデックスすることができる。
これは、処理デバイス106のプロセッサ120によって実行することができる。
プロセッサは、図2Bに示すように、発話を含むビデオセグメントの境界の指示子またはインデックスを種々の話者に関連付けることができる。
これは、処理デバイス106のプロセッサ120によって実行することができる。
プロセッサは、図2Bに示すように、発話を含むビデオセグメントの境界の指示子またはインデックスを種々の話者に関連付けることができる。
話者識別モジュールの全体のオペレーションを図6を参照して説明する。
ステップ602において、ビデオファイルの処理される、発話を含むビデオセグメントが選択される。
次に、ステップ604において、発話を含む現時点のビデオセグメントのすべての音響セグメントのスペクトルに基づく特徴係数が計算される。
例示の実施の形態では、MFCCが計算される。
ステップ606において、発話を含むビデオセグメントの話者特性が、ビデオセグメントにおける音響セグメントの計算されたすべての特徴係数を使用してモデル化される。
例示の実施の形態では、発話を含むセグメントの話者特性が、ガウス混合分布値を計算することによってモデル化される。
次に、ステップ608において、発話を含む現時点のビデオセグメントが、ビデオファイルの発話を含む最後のビデオセグメントであるかどうかの判断が行われる。
最後のビデオセグメントである場合には、プロセスはステップ610に進む。
一方、発話を含む現時点のビデオセグメントが、発話を含む最後のビデオセグメントでない場合には、プロセスはステップ602に戻り、ステップ602において、処理される、発話を含む次のビデオセグメントが選択される。
ステップ602において、ビデオファイルの処理される、発話を含むビデオセグメントが選択される。
次に、ステップ604において、発話を含む現時点のビデオセグメントのすべての音響セグメントのスペクトルに基づく特徴係数が計算される。
例示の実施の形態では、MFCCが計算される。
ステップ606において、発話を含むビデオセグメントの話者特性が、ビデオセグメントにおける音響セグメントの計算されたすべての特徴係数を使用してモデル化される。
例示の実施の形態では、発話を含むセグメントの話者特性が、ガウス混合分布値を計算することによってモデル化される。
次に、ステップ608において、発話を含む現時点のビデオセグメントが、ビデオファイルの発話を含む最後のビデオセグメントであるかどうかの判断が行われる。
最後のビデオセグメントである場合には、プロセスはステップ610に進む。
一方、発話を含む現時点のビデオセグメントが、発話を含む最後のビデオセグメントでない場合には、プロセスはステップ602に戻り、ステップ602において、処理される、発話を含む次のビデオセグメントが選択される。
次に、ステップ610において、話者特性モデル、例えばガウス混合分布パラメータが、発話を含むビデオセグメントを話者特性に基づいて関連付けるクラスタ化アルゴリズムを使用してクラスタ化される。
したがって、共通の話者特性を有する、発話を含むビデオセグメントを、単一の話者からの発話を含むビデオセグメントとして共に関連付けることができる。
次に、発話を含むビデオセグメントの話者特性に基づく関連付けを使用して、所与のビデオファイルをインデックスすることができる。
さらに、ビデオシーンおよびビデオショット等の他のビデオイベントのインデックスを使用して、所与のビデオファイルをさらにインデックスし、より意味のあるインデックスされた構造を提供することもできる。
したがって、共通の話者特性を有する、発話を含むビデオセグメントを、単一の話者からの発話を含むビデオセグメントとして共に関連付けることができる。
次に、発話を含むビデオセグメントの話者特性に基づく関連付けを使用して、所与のビデオファイルをインデックスすることができる。
さらに、ビデオシーンおよびビデオショット等の他のビデオイベントのインデックスを使用して、所与のビデオファイルをさらにインデックスし、より意味のあるインデックスされた構造を提供することもできる。
本発明の例示の実施の形態によるビデオファイルのインデックス方法を図7のプロセスフロー図を参照して説明する。
ステップ702において、発話を含む所与のビデオファイルのビデオセグメントが検出される。
例示の実施の形態では、発話を含むビデオセグメントは、ビデオファイルの音響部分のエネルギー値、ゼロ交差レート、およびスペクトルを使用して音響部分を選別することにより検出される。
しかしながら、他の発話検出技法を使用して、発話を含むビデオセグメントを検出することもできる。
次に、ステップ704において、発話を含むビデオセグメントが、そのビデオセグメントに含まれる発話の話者特性に従って分類される。
ステップ706において、ビデオファイルの位置のインデックスが、検出された発話を含むビデオセグメントおよび話者特性に従って生成されて、ビデオファイルをインデックスする。
ステップ702において、発話を含む所与のビデオファイルのビデオセグメントが検出される。
例示の実施の形態では、発話を含むビデオセグメントは、ビデオファイルの音響部分のエネルギー値、ゼロ交差レート、およびスペクトルを使用して音響部分を選別することにより検出される。
しかしながら、他の発話検出技法を使用して、発話を含むビデオセグメントを検出することもできる。
次に、ステップ704において、発話を含むビデオセグメントが、そのビデオセグメントに含まれる発話の話者特性に従って分類される。
ステップ706において、ビデオファイルの位置のインデックスが、検出された発話を含むビデオセグメントおよび話者特性に従って生成されて、ビデオファイルをインデックスする。
本発明の特定の実施の形態を説明および図示してきたが、本発明は、そのように図示および説明した部分の特定の形態にも、特定の配置にも限定されるものではない。
本発明の範囲は、本明細書に添付した特許請求の範囲およびその均等物によって画定されるべきである。
本発明の範囲は、本明細書に添付した特許請求の範囲およびその均等物によって画定されるべきである。
102・・・入力デバイス
104・・・表示デバイス
106・・・処理デバイス
112・・・入力データインターフェース
114・・・発話検出器
116・・・話者識別モジュール
118・・・メモリ
120・・・プロセッサ
122・・・I/Oインターフェース
124・・・入力ビデオ
302・・・エネルギー分析器
304・・・ゼロ交差分析器
306・・・スペクトル分析器
502・・・特徴ベクトルジェネレータ
504・・・モデル化ユニット
506・・・クラスタ化ユニット
104・・・表示デバイス
106・・・処理デバイス
112・・・入力データインターフェース
114・・・発話検出器
116・・・話者識別モジュール
118・・・メモリ
120・・・プロセッサ
122・・・I/Oインターフェース
124・・・入力ビデオ
302・・・エネルギー分析器
304・・・ゼロ交差分析器
306・・・スペクトル分析器
502・・・特徴ベクトルジェネレータ
504・・・モデル化ユニット
506・・・クラスタ化ユニット
Claims (10)
- マルチメディアデータをインデックスする方法であって、
所定の音響コンテンツを含む、前記マルチメディアデータの特定のマルチメディアセグメントを検出すること(702)と、
前記特定のマルチメディアセグメントの前記所定の音響コンテンツの音響特性に従って前記特定のマルチメディアセグメントを分類すること(704)と、
前記特定のマルチメディアセグメントの前記マルチメディアデータにおける位置のインデックスを生成すること(706)であって、前記インデックスは、前記音響特性に従った前記特定のマルチメディアセグメントの分類情報を含む、生成すること(706)と
を含むマルチメディアデータをインデックスする方法。 - 前記特定のマルチメディアセグメントの音響部分の、スペクトルに基づく特徴係数を生成するステップ(602)
をさらに含む請求項1に記載の方法。 - 前記スペクトルに基づく特徴係数を生成するステップ(602)は、
メル周波数ケプストラム係数を生成すること
を含む
請求項2に記載の方法。 - 前記特定のマルチメディアセグメントの、前記スペクトルに基づく特徴係数を音響モデルにモデル化するステップ(606)
をさらに含む請求項2または3に記載の方法。 - 前記特定のマルチメディアセグメントを分類するステップ(704)は、
前記特定のマルチメディアセグメントの前記音響モデルをクラスタ化すること(610)
を含む
請求項4に記載の方法。 - マルチメディアデータをインデックスするシステム(100)であって、
所定の音響コンテンツを含む、前記マルチメディアデータの特定のマルチメディアセグメントを検出するように構成される検出器(114)と、
前記特定のマルチメディアセグメントの前記所定の音響コンテンツの音響特性に従って前記特定のマルチメディアセグメントを分類するように構成されるモジュール(116)と、
前記特定のマルチメディアセグメントの前記マルチメディアデータにおける位置のインデックスを生成するように構成されるプロセッサ(120)であって、前記インデックスは、前記音響特性に従った前記特定のマルチメディアセグメントの分類情報を含むプロセッサ(120)と
を備えるシステム。 - 前記モジュール(116)は、
前記特定のマルチメディアセグメントの音響部分のスペクトルに基づく特徴係数を生成するように構成される特徴ジェネレータ(502)
を含む
請求項6に記載のシステム。 - 前記特徴ジェネレータ(502)は、メル周波数ケプストラム係数を生成するように構成される
請求項7に記載のシステム。 - 前記モジュール(116)は、
前記特定のマルチメディアセグメントの、前記スペクトルに基づく特徴係数を音響モデルにモデル化するように構成されるモデル化ユニット(504)
を含む
請求項7または8に記載のシステム。 - 前記モジュール(116)は、
前記特定のマルチメディアセグメントの前記音響モデルをクラスタ化して、前記特定のマルチメディアセグメントを分類するように構成されるクラスタ化ユニット(506)
を含む
請求項9に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/106,973 US7184955B2 (en) | 2002-03-25 | 2002-03-25 | System and method for indexing videos based on speaker distinction |
PCT/US2003/008777 WO2003083726A2 (en) | 2002-03-25 | 2003-03-20 | System and method for indexing videos based on speaker distinction |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005522074A true JP2005522074A (ja) | 2005-07-21 |
Family
ID=28040963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003581078A Withdrawn JP2005522074A (ja) | 2002-03-25 | 2003-03-20 | 話者識別に基づくビデオのインデックスシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7184955B2 (ja) |
EP (1) | EP1488352A2 (ja) |
JP (1) | JP2005522074A (ja) |
AU (1) | AU2003241278A1 (ja) |
TW (1) | TW200304600A (ja) |
WO (1) | WO2003083726A2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008111866A (ja) * | 2006-10-27 | 2008-05-15 | Sanyo Electric Co Ltd | 音声分類装置及びコンピュータプログラム |
JP2010531561A (ja) * | 2007-06-15 | 2010-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディアファイルのサマリを自動的に生成する方法及び装置 |
JP2012150363A (ja) * | 2011-01-20 | 2012-08-09 | Kddi Corp | メッセージ映像編集プログラムおよびメッセージ映像編集装置 |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1403783A3 (en) * | 2002-09-24 | 2005-01-19 | Matsushita Electric Industrial Co., Ltd. | Audio signal feature extraction |
US7793233B1 (en) | 2003-03-12 | 2010-09-07 | Microsoft Corporation | System and method for customizing note flags |
US7454763B2 (en) * | 2003-03-26 | 2008-11-18 | Microsoft Corporation | System and method for linking page content with a video media file and displaying the links |
US7774799B1 (en) | 2003-03-26 | 2010-08-10 | Microsoft Corporation | System and method for linking page content with a media file and displaying the links |
US7373603B1 (en) | 2003-09-18 | 2008-05-13 | Microsoft Corporation | Method and system for providing data reference information |
KR100763899B1 (ko) * | 2004-02-20 | 2007-10-05 | 삼성전자주식회사 | 앵커 샷 검출 방법 및 장치 |
US7712049B2 (en) * | 2004-09-30 | 2010-05-04 | Microsoft Corporation | Two-dimensional radial user interface for computer software applications |
US7788589B2 (en) | 2004-09-30 | 2010-08-31 | Microsoft Corporation | Method and system for improved electronic task flagging and management |
US20060212595A1 (en) * | 2005-03-15 | 2006-09-21 | 1000 Oaks Hu Lian Technology Development (Beijing) Co., Ltd. | Method and computer-readable medium for associating sequence numbers with data blocks for distribution of data in a peer-to-peer network |
US7747557B2 (en) * | 2006-01-05 | 2010-06-29 | Microsoft Corporation | Application of metadata to documents and document objects via an operating system user interface |
US7797638B2 (en) * | 2006-01-05 | 2010-09-14 | Microsoft Corporation | Application of metadata to documents and document objects via a software application user interface |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
JPWO2007088853A1 (ja) * | 2006-01-31 | 2009-06-25 | パナソニック株式会社 | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US20070245223A1 (en) * | 2006-04-17 | 2007-10-18 | Microsoft Corporation | Synchronizing multimedia mobile notes |
US20070245229A1 (en) * | 2006-04-17 | 2007-10-18 | Microsoft Corporation | User experience for multimedia mobile note taking |
US7761785B2 (en) | 2006-11-13 | 2010-07-20 | Microsoft Corporation | Providing resilient links |
US7707518B2 (en) | 2006-11-13 | 2010-04-27 | Microsoft Corporation | Linking information |
EP2151128A4 (en) | 2007-04-25 | 2011-11-16 | Miovision Technologies Inc | METHOD AND SYSTEM FOR ANALYZING MULTIMEDIA CONTENT |
US20080306999A1 (en) * | 2007-06-08 | 2008-12-11 | Finger Brienne M | Systems and processes for presenting informational content |
US8050919B2 (en) | 2007-06-29 | 2011-11-01 | Microsoft Corporation | Speaker recognition via voice sample based on multiple nearest neighbor classifiers |
US20090112639A1 (en) * | 2007-10-31 | 2009-04-30 | Robinson Beaver Nancy J | Combined Rewards System and Process Providing Variable Travel Redemption |
WO2010001393A1 (en) * | 2008-06-30 | 2010-01-07 | Waves Audio Ltd. | Apparatus and method for classification and segmentation of audio content, based on the audio signal |
JP2010220203A (ja) * | 2009-02-17 | 2010-09-30 | Nikon Corp | 動画再生装置および動画再生プログラム |
US8554562B2 (en) * | 2009-11-15 | 2013-10-08 | Nuance Communications, Inc. | Method and system for speaker diarization |
TW201122863A (en) * | 2009-12-31 | 2011-07-01 | Hon Hai Prec Ind Co Ltd | Video search device, search system, and search method |
US9311395B2 (en) | 2010-06-10 | 2016-04-12 | Aol Inc. | Systems and methods for manipulating electronic content based on speech recognition |
US8601076B2 (en) | 2010-06-10 | 2013-12-03 | Aol Inc. | Systems and methods for identifying and notifying users of electronic content based on biometric recognition |
KR20130071873A (ko) * | 2011-12-21 | 2013-07-01 | 삼성전자주식회사 | 컨텐츠재생장치 및 그 제어방법 |
US8959022B2 (en) * | 2012-07-03 | 2015-02-17 | Motorola Solutions, Inc. | System for media correlation based on latent evidences of audio |
US8942542B1 (en) * | 2012-09-12 | 2015-01-27 | Google Inc. | Video segment identification and organization based on dynamic characterizations |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
US10311496B2 (en) * | 2013-09-14 | 2019-06-04 | DemoChimp, Inc. | Web-based automated product demonstration |
TW201513095A (zh) * | 2013-09-23 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 語音處理系統、裝置及方法 |
KR102217186B1 (ko) * | 2014-04-11 | 2021-02-19 | 삼성전자주식회사 | 요약 컨텐츠 서비스를 위한 방송 수신 장치 및 방법 |
US11120802B2 (en) * | 2017-11-21 | 2021-09-14 | International Business Machines Corporation | Diarization driven by the ASR based segmentation |
US10468031B2 (en) * | 2017-11-21 | 2019-11-05 | International Business Machines Corporation | Diarization driven by meta-information identified in discussion content |
CN108521612B (zh) * | 2018-04-25 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 视频摘要的生成方法、装置、服务器及存储介质 |
US11120839B1 (en) * | 2019-12-12 | 2021-09-14 | Amazon Technologies, Inc. | Segmenting and classifying video content using conversation |
US11342003B1 (en) * | 2019-12-12 | 2022-05-24 | Amazon Technologies, Inc. | Segmenting and classifying video content using sounds |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5553289A (en) * | 1991-12-26 | 1996-09-03 | International Business Machines Corporation | System for automatically assigning attributes to objects of multimedia distribution when the objects being within a predetermined relationship |
US5664227A (en) * | 1994-10-14 | 1997-09-02 | Carnegie Mellon University | System and method for skimming digital audio/video data |
US5616876A (en) * | 1995-04-19 | 1997-04-01 | Microsoft Corporation | System and methods for selecting music on the basis of subjective content |
JP3416007B2 (ja) * | 1995-12-06 | 2003-06-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | オーディオビジュアル・マテリアルをスクリーニングする装置及び方法 |
US5983176A (en) * | 1996-05-24 | 1999-11-09 | Magnifi, Inc. | Evaluation of media content in media files |
US6363380B1 (en) * | 1998-01-13 | 2002-03-26 | U.S. Philips Corporation | Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser |
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
-
2002
- 2002-03-25 US US10/106,973 patent/US7184955B2/en not_active Expired - Fee Related
- 2002-11-27 TW TW091134496A patent/TW200304600A/zh unknown
-
2003
- 2003-03-20 JP JP2003581078A patent/JP2005522074A/ja not_active Withdrawn
- 2003-03-20 WO PCT/US2003/008777 patent/WO2003083726A2/en not_active Application Discontinuation
- 2003-03-20 AU AU2003241278A patent/AU2003241278A1/en not_active Abandoned
- 2003-03-20 EP EP03731007A patent/EP1488352A2/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008111866A (ja) * | 2006-10-27 | 2008-05-15 | Sanyo Electric Co Ltd | 音声分類装置及びコンピュータプログラム |
JP2010531561A (ja) * | 2007-06-15 | 2010-09-24 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | マルチメディアファイルのサマリを自動的に生成する方法及び装置 |
JP2012150363A (ja) * | 2011-01-20 | 2012-08-09 | Kddi Corp | メッセージ映像編集プログラムおよびメッセージ映像編集装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2003083726A2 (en) | 2003-10-09 |
AU2003241278A8 (en) | 2003-10-13 |
TW200304600A (en) | 2003-10-01 |
EP1488352A2 (en) | 2004-12-22 |
US7184955B2 (en) | 2007-02-27 |
WO2003083726A3 (en) | 2004-03-25 |
AU2003241278A1 (en) | 2003-10-13 |
US20030182118A1 (en) | 2003-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005522074A (ja) | 話者識別に基づくビデオのインデックスシステムおよび方法 | |
Zhang et al. | Hierarchical classification of audio data for archiving and retrieving | |
Tzanetakis et al. | Marsyas: A framework for audio analysis | |
Cheng et al. | Semantic context detection based on hierarchical audio models | |
Lu et al. | Content-based audio classification and segmentation by using support vector machines | |
KR101101384B1 (ko) | 파라미터화된 시간 특징 분석 | |
JP4392898B2 (ja) | 音楽情報処理方法 | |
JP5362178B2 (ja) | オーディオ信号からの特徴的な指紋の抽出とマッチング | |
Kos et al. | Acoustic classification and segmentation using modified spectral roll-off and variance-based features | |
US20060155399A1 (en) | Method and system for generating acoustic fingerprints | |
JP2005532582A (ja) | 音響信号に音響クラスを割り当てる方法及び装置 | |
CN108538312B (zh) | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 | |
WO2015114216A2 (en) | Audio signal analysis | |
RU2427909C2 (ru) | Способ формирования отпечатка для звукового сигнала | |
Zhang et al. | System and method for automatic singer identification | |
WO2010041744A1 (ja) | 動画検索装置および動画検索プログラム | |
US7680654B2 (en) | Apparatus and method for segmentation of audio data into meta patterns | |
Adams et al. | Note segmentation and quantization for music information retrieval | |
Thoshkahna et al. | A speech-music discriminator using HILN model based features | |
Harb et al. | A general audio classifier based on human perception motivated model | |
Penttilä et al. | A speech/music discriminator-based audio browser with a degree of certainty measure | |
Ghosal et al. | Instrumental/song classification of music signal using ransac | |
Lagrange et al. | Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching | |
Rho et al. | Video scene determination using audiovisual data analysis | |
Venugopal et al. | Audio scene analysis and scene change detection in the MPEG compressed domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050707 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20060313 |