JP2004530153A6

JP2004530153A6 - 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置

Info

Publication number: JP2004530153A6
Application number: JP2002572563A
Authority: JP
Inventors: アルアマンヒェ，エリック; ヘレ，ユルゲン; ヘルムート，オーリヴァー; フレーバ，ベルンハルト
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2001-02-28
Filing date: 2002-02-26
Publication date: 2005-01-06
Anticipated expiration: 2022-02-26

Abstract

音声内容を表す信号を特徴付ける方法において、信号の調性に関する測定が決定される（１２）。ここで、信号の調性度を基礎とした、ＭＰ３符号化によるような、調べる信号の内容に高い相関を有する明細が作成される（１６）。内容解析のための、信号の調性度は、ＭＰ３符号化によるような信号の歪みに対して頑健であり、調べた信号の内容に対して高い相関を有する。

Description

〔説明〕
本発明は、マルチメディアデータの照会可能性を実現するための、音声信号の内容に関する音声信号の特徴付けに関しており、特に、音声データの内容に関する音声データの分類および索引付けのための発想に関している。
【０００１】
近年、例えば音声信号のような、マルチメディアデータ素材の利用可能性が、顕著に増加している。この発展は、一種の技術的要因によるものである。このような技術的要因としては、例えば、インターネットの広範な利用可能性、効率的なコンピュータの広範な利用可能性、および、音声データのデータ圧縮（例えば、ソースコード化）についての効率的な方法の広範な利用可能性を挙げることが出来る。この一例として、ＭＰＥＧ１／２レイヤー３（ＭＰＥＧ３とも呼ばれている）がある。
【０００２】
インターネットを通じて全世界において入手可能な大量のオーディオビジュアルデータは、これらのデータを、データの内容の特徴に基づいて、評価し、カタログ化し、管理するための発想を必要としている。便利な基準の規格に基づいた計算方法によって、マルチメディアデータを検索し発見することが求められている。
【０００３】
このためには、いわゆる、「内容を元にした」技術が必要になる。この技術では、オーディオビジュアルデータから、いわゆる特徴を抽出している。この特徴は、関心のある信号における、重要であり特徴的な内容の特性を表している。このような特徴、およびこのような特徴の組み合わせのそれぞれに基づいて、音声信号間における類似した関連性および共通の特性のそれぞれを導き出すことが出来る。このような処理は、一般には、異なる信号由来の抽出特性値を比較し、相互関連づけを行うことによって達成される。以下では、ここでは、上記の信号を「データ」として記載する。
【０００４】
米国特許第５，９１８，２２３号には、音声情報の、内容を元にした分析、保存、検索、および断片化の方法が開示されている。音声データの分析により一組の数値が生成される。この数値は特性ベクトルとも呼ばれている。また、この数値は、音声データのそれぞれの間における類似性を分類してランク付けするために使用されうる。音声データは、通常、マルチメディアデータバンクまたはワールドワイドウェブに保存されている。
【０００５】
これに加えて、上記の分析により、一組の音声データの解析を元にして、音声データをユーザー定義された分類で表示することが出来る。一組の音声データは、すべて、ユーザー定義された分類に含まれる。この方式により、より長い音声データ内にある、個別の音声データを検索することが出来る。このことにより、記録された音声を、自動的に一連の短い音声断片に分断することができる。
【０００６】
内容に関する、音声データの特徴付けおよび分類化のための特性として、データの音量、低音内容、ピッチ、明るさ、帯域幅、および、いわゆるメル周波数セプストラム周波数（ＭＣＦＦ）が、音声データの周期的間隔に使用される。ブロックあるいはフレームごとの値は、保存され、最初の微分操作を受ける。その結果として、長期に渡る変位を表すために、平均値あるいは標準偏差などの特定の統計量が、最初の微分を含む特性のすべてから計算される。統計量のこの組は特性ベクトルを形成する。音声データの特性ベクトルは、データバンクに保存され、原ファイルに関連づけられる。この原ファイルにおいて、ユーザは、音声データのそれぞれを取得するために、データバンクにアクセスすることができる。
【０００７】
このデータバンクシステムでは、二つのｎ次元ベクトル間における、ｎ次元空間での距離を定量化することが出来る。さらに、ある部類に属する一連の音声データを特定することにより、音声データの部類を生成出来る。典型的な部類としては、鳥のさえずり、ロック音楽等が挙げられる。ユーザは特定の手法により、データバンクから音声データを検索出来る。検索の結果、特定のｎ次元ベクトルからの距離に基づく順序だった方式により一覧化される、音声ファイルの一覧ができる。ユーザは、類似特性、音響的特性、音響心理的な特性、主観的特性、またはハチの音などの特別な音声に関して、それぞれ、データバンクから検索することができる。
【０００８】
専門的出版物「”ＭｕｌｔｉｍｅｄｉａＣｏｎｔｅｎｔＡｎａｌｙｓｉｓ”、ＹａｏＷａｎｇｅｔｃ．，ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅ，Ｎｏｖｅｍｂｅｒ２０００，ｐｐ．１２ｔｏ３６」には、マルチメディアデータを特徴付ける、類似の発想が開示されている。マルチメディアデータの内容を分類する特性として、時間領域特性あるいは周波数領域特性が挙げられている。これらには、音声信号波形の基本周波数としてのピッチ、例えば、総エネルギー含量に対する周波数帯域のエネルギー含量などのスペクトル特性、スペクトル曲線における遮断周波数などが含まれる。音声信号のサンプルのブロックごとの、命名された量に関する短期特性に加えて、音声データの長期間隔に関する長期特性についても提案されている。
【０００９】
動物の音、ベルの音、群集の音、笑い声、機械音、楽器、男性の声、女性の声、電話の音、水の音などの音声データの特徴付けのため、異なる分類が提案されている。
【００１０】
使い古しの特性を選択する際の問題点は、迅速な特徴付けを行うには特性を抽出する計算の労力は中程度であるが、それと同時に、その特性は音声データに対して特徴的であるため、二つの異なるデータも識別可能な特性を有するということである。
【００１１】
もう１つの問題点は、特性の頑健性である。命名された発想は、頑健性の基準に関連しない。音声データが、音声スタジオで作成した直後に特徴付けられて、索引を付された場合、これは、データの特性ベクトルを表し、いわば、データの本質を形成するが、歪みの無い同じデータがが同じ方法で処理される際、これは、同じ特性が抽出され、かつ、特性ベクトルがデータバンクにある異なるデータが有する複数の特性ベクトルと比較されることを意味するが、このデータを認識する確率は非常に高い。
【００１２】
しかしながら、音声データが特性化以前に歪められ、特徴付けられる信号が、もはや元信号と同一では無いが同一の内容を有する場合に、上記のことが問題になる。人は、例えば、歌がやかましくても、うるさくても、穏やかでも、あるいは、元録音とは異なるピッチで演奏されていても、その歌を知っていれば、その歌を認識出来る。例えば、他の歪みは、データ損失性のデータ圧縮（ＭＰ３またはＡＡＣといったＭＰＥＧ基準に基づいた符号化）によっても引き起こされる。
【００１３】
歪みおよびデータ圧縮のそれぞれが原因で、特性が、歪みおよびデータ圧縮のそれぞれにより、強度に影響を受ける場合、データの本質は失われるが、データ内容は人が認識可能である。
【００１４】
米国特許第５，５１０，５７２には、旋律分析の結果を用いて、旋律を分析して調和する装置が開示されている。キーボードで演奏されているような、一列の音符の形態の旋律は、旋律断片に読み込まれて分離される。ここで、旋律断片すなわち楽句には、例えば４小節などがある。楽句におけるキーを決定するために、調性解析はあらゆる楽句で実行される。それゆえ、音符のピッチは楽句において決定され、その結果、ピッチの相違は、現在観察されている音符と前回の音符との間において決定される。さらに、間隔の相違は、現在の音符とそれ続く音符との間で決定される。このピッチの相違により、前回の音響結合係数およびそれに続く音響結合係数が決定される。前回の音響結合係数およびそれに続く音響結合係数ならびに音符の長さから、現在の音符の音響結合係数が得られる。旋律の調や、その候補をそれぞれ決定するため、この処理は、楽句における旋律のあらゆる音符で繰り返される。楽句の調は、楽句におけるあらゆる音符の意義を解釈する、音符型分類手段を制御するために用いられる。調情報は、調性分析により得られる。この調情報は、さらに転調モジュールを選択するために用いられる。このモジュールは、参照の調におけるデータバンクに保存された和音列を、考慮された旋律楽句の調性分析により決定された調に転置する。
【００１５】
本発明は、音声内容を有する信号を、特徴付けして索引化するために、より改善された発想を提供することを目的としている。
【００１６】
この目的は、請求項１による信号を特徴付ける方法、請求項１６による索引信号生成方法、請求項２０による信号を特徴付ける装置、または請求項２１による索引信号生成装置により達成される。
【００１７】
本発明は、信号をそれぞれ特徴付けして索引化するための特性を選択する間には、信号の歪みに対する頑健性を特に考慮しなければならないという知見に基づいている。特性および特性の組み合わせそれぞれの利便性は、これらの特性が、不適切な変更（例えば、ＭＰ３符号化）によりどれほど強く変更されるかに依存する。
【００１８】
本発明によれば、信号の調性が、信号を特徴付けして索引化する特性として用いられる。信号の調性、すなわち、線が区別できるむしろ非平行なスペクトル、あるいは、線が同等に高いスペクトル、を有する信号の特性は、損失性の符号化方法（例えば、ＭＰ３）による歪みといった一般的な歪みに対して、頑健性を有することがわかっている。信号のスペクトル表示は、個々のスペクトル線およびスペクトル線のグループをそれぞれに参照にして、その必須要素として得られる。さらに、調性度を決定するために、調性は必要な計算労力に関して高い柔軟性を提供する。調性度は、データの全スペクトル成分の調性、またはスペクトル成分のグループの調性等に由来しうる。上述したように、調べる信号における連続的な短時間スペクトルの調性は、個別に、または偏って、あるいは統計的に評価することに使用されうる。
【００１９】
言い換えると、本発明で言う調性は音声内容に依存する。音声内容およびこの音声内容の考慮された信号が、雑音を有するか、または雑音様の音である場合、この信号は、雑音をあまり有しない信号とは異なる調性を有する。一般的に、雑音を有する信号は、雑音をあまり有しない信号、すなわち、より調性のある信号に比べて、より低い調性度を有する。後者の信号は、より高い調性度を有する。
【００２０】
調性すなわち信号の雑音および調性は、音声信号の内容に依存する量である。この音声信号は、異なる歪み型にほとんど影響を受けない。それゆえ、調性度に基づいて信号を特徴決定し索引にする発想は、頑健性のある認識を提供する。このことは、信号が歪んでいる場合、信号調性の本質が、認識を超えて変化しない事実から示されている。
【００２１】
歪みとしては、例えば、空気伝送路を介した、スピーカーから受話器への信号の伝達が挙げられる。
【００２２】
調性特性の頑健性は、損失性の圧縮方法に関して顕著である。
【００２３】
信号の調性度は、例えばＭＰＥＧ規格に関するような、損失性のデータ圧縮に影響を受けないか、あるいは、ほんの少しだけ影響を受けることが明らかにされている。上述したように、信号の調性に基づいた認識特性は、信号に関して顕著に良好な本質部分を提供する。そのため、二つの異なる音声信号もまた、顕著に異なる調性度を提供する。それゆえ、音声信号の内容と調性度とは、互いに強く関連している。
【００２４】
そのため、本発明の主要な利点は、信号の調性度が、混信したすなわち歪んだ信号に対して頑健性を有することである。特に、この頑健性は、フィルタ処理すなわち平均化や、ＭＰＥＧ１／２レイヤー３などの損失性のデータ縮減を伴う動的圧縮や、アナログ伝達などに対して存在する。上述したように、信号の調性特性は信号内容と互いに強い関連性がある。
【００２５】
本発明の好ましい形態は、添付図面を参照にして、より詳細に以下に議論される。これらの添付図面は、以下の通りである。
【００２６】
図１は、本発明に係る、信号を特徴付ける装置の概略を示すブロック図である。
【００２７】
図２は、本発明に係る、信号索引化する装置の概略を示すブロック図である。
【００２８】
図３は、スペクトル成分ごとの調性から調性度を計算する装置の概略を示すブロック図である。
【００２９】
図４は、スペクトル単調度（ＳＦＭ）から調性度を決定する概略を示すブロック図である。
【００３０】
図５は、調性度を特性として使用しうる構造認識システムの概略を示すブロック図である。
【００３１】
図１は、音声内容を示す信号を特徴付ける、本発明に係る装置の概略を示すブロック図を示す。この装置は入力１０を備えている。この入力１０では、特徴付けられる信号が入力され、例えば、原信号に比べて損失性のある音声符号化を受ける。この特徴付けられる信号は、信号の調性値を決定する手段１２に供給される。信号内容について明細を作成するために、信号の調性度は、連絡線１４を介して手段１６に供給される。手段１６は、手段１２により伝達された信号調性度に基づいて、この明細を作成するために形成されており、システムにおける出力１８に、信号内容に関する明細を提供する。
【００３２】
図２は、本発明に係る、音声内容を有する、索引化された信号を生成する装置を示す。音楽スタジオで生成されてＣＤに保存された音声データなど信号は、入力２０を介して、図２に示す装置に供給される。手段２２は、図１２の手段１２と一般的に同様に方法で構築されている。この手段２２は、索引化される信号の調性度を決定し、この調性度を信号の索引として記録するために、連絡線２４を介して調性度を手段２６に提供している。図２に示す、索引化された信号を生成する装置の出力２８と同時である、手段２６の出力では、入力２０に供給された信号は、調性索引と共に、同時に出力されうる。その代わりに、図２に示す装置は、表エントリが出力２８で生成されるように形成されうる。この出力２８は、調性索引を識別記号に関連付けている。また、出力２８では、識別記号は、索引化される信号に特異的に関連している。一般に、図２に示す装置は、信号の索引を提供する。この索引は信号と関連し、信号の音声内容に言及する。
【００３３】
図２に示す装置が複数の信号を処理する場合、音声データの索引のためのデータバンクは、段階的に生成される。この生成に、例えば、図５に示したパターン認識システムを用いてもよい。データバンクは、索引の他に、音声データ自体を任意に含む。それにより、図１に示す装置によって、データを特定し分類するために、データは調性特性に関して容易に検索されうる。調性特性や、他の要素の類似性や、および二つのデータ間の距離に関しても、それぞれ検索されうる。しかしながら、以上のように、図２に示す装置は、関連するメタ記述すなわち索引特性を有するデータを生成する可能性を提供している。それゆえ、所定の調性索引に基づくなどして、データ組を索引化し検索することが可能になる。したがって、本発明によれば、いわば、マルチメディアデータの効率的な検索および発見が可能になる。
【００３４】
データの調性度を計算するために、異なった方法を用いることができる。図３に示すように、時間サンプルのブロックからスペクトル係数のブロックを生成するために、手段３０により特徴付けられている時間信号を、スペクトル領域に変換することができる。後述するように、例えば、はい／いいえの決定によって、スペクトル成分が有調か否かを分類するために、あらゆるスペクトル係数、およびあらゆるスペクトル成分からそれぞれ、個々の調性度を決定することができる。調性値を、それぞれ、スペクトル成分や、エネルギーや、スペクトルのパワー成分に使用することで、信号の調性度は、複数の異なる方式によって、手段３４で計算されうる。ここで、調性値は手段３２によって決定される。
【００３５】
例えば、図３に記載の発想によって、定量的な調性度が得られる事実により、調性が索引化された二つのデータの間に、それぞれ、距離と類似性を設定することが出来る。所定閾値に比べて距離が小さいのみで、調性度が異なる場合、データは類似していると分類されうる。一方、調性索引が、非類似性閾値に比べて大幅に大きいことによって異なる場合、他のデータは非類似と分類されうる。さらに、二つの調性度間の相違に加えて、二つの絶対値の相違や、その相違の２乗や、二つの調性測定値から１を引いたものの商や、二つの調性測定値間の相関や、ｎ次元ベクトルである二つの調性度間の距離測定規準などの量を、二つのデータ間の調性距離を決定するために用いることができる。
【００３６】
なお、特徴付けられる信号としては、必ずしも時間信号である必要が無く、例えば、ホフマンコード言語列からなるＭＰ３符号化信号でもよい。このホフマンコード言語列は、定量スペクトル値から生成される。
【００３７】
この定量スペクトル値は、原スペクトル値の定量化により生成される。この定量化により導入された定量ノイズが、音響心理的マスキング閾値を下回るように、定量化は選択される。このような場合、例えば、図４に関して示されているように、例えば、ＭＰ３デコーダー（図４の手段４０）を介して、スペクトル値を計算するために、符号化されたＭＰ３データ列を直接に用いる。調性決定前の時間領域の変換を実行すること、およびスペクトル領域の変換を実行することは必要ないが、ＭＰ３デコーダーで計算されるスペクトル値は、スペクトル成分、または図４に示すような手段４２によるＳＦＭ（ＳＦＭ＝スペクトル単調度）ごとの調性を計算するために、直接的に得られる。それゆえ、調性を決定するためにスペクトル成分を用い、かつ、特徴付けられる信号が符号化されたＭＰ３データ列である場合、手段４０は、デコーダーのように構築されるが、反転フィルタバンクを備えない。
【００３８】
スペクトル単調度（ＳＦＭ）は、以下の等式により計算される。
【００３９】
【数１】

【００４０】
この等式では、Ｘ（ｎ）は索引ｎのスペクトル成分量の２乗を表わす。一方Ｎは、スペクトルのスペクトル係数の総数を意味する。この等式から、ＳＦＭは、スペクトル成分の幾何平均値を、スペクトル成分の相加平均値で割った商に等しいことがわかる。また、幾何平均値は、相加平均値とほとんど等しいことが知られている。これにより、ＳＦＭの値は、０と１との間の値である。上記において、０に近い値を調性信号とし、１に近い値を、単調なスペクトル曲線を有する雑音性信号とする。なお、すべてのＸ（ｎ）が同一の場合にのみ、相加平均値と幾何平均値とは等しい。すべてのＸ（ｎ）が同一の場合とは、ノイズまたは衝動信号などの完全無調性に対応する。しかしながら、極端な場合、すなわち、１つのスペクトル成分が非常に高い値である一方、他のスペクトル成分Ｘ（ｎ）が非常に低い値である場合には、ＳＦＭは、非常に調性のある信号を示す０に近い値を取る。
【００４１】
このＳＦＭは、「””ＤｉｇｉｔａｌＣｏｄｉｎｇｏｆＷａｖｅｆｏｒｍｓ””，ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ，ＮＪ，Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ，Ｎ．Ｊａｙａｎｔ，Ｐ．Ｎｏｌｌ，１９８４」に記載されており、元々、余剰性減少からの最大達成符号化利得の度合いとして定義されていた。
【００４２】
調性度を決定する手段４４により、ＳＦＭから調性度を決定することができる。
【００４３】
スペクトル値の調性を決定するためのもう１つの可能性としては、図３の手段３２により実行すること、すなわち、音声信号のパワースペクトルのピークを決定することがある。これは、「ＭＰＥＧ−１ＡｕｄｉｏＩＳＯ／ＩＥＣ１１１７２−３，ＡｎｎｅｘＤ１ ”ＰｓｙｃｈｏａｃｏｕｓｔｉｃＭｏｄｅｌ１”」に記載されている。それによって、スペクトル成分の度合いが決定される。その結果、１つのスペクトル成分の周辺にある、二つのスペクトル成分の度合いが決定される。スペクトル成分の度合いが、所定係数を乗じた周辺スペクトル成分の度合いを超える場合、スペクトル成分は調性として分類される。この技術では、所定閾値を７ｄＢと仮定しているが、本発明では、他の所定閾値を用いる。したがって、あらゆるスペクトル成分に対して、調性であるか否かを示すことが可能になる。また、スペクトル成分のエネルギーのみならず、個々の成分の調性度を用いることにより、図３の手段３４では、調性度を示すことが可能になる。
【００４４】
スペクトル成分の調性を決定するもう１つの可能性としては、スペクトル成分の、時間に関する予測可能性を評価することが挙げられる。ここでは、「ＭＰＥＧ−１ａｕｄｉｏＩＳＯ／ＩＥＣ１１１７２−３，ＡｎｎｅｘＤ２ ”ＰｓｙｃｈｏａｃｏｕｓｔｉｃＭｏｄｅｌ２”」を再び参照している。一般に、特徴付けられる信号のサンプルの現在のブロックは、スペクトル成分の現在のブロックを得るために、スペクトル表現に変換される。それによって、現在のブロック以前の特徴付けられた信号のサンプルからの情報を用いる、すなわち過去のブロックについての情報を用いることにより、現在のブロックのスペクトル成分を予測することができる。そして、予測エラーは決定され、この予測エラーから調性度を導き出せる。
【００４５】
調性を決定するもう１つの可能性は、米国特許Ｎｏ．５，９１８，２０３に記載されている。再び、特徴付けられる信号のスペクトルの正の実数値表現が使用される。この表現は、スペクトル成分の合計や、合計の二乗などを含むことが出来る。実施形態の１つでは、微分フィルタ処理されたスペクトル成分のブロックを取得するため、スペクトル成分の合計や合計の二乗は、最初に対数に圧縮され、次に微分特性を有するフィルタによってフィルタ処理される。
【００４６】
もう１つの実施形態では、スペクトル成分の合計は、最初に、微分特性を有するフィルタを使用してフィルタ処理され、次に、分母を得るために、積分特性を有するフィルタによってフィルタ処理される。スペクトル成分の微分フィルタ処理された合計からの商、および、同じスペクトル成分の微分フィルタ処理された合計は、このスペクトル成分のための調性度の結果となる。
【００４７】
これら二つの処理により、スペクトル成分の隣り合う合計の間における緩やかな変化は抑制され、一方、スペクトルにおけるスペクトル成分の隣り合う合計の間における急激な変化は強調される。スペクトル成分の隣り合う合計の間における緩やかな変化は、無調性の信号成分を示し、急激な変化は、有調性の信号成分を示す。対数の形に圧縮され、微分フィルタ処理されたスペクトル成分および商は、それぞれ、考慮されたスペクトルのための調性度を計算するために使用されうる。
【００４８】
調性度の１つはスペクトル成分ごとに計算されることが上述されたとはいえ、計算のための労力を低くすることに関して、例えば、二つの隣り合うスペクトル成分の合計の二乗を常に加え、次に、言及された測定の１つにつき、合計のあらゆる結果のための調性度を計算することが好ましい。スペクトル成分の合計と合計の二乗の、追加的な集合化のあらゆる型は、それぞれ、二つ以上のスペクトル成分のための調性度を計算するために使用されうる。
【００４９】
スペクトル成分の調性を決定するもう一つの可能性として、スペクトル成分の度合いを、周波数帯域におけるスペクトル成分の平均値と比較することが挙げられる。スペクトル成分を含んでいる周波数帯域の幅は、例えば、スペクトル成分の合計の二乗の合計であり、必要に応じて選択されうる。この周波数帯域の幅の度合いは、例えば、平均値と比較される。可能性の１つは、例えば、帯域が狭くなるように選択することである。その代わりに、帯域はまた、広くなるように、あるいは、音響心理的な側面に応じて、選択されることも出来る。それによって、スペクトルにおける短期の電力障害は減少されうる。
【００５０】
音声信号の調性は、スペクトル成分を基礎として決定されるとはいえ、これは、時間領域においても起こりうる。時間領域とは、音声信号のサンプルを使用することによることを意味する。それゆえ、信号のための予測利得を見積もるために、信号のＬＰＣ解析は実行されうる。一方、予測利得はＳＦＭに反比例し、また、音声信号の調性度である。
【００５１】
本発明の好ましい実施形態では、短期スペクトルにつき一つの値のみが示されるだけでなく、調性度もまた、調性度の複数次元ベクトルである。そのため、例えば、短期スペクトルは、四つの、隣接し、かつ、好ましくは重ならない領域と周波数帯域に、それぞれ分割されることができる。ここで、調性度は、例えば、図３の手段３４によって、または、図４の手段４４によって、あらゆる周波数帯域に対して決定される。それによって、特性化される信号の短期スペクトルに対して、４次元調性ベクトルが取得される。より良い特性化を行うために、例えば、四つの連続した短期スペクトルを、上述したように処理することがさらに好ましい。そのため、すべての調性度結果にあるすべては、１６次元ベクトルまたは一般的にはｎ×ｍ次元ベクトルである。ここで、ｎはサンプル値のフレームまたはブロックごとの調性成分の数を表し、ｍは考慮したブロックおよび短期間スペクトルの数を、それぞれ表す。調性度は、示されたように、１６次元ベクトルである。特徴付けられる信号の波形をより良く収容するために、いくつかのそのような、例えば１６次元ベクトルを計算し、次にそれらを統計的に処理し、決定された長さを有するデータのすべてのｎ×ｘ次元の調性ベクトルの分散や、高次の平均値や、高次の中央値を計算し、それによって、このデータを索引化することはさらに好ましい。
【００５２】
一般的に調性は、スペクトル全体の一部から計算される。それゆえ、下位スペクトルおよびいくつかの下位スペクトルの調性または雑音性をそれぞれ決定でき、かつ、スペクトルおよび音声信号の、より良好な特徴付けを得ることが出来る。さらに、短期統計結果は、調性度のように、平均値、高次の分散、高次の中央値のような調性度から計算できる。これらは、それぞれ、調性度と調性ベクトルの時間シーケンスを使用する統計的技術によって決定され、それゆえ、データのより長い部分に関する本質を提供する。
【００５３】
上述のように、時間が連続する調性ベクトルまたは線形フィルタ処理された調性ベクトルの相違は、使用されうる。例えば、ＩＩＲフィルターまたはＦＩＲフィルタが、線形フィルタとして使用されうる。
【００５４】
時間を節約する理由を計算するため、例えば、ＳＦＭ（図４のブロック４２）を計算する際、周波数が隣り合う合計の二乗を加えるか平均化することや、この粗い正の実数値のスペクトル表現におけるＳＦＭ計算を実行することもまた好ましい。
【００５５】
以下では、本発明が有利的に使用されうる、パターン認識システムの概略的な全体像を示す図５を参照する。原理的に、図５に示すパターン認識システムでは、二つの動作様式において相違が、すなわち訓練モード５０と分類モード５２が作成される。
【００５６】
訓練モードでは、データは「訓練」され、すなわち、システムに供給され、最終的にはデータバンク５４に収容される。
【００５７】
分類モードでは、データバンク５４に存在するエントリに、特徴付けられる信号を比較して命令することを試みる。図１に示す本発明に係る装置は、他のデータの調性索引が存在する場合、分類モード５２で使用されうる。このデータの明細を作成するため、他のデータの調整索引に対して、現在のデータの調性索引が比較されうる。図２に示す装置は、データバンクを段階的に満たすために、図５の訓練モード５０で有利的に使用される。
【００５８】
パターン認識システムは、信号処理手段５６と、下流の特性抽出手段５８と、特性処理手段６０と、クラスター生成手段６２と、分類実行手段６４とを備えており、例えば、分類手段５２の結果として、特徴付けられる信号の内容に関する明細を作成する。そのため、この信号は、初期訓練モードで訓練される信号ｘｙと等しい。
【００５９】
以下では、図５の個別のブロックの機能に関して説明する。
【００６０】
ブロック５６は、ブロック５８と協同して特性抽出部を形成する。一方、ブロック６０は特性処理部を表す。ブロック５６は、入力信号を、チャンネルの数、サンプリング速度、解像度（サンプルごとのビット）などの、一様な目的フォーマットに変換する。入力信号の由来元となる供給源を問わないため、これは有益かつ必要である。
【００６１】
特性抽出手段５８は、手段５６の出口における通常は巨大な量の情報を、少量の情報に制限する役割を持つ。処理される信号は大部分が高いデータ比率を有し、このことは、一期間ごとに多数のサンプルがあること意味する。少量の情報への制限は、原信号の本質すなわち特性が失われない様に起こる必要がある。手段５８では、例えば、一般には、音量や基本周波数などの所定の特性や、および／または、本発明によるところの、調性特性やＳＦＭのそれぞれは、この信号から抽出される。それゆえ、抽出される調性特性は、いわば、調べる信号の本質を含むことになる。
【００６２】
ブロック６０では、前回計算された特性ベクトルが処理されうる。簡素な処理工程はベクトルの標準化を備える。電圧特性処理工程は、従来知られている、カルーネン・レーベ変換（ＫＬＴ）や線形区分解析（ＬＤＡ）などの線形変換を含む。よりいっそうの変換、特に、非線形変換もまた、特性処理のために使用されうる。
【００６３】
部類生成部は、処理された特性ベクトルを、部類に統合する役割を持つ。これらの部類は、関連信号の簡潔な表現に対応する。さらに、分類部６４は、生成された特性ベクトルを、それぞれ、定義済み部類と定義済み信号に関連づける役割を有する。
【００６４】
次の表は、異なる状況下での認識率の概略を与える。
【００６５】
【表１】

【００６６】
この表は、最初の１８０秒が参照データとして訓練された、全部で３０５編の音楽データについて、図５のデータバンク５４を使用した認識率を示す。この認識率は、信号影響における依存度において適切に認識されたデータの数の割合を示す。二行目は、音量が特性として使用された際の認識率を示す。特に、４つのスペクトル帯域において音量が計算され、次に、音量値の対数化が行われ、そして次に、時間が連続したそれぞれのスペクトル帯域のための対数化された音量値の相違形成が実行された。得られた結果は、音量用の特性ベクトルとして使用された。
【００６７】
最終行では、ＳＦＭが、四つの帯域用の特性ベクトルとして使用された。
【００６８】
調性を分類特性として使用する本発明に係る方法は、３０秒の部分が考慮される際、ＭＰ３に符号化されたデータの１００％の認識率をもたらし、一方で、本発明に係る特性および音量の両方における認識率は、検査される信号の短い部分（１５秒のような）が認識用に使用されるとき、特性として減少することがわかる。
【００６９】
すでに述べたように、図２に示す装置は、図１に示す認識システムを訓練するために使用されうる。一般に、図２に示す装置は、どのようなマルチメディアデータ組に対しても、メタ記述、すなわち、索引を生成するので、それぞれ、その調性度に関連するデータ組を検索でき、かつ、データバンクからデータ組を出力できる。データ組は、それぞれ、特定の調性ベクトルを有し、所定の調性ベクトルに類似する。
【図面の簡単な説明】
【図１】
本発明に係る、信号を特徴付ける装置の概略を示すブロック図である。
【図２】
本発明に係る、信号索引化する装置の概略を示すブロック図である。
【図３】
スペクトル成分ごとの調性から調性度を計算する装置の概略を示すブロック図である。
【図４】
スペクトル単調度（ＳＦＭ）から調性度を決定する概略を示すブロック図である。
【図５】
調性度を特性として使用しうる構造認識システムの概略を示すブロック図である。

Claims

調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する工程（１２）と
上記信号の調性度に基づいて、上記信号の音声内容についての明細を作成する工程（１６）とを備える音声内容を表す信号を特徴付ける方法。
上記明細を作成する工程（１６）は、
上記信号の調性度と、異なる音声内容を表す複数の既知信号のための複数の既知の調性度とを比較する工程（６４）と、
上記既知信号に関連する、上記特徴付けられる信号の調性度が、上記調性度への所定の偏差以下を有する場合、上記既知信号の内容に対応して、上記特徴付けられる信号の音声内容を決定する工程とを有する、請求項１に記載の音声内容を表す信号を特徴付ける方法。
相関性が決定される際、特徴付けられる信号の表題、著者または他のメタ情報を出力する、請求項２に記載の音声内容を表す信号を特徴付ける方法。
上記調性度は定量的な量であり、
上記決定される信号の調性度と、既知信号の既知の調性度との間の調性距離を計算する工程と、
上記調性距離に依存し、かつ、特徴付けられる信号内容と上記既知信号の内容との類似性を表すような、特徴付けられる信号の類似度を示す工程とをさらに備える、請求項１に記載の音声内容を表す信号を特徴付ける方法。
上記特徴付けられる信号は原信号からの符号化に由来し、
上記符号化は、上記原信号の周波数領域へのブロック様式の変換と、音響心理的モデルによって制御される上記原信号のスペクトル値の定量化とを備える、請求項１に記載の音声内容を表す信号を特徴付ける方法。
原信号をスピーカに出力し、マイクロフォンで録音することによって、特徴付けられる信号が提供される、請求項１〜４に記載の音声内容を表す信号を特徴付ける方法。
上記特徴付けられる信号は、調性度を側面情報として備え、
上記決定する工程（１２）は、上記側面情報から上記調性度を読み出す、請求項１〜６に記載の音声内容を表す信号を特徴付ける方法。
調性度を決定する工程（１２）は、
スペクトル係数のブロックを取得するために、特徴付けられる信号の時間サンプルのブロックを、スペクトル表現に変換する工程と、
上記スペクトル成分のブロックのスペクトル成分の度合いを決定する工程と、
スペクトル成分の周辺の上記スペクトル成分の度合いを決定する工程と、
スペクトル成分の度合いが、所定係数を乗じた周辺スペクトル成分の度合いを超過する場合、スペクトル成分の１つを有調として分類する工程と
上記分類されたスペクトル成分を使用して上記調性度を計算する工程とを備える、請求項１〜６に記載の音声内容を表す信号を特徴付ける方法。
上記調性度を決定する工程（１２）は、
スペクトル係数を取得するために、上記特徴付けられる信号の時間サンプルの現在のブロックを、スペクトル表現に変換する工程と、
上記現在のブロックに先立つ、上記特徴付けられる信号のサンプルの情報を用いて、上記スペクトル成分の現在のブロックの上記スペクトル成分を予測する工程と、
スペクトル成分の１つにつき１つの予測エラーを取得するために、上記予測する工程によって取得した上記スペクトル成分から変換して取得したスペクトル成分を引き算することによって、上記予測エラーを決定する工程と、
上記予測エラーを使用して調性度を計算する工程とを備える、請求項１〜６に記載の音声内容を表す信号を特徴付ける方法。
上記調性度を決定するため、上記スペクトル成分の度合いは、スペクトル成分の１つを有する周波数帯域におけるスペクトル成分の度合いの平均値に関係している、請求項１〜６に記載の音声内容を表す信号を特徴付ける方法。
上記調性度を決定する工程（１２）は、
スペクトル成分のブロックを取得するために、上記特徴付けられる信号のサンプルのブロックを、正の実数値スペクトル表現に変換する工程（３０）と、
前処理されたスペクトル成分のブロックを取得するために、上記正の実数値表現を任意に前処理する工程と、
微分フィルタ処理されたスペクトル成分を取得するために、上記スペクトル成分のブロックまたは上記前処理されたスペクトル成分のブロックを、微分特性フィルタによってフィルタリングする工程と、
上記微分フィルタ処理されたスペクトル成分を使用して、上記スペクトル成分の調性を決定する工程と、
上記スペクトル成分の上記調性を使用して調性度を計算する工程（３４）とを備える、請求項１〜６に記載の音声内容を表す信号を特徴付ける方法。
上記調性度を決定する工程（１２）は、
上記特徴付けられる信号のための、正の実数値スペクトル成分のブロックを計算する工程（４０）と、
分子としての、上記スペクトル成分のブロックの複数のスペクトル成分の幾何平均値の比率と、分母にある、上記複数のスペクトル成分の算術的平均値とで商を形成する工程（４２）とを備えており、
上記商は調性度として機能し、
０に近い上記商は調性信号を示し、
１に近い上記商は平坦なスペクトル曲線を示す、請求項１〜７に記載の音声内容を表す信号を特徴付ける方法。
周波数が近接した少なくとも二つのスペクトル成分が集合化され、個別のスペクトル成分ではなく集合化されたスペクトル成分がさらに処理される、請求項８，１０，１１または１２に記載の音声内容を表す信号を特徴付ける方法。
上記特徴付けられる信号の短期スペクトルを決定する工程（１２）は、ｎ個の帯域に分割され、ここで、調性度はあらゆる帯域に対して決定され、
上記特徴付けられる信号のｍ個の連続した短期間スペクトルに対して、それぞれｎ個の調性度が決定され、
調性ベクトルはｍ×ｎ個に等しい次元に対して生成され、
ｍおよびｎは１と等しいか１よりも大きい、請求項１〜１３に記載の音声内容を表す信号を特徴付ける方法。
上記調性度は、上記調性ベクトルであるか、または上記特徴付けられる信号からの複数の時間的に連続した調性ベクトルの確率値であり、
上記確率値は、平均値か、高次の偏差か、中央値か、または上述の確率値の組み合わせである、請求項１４に記載の音声内容を表す信号を特徴付ける方法。
上記調性度は、複数の調性ベクトルの相違または線形フィルタ処理された複数の調性ベクトルの相違に由来する、請求項１４に記載の音声内容を表す信号を特徴付ける方法。
調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する工程（２２）と、
上記信号に関連した、信号の音声内容を示す索引として、調性度を記録する工程（２６）とを備える、音声内容を構成する索引信号を生成する方法。
上記調性度を決定する工程（２２）は、
上記信号の異なるスペクトル成分またはスペクトル成分の集合に関する調性値を計算する工程と、
上記調性度を取得するために調性量を処理する工程（６０）と
上記信号を上記調性度に依存した信号部類に関連づける工程とを備える、請求項１７に記載の音声内容を構成する索引信号を生成する方法。
複数の信号の調性特性に言及する関連索引と同時に、上記信号に対する参照のデータバンク（５４）を取得するために、上記複数の信号に対して実行される、請求項１７に記載の音声内容を構成する索引信号を生成する方法。
調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する手段（１２）と、
上記信号の調性度に基づいて、上記信号の音声内容についての明細を作成する手段（１６）とを備える、音声内容を表す信号を特徴付ける装置。
調性は音声内容に依存し、かつ、雑音声信号の調性は音声様信号の調性とは異なるような、信号の調性度を決定する手段（２２）と
上記信号に関連した、信号の音声内容を示す索引として、調性度を記録する手段（２６）とを備える、音声内容を構成する索引信号を生成する装置。