JP2007534995A

JP2007534995A - 音声信号を分類する方法及びシステム

Info

Publication number: JP2007534995A
Application number: JP2007510188A
Authority: JP
Inventors: ディルクブレーバールト; マーティンマッキネイ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-29
Filing date: 2005-04-21
Publication date: 2007-11-29
Also published as: WO2005106844A1; EP1745463A1; US20080243512A1; EP1745463B1; TW200606816A; DE602005008041D1; CN1998044B; KR20070004891A; ATE400870T1; CN1998044A

Abstract

本発明は、音声入力信号（１）を分類する方法であって、前記音声信号（１）の複数の特徴（２）を抽出するステップと、これらの特徴（２）に基づき前記入力音声信号（１）に関する特徴ベクトル（３）を導出するステップと、前記入力音声信号（１）に関する前記特徴ベクトル（３）が、特定の公表日情報にそれぞれ対応する複数の分類（Ｃ１、Ｃ２、…、Ｃｎ）のいずれかの範囲にある可能性を決定するステップと、を有する方法を記載する。

Description

本発明は、全般的に音声入力信号、特に音楽トラックを分類するシステム及び方法に関するとともに、音声入力信号、特に音楽トラックを分類する音声処理装置に関する。

消費者は、ブロードバンド技術、伝送帯域幅、及びインターネットの発達の結果として、また消費者用の記憶装置の容量が益々増加しているおかげで、現在、急速に増加する量のマルチメディアコンテンツへのアクセスを有する。１００００曲を超える音楽コレクションは、例外ではない。この増加に伴い、コンテンツの自動フィルタ化ステップ、処理ステップ、及び記憶ステップに関する必要性が生じている。斯様な大規模な音楽データベースからの音楽の組織化及び選択は、困難であり、時間の浪費である。この問題は、実際の音声データファイルへ特定の方法で添付された追加的な情報タグであると理解され得るメタデータを含ませることによって部分的に対処され得る。メタデータは、しばしば、サービス提供者により提供されるが、これらのサービスを利用するためには、消費者は、多くの場合、該サービス提供者へのオンライン接続を必要とし、このサービス提供者は、消費者に取得されるデータに関してたいてい課金するであろう。したがって、外部サービス提供者からのメタデータの取得は、消費者に取って常に魅力的ではないかもしれない。

音声の自動分類に関する現在の技術は、一般的に、分析が基づかれ得る音声から抽出される関連する特徴に依存する。例えば、国際特許公開公報第01/20483 A2号は、第１の音楽片と類似する第２の音楽片に関するデータベースにおいて検索する方法を記載する。この文書では、該データベースは、パラメータの形式にある一種のメタデータとそれぞれ関連付けられる楽曲のコレクションから構成される。パラメータは、第１の音楽片において識別され、データベースにおける一致する一群のパラメータを位置特定するために分析される。この方法は、第１楽曲に類似する第２楽曲を位置特定することに制限され、したがって、全て同じである楽曲を聴取したいと望まないであろうユーザにとって非常に限定された興味でしかなくあり得る。

最近の研究は、人々の音楽の好みが、人々が１０歳から２０歳の間であった頃に人気のあった音楽と一致することを示している。このことは、多くの人が、例えば８０年代などの特定の１０年間からの音楽に関する好みを有することを意味する。特定の時代からの楽曲、又はその時代から生じているように聞こえる楽曲を発見することは難しい。楽曲の公表日を示すメタデータは、特にメタデータの使用が比較的近年の開発であり、古いコレクションがメタデータを使用し得ないので、コレクション中の楽曲のすべてに関して常に入手可能ではあり得ない。

したがって、本発明の目的は、メタデータを使用することなく、音声セグメントの公表日を容易に特定するのに用いられ得る方法及びシステムを提供することである。

この目的を果たすために、本発明は、公表日に従い音声入力信号を分類する方法であって、当該方法は、以下のステップ、すなわち、前記音声信号の少なくとも１つの特徴を抽出するステップと、前記少なくとも１つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出するステップと、前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定するステップと、有する。ここにおいて、該「音声入力信号」は、音声データファイル、音楽トラック、サウンドトラック及びＭＰ３音楽ファイルなどから生じ得る信号である。該音声入力信号は、更なるデジタル信号処理に関してデジタル形式に変換されるのが必ずというわけではないが好ましい、例えばマイクからなどのアナログ信号でもあり得る。該音声信号の短い引用は、本発明による方法を用いてその公表日の推定に関して十分である。

上述の方法に従い音声入力信号の公表日を分類する適切なシステムは、以下の手段、すなわち、該音声入力信号の少なくとも１つの特徴を抽出する特徴抽出ユニット、前記少なくとも１つの特徴に基づき前記入力音声信号に関する特徴ベクトルを導出する導出ユニット、及び前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定する可能性決定ユニットを備える。

斯様な方法及びシステムは、音声入力信号の公表日を自動的に推定する容易な手法を提供する。これにより、該フレーズ公表日は、特定の暦年だけでなく、「７０年代初期」若しくは「１９９８年前後のいつか」、又は特定の日付のようないかなる他の時間点などの期間をも示すように意図され得る。例えば、公表日は、音声信号が公表された可能性が最も高い不確定性の尺度を規定する持続時間によって先行される又は後に続き得る年として規定される公表年であり得る。特定の音声信号に関する識別された公表の期間を形成する時間スパンの全体長さは、該音声信号が日付をつけられ得る正確性の尺度として解釈され得る。したがって、識別される年を形成する比較的短い時間スパンは、対応する音声信号が、識別される公表期間から生じるように確信して仮定され得、長い時間スパンは、該音声信号の元の提案される日付に関する不確定性の尺度を参酌し得ることを示し得る。

本発明の適切な応用例によって、実際の公表日と知覚される公表日との間の区別も行われ得る。前記実際の公表日は、実際に、特定の曲が公表された年であるのに対して、前記知覚される公表日は、たいていの聴取者が該曲を関連付け得る年である。カバーバージョンとオリジナルとの両方に関して異なる実際の公表日の情報は、抽出される特徴を元にして正確に推定され得る。オリジナルに非常に類似するカバーバージョンの場合であって、カバーバージョンがジャンル特性及びスタイルなどにおいてオリジナルとはっきりと違わないが、相当後に公表された場合において、当該カバーバージョンは、所望である場合、知覚される公表日を用いて分類され得る。

従属項及び後続の説明は、本発明の特に有利な実施例及び特徴を開示する。

「特徴」は、信号帯域、信号エネルギー、スペクトルロールオフ周波数及びスペクトル重心などの音声入力信号の記述的な特性である。特性を抽出する前に、音声信号は、通常、デジタル形式に変換される。その後、例えば音声標本のオーバーラップするフレームから特徴が計算され得る。パワースペクトルを計算するステップ、パワースペクトルを正規化するステップ、及び複数の個別のエネルギーバンドにわたりエネルギーを計算するステップなどの更なる処理ステップは、複数の追加的な特徴を与えるために前記抽出される特徴に実行される。最終的に、特徴の全体の群の間から、特徴の選択が、前記音声入力信号に関する特徴ベクトルを与えるために、一緒に集められる。

該入力音声信号に関して斯様にして導出される特徴ベクトルは、その後、該音声信号を分類するのに用いられ得る。この目的を果たすために、特定の公表日情報にそれぞれが対応する複数の可能な分類のうちのいずれか１つの範囲に該特徴ベクトルが入る可能性を決定するのに、該特徴ベクトルに分析が実行される。分類は、点のクラスタによってグラフィカルに表現され得、各点は、特徴ベクトルによって示される。該クラスタは、ｎ次元特徴空間において構成されるように理解され得、ｎは、各特徴ベクトルを計算するのに用いられる特徴の数に対応する。各クラスタは、特定の公表日に関する音声信号の分類に関して表される音声信号コレクションからの音声信号に関して事前に計算された特徴ベクトルに基づき構築される。該音声信号コレクションは、高い分類成功率を保証するために、好ましくは、所望の公表日分類の全てにわたり分布する十分に大量の音声信号を有する。

本発明の好ましい実施例において、特定の公表日情報を表す分類（又はそれに対応するクラスタ）は、この公表日情報に関連付けられる事前に計算される特徴ベクトルのコレクションから導出されるモデルによって記述され得る。斯様なモデルは、例えば、各分類が自身の平均ベクトル及び自身の共分散行列を有するガウス多変数モデルであり得る。モデル空間の次元性は、可能な最良の分類化結果を保証するために、可能な限り低く保たれる一方で、生じるモデルの分類又はクラスタ間の可能な最良の識別を与える特徴を選択する。用いる最適な特徴の群を発生させるために、次元低減及び特徴各付けの既知の方法が適用され得る。この特徴の群は、音声信号のコレクションに基づき分類モデルを構築するとともに、後に、該モデルを用いて分類されるべきいかなる入力音声信号に関しても特徴ベクトルを計算するのに用いられる。

音声入力信号の特徴ベクトルが特定の分類の範囲に入る可能性を計算する、すなわち特徴ベクトルを分類することに関して、多数の既知の方法が利用可能である。

本発明の好ましい実施例において、判別分析(discriminant analysis)の方法が適用される。この分析の方法を用いると、特徴ベクトルは、特定の分類がこの特徴ベクトルを含む可能性を決定するＢａｙｅｓルールなどを用い、各分類に関する平均値及び共分散行列に基づき各分類に関して事前に計算された可能性密度を適用して分類され得る。該共分散行列が複数の分類にわたり異なる場合、判別関数は二次であり、これにより、決定境界は、該特徴空間において二次表面を形成する。この方法は、この場合に、二次判別分析と呼ばれる。共分散行列が複数の分類にわたり一定である場合、決定境界は、特徴空間のおいて線形表面を形成し、当該分析の方法は、線形判別分析として知られている。

これらの分析の方法を用いると、該特徴空間における特徴ベクトルの位置は、「局地化」され得、これにより、この位置が最も近くに関連付けられる分類が決定され得る。該特徴ベクトルが特定の公表日と関連付けられる特定の分類の中心に向かって明確に位置される場合、該関連付けられる音声入力信号は、「１９７０」などの対応する日付に公表されたとして仮定され得る。しかし、該特徴ベクトルが縁部又はクラスタの境界に更に向かって位置される場合、不正確性は、該公表日を形成する時間スパンに反映される。例えば、公表日又は公表年はそれぞれ、該音声入力信号に関して、「１９７０±２」として報告され得る。

特徴の選択は、該分類方法の成功にかなりの効果を有し得る。したがって、本発明の特に好ましい実施例において、該音声入力信号を分類するのに用いられる特徴ベクトルは、該音声入力信号の聴覚フィルタ時間包絡線変調特徴及び／又は心理音響特徴を有する。

聴覚フィルタ時間包絡線（ＡＦＴＥ）変調特徴は、ガンマトーンフィルタとして知られる特定の種類の複数のフィルタを用いて入力音声信号をフィルタ処理することによって得られ、このガンマトーンフィルタのスペクトル形状は、人間聴覚システムの周波数解像度に似ている。更なる処理は、ＡＦＴＥ特徴の一群を与えるのにフィルタ処理された信号に実行される。ＡＦＴＥ特徴群のパワーフルな特性は、分類化目的に関する関連情報を含む波形周波数スペクトル及び包絡線周波数スペクトルの部分の識別を可能にするものである。分類化に関する標準ガウスフレームワークを用いると、結果は、特徴の時間的振る舞いが自動音声分類化に関して重要であることを示す。加えて、分類化は、標準特徴よりもむしろ聴覚知覚のモデルからの特徴に基づく場合、平均してより良い。

心理音響特徴は、ラフネス(roughness)、シャープネス(sharpness)、ラウドネス(loudness)などの知覚されるものに基づく。ラフネスは、約20-150Hzの範囲における時間的包絡線変調の知覚であり、70Hz付近で変調に関する最大値を示す。ラウドネスは、強度の感覚であり、シェープネスは、高周波数エネルギーの相対的強度及びスペクトル密度に関する知覚である。これらの特徴は、音楽制作のいくつかの品質が、録音及びミキシング機器における発達に対応して年を経て変化し、これらの品質が心理音響特徴によって部分的に反映されることが確認されているので、公表年分類において特に有用性があり得る。例えば、音楽のラウドネスは、年を経ると徐々に増加してきており、これにより、ラウドネスは、音楽片の元の日付をつけることにおいて良い効果とされ得る。

このことは、本文書に記載のシステムが実際の及び知覚される発売日分類の両方に関して用いられるのを可能にする。既述のように、音楽片が作成されて、そしてかなり後に公表されていたとしても、この音楽片が、特定の時間から日付をつけるように知覚され得る。実際の公表日は、記載の方法を用いて識別され得る。

好ましくは、ラウドネスなどの特徴のいくつかを反復して調整し、分類処理を実行することによって、知覚される公表日も容易に識別され得る。該調整は、特徴に関する重み付け係数を適合するステップ、又はいくつかの類似の手続きを含み得る。例えば、Ａｂｂａのナンバーのカバーバージョン、又はＡｂｂａのスタイルをコピーする傾向のある音楽片は、９０年代に公表されたとしても、ラウドネス等から導出される特徴が７０年代に関して典型的なレベルを反映するように調整される場合、７０年代後半であるとなお正確に識別され得る。一方で、本発明は、過去のジャンルの典型的な特性を示す音楽片の正確な公表日を、この音楽片がかなり後の時間点で公表されたとしても認識し得る。

本発明は、様々な音声処理応用例に関して有用であり得る。例えば、好ましい実施例において、上述の音声入力信号の公表年を推定する分類システムは、特定の公表日の年に従い音声標本を選択する音声処理装置に組み込まれ得る。該音声処理装置は、公表日に基づきデータベースから１つ又は複数の音楽データファイルを選択する音楽クエリシステムを備え得る。該音声処理装置は、公表日を推定する前に音楽データファイルから抽出される音声信号の特徴に実行されるべきいずれかの処理ステップを決定するために、ユーザ入力を解釈し得る。例えば、該装置のユーザは、音楽片がその音楽片の実際の公表日に基づき選択されるべきであるか、又は音楽片が知覚される公表日に基づき選択されるべきであるかを特定するパラメータを入力することが可能である。斯様にして、該ユーザは、１つ又は複数のジャンルの中から、又は特定の１０年間若しくは時間スパンから、音楽のコレクションを容易に寄せ集めることが可能であり、又は該ユーザは、実際の公表年に関わらず、６０年代タイプのロックンロールなどの特定の種類の音楽を特定することを好み得る。特定の音楽片に関して推定されると、該音声処理装置は、将来の使用のために、該実際の及び／又は知覚される公表日情報を、ローカル又は外部データベースに記憶し得る。

該音声処理装置の別の実施例は、所望のシーケンスに従い音楽データベースから複数の音楽片を選択する自動ＤＪ機器を含み得る。斯様な自動ＤＪ機器は、録音スタジオ、ラジオ又はテレビ局、及びディスコなどにおけるプロ用の装置であり得るか、又はＰＣ、家庭用娯楽装置、ＰＤＡ又は携帯電話などに組み込まれ得る。該自動ＤＪ機器は、選択される音楽片を再生する音声出力を備え得るか、又は音楽を再生する別個の手段に接続され得る。該自動ＤＪ機器は、例えばインターネットなどの遠隔音楽データベースに、又は例えば家庭用娯楽装置のＭＰ３ファイルのリストなどのローカルの音楽データベースに接続する手段を特徴とし得る。該ユーザは、例えば、６０年代スタイルのロックンロールを特定し、更にその後に７０年代のスタイルのディスコなどの異なるジャンルが続くように特定し得る。該自動ＤＪ機器は、特定されるジャンルの音楽に関する実際の及び知覚される公表日情報に関して音楽データベースを検索し、所望の順序で複数の音楽片のリストを編集する。

本発明に従う分類化システムは、計算機プログラムとしてかなり経済的に実現され得る。フィルタバンク、共振器フィルタバンク、エネルギー合計ユニット、格付けユニット及びテンポスキームコンパイラなどの、音楽入力信号に関するあいまいさの尺度を決定する全てのコンポーネントは、計算機プログラムモジュールの形で実現され得る。いかなる所要のソフトウェア又はアルゴリズムも、ハードウェア装置の処理器において符号化され得、これにより、既存のハードウェア装置は、本発明の特徴から利益を得るように適合され得る。代わりに、音楽入力信号に関するあいまいさの尺度を決定するコンポーネントは、ハードウェアモジュールを用いて少なくとも一部同様に実現され得、これにより、本発明は、デジタル及び／又はアナログ音楽入力信号に適用され得る。

本発明の実施例の１つにおいて、該音楽データベースは、記載の方法を用いて事前に編集される関連公表日情報のリストから分離して記憶装置に含まれ得るか、その両方は、例えば個人用計算機などの同一の装置に、又はＣＤ若しくはＤＶＤなどに記憶され得る。該音楽データベースは、１つの場所に記憶され得るか、又は例えば音楽ＣＤのコレクションなどのいくつかの装置に分散され得る。本発明の好ましい実施例において、該音楽データベース及び該音楽データベースの要素に関する公表日情報は、特定の音楽片に関する公表日情報を初めに取得するのに最小の労力が必要とされるような方法で記憶される。

本発明の他の目的及び特徴は、添付の図面を併せて考慮される以下の詳細な説明から明らかになる。しかし、図面は、例証の目的のみに関して設計され、本発明の制限の規定として設計されるものではないことを理解されるべきである。

図１において、この場合音楽データファイル、音楽トラック、ＭＰ３ファイル又は類似のものから生じるデジタル音楽入力信号１である音声信号１は、分類システム４に入力される。

特徴抽出ユニット５において、特徴２が、１０個の743msの音声入力信号標本のから抽出される。音楽トラックの開始部及び終了部は、多くの場合、主要な部分とは幾分異なって聞こえ得るので、該標本は、トラックの又は音楽データファイルの中間部に対する位置から取得されるのが好ましい。

後に続く導出ユニット６において、１つの特徴ベクトル３が、入力音声信号１の１０個のフレームのそれぞれの特徴２に関して計算される。

各特徴ベクトル３は、その後、可能性決定ユニット７で分類処理を受け、そこでは、特徴ベクトル３が複数の可能な分類のうちの１つの特定の分類の範囲に入る可能性を決定するために、分析のステップが実行される。

したがって、分類化システム４は、当該分類化処理に関して必要とされる情報を含むデータベース９へのアクセスを有する。データベース９は、例えば、２人の聴取者に、大量の曲を聴取させ、それらを「１９６６‐１９７０」及び「１９７０‐１９７４」などの特定の公表日情報にそれぞれ対応する所定の分類リスト（Ｃ１，Ｃ２，…，Ｃｎ）に従い独立して分類させることによって構築及び教育されている。各楽曲又はトラックは、その分類（Ｃ１、Ｃ２、…、Ｃｎ）に関してどれだけ良い例であるかに関してスコアを用いて格付けされ得る。以下の規準を満たす全てのトラックからなる減らされたコレクションが、これらの曲から識別される。
・両方の聴取者によって識別される分類（Ｃ１、Ｃ２、…、Ｃｎ）がトラックに関して同一である。
・各トラックの格付け又はスコアが、所定の最小値よりも大きかった。
・各アーティスト又はアルバムからのトラックの最大数が、２であった。

特徴ベクトルは、入力信号の特徴ベクトルの計算と同様に、該減らされたコレクションのトラックのそれぞれに関して計算される。これらの特徴ベクトル及び聴取者によって提供される分類情報を用いることによって、分類（Ｃ１、Ｃ２、…、Ｃｎ）を表すモデルが構築され得る。この情報は、分類処理で用いるためにデータベース９に記憶される。データベースを教育する特徴ベクトルを導出するステップを含む処理ステップは、分類に関して入力音声信号１から特徴ベクトルを導出する後に用いられるステップと同一である。

分類システム４は、分類処理の完了の後で、図示はされないディスプレイに出力するなどの適切な方法で結果８を報告する。該出力は、「トラックＡＢＣ：公表年１９９０±２」の形式であり得、「ＡＢＣ」で識別されるトラックが１９９０年に公表されたことが最も可能性は高いが、２年の不確定要素が考慮されなければならないことを示す。

図２は、２次元特徴ベクトル空間におけるクラスタによって表される複数の分類（Ｃ１，Ｃ２）のグラフィカル表現を示す。通常、該複数の特徴ベクトル及び該ベクトル空間の次元性は、相当高くあり得るが、これらは容易に２次元表現では示され得ない。したがって、簡単化のために、該グラフは、２つの特徴ｆ１及びｆ２によって構築される２次元特徴空間に制限されている。

例証の目的のために、分類システム４が２つの音楽トラック「Ｘ」及び「Ｙ」を分類するのに用いられていることを仮定してみる。更に、分類システム４は、２つの分類１又は２のうちの１つに分類することが可能であり、分類Ｃ１は、７０年代初期の音楽（「１９７０−１９７４」）を表し、Ｃ２は７０年代後期の音楽（「１９７５−１９７９」）を表すことを仮定してみる。音楽トラック「Ｘ」及び「Ｙ」に関する特徴ベクトルＦｘ及びＦｙは、既述のように計算され、可能性導出ユニット７は、ここで、これら２つの特徴ベクトルＦｘ及びＦｙが所属する可能性が最も高い分類を位置特定するように進める。Ｆｘが明らかに分類Ｃ１内に位置されるので、該可能性決定ユニットは、音楽トラック「Ｘ」が分類Ｃ１によって表される時間スパンの中央から生じると確信を持って結論付け、「１９７２±１」をこの音楽トラックに関する分類結果として報告し得る。一方で、Ｆｙは、分類Ｃ１及び分類Ｃ２の間であるが、Ｃ２よりもＣ１にむしろ近くに位置特定される。したがって、可能性決定ユーザ装置ユニット７は、これら特徴ベクトルが計算されていた音楽トラックは、これら分類間のいつかから生じることを結論付け、「１９７４±４」の推定公表年を報告し、該トラックが１９７４前後に公表された可能性が最も高いが、推定される４年までの前後に公表され得ていたことを示す。不確定性は、特徴ベクトルＦｘ，Ｆｙ及び分類Ｃ１とＣ２との重心の距離の尺度である。

入力信号１に関して計算される特徴ベクトル３を分類する場合、可能性決定ユニット７は、特定の場合において、特徴２のいくつかが修正される場合、より良い分類結果が達成され得ると結論付け得る。可能性決定ユニット７は、適切な信号１０を用いて、必要な修正を特徴抽出ユニット５に知らせる。該修正を実行した後で、特徴抽出ユニット５は、新たに計算される特徴２を導出ユニット６へ転送し、これにより、分類処理は、新しい特徴ベクトル３を用いて再び実行され得る。この反復処理は、可能性決定ユニット７が結果８が満足いくものであると結論付けるまで繰り返され得る。

本発明は、好ましい実施例及び変更態様の形式で開示されているが、本発明の範囲から逸脱することなく、多数の変更態様及び修正態様がなされ得ることを理解され得る。例えば、ラジオ放送及び映画のサウンドトラックなどのいかなる種類の音声も、記載の方法を用いて日付をつけられ得る。更に、本発明は、記載の分析の方法を用いることに制限されないが、いかなる適切な分析方法をも適用され得る。

明瞭性の目的のために、本出願において単数形の構成要素は、複数個の斯様な構成要素の存在を排除せず、他のステップ又は要素の存在を排除しないことを理解されるべきである。「ユニット」は、明確に単数の実体として記載されない場合、複数のブロック又は装置を備え得る。

図１は、本発明の実施例に従う音楽片の公表日の年を決定するシステムの概略的ブロック図である。図２は、２次元特徴ベクトル空間の複数の分類のグラフィカル表現である。

Claims

音声入力信号を分類する方法であって、
−前記音声信号の少なくとも１つの特徴を抽出するステップと、
−前記少なくとも１つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出するステップと、
−前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定するステップと、
を有する方法。
特定の公表日情報を表す分類が、音声信号コレクションからの音声信号に関して事前に計算されるとともにこの発明日情報に関連付けられる特徴ベクトルに基づき規定される、請求項１に記載の方法。
特定の公表日情報を表す分類が、この発明日情報に関連付けられる事前に計算された特徴ベクトルのコレクションから導出されるモデルによって記述される、請求項２に記載の方法。
前記音声入力信号に関する前記特徴ベクトルが特定の分類の範囲にある可能性を決定するステップが、前記特徴ベクトルに関する判別分析を実行するステップを有する、請求項１ないし３のいずれか一項に記載の方法。
前記特徴ベクトルが、
−前記音声信号の心理音響的特徴、及び／又は
−前記音声入力信号の時間的包絡線の聴覚モデル表現を記述する特徴、
を有する、請求項１に記載の方法。
前記特徴の抽出ステップが、各特徴に関するパワースペクトルを計算するステップと、前記パワースペクトルを正規化するステップと、複数の個別のエネルギーバンドにわたりエネルギーを計算するステップと、を有する、請求項１又は請求項２に記載の方法。
前記入力音声信号の前記特徴が、前記入力音声信号の最適分類に関する特徴ベクトルを得るために前記分類処理において繰り返し調整される、請求項１ないし請求項６のいずれか一項に記載の方法。
音声入力信号を分類する分類システムであって、以下の手段、すなわち、
−前記音声信号の少なくとも１つの特徴を抽出する特徴抽出ユニットと、
−前記少なくとも１つの抽出された特徴に基づき前記入力音声信号に関する特徴ベクトルを導出する導出ユニットと、
−前記入力音声信号に関する前記特徴ベクトルが、特定の公表日情報にそれぞれ対応する複数の分類のいずれかの範囲にある可能性を決定する可能性決定ユニットと、
を備える分類システム。
請求項８に記載の分類システムを備え、特定の公表日に従い音声項目を選択する音声処理装置。
実際の又は知覚される公表日に従う前記音楽のグループ化が得られるように、公表日のユーザ規定シーケンスに従い音楽データベースから音楽片を選択する自動ＤＪ機器を備える、請求項９に記載の音声処理装置。
プログラム可能な音声処理装置のメモリに直接ロード可能な計算機プログラムであって、前記プログラムが前記音声処理装置で実行される場合に、請求項１ないし７のいずれか一項に記載の方法のステップを実行するソフトウェア符号部分を有する、計算機プログラム。