JP4021851B2

JP4021851B2 - 音声信号を特徴付ける方法

Info

Publication number: JP4021851B2
Application number: JP2003556905A
Authority: JP
Inventors: ロデ，グザヴィエ; ヴォルム，ローラン; ペータース，ジョフロワ
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2001-12-27
Filing date: 2002-12-24
Publication date: 2007-12-12
Anticipated expiration: 2022-12-24
Also published as: FR2834363A1; DE60239155D1; ATE498163T1; JP2005513576A; FR2834363B1; US20050163325A1; AU2002364878A1; EP1459214B1; EP1459214A1; WO2003056455A1

Description

発明の詳細な説明

本発明は、異なる周波数帯域において時間の経過につれて変化する音声信号を、特定パラメータに応じて特徴付ける方法に関するものである。本発明の分野は、音声信号認識の分野である。音声信号認識は、特に無許可で使用される音楽作品の確認のために適用される。

実際、デジタル化方法および多重媒体の開発により、このような不正使用がかなり増加した。その結果、印税徴収の責任を負う代理店は、新しい問題をかかえている。なぜなら、これらの音楽作品の作者に対して支払うべき報酬を申し分なく評価し、配当するために、特に対話型デジタルネットワーク（例えば、インターネット）において、上記不正使用を識別するためのなんらかの方法があるはずだからである。

その結果、音楽作品に限定しないように、より一般的に音声信号について考察する。

従って、本発明の目的は、音声信号のデータベースを作成することである。各音声信号を、１つのマーキング（empreinte）によって特徴付けておき、同じように特徴付けられた未知の音声信号があれば、この信号を検索し、上記未知信号のマーキングとデータベースにある範囲のマーキングとを迅速に比較することができる。

マーキングは、以下の方法で決定される特定パラメータを含む。第１ステップでは、振幅ｘ（ｔ）が、異なる周波数帯域ｋに応じて、時間ｔとともに変化する音声信号を分析する。すなわち、ｘ（ｋ、ｔ）は、周波数帯域ｋにおいて濾波された音声信号の振幅であり、これを、図１ａ）に示す。

図１ｃ）に示すように、この濾波された音声信号の短期エネルギーＥ（ｋ、ｔ）は、図１ｂ）に示す窓ｈ（ｔ）を使用して計算する。この窓ｈ（ｔ）は、２Ｎ秒間に対応して与えられる。上記窓をＳ秒ずつずらせてこの計算を繰り返す。

これらの値Ｅ（ｋ、ｔ）は、周波数帯域ｋにおいて音声信号ｘ（ｋ、ｔ）を２Ｎ秒間抽出した特定パラメータを構成する。

他のパラメータは、異なる周波数帯域ｊに対してＥ（ｋ、ｔ）のエネルギーを計算することによって得られる。この計算は、図２ｂ）に示す窓ｈ’（ｔ）を使用して行なう。この窓ｈ’（ｔ）は、２Ｎ’秒間に対応している。上記窓をＳ’秒ずつずらせて、この計算を繰り返す。図２ｃ）に示すＦ（ｊ、ｋ、ｔ）が得られる。音声信号の振幅から独立させるために、これらのＦ（ｊ、ｋ、ｔ）値を、これらの最大値に対して標準化する。

こうして標準化した値は、周波数のｋ帯域において音声信号ｘ（ｋ、ｔ）を２Ｎ’秒間抽出した特定パラメータのを構成する。異なる周波数帯域ｊに対してＥ（ｋ、ｔ）の位相も計算することができる。Ｐ（ｊ、ｋ、ｔ）が得られる。Ｐ（ｊ、ｋ、ｔ）値を、基準値Ｐ(１、ｊ、ｔ)に対して標準化し、音声信号を２Ｎ’秒間抽出した他の特定パラメータを得る。例えば、エネルギーＥ（ｋ、ｔ）の平均値を他のパラメーターとして加えてもよい。

本発明の目的は、異なる周波数帯域ｋにおいて期間Ｄに渡る時間ｔに応じて変化し、それゆえ、ｘ（ｋ、ｔ）と記される音声信号ｘ（ｔ）を、特定パラメータに応じて特徴付ける方法に関するものである。この方法は、原則的に、信号ｘ（ｔ）を格納するステップと、各周波数帯域ｋに対する上記信号ｘ（ｋ、ｔ）のエネルギーＥ（ｋ、ｔ）を計算し、得られたエネルギーＥ（ｋ、ｔ）の値を格納するステップと、音声信号ｘ（ｔ）の期間Ｄに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップとを含むことを特徴とする。

ただし、ｋは、２Ｎの期間の時間窓ｈ（ｔ）に応じて１〜Ｋの範囲で変化する。また、エネルギーＥ（ｋ、ｔ）の値は、抽出期間２Ｎの音声信号ｘ（ｔ）の特定パラメータを構成する。

さらに、上記方法は、周波数帯域ｊに対するＥ（ｋ、ｔ）のエネルギーＦ（ｋ、ｊ、ｔ）を計算し、格納するステップと、音声信号ｘ（ｔ）の期間Ｄに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップとを含む。ただし、ｊは、２Ｎ’の期間の時間窓ｈ’（ｔ）に応じて１〜Ｊの範囲で変化する。また、得られたエネルギーＦ（ｊ、ｋ、ｔ）のＪｘＫ値は、抽出期間２Ｎ’の音声信号ｘ（ｔ）の特定パラメータを構成する。

上記方法は、周波数帯域ｊに対するエネルギーＥ（ｋ、ｔ）の位相Ｐ（ｊ、ｋ、ｔ）を計算するステップと、得られた位相Ｐ（ｊ、ｋ、ｔ）の値を、音声信号ｘ（ｔ）の特定パラメータに含めるステップとを含んでいてもよい。ただし、ｊは、１からＪの範囲で変化し、ｊは、ｋとは異なるものである。

上記方法は、各周波数帯域ｊに対して、２Ｎ’秒間のエネルギーＥ（ｋ、ｔ）の平均値を計算するステップと、音声信号ｘ（ｔ）の期間Ｄに対する特定パラメータの範囲を得るために、一定の間隔でこの計算を繰り返すステップと、こうして得られた平均値を、音声信号ｘ（ｔ）の特定パラメータに含めるステップとをさらに含んでいてもよい。

１つの特徴によると、上記方法は、音声信号ｘ（ｔ）の特定パラメータを、ｘ（ｔ）を表すベクトルの成分とみなすステップと、パラメータが存在しているのと同じ次元数の空間に、ベクトルを位置決定するステップと、最近似ベクトルを含む分類を定義するステップと、上記分類を記録するステップとを含む。

上記分類が、分類間の距離と分類内の距離とを有する場合、上記方法は、特定パラメータから、分類内の距離に対して比較的大きな分類間の距離を得られるパラメータを選択するステップと、選択したパラメータを記録するステップとを含むことが有利である。

さらに、本発明は、音声信号を識別するための装置に関するものである。上記装置は、データベースサーバーを備えることを特徴とする。このデータベースサーバーは、上記で説明したような、特定パラメータに応じて音声信号を特徴付けるための方法を実施する手段と、データベースにある上記信号を検索するための手段とを有する。

上記検索手段は、音声信号が属する分類を直接認識する手段と、未知の音声信号の特定パラメータをデータベースのパラメータと比較することによって分類を検索する手段とを備えることが好ましい。分類は、例えば最近傍アルゴリズム法を使用して選択されている。

本発明の他の特徴および利点は、非限定的な例を参考にした説明および添付の図を参考にするとより明らかになる。

図１ａ）・１ｂ）・１ｃ）は、それぞれ、周波数帯域ｋ_ｉにおいて濾波した音声信号ｘ（ｋ_ｉ、ｔ）、ハミング窓ｈ（ｔ）および信号（ｋ_ｉ、ｔ）の短期エネルギーＥ（ｋ_ｉ、ｔ）の変化をプロットした図である。図２ａ）・２ｂ）・２ｃ）は、それぞれ、周波数帯域ｋ_ｉに対するエネルギーＥ（ｋ_ｉ、ｔ）、ハミング窓ｈ’（ｔ）および周波数帯域ｊ_ｍに対するＥ（ｋ_ｉ、ｔ）のエネルギーＦ（ｊ_ｍ、ｋ_ｉ、ｔ）の変化をプロットした図である。図３は、信号ｘ（ｋ、ｔ）のマーキングを構成するベクトルＶ［ｘ（ｔ）］の範囲を示す図である。図４は、マーキングの格納を示す図である。図５は、２つのパラメータに応じた音声信号の分類を示す図である。図６は、最近傍アルゴリズム法を使用して音声信号を検索する方法を示す図である。図７は、音声信号のマーキングを格納するためのデータベースサーバーを示す図である。

この特徴付けの方法に基づいて処理される音声信号は、特にコンパクトディスクに記録された音声信号である。以下では、音声信号ｘ（ｔ）を、サンプリング周波数ｆｅにおいてサンプルされたデジタル信号とする。このサンプリング周波数は、例えば１１０２５Ｈｚである。これは、コンパクトディスクに対する現在のサンプリング周波数（４４１００Ｈｚ）の４分の１に相当する。

しかしながら、アナログ音声信号を特徴付けることもできる。まず、アナログ−デジタル変換機を使用して、アナログ音声信号をデジタル信号に変換する必要がある。さて、図１ａ）に示す音声信号ｘ（ｋ、ｔ）（ただし、ｋ＝ｋ_ｉ）は、周波数ｆｅにおいてサンプルされたデジタル信号であり、周波数帯域ｋ_ｉにおける濾波の後に得られるものである。このサンプルされたデジタル信号の各値は、例えば１６ビットに符号化されている。周波数帯域は、約２０Ｈｚ〜２０ｋＨｚの範囲で変化する可聴スペクトル帯域であり、周波数帯域Ｋ（ｋは１〜Ｋの範囲で変化する）に区分化されている。例えば、Ｋ＝１２７である。

図１ｃ）に示す短期エネルギーＥ（ｋ、ｔ）（ただし、ｋ＝ｋ_ｉ）を、２Ｎ秒間、窓ｈ（ｔ）を使用して計算する。例えば、図１ｂ）に示すハミング窓は、約２３ｍ秒間に相当している。

Ｅ（ｋ、ｔ）は、時間−周波数または時間−度数の図表にサンプルした音声信号ｘ（ｔ）の変換のモジュールの平方である。利用できる変換は、フーリエ変換、余弦変換、ハートレー変換およびウエーブレット変換である。帯域パスフィルターのバンクもこの種の変換を行なう。短期フーリエ変換により、音楽信号分析に適した時間−周波数表示が可能となる。従って、エネルギーＥ（ｋ、ｔ）を、以下のように表わす。

ただし、ｉは、ｉ^２＝−１となるｉである。

音声信号についての窓を、Ｓ秒ずつ（例えば１０ｍ秒ずつ）ずらす。その結果、Ｅ（ｋ、ｔ）が１０ｍ秒毎にサンプルされる。Ｅ（ｋ、ｔ_０）、Ｅ（ｋ、ｔ_１）などが得られる（ただし、ｔ_１＝ｔ_０＋１０ｍ秒）。

Ｋ成分Ｅ（ｋ、ｔ）を有するベクトルによって、Ｓ秒毎に、音声信号ｘ（ｔ）を符号化する。これらの成分のそれぞれは、周波数帯域Ｋにおける２３ｍ秒間の音声信号ｘ（ｔ）のエネルギーを符号化する。

他のパラメータは、いわゆる上記計算を再現し、今度はその計算を図２ａ〜図２ｃ）に示すようにＥ（ｋ、ｔ）に適用することにより得られる。エネルギーＥ（ｋ、ｔ）は、Ｊの異なる周波数帯域において濾波する。Ｅ（ｊ、ｋ、ｔ）は、周波数帯域ｊにおいて濾波されたエネルギーＥ（ｋ、ｔ）である。ただし、ｊが、１〜Ｊの範囲で変化する（例えばＪ＝５１）。

次に、２Ｎ’秒の窓ｈ’（ｔ）を使用して、ｋ＝ｋ_ｉおよびｊ＝ｊ_ｍについて図２ｃ）に示すＦ（ｊ、ｋ、ｔ）を計算する。例えば、ハミング窓は、１０秒間に相当している。ただし、ｉは、ｉ^２＝−１であり、以下のように表せる：

この例では、音声信号ｘ（ｔ）が、各秒（Ｓ’＝１）毎に１２７ｘ５１パラメータＦ（ｊ、ｋ、ｔ）によって符号化されている。各実数Ｆ（ｊ、ｋ、ｔ）は、周波数帯域ｊにおける１０秒（２Ｎ’＝１０）間のエネルギー信号Ｅ（ｋ、ｔ）のエネルギーを表している。

Ｆ（ｊ、ｋ、ｔ）を、多少強い信号の振幅から独立させるために、これらの値を、基準値に関連付ける。この場合、ｋおよびｊの全てに対するＦ_Ｍ（ｊ、ｋ、ｔ）の最大値について考慮する。このように、Ｋ×ＪのパラメータはＦ（ｊ、ｋ、ｔ）／Ｆ_Ｍ（ｊ、ｋ、ｔ）によって得られる。

さらに、各周波数帯域ｊにおけるエネルギーＥ（ｋ、ｔ）の位相を、２Ｎ’秒毎に計算する：Ｐ（ｊ、ｋ、ｔ）である。このために、各周波数帯域ｊにおけるＥ（ｋ、ｔ）のフーリエ変換の増加を計算する。

上記のように、これらの値を基準値に関連付ける。この場合、第２周波数帯域（ｊ＝１）に対するＰ（ｊ、ｋ、ｔ）の値について考察する。なぜなら、サンプルの時間的な基準は知られていないからである。つまり、時間の基点は分からない。

このため、以下の式を用いて、関連付けられた位相（phases rapportees）φ（ｊ、ｋ、ｔ）を計算する：
φ（１、ｋ、ｔ）＝Ｐ（１、ｋ、ｔ）
φ（ｊ、ｋ、ｔ）＝Ｐ（ｊ、ｋ、ｔ）−Ｐ（１、ｋ、ｔ）・ｆ（ｋ）／ｆ（ｌ）、（ｋ＞１の場合）
ただし、ｆ（ｋ）は、チャネルｋの中央周波数である。

このように、関連付けられた位相φ（ｊ、ｋ、ｔ）の値に対応するＫ×Ｊのパラメータが得られる。

他のパラメータ、特に、２Ｎ’秒間のエネルギーＥ（ｋ、ｔ）の平均値について考慮してもよく、これは、各周波数帯域ｊに対するものである：Ｅ（ｊ、ｋ、ｔ）。これらの標準化されたパラメータの範囲は、一定の間隔で、マーキングを定義する。このマーキングは、ベクトルＶ（ｘ（ｔ））であると考えられる。標準化パラメータの範囲（例えば、Ｆ（ｊ、ｋ、ｔ）／ＦＭおよびＰ（ｊ、ｋ、ｔ）−Ｐ（ｊ、１、ｔ））は、Ｓ’秒毎にマーキングを定義する。このマーキングは、２×Ｋ×Ｊ次元（本例では２×１２７×５１つまり約１３０００）を有するベクトルＶ（ｘ（ｔ））と考えられる。１パラメータにつき１次元、各ベクトルは、２Ｎ’秒（本例では１０秒）間抽出した音声信号ｘ（ｔ）を特徴付けている。

この特徴付けを、Ｓ’秒毎（例えば、（Ｓ’＝１））に繰り返す。

図３に示すように、Ｔ秒間の信号ｘ（ｔ）は、最終的に、ＬベクトルＶによって特徴付けられる。Ｌは、ほぼＴ／Ｓ’に等しい。１０ｍｎまたは６００秒間続く音声信号に対して、６００のベクトル、すなわち、６００×２×Ｊ×Ｋのパラメータが得られる。

これらのベクトルは、サーバーまたはコンパクトディスクに設けられているデータベースの格納ゾーン１０に格納される。図４は、信号のベクトルＶまたはＶＡによる作品Ａ、同じく作品ＢのためのＶＢなどの範囲を表している。

これらのベクトルの成分の数を減らすことが望ましい。言い換えると、データベースにおけるその格納部に鑑みて、より小さなサイズのベクトルまたはマーキングを得るためにパラメータの数を減らすことが望ましい。さらに、未知の音声信号のマーキングを、データベースにあるマーキングの数と比較する場合、検索が迅速に実行されるように、比較するパラメータの数を減らしたほうが望ましい。

これらのパラメータは、全てが同じ量の情報を含んでいるわけではない。一部のパラメータは、冗長なもの、または、無駄なものである。それゆえ、相互情報量計算を使用して、全てのパラメータのうちの最も重要なパラメータを選択する。相互情報量計算については、PROC. ICASSP ’99, Phoenix, Arizona, USA, March 1999 H. YANG, S. VAN VUUREN, H. HERMANSKY, 「相互情報量により測定された時間−周波数特性の関連性（“Relevancy of Time-Frequency Features for Phonetic Classification Measured by Mutual Information”）」という刊行物に記載されている。このようにＫ〜Ｋ_１およびＪ〜Ｊ_１は、制限されている。

これらのパラメータを選択する方法について説明する。これらの音声信号の各マーキング、すなわち、これらの音声信号の各ベクトルは、Ｒ〜Ｎ次元の空間に分類されている。Ｎは、ベクトルの成分の数である。簡易化するために、２次元Ｐ１、Ｐ２を有するベクトルについての分類例を、図５に示す。

近似（proximite）によってベクトルをまとめることによって、分類Ｃ（ｍ）を定義する。ただし、ｍは１〜Ｍの範囲で変化する。例えば、ある分類が、ある音楽作品に対応していると判断できる。この場合、Ｍは、データベースに格納された音楽作品の数である。

これらの分類Ｃ（ｍ）とパラメータとの間の相互情報量計算の結果、パラメータの適合性が分類間および分類内の距離に関連していることが分かる。適合パラメータにより、分類内の距離Ｄと比べて分類間の距離ｄが比較的大きいことが確実となる。

このように、適合パラメータのみを保持することにより、Ｋ_１およびＪ_１を定義する。例えば、３４４Ｈｚ、４３０Ｈｚ、５１６Ｈｚ、６０８Ｈｚおよび６８９Ｈｚをそれぞれ中心とする５つ（Ｋ_１＝５）の周波数帯域について考慮することができる。Ｊ_１＝３について試験を行った。その結果、分類Ｃ（ｍ）は、２×Ｋ_１×Ｊ_１以下の成分を含むベクトルＶｑ（ｘ）で構成されている。

Ｋ_１＝５およびＪ_１＝３について、１０００時間の音楽を含むデータベースのメモリーのサイズの例を挙げる。また、パラメータとしてＥ（ｋ、ｔ）およびＦ（ｊ、ｋ、ｔ）について考察した。なお、各パラメータは、４バイトを使用して符号化されている。

１０ｍ秒毎に計算したＥ（ｋ、ｔ）パラメータは、１０００×３６００×１００×５×４バイトつまり約７ギガバイトを占有している。

各秒毎に計算したパラメータＦ（ｊ、ｋ、ｔ）は、１０００×３６００×３×５×４バイトつまり約２００メガバイトを占有している。これらのパラメータは、音声信号の基準に関連付けられている。基準が１バイトでそれぞれ符号化されている１００の特徴を含むとすると、これらの基準は、１０００×１０×１００バイトつまり約１メガバイトを占有している。このようなデータベースは、最終的に約７ギガバイトを占有する。

未知の音声信号を識別したいときは、まず、未知の音声信号が完全な音楽作品またはその抽出である可能性があるものとして、上記で説明したように、マーキング（図６のＶ（ｘｉｎｃ）を参照）を作成する。

次に、データベースにあるこのマーキングの分類を検索することは、図６に示す一般的な方法によると、このマーキングＶ（ｘｉｎｃ）のパラメータを、データベースのマーキングのパラメータと比較するステップを含む。最も近似している最近傍と呼ばれるマーキングは、以下の方法で分類を定義する。分類は、最近傍の大多数の分類である。

データベースサーバー１を、図７に図式的に示す。このデータベースサーバーは、データベースのデータ用の格納ゾーン１０を備えている。この格納ゾーンに、混合音声信号のマーキングが、その基準に応じて格納される。さらに、データベースサーバーは、上記の特徴およびプログラムを格納するメモリー１１と、プログラムを実行するためにメモリーとともに作動するプロセッサー１２とを備えている。当然、データベースサーバーは、Ｉ／Ｏインターフェース１３とデバイス素子を相互に接続しているバス１４とを備えている。

新しい音声信号が、データベース１に入ると、インターフェース１３は、その基準部を有する信号ｘ（ｔ）を受信する。未知の信号しか認識されなかったら、インターフェース１３は、未知の信号ｘ（ｔ）のみを受信する。

出力時には、インピーダンス１３が、未知の信号に対する検索に応答する。格納ゾーン１０に未知の信号が存在していなければ、応答は否定的である。信号を認識したら、応答は、認識した信号の基準部を含んでいる。

ａ）・ｂ）・ｃ）は、それぞれ、周波数帯域ｋ_ｉにおいて濾波した音声信号ｘ（ｋ_ｉ、ｔ）、ハミング窓ｈ（ｔ）および信号（ｋ_ｉ、ｔ）の短期エネルギーＥ（ｋ_ｉ、ｔ）の変化をプロットした図である。ａ）・ｂ）・ｃ）は、それぞれ、周波数帯域ｋ_ｉに対するエネルギーＥ（ｋ_ｉ、ｔ）、ハミング窓ｈ’（ｔ）および周波数帯域ｊ_ｍに対するＥ（ｋ_ｉ、ｔ）のエネルギーＦ（ｊ_ｍ、ｋ_ｉ、ｔ）の変化をプロットした図である。信号ｘ（ｋ、ｔ）のマーキングを構成するベクトルＶ［ｘ（ｔ）］の範囲を示す図である。マーキングの格納を示す図である。２つのパラメータに応じた音声信号の分類を示す図である。最近傍アルゴリズム法を使用して音声信号を検索する方法を示す図である。音声信号のマーキングを格納するためのデータベースサーバーを示す図である。

Claims

異なる周波数帯域ｋにおいて期間Ｄに渡る時間ｔに応じて変化し、それゆえ、ｘ（ｋ、ｔ）と記される音声信号ｘ（ｔ）を、特定パラメータに応じて特徴付ける方法において、
信号ｘ（ｔ）を格納するステップと、
期間２Ｎの時間窓ｈ（ｔ）に応じて１〜Ｋの範囲で変化する各周波数帯域ｋに対する上記信号ｘ（ｋ、ｔ）のエネルギー信号Ｅ（ｋ、ｔ）を計算し、格納するステップと、
第２ステップにおいて、期間２Ｎ’の時間窓ｈ’（ｔ）を使用して１〜Ｊの範囲で変化する周波数帯域ｊにおける期間２Ｎ’のエネルギー信号Ｅ（ｋ、ｔ）のエネルギーＦ（ｊ、ｋ、ｔ）と、周波数帯域ｊに対するエネルギー信号Ｅ（ｋ、ｔ）の位相φ（ｊ、ｋ、ｔ）と、を計算し、格納するステップと、を含み、
エネルギーＦ（ｊ、ｋ、ｔ）および位相φ（ｊ、ｋ、ｔ）の得られたＪ×Ｋ値が、音声信号ｘ（ｔ）の期間２Ｎ’に抽出された特定パラメータを構成しており、
さらに、音声信号ｘ（ｔ）の期間Ｄに対する全ての特定パラメータを得るために、一定の間隔で上記計算を繰り返すステップを含むことを特徴とする方法。
各周波数帯域ｊに対して、２Ｎ’秒に渡るエネルギー信号Ｅ（ｋ、ｔ）の平均値を計算するステップと、
音声信号ｘ（ｔ）の期間Ｄに対する全ての特定パラメータを得るために、一定の間隔で上記計算を繰り返すステップと、
得られた平均値を、音声信号ｘ（ｔ）の特定パラメータに含めるステップとをさらに含む請求項１に記載の方法。
音声信号ｘ（ｔ）の特定パラメータを、ｘ（ｔ）を表すベクトルの成分とみなすステップと、
最近似ベクトルをまとめた分類を定義するステップと、
上記分類を記録するステップとを含む請求項１または２に記載の方法。
上記分類が、分類間の距離および分類内の距離を有し、
特定パラメータから、分類内の距離に対して比較的大きな分類間の距離を得られるパラメータを選択するステップと、
選択したパラメータを記録するステップとを含む請求項３に記載の方法。
請求項１ないし４のいずれか１項に基づいて、特定パラメータに応じて音声信号を特徴付けるための方法を実施する手段と、データベースにある上記信号を検索する検索手段とを有するデータベースサーバーを備えている音声信号識別装置。
上記検索手段が、音声信号の属する分類を認識するための手段と、最近傍アルゴリズム法を用いて、未知の音声信号の特定パラメータとデータベースの特定パラメータとを比較するための手段とを含む請求項３または４と組み合わせた請求項５に記載の装置。