JPH04264598A

JPH04264598A - 人間の音声を認識するための方法及び装置

Info

Publication number: JPH04264598A
Application number: JP3278898A
Authority: JP
Inventors: John W Jackson; ジョン・ダブリュー・ジャクソン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-11-05
Filing date: 1991-10-01
Publication date: 1992-09-21
Anticipated expiration: 2014-11-22
Also published as: EP0485315A2; US5313531A; JP2980438B2; EP0485315A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、全般的には音声発声分
析の分野に関するものであり、具体的には未知の音声発
声の認識の分野に関するものである。さらに具体的にい
うと、本発明は、音声発声の経時的出力内容を利用した
、音声の分析及び認識のための方法と装置に関するもの
である。

【０００２】

【従来の技術】音声分析及び音声認識のアルゴリズム、
機械及び装置は、従来技術でますます一般的になりつつ
ある。上記システムは、ますます強力で安価になってき
た。音声認識システムは、典型的には「学習式」または
「非学習式」である。学習式の音声認識システムとは、
特定の話者が質問中の語彙を繰り返し発音することによ
る「学習」を行った後に、その話者による音声発声を認
識するのに利用できるシステムである。「非学習式」音
声認識システムとは、未知の話者による未知の音声発声
の様々な音響パラメータを、様々な既知の発声を表すの
に利用される有限個数の前もって記憶されたテンプレー
トと比較することによって、その発声を認識しようとす
るシステムである。

【０００３】従来技術の音声認識システムのほとんどは
、フレームをベースとするシステムである、すなわち、
これらのシステムは、それぞれ一連の短い時間間隔の１
つにおける音声発声の音響パラメータを表すフレームの
時間列として、音声を表現する。このようなシステムは
、通常、認識しようとする音声発声をスペクトル・フレ
ームの列として表現する。各フレームは、複数のスペク
トル・パラメータを含み、各スペクトル・パラメータは
、一連の異なる周波数帯域のうちの１つの帯域における
エネルギーを表す。通常、このようなシステムは、認識
しようとするフレームの列を、複数の音響モデルと比較
する。この音響モデルはそれぞれ、音素、単語、句など
、所与の音声発声に関連するフレームを記述またはモデ
ル化したものである。

【０００４】人間の声道は、複数の共鳴を同時に発生す
る能力を有する。これらの共鳴の周波数は、話者がその
舌、唇または声道の他の部分を動かすにつれて変化し、
異なる音声音が生じる。これらの共鳴のそれぞれをフォ
ルマントと称するが、音声学者は、多くの個人の音声音
または音素を、最初の３つのフォルマントの周波数によ
って区別できることを発見した。多くの音声認識システ
ムが、これらのフォルマント周波数の分析による未知の
発声の認識を試みたが、音声発声が複雑なため、このよ
うなシステムの実現は困難である。

【０００５】音声認識の分野の研究者の多くは、システ
ムが似通った音声音を区別できるようにする上で、周波
数の変化が重要であると考えている。たとえば、２つの
フレームが類似したスペクトル・パラメータを有するに
もかかわらず、一方の音は上昇するフォルマントで発生
し、他方は下降するフォルマントで発生するために、非
常に異なる音に関連づけられることがあり得る。米国特
許出願第４８０５２１８号明細書では、音声エネルギー
の音響パラメータの変化に関する情報を利用して、音声
認識システムを実現しようと試みるシステムが開示され
ている。

【０００６】従来技術の他のシステムでは、フォルマン
ト追跡によって周波数変化を明示的に検出することが試
みられた。フォルマントの追跡には、連続した時点での
音声エネルギーのスペクトルを分析し、上記の各時点で
の音声信号の主共鳴またはフォルマントの位置を決定す
ることが含まれる。連続した時点でフォルマントを識別
した後、その結果得られる経時的パターンをパターン認
識装置に供給し、パターン認識装置を使って、所与のフ
ォルマント・パターンを選択された音素に関連付ける。

【０００７】上記すべての音声認識システムの最終目的
は、話者の広いスペクトルによる未知の音声発声を検出
し理解する際の精度を高められるシステムを作り出すこ
とである。したがって、高い精度で未知の音声発声を分
析し認識するのに利用できる音声認識システムが必要で
あることは、明白である。

【０００８】

【発明が解決しようとする課題】したがって、本発明の
目的は、音声発声の分析のための改良された方法と装置
を提供することである。

【０００９】本発明のもう１つの目的は、未知の音声発
声の認識のための改良された方法と装置を提供すること
である。

【００１０】本発明のもう１つの目的は、発声音声の経
時的出力内容を利用した、音声分析及び認識のための改
良された方法と装置を提供することである。

【００１１】

【課題を解決するための手段】前述の目的は、以下に述
べるようにして達成される。本発明の方法及び装置は、
検査中の各音声発声をデジタル式にサンプリングし、そ
の音声発声をデータ・フレームの時間列として表す。そ
の後、各データ・フレームに高速フーリエ変換（ＦＦＴ
）を適用して分析し、複数の周波数帯域すなわちビン内
の各データ・フレームのエネルギー内容の指示を得る。その後、エネルギー内容が最大の周波数帯域群の各帯域
の指示を、すべてのデータ・フレームについてビン番号
によってプロットし、図形的に合成して、その音声発声
の出力値シグネチャーを生成する。この出力値シグネチ
ャーは、その発声のオーディオ出力のオーディオ・スペ
クトル内での経時的な移動を、高い精度で表すものであ
る。未知の音声発声の出力値シグネチャーを、それぞれ
既知の発声と関連付けられたいくつかの以前に記憶され
た出力値シグネチャーと比較することによって、未知の
音声発声を高い精度で識別することができる。本発明の
好ましい実施例では、未知の音声発声からの出力値シグ
ネチャーと記憶された出力値シグネチャーの比較は、最
小二乗法または他の適当な技法を利用して行う。

【００１２】

【実施例】ここで図面を参照すると、図１には、本発明
の方法及び装置の実施に利用できるコンピュータ・シス
テム１０のブロック図が示されている。コンピュータ・
システム１０は、適当なデジタル信号プロセッサを内部
に配置した現況技術のどんなデジタル・コンピュータ・
システムを利用しても実施できる。たとえば、コンピュ
ータ・システム１０は、ＩＢＭ音声捕捉／再生アダプタ
（ＡＣＰＡ）を含むＩＢＭ　　ＰＳ／２型コンピュータ
を利用して実施できる。

【００１３】コンピュータ・システム１０には、表示装
置１４も含まれる。当業者には理解される通り、表示装
置１４は、デジタル・コンピュータ・システム内の様々
な音声波形の図形指示を表示するのに利用できる。コン
ピュータ・システムには、キーボード１６も接続されて
いる。キーボード１６は、当技術分野で周知の方式でデ
ータを入力し、コンピュータ・システム１０に記憶され
た様々なファイルを選択するのに利用できる。もちろん
、マウスやライト・ペンなどの図形ポインティング・デ
バイスも、コマンドを入力し、コンピュータ・システム
１０内の適当なファイルを選択するのに利用できること
が、当業者には理解されよう。

【００１４】さらにコンピュータ・システム１０を参照
すると、プロセッサ１２が図示されている。プロセッサ
１２は、コンピュータ・システム１０用の中央処理装置
であることが好ましく、本発明の図示の実施例では、本
発明の方法及び装置の実施に利用されるオーディオ・ア
ダプタを含むことが好ましい。上記装置の１例が、ＩＢ
Ｍ音声捕捉／再生アダプタ（ＡＣＰＡ）である。

【００１５】図に示すように、オーディオ・シグネチャ
ー・ファイル２０が、プロセッサ１２内のメモリに記憶
されている。各ファイルの出力は、インターフェース回
路２４に供給される。インターフェース回路２４は、本
発明の方法を利用して生成されたオーディオ・シグネチ
ャー・ファイルのアクセスを可能にする、適当なアプリ
ケーション・プログラミング・インターフェースを利用
して実施することが好ましい。

【００１６】その後、インターフェース回路２４の出力
は、デジタル信号プロセッサ（ＤＳＰ）２６に供給され
る。デジタル信号プロセッサ２６は、後で詳細に説明す
るように、本発明の方法及び装置による音声認識のため
に人間の音声発声をデジタル化し分析するのに利用でき
る。アナログ形の人間の音声発声が、通常はオーディオ
入力装置１８によってデジタル信号プロセッサ２６に供
給される。オーディオ入力装置１８は、マイクロフォン
であることが好ましい。

【００１７】次に図２を参照すると、本発明の方法及び
装置の実施に利用できるデジタル信号プロセッサ２６を
含むオーディオ・アダプタのブロック図が示されている
。上述のように、このオーディオ・アダプタは、市販の
ＩＢＭ音声捕捉／再生アダプタ（ＡＣＰＡ）を利用して
、簡単に実施することができる。このような実施様態で
は、デジタル信号プロセッサ２６として、テキサス・イ
ンストルメンツ社のＴＭＳ　　３２０Ｃ２５または他の
適当なデジタル信号プロセッサを利用する。

【００１８】図に示すように、プロセッサ１２とデジタ
ル信号プロセッサ２６の間のインターフェースは、入出
力バス３０である。入出力バス３０は、パーソナル・コ
ンピュータ分野の当業者には容易に入手でき理解される
マイクロ・チャネルまたはＰＣ入出力バスを利用して実
施できることが、当業者には理解されよう。プロセッサ
１２は、入出力バス３０を利用して、ホスト・コマンド
・レジスタ３２にアクセスすることができる。プロセッ
サ１２は、ホスト・コマンド・レジスタ３２とホスト状
況レジスタ３４を利用して、コマンドを発行し、図２に
示したオーディオ・アダプタの状況を監視する。

【００１９】また、プロセッサ１２は、入出力バス３０
を利用して、アドレス上位バイト・ラッチ・カウンタと
アドレス下位バイト・ラッチ・カウンタにアクセスする
ことができる。これらのカウンタをプロセッサ１２が利
用して、図２に示したオーディオ・アダプタ内の共用メ
モリ４８にアクセスする。共用メモリ４８は、プロセッ
サ１２もデジタル信号プロセッサ２６もそのメモリにア
クセスできるという意味で「共用」である、８Ｋ×１６
高速スタティックＲＡＭであることが好ましい。後で詳
細に述べるように、メモリ調停回路を利用して、プロセ
ッサ１２とデジタル信号プロセッサ２６が同時に共用メ
モリ４８にアクセスするのを防止する。

【００２０】図に示すように、デジタル信号プロセッサ
２６は、デジタル信号プロセッサ制御レジスタ３６とデ
ジタル信号プロセッサ状況レジスタ３８をも含むことが
好ましい。これらのレジスタを、ホスト・コマンド・レ
ジスタ３２及びホスト状況レジスタ３４と同様に利用し
て、デジタル信号プロセッサ２６は、コマンドを発行し
、オーディオ・アダプタ内の様々な装置の状況を監視す
ることができる。

【００２１】また、プロセッサ１２は、当技術分野で周
知の方式でデータ上位バイト両方向ラッチ４４とデータ
下位バイト両方向ラッチ４６を利用して、入出力バス３
０を介して、共用メモリ４８との間でデータをやりとり
するのに利用できる。

【００２２】図２のオーディオ・アダプタ内には、サン
プル・メモリ５０も示されている。サンプル・メモリ５
０は、デジタル化された人間の音声の入力サンプルのた
めにデジタル信号プロセッサ２６が利用できる、２Ｋ×
１６スタティックＲＡＭであることが好ましい。

【００２３】図２のオーディオ・アダプタ内には、制御
論理機構５６も示されている。制御論理機構５６は、数
あるタスクのうちでも、デジタル信号プロセッサ２６の
割込み要求の後にプロセッサ１２に割込みを発行し、入
力選択スイッチを制御し、図示のオーディオ・アダプタ
内の様々なラッチやメモリ装置に対して、読取り、書込
み及びイネーブルのストローブを発行する、１ブロック
の論理機構であることが好ましい。制御論理機構５６は
、制御バス５８を利用してこれらのタスクを実行するこ
とが好ましい。

【００２４】図示のアドレス・バス６０は、本発明の図
示の実施例では、システム内の様々な出力値シグネチャ
ーのアドレスをシステム内の適当な装置間でやりとりす
るのに利用することが好ましい。図示のデータ・バス６
２は、図示のオーディオ・アダプタ内の様々な装置間で
データをやりとりするのに利用される。

【００２５】上述のように、制御論理機構５６は、メモ
リ調停論理機構６４及び６６を使用して共用メモリ４８
及びサンプル・メモリ５０へのアクセスを制御し、これ
らのメモリのどちらに対しても、プロセッサ１２とデジ
タル信号プロセッサ２６が同時にアクセスを試みること
がないようにする。この技法は、当技術分野で周知であ
り、メモリ・デッドロックまたは他の類似の症状が発生
しないことを保証するのに必要である。

【００２６】図示のデジタル・アナログ・コンバータ（
ＤＡＣ）５２は、コンピュータ・システム１０内のデジ
タル・オーディオ信号を、出力すべき適当なアナログ信
号に変換するのに利用できる。デジタル・アナログ・コ
ンバータ５２の出力は、適当なフィルタ／増幅回路を含
むことが好ましい、アナログ出力部６８に供給される。

【００２７】図に示すように、アナログの人間の音声信
号をアナログ入力部７０に供給し、そこからアナログ・
デジタル・コンバータ５４に供給することによって、図
２に示したオーディオ・アダプタを利用して、アナログ
の人間の音声信号をデジタル化し記憶することができる
。このような装置を用いると、アナログの人間の音声信
号をデジタル化し、その後にその信号に関連するデジタ
ル値を記憶することによって、人間の音声信号の捕捉及
び記憶が可能になることが、当業者には理解されよう。本発明の好ましい実施例では、人間の音声信号を、８８
キロヘルツのデータ転送速度でサンプリングする。

【００２８】次に、図３を参照すると、ある音声発声の
未処理の振幅包絡線８０のグラフ表示が示されている。音声発声の振幅が、周波数内容と振幅の両方で、図３の
包絡線８０で示されるような複雑な形で経時的に変化す
ることが、当業者には理解されよう。高速フーリエ変換
（ＦＦＴ）を実行して、一連の異なる周波数帯域の各帯
域でのエネルギー水準を表す値を得ることによって、図
３の包絡線８０で表される音声発声をデータ・フレーム
ごとに分析して、各フレームに含まれるスペクトル・パ
ラメータを決定する。フーリエ分析の分野では通常、各
周波数帯域を「ビン」と称し、上記の各信号はそれぞれ
、その周波数での包絡線８０の選択されたフレームのエ
ネルギー内容の指示を表す。

【００２９】次に、図４を参照すると、高速フーリエ変
換（ＦＦＴ）を適用した後の、上位８つの包絡線８０の
出力振幅周波数ビンのトラックのグラフ表示が示されて
いる。トラック８２は、各フレーム内の最大の出力を含
む各周波数ビン番号のグラフ指示を表す。次に、波形８
４は、各フレーム内の上位から２番目の出力を含む周波
数ビン番号のプロットである。同様に、各フレームの、
出力内容が上位８つのビンが、波形８６、８８、９０、
９２、９４及び９６に示されている。各波形の垂直軸は
、その点での実際の振幅ではなくビン番号を表すことに
留意されたい。したがって、各波形のピークは、上位の
周波数ビン内の最大の出力内容が含まれる点を表してい
る。

【００３０】次に、図５を参照すると、図４の８つのト
ラックを合成したグラフが示されている。この場合、「
合成」という単語は、波形８２、８４、８６、８８、９
０、９２、９４及び９６を１組の軸上でグラフ表示し、
他のすべての波形の包絡線を形成する単一の波形を生成
することを意味する。図に示すように、波形９８は、上
述のようにして経時的高速フーリエ変換（ＦＦＴ）によ
って得られた上位ビン番号群のグラフ表現を表す。すな
わち、波形９８は、オーディオ・スペクトル内でのオー
ディオ出力の経時的移動を示す出力値シグネチャーであ
る。図５の垂直軸は、ビン番号に関連付けられており、
したがって、選択された周波数での出力内容を表す。図
５の水平軸は、図３の音声発声中の経過時間を表す。

【００３１】本発明者は、高速フーリエ変換（ＦＦＴ）
の実行後に、上位周波数ビン群の出力内容の変動を追跡
することによって、図５の参照符号９８で示されるよう
な出力値シグネチャーが得られ、これが複数話者による
同一の発声に対して同様の形で得られるすべての出力値
シグネチャーと非常に類似していることを発見した。

【００３２】次に、図６を参照すると、本発明の方法を
示す、高水準論理流れ図が示されている。図に示すよう
に、処理は、ブロック１１０で始まり、その後、ブロッ
ク１１２に進んで音声発声データを収集する。これは、
マイクロフォンなど適当なアナログ入力装置と、図２に
示したようなアナログ・デジタル・コンバータを利用し
て行うことができる。

【００３３】次に、デジタル化されたデータの各フレー
ムを分析して、そのフレームのスペクトル・パラメータ
を計算する。これは、当技術分野で周知の方式で高速フ
ーリエ変換（ＦＦＴ）を利用することによって行う。そ
の後、ブロック１１６で、各データ・フレームごとに様
々な分析ステップを行う。この処理は、ブロック１１８
で、各データ・フレーム内の平均出力と総出力を計算す
ることから始まる。

【００３４】次に、ブロック１２０で、あるデータ・フ
レーム内の出力が、所定の閾値水準を超えるか否かを判
定する。本発明者は、本発明の分析及び認識の方法では
、ある音声発声の出力内容の調査によって、その音声発
声の内容が決定されることを発見した。したがって、か
なりの量の出力を含んでいるデータ・フレームでなけれ
ば、この作業には役立たない。

【００３５】検討中のフレームに含まれる出力が所定の
閾値水準を超えない場合、処理はブロック１２２に移り
、検討中のフレームがある発声中の最後のフレームであ
るか否かを判定する。そうでない場合、処理は、本方法
の性質である繰返しを表すブロック１２４に移り、ブロ
ック１１８に戻って、その音声発声内の次のフレームの
平均出力と総出力を計算する。

【００３６】ブロック１２０に戻って、検討中のフレー
ムに含まれる出力が所定の閾値水準を超える場合には、
ブロック１２６で、各周波数ビン内の出力振幅によって
、そのフレーム内の周波数ビンを分類する。すなわち、
周波数ビンを、最大の出力を含む周波数ビンから始めて
、わずかな出力しか含まない、あるいはまったく出力を
含まない周波数ビンまで、順に配列する。

【００３７】次に、処理はブロック１２８に進み、特定
のフレームについて、出力の大半を有する周波数ビン群
を選択する。本発明の図示の実施例では、少なくとも特
定のフレームの出力の７５％を表すのに十分な数の周波
数ビンを選択する。次に、ブロック１３０で、選択され
た周波数ビン群から、出力が最高の周波数ビンを選択す
る。その後、ブロック１３２で、この周波数ビン番号が
プロットされ、記憶され、本発明の方法と装置を利用し
て生成される出力値シグネチャー上の１点になる。

【００３８】次にブロック１３４に示すようにさらにい
くつかの出力水準について、ブロック１３６で次に高い
出力の周波数ビンを選択する。ブロック１３８で、選択
されたビン番号を、もう１つのシグネチャー上の１点と
してプロットし、記憶する。その後、十分な数の出力水
準をプロットし終えるまで、ブロック１３６とブロック
１３８を繰り返す。本発明の図示の実施例では、このよ
うにして各フレームの上位８つの出力水準をプロットす
る。

【００３９】図４に示したようにして上位８つの周波数
ビン番号をプロットした後に、処理はブロック１４０に
移り、上述のようにして８つのシグネチャーを１つの出
力値シグネチャーに合成する。その後、処理はブロック
１２２に戻って、検討中のフレームがある発声中の最後
のフレームであるか否かを判定する。そうでない場合、
処理はブロック１２４に移り、上述のように繰り返す。

【００４０】ブロック１２２で、検討中のフレームがそ
の音声発声中の最後のフレームである場合には、処理は
ブロック１４２に移り、得られたシグネチャーを正規化
し記憶する。その後、処理はブロック１４４に移り、音
声発声の認識を望むか否かを判定する。望む場合、処理
はブロック１４６に移り、それぞれ既知の音声発声に関
連付けられた複数の記憶済みシグネチャーと、記憶され
たシグネチャーを比較する。最小二乗法または他の適当
な技法を利用して上記２つの波形を比較できることが、
当業者には理解されよう。記憶済みシグネチャーのうち
で、未知の音声発声から得られたシグネチャーに最もよ
く一致するものを決定した後、その発声に一致するもの
を返す。その後、または音声発声の認識を望まない場合
には、処理はブロック１４８に戻り、終了する。

【００４１】前記を参照すれば、ある音声発声に関連す
る新規の出力値シグネチャーを生成し、それを既知の音
声に関連する前もって記憶された出力値シグネチャー群
と比較することによって、音声発声の知的内容を決定で
きる技法を本発明者が開発したことが、当業者には理解
されよう。本明細書に開示した形式の出力値シグネチャ
ーを利用することによって、性別、年齢または地域差に
起因する音声振幅包絡線のばらつきが大幅に除去される
。

【図面の簡単な説明】

【図１】本発明の方法及び装置の実施に利用できるコン
ピュータ・システムのブロック図である。

【図２】本発明の方法及び装置の実施に利用できるデジ
タル信号プロセッサを含む、オーディオ・アダプタのブ
ロック図である。

【図３】ある音声発声の未処理の振幅包絡線のグラフ表
示である。

【図４】図３の振幅包絡線に高速フーリエ変換（ＦＦＴ
）を適用した後の、上位８つの出力振幅ビンのトラック
のグラフ表示である。

【図５】図４の８つのトラックを合成したグラフである
。

【図６】本発明の方法を示す、高水準論理流れ図である
。

【符号の説明】

１０　　コンピュータ・システム１２　　プロセッサ１４　　表示装置１６　　キーボード１８　　オーディオ入力装置２０　　オーディオ・シグネチャー・ファイル２４　　
インターフェース回路２６　　デジタル信号プロセッサ（ＤＳＰ）３２　　ホ
スト・コマンド・レジスタ３４　　ホスト状況レジスタ３６　　デジタル信号プロセッサ制御レジスタ３８　　
デジタル信号プロセッサ状況レジスタ４４　　データ上
位バイト両方向ラッチ４６　　データ下位バイト両方向
ラッチ４８　　共用メモリ５０　　サンプル・メモリ５２　　デジタル・アナログ・コンバータ（ＤＡＣ）５
４　　アナログ・デジタル・コンバータ（ＡＤＣ）５６
　　制御論理機構６４　　メモリ調停論理機構６６　　メモリ調停論理機構６８　　アナログ出力部７０　　アナログ入力部

Claims

【特許請求の範囲】

【請求項１】各フレームが一連の短い時間間隔の１つに
おける音響パラメータを表す、フレームの時間列として
音声発声を表すステップと、音声の各フレームを分析し
て、それぞれが一連の異なる周波数ビンのうちの１つに
おけるエネルギー水準を表す、複数のスペクトル・パラ
メータを得るステップと、各フレーム内で最大のエネル
ギー水準を有する、そのフレーム内の選択されたスペク
トル・パラメータを識別するステップと、前記時間列内
の各フレームごとに、前記の選択されたスペクトル・パ
ラメータの指示をプロットして、前記音声発声を表す第
１のシグネチャーを形成するステップとを含む、人間の
音声を分析するための方法。
【請求項２】さらに、各フレーム内で２番目に高いエネ
ルギー水準を有する第２の選択されたスペクトル・パラ
メータを識別するステップを含む、請求項１に記載の人
間の音声を分析するための方法。
【請求項３】さらに、前記時間列内の各フレームごとに
、前記第２の選択されたスペクトル・パラメータの指示
をプロットして、前記音声発声を表す第２のシグネチャ
ーを形成するステップを含む、請求項２に記載の人間の
音声を分析するための方法。
【請求項４】さらに、前記第１シグネチャーと前記第２
シグネチャーを合成するステップを含む、請求項３に記
載の人間の音声を分析するための方法。
【請求項５】さらに、高いエネルギー水準を有する各フ
レーム内の複数のスペクトル・パラメータを識別するス
テップを含む、請求項１に記載の人間の音声を分析する
ための方法。
【請求項６】さらに、各フレームごとに前記複数のスペ
クトル・パラメータのそれぞれの指示をプロットして、
前記音声発声を表す複合シグネチャーを形成するステッ
プを含む、請求項５に記載の人間の音声を分析するため
の方法。
【請求項７】各フレームが一連の短い時間間隔の１つに
おける音響パラメータを表す、フレームの時間列として
音声発声を表すステップと、音声の各フレームを分析し
て、それぞれが一連の異なる周波数ビンのうちの１つに
おけるエネルギー水準を表す、複数のスペクトル・パラ
メータを得るステップと、各フレーム内で最大のエネル
ギー水準を有する、そのフレーム内の選択されたスペク
トル・パラメータを識別するステップと、前記時間列内
の各フレームごとに、前記の選択されたスペクトル・パ
ラメータの指示をプロットして、前記音声発声を表す第
１のシグネチャーを形成するステップと、前記音声発声
を表す前記第１シグネチャーを、選択された音声発声を
表す複数の記憶済みシグネチャーと比較するステップと
を含む、人間の音声を認識するための方法。
【請求項８】さらに、各フレーム内で２番目に高いエネ
ルギー水準を有する第２の選択されたスペクトル・パラ
メータを識別するステップを含む、請求項７に記載の人
間の音声を認識するための方法。
【請求項９】さらに、前記時間列内の各フレームごとに
、前記第２の選択されたスペクトル・パラメータの指示
をプロットして、前記音声発声を表す第２のシグネチャ
ーを形成するステップを含む、請求項８に記載の人間の
音声を認識するための方法。
【請求項１０】音声発声を受け取るためのオーディオ入
力手段と、各フレームが一連の短い時間間隔の１つにお
ける音響パラメータを表す、フレームの時間列を生成す
るためのサンプリング手段と、それぞれが一連の異なる
周波数ビンのうちの１つにおけるエネルギー水準を表す
、複数のスペクトル・パラメータを決定するための変換
手段と、各フレーム内で最大のエネルギー水準を有する
、そのフレーム内の選択されたスペクトル・パラメータ
を識別するためのプロセッサ手段と、前記音声発声を表
す第１のシグネチャーを形成するため、前記時間列内の
各フレームごとに、前記の選択されたスペクトル・パラ
メータの指示をプロットするための手段とを含む、人間
の音声を分析するための装置。
【請求項１１】前記オーディオ入力手段がマイクロフォ
ンを含むことを特徴とする、請求項１０に記載の人間の
音声を分析するための装置。
【請求項１２】前記サンプリング手段が、選択されたサ
ンプリング速度で前記音声発声をデジタル化するための
デジタル・サンプリング手段を含むことを特徴とする、
請求項１０に記載の人間の音声を分析するための装置。
【請求項１３】前記の選択されたサンプリング速度が、
８８キロヘルツであることを特徴とする、請求項１２に
記載の人間の音声を分析するための装置。
【請求項１４】前記プロセッサ手段が、デジタル信号プ
ロセッサを含むことを特徴とする、請求項１０に記載の
人間の音声を分析するための装置。
【請求項１５】音声発声を受け取るためのオーディオ入
力手段と、各フレームが一連の短い時間間隔の１つにお
ける音響パラメータを表す、フレームの時間列を生成す
るためのサンプリング手段と、それぞれが一連の異なる
周波数ビンの１つにおけるエネルギー水準を表す、複数
のスペクトル・パラメータを決定するための変換手段と
、各フレーム内で最大のエネルギー水準を有する、その
フレーム内の選択されたスペクトル・パラメータを識別
するためのプロセッサ手段と、前記音声発声を表す第１
のシグネチャーを形成するため、前記時間列内の各フレ
ームごとに、前記の選択されたスペクトル・パラメータ
の指示をプロットするための手段と、前記音声発声を表
す前記第１シグネチャーを、選択された音声発声を表す
複数の記憶済みシグネチャーと比較するための比較手段
とを含む、人間の音声を認識するための装置。
【請求項１６】前記オーディオ入力手段がマイクロフォ
ンを含むことを特徴とする、請求項１５に記載の人間の
音声を認識するための装置。
【請求項１７】前記サンプリング手段が、選択されたサ
ンプリング速度で前記音声発声をデジタル化するための
デジタル・サンプリング手段を含むことを特徴とする、
請求項１５に記載の人間の音声を認識するための装置。
【請求項１８】前記の選択されたサンプリング速度が、
８８キロヘルツであることを特徴とする、請求項１７に
記載の人間の音声を認識するための装置。
【請求項１９】前記プロセッサ手段が、デジタル信号プ
ロセッサを含むことを特徴とする、請求項１５に記載の
人間の音声を認識するための装置。