JP2895493B2

JP2895493B2 - 話者識別装置および方法

Info

Publication number: JP2895493B2
Application number: JP63500399A
Authority: JP
Inventors: グレベス，アラン・ジヨン; ミラー・ポウル・クリストフアー
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1986-12-17
Filing date: 1987-12-09
Publication date: 1999-05-24
Anticipated expiration: 2014-05-24
Also published as: EP0273615B1; CA1329275C; WO1988004772A1; GB8630118D0; DE3750365T2; DE3750365D1; HK156396A; ATE109919T1; US4947436A; EP0273615A1; JPH01502058A

Description

【発明の詳細な説明】本発明は、話者識別のため、すなわち装置への入力と
なる言語（スピーチ）の話者の一致を認識しあるいは照
合するための話者識別装置及び方法に関する。本発明によれば、言語入力の連続するサンプル期間の各点から周波数ス
ペクトラムをあらわすディジタルワードを抽出する手段
と、各ディジタルワードについて、この装置が識別のため
にすでに訓練さらた対象である既知の話者の言語の中で
発生するそのワードに対応している周波数スペクトラム
に関する相対的な確率を示すコードワードを記憶するた
めの記憶装置（メモリ）、（ここで記憶装置のアドレス
入力に上記抽出手段のディジタルワード出力が接続され
ている）と、識別されるべき話者の言語の入力の間に、上記記憶装
置から読み出されるコードワードに応答して、所定の基
準に従い、既知のどの話者のものが識別されたとみなさ
れるかを示すデータがもしあれば、それを出力する制御
手段と、を具備する話者識別のための装置が提供される。望ましい構成では、この装置は、訓練シーケンスの際
の動作中に、各サンプル期間について、ａ）記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が所定の数を超えていな
い場合は、このアドレスを表現するディジタルワードを
生じさせた言語の話者を識別するコードワードを、その
ロケーションに記憶するようにし、ｂ）記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が上記所定の数を超えて
いる場合は、多数のユーザを示すために確保しておいた
コードワードを、そのロケーションに記憶するように、
されている。上記所定の数はゼロとすることもできる。したがって、与えられたロケーションに既知の話者の
コードが存在することは、該話者の言語内に対応する周
波数スペクトラムが生ずる確率が、他の話者の言語内に
生ずる確率に比して高いことを示している。他方、多ユ
ーザコードの存在は、発生の確率がどの一人の話者につ
いても他の話者よりも特別高くないことを示す。実際には、初期訓練の前に、上記記憶装置は、他のい
かなる目的にも使用されないコードをそれに書き込むこ
とにより、クリアされる必要があるであろう。訓練が完
了した後で、あるロケーション「不使用」コードが存在
することは、既知のいずれのユーザの言語でもそこで生
ずる対応するスペクトラムの確率が低いことを示してい
る。望ましい構成においては、制御手段は、各既知の話者
毎にそれぞれのカウンタ手段を備え、しかも記憶装置か
ら読み出される各コードワードに応答して動作するよう
にされ、コードワードが読出されたアドレスに対応して
いる周波数スペクトラムが関係する比較的高い確率をも
っているとそのコードワードが示しているような既知の
話者（もしそういうものがあれば）が対応しているカウ
ンタをインクリメント（歩進）する。また、前出の所定
の基準は、認識されるべきであると思われる話者は、そ
の者のカウンタが最高カウント値を有する話者となると
いうことである。以下、本発明の話者識別のいくつかの実施例につい
て、次のような添付図面を参照して、例によって説明す
る。第１図は、本発明にしたがった装置の一つの形態のブ
ロック図、第２図は、第１図の装置のさらに詳細なブロック図で
あり、そして、第３図は、第２図に示されるコーダ（符号化器）の異
なる複数の変形例を示す。第１図において、ユーザからのスピーチ信号は、例え
ばマイクロフォンＭを介して、入力スピーチの周波数ス
ペクトラムを解析するために、フィルタバンクＦに入力
される。それぞれの周波数帯域を示すフィルタ出力は整
流され、平滑され、そしてサンプルされ（Ｓ）かつコー
ド化され（Ｃ）て、リードーライト（読み書き）メモリ
Ｓにへのアドレス入力を送出する。各サンプルについ
て、こうしてアクセスされるアドレスの内容は、一般に
次の３つのタイプのラベルの一つを有している。ａ）「不使用」ラベル−例えばオール「０」ｂ）「多ユーザ」ラベル−例えばオーム「１」ｃ）「有効ユーザ」ラベル−例えばオール「０」または
オール「１」以外のいずれか。話者識別に使用される前に、この発明の装置は、認可
された（使用権原のある各ユーザがマイクロフォンに語
りかける訓練シーケンスを経なければならない。目的
は、どのスペクトルの組合せがあるユーザに特有のもの
であり、またそうでないかを、記憶装置内に記憶させる
ことにある。そして、訓練モードにおいては、各サンプ
ルについて次のような動作（アクション）がとられる。ｉ）もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、該特定ユーザのコードが該メモリロケーションに
書き込まれる。 ii）もしも、「有効ユーザ」ラベルが見つかり、かつ現
在の（カレント）ユーザのコードと同じだったら、何の
アクションもとられない。 iii）もしも、「有効ユーザ」ラベルが見つかり、かつ
現在のユーザのコードと異なっていたら、多ユーザラベ
ルが該記憶ロケーションに書き込まれる。 iv）もしも、「多ユーザ」ラベルが見つかったら、何の
アクションもとられない。各メモリロケーションは、特定のスペクトルの組合せ
に対応するすることがわかるであろう。多数のユーザ
（「正当なユーザ」）について訓練シーケンスが完了し
た後は、各メモリロケーションは、対応する組台せが、
一人の認可されたユーザに特有のものである（このケー
スでは、ラベルはユーザコードである）か、二人以上の
組の認可されたユーザに共通のものであるか、認可され
たユーザの誰にも用いられていないものであるかを示す
ラベルを記憶している。ひとたび訓練すれば、上記装置は識別モードで使用で
きる。識別されることになるユーザは、マイクロフォン
Ｍに対して話しかける。もしも、彼の話声が、一人の正
当なユーザに特有であると分っているスペクトルの組合
せをかなりの数含んているならば、該未知のユーザがそ
の人である高い確率（可能性）がある。こうして記憶装
置内に見出されるラベルは次のように作用する。ｖ）もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、それは無視される。 vi）もしも、「他ユーザ」ラベルが見つかったら、やは
り無視される。 vii）もしも、「正当ユーザ」ラベルが見つかったら、
該ユーザのためにとっておいたカウンタがインクリメン
トされる。該話声の最後には、正当なユーザの各々につ
いてカウントが保持されることになる。そして、最高カ
ウントが、どの正当なユーザが話していたかを示してい
るはずである。いつも少なくとも１つの最高カウントが
存在することになるから、このことは一方の正当なユー
ザと他方の認可されていないユーザとを区別することに
はならない。もしも、認識装置の目的が、単に、スピー
チ認識装置または他の手段を使ってのユーザ入力につい
て主張された同一性を照合することにあるならば、これ
で充分であるが、しかし、ましくは、認識の基準は、最
高カウントは他のどのカウントよりも有意的に、（著し
く）大きくなければならないことである。加えて、ある
いはその代わりに、最高カウントがスレッシュホールド
値を超えることが要求されるであろう。第１図において、訓練および識別モード機能はコント
ロールユニットＣにより実行されるとする。正当なユー
ザラベルをユーザネーム（使用者の名前）に翻訳するた
めのネームコーデックNCもまた示されている。第２図は本発明の実際的な実施例を示している。ここ
でも、マイクロフォンＭが示されており、それには言語
増幅器Ａが続いている。フィルタバングＦは、250Hz〜5
000Hzの周波数帯域をカバーする16個のバンドパスフィ
ルタF1〜F16により構成される。例えば臨界帯域の原理
（クリティカル・バンド・セオリイ）に従って、より高
い周波数帯域は低い帯域よりもより広いことが望まし
い。整流および（後続のサンプラに適合させるための時
定数を有する）平滑は、整流器R1〜R16により模式的に
示されている。 16個のサンプルアンドホールド回路S1〜S16が示され
ており、サンプリングパルスφ１により駆動される。例
えば1000サンプル／秒まで高いレートを採用することに
よりより高い分解能が得られるけれども、毎秒50〜100
サンプルのオーダのサンプリングレートで満足すべき結
果を提供することが予測される。コーダC1〜C16は、サンプルされた出力を受け、64Kバ
イトの容量の記憶装置Ｓのアドレス入力に加えるため、
これらを16ビットワードに変換する。該コーダは第3a図
に示されるように、サンプルを固定されたスレッシュホ
ールド電圧Vtと比較しかつ該サンプルが該スレッシュホ
ールドの上か下かに従って「１」または「０」を生成す
る単なる比較器CPでよい。しかしながら、望ましいの
は、差分コーディング（differential coding）を採用
することにより（マイクロフォンの位置および増幅器の
ゲインに依存する）入力信号レベルとは独立しているコ
ード化出力を作ることである。こうして（第3b図）、サンプルは、サンプリングパル
スφ１に対して遅延されたパルスφ２をクロックとする
ラッチＩで遅延された前のサンプルと、比較器CPによ
り、比較される。これに代えて、サンプルを、隣接帯域
（または実際は非隣接帯域）における信号レベルと比較
してもよく、もしも（例えば）サンプル値が下位の周波
数帯域における値を超えるならば「１」が、そうでなけ
れば「０」が出力される。最下位の周波数帯域（F16）
は最上位（F1）と比較することができる。もしも、望ま
れるならば、時間差分コーディングおよび帯域差分コー
ディングの両者が並列又は直列のいずれかで使われる。
32のアドレスラインが、現時点では、非現実的に大きな
メモリを意味するので、図示されるよりも小数の帯域を
持つけれども、例えば、第3c図の出力に第3b図の回路を
挿入して（またはその逆で）使用される。固定スレッシュホールドコーディングまたは比較帯域
コーディングを用いる場合には、16個のサンプルアンド
ホール回路は必要でないことに留意すべきである。これ
は、RAMのクロックがサンプリング手段となるときは、
コード化されたディジタルワードがRAMのアドレスバス
に連続的に存在するからである。訓練モードにおいて、話者に対するコードは、入力コ
ードラッチCLに入力される。記憶装置が、連続的なコー
ド化されたサンプルにより、アドレスされることによ
り、該記憶装置の（８ビット）データ出力におけるラベ
ル出力は、コンパレータCF1によって話者コードと比較
される。もしも、これら２つが同じならば、何の動作
（アクション）もとられない（上述のステップ（i
i））。もしも、それらが異なっていれば、アンドゲー
トＡは、外部信号TRにより訓練の期間にのみエネーブル
とされ、メモリリードアクセス時間、およびコーダＣお
よび比較器CF1における遅延時間を許容するためφ１か
ら充分に遅延された、ライト（書込み）パルスφ２を記
憶装置（メモリ）Ｓに通過させることを可能とする。も
しも、記憶装置からのラベル出力がゼロであれば、ラッ
チCLからのコードは、阻止されずにオアゲートO1〜O8を
通って通過して、記憶装置（メモリ）Ｓに書き込まれる
（上述のステップ（ｉ））。もしも、ラベルがオールゼ
ロ以外であれば、このことは、オアゲートO9により認識
され、ライト動作に先立って、オアゲートO1〜O8を介し
て、記憶装置入力を強制的に全て１（16進コードでFF）
とし、それによってステップ（iii）（またはステップ
（iv）による要求にしたがって記憶装置に多ユーザラベ
ルを書き込む（または再書き込みする）。識別モードに対しては、カウンタZ1〜Znが、それぞれ
各正当なユーザ毎に設けられている。８ビットの記憶装
置は、254までのユーザを許容するが、カウンタは一般
に、システムが訓練されると予測される正当なユーザの
最大数だけ設けられていればよい。各サンプルについ
て、デコーダＤは、結果的な記憶装置の出力を受け、そ
れを、それぞれ各カウンタ毎のｎ個のエネーブルライン
にデコードする。ダミー出力「０」および「FF」は、上
述のステップ（ｖ）および（vi）、すなわち何の動作
（アクション）もとられないステップを示す。「正当な
ユーザ」コードがあらわれたとき（ステップ（vii））
は、対応するカウンタが、エネーブルとされて、先に述
べたパルスφ２によりインクリメントされる。上記カウント処理は、識別エネーブル化信号IEが存在
する限り継続する。これは、増幅器Ａで信一号検出器に
応答して発生され、妥当な認識精度を達成するのに十分
なサンプルの処理ができるようにするのに十分な期間を
もっている。一般的には、８ビットカウンタ長（すなわ
ち255の最大カウト）について、1/2〜３秒の期間が適当
である。一旦カウントが完了すると、ｎ個の８ビットカウンタ
の出力は、比較器CF2において比較される。これは、最
大カウントをもつカウンタを識別し、かつ対応するユー
ザコードを出力ラッチOLに出力するようにするが、上述
したように、有効コードを出力する前に他の基準をチェ
ックするように使ってもよい。上記装置の動作では、訓練モードの間に発声される言
葉は、音声の広い範囲を包含するようにすれば、認識さ
れるべき話者により発声される言葉が他の話者により発
声されたものと同じであることを必要とせず、また実際
に訓練の間に特定の話者により前もって発声された言葉
であることが必要でないことに気付くであろう。上述の実施例は、一つの可能な実現手段に過ぎない。
したがって、種々の変形が可能である。実施例では多ユ
ーザコードが２以上の話者が訓練中に同じサンプルを生
成するときに使われる。すなわち、多ユーザコードがそ
れを越えて使われる限界は１である。この限界は３以上
の話者、あるいは４以上の話者といった具合の数の話者
が訓練中に同じサンプルを生成するときに多ユーザコー
ドが呼び出されるようにする。例えば、２以上の話者が
訓練中に同じ「サンプル」を生成するときに多ユーザコ
ードを呼び出すのではなく、この限界は上へもって行け
るのであるが、より大きなメモリという犠牲を伴うもの
で、記憶装置（メモリ）内に２（又はＮ）の「正当な使
用者」コードを与えられたメモリアドレスに対して記録
することができるようにし、多ユーザコードは３（又は
Ｎ＋１）話者がそのサンプルを作ったときだけ代りとさ
れるようにする。１つのアドレスからの２個の正当なユ
ーザコードを識別モードの間に検索することは、対応す
る両カウンタのインクリメントを生じさせる。もしも、
このオプションが使用されるならば、例えば唯１つのコ
ードが生じたときにのみ、適切なカウンタを２回インク
リメントすることなどによる、重み付けもまた導入され
ることになる。もしも「不使用」コードが識別モード中に検索される
と、何のアクションもとられないと仮定してきた。この
コードの出現は、話者ユーザが正当なユーザーである確
率が低いことを意味しているので、このコードの発声は
カウントされかつその結果を認識処理の重み付けに使用
することができ、例えば、認識が完了したと思われる前
に、最大カウントが一致することになるスレッシュホー
ルドを高めることとする。コーディング、デコーディングおよび比較のような機
能は、第２図には専用のハードウェア装置により実現さ
れるように示されているが、これらの機能は、もし所望
するならば、適宜プログラムされたマイクロプロセッサ
または他のデータ処理装置により実現することもでき
る。同様に、ディジタルフィルタリングも採用し得る。

フロントページの続き (72)発明者ミラー・ポウル・クリストフアーイギリス国アイ・ピー12，１エッチ・エイ，サフォーク，フリックストウェ, バス・ロード75 (56)参考文献特開昭59−111699（ＪＰ，Ａ) 特開昭58−219600（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 531 G10L 7/08 G10L 3/00 521 G10L 3/00 561

Claims

(57)【特許請求の範囲】１．話者識別のための装置であって、言語入力の連続す
るサンプル期間の各々から周波数スペクトラムを表すデ
ィジタルワードを抽出する抽出手段（FSC）と、前記抽出手段のディジタルワード出力が接続されるアド
レス入力を有し、各ディジタルワードについて、該装置
が識別のために訓練された１人以上の既知の話者のスピ
ーチ中で生ずる該ディジタルワードに対応する周波数ス
ペクトラムの相対的な確率を示すコードワードを記憶す
るためのメモリ（RAM Ｓ）と、識別されることになる話者による言語の入力の間に、所
定の基準に従って、既知のどの話者のものが識別された
とするかを示すデータを出力するため、前記メモリから
読み出されるコードワードに応答する制御手段（Ｃ）
と、を具備する話者識別装置。２．訓練シーケンスの間の動作では、各サンプル期間毎
に、ａ）前記メモリ内のアドレスされたロケーションにすで
に記憶されたコードワードの数が所定の数を越えない場
合は、前記アドレスを表すディジタルワードを生じさせ
た言語の話者を識別するコードワードをそのロケーショ
ンに記憶し、ｂ）前記メモリ内のアドレスされたローションに既に記
憶されたコードワードの数が前記所定の数を越える場合
は、多数のユーザを示すためにとっておいたコードワー
ドをそのロケーションに記憶する、ように構成された請求の範囲第１項の装置。３．前記所定の数はゼロである請求の範囲第２項の装
置。４．前記制御手段は、各既知の話者毎のカウンタ手段を
備え、前記メモリから読み出された各コードワードに対
して応答し、該コードワードによって、該コードワード
が読み出されたアドレスに対応する周波数スペクトラム
に関して相対的に高い確率を持つとして示されている既
知の話者がいるときはその者に対応するカウンタをイン
クリメントするように、また前記所定の基準は、認識さ
れるべきであると思われる話者については、その者のカ
ウンタが最高カウント値を有する話者であるように構成
された請求の範囲第１、２、または３項のいずれか１項
の装置。５．前記所定の基準は、前記最高カウントが、他のカウ
ンタのカウントを設定マージンだけ越ていなければ、識
別は起こっていないとみなすという要件を含む請求の範
囲第４項の装置。６．前記所定の基準は、前記最高カウントが、スレッシ
ュホールド値を越えない限り、識別は起こっていないと
みなすという要件を含む請求の範囲第４または５項の装
置。７．前記制御手段は、別のカウンタを含み、ある既知の
話者の低い確率を示すコードワードの発生に応答して該
別のカウンタをインクリメントし、そして該別のカウン
タの内容に応答して前記スレッシュホールド値を調整す
る請求の範囲第６項の装置。８．前記抽出手段は、言語入力の周波数スペクトラムを
複数の周波数帯域出力に分割するためのフィルタ手段
と、前記出力の平均振幅を測定し、かつサンプリングす
るための手段と、結果のサンプルからディジタルワード
を得るためのコーディング手段とを具備する請求の範囲
第１項〜第７項のいずれか１項に記載の装置。９．前記コーディング手段は、各帯域毎に、各サンプル
をスレッシュホールド値と比較し、それにより「１」ま
たは「０」信号を生成するように構成される請求の範囲
第８項の装置。１０．前記コーディング手段は、各帯域毎に、各サンプ
ルを該帯域につて得られた前のサンプルと比較して、そ
れにより「１」または「０」信号を生成する請求の範囲
第８項の装置。１１．前記コーディング手段は、各帯域毎に、各サンプ
ルを他の帯域について得られたサンプルと比較して、そ
れにより「１」または「０」信号を生成する請求の範囲
第８項の装置。１２．未知の入力言語信号の話者を先に識別した話者グ
ループの一人として識別する話者識別方法において、ランダムアクセスメモリ内に該先に識別した話者と独特
な対応をもつ記憶されたコードワードを、この話者によ
り先に与えられた入力言語の周波数スペクトラムと対応
するアドレスロケーションに記憶するステップと、前記未知の入力言語信号の周波数スペクトラムに対応す
る一連のアドレスを前記メモリに与えるステップと、前
記メモリから出力される結果の連続コードワードから前
記未知の入力言語信号の話者を識別するステップと、を含む話者識別方法。１３．言語入力を受け、話者の識別子を認識する話者識
別方法において、一連の入力言語サンプルの各々からその周波数スペクト
ラを表すディジタルワードを抽出するステップと、複数のコードワードをメモリに記憶し、各コードワード
は該ディジタルワードについて、１又は複数の既知の話
者の言語内で生ずる該ディジタルワードの周波数スペク
トラムの相対的な確率を示すものとするステップと、前記抽出ディジタルワードを前記メモリのアドレス回路
に接続するステップと、前記アドレス回路によってアクセスされた一連のコード
ワードを得るステップと、どの話者が識別されたかを示すために前記コードワード
に関連する所定の基準に従って前記一連のコードワード
を用いるステップと、により構成される話者識別方法。