JP2895493B2 - 話者識別装置および方法 - Google Patents
話者識別装置および方法Info
- Publication number
- JP2895493B2 JP2895493B2 JP63500399A JP50039987A JP2895493B2 JP 2895493 B2 JP2895493 B2 JP 2895493B2 JP 63500399 A JP63500399 A JP 63500399A JP 50039987 A JP50039987 A JP 50039987A JP 2895493 B2 JP2895493 B2 JP 2895493B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- memory
- frequency spectrum
- digital word
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 7
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000004044 response Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 239000006210 lotion Substances 0.000 claims 1
- 239000000523 sample Substances 0.000 description 16
- 230000009471 action Effects 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Inorganic Compounds Of Heavy Metals (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Vending Machines For Individual Products (AREA)
- Silicon Polymers (AREA)
- Golf Clubs (AREA)
- Emergency Alarm Devices (AREA)
- Telephone Function (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
【発明の詳細な説明】
本発明は、話者識別のため、すなわち装置への入力と
なる言語(スピーチ)の話者の一致を認識しあるいは照
合するための話者識別装置及び方法に関する。 本発明によれば、 言語入力の連続するサンプル期間の各点から周波数ス
ペクトラムをあらわすディジタルワードを抽出する手段
と、 各ディジタルワードについて、この装置が識別のため
にすでに訓練さらた対象である既知の話者の言語の中で
発生するそのワードに対応している周波数スペクトラム
に関する相対的な確率を示すコードワードを記憶するた
めの記憶装置(メモリ)、(ここで記憶装置のアドレス
入力に上記抽出手段のディジタルワード出力が接続され
ている)と、 識別されるべき話者の言語の入力の間に、上記記憶装
置から読み出されるコードワードに応答して、所定の基
準に従い、既知のどの話者のものが識別されたとみなさ
れるかを示すデータがもしあれば、それを出力する制御
手段と、 を具備する話者識別のための装置が提供される。 望ましい構成では、この装置は、訓練シーケンスの際
の動作中に、各サンプル期間について、 a)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が所定の数を超えていな
い場合は、このアドレスを表現するディジタルワードを
生じさせた言語の話者を識別するコードワードを、その
ロケーションに記憶するようにし、 b)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が上記所定の数を超えて
いる場合は、多数のユーザを示すために確保しておいた
コードワードを、そのロケーションに記憶するように、
されている。 上記所定の数はゼロとすることもできる。 したがって、与えられたロケーションに既知の話者の
コードが存在することは、該話者の言語内に対応する周
波数スペクトラムが生ずる確率が、他の話者の言語内に
生ずる確率に比して高いことを示している。他方、多ユ
ーザコードの存在は、発生の確率がどの一人の話者につ
いても他の話者よりも特別高くないことを示す。 実際には、初期訓練の前に、上記記憶装置は、他のい
かなる目的にも使用されないコードをそれに書き込むこ
とにより、クリアされる必要があるであろう。訓練が完
了した後で、あるロケーション「不使用」コードが存在
することは、既知のいずれのユーザの言語でもそこで生
ずる対応するスペクトラムの確率が低いことを示してい
る。 望ましい構成においては、制御手段は、各既知の話者
毎にそれぞれのカウンタ手段を備え、しかも記憶装置か
ら読み出される各コードワードに応答して動作するよう
にされ、コードワードが読出されたアドレスに対応して
いる周波数スペクトラムが関係する比較的高い確率をも
っているとそのコードワードが示しているような既知の
話者(もしそういうものがあれば)が対応しているカウ
ンタをインクリメント(歩進)する。また、前出の所定
の基準は、認識されるべきであると思われる話者は、そ
の者のカウンタが最高カウント値を有する話者となると
いうことである。 以下、本発明の話者識別のいくつかの実施例につい
て、次のような添付図面を参照して、例によって説明す
る。 第1図は、本発明にしたがった装置の一つの形態のブ
ロック図、 第2図は、第1図の装置のさらに詳細なブロック図で
あり、そして、 第3図は、第2図に示されるコーダ(符号化器)の異
なる複数の変形例を示す。 第1図において、ユーザからのスピーチ信号は、例え
ばマイクロフォンMを介して、入力スピーチの周波数ス
ペクトラムを解析するために、フィルタバンクFに入力
される。それぞれの周波数帯域を示すフィルタ出力は整
流され、平滑され、そしてサンプルされ(S)かつコー
ド化され(C)て、リードーライト(読み書き)メモリ
Sにへのアドレス入力を送出する。各サンプルについ
て、こうしてアクセスされるアドレスの内容は、一般に
次の3つのタイプのラベルの一つを有している。 a)「不使用」ラベル−例えばオール「0」 b)「多ユーザ」ラベル−例えばオーム「1」 c)「有効ユーザ」ラベル−例えばオール「0」または
オール「1」以外のいずれか。 話者識別に使用される前に、この発明の装置は、認可
された(使用権原のある各ユーザがマイクロフォンに語
りかける訓練シーケンスを経なければならない。目的
は、どのスペクトルの組合せがあるユーザに特有のもの
であり、またそうでないかを、記憶装置内に記憶させる
ことにある。そして、訓練モードにおいては、各サンプ
ルについて次のような動作(アクション)がとられる。 i)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、該特定ユーザのコードが該メモリロケーションに
書き込まれる。 ii)もしも、「有効ユーザ」ラベルが見つかり、かつ現
在の(カレント)ユーザのコードと同じだったら、何の
アクションもとられない。 iii)もしも、「有効ユーザ」ラベルが見つかり、かつ
現在のユーザのコードと異なっていたら、多ユーザラベ
ルが該記憶ロケーションに書き込まれる。 iv)もしも、「多ユーザ」ラベルが見つかったら、何の
アクションもとられない。 各メモリロケーションは、特定のスペクトルの組合せ
に対応するすることがわかるであろう。多数のユーザ
(「正当なユーザ」)について訓練シーケンスが完了し
た後は、各メモリロケーションは、対応する組台せが、
一人の認可されたユーザに特有のものである(このケー
スでは、ラベルはユーザコードである)か、二人以上の
組の認可されたユーザに共通のものであるか、認可され
たユーザの誰にも用いられていないものであるかを示す
ラベルを記憶している。 ひとたび訓練すれば、上記装置は識別モードで使用で
きる。識別されることになるユーザは、マイクロフォン
Mに対して話しかける。もしも、彼の話声が、一人の正
当なユーザに特有であると分っているスペクトルの組合
せをかなりの数含んているならば、該未知のユーザがそ
の人である高い確率(可能性)がある。こうして記憶装
置内に見出されるラベルは次のように作用する。 v)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、それは無視される。 vi)もしも、「他ユーザ」ラベルが見つかったら、やは
り無視される。 vii)もしも、「正当ユーザ」ラベルが見つかったら、
該ユーザのためにとっておいたカウンタがインクリメン
トされる。該話声の最後には、正当なユーザの各々につ
いてカウントが保持されることになる。そして、最高カ
ウントが、どの正当なユーザが話していたかを示してい
るはずである。いつも少なくとも1つの最高カウントが
存在することになるから、このことは一方の正当なユー
ザと他方の認可されていないユーザとを区別することに
はならない。もしも、認識装置の目的が、単に、スピー
チ認識装置または他の手段を使ってのユーザ入力につい
て主張された同一性を照合することにあるならば、これ
で充分であるが、しかし、ましくは、認識の基準は、最
高カウントは他のどのカウントよりも有意的に、(著し
く)大きくなければならないことである。加えて、ある
いはその代わりに、最高カウントがスレッシュホールド
値を超えることが要求されるであろう。 第1図において、訓練および識別モード機能はコント
ロールユニットCにより実行されるとする。正当なユー
ザラベルをユーザネーム(使用者の名前)に翻訳するた
めのネームコーデックNCもまた示されている。 第2図は本発明の実際的な実施例を示している。ここ
でも、マイクロフォンMが示されており、それには言語
増幅器Aが続いている。フィルタバングFは、250Hz〜5
000Hzの周波数帯域をカバーする16個のバンドパスフィ
ルタF1〜F16により構成される。例えば臨界帯域の原理
(クリティカル・バンド・セオリイ)に従って、より高
い周波数帯域は低い帯域よりもより広いことが望まし
い。整流および(後続のサンプラに適合させるための時
定数を有する)平滑は、整流器R1〜R16により模式的に
示されている。 16個のサンプルアンドホールド回路S1〜S16が示され
ており、サンプリングパルスφ1により駆動される。例
えば1000サンプル/秒まで高いレートを採用することに
よりより高い分解能が得られるけれども、毎秒50〜100
サンプルのオーダのサンプリングレートで満足すべき結
果を提供することが予測される。 コーダC1〜C16は、サンプルされた出力を受け、64Kバ
イトの容量の記憶装置Sのアドレス入力に加えるため、
これらを16ビットワードに変換する。該コーダは第3a図
に示されるように、サンプルを固定されたスレッシュホ
ールド電圧Vtと比較しかつ該サンプルが該スレッシュホ
ールドの上か下かに従って「1」または「0」を生成す
る単なる比較器CPでよい。しかしながら、望ましいの
は、差分コーディング(differential coding)を採用
することにより(マイクロフォンの位置および増幅器の
ゲインに依存する)入力信号レベルとは独立しているコ
ード化出力を作ることである。 こうして(第3b図)、サンプルは、サンプリングパル
スφ1に対して遅延されたパルスφ2をクロックとする
ラッチIで遅延された前のサンプルと、比較器CPによ
り、比較される。これに代えて、サンプルを、隣接帯域
(または実際は非隣接帯域)における信号レベルと比較
してもよく、もしも(例えば)サンプル値が下位の周波
数帯域における値を超えるならば「1」が、そうでなけ
れば「0」が出力される。最下位の周波数帯域(F16)
は最上位(F1)と比較することができる。もしも、望ま
れるならば、時間差分コーディングおよび帯域差分コー
ディングの両者が並列又は直列のいずれかで使われる。
32のアドレスラインが、現時点では、非現実的に大きな
メモリを意味するので、図示されるよりも小数の帯域を
持つけれども、例えば、第3c図の出力に第3b図の回路を
挿入して(またはその逆で)使用される。 固定スレッシュホールドコーディングまたは比較帯域
コーディングを用いる場合には、16個のサンプルアンド
ホール回路は必要でないことに留意すべきである。これ
は、RAMのクロックがサンプリング手段となるときは、
コード化されたディジタルワードがRAMのアドレスバス
に連続的に存在するからである。 訓練モードにおいて、話者に対するコードは、入力コ
ードラッチCLに入力される。記憶装置が、連続的なコー
ド化されたサンプルにより、アドレスされることによ
り、該記憶装置の(8ビット)データ出力におけるラベ
ル出力は、コンパレータCF1によって話者コードと比較
される。もしも、これら2つが同じならば、何の動作
(アクション)もとられない(上述のステップ(i
i))。もしも、それらが異なっていれば、アンドゲー
トAは、外部信号TRにより訓練の期間にのみエネーブル
とされ、メモリリードアクセス時間、およびコーダCお
よび比較器CF1における遅延時間を許容するためφ1か
ら充分に遅延された、ライト(書込み)パルスφ2を記
憶装置(メモリ)Sに通過させることを可能とする。も
しも、記憶装置からのラベル出力がゼロであれば、ラッ
チCLからのコードは、阻止されずにオアゲートO1〜O8を
通って通過して、記憶装置(メモリ)Sに書き込まれる
(上述のステップ(i))。もしも、ラベルがオールゼ
ロ以外であれば、このことは、オアゲートO9により認識
され、ライト動作に先立って、オアゲートO1〜O8を介し
て、記憶装置入力を強制的に全て1(16進コードでFF)
とし、それによってステップ(iii)(またはステップ
(iv)による要求にしたがって記憶装置に多ユーザラベ
ルを書き込む(または再書き込みする)。 識別モードに対しては、カウンタZ1〜Znが、それぞれ
各正当なユーザ毎に設けられている。8ビットの記憶装
置は、254までのユーザを許容するが、カウンタは一般
に、システムが訓練されると予測される正当なユーザの
最大数だけ設けられていればよい。各サンプルについ
て、デコーダDは、結果的な記憶装置の出力を受け、そ
れを、それぞれ各カウンタ毎のn個のエネーブルライン
にデコードする。ダミー出力「0」および「FF」は、上
述のステップ(v)および(vi)、すなわち何の動作
(アクション)もとられないステップを示す。「正当な
ユーザ」コードがあらわれたとき(ステップ(vii))
は、対応するカウンタが、エネーブルとされて、先に述
べたパルスφ2によりインクリメントされる。 上記カウント処理は、識別エネーブル化信号IEが存在
する限り継続する。これは、増幅器Aで信一号検出器に
応答して発生され、妥当な認識精度を達成するのに十分
なサンプルの処理ができるようにするのに十分な期間を
もっている。一般的には、8ビットカウンタ長(すなわ
ち255の最大カウト)について、1/2〜3秒の期間が適当
である。 一旦カウントが完了すると、n個の8ビットカウンタ
の出力は、比較器CF2において比較される。これは、最
大カウントをもつカウンタを識別し、かつ対応するユー
ザコードを出力ラッチOLに出力するようにするが、上述
したように、有効コードを出力する前に他の基準をチェ
ックするように使ってもよい。 上記装置の動作では、訓練モードの間に発声される言
葉は、音声の広い範囲を包含するようにすれば、認識さ
れるべき話者により発声される言葉が他の話者により発
声されたものと同じであることを必要とせず、また実際
に訓練の間に特定の話者により前もって発声された言葉
であることが必要でないことに気付くであろう。 上述の実施例は、一つの可能な実現手段に過ぎない。
したがって、種々の変形が可能である。実施例では多ユ
ーザコードが2以上の話者が訓練中に同じサンプルを生
成するときに使われる。すなわち、多ユーザコードがそ
れを越えて使われる限界は1である。この限界は3以上
の話者、あるいは4以上の話者といった具合の数の話者
が訓練中に同じサンプルを生成するときに多ユーザコー
ドが呼び出されるようにする。例えば、2以上の話者が
訓練中に同じ「サンプル」を生成するときに多ユーザコ
ードを呼び出すのではなく、この限界は上へもって行け
るのであるが、より大きなメモリという犠牲を伴うもの
で、記憶装置(メモリ)内に2(又はN)の「正当な使
用者」コードを与えられたメモリアドレスに対して記録
することができるようにし、多ユーザコードは3(又は
N+1)話者がそのサンプルを作ったときだけ代りとさ
れるようにする。1つのアドレスからの2個の正当なユ
ーザコードを識別モードの間に検索することは、対応す
る両カウンタのインクリメントを生じさせる。もしも、
このオプションが使用されるならば、例えば唯1つのコ
ードが生じたときにのみ、適切なカウンタを2回インク
リメントすることなどによる、重み付けもまた導入され
ることになる。 もしも「不使用」コードが識別モード中に検索される
と、何のアクションもとられないと仮定してきた。この
コードの出現は、話者ユーザが正当なユーザーである確
率が低いことを意味しているので、このコードの発声は
カウントされかつその結果を認識処理の重み付けに使用
することができ、例えば、認識が完了したと思われる前
に、最大カウントが一致することになるスレッシュホー
ルドを高めることとする。 コーディング、デコーディングおよび比較のような機
能は、第2図には専用のハードウェア装置により実現さ
れるように示されているが、これらの機能は、もし所望
するならば、適宜プログラムされたマイクロプロセッサ
または他のデータ処理装置により実現することもでき
る。同様に、ディジタルフィルタリングも採用し得る。
なる言語(スピーチ)の話者の一致を認識しあるいは照
合するための話者識別装置及び方法に関する。 本発明によれば、 言語入力の連続するサンプル期間の各点から周波数ス
ペクトラムをあらわすディジタルワードを抽出する手段
と、 各ディジタルワードについて、この装置が識別のため
にすでに訓練さらた対象である既知の話者の言語の中で
発生するそのワードに対応している周波数スペクトラム
に関する相対的な確率を示すコードワードを記憶するた
めの記憶装置(メモリ)、(ここで記憶装置のアドレス
入力に上記抽出手段のディジタルワード出力が接続され
ている)と、 識別されるべき話者の言語の入力の間に、上記記憶装
置から読み出されるコードワードに応答して、所定の基
準に従い、既知のどの話者のものが識別されたとみなさ
れるかを示すデータがもしあれば、それを出力する制御
手段と、 を具備する話者識別のための装置が提供される。 望ましい構成では、この装置は、訓練シーケンスの際
の動作中に、各サンプル期間について、 a)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が所定の数を超えていな
い場合は、このアドレスを表現するディジタルワードを
生じさせた言語の話者を識別するコードワードを、その
ロケーションに記憶するようにし、 b)記憶装置内のアドレス指定されたロケーションに既
に記憶されたコードワードの数が上記所定の数を超えて
いる場合は、多数のユーザを示すために確保しておいた
コードワードを、そのロケーションに記憶するように、
されている。 上記所定の数はゼロとすることもできる。 したがって、与えられたロケーションに既知の話者の
コードが存在することは、該話者の言語内に対応する周
波数スペクトラムが生ずる確率が、他の話者の言語内に
生ずる確率に比して高いことを示している。他方、多ユ
ーザコードの存在は、発生の確率がどの一人の話者につ
いても他の話者よりも特別高くないことを示す。 実際には、初期訓練の前に、上記記憶装置は、他のい
かなる目的にも使用されないコードをそれに書き込むこ
とにより、クリアされる必要があるであろう。訓練が完
了した後で、あるロケーション「不使用」コードが存在
することは、既知のいずれのユーザの言語でもそこで生
ずる対応するスペクトラムの確率が低いことを示してい
る。 望ましい構成においては、制御手段は、各既知の話者
毎にそれぞれのカウンタ手段を備え、しかも記憶装置か
ら読み出される各コードワードに応答して動作するよう
にされ、コードワードが読出されたアドレスに対応して
いる周波数スペクトラムが関係する比較的高い確率をも
っているとそのコードワードが示しているような既知の
話者(もしそういうものがあれば)が対応しているカウ
ンタをインクリメント(歩進)する。また、前出の所定
の基準は、認識されるべきであると思われる話者は、そ
の者のカウンタが最高カウント値を有する話者となると
いうことである。 以下、本発明の話者識別のいくつかの実施例につい
て、次のような添付図面を参照して、例によって説明す
る。 第1図は、本発明にしたがった装置の一つの形態のブ
ロック図、 第2図は、第1図の装置のさらに詳細なブロック図で
あり、そして、 第3図は、第2図に示されるコーダ(符号化器)の異
なる複数の変形例を示す。 第1図において、ユーザからのスピーチ信号は、例え
ばマイクロフォンMを介して、入力スピーチの周波数ス
ペクトラムを解析するために、フィルタバンクFに入力
される。それぞれの周波数帯域を示すフィルタ出力は整
流され、平滑され、そしてサンプルされ(S)かつコー
ド化され(C)て、リードーライト(読み書き)メモリ
Sにへのアドレス入力を送出する。各サンプルについ
て、こうしてアクセスされるアドレスの内容は、一般に
次の3つのタイプのラベルの一つを有している。 a)「不使用」ラベル−例えばオール「0」 b)「多ユーザ」ラベル−例えばオーム「1」 c)「有効ユーザ」ラベル−例えばオール「0」または
オール「1」以外のいずれか。 話者識別に使用される前に、この発明の装置は、認可
された(使用権原のある各ユーザがマイクロフォンに語
りかける訓練シーケンスを経なければならない。目的
は、どのスペクトルの組合せがあるユーザに特有のもの
であり、またそうでないかを、記憶装置内に記憶させる
ことにある。そして、訓練モードにおいては、各サンプ
ルについて次のような動作(アクション)がとられる。 i)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、該特定ユーザのコードが該メモリロケーションに
書き込まれる。 ii)もしも、「有効ユーザ」ラベルが見つかり、かつ現
在の(カレント)ユーザのコードと同じだったら、何の
アクションもとられない。 iii)もしも、「有効ユーザ」ラベルが見つかり、かつ
現在のユーザのコードと異なっていたら、多ユーザラベ
ルが該記憶ロケーションに書き込まれる。 iv)もしも、「多ユーザ」ラベルが見つかったら、何の
アクションもとられない。 各メモリロケーションは、特定のスペクトルの組合せ
に対応するすることがわかるであろう。多数のユーザ
(「正当なユーザ」)について訓練シーケンスが完了し
た後は、各メモリロケーションは、対応する組台せが、
一人の認可されたユーザに特有のものである(このケー
スでは、ラベルはユーザコードである)か、二人以上の
組の認可されたユーザに共通のものであるか、認可され
たユーザの誰にも用いられていないものであるかを示す
ラベルを記憶している。 ひとたび訓練すれば、上記装置は識別モードで使用で
きる。識別されることになるユーザは、マイクロフォン
Mに対して話しかける。もしも、彼の話声が、一人の正
当なユーザに特有であると分っているスペクトルの組合
せをかなりの数含んているならば、該未知のユーザがそ
の人である高い確率(可能性)がある。こうして記憶装
置内に見出されるラベルは次のように作用する。 v)もしも、記憶装置内に「不使用」ラベルが見つかっ
たら、それは無視される。 vi)もしも、「他ユーザ」ラベルが見つかったら、やは
り無視される。 vii)もしも、「正当ユーザ」ラベルが見つかったら、
該ユーザのためにとっておいたカウンタがインクリメン
トされる。該話声の最後には、正当なユーザの各々につ
いてカウントが保持されることになる。そして、最高カ
ウントが、どの正当なユーザが話していたかを示してい
るはずである。いつも少なくとも1つの最高カウントが
存在することになるから、このことは一方の正当なユー
ザと他方の認可されていないユーザとを区別することに
はならない。もしも、認識装置の目的が、単に、スピー
チ認識装置または他の手段を使ってのユーザ入力につい
て主張された同一性を照合することにあるならば、これ
で充分であるが、しかし、ましくは、認識の基準は、最
高カウントは他のどのカウントよりも有意的に、(著し
く)大きくなければならないことである。加えて、ある
いはその代わりに、最高カウントがスレッシュホールド
値を超えることが要求されるであろう。 第1図において、訓練および識別モード機能はコント
ロールユニットCにより実行されるとする。正当なユー
ザラベルをユーザネーム(使用者の名前)に翻訳するた
めのネームコーデックNCもまた示されている。 第2図は本発明の実際的な実施例を示している。ここ
でも、マイクロフォンMが示されており、それには言語
増幅器Aが続いている。フィルタバングFは、250Hz〜5
000Hzの周波数帯域をカバーする16個のバンドパスフィ
ルタF1〜F16により構成される。例えば臨界帯域の原理
(クリティカル・バンド・セオリイ)に従って、より高
い周波数帯域は低い帯域よりもより広いことが望まし
い。整流および(後続のサンプラに適合させるための時
定数を有する)平滑は、整流器R1〜R16により模式的に
示されている。 16個のサンプルアンドホールド回路S1〜S16が示され
ており、サンプリングパルスφ1により駆動される。例
えば1000サンプル/秒まで高いレートを採用することに
よりより高い分解能が得られるけれども、毎秒50〜100
サンプルのオーダのサンプリングレートで満足すべき結
果を提供することが予測される。 コーダC1〜C16は、サンプルされた出力を受け、64Kバ
イトの容量の記憶装置Sのアドレス入力に加えるため、
これらを16ビットワードに変換する。該コーダは第3a図
に示されるように、サンプルを固定されたスレッシュホ
ールド電圧Vtと比較しかつ該サンプルが該スレッシュホ
ールドの上か下かに従って「1」または「0」を生成す
る単なる比較器CPでよい。しかしながら、望ましいの
は、差分コーディング(differential coding)を採用
することにより(マイクロフォンの位置および増幅器の
ゲインに依存する)入力信号レベルとは独立しているコ
ード化出力を作ることである。 こうして(第3b図)、サンプルは、サンプリングパル
スφ1に対して遅延されたパルスφ2をクロックとする
ラッチIで遅延された前のサンプルと、比較器CPによ
り、比較される。これに代えて、サンプルを、隣接帯域
(または実際は非隣接帯域)における信号レベルと比較
してもよく、もしも(例えば)サンプル値が下位の周波
数帯域における値を超えるならば「1」が、そうでなけ
れば「0」が出力される。最下位の周波数帯域(F16)
は最上位(F1)と比較することができる。もしも、望ま
れるならば、時間差分コーディングおよび帯域差分コー
ディングの両者が並列又は直列のいずれかで使われる。
32のアドレスラインが、現時点では、非現実的に大きな
メモリを意味するので、図示されるよりも小数の帯域を
持つけれども、例えば、第3c図の出力に第3b図の回路を
挿入して(またはその逆で)使用される。 固定スレッシュホールドコーディングまたは比較帯域
コーディングを用いる場合には、16個のサンプルアンド
ホール回路は必要でないことに留意すべきである。これ
は、RAMのクロックがサンプリング手段となるときは、
コード化されたディジタルワードがRAMのアドレスバス
に連続的に存在するからである。 訓練モードにおいて、話者に対するコードは、入力コ
ードラッチCLに入力される。記憶装置が、連続的なコー
ド化されたサンプルにより、アドレスされることによ
り、該記憶装置の(8ビット)データ出力におけるラベ
ル出力は、コンパレータCF1によって話者コードと比較
される。もしも、これら2つが同じならば、何の動作
(アクション)もとられない(上述のステップ(i
i))。もしも、それらが異なっていれば、アンドゲー
トAは、外部信号TRにより訓練の期間にのみエネーブル
とされ、メモリリードアクセス時間、およびコーダCお
よび比較器CF1における遅延時間を許容するためφ1か
ら充分に遅延された、ライト(書込み)パルスφ2を記
憶装置(メモリ)Sに通過させることを可能とする。も
しも、記憶装置からのラベル出力がゼロであれば、ラッ
チCLからのコードは、阻止されずにオアゲートO1〜O8を
通って通過して、記憶装置(メモリ)Sに書き込まれる
(上述のステップ(i))。もしも、ラベルがオールゼ
ロ以外であれば、このことは、オアゲートO9により認識
され、ライト動作に先立って、オアゲートO1〜O8を介し
て、記憶装置入力を強制的に全て1(16進コードでFF)
とし、それによってステップ(iii)(またはステップ
(iv)による要求にしたがって記憶装置に多ユーザラベ
ルを書き込む(または再書き込みする)。 識別モードに対しては、カウンタZ1〜Znが、それぞれ
各正当なユーザ毎に設けられている。8ビットの記憶装
置は、254までのユーザを許容するが、カウンタは一般
に、システムが訓練されると予測される正当なユーザの
最大数だけ設けられていればよい。各サンプルについ
て、デコーダDは、結果的な記憶装置の出力を受け、そ
れを、それぞれ各カウンタ毎のn個のエネーブルライン
にデコードする。ダミー出力「0」および「FF」は、上
述のステップ(v)および(vi)、すなわち何の動作
(アクション)もとられないステップを示す。「正当な
ユーザ」コードがあらわれたとき(ステップ(vii))
は、対応するカウンタが、エネーブルとされて、先に述
べたパルスφ2によりインクリメントされる。 上記カウント処理は、識別エネーブル化信号IEが存在
する限り継続する。これは、増幅器Aで信一号検出器に
応答して発生され、妥当な認識精度を達成するのに十分
なサンプルの処理ができるようにするのに十分な期間を
もっている。一般的には、8ビットカウンタ長(すなわ
ち255の最大カウト)について、1/2〜3秒の期間が適当
である。 一旦カウントが完了すると、n個の8ビットカウンタ
の出力は、比較器CF2において比較される。これは、最
大カウントをもつカウンタを識別し、かつ対応するユー
ザコードを出力ラッチOLに出力するようにするが、上述
したように、有効コードを出力する前に他の基準をチェ
ックするように使ってもよい。 上記装置の動作では、訓練モードの間に発声される言
葉は、音声の広い範囲を包含するようにすれば、認識さ
れるべき話者により発声される言葉が他の話者により発
声されたものと同じであることを必要とせず、また実際
に訓練の間に特定の話者により前もって発声された言葉
であることが必要でないことに気付くであろう。 上述の実施例は、一つの可能な実現手段に過ぎない。
したがって、種々の変形が可能である。実施例では多ユ
ーザコードが2以上の話者が訓練中に同じサンプルを生
成するときに使われる。すなわち、多ユーザコードがそ
れを越えて使われる限界は1である。この限界は3以上
の話者、あるいは4以上の話者といった具合の数の話者
が訓練中に同じサンプルを生成するときに多ユーザコー
ドが呼び出されるようにする。例えば、2以上の話者が
訓練中に同じ「サンプル」を生成するときに多ユーザコ
ードを呼び出すのではなく、この限界は上へもって行け
るのであるが、より大きなメモリという犠牲を伴うもの
で、記憶装置(メモリ)内に2(又はN)の「正当な使
用者」コードを与えられたメモリアドレスに対して記録
することができるようにし、多ユーザコードは3(又は
N+1)話者がそのサンプルを作ったときだけ代りとさ
れるようにする。1つのアドレスからの2個の正当なユ
ーザコードを識別モードの間に検索することは、対応す
る両カウンタのインクリメントを生じさせる。もしも、
このオプションが使用されるならば、例えば唯1つのコ
ードが生じたときにのみ、適切なカウンタを2回インク
リメントすることなどによる、重み付けもまた導入され
ることになる。 もしも「不使用」コードが識別モード中に検索される
と、何のアクションもとられないと仮定してきた。この
コードの出現は、話者ユーザが正当なユーザーである確
率が低いことを意味しているので、このコードの発声は
カウントされかつその結果を認識処理の重み付けに使用
することができ、例えば、認識が完了したと思われる前
に、最大カウントが一致することになるスレッシュホー
ルドを高めることとする。 コーディング、デコーディングおよび比較のような機
能は、第2図には専用のハードウェア装置により実現さ
れるように示されているが、これらの機能は、もし所望
するならば、適宜プログラムされたマイクロプロセッサ
または他のデータ処理装置により実現することもでき
る。同様に、ディジタルフィルタリングも採用し得る。
フロントページの続き
(72)発明者 ミラー・ポウル・クリストフアー
イギリス国 アイ・ピー12,1エッチ・
エイ,サフォーク,フリックストウェ,
バス・ロード75
(56)参考文献 特開 昭59−111699(JP,A)
特開 昭58−219600(JP,A)
(58)調査した分野(Int.Cl.6,DB名)
G10L 3/00 531
G10L 7/08
G10L 3/00 521
G10L 3/00 561
Claims (1)
- (57)【特許請求の範囲】 1.話者識別のための装置であって、言語入力の連続す
るサンプル期間の各々から周波数スペクトラムを表すデ
ィジタルワードを抽出する抽出手段(FSC)と、 前記抽出手段のディジタルワード出力が接続されるアド
レス入力を有し、各ディジタルワードについて、該装置
が識別のために訓練された1人以上の既知の話者のスピ
ーチ中で生ずる該ディジタルワードに対応する周波数ス
ペクトラムの相対的な確率を示すコードワードを記憶す
るためのメモリ(RAM S)と、 識別されることになる話者による言語の入力の間に、所
定の基準に従って、既知のどの話者のものが識別された
とするかを示すデータを出力するため、前記メモリから
読み出されるコードワードに応答する制御手段(C)
と、 を具備する話者識別装置。 2.訓練シーケンスの間の動作では、各サンプル期間毎
に、 a)前記メモリ内のアドレスされたロケーションにすで
に記憶されたコードワードの数が所定の数を越えない場
合は、前記アドレスを表すディジタルワードを生じさせ
た言語の話者を識別するコードワードをそのロケーショ
ンに記憶し、 b)前記メモリ内のアドレスされたローションに既に記
憶されたコードワードの数が前記所定の数を越える場合
は、多数のユーザを示すためにとっておいたコードワー
ドをそのロケーションに記憶する、 ように構成された請求の範囲第1項の装置。 3.前記所定の数はゼロである請求の範囲第2項の装
置。 4.前記制御手段は、各既知の話者毎のカウンタ手段を
備え、前記メモリから読み出された各コードワードに対
して応答し、該コードワードによって、該コードワード
が読み出されたアドレスに対応する周波数スペクトラム
に関して相対的に高い確率を持つとして示されている既
知の話者がいるときはその者に対応するカウンタをイン
クリメントするように、また前記所定の基準は、認識さ
れるべきであると思われる話者については、その者のカ
ウンタが最高カウント値を有する話者であるように構成
された請求の範囲第1、2、または3項のいずれか1項
の装置。 5.前記所定の基準は、前記最高カウントが、他のカウ
ンタのカウントを設定マージンだけ越ていなければ、識
別は起こっていないとみなすという要件を含む請求の範
囲第4項の装置。 6.前記所定の基準は、前記最高カウントが、スレッシ
ュホールド値を越えない限り、識別は起こっていないと
みなすという要件を含む請求の範囲第4または5項の装
置。 7.前記制御手段は、別のカウンタを含み、ある既知の
話者の低い確率を示すコードワードの発生に応答して該
別のカウンタをインクリメントし、そして該別のカウン
タの内容に応答して前記スレッシュホールド値を調整す
る請求の範囲第6項の装置。 8.前記抽出手段は、言語入力の周波数スペクトラムを
複数の周波数帯域出力に分割するためのフィルタ手段
と、前記出力の平均振幅を測定し、かつサンプリングす
るための手段と、結果のサンプルからディジタルワード
を得るためのコーディング手段とを具備する請求の範囲
第1項〜第7項のいずれか1項に記載の装置。 9.前記コーディング手段は、各帯域毎に、各サンプル
をスレッシュホールド値と比較し、それにより「1」ま
たは「0」信号を生成するように構成される請求の範囲
第8項の装置。 10.前記コーディング手段は、各帯域毎に、各サンプ
ルを該帯域につて得られた前のサンプルと比較して、そ
れにより「1」または「0」信号を生成する請求の範囲
第8項の装置。 11.前記コーディング手段は、各帯域毎に、各サンプ
ルを他の帯域について得られたサンプルと比較して、そ
れにより「1」または「0」信号を生成する請求の範囲
第8項の装置。 12.未知の入力言語信号の話者を先に識別した話者グ
ループの一人として識別する話者識別方法において、 ランダムアクセスメモリ内に該先に識別した話者と独特
な対応をもつ記憶されたコードワードを、この話者によ
り先に与えられた入力言語の周波数スペクトラムと対応
するアドレスロケーションに記憶するステップと、 前記未知の入力言語信号の周波数スペクトラムに対応す
る一連のアドレスを前記メモリに与えるステップと、前
記メモリから出力される結果の連続コードワードから前
記未知の入力言語信号の話者を識別するステップと、 を含む話者識別方法。 13.言語入力を受け、話者の識別子を認識する話者識
別方法において、 一連の入力言語サンプルの各々からその周波数スペクト
ラを表すディジタルワードを抽出するステップと、 複数のコードワードをメモリに記憶し、各コードワード
は該ディジタルワードについて、1又は複数の既知の話
者の言語内で生ずる該ディジタルワードの周波数スペク
トラムの相対的な確率を示すものとするステップと、 前記抽出ディジタルワードを前記メモリのアドレス回路
に接続するステップと、 前記アドレス回路によってアクセスされた一連のコード
ワードを得るステップと、 どの話者が識別されたかを示すために前記コードワード
に関連する所定の基準に従って前記一連のコードワード
を用いるステップと、 により構成される話者識別方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB868630118A GB8630118D0 (en) | 1986-12-17 | 1986-12-17 | Speaker identification |
GB8630118 | 1986-12-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01502058A JPH01502058A (ja) | 1989-07-13 |
JP2895493B2 true JP2895493B2 (ja) | 1999-05-24 |
Family
ID=10609148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63500399A Expired - Lifetime JP2895493B2 (ja) | 1986-12-17 | 1987-12-09 | 話者識別装置および方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US4947436A (ja) |
EP (1) | EP0273615B1 (ja) |
JP (1) | JP2895493B2 (ja) |
AT (1) | ATE109919T1 (ja) |
CA (1) | CA1329275C (ja) |
DE (1) | DE3750365T2 (ja) |
GB (1) | GB8630118D0 (ja) |
HK (1) | HK156396A (ja) |
WO (1) | WO1988004772A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1991002347A1 (en) * | 1989-07-28 | 1991-02-21 | Guerreri Stephen J | A method and apparatus for language and speaker recognition |
DE4001063A1 (de) * | 1989-09-05 | 1991-03-07 | Gerhard Morgenroth | Brillengestell |
US5267323A (en) * | 1989-12-29 | 1993-11-30 | Pioneer Electronic Corporation | Voice-operated remote control system |
US5437050A (en) * | 1992-11-09 | 1995-07-25 | Lamb; Robert G. | Method and apparatus for recognizing broadcast information using multi-frequency magnitude detection |
US6182037B1 (en) * | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US6853716B1 (en) * | 2001-04-16 | 2005-02-08 | Cisco Technology, Inc. | System and method for identifying a participant during a conference call |
CA2539442C (en) * | 2003-09-17 | 2013-08-20 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
WO2006023770A2 (en) | 2004-08-18 | 2006-03-02 | Nielsen Media Research, Inc. | Methods and apparatus for generating signatures |
AU2006325808B2 (en) * | 2005-12-12 | 2011-12-15 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
US9015740B2 (en) | 2005-12-12 | 2015-04-21 | The Nielsen Company (Us), Llc | Systems and methods to wirelessly meter audio/visual devices |
CN101669308B (zh) | 2007-02-20 | 2013-03-20 | 尼尔森(美国)有限公司 | 表征媒体的方法和装置 |
US8458737B2 (en) | 2007-05-02 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for generating signatures |
CN101918999B (zh) | 2007-11-12 | 2013-11-13 | 尼尔森(美国)有限公司 | 执行音频水印嵌入以及水印检测和提取的方法和设备 |
US8457951B2 (en) | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
CN102982810B (zh) | 2008-03-05 | 2016-01-13 | 尼尔森(美国)有限公司 | 生成签名的方法和装置 |
US9124769B2 (en) * | 2008-10-31 | 2015-09-01 | The Nielsen Company (Us), Llc | Methods and apparatus to verify presentation of media content |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3737580A (en) * | 1971-01-18 | 1973-06-05 | Stanford Research Inst | Speaker authentication utilizing a plurality of words as a speech sample input |
DE2150336B2 (de) * | 1971-10-08 | 1979-02-08 | Siemens Ag, 1000 Berlin Und 8000 Muenchen | Analysator fuer ein spracherkennungsgeraet |
DE2341458C2 (de) * | 1973-08-14 | 1982-12-16 | Yoshio Fuji Shizuoka Watanabe | Reservereifenhalter für Kraftfahrzeuge |
DE2431458C2 (de) * | 1974-07-01 | 1986-05-28 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und Anordnung zur automatischen Sprechererkennung |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
DE2920041C2 (de) * | 1979-05-18 | 1986-09-04 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren zum Verifizieren von Signalen, und Anordnung zum Durchführen des Verfahrens |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
US4763278A (en) * | 1983-04-13 | 1988-08-09 | Texas Instruments Incorporated | Speaker-independent word recognizer |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
US4783805A (en) * | 1984-12-05 | 1988-11-08 | Victor Company Of Japan, Ltd. | System for converting a voice signal to a pitch signal |
JPS61252594A (ja) * | 1985-05-01 | 1986-11-10 | 株式会社リコー | 音声パタ−ン照合方式 |
US4797927A (en) * | 1985-10-30 | 1989-01-10 | Grumman Aerospace Corporation | Voice recognition process utilizing content addressable memory |
-
1986
- 1986-12-17 GB GB868630118A patent/GB8630118D0/en active Pending
-
1987
- 1987-12-09 AT AT87310824T patent/ATE109919T1/de not_active IP Right Cessation
- 1987-12-09 EP EP87310824A patent/EP0273615B1/en not_active Expired - Lifetime
- 1987-12-09 JP JP63500399A patent/JP2895493B2/ja not_active Expired - Lifetime
- 1987-12-09 DE DE3750365T patent/DE3750365T2/de not_active Expired - Lifetime
- 1987-12-09 WO PCT/GB1987/000895 patent/WO1988004772A1/en unknown
- 1987-12-16 CA CA000554439A patent/CA1329275C/en not_active Expired - Fee Related
-
1988
- 1988-10-07 US US07/235,896 patent/US4947436A/en not_active Expired - Lifetime
-
1996
- 1996-08-15 HK HK156396A patent/HK156396A/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DE3750365D1 (de) | 1994-09-15 |
HK156396A (en) | 1996-08-23 |
US4947436A (en) | 1990-08-07 |
WO1988004772A1 (en) | 1988-06-30 |
EP0273615A1 (en) | 1988-07-06 |
ATE109919T1 (de) | 1994-08-15 |
DE3750365T2 (de) | 1995-02-23 |
CA1329275C (en) | 1994-05-03 |
JPH01502058A (ja) | 1989-07-13 |
GB8630118D0 (en) | 1987-01-28 |
EP0273615B1 (en) | 1994-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2895493B2 (ja) | 話者識別装置および方法 | |
US6876966B1 (en) | Pattern recognition training method and apparatus using inserted noise followed by noise reduction | |
CA1246228A (en) | Endpoint detector | |
US4181813A (en) | System and method for speech recognition | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
JPH0312319B2 (ja) | ||
WO2020250016A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
Deshmukh et al. | Automatic recognition of class variants of Marathi consonants | |
JP2658426B2 (ja) | 音声認識方法 | |
JPS59184398A (ja) | 音声認識装置 | |
RU2136059C1 (ru) | Устройство для распознавания изолированных слов | |
JPH0119597B2 (ja) | ||
JPS59184399A (ja) | 音声認識装置 | |
JPH0752355B2 (ja) | 音声認識装置 | |
Johnson et al. | A phrase recognizer using syllable-based acoustic measurements | |
JPS59170900A (ja) | 音声認識装置における辞書登録方式 | |
JPH0221598B2 (ja) | ||
JPS58107598A (ja) | 音声認識装置 | |
Baker et al. | Density of voicing information in purely temporal consonant identification | |
JPS61278896A (ja) | 話者照合装置 | |
Bunn et al. | Application note: spoken word recognition with a real-time spectrum analyser | |
Patil et al. | Design of cubic spline wavelet for open set speaker classification in marathi | |
Aoki et al. | Phonetic feature extraction based on mutual information | |
Houtgast | On the correlation among neighboring energy pixels in the speech spectrogram | |
Schultz et al. | Listener performance under variations in signal content |