JPS5941600B2 - 話者の身元確認方法および装置 - Google Patents

話者の身元確認方法および装置

Info

Publication number
JPS5941600B2
JPS5941600B2 JP51157680A JP15768076A JPS5941600B2 JP S5941600 B2 JPS5941600 B2 JP S5941600B2 JP 51157680 A JP51157680 A JP 51157680A JP 15768076 A JP15768076 A JP 15768076A JP S5941600 B2 JPS5941600 B2 JP S5941600B2
Authority
JP
Japan
Prior art keywords
signal
speaker
signals
orthogonal
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP51157680A
Other languages
English (en)
Other versions
JPS5293207A (en
Inventor
マ−ヴイン・ロバ−ト・サンバ−
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
Western Electric Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Electric Co Inc filed Critical Western Electric Co Inc
Publication of JPS5293207A publication Critical patent/JPS5293207A/ja
Publication of JPS5941600B2 publication Critical patent/JPS5941600B2/ja
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 本発明は、話者の認識に関するものである。
個人をその音声に関する物理的な特性から認識あるいは
認証することは、しばしば重要なことである。電話を通
して行なう処理、迅速な信用の認証、あるいは保護され
た領域への入場を制限するというような安全性維持措置
に際して、このような手続きが望まれる。以前は、自動
話者認識システムとは、話者の話したあらかじめ決めら
れた言葉と、前もつて記憶されている同じまたは類似の
言葉の参考例との比較、あるいはその個人の特定の発声
から選んだパラメータと以前に記憶した対応する発声の
パラメータとの比較に基づいていた。このようなパラメ
ータは、ピツチ周期、強度、特定の周波数のフオルマン
トあるいはその帯域幅といつた音声の特性から求められ
るものである。ダブリユーーエフ・フレンチによつて1
969年9月9日に出されたアメリカ合衆国特許第34
66394で発表されているシステムのような場合には
、各ピツチ周期からいくつかのピークと谷を選んで未知
の話者の音声入力の特性係数を求めるために用いており
、これらの係数が1つあるいは複数の以前に記憶された
参照用係数と選択的に比較される。この比較の結果とし
鳳未知の話者の身元について決定が行なわれる。しかし
、この方法では、その個人が参照用係数を求めたときと
は異なる強度を用いた場合に生じる誤りを防止するため
に、特囲係数を強度に関して正規化することが必要とな
る。1972年10月24日に出されたジ一・アール・
ドツデイントン等の特許3700815で発表され、同
じ譲受人に指定されているもう一つの方法では、個人が
テスト文章を発声する際の特性を、以前に記憶した同じ
文章を発声と比較している。
しかし、この上諏において?瓢テストおよび参照用発声
を一時的に並置する必要がある。従つて比較する前に、
テストの発声のタイムスケールをひずませて、参照用発
声の時間軸とそろえなければならない。これら及び現在
用いられているその他の手法は、発声内容に依存する音
声特性に基づいたものである。
より効果的な方法は、発声の内容ではなく話者の音声器
官の独特な特性を考慮した話者認識という特徴に基づい
たものであるといえる。音声波形の線形予測可能性に基
づく音声分析は、自動話者認識にとつて望ましいいくつ
かの特性を与える。これらの特性はフオルマント周波数
、その帯域幅、および声道波に関する情報のくみあわさ
つたものを表わしており、実質的にピツチや強度につい
ての情報と無関係である。認識されていない話者の線形
予測特囲の、以前に記憶した既知の話者の線形予測特性
との比較に基づく話者認識方式は、フオルマント周波数
や声道波のような選択された音声特徴に限定された方法
ではない。
このように、線形予測特性は話者認識のためのより完壁
た基礎を形成し得るものである。しかし、話者認識への
線形予測特性の使用は、特性が言語的情報および話者に
依存する情報をも含んでいるので、一般にセグメンテー
シヨンあるいは時間正規化が必要となる。本発明の目的
は、実質的に音声信号の言語的な内洋とは独立で且つ信
号の特性の並置を必要としない話者認識の手段を与える
ものである。
発明に従つて、認識されている話者の音声標本の予測分
析からいくつかの参照用予測パラメータ信号を作ること
、および前記参照用予測パラメータ信号に応答して前記
参照用予測パラメータ信号を前記の認識された話者の身
元を表わす一組の信号へ変換するのに適合した一群の参
照用係数信号を発生ずること、および、前記参照用予測
パラメータ信号と前記参照用係数信号とに応答して前記
の認識された話者の身元を表わす一組の一次信号を発生
すること、および、未知の話者の音声標本の予測分析か
らいくつかのテスト用予測パラメータ信号を作ること、
および、前記テスト用予測パラメータ信号と前記の未知
の話者に対して仮定した身元を表わす前記の認識された
話者の参照用係数信号とから一組の二次信号を発生する
こと、および、前記の仮定した身元を認証するため前記
一次信号と前記二次信号を比較することとを含む前記の
未知の話者の身元確認のための方法が与えられる。
本発明を実施する話者認承方式が第1図に示されており
、ここで話者認識コード論理回路132が話者の主張す
る身元に対応したコード信号1DCを発生するように動
作する。
認識される話者に対し参照用の情報を記憶するのかある
いは話者の身元の認証をするのかどうかを示すために、
一つの信号がモード選択器133に加えられる。第1図
のシステムを参照モードあるいはテストモードにするた
めに、モード選択器133は匍脚論理回路134に信号
を加える。参照モードにおいては、論理回路132から
のIDCコードによつて認識される話者の発声が分析さ
れ、信号線101上の音声標本の予測分析に対応して参
照信号、平均信号および分散信号が発生されて記憶され
る。テストモードにおいては、主張されている身元につ
いての記憶内の参照用信号と未知の話者の予測パラメー
タとから、直交パラメータ信号が発生される。被験話者
の主張する身元に対応した参照、平均および分散信号が
発生され、テスト用平均および分散信号が主張されてい
る身元についての記憶内の参照用平均および分散信号と
比較される。説明のために、制御論理回路134により
出力信号REF,SおよびGが発生されることによつて
第1図の認証システムは参照モードにおかれていると仮
定する。信号線101から参照される話者の音声信号が
フイルタおよび標本化回路102に加えられる。一例と
して、信号線101とは電話線にあたる。入力音声信号
の帯域は100〜レツから4キロヘルツに制限されてお
り、帯域制限された信号はクロツク103の制御のもと
に10キロヘルツで標本化される。この他の周波数帯域
およびこの他の標本化周波数を用いてもよいことを理解
されたい。終端検出器109は回路102の出力を受け
る。標本化出力の絶対値の総和から求められる音声信号
のエネルギー量に基づいて、クロツク103がゲート1
40を通して抑止されるようにするため発声の終了が検
出される。それぞれの新らしい発声が始まるごとに、検
出器109からの信号がクロツク103を始動する。第
1図での使用に適した終端検出方式は、1975年9月
30日に出されたエル・アール・ラビナ一等の米国特許
3909532で発表されている。ノ第3図に示される
クロツク103には、10キロヘルツの標本化周波数の
等間隔パルスSPを得るための標本化パルス発生器30
1が含まれている。
パルスSPは標本化回路102に加えられ、ここで音声
信号の符号化された標本値が得られる。パルス発生器3
01の出力はまたパルス発生器303へも加えられてい
る。パルス発生器301からのパルスSPは、パルス発
生器303の動作の同期をとつて、これは発生器301
からの200個のSP標本化パルスから成る各フレーム
間に、144イ固の等間隔のパルスASを発生する。パ
ルスASはカウンタ305に加えられ、このカウンタは
12番目のASノくノレスごとに対応して出力パルスB
Sを発生する。したがつて、144個のASパルスから
成る各フレーム間に12個の等間隔パルスBSが発生す
ることになる。カウン゛夕Aの状態は信号線330にあ
られれる。カウンタ307はカウンタ305の出力にあ
られれるパルスBSに応答しており、カウンタBの状態
は信号線331にあられれる。カウンタAは12番目の
ASパルスごとにりセツトされ、カウンタBは12番目
のBSパノレスごとにりセツトされる。ASとBSパル
スおよび他のクロツク信号は使号線Aを通して第1図の
他の部分に供給され前記の他の部分の動作のタイミング
制御のために用いられる。それぞれ信号線330および
331上のカウンタ305および307の出力は、また
カウンタAおよびBがともに零の状態にきつたときに対
応してパルスを発生するフレーム開始点険出器309に
も加えられる。
このパルスは144個のASパルスおよび12個のBS
パルスの生じる200個のSP標本化パルスからなる各
フレームの開始点を決める。検出器309の出力は7レ
ームカウンタ317に加えられ、これはフイルタおよび
標本化回路102に加わる音声標本の各発声フレーム数
を計数する。発声終了検出器313は、ともに12番目
の状態にあるカウンタAおよびBと終端検出器109の
出力信号に応答して発声終了信号EUおよび而を生じる
。信号EUは各発声の終了時にカウンタ317をりセツ
トするために遅延回路335を通してカウンタ317に
加えられ、また音声標本における発声数を計数する働き
をもつ発声カウンタ319にそのまま加えられる。標本
化終了検出器315は、カウンタ305および307の
状態、終端検出器109、そして無声検出器107のす
べてに応答して音声標本の終了時に信号ESおよびES
(EndSample、標本終了)を発生する。信号E
Sは音声標本の終了時に発声カウンタ319をりセツト
するために、遅延回路333を通して加えられる。フレ
ームの終りに無声期間と一致する終了点を検出してES
およびESを発生する。第1図のシステムにおいて、直
交パラメータの平均と分散を計算するためには、各発声
において生じるフレーム数および音声標本内の発声数を
知る必要がある。
フレーム数Nは発声によつて異なるが、フレームカウン
タ317の出力により知ることができる。この出力は各
発声の終りにEU信号の発生によつてゲート323を通
してとり込まれる。ゲート323の出力はちようど終了
した発声のフレーム数に相当する符号化信号Nを与える
ものである。ゲート325は、各音声標本の終了時に音
声標本内の発声数に相当した符号化信号L力碍られるよ
うに、検出器315で検出された音声標本の終了時に発
声カウンタ319の状態をとり込むためのものである。
10キロヘルツの標本化周波数による標本化信号の系列
は、フイルタおよび標本化回路102の出力から線形予
測係数計算機105に加えられ、ここで標本値Snlは
プロツク化されて、すなわちS1からS2OOまでの2
00個の符号化信号からなるフレームごとに記憶される
その他のフレーム構成を用いてもさしつかえないことを
理解されたい。標本化された音声信号の線形予測分析は
にしたがつて行なわれる。ここで、m−1、2、・・・
・・・、2001=1、2、・・・・・・、Pであり、
Pは予測分析モデルの極致である。線形予測分析ぱ当業
者に周知であつて、ビ一・エス・エイタルおよびエス・
エル・ハナーワ一によつてアメリカ音響学会誌の195
1年第50巻637ページから655ページに掲載され
た「音声波の線形予測による音声の分析と合成」で述べ
られている全極線形予測フイルタモデルに基いている。
話者認識のためには、12個の極を持つフイルタモデル
が適当であるということがわかつている。しかし、この
他の極配置を用いてもさしつかえないことを理解された
い。線形予測係数Aiは第1,,式での表現にしたがう
標本化音声信号Smの係数である。
第1図で用いられる12極のフィルタモデルに対するa
1からAl2までの係数は、第2式および第3式にした
がつて標本化音声信号Smを200個の標本値から成る
各フレーム内で相関をとることによつて、係数計算機1
05内で発生される。ここで、Mは各フレ一判内の標本
数(M=200)であり、P−12である。
当業者に周知のように、第1式の線形予測係数a1は、
第2式および第3式にしたがう自乗平均予測誤差が最小
となるように選ばれる。
第2式で示したように、このことは、SmからSnl+
ャまでの標本信号のプロツクの相関分析によつて行なわ
れる。その結果としてAlal2までの線形予測係数が
、各フレームのM個(M−200)の音声標本値に対し
て得られる。線形予測係数計算機105は、1971年
12月28日に出されたビ一・エス・エイタルによる米
国特許滝3631520で示さ板また述べられている予
測パラメータ計算機で良い。
この計算方式では、当業者に周知の共分散方式にしたが
つて線形予測パラメータを算出している。あるいはまた
、ジヨン・デ一・マーケルによつてスピーチ・コミユニ
ケーシヨンズ・リサーチ・ラボラトリ一・インコーポレ
ーテツドのモノグラフ第7巻、1971年10月に掲載
された「線形最小自乗逆フイルタ構成からのフオルマン
ト軌跡の推定」の付録Aにあるフオートランプログラム
を実行できるPDPllあるいはNOva8OO等のど
のような計算機を用いても良い。このフオートランプロ
グラムは当業者に周知の相関方式に基いている。各フレ
ームの長さは20ミリ秒であつて、すでに明らかなよう
にフレームのa1からAl2までの係数は対応するS1
からS2OOまでの標本値をもつフレームの終りに出力
信号線136上に得られる。共分散方式あるいは相関方
式のいずれかによつて導き出されたa1からAl2まで
の係数が第1図の構成において使用される。線形予測係
数AiをV組の直交パラメータを求めるのに直接用いて
もよいが、その代りにその他のパーコール係数あるいは
対数面積係数のような当業者に周知の予測係数を用いる
のが有利であることがわかつている。
パーコール係数は計算機105の線形予測係数から直接
導出することが可能である。パーコール係数とは、P個
の一様な等長の円筒部分を縦続して構成される一様でな
い音響管によつて全極フイルタの特性を実現することと
関連している。パーコール係数は音響管の各部分の反射
特性に対応しており、第4a式にしたがつて線形予測係
数に関係付けられる。ここでKiは第1番目のパーコー
ノレ係数(1一1、2、・・・・・・P)であり、Ai
(j)け第j番目(j=1、2c・・・・・P)の極の
線形予測モデルに対する第1番目の線形予測係数である
対数面積係数も同様に一様でない音響管モデルに関連し
たもので、第4b式にしたがつて、計算機105から得
られる線形予測係数から一意に導出可能である。係数変
換用計憩117は、線形予測係数Aiからパーコールの
ような1組の予測パラメータを求めるよう動作するもの
で、第4a式あるいは第4b式にしたがつて動作する算
術演算回路を含むようなものであるか、あるいはまたシ
ュー・デ一・マーケル、エ一・エイチ・グリーグ、ジユ
ニアおよびエイチ・ワキタによつてスピーチ・コミユニ
ケーシヨン・リサーチ・ラボラトリ一・インコーポレー
テッドのモノグラフ第10巻、1973年9月、に掲載
された「音声理論の線形予測と実践」の128ページに
あるフオートランで前述されたプログラムを実行できる
ようなPDPllあるいはNOva8OOのような計算
機であつてもよい。
変換用計算機117によつて得られる予測係数Xiはゲ
ート148に加えられる。ゲート148は、参照モード
の各フレームの間、制御発生器450からの信号BS4
に制御されて、そのフレームの予測係数信号X,,・・
・・・・,Xl2を、そのフレームの期間中BSのはや
さ(1フレームにつき12)で共分散発生器111に導
くように動作する。無声検出器107はゲート350を
通して無声フレームおよびフレームの終りの間はクロツ
ク103を抑止するように計算機105内で作つた音声
標本値Srnに応答する。無声検出器107は、無声と
判断された期間中に予測パラメータ信号を発生すること
を防ぐための信号をリード線198を通してクロツク1
03のゲート350に与えるためのもので、例えばシュ
ー・ジエ・タブノブスキー等による米国特許応用、連続
番号627865で発表されているような音声信号のエ
ネルギー特性あるいは周波数特性に応答するような周知
のどのような無声検出器でもよい。共分散発生器111
は音声標本化の間、そこへ加えられる予測パラメータ信
号から得られる平均共分散行列丸に対応する複数個の信
号を発生するように動作する。
当業者に周知のように、共分散行列は選択されたパラメ
ータの平均値から予測パラメータの偏差を統計的に分析
することによつて導出される。共分散発生器は第5式に
したがつて予測係数Xiの選択された平均値を作り出す
。ここで、Nは発声中のフレーム数であり、Xinは第
n番目のフレームの第1番目の子測パラメータである。
当業者には周知のように、共分散行列Rは第6式で定義
される要素Rikから成る。共分散行列RはP行P列の
行列でP−12に対〜し144個の要素を持つ。
共分散行列R1は所与〜の話者の第1番目の発声につい
て計算された共分散行列を示す。
認識される話者のすべての発声についての平均共分散行
列Rは第7式にしたがつて〜平均をとることによつて得
られる。
ここで、Lは所与の話者の音声標本中の発声数である。
第7式は一例として示したものである。Rの計算のため
のその他の周知の公式を用いても良いことを理解された
い。このように、平均共分散行列Rは、参照モードにお
いてこれによつて参照用直交パラメータが直交パラメー
タ発生器112内で発生されるような認識される話者の
音声標本の発声の統計的な分析を表現している。共分散
発生器111は、予測パラメータXiの特別な平均値に
対応した信号および平均共分散行列Rの要素に対応した
符号とを発生するのに適合した複数個の演算ユニツトか
らなる。平均共分散行列Rの要素に対応する符号化信号
を発生する方式は第4図に示されている。第4図を参照
すると、シJャg・レジスタ401.加算器410、およ
びシフト・レジスタ412は組み合わさつて、第5式の
平均値マiに対応する信号を発生するように動作する。
シフト・レジスタ401は200個の音声標本値から成
る各フレームの間に、ゲート148を経て変換用計算機
117から来る予測係数Xl,・・・・・・,Xl2を
受けるのに適した24段のレジスタである。各フレーム
において信号Xiが第1図のゲート148を通つてレジ
スタ401に転送されるが、各フレームに対するそのた
めの励起パルスBS4をも含めて、第4図における動作
に必要な一群の制御信号を供給するために、Fbl脚発
生器450はクロツク103からの信号と論理回路13
4からの信号とに応答して動作する。12個のBS4パ
ルスはまた、この期間中シフト速度を制御するためにレ
ジスタ401に加えられる。
レジスタ401におかれた最下位段側の12個のXi信
号を加算器410の一方の入力に加えるように働く。第
5式にしたがつて、シフト・レジスタ401の出力Xi
はゲート411を経て順次加算器410に加えられる。
加算器410では、各予測パラメータXiがシフトレジ
スタ412から得られる前のフレームの対応する予測パ
ラメータXiに加算される。レジスタ412は発生器4
50からのシフト・パルスBS4Aの制御のもとでシフ
トされる。加算器410の出力は、パルスBS4Aの制
御のもとで順次レジスタ412内へシフトされる。各発
声の終了時には、シフト・レジスタ412はその発声の
予測パラメータの蓄積された総和、ΣXl,・・・・・
・ΣXl2を含むことになる。各総和は12個の予測パ
ラメータのうちの一つに対応する平均値に比例したもの
である。各フレームの開始時に、レジスタ401に記憶
されている最下位段側の12個のパラメータがシフト・
レジスタ403および405へそれぞれゲート407お
よび409を通つて並列に転送される。これは予測パラ
メータXiが得られる各フレームの開始時に生じる発生
器450から来る信号BF4の制御のもとでなされる。
シフトレジスタ405はフレームの予測パラメータXl
,・・・・・・Xl2を、発生器450からのパルスB
S4Aの制御のもとで1フレームにつき12のシフト速
度でゲート404を経て乗算器420の一方の入カへ連
続して加える。シフト・レジスタ403は巡回形のシフ
ト・レジスタであつて、記憶された予測パラメータを乗
算器420の他方の入力)連続して加えるとともに、ま
た出力パラメータをシフト・レジスタの人力に返してい
る。
レ.ジスタ403はパルスAS4Aの制御のもとで1フ
レームにつき144シフトの速度でシフトされるが、レ
ジスタ405は発生器450からのパルスBS4Aの制
御のもとに1フレームにつき12シフトの速度でシフト
される。12個のシフト制御パルスAS4Aは、連続し
た2つのBS4Aパルスの間にレジスタ405の各シフ
トごとにレジスタ403が12回連続してシフトするよ
うに発生する。
このように、乗算器420は12個の積XinXknを
得るためにシフト・レジスタ405の各?出力に対して
12個Q連続した積を与えるように動作する。すなわち
第6a式の要請と一致するようにレジスタ405の各シ
フトに対して動作するわけである。乗算器420の出力
は加算器421に加えられ、そこでは今乗算された積が
以前のフレームの対応する積の総和に加算される。
その結果の加算器421の出力はシフト・パルスAS4
Aの制御のもとにシフト・レジスタ423に加えられる
。AS4Aパルスに制御されて1フレームあたり144
シフトの速度で動作するシフト・レジスタ423は、各
フレームの終りには乗算器420の144個の各積出力
の現在の蓄積されている総和を記憶する。各発声の終了
時に、シフト・レジスタ412は第5式の平均値i1
(1=1、2c・・・・・12)に対応する12個の符
号化信号を持ち、シフト・レジスタ423は第6a式に
対応した144個の積Nの総和 Σ XinXIcnを
記憶している。
各発声のn−1終了時に、ゲート413は第3図から信
号線Aを通つて来る発声終了信号EUに応答して・りレ
ス発生器450で発生される信号EU4の制御のもとで
開かれる。
信号EU4は1フレームの間持続する。′Xl,・・・
・・・マ,2に対する符号化信号は発生器450によつ
て作られるシフト信号AS4B(1フレームあたり14
4個のパルス)の制御のもとで順次レジスタ430内に
シフトされる。シフト・レジスタ430が一ぱいになる
と、ゲート431が発生器450からの信号BF4Aに
よつて開かれ、レジスタ430内の12個の信号が並列
にシフト・レジスタ432内に転送される。
レジスタ430はすぐに信号BS4Bの制御のもとでシ
フトされる。レジスタ432は巡回形のシフト・レジス
タで発生器450からのシフト信号AS4Bの制御のも
とで動作し、それによつてレジスタ432内の12個の
信号は順次乗算器434の一方の入力にあられれ、また
レジスタ430からの1つの信号が乗算器434の他方
の入力にあられれる。このようにして、144個の積が
乗算器434の出力から順々に得られる。おのおのの連
続した発声の終了時に、シフト・レジスタ423の内容
は、シフト信号AS4Aの制御のもとに、信号EU4に
応答してゲート427を12(1フレームあたり144
個の符号の速度で)遅延シフトレジスタ435内に直列
にシフトされる。この転送中に、ゲート425は信号E
U4に関してシフトレジスタ423をクリアするように
動作する。シフトレジスタ435はシフトレジスタ43
0および432が一ぱいである期間中、ΣXinXkn
の符号化信号の出現を遅延させる働きをしている。この
ようにして、ゲート460および461から減算器43
7への入力は、減算器437の出力が第6a式と一致す
るように、第6a式に対応して並置される。減算器43
7の出力は、行列尽の要素Rikを作るためにNによる
除算器450で、第3図のゲート323から得られる信
号Nによつて除算される。各発声の終了時に、パルス発
生器450ぱ信号EU4Aに応答してシフトレジスタ4
41がASQ速度(1フレームあたり144シフト)で
右方にシフトするような信号EU4Aを供給する。
シフトレジスタ441は、記憶されている要素Rikの
総和が、加算器439で除算器450から来る要素Ri
kに加算されるために、音声標本内の発声の連続した要
素Rikの総和を記憶する。その結果の蓄積された総和
は、そのときシフトレジスタ441内に記憶されている
。全音声標本化が終つたとき、シフトレジスタ441の
内容は第6a式にしたがう平均共分散行列尽に対する総
和要素Rikである。
行列旦の要素け発生器450からのシフト信号ES4の
制御のもとでレジスタ441から読み出される。このシ
フト動作は、ゲート443は発生器450からの信号E
S4に応答してレジスタ441の出力が加算器439に
加わるのを防げ、それによつてレジスタ441をクリア
するように働く。レジスタ441の出力は、音声標本化
の終りに生じる信号ES4の制御のもとに除算器445
に加えられ、信号ES4により各ΣRik要素が第3図
のゲート325を経てカウンタ319から得られるLに
よつて除算される。除算器445の出力は、直交パラメ
ータ発生器112で用いるために信号ES4に制御され
て第1図のゲート160を通つていく。またあるいは、
平均共分散行列Rの要素を求めるようプログラムされた
PDPllあるいはNOva8OOのような汎用計算機
を豆を発生させるために用いてもよい。この目的のため
のフォ一トランプログラムは「システム1360科学技
術計算用サブルーチン・パツケージ第3版−プログラマ
用マニユアル」(プログラム番号360A−CM−03
X1第5版(1970年8月)、版権インターナシヨナ
ル●ビジネス・マシーンズ・コーポレーシヨン1966
、1967、1968)の32および33ページに発表
されている。共分散発生器111の出力Rは、制御パル
ス発生器450からの信号ES4に制御されて参照モー
ドの動作期間中、ゲート160を通つて直交パラメータ
計算機112に加えられる。計算機112は認識される
話者の音声標本の統計に基く規定された直交パラメータ
の組に対応した符号化信号を発生するように動作する。
直交パラメータは統計的に独立であつて、各直交パラメ
ータは変換用計算機117から得られる予測パラメータ
の座標軸の回転をあられしている。この手法を通して、
一群の話者には依存するが、言語的には独立な特性が得
られ、この特性は第1図の話者認証システムの基礎をな
すものである。直交パラメータ信号は、計算機111で
得られる平均共分散行列怒の信号に応答して予測パラメ
ータXiの固有ベクトル分析をすることによつて発生さ
れる。
認識される話者の発声の直交パラメータの分散をあられ
す固有値Vi(1−1、・・・・・・P)は第8式によ
つて得られる;ここでは直交パラメータの固有値(分散
)を表わし、Iは単位行列である。
第8式にもとづき、それぞれがP(12)個の要素を持
つ1組の参照用ベクトル信号Uiが第9式から得られる
;Viは第1番目の直交パラメータの固有値である。各
直交パラメータは第10式のように予測係数Xiと一意
に関係づけられている。ここでUkiは第k番目の参照
用ベクトル信号の第1番目の要素を表わす。
このように直交計算機112から12個の分散(固有値
)および144個の参照信号U1》17$゜゜8″。U
l2》12が得られるo参照用信号{Uki}は予測パ
ラメータXiを直交パラメータ座標に変換する変換係数
に相当する。それゆえ、Ukiに対応する参照用信号は
被験話者に対し、その予測パラメータから1組の直交パ
ラメータを求めるのに用いることができる。係数の組{
町}は参照モードの動作期間中、話者認識論理回路13
2からの認識コード信号1DCによつてアドレス付けさ
れて記憶115b内に記憶される。このようにして、1
組の参照用信号が記憶115b内のあらかじめ決められ
た場所におかれて各認識された話者に対して利用できる
ようにされる第1図のシステムが参照モードで動作して
いるとき分散(固有値)信号V,,・・・・・・Vl2
も同様に話者認識コード信号1Dによつてアドレス付け
されて記憶115a内に記憶される。直交パラメータ計
算機112としては、いくつかある周知のプログラムの
うちの1つによつて、第8式および第9式の固有値とそ
れに対応する固有ベクトルとを計算するようにしたPD
PllあるいはNOva8OOのような汎用計算機でも
良い。
この目的に適した固有値Viおよび変換係数{Uki}
を求めるフオートランプログラムとしては、前述のIB
Mプログラマ用マニユアルの164ページに掲載された
ものがある。計算機112で求められた直交パラメータ
に対応する信号Wi(但しi−1、2、・・・・・・1
2)はゲート156を通つて参随用平均値発生器113
に加えられる。
発生器113は第11式によつて計算機112から得ら
れる各直交パラメータ信号Wiに対し平均値を生じるよ
うにされた算術演算回路からなる。ここでWinはフレ
ーム旦での第1番目の直交パラメータ信号であり、Nl
は認識される話者の第1番目の発声中のフレーム数であ
る。
そしてLは認識される話者の音声標本内の総発声数であ
る・第11式は一例として挙げたものである。WOにつ
いての他の公式を用いても良いことを理解されたい。第
11式にしたがつて、発生器113はカウンタの制御の
もとに符号化信号に対して働く総和形の論理回路からな
る。第5図は第11式にしたがつて直交パラメータの平
均値Wl,・・・・・・′Wl2を求める方法を示して
いる。
計舞機112が直交予演uパラメータ信号を供給すると
き、信号Wl,・・・・・・Wl2が、参照モードの各
フレームにおいて、信号ES4に制御されてゲート15
6から第5図の加算器502の一方の入力に順次入力さ
れる。発生器112の最初のフレーム出力の際には、前
記の最初のフレームの12個のWi信号は加算器502
を通つて、制御発生器540からのシフト信号BS5に
制御されつつシフトレジスタ504内に順次記憶される
。第5図の回路の動作に用いられるBS5シフトパルス
およびその他の制御信号の発生は、それぞれクロツク1
03および制御論理回路134から来る信号線Aおよび
G上の信号に応答する発生器540において制御されて
いる。発声のそれに続く各フレームにおいては、発生器
112から来るそのフレームのWi信号出力は、第11
式の添字で示されるように、レジスタ504内の対応す
る以前に記憶された値に加えられ、その結果の総和はレ
ジスタ504に記憶されている。BS5シフト信号は総
和の際にレジスタ504の動作を制御する。発声の終り
に、ゲート508は発生器540から来るEU5信号に
制御されて開かれ、それによつてレジスタ504からの
信号は順次Nによる除算回路510の一方の入力に加え
られる。
発声中のフレーム数に相当する信号が第3図のゲート3
23からNによる除算回路510の他方の入力に加えら
れる。その結果、回路510の出力は、その発声につい
ての直交パラメータWiの平均値となつて、である。
シフトレジスタ514は、音声標本内の以前の発声につ
いて平均をとつた直交パラメータを保持している。
加算器512はNによる除算回路510から来る直父パ
ラメータの平均値をシフトレジスタ514内にある対応
する以前に記憶された平均値の総和に次々と加算するよ
うに動作する。音声標本の終了時にゲート517は発生
器540からのES5信号に制御されて開かれ、レジス
タ514の出力は逐次BSの速さ(フレームあたり12
回のシフト)でLによる除算器512に加えられる。回
路521の他方の入力は、回路521の出力が音声標本
についての12個の直交パラメータに対して平均値を与
えるように、第3図のゲート325を通つて発声カウン
タ319から得られる。第11式にしたがつて求められ
たこれらの平均値信号引は順次シフトレジスタ523内
に挿入され、レジスタ523から並列に読み出され、そ
してゲート175を経て記憶115c内に挿入される。
ゲート175は発生器540からの信号ES5Aによつ
て制御される。制御論理回路134によつて決められた
参照モードの動作の際には、記憶115cと関連づけら
れているアドレス論哩回路115dは、話者認識論理回
路132から来るアドレス・コードIDに制御されて、
音声標本の直交パラメータ信号の平均値を選択した位置
に置く。参照モードq終りには、記憶115a2115
bおよび115c内に、所与の認識される話者に対する
12個の直交パラメータの分散Viに対応する1組の信
号、後に得られるテスト用予測パラメータ信号をテスト
用直交パラメータ信号の規定された組に変換するのに適
合した参照係数Ukiに対応する1組の信号および12
個の直交パラメータの平均値豆1に対応する1組の信号
が含まれている。
各組は話者認識コード1DCによつてアドレス可能であ
る。第1図の参照モードの動作はこれによつて認識され
る話者に対して完了した。記憶115が、参照モード動
作を繰り返すことによつて複数の認識される話者に対応
する参照用信号で満たされた後に、第1図の認識システ
ムが未知の被験話者の主張する身元を認証するために用
いられることになる。説明のために、複数の認識される
話者に対応する参照用信号が記憶された後に、一人0未
知の被験話者の音声信号が信号線101からフイルタお
よび標本回路102に加えられている場合を仮定する。
話者認識コード発生器132は未知の被験話者の主張す
る身元に対応するコードにセツトされる。モード選択器
はテストモードにセツトされ、論理回路134から信号
TESTおよびSが活性化される。信号TESTおよび
Sに制御されて、テスト音声信号はフィルタおよび標本
化回路102で標本化される、そしてテスト音声信号の
符号化標本値は順々に線形予測係数計算機105に加え
られる。
前述の通り、計算機105は第3図のカウンタ305に
よつて決まるBS信号の速度で、各フレーム期間に12
個の線形予測係数Al,・・・・・・Al2の組を発生
する。各フレームにおいて200個の音声標本値Sl,
・・・・・・S2OOが与えられる。係数Al,・・・
・・・A゜l2は係数変換用計算機117によつて、も
う一つの表現、すなわちパーコール係数に変換され、そ
れによつて被験話者に対応する予測パラメータXiの組
が求められて用いられることになる。予測パラメータ信
号Xiはゲート163を通しで被験話者用直交パラメー
タ発生器119に加えられる。
これと並行して、主張された身元に対応する参照係数信
号Ul,l,・・・・・・Ul2,l2がゲート165
を経て被験話者直交パラメータ発生器119内に読み出
されるように、記憶115bに対して主張された身元の
アドレスの所へ問合わせが生じる。変換用計算機117
からの被験話者の予測パラメータと記憶115bからの
主張された身元の参照係数信号とに応答して、発生器1
19は第12式にしたがつて各フレームごとにテスト用
直交予測パラメータZl,・・・・・・Zl2を発生す
るように動作する。ここでXiは未知の話者のテスト用
予測パラメータである。
発生器119は乗算装置および第12式の添字にしたが
つて積の総和をとる回路から構成される。第6図は、テ
ストモードの際に、主張された身元についての音声標本
から得られる記憶された参照信号と被験話者に対し係数
変換用計算機117から得られる予測パラメータとから
各フレームに対しテスト用直交パラメータの組発生する
のに適した方式を示している。
テスト・モードの開始時に、記憶115bに主張された
身元のIDCコードによつてアドレスされるような問合
せを行なう。主張された身元に関する記憶115bから
の参照信号はゲート165を経てシフトレジスタ601
に並列に加えられる。転送が終ると144個の係数咽が
レジスタ601に置かれることになる。テスト・モード
の各フレーム内において、ゲート163から来た12個
の予測パラメータが順々にシフトレジスタ602内に置
かれる。1つのフレームに対応する12個のパラメータ
Xl,・・・・・・Xl2がレジスタ602の最下位側
の12段内にシフトされた後に、これらのパラメータは
レジスタ602から並列に読み出され、そこから制御パ
ルス発生器620からの信号BF6によつて制御されて
ゲート609を経てシフトレジスタ607へ加えられる
シフトレジスタ601および607は巡回形のシフトレ
ジスタである。
シフトレジスタ601は発生器620からの信号AS6
に制御されてASのはやい速度(1フレームあたり14
4回のシフト)で動作する。シフトレジスタ607は信
号AS6に制御されてシフトレジスタ601の各巡回ご
とに12回巡回する。レジスタ601および607の出
力はゲート603および605を通つて乗算器611に
加えられ、そこでは積UkiXiが作られる。このよう
にして12個の予測パラメータの各組に対し乗算器61
1から144個の積が得られる。12個p連続した積の
組ごとの総和が加算器610で作られ、その出力は1デ
イジツトの遅延記憶素子612およびゲート613を経
てそれ自身に返される。
乗賠611および加算器610はASの速度(1フレー
ムあたり144パラメータ)で動作する。12個のAS
信号が終ると、発生器620からの信号BS6がゲート
185を開き、第12式にしたがう直交パラメータが、
ゲート185を通つてテスト用平均値および分散発生器
123に転送される。
直交パラメータ信号の転送中は、次の直交パラメータの
算出が始められるように、ゲート613は発生器620
からの信号BS6によつて禁止される。12個の直交パ
ラメータが第6図の回路で算出されているフレームの終
りには、そのあとに続くフレームに対応する予測パラメ
ータの次の組がレジスタ602からレジスタ607に転
送されて、前記の次に来るフレームに対応する直交パラ
メータを算出する。
テストモードの動作中は、発生器119から得られる被
験話者に対するフレームの直交パラメータZl,・・・
・・・Zl2は発生器620からの信号BS6による制
御のもとで、ゲート185を通してテスト用平均値およ
び分散発生器123に加えられる。発生器123は第1
3式および第14式にしたがつて、被験話者の各直交パ
ラメータの乎均i1に対応する信号と、各被験話者の直
交パラメータの分散iに対応する信号とを発生するよう
に動作する。発生器123は要求される総和および平均
操作を行なうのに適した算術演算装置から構成される。
第7図に、第6図から得られる被験話者の音声標本に関
する直交パラメータ信号の平均値司 に対応する信号と
、第14a式にしたがつて各直交パラメータに対する分
散信号Viとを発生するように動作する算術演算装置の
構成を示している。ゲルト185からの直交パラメータ
信号Zl,・・・・・・Zl2はBSの速度(1フレー
ムあたり12個のパラメータ)で回路123内の加算器
702に順次加えられていく。シフトレジスタ704は
、直交パラメータの総和ΣZl,・・・・・・ΣZl2
を記憶する。制御発生器620からの各BS6パルスご
とに、レジスタRO4の1つの直交パラメータ出力がゲ
ート185から来る対応する直交パラメータに加算され
、その結果はレジスタ704内に挿入される。発声の終
りには、発生器R2OからO信号EU7(Endutl
erance・・・・・・発声終了)の制御のもとで、
レジスタ704の内容がゲート705を経て順次Nによ
る除算器709に加えられる。これと同時に、レジスタ
704の出力は次の発声への準備のための信号EU7に
応答してゲート706によつてクリアされる。Nによる
除算回路709の他方の入力はゲート323を通して第
3図のクロツク103のフレームカウンタ317から得
られ、それによつて回路709の出力は第13式にした
がう発声のテスト用直交パラメータ信号の平均i1とな
る。直交信号の平均値は自乗回路Rllに加えられて、
減算器715の一方の入力に加えられる。
符号化信号(11)2を算出する。このとき、シフトレ
ジスタRO4の逐次的な出力はまた、ゲート705を通
つて自乗回路712にも加えられる。自乗回路712は
信号(Ii)2を算出するように動作する。これらの信
号は、信号(Zi)2の平均値が自乗回路714から減
算器715の他方の入力に加えられるように、Nlによ
る除算回路714の一方の入力に加えられる。減算器7
15の出力は第14a式にしたがつて分散信号Viを算
出するようにNによる除算回路717に加えられる。こ
のようにして、未知の被験話者に対応するテスト用直交
パラメータの平均値信号i1および分散信号Viが算出
されて偏差活号発生器127で用いられる。信号Yiお
よびViは、被験話者の予測パラメータの独立した固有
値分析から求めるのではなく、主張された身元に関する
記憶内の参照信号{Uki}と、被験話者に関する予測
パラメータとから求められている。各テスト用直交パラ
メータに対する発生器123の出力、平均値信号司 お
よび分散信号Viぱ、発生器870からの信号BS8A
によつて制御され、それぞれゲート187および189
を経て偏差信号発生器127に加えられる。
同様に、主張している身元の参照用直交パラメータの平
均値Wiおよび各参照用直交パラメータの分散iが記憶
115aおよび115cからそれぞれゲート179およ
び181を経て偏差信号発生器127に加えられる。被
験話者の直交パラメータと、主張している身元について
の記憶内の参照用直交パラメータとの特性の差異に相当
する偏差信号が第15式にしたがつて作り出される。偏
差信号ぱ、第15式の第1項にのみしたがつて平均値の
差異だけから求めてもよい。
すでに第15式で示したように、各直交パラメータに対
する偏差信号の成分は、身元確認の主張が出ている参照
用話者の予測分析から導びかれる参照用直交パラメータ
の平均VViと、被験話者の予測パラメータと、主張し
ている身元の参照用係数信号とを組み合わせて求められ
るテスト用直交パラメータの平均71との差異から得ら
れる。音声標本に関して相対的に一定(分散が小さい)
である直交パラメータには、より大きな重み付けを与え
、また大きな変化のある直交パラメータに対しては意味
のある程度に小さ℃・重み付けを与えるために、平均の
差の自乗(Wi−η)2は参照用直交パラメータの分散
Viで除算し、(Vi−Vi)2はVi2で除算してい
る。このようにして偏差信号は実際上、音声標本に関し
て相対的に一定であるような直交パラメータの関数とな
つている。この方法によつて、偏差信号は言語的には独
立であつて、話者には強く依存するような直交パラメー
タの間の差異に相当するものとなる。偏差信号発生器1
27は、必要な商および第15式の添字に関しての商の
総和とを算出するのに適した算術演算装置から構成され
ている。
第8図は第15式に従つて偏差信号dを作り出すための
構成方法を示している。テストモードの開始時において
、主張している身元についての記憶内の参照用直交パラ
メータの平均値豆,からW青は、ゲ一1・181を通つ
て記憶115cからシフトレジスタ801へ転送される
。同様に、主張されている身元についての記憶内の参照
用分散信号盾から▼iは、ゲート179を通つて記憶1
15aからシフトレジスタ805へ転送される。被験話
者の音声標本化が終ると、テスト用直交パラメータの平
均値石からヨ1に対応する信号が制御発生器870から
の信号BS8Aによつて制御されてゲート187を経て
テスト用発生器123からシフトレジスタ803へ転送
され、被験話者の分散信号V1からVl2が信号BS8
Aの制御のもとでゲート189を通つて発生器123か
らシフトレジスタ807へ転送される。レジスタ805
および809への転送が完了すると、レジスタ801,
803,805および807に記憶された符号化信号が
、信号BS8Bに制御されてBSの速度(1フレームに
付き12個)で順次読み出されていくようにゲート81
0,812,814および816が発生器870からの
信号BS8Bによつて開かれる。減算器820は、順次
あられれてくる石信号を、対応する信号から減算して(
コ一万)信号を算出するように動作する。
減算器820の出力は自乗回路823で処理されたあと
、除算器822の一方の入力に加えられ、また、シフト
レジスタ805の出力は除算器822の他方の入力に加
えられ、それによつて除算器822は、を発生するよう
に動作する。除算器822の出力は加算器825の一方
の入力に加えられ、その他方の入力は遅延回路827お
よびゲート829を含む帰還路からもどつてくる。加算
器825は自乗回路823の12個の連続した出力の総
和をとるように動作し、その結果として総和の行なわれ
ている期間の終りに得られる信号は、である。
総和が終ると、信号EF8によつてゲート829は閉じ
られ、総和信号は信号EF8に制御されてゲート851
を通つていく。減算器831はレジスタ805から得ら
れる参照用分散信号Viをレジスタ807内の対応する
被験話者の分散信号Viから減算するように動作する。
減算器831の出力は除算器835に加えられ、このも
う一方の入力には2倍乗算器833を通つてレジスタ8
05からきたものが加えられる。このようにして、に相
当する信号が発生される。
自乗回路837とは、除算器835の出力をそれ自身に
乗算するもので、その結果の信号を加算器839に加え
る。加算器839は、に相当する信号を生じるように動
作し、そのもう一方の入力は遅延回路840およびゲー
ト842を含む帰還路から戻つてくるものである。
加算器839で12個の信号の総和が終ると、ゲート8
42は信号EF8によつて閉じられ、ゲート850は発
生器870からの信号EF8によつて開かれる。それか
ら加算器825および839の出力が、ゲート850お
よび851を通つて加算器843に加えられ、ここで第
15式に従う符号化偏差信号が作り出される。偏差信号
発生器127の出力は、被験話者の特性と、彼の主張す
る以前に認識されている話者の特性との差異を示すただ
1つの信号1である。
この信号は、発生器870からの信号EF8に制御され
てゲート190を経て比較器129の一方の人力に加え
られる。比較器129の他方の入力は、被験話者の認証
に際して許容し得る最大の偏差に相当するあらかじめ決
められた大きさの符号化閾値信号である。発生器127
からの偏差信号の方がこの閾値より大きいとき比較器1
29の1番目の出力が生じて、被験話者の主張する身元
確認が拒絶されたことを示す。発生器127からの偏差
信号d力号黴器129に加えられた閾値符号と等しいか
あるいはより小さいときは、被験話者の特性と記憶11
5に記憶されている参照用の特性との差異は、話者の主
張する身元確認を受理できる程度のものである。都合の
よいことに哄直交パラメータ特性の比較は、非常に話者
への依存度が高くしかも実質的には言語的な独立性のあ
る特性の比較ということになる。
第1図のシステムの構成においては、参照モード動作時
に、参照用係数信号および直交パラメータ信号を発生し
て記憶するということだけが要求される。被験話者の直
交パラメータは独立して作り出されるのではなく、参照
用係数信号および被1験話者の予測パラメータとから発
生されるのであるから、テストモード動作時に得られる
偏差信号は第1図のシステムから得られる参照用特性と
テスト用特性との差異に対し非常に感度の高いものとな
る。さらに、テスト用直交パラメータの発生はオンライ
ンでの認証を可能にするようなより短時間でなされるよ
うなものにもできる。第1図の話者認証方式は、未知の
話者を以前に認識されている複数の話者のうちの一人と
して認識できるように、第2図に示したごとく変更して
もよい。未知の話者の認識には未知の話者から求められ
た直交パラメータ特性を、以前に認識された各話者の対
応する直交パラメータ特性と比較すること、および以前
に認識された話者の直交パラメータと最もうまく合致し
た身元を選ぶことが必要である。このようなわけで、参
照モード、テストモードの動作が共に必要である。話者
認識方式の参照モードにおいて、認識された話者の音声
標本の予測分析から求められる直交パラメータの規定さ
れた組に基づいて、係数信号、平均値信号、および分散
信号が認識された各話者に対して作り出されて記憶され
る。
話者認識での参照モードは第1図で述べた参照モードと
実質的に同じである。話者認識におけるテストモードで
は、予測分析が未知の話者の発声についてなされ、それ
に対応する予測パラメータが求められて記憶される。
第1番目の認識されている話者の係数信号が記憶から検
策され、未知の話者の予測信号と組み合わされて一組の
テスト用直交予測パラメータ信号を作り出す。算出され
たテスト用直交予測パラメータ信号の平均値と分散が求
められ、記憶内の第1番目の認識されている話者の参照
用平均値および分散と比較される。比較の結果得られる
偏差信号はそのあと第1番目の認識されている話者の認
識コードとともに最小偏差信号検出器に加えられる。テ
スト動作は認識されている各話者に対し順々に繰り返え
され、最小偏差信号を検出して、それに対応する身元と
ともに記憶される。すべてのテスト動作をして求まる最
小偏差信号は、未知の話者の身元を決定するために、未
知の話者に対して求められた特性と最もよく一致する認
識されている話者の特性に関係している。本発明を説明
する話者認識システムは第2図に示すとおりである。
第2図の構成は、未知の話者について求められた直交予
測特性を複数の認識された話者の対応する記憶内の特性
と比較するのに必要なテスト動作の系列を制御するため
に、話者認識カウンタ210が用いられている点を除い
ては、第1図の認証システムと実質的に類似のものであ
る。予測パラメータ用記憶215が、テスト動作の系列
に際し未知の話者の予測パラメータを保持するために付
け加えられ、また最/]・偏差信号検出器230が最小
偏差信号を計算し前記の最小偏差信号に対応する身元を
記憶するために付け加えられている。第2図を見ると、
信号REFおよびSが参照モード動作時に制御論理回路
134によつて供給されている。
既知の話者の身元に応答して、論理回路132は参照用
認証コードRIDを与え、RIDは認識された話者の参
照用係数および平均値信号と分散信号とが置かれている
記憶場所にアクセスするためアドレス論理回路115d
に加えられる。認識される話者の発声は、フイルタおよ
び標本化回路102で標本化され、その結果の標本値は
第1図に関して述べたようにフレームごとに線形予測係
数計算機105に加えられる。計算機105で発生され
た線形予測係数ぱ変換用計算機117により選択された
予測パラメータ、すなわちパーコールパラメータに変換
され、求められた予測パラメータは共分散用計算機11
1に供給される。発生器112からの参照用直交パラメ
ータ係数信号および分散信号は論理回路115dによつ
てアドレス付けされて、それぞれ記憶115aおよび1
15bに置かれ、また発生器113によつて求められた
参照用直交パラメータ平均値は同様に記憶115cに記
憶される。第2図における参照モード動作は実質的に第
1図について述べられたものと同じである。未知の話者
の発声がフイルタおよび標本化回路102に加えられる
テストモードの開始時には、話者認識カウンタ210は
最初にアドレスコードIDCが第1番目の認識された話
者に対応するようにセツトされる。
未知の話者の発声に対応する変換用計算機117から来
る予測パラメータは、ゲート148を経て、予測パラメ
ータ記憶215内に置かれて、そこからゲート163を
通つてテスト用直交パラメータ発生器119へ転送され
る。第1番目の認識された話者のIDCによつてアドレ
スされる記憶内の参照用係数信号は記憶115bから読
み出され、ゲート165を経て発生器119に加えられ
る。第1図に関して前述したように、発生器119は記
憶内の認識された話者の参照用係数信号と未知の話者の
予測パラメータに応答して直交予測パラメータ信号の規
定された組を算出するように動作する。これらの直交予
測パラメータ信号はテスト用平均値および分散発生器1
23へ転送されて、そこで、第1図に関して述べたよう
にして、直交パラメータ平均および分散信号が算出され
る。第1番目の認識された話者に対する参照用平均値お
よび分散信号は、それぞれ、記憶115aおよび115
cから得られ、ゲート179および181を経て偏差信
号発生器127に加えられる。
発生器123からのテスト用平均値および分散信号と記
憶115a及び115cからの参照用平均値および分散
信号とに応答して、参照とテストとの特性の差異を表わ
す符号化偏差信号が発生器127で算出される。この符
号化偏差信号は最小偏差信号検出器230に転送され、
カウンタ210は次の認識された話者にアドレスされる
ように増分される。テスト動作は認識された各話者に対
して繰返えされ、検出器230は最小偏差信号の身元を
記録する。最後の認識されている話者のテスト動作が完
了すると、検出器230は最小偏差信号に相当する身元
を保持している。この身元は未知の話者の身元を与える
ために読み出される。第9図は最小偏差信号検出器23
0に適した論理構成を示している。
第9図において、シフトレジスタ903は、レジスタ9
03と発生器127からの偏差信号を記憶するレジスタ
905との比較から得られる最小偏差信号を記憶してい
る。シフトレジスタ901は最小偏差信号の認識コード
DCを記憶している。レジスタ905は現在の偏差信号
を記憶し、シフトレジスタ907は現在の偏差信号に対
応するIDCコードを記憶している。最初に、最小偏差
信号を記憶するシフトレジスタ903は最大値にセツト
されている。
最初のテスト操作の終りに発生器127から得られる最
初の偏差信号符号は、レジスタ905内に置かれ、対応
するDCコードはレジスタ907内に置かれる。レジス
タ903からの偏差信号符号は、制御発生器940から
のシフト信号DSの制御のもとでゲート934を経て比
較器913の一方の入力に加えられ、また遅延回路91
1を通つてゲート922の一方の入力に加えられる。レ
ジスタ905からの偏差信号符号はゲート936を経て
比較器913の他方の入力に加えられまた、遅延回路9
15を通つて、ゲート924に加えられる。最初のテス
ト操作の間?ζレジスタ905内の符号はレジスタ90
3内の最大の値の符号よりも小さいので、比較器913
は2つの偏差信号符号のどちらが小さいかを検出して、
制御発生器940から来る信号DS2が生じるとゲート
924が開くようにセツトされる、またレジスタ905
からの符号はバツフアゲート930を経て、レジスタ9
03内に挿入される。また同時に、レジスタ907内の
認識コードIDCがゲート926を通つてレジスタ90
1に転送される。遅延回路909,911,915およ
び917は比較器913での比較が完了したあと、ゲー
ト920,922,924および926のうちの選択さ
れたゲートに対して動作するように充分の長さをもつも
のとする。次のテスト操作の終りに、発生器127から
得られる第2の偏差信号符号がレジスタ905内に挿入
され、この偏差符号がレジスタ903内の偏差符号と比
較される。
レジスタ903内の符号は、以前に得られた最小偏差符
号に相当する。比較器913はレジスタ903および9
05内の符号のうちの小さい方がレジスタ903内に挿
入されるように動作し、また、より小さい偏差信号に対
応する認識コードをレジスタ901内に転送させるよう
に動作する。このようにして各テスト操作が終ると、よ
り小さい偏差信号符号が比較器913によつて選択され
て、レジスタ903内に記憶される。最終のテスト操作
が終ると、テスト操作の結果として、最小偏差信号がレ
ジスタ903内に記憶され、対応する認識コードがレジ
スタ901内に記憶される。このときのレジスタ901
内の認識コードが直交パラメータ特性が未知の話者の直
交パラメータ特性と最もよく一致する認識されている話
者の認識コードとなつている。未知の話者はこれによつ
て認識される。
【図面の簡単な説明】
一例として挙げた本発明の実施例が以下の図面を参照し
つつ述べられる。

Claims (1)

  1. 【特許請求の範囲】 1 一組の参照用予測パラメータを認識される話者の音
    声標本の予測分析から算出し、前記参照用予測パラメー
    タから前記の認識される話者の身元を表わす一組の一次
    信号を発生し、一組のテスト用予測パラメータを未知の
    話者の音声標本の予測分析から算出し、前記テスト用予
    測パラメータから一組の二次信号を発生し、前記一次信
    号と前記二次信号とを比較して、前記未知の話者の仮定
    した身元を認証する未知の話者の身元を確認する方法に
    おいて、前記一組の一次信号@W@iを発生することは
    前記一組の参照用予測パラメータXiからとり出された
    一組の参照用係数Ukiと前記一組の参照用予測パラメ
    ータXiとを掛け算することを含み、前記一組の二次信
    号@Z@iを発生することは前記一組のテスト用予測パ
    ラメータと前記参照用係数とを掛け算することを含むこ
    とを特徴とする話者の身元確認方法。 2 特許請求の範囲第1項に記載の方法において、前記
    一組の参照用予測パラメータが前記一組の参照用係数に
    よつて一組の参照用直交予測パラメータ信号に変換され
    ること、前記一組の一次信号が前記認識される話者の音
    声標本に関する前記参照用直交予測パラメータ信号の平
    均値を表わす一組の信号を含むこと、前記「組のテスト
    用予測パラメータが前記一組の参照用係数によつて一組
    のテスト用直交予測パラメータ信号に変換されること、
    および前記一組の二次信号が前記一組のテスト用直交パ
    ラメータ信号の平均値を表わす信号を含むことを特徴と
    する話者の身元確認方法。 3 特許請求の範囲第2項に記載の方法において、前記
    一組の一次信号がさらに、前記一組の参照用直交予測パ
    ラメータ信号の分散を表わす一組の信号を含むこと、お
    よび前記一組の二次信号がさらに前記一組のテスト用直
    交パラメータ信号の分散を表わす一組の信号を含むこと
    を特徴とする話者の身元確認方法。 4 特許請求の範囲第1項ないし第3項のいずれかに記
    載された方法において、一組の参照用予測パラメータを
    複数の認識される話者のそれぞれの音声標本の予測分析
    から算出し、前記一組の一次信号および前記一組の参照
    用係数信号を前記認識される各話者に対し発生し、未知
    の話者のテスト用予測パラメータ信号と前記未知の話者
    について仮定した身元を表わす認識されている話者の参
    照用係数信号とから認識された各話者に対応して一組の
    二次信号を発生し、前記の認識される各話者の一次信号
    を対応する二次信号と比較することを特徴とする話者の
    身元確認方法。 5 特許請求の範囲第4項に記載された方法において、
    認識された各話者の前記一次信号と対応する二次信号と
    の比較によつて認識された各話者の前記の一次信号と前
    記の対応する二次信号との間の差異を表わす三次信号を
    発生し、最小の三次信号が前記未知の話者の身元を決定
    するために検出されることを特徴とする話者の身元確認
    方法。 6 特許請求の範囲第1項から3項いずれかに記載され
    た方法において、前記一次信号と前記二次信号との比較
    によつて前記一次信号と前記二次信号との間の差異をあ
    らわす三次信号を発生し、さらに認証閾値信号を発生し
    前記三次信号を前記認証閾値信号と比較することによつ
    て、前記未知の話者について仮定した身元が受理される
    かあるいはまた拒絶されることを特徴とする話者の身元
    確認方法。 7 認識される話者の発声の予測分析から一組の参照用
    予測パラメータを作り出すための手段と、前記参照用予
    測パラメータに応答して前記認識される話者の身元を表
    わす一組の一次信号を発生する手段と、未知の話者の発
    声の予測分析から一組のテスト用予測パラメータを作り
    出すための手段と、前記一組のテスト用予測パラメータ
    から一組の二次信号を発生する手段と、前記一組の一次
    信号と前記一組の二次信号とを比較して前記未知の話者
    の仮定した身元を認証する手段とを含む未知の話者の身
    元の確認する装置において、前記一組の一次信号@W@
    iを発生する手段は前記一組の参照用予測パラメータX
    iからとり出された一組の参照用係数Ukiと前記一組
    の参照用予測パラメータXiとを掛け算する手段112
    を含み、前記一組の二次信号@Z@iを発生する手段は
    前記一組のテスト用予測パラメータと前記参照用係数と
    を掛け算する手段119を含むことを特徴とする話者の
    身元確認装置。 8 特許請求の範囲第7項記載の話者の身元確認装置に
    おいて、前記一組の一次信号を発生する前記手段が、前
    記認識された話者の発声の言語的な意味内容とは実質的
    に独立した一組の直交予測パラメータ信号を発生する手
    段と、前記直交予測パラメータ信号に応答して、前記認
    識された話者の発声に関する前記直交予測パラメータ信
    号の平均値を表わす一組の信号を発生する手段とを含む
    ことを特徴とする話者の身元確認装置。 9 特許請求の範囲第8項記載の話者の身元確認装置に
    おいて、前記一組の二次信号を発生する前記手段が、前
    言一組の参照用係数信号と前記一組のテスト用予測パラ
    メータ信号とに応答して、一組のテスト用直交予測パラ
    メータ信号を発生する手段と、テスト用直交予測パラメ
    ータ信号に応答して、前記テスト用直交予測パラメータ
    信号の平均値を表わす一組の信号を発生する手段とを含
    むこと、および前記比較手段が前記参照用直交予測パラ
    メータの平均値信号を前記テスト用直交予測パラメータ
    の平均値信号と比較するための手段を含むことを特徴と
    する話者の身元確認装置。 10 特許請求の範囲第9項記載の話者の身元確認装置
    において、前記の直交予測パラメータの平均値を比較す
    る手段が、前記参照用直交予測パラメータの平均値信号
    と前記テスト用直交予測パラメータの平均値信号との間
    の差異を表わす三次信号を発生する手段を含むことを特
    徴とする話者の身元確認装置。 11 特許請求の範囲第10項記載の話者の身元確認装
    置において、さらに、前記参照用直交予測パラメータの
    平均値信号間の許容しうる差異を表わす閾値信号を発生
    するための手段と、前記三次信号を前記閾値信号と比較
    するための手段とを含むことを特徴とする話者の身元確
    認装置。 12 特許請求の範囲第7から10項までのいずれかに
    記載の話者の身元確認装置において、複数の認識された
    話者の各人を表わす一組の一次信号と、認識された各話
    者に対応する一組の参照用係数信号とを記憶する手段を
    含むこと、未知の話者に対して仮定した身元を表わして
    いる認識された各話者に対応する一組の二次信号を発生
    するよう構成されていること、また前記比較手段が一次
    信号の組と認識された各話者の二次信号の組とを比較す
    るように動作することを特徴とする話者の身元確認装置
    。 13 前記第12項に記載の話者の身元確認装置におい
    て、さらに、認識されている各話者に対する前記の比較
    手段によつて作り出される前記三次信号に応答して、前
    記三次信号の最小のものを検出する手段を含んでおり、
    前記最小の三次信号とは前記認識されている話者の前記
    参照用直交予測パラメータの平均値信号と対応するテス
    ト用直交予測パラメータの平均値信号との間で最もよく
    合致したものを表わすこと、および前記最小の三次信号
    を発生した認識されている話者に対応する認識信号を発
    生する手段を含むことを特徴とする話者の身元確認装置
    。 14 前記第7から13項までのいずれかに記載された
    話者の身元確認装置において、前記一組の参照用予測パ
    ラメータが、前記発声の線形予測分析による一組の直交
    パラメータから成ることを特徴とする話者の身元確認装
    置。
JP51157680A 1975-12-31 1976-12-28 話者の身元確認方法および装置 Expired JPS5941600B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US000000645520 1975-12-31
US05/645,520 US4032711A (en) 1975-12-31 1975-12-31 Speaker recognition arrangement

Publications (2)

Publication Number Publication Date
JPS5293207A JPS5293207A (en) 1977-08-05
JPS5941600B2 true JPS5941600B2 (ja) 1984-10-08

Family

ID=24589348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51157680A Expired JPS5941600B2 (ja) 1975-12-31 1976-12-28 話者の身元確認方法および装置

Country Status (4)

Country Link
US (1) US4032711A (ja)
JP (1) JPS5941600B2 (ja)
DE (1) DE2659083C2 (ja)
GB (1) GB1556218A (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2720666A1 (de) * 1977-05-07 1978-11-09 Philips Patentverwaltung Verfahren und anordnung zur geraeuschanalyse
JPS57500901A (ja) * 1980-05-19 1982-05-20
JPS58196595A (ja) * 1982-05-12 1983-11-16 日本電気株式会社 パタ−ン特徴抽出装置
GB2139389A (en) * 1983-04-29 1984-11-07 Voice Electronic Technology Li Identification apparatus
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US5241649A (en) * 1985-02-18 1993-08-31 Matsushita Electric Industrial Co., Ltd. Voice recognition method
WO1987000332A1 (en) * 1985-07-01 1987-01-15 Ecco Industries, Inc. Speaker verification system
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5054083A (en) * 1989-05-09 1991-10-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of an unknown person
US5345535A (en) * 1990-04-04 1994-09-06 Doddington George R Speech analysis method and apparatus
US5193142A (en) * 1990-11-15 1993-03-09 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture gaussian densities for speech-unit models in speech recognition systems
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
EP0530645B1 (en) * 1991-08-30 1999-07-14 Texas Instruments Incorporated Telephone signal classification and phone message delivery method and system
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5623539A (en) * 1994-01-27 1997-04-22 Lucent Technologies Inc. Using voice signal analysis to identify authorized users of a telephone system
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
DE10144087B4 (de) * 2001-09-08 2008-10-30 Promediascan Ag Verfahren zur Erkennung und Registrierung urheberrechtlich geschützter Musiksequenzen in Rundfunk- und Fernsehprogrammen
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
FR2881867A1 (fr) * 2005-02-04 2006-08-11 France Telecom Procede de transmission de marques de fin de parole dans un systeme de reconnaissance de la parole
DE102006047982A1 (de) * 2006-10-10 2008-04-24 Siemens Audiologische Technik Gmbh Verfahren zum Betreiben einer Hörfilfe, sowie Hörhilfe
CN107527620B (zh) 2017-07-25 2019-03-26 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN109470389A (zh) * 2018-11-27 2019-03-15 上海应用技术大学 应变式扭矩测量系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3466394A (en) * 1966-05-02 1969-09-09 Ibm Voice verification system
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer

Also Published As

Publication number Publication date
DE2659083C2 (de) 1984-04-12
DE2659083A1 (de) 1977-07-14
GB1556218A (en) 1979-11-21
US4032711A (en) 1977-06-28
JPS5293207A (en) 1977-08-05

Similar Documents

Publication Publication Date Title
JPS5941600B2 (ja) 話者の身元確認方法および装置
US3700815A (en) Automatic speaker verification by non-linear time alignment of acoustic parameters
US4908865A (en) Speaker independent speech recognition method and system
US4038503A (en) Speech recognition apparatus
US4092493A (en) Speech recognition system
CA1172363A (en) Continuous speech recognition method
US5339385A (en) Speaker verifier using nearest-neighbor distance measure
US4489435A (en) Method and apparatus for continuous word string recognition
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US4087632A (en) Speech recognition system
US20070124145A1 (en) Method and apparatus for estimating discriminating ability of a speech, method and apparatus for enrollment and evaluation of speaker authentication
JPS58134698A (ja) 音声認識方法および装置
CN101923855A (zh) 文本无关的声纹识别系统
JPS6226039B2 (ja)
EP0118484B1 (en) Lpc word recognizer utilizing energy features
Sorokin et al. Speaker verification using the spectral and time parameters of voice signal
AU580659B2 (en) Individual recognition by voice analysis
US6823305B2 (en) Apparatus and method for speaker normalization based on biometrics
Nguyen et al. Temporal decomposition: A promising approach to VQ-based speaker identification
CN112951256A (zh) 语音处理方法及装置
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Genoud et al. Deliberate Imposture: A Challenge for Automatic Speaker Verification Systems.
EP0190489B1 (en) Speaker-independent speech recognition method and system
CA1180813A (en) Speech recognition apparatus
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM