JPH05313689A

JPH05313689A - 話者認識方式

Info

Publication number: JPH05313689A
Application number: JP4117379A
Authority: JP
Inventors: Shingo Nishimura; 新吾西村; Masayuki Unno; 雅幸海野
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1992-05-11
Filing date: 1992-05-11
Publication date: 1993-11-26

Abstract

(57)【要約】（修正有）【目的】発声内容を限定しない話者認識（特に話者照
合）において、比較的短い発声で高い認識率を得るこ
と。【構成】ニューラルネットワークを用いた話者認識方
式であって、短時間スペクトルの概形を表わすベクトル
の系列を入力し、ネットワーク出力の系列を、個々の出
力による認識結果の和、積、多数決等により総合し、そ
の結果を話者判定用しきい値と比較し、１つの認識結果
を得るようにしたものである。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はニューラルネットワーク
を用いた話者認識方式（特に話者照合）に関する。

【０００２】

【従来の技術】通常、話者認識を行なう場合、予め学習
した発声内容についてのみ話者の認識を行なうものが多
く、発声内容を限定しない話者認識では、種々の音韻に
共通の話者情報を利用するため、ある程度長い発声が必
要であり、また、高い認識率も得にくい。更に学習時の
データ数が非常に多いため、学習に長時間を要してい
た。

【０００３】そこで本出願人は、既に発声内容を限定し
ない話者認識方式を提案している（特願平2-75633 「話
者認識方式」、特願平2-75634 「話者認識方式」、特願
平3-282843「話者認識方式」）。

【０００４】

【発明が解決しようとする課題】然しながら、本出願人
が既に提案している話者認識方式は、主として、話者が
ある限られた人の中の誰であるかを特定する（話者同定
と呼ぶ）技術に関するものであった。

【０００５】本発明は、発声内容を限定しない話者認識
（特に話者照合）において、比較的短い発声で高い認識
率を得ることを目的とする。

【０００６】また、本発明は、発声内容を限定しない話
者認識（特に話者照合）において、比較的短い発声で高
い認識率を得るとともに、学習を軽減することを目的と
する。

【０００７】

【課題を解決するための手段】請求項１に記載の話者認
識方式を説明する。先ず、学習用の音声から得た短時間
スペクトルの概形を用いて、ニューラルネットワークを
学習する。学習用の音声は、ある程度の長さの文章のす
べて、又は、文章中から選択した代表的な音素を用い
る。認識時は、任意の発声から上記と同じ短時間スペク
トルの概形を求め、その系列をネットワークに入力し、
ネットワーク出力の系列を得る。得られたネットワーク
の出力ベクトルは、それぞれが短時間の入力に対する話
者を示唆しており、これを系列全体で、和、積、多数決
等の総合的な判断を下すことによって、１つの認識結果
を得る。

【０００８】請求項２に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声／無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しており、これを系列全体で、
和、積、多数決等の総合的な判断を下すことによって、
１つの認識結果を得る。

【０００９】請求項３に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。学習
用の音声は、ある程度の長さの文章のすべて、又は、文
章中から選択した代表的な音素を用いる。認識時は、任
意の発声から上記と同じ短時間スペクトルの概形を求
め、その系列をネットワークに入力し、ネットワーク出
力の系列を得る。得られたネットワークの出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、出力ベクトル選択用しきい値を設けて、この中で
信頼性の高い出力ベクトルのみを選択し、これらすべて
について、和、積、多数決等の総合的な判断を下すこと
によって、１つの認識結果を得る。

【００１０】請求項４に記載の話者認識方式を説明す
る。先ず、学習用の音声から得た短時間スペクトルの概
形を用いて、ニューラルネットワークを学習する。この
際に分析区間毎に有声／無声判定を行ない、有声区間の
みを入力に用いる。認識時は、任意の発声から上記と同
じ短時間スペクトルの概形を求め、その系列をネットワ
ークに入力し、ネットワーク出力の系列を得る。得られ
たネットワークの出力ベクトルは、それぞれが短時間の
入力に対する話者を示唆しているが、出力ベクトル選択
用しきい値を設けて、この中で信頼性の高い出力ベクト
ルのみを選択し、これらすべてについて、和、積、多数
決等の総合的な判断を下すことによって、１つの認識結
果を得る。

【００１１】請求項５に記載の話者認識方式を説明す
る。これは話者に関する判定を行なう際に用いる話者判
定用しきい値を大小１つずつ設定するもので、２つのし
きい値θ1 、θ2 を用いることにより、ある話者に対応
した出力のみが活性化した（出力値が大きい）ときに、
話者は登録者であると判定するものである（図１参
照）。

【００１２】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。

【００１３】(1)ニューラルネットワークは、その構造
から、図２（Ａ）に示す階層的ネットワークと図２
（Ｂ）に示す相互結合ネットワークの２種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。

【００１４】(2)ネットワークの構造階層的ネットワークは、図３に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は１以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。

【００１５】(3)ユニットの構造ユニットは図４に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則（変換関数）で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。

【００１６】(4)学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には図４に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。

【００１７】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。

【００１８】

【作用】請求項１に記載の認識方式においては学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。

【００１９】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの１つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。

【００２０】請求項２に記載の話者認識方式においては学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応しており、これ
らより話者情報を得るようにニューラルネットワークを
学習することにより、任意の発声に対応することができ
る。

【００２１】出力ベクトルの系列を総合的に判断する
ことにより、出力ベクトルの１つからの判断では誤りで
ある場合でも、全体としては正しい判断を下すことがで
き、認識率が向上する。

【００２２】有声／無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。

【００２３】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。

【００２４】更に、請求項３に記載の話者認識方式にお
いては出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。

【００２５】更に、請求項４に記載の話者認識方式にお
いては出力ベクトルの中で信頼性の高いものを選択すること
により、総合的な判断がより確実になり、認識率が向上
する。

【００２６】更に、請求項５に記載の話者認識方式にお
いては話者判定用しきい値を大小１つずつ設定することによ
り、より高精度に登録者・非登録者の判定が可能とな
り、認識率が向上する。

【００２７】

【実施例】

（第１実施例）登録者 5名・非登録者25名について、学習用の短文
（ 5秒程度）を、サンプリング周波数10kHz 、フレーム
長25.6msec、フレーム周期12.8msecでフーリエ分析し、
100 〜5000Hzの帯域で68ch（1/12 Oct. ）のパワーベク
トルの系列を得る。

【００２８】これらのベクトルをニューラルネットワ
ークの入力とし（入力層68ユニット、入力パターンは１
回の発声につきフレームの数だけ得られる）、登録者の
場合のみ対応する出力ユニットが活性化するように十分
学習する。

【００２９】任意の発声に対して、と同様にパワー
ベクトルの系列を得る。これを、で学習したネットワークに入力し、出力ベ
クトルの系列｛ｘ¹ ，ｘ² ，…，ｘⁿ ｝ｘ^t ＝（ｘ^t ₁，…，ｘ^t ₅）ｎ：フレーム数を得る。

【００３０】上記のベクトル系列に対し以下の３手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。

【００３１】(1) Σ_t ｘ^t _s（s=1 〜5 ）の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者

【００３２】(2) Π_t ｘ^t _s（s=1 〜5 ）の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者

【００３３】(3) max ｛ｘ^t ₁，…，ｘ^t ₅｝＝ｘ^t _s（s=1
〜5 ）の最大値が、予め設定した話者判定用しきい値を
越えていれば登録者、そうでなければ非登録者

【００３４】また、上記の３手法のかわりに以下の手法
を用いても良い（請求項５に相当）。

【００３５】(1) Σ_t ｘ^t _s（s=1 〜5 ）の最大値のみ
が、予め設定した第１の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第２の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者

【００３６】(2) Π_t ｘ^t _s（s=1 〜5 ）の最大値のみ
が、予め設定した第１の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第２の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者

【００３７】(3) max ｛ｘ^t ₁，…，ｘ^t ₅｝＝ｘ^t _s（s=1
〜5 ）の数の最大値が、予め設定した第１の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第２
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者

【００３８】任意発声の一例として、学習用短文「明日
は東京に出ますのですみませんが留守にします。」に対
して、「ただいま」「こんにちは」「おはようございま
す」の３単語を用いて話者認識実験を行なったところ、
学習に用いた登録者 5名及び学習に用いていない非登録
者26名を完全に認識できた。

【００３９】（第２実施例）登録者 5名・非登録者25名について、学習用の文章
を、サンプリング周波数10kHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析し、100 〜5000Hz
の帯域で68ch（1/12 Oct. ）のパワーベクトルの系列を
得る。

【００４０】これらのベクトルについて、それぞれ周
波数特性の傾き等により有声区間か無声区間かを判定す
る。

【００４１】の有声区間に対応するベクトルをニュ
ーラルネットワークの入力とし（入力層68ユニット）、
登録者の場合のみ対応する出力ユニットが活性化するよ
うに十分学習する。

【００４２】任意の発声に対して、と同様に有声
区間のパワーベクトルの系列を得る。

【００４３】これを、で学習したネットワークに入
力し、出力ベクトルの系列｛ｘ¹ ，ｘ² ，…，ｘⁿ ｝Ｘ^t ＝（Ｘ^t ₁，…，Ｘ^t ₅）ｎ：フレーム数を得る。

【００４４】上記のベクトル系列に対し以下の３手
法を用いて、入力が登録者・非登録者いずれのものであ
るかを判断する。

【００４５】(1) Σ_t ｘ^t _s（s=1 〜5 ）の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者

【００４６】(2) Π_t ｘ^t _s（s=1 〜5 ）の最大値が、予
め設定した話者判定用しきい値を越えていれば登録者、
そうでなければ非登録者

【００４７】(3) max ｛ｘ^t ₁，…，ｘ^t ₅｝＝ｘ^t _s（s=1
〜5 ）の数の最大値が、予め設定した話者判定用しきい
値を越えていれば登録者、そうでなければ非登録者

【００４８】また、上記の３手法のかわりに以下の手法
を用いても良い（請求項５に相当）。

【００４９】(1) Σ_t ｘ^t _s（s=1 〜5 ）の最大値のみ
が、予め設定した第１の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第２の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者

【００５０】(2) Π_t ｘ^t _s（s=1 〜5 ）の最大値のみ
が、予め設定した第１の話者判定用しきい値を越え、か
つ、その他の値が予め設定した第２の話者判定用しきい
値を下回っていれば登録者、そうでなければ非登録者

【００５１】(3) max ｛ｘ^t ₁，…，ｘ^t ₅｝＝ｘ^t _s（s=1
〜5 ）の数の最大値が、予め設定した第１の話者判定用
しきい値を越え、かつ、その他の値が予め設定した第２
の話者判定用しきい値を下回っていれば登録者、そうで
なければ非登録者

【００５２】

【発明の効果】以上のように本発明によれば、発声内容
を限定しない話者認識（特に話者照合）において、比較
的短い発声で高い認識率を得ることができる。

【００５３】また、本発明によれば、発声内容を限定し
ない話者認識（特に話者照合）において、比較的短い発
声で高い認識率を得るとともに、学習を軽減することが
できる。

【図面の簡単な説明】

【図１】図１は話者判定用しきい値とネットワークの出
力値とを示す模式図である。

【図２】図２はニューラルネットワークを示す模式図で
ある。

【図３】図３は階層的なニューラルネットワークを示す
模式図である。

【図４】図４はユニットの構造を示す模式図である。

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いた話者認
識方式であって、短時間スペクトルの概形を表すベクト
ルの系列を入力し、ネットワーク出力の系列を、個々の
出力による認識結果の和、積、多数決等により総合し、
その結果を話者判定用しきい値と比較し、１つの認識結
果を得ることを特徴とする話者認識方式。
【請求項２】請求項１に記載の話者認識方式であっ
て、入力音声を分析区間毎に有声／無声判定し、有声区
間のみをネットワーク入力の対象区間にすることを特徴
とする話者認識方式。
【請求項３】ニューラルネットワークを用いた話者認
識方式であって、短時間スペクトルの概形を表すベクト
ルの系列を入力し、ネットワーク出力の系列から出力ベ
クトル選択用しきい値を用いて選択した出力ベクトルに
ついて、個々の出力による認識結果の和、積、多数決等
により総合し、その結果を話者判定用しきい値と比較
し、１つの認識結果を得ることを特徴とする話者認識方
式。
【請求項４】請求項３に記載の話者認識方式であっ
て、入力音声を分析区間毎に有声／無声判定し、有声区
間のみをネットワーク入力の対象区間にすることを特徴
とする話者認識方式。
【請求項５】請求項１〜４のいずれかに記載の話者認
識方式であって、話者判定用しきい値を大小１つずつ設
定することを特徴とする話者認識方式。