JPH05119791A

JPH05119791A - 話者認識方式

Info

Publication number: JPH05119791A
Application number: JP3282842A
Authority: JP
Inventors: Masayuki Unno; 雅幸海野; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1991-10-29
Filing date: 1991-10-29
Publication date: 1993-05-18

Abstract

(57)【要約】【目的】発声内容を限定しない入力音声に基づく話者
認識方式において、比較的短い発声で高い認識率を得る
とともに、学習を軽減すること。【構成】ニューラルネットワーク１３を用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワーク１３への入力とし、当該入力に対するニューラル
ネットワーク１３からの出力ベクトルの系列を、総合的
に判断することにより話者認識を行なう話者認識方式で
あって、ニューラルネットワーク１３の学習用データ数
をクラスター分析により消滅するようにしたものであ
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、電子錠等において入力
音声からその話者を認識するに好適な話者認識方式に関
する。

【０００２】

【従来の技術】本出願人は、ニューラルネットワークを
用いた話者認識方式を提案している。ニューラルネット
ワークを用いた話者認識方式は、登録話者の特定学習単
語についての音声をニューラルネットワークに入力し、
この入力に対応するニューラルネットワークの出力が一
定の目標値に近づくように、ニューラルネットワークを
構成する各ユニットの変換関数及び重みを修正する学習
動作を行なう。そして、この学習動作の繰り返しにより
構築されたニューラルネットワークに任意話者の音声を
入力し、対応するニューラルネットワークの出力から今
回話者が登録話者であるか否かを認識することとしてい
る。

【０００３】

【発明が解決しようとする課題】然しながら、従来のニ
ューラルネットワークを用いた話者認識方式にあって
は、予め学習した発声内容（学習単語）と同一の発声内
容についてのみ話者認識を行なっているに過ぎない。そ
して、発声内容を限定しない入力音声から話者認識を行
なうものとすれば、ニューラルネットワークは入力音声
中の種々の音韻に共通の話者情報を利用する必要がある
から、入力音声としてある程度長い発声が必要となり、
また、高い認識率も得にくい。

【０００４】然るに、本出願人は、特願平2-243413号に
より、発声内容を限定しない入力音声に基づく話者認識
において、認識時の入力に関して発声長を短縮できる話
者認識方式を提案した。ところが、この提案済の話者認
識方式にあっては、学習時のデータ数に関する改善が十
分でなく、学習に長時間を要するという不都合がある。

【０００５】本発明は、発声内容を限定しない入力音声
に基づく話者認識方式において、比較的短い発声で高い
認識率を得るとともに、学習を軽減することを目的とす
る。

【０００６】

【課題を解決するための手段】請求項１に記載の本発明
は、ニューラルネットワークを用いて話者認識を行なう
に際し、入力音声から抽出した短時間スペクトルの概形
を表わすベクトルの系列をニューラルネットワークへの
入力とし、当該入力に対するニューラルネットワークか
らの出力ベクトルの系列を、総合的に判断することによ
り話者認識を行なう話者認識方式であって、ニューラル
ネットワークの学習用データ数をクラスター分析により
削減するようにしたものである。

【０００７】請求項２に記載の本発明は、請求項１に記
載の本発明において更に、前記総合的な判断が、各出力
ベクトルの多数決、和、または積に基づいてなされるよ
うにしたものである。

【０００８】請求項３に記載の本発明は、ニューラルネ
ットワークを用いて話者認識を行なうに際し、入力音声
から抽出した短時間スペクトルの概形を表わすベクトル
の系列をニューラルネットワークへの入力とし、当該入
力に対するニューラルネットワークからの出力ベクトル
のうち、予め設定したしきい値にて選択された出力ベク
トルの系列を、総合的に判断することにより話者認識を
行なう話者認識方式であって、ニューラルネットワーク
の学習用データ数をクラスター分析により削減するよう
にしたものである。

【０００９】請求項４に記載の本発明は、請求項３に記
載の本発明において更に、前記総合的な判断が、選択さ
れた各出力ベクトルの多数決、和、または積に基づいて
なされるようにしたものである。

【００１０】

【作用】請求項１、２に記載の本発明にあっては、先
ず、学習用の音声から抽出した短時間スペクトルの概形
を表わすベクトルを求め、このベクトルの系列をニュー
ラルネットワークへ入力する学習動作により、ニューラ
ルネットワークを構築する。本発明では、この際に話者
毎のクラスター分析を行なうことによって、学習用デー
タ数を減らしておく。

【００１１】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。

【００１２】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した短時間スペクト
ルの概形を表わすベクトルを求め、このベクトルの系列
をニューラルネットワークへ入力する。そして、当該入
力に対するニューラルネットワークからの出力ベクトル
の系列を得る。この時、系列を構成する各出力ベクトル
は、それぞれが短時間の入力（各フレーム毎の入力）に
対する話者を示唆しており、本発明では、これを系列全
体で、多数決、頻度、和、または積等にて総合的に判断
することにより、１つの話者認識結果を得る。

【００１３】然るに、請求項１、２に記載の本発明によ
れば、下記〜の作用効果がある。学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワークにあっては、任意の発声中に内在する話
者情報を良く捕捉できる。これにより、発声内容を限定
しない任意の入力音声に基づく話者認識を、短い発声に
ついても良好に実現できる。

【００１４】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの１つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。

【００１５】クラスター分析により複数のデータの代
表ベクトルを学習データとしているので、学習効果を保
ちつつ学習データ数を削減できる。その結果、ニューラ
ルネットワークの学習時間が大幅に短縮できる。

【００１６】請求項３、４に記載の本発明にあっては、
先ず、学習用の音声から抽出した短時間スペクトルの概
形を表わすベクトルを求め、このベクトルの系列をニュ
ーラルネットワークへ入力する学習動作により、ニュー
ラルネットワークを構築する。本発明では、この際に話
者毎のクラスター分析を行なうことによって学習用デー
タ数を減らしておく。

【００１７】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。

【００１８】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した短時間スペクト
ルの概形を表わすベクトルを求め、このベクトルの系列
をニューラルネットワークへ入力する。そして、当該入
力に対するニューラルネットワークからの出力ベクトル
の系列を得る。この時、系列を構成する各出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、本発明にあっては予めしきい値を用いて、全部の
出力ベクトルのうちである話者のみを一定以上の確度で
示唆している出力ベクトル（換言すれば、信頼性の高い
出力ベクトル）のみを選択し、選択された出力ベクトル
の系列全体で、多数決、和、または積等にて総合的に判
断することにより、１つの話者認識結果を得る。

【００１９】然るに、請求項３、４に記載の本発明によ
れば、請求項１、２に記載の本発明における前述〜
の作用に加え、下記の作用がある。

【００２０】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定したしきい値
にて選択された出力ベクトルの系列である。即ち、出力
ベクトルのうちで信頼性の高いものを選択したことによ
り、総合的な判断がより確実となり、認識率を顕著に向
上できる。

【００２１】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。

【００２２】(1)ニューラルネットワークは、その構造
から、図４（Ａ）に示す階層的ネットワークと図４
（Ｂ）に示す相互結合ネットワークの２種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。

【００２３】(2)ネットワークの構造階層的ネットワークは、図５に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は１以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。

【００２４】(3)ユニットの構造ユニットは図６に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則（変換関数）で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。

【００２５】(4)学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には図６に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。

【００２６】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。

【００２７】また、本発明における「クラスター分析」
とは、「個体間（属性間）に定められる類似度（又は距
離）を基にして、所謂似た者同士を１つのグループとし
て、全体をいくつかのグループ（クラスター）に分割す
ること」であり、例えば1986年10月31日森北出版（株）
発行の数学ライブラリー46多変量解析入門II26頁〜44頁
記載の、Ward method による類似度を基準としたクラス
ター構成法を用いることができる。

【００２８】

【実施例】図１は本発明の第１実施例に用いられる話者
認識装置を示す模式図、図２は本発明の話者認識原理を
示す工程図、図３は本発明の第２実施例に用いられる話
者認識装置を示す模式図である。

【００２９】（第１実施例）（図１、図２参照）話者認識装置１０は、図１に示す如く、音声入力部１
１、前処理部１２、ニューラルネットワーク１３、出力
ベクトル演算部１４、判定部１５を有して構成されてい
る。以下、この話者認識装置１０による本発明の実施例
について説明する。尚、学習時には音声入力部１１、前
処理部１２、ニューラルネットワーク１３のみが用いら
れ、認識時には話者認識装置１０の全体が用いられる。

【００３０】（Ａ）学習対象とする登録話者に男性 5名で、学習用の短文とし
て音韻バランスのとれた文章、例えば「彼は以前から科
学技術の進歩と人間の勇気が遥かな宇宙への旅を可能に
したのだと考えていました。」を用意した。そして、こ
の学習用の音声を音声入力部１１に入力した。

【００３１】上記の入力音声を前処理部１２におい
て、サンプリング周波数10KHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析（全ｎフレーム）
し、各１フレームにつき100 〜5000Hzの帯域で68ch（1/
12 Oct. ）のパワーベクトルを系列を得た（図２参
照）。これにより、学習用入力データとしてｎ組のｍ＝
68次元のパワーベクトルの系列が得られることになる。

【００３２】上記のパワーベクトルの系列を、階層
的クラスター分析を行なうことによって、話者毎に200
程度の代表ベクトルを得る。

【００３３】上記で得たベクトルをニューラルネッ
トワーク１３への入力とし、出力層の各ユニットが話者
に対応するように、十分学習する。

【００３４】今回用いたニューラルネットワーク１３は
３層の階層型ネットワークであり、各層のユニット数は
入力層68、中間層30、出力層 5で、学習には誤差逆伝播
学習法を用いた。入力パターンは話者数×クラスター分
析後の代表ベクトル数だけ得られる。出力層での各ユニ
ットの目標出力値は、それぞれ、（1 ，0 ，0 ，0 ，0
）、（0 ，1 ，0 ，0 ，0 ）、（0 ，0 ，1 ，0 ，0
）、（0 ，0 ，0 ，１，0 ）、（0 ，0 ，0 ，0 ，1
）である。

【００３５】（Ｂ）認識次に、上記（Ａ）で構築されたニューラルネットワーク
１３を用いて、話者の同定を行なう。

【００３６】音声入力部１１にて採取された任意の発
声について、前処理部１２において上記と同様にｎ組
のｍ＝68次元のパワーベクトルの系列を得る。

【００３７】上記で得たベクトルをニューラルネッ
トワーク１３に入力し、下記の出力ベクトルの系列を得
る。｛Ｘ¹ 、Ｘ² …Ｘⁿ ｝ …(1) Ｘ^t ＝（Ｘ^t ₁、…、Ｘ^t ₅） …(2)

【００３８】但し、上記(1) は全フレーム分の出力ベク
トルの系列を表わし、上記(2) は第ｔフレームについて
の出力ベクトルを表わす。上記（2)の出力ベクトルＸ^t
において、Ｘ^t ₁の値が他のＸ^t ₂〜Ｘ^t ₅の値に比して大き
ければ、この出力ベクトルＸ ^t は、第ｔフレームの入力
に対する話者が第１話者〜第５者のうちの第１話者であ
ることを示唆する。

【００３９】出力ベクトル演算部１４は、上記の出
力ベクトルの系列を、以下の(a) 、(b) 、(c) の３手法
により総合的に判断し、入力音声がどの話者のものであ
るかを認識し、この認識結果を判定部１５に表示する。

【００４０】(a) 各出力ベクトルＸ^t _sの積、即ちΠ_t Ｘ
^t _sが最大になる話者ｓ (b) 各出力ベクトルＸ^t _sの和、即ちΣ_t Ｘ^t _sが最大にな
る話者ｓ (c) 各フレームの出力ベクトルの最大値ｍａｘ｛Ｘ
^t ₁…、Ｘ^t ₅｝＝Ｘ^t _sをとり、この最大値をとった数が最
も多い話者ｓ（各出力ベクトルＸ^t _sの多数決で選定した
話者ｓ）

【００４１】次に、上記第１実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間（１フレーム長25.6msec）スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク１３へ入力する学
習動作により、ニューラルネットワーク１３を構築し
た。この際に話者毎のクラスター分析を行なうことによ
って学習用データ数を減らしておく。

【００４２】学習により構築されたニューラルネットワ
ーク１３を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した短時間スペ
クトルの概形を表わすベクトルを求め、このベクトルの
系列をニューラルネットワーク１３へ入力した。そし
て、当該入力に対するニューラルネットワーク１３から
の出力ベクトルの系列を得た。この時、系列を構成する
各出力ベクトルは、それぞれが短時間の入力（各フレー
ム毎の入力）に対する話者を示唆しており、上記実施例
では、出力ベクトル演算部１４により、これを系列全体
で、多数決、和、又は積にて総合的に判断することによ
り、１つの話者認識結果を得た。

【００４３】然るに、上記実施例によれば、下記〜
の作用効果がある。学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク１３にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない任意の入力音声に基づく話者認識を、短い発
声についても良好に実現できる。

【００４４】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの１つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。

【００４５】クラスター分析により複数のデータの代
表ベクトルを学習データとしているので、学習効果を保
ちつつ学習データ数を削減できる。その結果、ニューラ
ルネットワーク１３の学習時間が大幅に短縮できる。

【００４６】（第２実施例）（図３参照）話者認識装置２０が前記話者認識装置１０と異なる点
は、ニューラルネットワーク１３と出力ベクトル演算部
１４との間に出力ベクトル選択部１４Ａを備えているこ
とにある。尚、学習時には音声入力部１１、前処理部１
２、ニューラルネットワーク１３のみが用いられ、認識
時には話者認識装置２０の全体が用いられる。

【００４７】前記話者認識装置１０にあっては、ニュー
ラルネットワーク１３からの出力ベクトルの系列を、話
者認識のための総合的な判断材料とした。これに対し、
話者認識装置２０にあっては、ニューラルネットワーク
１３からの出力ベクトルのうち、予め設定したしきい値
にて選択された出力ベクトルの系列を、話者認識のため
の総合的な判断材料としたものである。

【００４８】即ち、話者認識装置２０の出力ベクトル選
択部１４Ａはニューラルネットワーク１３において、前
述話者認識装置１０の認識時に(B) の段階におけると
同様にして得られる全出力ベクトルＸ^t のうち、構成要
素Ｘ^t _i（ｉ＝1-5 ）のどれが１つが敷居値θ1以上であ
り、かつ残りの要素のすべてが敷居値θ2 以下であるよ
うな、出力ベクトルＸ^t のみを選択する。

【００４９】そして、出力ベクトル選択部１４Ａに続く
出力ベクトル演算部１４は、出力ベクトル選択部１４Ａ
にて選択された出力ベクトルの系列を、前述話者認識装
置１０の認識時に(B) の段階におけると同様にして総
合的に判断し、入力音声がどの話者のものであるかを認
識し、この認識結果を判定部１５に表示するものであ
る。

【００５０】次に、上記第２実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間（１フレーム長25.6msec）スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク１３へ入力する学
習動作により、ニューラルネットワーク１３を構築し
た。この際に話者毎のクラスター分析を行なうことによ
って学習用データ数を減らしておく。

【００５１】学習により構築されたニューラルネットワ
ーク１３を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した短時間スペ
クトルの概形を表わすベクトルを求め、このベクトルの
系列をニューラルネットワーク１３へ入力した。そし
て、当該入力に対するニューラルネットワーク１３から
の出力ベクトルの系列を得た。

【００５２】然るに、上記第２実施例によれば、前記第
１実施例における前述〜の作用に加え、下記の作
用効果がある。

【００５３】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定Ｘしたしきい
値θ1 、θ2 にて選択された出力ベクトルの系列であ
る。即ち、出力ベクトルのうちで信頼性の高いものを選
択したことにより、総合的な判断がより確実となり、認
識率を顕著に向上できる。

【００５４】

【発明の効果】以上のように本発明によれば、発声内容
を限定しない入力音声に基づく話者認識方式において、
比較的短い発声で高い認識率を得るとともに、学習を軽
減することができる。

【図面の簡単な説明】

【図１】図１は本発明の第１実施例に用いられる話者認
識装置を示す模式図である。

【図２】図２は本発明の話者認識原理を示す工程図であ
る。

【図３】図３は本発明の第２実施例に用いられる話者認
識装置を示す模式図である。

【図４】図４はニューラルネットワークを示す模式図で
ある。

【図５】図５は階層的なニューラルネットワークを示す
模式図である。

【図６】図６はユニットの構造を示す模式図である。

【符号の説明】

１０話者認識装置１１音声入力部１２前処理部１３ニューラルネットワーク１４出力ベクトル演算部１４Ａ出力ベクトル選択部１５判定部

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワークへの入力とし、当該入力に対するニューラルネッ
トワークからの出力ベクトルの系列を、総合的に判断す
ることにより話者認識を行なう話者認識方式であって、
ニューラルネットワークの学習用データ数をクラスター
分析により削減する話者認識方式。
【請求項２】前記総合的な判断が、各出力ベクトルの
多数決、和、または積に基づいてなされる請求項１記載
の話者認識方式。
【請求項３】ニューラルネットワークを用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワークへの入力とし、当該入力に対するニューラルネッ
トワークからの出力ベクトルのうち、予め設定したしき
い値にて選択された出力ベクトルの系列を、総合的に判
断することにより話者認識を行なう話者認識方式であっ
て、ニューラルネットワークの学習用データ数をクラス
ター分析により削減する話者認識方式。
【請求項４】前記総合的な判断が、選択された各出力
ベクトルの多数決、和、または積に基づいてなされる請
求項３記載の話者認識方式。