JPH05119799A

JPH05119799A - 話者認識方式

Info

Publication number: JPH05119799A
Application number: JP3282843A
Authority: JP
Inventors: Masayuki Unno; 雅幸海野; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1991-10-29
Filing date: 1991-10-29
Publication date: 1993-05-18

Abstract

(57)【要約】【目的】発声内容を限定しない入力音声に基づく話者
認識方式において、比較的短い発声で高い認識率を得る
とともに、学習を軽減すること。【構成】ニューラルネットワーク１３を用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワーク１３への入力とし、当該入力に対するニューラル
ネットワーク１３からの出力ベクトルの系列を、総合的
に判断することにより話者認識を行なう話者認識方式で
あって、入力音声を分析区間毎に有声／無声判定し有声
区間のみをニューラルネットワーク１３への入力の対象
区間にするようにしたものである。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、電子錠等において入力
音声からその話者を認識するに好適な話者認識方式に関
する。

【０００２】

【従来の技術】本出願人は、ニューラルネットワークを
用いた話者認識方式を提案している。ニューラルネット
ワークを用いた話者認識方式は、登録話者の特定学習単
語についての音声をニューラルネットワークに入力し、
この入力に対応するニューラルネットワークの出力が一
定の目標値に近づくように、ニューラルネットワークを
構成する各ユニットの変換関数及び重みを修正する学習
動作を行なう。そして、この学習動作の繰り返しにより
構築されたニューラルネットワークに任意話者の音声を
入力し、対応するニューラルネットワークの出力から今
回話者が登録話者であるか否かを認識することとしてい
る。

【０００３】

【発明が解決しようとする課題】然しながら、従来のニ
ューラルネットワークを用いた話者認識方式にあって
は、予め学習した発声内容（学習単語）と同一の発声内
容についてのみ話者認識を行なっているに過ぎない。そ
して、発声内容を限定しない入力音声から話者認識を行
なうものとすれば、ニューラルネットワークは入力音声
中の種々の音韻に共通の話者情報を利用する必要がある
から、入力音声としてある程度長い発声が必要となり、
また、高い認識率も得にくい。

【０００４】然るに、本出願人は、特願平2-243413号に
より、発声内容を限定しない入力音声に基づく話者認識
において、認識時の入力に関して発声長を短縮できる話
者認識方式を提案した。ところが、この提案済の話者認
識方式にあっては、学習時のデータ数に関する改善が十
分でなく、学習に長時間を要するという不都合がある。

【０００５】本発明は、発声内容を限定しない入力音声
に基づく話者認識方式において、比較的短い発声で高い
認識率を得るとともに、学習を軽減することを目的とす
る。

【０００６】

【課題を解決するための手段】請求項１に記載の本発明
は、ニューラルネットワークを用いて話者認識を行なう
に際し、入力音声から抽出した短時間スペクトルの概形
を表わすベクトルの系列をニューラルネットワークへの
入力とし、当該入力に対するニューラルネットワークか
らの出力ベクトルの系列を、総合的に判断することによ
り話者認識を行なう話者認識方式であって、入力音声を
分析区間毎に有声／無声判定し有声区間のみをニューラ
ルネットワークへの入力の対象区間にするようにしたも
のである。

【０００７】請求項２に記載の本発明は、請求項１に記
載の本発明において更に、前記総合的な判断が、各出力
ベクトルの多数決、和、または積に基づいてなされるよ
うにしたものである。

【０００８】請求項３に記載の本発明は、ニューラルネ
ットワークを用いて話者認識を行なうに際し、入力音声
から抽出した短時間スペクトルの概形を表わすベクトル
の系列をニューラルネットワークへの入力とし、当該入
力に対するニューラルネットワークからの出力ベクトル
のうち、予め設定したしきい値にて選択された出力ベク
トルの系列を、総合的に判断することにより話者認識を
行なう話者認識方式であって、入力音声を分析区間毎に
有声／無声判定し有声区間のみをニューラルネットワー
クへの入力の対象区間にするようにしたものである。

【０００９】請求項４に記載の本発明は、請求項３に記
載の本発明において更に、前記総合的な判断が、選択さ
れた各出力ベクトルの多数決、和、または積に基づいて
なされるようにしたものである。

【００１０】

【作用】請求項１、２に記載の本発明にあっては、先
ず、学習用の音声から抽出した短時間スペクトルの概形
を表わすベクトルを求め、このベクトルの系列をニュー
ラルネットワークへ入力する学習動作により、ニューラ
ルネットワークを構築する。本発明では、この際に分析
区間毎に有声／無声判定を行ない、有声区間のみを入力
に用いる。

【００１１】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。

【００１２】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した有声区間の短時
間スペクトルの概形を表わすベクトルを求め、このベク
トルの系列をニューラルネットワークへ入力する。そし
て、当該入力に対するニューラルネットワークからの出
力ベクトルの系列を得る。この時、系列を構成する各出
力ベクトルは、それぞれが短時間の入力（各フレーム毎
の入力）に対する話者を示唆しており、本発明では、こ
れを系列全体で、多数決、頻度、和、または積等にて総
合的に判断することにより、１つの話者認識結果を得
る。

【００１３】然るに、請求項１、２に記載の本発明によ
れば、下記〜の作用効果がある。

【００１４】学習に用いた短時間スペクトルの概形
は、それぞれ、種々の音素や音素間の渡りの部分に対応
している。従って、これらの各短時間スペクトルの概形
を表わすベクトルの系列から、話者情報を得るように学
習したニューラルネットワークにあっては、任意の発声
中に内在する話者情報を良く捕捉できる。これにより、
発声内容を限定しない任意の入力音声に基づく話者認識
を、短い発声についても良好に実現できる。

【００１５】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの１つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。

【００１６】有声／無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ークの学習時間が短縮できる。

【００１７】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。

【００１８】請求項３、４に記載の本発明にあっては、
先ず、学習用の音声から抽出した短時間スペクトルの概
形を表わすベクトルを求め、このベクトルの系列をニュ
ーラルネットワークへ入力する学習動作により、ニュー
ラルネットワークを構築する。本発明では、この際に分
析区間毎に有声／無声判定を行ない、有声区間のみを入
力に用いる。

【００１９】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。

【００２０】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した有声区間の短時
間スペクトルの概形を表わすベクトルを求め、このベク
トルの系列をニューラルネットワークへ入力する。そし
て、当該入力に対するニューラルネットワークからの出
力ベクトルの系列を得る。この時、系列を構成する各出
力ベクトルは、それぞれが短時間の入力に対する話者を
示唆しているが、本発明にあっては予めしきい値を用い
て、全部の出力ベクトルのうちである話者のみを一定以
上の確度で示唆している出力ベクトル（換言すれば、信
頼性の高い出力ベクトル）のみを選択し、選択された出
力ベクトルの系列全体で、多数決、和、または積等にて
総合的に判断することにより、１つの話者認識結果を得
る。

【００２１】然るに、請求項３、４に記載の本発明によ
れば、請求項１、２に記載の本発明における前述〜
の作用に加え、下記の作用がある。

【００２２】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定したしきい値
にて選択された出力ベクトルの系列である。即ち、出力
ベクトルのうちで信頼性の高いものを選択したことによ
り、総合的な判断がより確実となり、認識率を顕著に向
上できる。

【００２３】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。

【００２４】(1)ニューラルネットワークは、その構造
から、図３（Ａ）に示す階層的ネットワークと図３
（Ｂ）に示す相互結合ネットワークの２種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。

【００２５】(2)ネットワークの構造階層的ネットワークは、図４に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は１以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。

【００２６】(3)ユニットの構造ユニットは図５に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則（変換関数）で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。

【００２７】(4)学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には図５に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。

【００２８】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。

【００２９】

【実施例】図１は本発明の第１実施例に用いられる話者
認識装置を示す模式図、図２は本発明の第２実施例に用
いられる話者認識装置を示す模式図である。

【００３０】（第１実施例）（図１参照）話者認識装置１０は、図１に示す如く、音声入力部１
１、前処理部１２、有声／無声判定部１３Ａ、ニューラ
ルネットワーク１３、出力ベクトル演算部１４、判定部
１５を有して構成されている。以下、この話者認識装置
１０による本発明の実施例について説明する。尚、学習
時には音声入力部１１、前処理部１２、有声／無声判定
部１３Ａ、ニューラルネットワーク１３のみが用いら
れ、認識時には話者認識装置１０の全体が用いられる。

【００３１】（Ａ）学習対象とする登録話者に男性 5名で、学習用の短文とし
て音韻バランスのとれた文章、例えば「彼は以前から科
学技術の進歩と人間の勇気が遥かな宇宙への旅を可能に
したのだと考えていました。」を用意した。そして、こ
の学習用の音声を音声入力部１１に入力した。

【００３２】上記の入力音声を前処理部１２におい
て、サンプリング周波数10KHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析（全ｎフレーム）
し、各１フレームにつき100 〜5000Hzの帯域で68ch（1/
12 Oct. ）のパワーベクトルを系列を得た。これによ
り、学習用入力データとしてｎ組のｍ＝68次元のパワー
ベクトルの系列が得られることになる。

【００３３】有声／無声判定部１３Ａを用いて、上記
のパワーベクトルについて、それぞれ周波数特性の傾
きにより有声区間か無声区間かを判定する。

【００３４】上記で得た有声区間に対応するベクト
ルをニューラルネットワーク１３への入力とし、出力層
の各ユニットが話者に対応するように、十分学習する。

【００３５】今回用いたニューラルネットワーク１３は
３層の階層型ネットワークであり、各層のユニット数は
入力層68、中間層30、出力層 5で、学習には誤差逆伝播
学習法を用いた。出力層での各ユニットの目標出力値
は、それぞれ、（1 ，0 ，0 ，0 ，0 ）、（0 ，1 ，0
，0 ，0 ）、（0 ，0 ，1 ，0 ，0 ）、（0 ，0 ，0
，1 ，0 ）、（0 ，0 ，0 ，0 ，1 ）である。

【００３６】（Ｂ）認識次に、上記（Ａ）で構築されたニューラルネットワーク
１３を用いて、話者の同定を行なう。

【００３７】音声入力部１１にて採取された任意の発
声について、前処理部１２において上記、と同様に
有声区間のパワーベクトルの系列を得る。

【００３８】上記で得たベクトルをニューラルネッ
トワーク１３に入力し、下記の出力ベクトルの系列を得
る。｛Ｘ¹ 、Ｘ² …Ｘⁿ ｝ …(1) Ｘ^t ＝（Ｘ^t ₁、…、Ｘ^t ₅） …(2)

【００３９】但し、上記(1) は全フレーム分の出力ベク
トルの系列を表わし、上記(2) は第ｔフレームについて
の出力ベクトルを表わす。上記（2)の出力ベクトルＸ^t
において、Ｘ^t ₁の値が他のＸ^t ₂〜Ｘ^t ₅の値に比して大き
ければ、この出力ベクトルＸ ^t は、第ｔフレームの入力
に対する話者が第１話者〜第５者のうちの第１話者であ
ることを示唆する。

【００４０】出力ベクトル演算部１４は、上記の出
力ベクトルの系列を、以下の(a) 、(b) 、(c) の３手法
により総合的に判断し、入力音声がどの話者のものであ
るかを認識し、この認識結果を判定部１５に表示する。

【００４１】 (a) 各出力ベクトルＸ^t _sの積、即ちΠ_t Ｘ^t _sが最大にな
る話者ｓ (b) 各出力ベクトルＸ^t _sの和、即ちΣ_t Ｘ^t _sが最大にな
る話者ｓ (c) 各フレームの出力ベクトルの最大値ｍａｘ｛Ｘ
^t ₁…、Ｘ^t ₅｝＝Ｘ^t _sをとり、この最大値をとった数が最
も多い話者ｓ（各出力ベクトルＸ^t _sの多数決で選定した
話者ｓ）

【００４２】次に、上記第１実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間（１フレーム長25.6msec）スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク１３へ入力する学
習動作により、ニューラルネットワーク１３を構築し
た。この際に分析区間毎に有声／無声判定を行ない、有
声区間のみを入力に用いる。

【００４３】学習により構築されたニューラルネットワ
ーク１３を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した有声区間の
短時間スペクトルの概形を表わすベクトルを求め、この
ベクトルの系列をニューラルネットワーク１３へ入力し
た。そして、当該入力に対するニューラルネットワーク
１３からの出力ベクトルの系列を得た。この時、系列を
構成する各出力ベクトルは、それぞれが短時間の入力
（各フレーム毎の入力）に対する話者を示唆しており、
上記実施例では、出力ベクトル演算部１４により、これ
を系列全体で、多数決、和、又は積にて総合的に判断す
ることにより、１つの話者認識結果を得た。

【００４４】然るに、上記実施例によれば、下記〜
の作用効果がある。学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク１３にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない任意の入力音声に基づく話者認識を、短い発
声についても良好に実現できる。

【００４５】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの１つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。

【００４６】有声／無声判定により有声部のみを用い
るので、学習データ数が削減でき、ニューラルネットワ
ーク１３の学習時間が短縮できる。

【００４７】有声部のみを用いることにより対象音素
数が減り、発声内容を限定することなく暗に対象を限定
したことになり、認識率が向上する。

【００４８】（第２実施例）（図３参照）話者認識装置２０が前記話者認識装置１０と異なる点
は、ニューラルネットワーク１３と出力ベクトル演算部
１４との間に出力ベクトル選択部１４Ａを備えているこ
とにある。尚、学習時には音声入力部１１、前処理部１
２、有声／無声判定部１３Ａ、ニューラルネットワーク
１３のみが用いられ、認識時には話者認識装置２０の全
体が用いられる。

【００４９】前記話者認識装置１０にあっては、ニュー
ラルネットワーク１３からの出力ベクトルの系列を、話
者認識のための総合的な判断材料とした。これに対し、
話者認識装置２０にあっては、ニューラルネットワーク
１３からの出力ベクトルのうち、予め設定したしきい値
にて選択された出力ベクトルの系列を、話者認識のため
の総合的な判断材料としたものである。

【００５０】即ち、話者認識装置２０の出力ベクトル選
択部１４Ａはニューラルネットワーク１３において、前
述話者認識装置１０の認識時に(B) の段階におけると
同様にして得られる全出力ベクトルＸ^t のうち、構成要
素Ｘ^t _i（ｉ＝1-5 ）のどれが１つがしきい値θ1 以上で
あり、かつ残りの要素のすべてがしきい値θ2 以下であ
るような、出力ベクトルＸ^t のみを選択する。

【００５１】そして、出力ベクトル選択部１４Ａに続く
出力ベクトル演算部１４は、出力ベクトル選択部１４Ａ
にて選択された出力ベクトルの系列を、前述話者認識装
置１０の認識時に(B) の段階におけると同様にして総
合的に判断し、入力音声がどの話者のものであるかを認
識し、この認識結果を判定部１５に表示するものであ
る。

【００５２】次に、上記第２実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間（１フレーム長25.6msec）スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク１３へ入力する学
習動作により、ニューラルネットワーク１３を構築し
た。この際に分析区間毎に有声／無声判定を行ない、有
声区間のみを入力に用いる。

【００５３】学習により構築されたニューラルネットワ
ーク１３を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した有声区間の
短時間スペクトルの概形を表わすベクトルを求め、この
ベクトルの系列をニューラルネットワーク１３へ入力し
た。そして、当該入力に対するニューラルネットワーク
１３からの出力ベクトルの系列を得た。

【００５４】然るに、上記第２実施例によれば、前記第
１実施例における前述〜の作用に加え、下記の作
用効果がある。

【００５５】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定Ｘしたしきい
値θ1 、θ2 にて選択された出力ベクトルの系列であ
る。即ち、出力ベクトルのうちで信頼性の高いものを選
択したことにより、総合的な判断がより確実となり、認
識率を顕著に向上できる。

【００５６】

【発明の効果】以上のように本発明によれば、発声内容
を限定しない入力音声に基づく話者認識方式において、
比較的短い発声で高い認識率を得るとともに、学習を軽
減することができる。

【図面の簡単な説明】

【図１】図１は本発明の第１実施例に用いられる話者認
識装置を示す模式図である。

【図２】図２は本発明の第２実施例に用いられる話者認
識装置を示す模式図である。

【図３】図３はニューラルネットワークを示す模式図で
ある。

【図４】図４は階層的なニューラルネットワークを示す
模式図である。

【図５】図５はユニットの構造を示す模式図である。

【符号の説明】

１０話者認識装置１１音声入力部１２前処理部１３ニューラルネットワーク１３Ａ有声／無声判定部１４出力ベクトル演算部１４Ａ出力ベクトル選択部１５判定部

Claims

【特許請求の範囲】

【請求項１】ニューラルネットワークを用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワークへの入力とし、当該入力に対するニューラルネッ
トワークからの出力ベクトルの系列を、総合的に判断す
ることにより話者認識を行なう話者認識方式であって、
入力音声を分析区間毎に有声／無声判定し有声区間のみ
をニューラルネットワークへの入力の対象区間にするこ
とを特徴とする話者認識方式。
【請求項２】前記総合的な判断が、各出力ベクトルの
多数決、和、または積に基づいてなされる請求項１記載
の話者認識方式。
【請求項３】ニューラルネットワークを用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワークへの入力とし、当該入力に対するニューラルネッ
トワークからの出力ベクトルのうち、予め設定したしき
い値にて選択された出力ベクトルの系列を、総合的に判
断することにより話者認識を行なう話者認識方式であっ
て、入力音声を分析区間毎に有声／無声判定し有声区間
のみをニューラルネットワークへの入力の対象区間にす
ることを特徴とする話者認識方式。
【請求項４】前記総合的な判断が、選択された各出力
ベクトルの多数決、和、または積に基づいてなされる請
求項３記載の話者認識方式。