JPH03276199A

JPH03276199A - 話者認識方法

Info

Publication number: JPH03276199A
Application number: JP2075633A
Authority: JP
Inventors: Hideki Aso; 英樹麻生; Takio Kurita; 多喜夫栗田; Masayuki Unno; 海野　雅幸; Shingo Nishimura; 新吾西村
Original assignee: Agency of Industrial Science and Technology; Sekisui Chemical Co Ltd
Current assignee: National Institute of Advanced Industrial Science and Technology AIST; Sekisui Chemical Co Ltd
Priority date: 1990-03-27
Filing date: 1990-03-27
Publication date: 1991-12-06
Anticipated expiration: 2011-12-18
Also published as: JP2564200B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電子錠等において入力音声からその話者を認
識するに好適な話者認識方式に関する。

［従来の技術］本出願人は、ニューラルネットワークを用いた話者認識
方式を提案している。ニューラルネットワークを用いた
話者認識方式は、登録話者の特定学習単語についての音
声なニューラルネットワークに入力し、この入力に対応
するニューラルネットワークの出力が一定の目標値に近
づくように、ニューラルネットワークを構成する各ユニ
ットの変換関数及び重みを修正する学習動作を行なう。

そして、この学習動作の繰り返しにより構築されたニュ
ーラルネットワークに任意話者の音声を入力し、対応す
るニューラルネットワークの出力から今回話者か登録話
者であるか否かを認識することとしている。

［発明が解決しようとする課題］然しながら、従来のニューラルネットワークを用いた話
者認識方式にあっては、予め学習した発声内容（学習単
語）と同一の発声内容についてのみ話者認識を行なって
いるに過ぎない。そして、発声内容を限定しない入力音
声から話者認識を行なうものとすれば、ニューラルネッ
トワークは入力音声中の種々の音韻に共通の話者情報を
利用する必要かあるから、入力音声としである程度長い
発声が必要となり、又、高い認識率も得にくい。

本発明は、発声内容を限定しない入力音声に基づく話者
認識において、比較的短い発声で高い認識率を得ること
を目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いた話者認識方式であって、入力音声から抽出した短
時間スペクトルの概形を表わすベクトルの系列をニュー
ラルネットワークへの入力とし、当該入力に対するニュ
ーラルネットワークからの出力ベクトルの系列を、総合
的に判断することにより話者認識を行なうようにしたも
のである。

請求項２に記載の本発明は、前記総合的な判断が、各出
力ベクトルの多数決、和、又は積に基づいてなされるよ
うにしたものである。

［作用］本発明にあっては、先ず、学習用の音声から抽出した短
時間スペクトルの概形を表わすベクトルを求め、このベ
クトルの系列なニューラルネットワークへ入力する学習
動作により、ニューラルネットワークを構築する。学習
用の音声は、ある程度の長さの文章のすべて（例えば、
「明日は東京に出ますのですみませんが留守にします、
」）、又は、文章中から選択した代表的な音素（例えば
、ｒａＪ、ｒｉＪ・・・）を用いる。

学習により構築されたニューラルネットワークを用いる
認識時には、発声内容を特徴とする特定話者の音声から
学習時と同様に抽出した短時間スペクトルの概形を表わ
すベクトルを求め、このベクトルの系列をニューラルネ
ットワークへ入力する。そして、当該入力に対するニュ
ーラルネットワークからの出力ベクトルの系列を得る。

この時、系列を構成する各出力ベクトルは、それぞれが
短時間の入力（各フレーム毎の入力）に対する話者を示
唆しており、本発明では、これを系列全体で、多数決、
和、又は積等にて総合的に判断することにより、１つの
話者認識結果を得る。

然るに、本発明によれば、下記■、■の作用効果がある
。

■学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワークにあっては、任意の発声中に内在する話
者情報を良く捕捉できる。これにより、発声内容を限定
しない入力音声に基づく話者認識を、短い発声について
も良好に実現できる。

■出力ベクトルの系列を総合的に判断して話者認識を行
なうものであるから、出力ベクトルの１つに基づく判断
では誤りである場合にも、全体としては正しい判断を下
すことができる。これにより、発声内容を限定しない入
力音声に基づく話者認識を、高い認識率で実現できる。

［実施例］第１図は本発明の実施に用いられる話者認識装置を示す
ブロック図、第２図は本発明の話者認識原理を示す工程
図である。

話者認識装置１０は、第１図に示す如く、音声入力部１
１、前処理部１２、ニューラルネットワーク１３、出力
ベクトル演算部１４、判定部１５を有して構成されてい
る。以下、この話者認識装置１０による本発明の実施例
について説明する。

（Ａ）学習 ■対象とする登録話者に男性５名で、学習用の短文（５
秒程度）として「明日は東京にでますのですみませんが
留守にします、」を用意した。そして、この学習用の音
声を音声入力部１１に入力した。

■上記■の入力音声を前処理部１２において、サンプリ
ング周波数１０ＫＨｚ　、フレーム長２５．６諺ｓｅｃ
％フレーム周期１２．８膳ｓｅｃでフーリエ分析（全ｎ
フレーム）し、各１フレームにつき１００〜５０００Ｈ
ｚの帯域でＨｃｈ　（１／１２０ｃｔ、　）のパワーベ
クトルを系列を得た（第２図参照）、これにより、学習
用人力データとしてｎ組のｍ＝６８次元のパワーベクト
ルの系列が得られることになる。

■上記■で得たベクトルをニューラルネットワーク１３
への入力とし、出力層の各ユニットが話者に対応するよ
うに、十分学習する。

今回用いたニューラルネットワーク１３は３層の階層型
ネットワークであり、各層のユニット数は入力層６８、
中間層３０、出力層５で、学習には誤差逆伝播学習法を
用いた。ニューラルネットワーク１３への入力としては
、前述■の如く、６８次元のベクトルが、１回の発声に
ついてフレームの数たけ得られる。出力層での各ユニッ
トの目標出力値は、それぞれ、（１，０，０１，０，０
）、（０，１，０、００）、（０、Ｏ，１、０，０）、
（０，０，０，１，０）、（０，０，０，０，１）であ
る。

（Ｂ）認識次に、上記（Ａ）で構築されたニューラルネットワーク
１３を用いて、話者の同定を行なう。

■音声入力部１１にて採取された任意の発声について、
前処理部１２において上記■と同様にｎ組のｍ＝６８次
元のパワーベクトルの系列を得る。

■上記■て得たベクトルをニューラルネットワーク１３
に入力し、下記の出力ベクトルの系列を得る。

（Ｘ”　　Ｘ”−Ｘ”）　　　　　　　”−（１）Ｘｔ
＝（Ｘｔ、、・・・　ｘ　ｔｓ）　　　　　・・・（２
）但し、上記（１）は全フレーム分の出力ベクトルの系
列を表わし、上記（２）は第ｔフレームについての出力
ベクトルを表わす、上記（２）の出力ベクトルｘｔにお
いて、Ｘｔｌの値が他のＸｔ２〜Ｘｔ５の値に比して大
きければ、この出力ベクトル）＜１は、第ｔフレームの
入力に対する話者が第１話者〜第５者のうちの第１話者
であることを示唆する。

■出力ベクトル演算部１４は、上記■の出力ベクトルの
系列を、以下の（ａ）　、　（ｂ）　、　（ｃ）の３手
法により総合的に判断し、入力音声がどの話者のもので
あるかを認識し、この認識結果を判定部１５に表示する
。

（ａ）各出力ベクトルＸｔｆの積、即ちｎｔｘｔ、が最
大になる話者５（ｂ）各出力ベクトルｘｔ、の和、即ちΣｔｘｔ、か最
大になる話者５（ｃ）　各フレームの出力ベクトルの最大値ｍａｘ（Ｘ
ｔ、−ｘｔｓ）　＝Ｘｔ、をとり、この最大値をとった
数が最も多い話者Ｓ（各出力ベクトルＸｔの多数決で選
定した話者Ｓ）尚、任意発声の一例として、学習用短文「明日は東京に
出ますのすみませんが留守にします、」に対して、「た
だいま」、「こんにちわ」、「おはようございます」の
３単語を用いて話者認識実験を行なった結果、話者５名
を完全に同定できた。

次に、上記実施例の作用について説明する。

上記実施例にあっては、先ず、学習用の音声から抽出し
た短時間（１フレーム長２５．６■５ｅａ）スペクトル
の概形を表わす各フレーム毎のベクトルを求め、このベ
クトルの系列なニューラルネットワーク１３へ入力する
学習動作により、ニューラルネットワーク１３を構築し
た。

学習により構築されたニューラルネットワーク１３を用
いる認識時には、発声内容を特徴とする特定話者の音声
から学習時と同様に抽出した短時間スペクトルの概形を
表わすベクトルを求め、このベクトルの系列をニューラ
ルネットワーク１３へ入力した。そして、当該入力に対
するニューラルネットワーク１３からの出力ベクトルの
系列を得た。この時、系列を構成する各出力ベクトルは
、それぞれか短時間の入力（各フレーム毎の入力）に対
する話者を示唆しており、上記実施例では、出力ベクト
ル演算部１４により、これを系列全体で、多数決、和、
又は積にて総合的に判断することにより、１つの話者認
識結果を得た。

然るに、上記実施例によれば、下記■、■の作用効果が
ある。

■学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク１３にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、短い発声につ
いても良好に実現できる。

■出力ベクトルの系列を総合的に判断して話者認識を行
なうものであるから、出力ベクトルの１つに基づ〈判断
では誤りである場合にも、全体としては正しい判断を下
すことができる。これにより、発声内容を限定しない入
力音声に基づく話者認識を、高い認識率で実現できる。

［発明の効果］以上のように本発明によれば、発声内容を限定しない入
力音声に基づく話者認識において、比鞍的短い発声で高
い認識率を得ることができる。

【図面の簡単な説明】

第１図は本発明の実施に用いられる話者認識装置を示す
ブロック図、第２図は本発明の話者認識原理を示す工程
図である。１０・・・話者認識装置、１１・・・音声入力部、１２・・・前処理部、１３・・・ニューラルネットワーク、１４・・・出力ベクトル演算部、１５・・・判定部。

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いた話者認識方式で
あって、入力音声から抽出した短時間スペクトルの概形
を表わすベクトルの系列をニューラルネットワークへの
入力とし、当該入力に対するニューラルネットワークか
らの出力ベクトルの系列を、総合的に判断することによ
り話者認識を行なう話者認識方式。
（２）前記総合的な判断が、各出力ベクトルの多数決、
和、又は積に基づいてなされる請求項１記載の話者認識
方式。