JPH0566798A

JPH0566798A - 話者認識方式

Info

Publication number: JPH0566798A
Application number: JP3228943A
Authority: JP
Inventors: Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1991-09-09
Filing date: 1991-09-09
Publication date: 1993-03-19

Abstract

(57)【要約】【目的】本発明は、ニューラルネットワークへの負担
を軽減させて登録者のパターンの閉空間を形成しやすく
し、認識率の向上を図ることを目的とする。【構成】音声の周波数特性の時間的変化をニューラル
ネットワーク５への入力とし、登録者毎に出力ユニット
の数が一個であるニューラルネットワーク５を用いて、
話者の認識を行なうことする話者認識方式。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はニューラルネットワーク
を用いた話者認識方式に関するものである。

【０００２】

【従来の技術】話者認識とは、入力音声からその話者を
認識することであり、話者照合と話者同定の２つの形態
がある。

【０００３】話者同定とは、入力音声が登録者のうち誰
の声であるかを判定することであり、話者照合とは、入
力音声が登録者の声であるとみなされるか否かを判定す
ることである。

【０００４】そして、ニューラルネットワークによる話
者認識方式としては、例えば、特開平２−１３５５００
号公報に記載されているものが知られている。

【０００５】この話者認識方式は、例えば図８に示して
いるような階層的ニューラルネットワークが用いられて
いる。この階層的ニューラルネットワークは、入力ユニ
ット，中間ユニット，出力ユニットから構成されてい
る。この階層的ニューラルネットワークは、話者照合の
ニューラルネットワークであって、出力ユニットの数
は、登録者と非登録者とに対応する２つのユニットで構
成されている。

【０００６】そして、この話者認識方式で話者照合を行
なう場合は、前処理を行なった入力音声の入力に対して
ニューラルネットワークの出力ユニットのうち出力値の
大きいユニットが登録者か非登録者かのどちらに対応し
ているかで判定するものである。

【０００７】また、日本音響学会講演論文集２−６−４
ニューラルネットワークによる話者認識（１）平成
元年３月発行〈文献１〉でも次のような話者認識方式が
発表されている。この話者認識方式は、例えば図９に示
しているように、ニューラルネットワークの出力ユニッ
トが各登録者に対応した数の（登録者と同数の）ユニッ
トで構成されている。そして、この話者認識方式で話者
照合を行なう場合は、前処理を行なった入力音声の入力
に対して各出力ユニットの出力値とあらかじめ設定され
ているしきい値Θとの比較を行ない、１ユニットのみ出
力値がしきい値Θを越え、それ以外の出力ユニットの出
力値が（１−Θ）以下であれば、登録者と判定するもの
である。

【０００８】

【発明が解決しようとする課題】しかしながら、従来の
話者認識方式にあっては、話者の認識がうまく行なわれ
ない場合が生じる。以下、認識がうまく行なわれた場合
と行なわれなかった場合との特徴空間をみてみる。

【０００９】まず、話者の照合がうまく行なえた場合の
特徴空間の一例を図１０に示す。図中（〇）は登録者の
学習パターンで、（×）は非登録者の学習パターンであ
る。そして、話者の照合がうまく行なえた場合の特徴空
間では、登録者の学習パターン（〇）を取り囲むように
境界線が形成され、すなわち、閉空間が形成されてお
り、登録者の学習パターン（×）との分離ができてい
る。そのため、非登録者の評価パターン（△）を入力し
た場合に正しく非登録者と判定される。

【００１０】次に、話者の照合がうまく行なわれなかっ
た場合の特徴空間の一例を図１１に示す。話者の照合が
うまく行なわれなかった場合の特徴空間では、登録者の
学習パターン（〇）は非登録者の学習パターン（×）と
うまく分離できておらず、登録者の学習パターン（〇）
の閉空間が形成できていない。そのため、非登録者の評
価パターン（△）を入力した場合には誤って登録者と判
定される。

【００１１】この誤った判定を行なう原因の１つであ
る、登録者の学習パターン（〇）の閉空間が形成できな
い現象は、従来技術で記述した（図８および図９に示し
ているような）複数の登録者を１つのニューラルネット
ワークの対象とする場合に比較的多く発生すると思われ
る。これは、複数の登録者を対象とすることでニューラ
ルネットワーク内での処理が複雑化し、ニューラルネッ
トワーク内の負担が多くなっているため、登録者のパタ
ーンを囲む閉空間の形成が困難となっている。

【００１２】本発明は、ニューラルネットワークへの負
担を軽減させて登録者のパターンの閉空間を形成しやす
くし、認識率の向上を図ることを目的とする。

【００１３】

【課題を解決するための手段】上記目的を達成するた
め、本発明の話者認識方式にあっては、各ニューラルネ
ットワークの対象となる登録者を１名に限定することに
より、ニューラルネットワークへの負担を軽減させるこ
ととする。

【００１４】すなわち、本発明の話者認識方式にあって
は、階層的なニューラルネットワークを用いて入力音声
から話者を認識する話者認識方式であって、登録者毎に
出力ユニットの数が一個であるニューラルネットワーク
を用いて、話者の認識を行なうこととする。尚、前記ニ
ューラルネットワークへの入力としては、例えば、音声
の周波数特性の時間変化を用いることができる。

【００１５】

【作用】本発明の話者認識方式では、各ネットワークの
対象となる登録者を一名に限定したために、ニューラル
ネットワークへの負担が軽減する。その結果、閉空間を
形成しやすくなり、パターンの分離をうまく行なうこと
ができる。

【００１６】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。まず、本発明実施例の説明に先立ち、ニューラル
ネットワークの構成と学習アルゴリズムについて説明す
る。

【００１７】図５はニューラルネットワークを示す模式
図，図６は階層的なニューラルネットワークを示す模式
図，図７はユニットの構造を示す模式図である。

【００１８】（ａ）ニューラルネットワークの構成ニューラルネットワークは、その構成から、図５（イ）
に示す階層的ネットワークと図５（ロ）に示す相互結合
ネットワークとの２種に大別できる。本発明は、学習ア
ルゴリズムが確立されている階層的ネットワークを用い
ている。

【００１９】（ｂ）ネットワークの構造階層的ネットワークは、図６に示しているように、入力
層，中間層，出力層からなる階層構造をとる。結合は、
入力層→中間層→出力層という前向きの結合だけで、各
層内での結合はない。

【００２０】（ｃ）ユニットの構造ユニットは、図７に示しているように、脳のニューロン
のモデル化である。すなわち、他のユニットから入力を
受けてその総和をとり、一定の規則（変換関数）で変換
し、結果を出力する。他のユニットとの結合には、それ
ぞれ結合の強さを表わす可変の重みを付ける。

【００２１】（ｃ）学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望まし
い出力）に近づけることであり、一般的には、図７に示
した各ユニットの変換関数および重みを変化させて学習
を行なう。

【００２２】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING,the
MITPress,1986.〈文献２〉に記載されているバックプロ
パゲーションを用いることができる。

【００２３】以下、本発明実施例の話者認識方式に基づ
いて作動を行なう話者認識装置を図面に基づいて説明す
る。図１は話者認識装置の構成図で、この話者認識装置
は、登録者数設定部１と、音声入力部２と、前処理部１
２と、複数のニューラルネットワーク５と、モード切替
部６と、話者判定部７と、誤差計算部８と、目標値設定
部９と、学習状況判定部１０と、ニューラルネットワー
ク修正部１１と、から構成されている。

【００２４】前記前処理部１２は、前記音声入力部２に
入力される音声を、Ｎ個のブロックに時間的に等分割
し、複数（ｎ個）チャンネルを有するバンドパスフィル
タ３１，３２…，３ｎに通して各ブロック毎、すなわち
一定時間毎の周波数特性を得るものである。また、この
前処理部１２には、平均化回路４１，４２，… ４ｎが
設けられており、バンドパスフィルタ３１，３２…，３
ｎの出力は、各ブロック毎に平均化回路４１，４２，…
４ｎで平均化される。

【００２５】前記ニューラルネットワーク５は、図２に
示しているように、入力ユニットと、中間ユニットと、
出力ユニットとから構成されている。この入力ユニット
の数は、前記前処理部１２のＮ個のブロックとｎチャン
ネルに対応するＮ×ｎ個であり、出力ユニットの数は１
個である。

【００２６】また、このニューラルネットワーク５は、
学習方法により話者同定と話者照合のどちらの形態も実
現できるものである（図１および図２においては、話者
照合ニューラルネットワークのみ図示している）。

【００２７】前記モード切替部６は、前記ニューラルネ
ットワーク５の出力先を話者判定部７か、誤差計算部８
かに切換えるものである。

【００２８】前記話者判定部７は、前記各ニューラルネ
ットワーク５の出力値から話者の判定を行なうもので、
以下の判定方法が設定されている。

【００２９】話者同定においては、形成されている複数
のニューラルネットワーク５のうち出力ユニットから最
大の出力値を出力したニューラルネットワーク５に対応
する登録者を話者と判定する。

【００３０】話者照合においては、形成されている複数
のニューラルネットワーク５の出力値に対し、しきい値
Θ（０．５＜Θ＜１．０）が設定されており、１ユニッ
トの出力値がΘ以上、その他のユニットからの出力値が
（１−Θ）以下の場合に登録者と判断し、それ以外の場
合は非登録者と判定する。

【００３１】前記目標値設定部９は、前記ニューラルネ
ットワーク５の出力値、すなわち、出力ユニットの出力
値の目標値を設定するものである。実施例の各ニューラ
ルネットワーク５の目標値を表１に示す。

【００３２】

【表１】

【００３３】前記誤差計算部８は、前記目標値設定部９
で設定されている目標値と実際にニューラルネットワー
ク５から出力される出力値との誤差の平均値Ｇを計算す
るものである。

【００３４】前記学習状況判定部１０は、前記誤差計算
部８によって計算された誤差値Ｇがあらかじめ設定され
ている設定値Ｍ（例えば１×１０^-4）以下の場合は、学
習が収束したと判断し、学習を終了させ、設定値以上で
あれば、まだ学習が収束していないと判断し、前記ニュ
ーラルネットワーク修正部１１によって学習を行なわせ
る。

【００３５】前記ニューラルネットワーク修正部１１
は、出力ユニットの出力値を目標値に近づけるように修
正を行なう。この修正は学習アルゴリズム（バックプロ
ゲーション）にしたがってニューラルネットワーク５の
結合の重みを修正するものである。

【００３６】図３は話者認識装置の作動の流れを示すフ
ローチャートで、以下各ステップについて説明する。

【００３７】ステップ１００では、登録者の数を設定す
る。これにより用いられるニューラルネットワーク５の
数が決定する。

【００３８】ステップ１０１では、学習モードであるか
評価モードであるか判断し、学習モードであればステッ
プ１０２へ進み、評価モードであればステップ１０９へ
進む。

【００３９】ステップ１０２では、各ニューラルネット
ワーク５の出力値の目標値を設定する。ステップ１０３
では、学習試料の音声を入力する。

【００４０】ステップ１０４では入力した音声の前処理
を行なう。

【００４１】ステップ１０５では、ステップ１０４で得
られた入力音声のパターンを各ニューラルネットワーク
５に入力する。

【００４２】ステップ１０６では、ステップ１０５で入
力したパターンによる出力値と設定した目標値との間の
誤差の平均値Ｇを算出する。

【００４３】ステップ１０７では、ステップ１０６で算
出した誤差の平均値Ｇがある設定値Ｍ以下であればステ
ップ１０１へ進み、設定値Ｍ以上であればステップ１０
８へ進む。

【００４４】ステップ１０８では、学習アルゴリズム
（バックプロパゲーション）に従い、ニューラルネット
ワーク５の結合の重みの修正を行ない、ステップ１０５
へ進む。

【００４５】ステップ１０９では、評価試料の音声を入
力する。

【００４６】ステップ１１０では、ステップ１０９で入
力された音声の前処理を行なう。

【００４７】ステップ１１１では、ステップ１１０で得
られた入力音声のパターンをニューラルネットワーク５
の入力ユニットに入力する。

【００４８】ステップ１１２では、入力パターンに対し
て得られた出力パターンにより、設定された判定方法に
より話者の判定を行ない、ステップ１０１へ進む。

【００４９】次に、本実施例の話者認識方式について説
明する。前記話者認識方式は、学習作業を行なった後、
評価を行なう。尚、ここでは、登録者を５名、学習試料
の単語を「タダイマ」とし、学習試料数を登録者５名で
１００パターンと非登録者２５名で１００パターンとし
た場合を説明する。

【００５０】（１）学習時まず、モード切替部６にてモードを学習モードに設定す
る。そして、音声入力部２より学習試料の音声を入力す
る。入力された音声は、次の前処理が行なわれる。

【００５１】まず、入力音声の「タダイマ」は時間的に
Ｎ個のブロックに等分割する。そして、ブロックに分割
された音声を複数（ｎ個）チャンネルを有するバンドパ
スフィルタ３１，３２…，３ｎに通してブロック毎に平
均化回路４１，４２，…４ｎで平均化し、一定時間毎
の周波数特性を得る。

【００５２】次に、上記の前処理の結果をニューラルネ
ットワーク５の入力ユニットに入力する。ニューラルネ
ットワーク５の出力ユニットから出力値は、誤差演算部
８に入力され、目標値設定部９に設定されている目標値
との間の誤差値を計算し、全出力値を平均した誤差の平
均値Ｇを計算する。誤差の平均値Ｇは学習状況判定部１
０に入力され、誤差の平均値Ｇが設定値Ｍ（１×１
０^-4）以下の場合は、学習が打ち切られ、それ以上であ
ればニューラルネットワーク修正部１１で学習アルゴリ
ズムに従い、各ニューラルネットワーク５の変換関数お
よびニューラルネットワーク５の結合の重みを変化させ
て出力値を目標値へ近づける。

【００５３】（２）評価時まず、モード切替部６にてモードを評価モードに設定す
る。音声入力部２より評価試料を入力する。入力音声に
は上記のような前処理が行なわれた後、各ニューラルネ
ットワーク５の入力ユニットに入力する。

【００５４】そして、各ニューラルネットワーク５の出
力ユニットから出力される出力値は話者判定部７に入力
され、話者判定部７に設定されている判定方法に応じて
判定する。

【００５５】ここで、判定方法の一例として、話者照合
を行なった場合を示す。入力音声に対してニューラルネ
ットワーク５の出力が図４に示しているような結果が得
られた場合、登録者２の１ユニットの出力値のみΘ以上
となり、その他の登録者のユニットの出力値が（１−
Θ）以下であるので、入力音声は登録者の音声と判断す
る。

【００５６】ここで、実施例の話者認識方式にあって
は、各ニューラルネットワーク５の対象となる登録者を
１名に限定しているため、従来の話者認識方式と比べ、
ニューラルネットワーク５への負担を軽減することがで
き、登録者パターンの閉空間が形成しやすくなってパタ
ーンの分離をうまく行なうことができ、認識率の向上を
図ることができる。

【００５７】（３）結果実施例の話者認識装置を用いて話者認識の評価を行なっ
た結果、従来の話者認識方式に対して、同定誤り率にお
いて５％の改善がみられ、また、照合誤り率において１
２％の改善がみられた。

【００５８】尚、評価試料数は登録者１７５パターンお
よび非登録者１３０パターンとした。

【００５９】

【発明の効果】以上説明してきたように、登録者毎に出
力ユニットの数が一個であるニューラルネットワークを
用いて、各ニューラルネットワークの対象となる登録者
を１名に限定したために、ニューラルネットワークへの
負担を軽減することができ、登録者パターンの閉空間が
形成しやすくなってパターンの分離をうまく行なうこと
ができ、認識率の向上を図ることができるという効果が
得られる。

【図面の簡単な説明】

【図１】実施例の話者認識方式で作動する話者認識装置
を示す構成図である。

【図２】実施例のニューラルネットワークを示す模式図
である。

【図３】実施例の話者認識装置の作動の流れを示すフロ
ーチャートである。

【図４】実施例の話者認識方式による話者照合における
出力ユニットの結果を示す各ユニットと出力値との関係
図である。

【図５】ニューラルネットワークを示す模式図である。

【図６】階層的なニューラルネットワークを示す模式図
である。

【図７】ユニットの構造を示す模式図である。

【図８】従来技術のニューラルネットワークを示す模式
図である。

【図９】従来技術のニューラルネットワークを示す模式
図である。

【図１０】従来技術の話者認識方式におけるパターンの
分離を示す特徴空間図である。

【図１１】従来技術の話者認識方式におけるパターンの
分離を示す特徴空間図である。

【符号の説明】

１登録者数設定部２音声入力部５ニューラルネットワーク６モード切替部７話者判定部８誤差計算部９目標値設定部１０学習状況判定部１１ニューラルネットワーク修正部１２前処理部

Claims

【特許請求の範囲】

【請求項１】階層的なニューラルネットワークを用い
て入力音声から話者を認識する話者認識方式であって、
登録者毎に出力ユニットの数が一個であるニューラルネ
ットワークを用いて、話者の認識を行なうことを特徴と
する話者認識方式。
【請求項２】前記ニューラルネットワークへの入力と
して音声の周波数特性の時間変化を用いることを特徴と
する請求項１の話者認識方式。