JP2518939B2

JP2518939B2 - 話者照合システム

Info

Publication number: JP2518939B2
Application number: JP1316073A
Authority: JP
Inventors: 雅幸海野; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1989-12-04
Filing date: 1989-12-04
Publication date: 1996-07-31
Anticipated expiration: 2011-07-31
Also published as: JPH03175499A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は話者照合システムに関する。

［従来の技術］本出願人は、ニューラルネットワークを用いて、今回
の入力話者が登録話者と非登録話者のいずれに属するか
の判定用出力値を出力できる話者照合システムを提案し
ている（音響講論２−６−４、PP.53−54、1989.3）。

この話者照合システムにあっては、登録話者と学習用
非登録話者とからなる学習用入力話者の入力音声に前処
理を施し、この登録話者と非登録話者の前処理データを
ニューラルネットワークに入力し、登録話者の音声に対
しては対応する出力ユニットの出力値が１、その他の出
力ユニットの出力値が０となり、非登録話者の音声に対
してはすべての出力ユニットの出力値が０となるよう
に、ニューラルネットワークの重みと変換関数を学習す
るようにしている。

そして、学習済のニューラルネットワークに音声パタ
ーンを入力し、その入出力パターン（各出力ユニットの
出力値の組）をしきい値θと比較する等により、今回の
話者が登録話者か否かを判定する。

即ち、本出願人によって提案済のニューラルネットワ
ークを用いた話者照合システムにあっては、登録話者だ
けでなく非登録話者についても学習することとしている
が、非登録話者については何らその選択条件を設けず、
ランダムに選んでいた。

［発明が解決しようとする課題］ニューラルネットワークを用いた話者照合システムに
おいて、非登録話者を学習に用いる理由は、特徴空間を
「登録話者」と「その他」の２つのカテゴリーに分ける
ためであり、照合率を向上させるには、登録話者のカテ
ゴリーの周辺に、非登録話者のデータを配置して、登録
話者のカテゴリーをなるべく厳しい閉じた空間にする必
要がある。

然しながら、前述の如く、学習用非登録話者をランダ
ムに選ぶ方法では、「登録話者」と「その他」の２つの
カテゴリー間に有効な境界を形成するためには、多数の
非登録話者のデータを用意する必要があり、又、用意し
たデータによって有効な境界を形成できる保証もない。

尚、学習用非登録話者をランダムに選ぶ方法では、多
数の非登録話者のデータを用いることから、処理時間が
多大となるという不都合もある。

本発明は、ニューラルネットワークを用いた話者照合
システムを構築するに際し、「登録話者」と「その他」
との有効な境界を効率的に形成して照合率の向上を図る
とともに、処理時間の短縮を図ることを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワーク
を用いて、今回の入力話者が登録話者と非登録話者のい
ずれに属するかの判定用出力値を出力できる話者照合シ
ステムであって、登録話者と学習用非登録話者とからな
る学習用入力話者の入力音声に前処理を施し、この登録
話者と非登録話者の前処理データをニューラルネットワ
ークに入力して該ニューラルネットワークの学習を行な
うに先立ち、非登録話者の前処理データのうちから、特
徴空間上で（Ａ）「登録話者」の領域により近いデー
タ、及び（Ｂ）「その他」の領域全域をより効果的に埋
めるデータを選択し、選択した前処理データのみを非登
録話者のための学習用入力データとして用いるようにし
たものである。

請求項２記載の本発明は、前記照合ニューラルネット
ワークへの入力として、音声の周波数特性の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、高域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用するようにしたものである。

［作用］請求項１に記載の本発明によれば、下記〜の作用
効果がある。

非登録話者のための学習用入力データとして、学習
用非登録話者の入力音声の前処理データのうちから、請
求項１にて限定した（Ａ）、（Ｂ）の２つの選択条件に
適合するものとして選択されるデータを用いる。

上記により学習用非登録話者を選択するものである
から、「登録話者」と「その他」との境界を有効に定め
ることができ、照合率を向上できる。

上記により、代表的なパターンの非登録話者のみを
学習用非登録話者として選択することにより、学習用に
供される非登録話者の数を少なくでき、処理時間を短縮
できる。

請求項２に記載の本発明によれば、下記の作用効果
がある。

照合ニューラルネットワークへの入力として、請求項
２に記載の〜の各要素のうちの１つ以上を用いるか
ら、入力を得るための前処理が単純となり、この前処理
に要する時間が短くて足りるため、話者照合システムを
複雑な処理装置によることなく容易に実時間処理でき
る。

［実施例］第１図は本発明の話者照合システムの一例を示す模式
図、第２図は前処理部の一例を示す模式図、第３図は入
力音声を示す模式図、第４図はバンドパスフィルタの出
力を示す模式図、第５図はニューラルネットワークを示
す模式図、第６図は階層的なニューラルネットワークを
示す模式図、第７図はユニットの構造を示す模式図であ
る。

本発明の具体的実施例の説明に先立ち、ニューラルネ
ットワークの構成、学習アルゴリズムについて説明す
る。

（１）ニューラルネットワークは、その構造から、第５
図（Ａ）に示す階層的ネットワークと第５図（Ｂ）に示
す相互結合ネットワークの２種に大別できる。本発明
は、両ネットワークのいずれを用いて構成するものであ
っても良いが、階層的ネットワークは後述する如くの簡
単な学習アルゴリズムが確立されているためより有用で
ある。

（２）ネットワークの構造階層的ネットワークは、第６図に示す如く、入力層、
中間層、出力層からなる階層構造をとる。各層は１以上
のユニットから構成される。結合は、入力層→中間層→
出力層という前向きの結合だけで、各層内での結合はな
い。

（３）ユニットの構造ユニットは第７図に示す如く脳のニューロンのモデル
化であり構造は簡単である。他のユニットから入力を受
け、その総和をとり一定の規則（変換関数）で変換し、
結果を出力する。他のユニットとの結合には、それぞれ
結合の強さを表わす可変の重みを付ける。

（４）学習（バックプロパゲーション）ネットワークの学習とは、実際の出力を目標値（望ま
しい出力）に近づけることであり、一般的には第７図に
示した各ユニットの変換関数及び重みを変化させて学習
を行なう。

又、学習アルゴリズムとしては、例えば、Rumelhart,
D.E.,McClelland,J.L.and the PDP Research Group,PAR
ALLEL DISTRIBUTED PROCESSING,the MIT Press,1986.に
記載されているバックプロパゲーションを用いることが
できる。

以下、本発明の実施例について説明する。

本発明の話者照合システム１は、第１図に示す如く、
音声入力部10、前処理部20、照合ニューラルネットワー
ク30、判定回路40の結合からなる。

（１）前処理部前処理部20は、入力音声に簡単な前処理を施し、照合
ニューラルネットワーク30の入力を得る。

尚、本発明の実施においては、ニューラルネットワー
クへの入力として、音声の周波数特製の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、高域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用できる。

そして、上記の要素は「音声の一定時間内における
平均的な周波数特性の時間的変化」、上記の要素は
「音声の一定時間内における平均的な線形予測係数の時
間的変化」、上記の要素は「音声の一定時間内におけ
る平均的なPARCOR係数の時間的変化」、上記の要素は
「音声の一定時間内における平均的な周波数特性、及び
ピッチ周波数の時間的変化」、上記の要素は、「高域
強調を施された音声波形の一定時間内における平均的な
周波数特性の時間的変化」として用いることができる。

尚、上記の線形予測係数は、以下の如く定義され
る。

即ち、音声波形のサンプル値｛χ_ｎ｝の間には、一般
に高い近接相関があることが知られている。そこで次の
ような線形予測が可能であると仮定する。

ここで、χ_t:時刻ｔにおける音声波形のサンプル値、
｛α_ｉ｝（ｉ＝1,…,p）：（ｐ次の）線形予測係数さて、本発明の実施においては、線形予測誤差ε_ｔの
２乗平均値が最小となるように線形予測係数｛α_ｉ｝を
求める。

具体的には（ε_ｔ）^２を求め、その時間平均を（▲
▼）^２と表わして、とおくことによって、次の式から｛α_ｉ｝が求められ
る。

又、上記のPARCOR係数は以下の如く定義される。

即ち、［K_n］（ｎ＝1,…,p）を（ｐ次の）PARCOR係数
（偏自己相関係数）とする時、PARCOR係数k_n+1は、線形
予測による前向き残差ε_t ^(f)と後向き残差ε_t-(n+1) ^(b)
間の正規化相関係数として、次の式によって定義され
る。

ここで、｛α_ｉ｝：前向き予測係数、｛β_ｊ｝：後向き予測係数又、上記の音声ピッチ周波数とは、声帯波の繰り返
し周期（ピッチ周期）の逆数である。尚、ニューラルネ
ットワークへの入力として、個人差がある声帯の基本的
なパラメータであるピッチ周波数を付加したから、特に
大人／小人、男性／女性間の話者の認識率を向上するこ
とができる。

又、上記の高域強調とは、音声波形のスペクトルに
平均的な傾きを補償して、低域にエネルギが集中するこ
とを防止することである。然るに、音声波形のスペクト
ルの平均的な傾きは話者に共通のものであり、話者の認
識には無関係である。ところが、このスペクトルの平均
的な傾きが補償されていない音声波形をそのままニュー
ラルネットワークへ入力する場合には、ニューラルネッ
トワークが学習する時にスペクトルの平均的な傾きの特
徴の方を抽出してしまい、話者の認識に必要なスペクト
ルの山と谷を抽出するのに時間がかかる。これに対し、
ニューラルネットワークへの入力を高域強調する場合に
は、話者に共通で、認識には無関係でありながら、学習
に影響を及ぼすスペクトルの平均的な傾きを補償できる
ため、学習速度が速くなるのである。

（２）照合ニューラルネットワーク構造階層的なニューラルネットワークからなる。

入力ユニットには音声入力部10から話者の音声が入力
される。

出力ユニットは各登録話者に対応して設けられる。

学習目標値は、登録話者については対応する出力ユニッ
トの出力値を１、その他の出力値を０とし、非登録話
者については、全出力ユニットの出力値を０とする。

（ａ）登録話者の音声に前処理部20による前処理を施
し、照合ニューラルネットワーク30に入力する。目標値
に近づくように照合ニューラルネットワーク30の重みと
変換関数を修正する。

（ｂ）非登録話者の音声に前処理部20による前処理を施
し、照合ニューラルネットワーク30に入力する。目標値
に近づくように照合ニューラルネットワーク30の重みと
変換関数を修正する。

（ａ）、（ｂ）を目標値と出力ユニットの出力値の誤
差が、十分に小さな値（例えば、１×10^-4）になるまで
繰り返す。

然るに、本発明にあっては、上記（ｂ）において、非
登録話者の前処理データを照合ニューラルネットワーク
30に入力して該照合ニューラルネットワーク30の学習を
行なうに先立ち、非登録話者の前処理データのうちか
ら、特徴空間上で（Ａ）「登録話者」の領域により近い
データ、及び（Ｂ）「その他」領域全域をより効果的に
埋めるデータを選択し、選択した前処理データのみを非
登録話者のための学習用入力データとして用いることと
する。

上記によって選択した非登録話者データと、登録話者
データとを入力パターンとして照合ニューラルネットワ
ーク30で学習することにより、「登録話者」と「その
他」の有効な境界を形成する。

尚、上述の非登録話者のデータの選択は、特徴空間上
での登録話者のデータと非登録話者のデータとの配置に
よるが、一般に特徴空間の次元（入力の次元）は高いの
で、主成分分析やその他の変換を用いて、次元を落した
特徴空間上で行なう。

（３）判定回路判定回路40は、照合ニューラルネットワーク30の出力
パターンを転送され、照合ニューラルネットワーク30の
各出力ユニットのうちのいずれかの出力値があるしきい
値を超えて１に近ければ今回の入力話者を登録話者とし
て認識する。

以下、上記話者照合システム１の具体的実施結果につ
いて説明する。

（１）音声試料音声入力部10に入力する音声を「tadaima」とする。

（２）前処理前処理部20として、第２図に示す如くの、ローパスフ
ィルタ21、バンドパスフィルタ22、平均化回路23の結合
からなるものを用いた。

入力音声の音声信号の高域の雑音成分を、ローパスフ
ィルタ21にてカットする。そして、この入力音声を第３
図に示す如く、４つのブロックに時間的に等分割する。

音声波形を、第２図に示す如く、複数（ｎ個）チャン
ネルのバンドパスフィルタ22に通し、各ブロック即ち各
一定時間毎に第４図（Ａ）〜（Ｄ）のそれぞれに示す如
くの周波数特性を得る。

この時、バンドパスフィルタ22の出力信号は、平均化
回路23にて、各ブロック毎、即ち一定時間で平均化され
る。

以上の前処理により、「音声の一定時間内における平
均的な周波数特性の時間的変化」が得られる。

然るに、この実施例にあっては、登録話者５人と非登
録話者25人の計30人について、上記前処理を行ない、64
次元の特徴ベクトルを得た。

上記の３特徴ベクトルについて主成分分析を行な
い、第３軸まで３次元空間上で登録話者と非登録話者の
データの分布を考慮し、前述の請求項１に記載した
（Ａ）、（Ｂ）の２つ選択条件に基づいて12人の非登録
話者データを選択した。

（３）照合ニューラルネットワーク３層パーセプトロン型とした。

入力ユニット数は前処理の４ブロック、16チャンネル
に対応する64とした。

中間ユニット数は30とした。出力ユニット数は登録話
者５名に対応する５とした。

学習はバックプロパゲーションにより行なった。

この時、前記（２）にて選択した12人の非登録話者
データと５人の登録話者データを、照合ニューラルネッ
トワーク30の入力とし、十分学習した。

（４）判定学習後の上記照合ニューラルネットワーク30に、登録
話者及び非登録話者の評価用データを入力として与え、
判定回路40にて判定した結果、ランダムに学習用の非登
録話者を選んだ時に比べ、誤り率において20％の改善が
見られた。

上記実施例によれば、下記〜の作用効果がある。

非登録話者のための学習用入力データとして、学習
用非登録話者の入力音声の前処理データのうちから請求
項１にて限定した（Ａ）、（Ｂ）の２つの選択条件に適
合するものとして選択されるデータを用いる。

上記により学習用非登録話者を選択するものである
から「登録話者」と「その他」との境界を有効に定める
ことができ、照合率を向上できる。

照合ニューラルネットワーク30への入力として、「音
声の一定時間内における平均的な周波数特性の時間的変
化」を用いたから、入力を得るための前処理が単純とな
り、この前処理に要する時間が短くて足りるため、話者
照合システム１を複雑な処理装置によることなく容易に
実時間処理できる。

尚、本発明の実施においては、照合ニューラルネット
ワークの出力層を、登録話者群と非登録話者群との２ユ
ニットにて構成し、出力層の目標値を、登録話者群につ
いては（1,0）、非登録話者群については（0,1）とする
ものであっても良い。

又、判定回路として、判定ニューラルネットワークを
用いるものであっても良い。

［発明の効果］以上のように、本発明によれば、ニューラルネットワ
ークを用いた話者照合システムを構築するに際し、「登
録話者」と「その他」との有効な境界を効率的に形成し
て照合率の向上を図るとともに、処理時間の短縮を図る
ことができる。

【図面の簡単な説明】

第１図は本発明の話者照合システムの一例を示す模式
図、第２図は前処理部の一例を示す模式図、第３図は入
力音声を示す模式図、第４図はバンドパスフィルタの出
力を示す模式図、第５図はニューラルネットワークを示
す模式図、第６図は階層的なニューラルネットワークを
示す模式図、第７図はユニットの構造を示す模式図であ
る。 10……音声入力部、 20……前処理部、 30……照合ニューラルネットワーク、 40……判定回路。

Claims

(57)【特許請求の範囲】

【請求項１】ニューラルネットワークを用いて、今回の
入力話者が登録話者と非登録話者のいずれに属するかの
判定用出力値を出力できる話者照合システムであって、
登録話者と学習用非登録話者とからなる学習用入力話者
の入力音声に前処理を施し、この登録話者と非登録話者
の前処理データをニューラルネットワークに入力して該
ニューラルネットワークの学習を行なうに先立ち、非登
録話者の前処理データのうちから、特徴空間上で（Ａ）
「登録話者」の領域により近いデータ、及び（Ｂ）「そ
の他」の領域全域をより効果的に埋めるデータを選択
し、選択した前処理データのみを非登録話者のための学
習用入力データとして用いることとする話者照合システ
ム。
【請求項２】前記照合ニューラルネットワークへの入力
として、音声の周波数特性の時間的変化、音声の平均的な線形予測係数、音声の平均的なPARCOR係数、音声の平均的な周波数特性、及びピッチ周波数、高域強調を施された音声波形の平均的な周波数特性、
並びに音声の平均的な周波数特性のうちの１つ以上を使用する請求項１記載の話者照合シ
ステム。