JPH0415697A

JPH0415697A - 話者照合システム

Info

Publication number: JPH0415697A
Application number: JP2120864A
Authority: JP
Inventors: Shingo Nishimura; 新吾西村; Masayuki Unno; 海野　雅幸
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-05-09
Filing date: 1990-05-09
Publication date: 1992-01-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は話者照合システムに関する。

［従来の技術］本出願人は、ニューラルネットワークを用いて、今回の
入力話者が登録話者と非登録話者のいずれに属するかの
判定用出力値を出力できる話者照合システムを提案して
いる（音響講論２−６−４、ＰＰ、　５３−５４．１９
８９．３）　。

この話者照合システムにあっては、登録話者と学習用非
登録話者とからなる学習用入力話者の入力音声に前処理
を施し、この登録話者と非登録話者の前処理データをニ
ューラルネットワークに入力し、登録話者の音声に対し
ては対応する出カニニットの出力値が１、その他の出カ
ニニットの出力値か０となり、非登録話者の音声に対し
てはすべての出カニニットの出力値が０となるように、
ニューラルネットワークの重みと変換関数を学習するよ
うにしている。

そして、学習済のニューラルネットワークに音声パター
ンを入力し、その入出カバターン（各出カニニットの出
力値の組）をしきい値θと比較する等により、今回の話
者が登録話者か否かを判定する。

即ち、本出願人によって提案済のニューラルネットワー
クを用いた話者照合システムにあっては、登録話者たけ
でなく非登録話者についても学習する必要があるが、従
来は実際に非登録話者の発声した音声から抽出したデー
タにより学習を行なっている。

［発明が解決しようとする課題］ニューラルネットワークを用いた話者照合システムにお
いて、非登録話者を学習に用いる理由は、特徴空間を「
登録話者」と「その他」の２つのカテゴリーに分けるた
めであり、照合率を向上させるには、登録話者のカテゴ
リーの周辺に、非登録話者のデータを配置して、登録話
者のカテゴリーをなるべく厳しい閉じた空間にする必要
かある。

然しながら、従来の実際の音声から非登録話者の学習用
入力データを作成する方法ては、有効な境界を形成する
ためには、多数の非登録話者のデータを用意する必要が
あり、又、用意したデータで有効な境界を形成できる保
証もない。

本発明は、ニューラルネットワークを用いた話者照合シ
ステムを構築するに際し、「登録話者」と「その他」と
の有効な境界を効率的に形成して意図的に照合率の向上
を図るとともに、処理時間の短縮を図ることを目的とす
る。

［課題を解決するための手段］請求項１に記載の本発明は、ニューラルネットワークを
用いて、今回の入力話者か登録話者と非登録話者のいず
れに属するかの判定用出力値を出力できる話者照合シス
テムであって、登録話者の学習用入力音声に前処理を施
し、この登録話者の学習用入力データに基づき、特徴空
間上で（Ａ）「登録話者」の領域により近いデータ、及
び／又は（Ｂ）「その他」の領域全域をより効果的に埋
めるデータを選択し、選択したデータを用いて非登録話
者のための学習用入力データを演算により決定し、上述
の登録話者と非登録話者の学習用入力データなニューラ
ルネットワークに入力して該ニューラルネットワークの
学習を行なうようにしたものである。

請求項２記載の本発明は、前記ニューラルネットワーク
への入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なＰＡＲＣＯＲ係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性のうちの１つ以上を使用するようにしたものである。

［作用コ請求項１に記載の本発明によれば、下記■〜■の作用効
果がある。

■非登録話者の学習用入力データを演算て作成すること
により、「登録話者」と「その他」の２つのカテゴリー
間の境界を有効に決めることかでき、照合率が向上する
。

■非登録話者の音声か必要なくなる。

■理想的な非登録話者の学習用入力データを作成するこ
とにより、非登録話者の学習データ数を少なくでき、処
理時間が短縮できる。

請求項２に記載の本発明によれば、下記■の作用効果が
ある。

■ニューラルネットワークへの入力として、請求項２に
記載の■〜■の各要素のうちの１つ以上を用いるから、
入力を得るための前処理が単純となり、この前処理に要
する時間が短くて足りるため、話者照合システムを複雑
な処理装置によることなく容易に実時間処理できる。

［実施例コ第１図は登録話者の学習用入力データ作成系統を示すブ
ロック図、第２図は非登録話者の学習用入力データ作成
系統を示すブロック図、第３図はニューラルネットワー
クの学習系統を示すブロック図、第４図はニューラルネ
ットワークによる話者照合系統を示すブロック図である
。

（１）先ず、登録話者の学習用入力データ作成系統につ
いて説明する（第１図参照）。

この系統は、音声入力部１１、前処理部１２、登録話者
用学習データ記憶部１３にて構成される。

この時、前処理部１２は、入力音声に簡単な前処理を施
して、ニューラルネットワーク１４への入力データを作
成する。

（２）次に、非登録話者の学習用入力データ作成系統に
ついて説明する（第２図参照）。

この系統は、上述（１）の登録話者用学習データ記憶部
１３、主成分分析部１５、非登録話者用学習データ設定
部１６、非登録話者用学習データ記憶部１７にて構成さ
れる。

この非登録話者の学習用入力データの作成は、特徴空間
上での登録話者の学習用入力データと非登録話者の学習
用入力データとの配置によるが、一般に特徴空間の次元
（入力の次元）は高いので、主成分分析やその他の変換
を用いて、次元を落した特徴空間上で行なう、主成分分
析による非登録話者データの作成方法の一例を以下に説
明する。

■登録話者の学習用入力データを主成分分析にかけ、変
換行列を得る。

■分析結果をＩ−ｍ軸、ｎ−ｍ軸、Ｉ−ｍ軸上にプロッ
トする。

■非登録話者の学習用入力データを、例えば次の２つの
点を基準として選択する。尚、選択は、目視により行な
い、或いは登録話者の分布からの距離かあるしきい値に
近いものを演算により採取することにて行なうことがで
きる。

（Ａ）登録話者のデータに近く、「登録話者」の領域を
厳しく制限するもの。

（Ｂ）「その他」の領域全域を、効果的に埋めるもの。

■選択したデータと主成分分析で得た変換行列の逆行列
の積をとり、非登録話者の学習用人カバターンとする。

（３）次に、ニューラルネットワークの学習系統につい
て説明する（第３図参照）。

この系統は、上述（１）の登録話者用学習データ記憶部
１３、（２）の非登録話者用学習データ記憶部１７、及
びニューラルネットワーク１４にて構成される。

即ち、登録話者データと非登録話者データを入カバター
ンとしてニューラルネットワーク１４で学習することに
より、「登録話者」と「その他」の有効な境界を形成す
る。

この時、登録話者については、対応する出カニニットの
出力値か目標値”１”、非登録話者については、対応す
る出カニニットの出力値が目標値”０”に近づくように
、ニューラルネットワーク１４の重みと変換関数を修正
する。

（４）次に、ニューラルネットワークによる話者照合系
統について説明する（第４図参照）。

この系統は、前述（１）の音声入力部１１、前処理部１
２、ニューラルネットワーク１４、及び判定部１８にて
構成される。

この時、判定部１８は、ニューラルネットワーク１４の
出カバターンを転送され、ニューラルネットワーク１４
の各出カニニットのうちのいずれかの出力値があるしき
い値を超えて”１”に近ければ今回の入力話者を登録話
者として認識する。

以下、上記話者照合システムの具体的実施結果について
説明する。

■登録話者５人につき、前処理を行ない、６４次元の特
徴ベクトルを得る。

０５人の特徴ベクトルについて主成分分析を行ない、第
３軸までの３次元空間上で登録話者のデータの分布を考
慮して１０人分の非登録話者のデータを作成する。

■上記５人の登録話者データと１０人分の非登録話者デ
ータを、ニューラルネットワークの入力とし、十分学習
する。

■学習後のニューラルネットワークに、登録話者、及び
非登録話者の評価用データを入力として与え判定した結
果、非登録話者の実際の音声を使用して学習した時に比
べ、誤り率において２０％の改善がみられた。

尚、前述の前処理部１２により、入力音声を前処理され
て作成されるニューラルネットワーク１４への入力とし
ては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なＰＡＲＣＯＲ係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性のうちの１つ以上を使用できる。

そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は「音声の一定時間内における平
均的なＰＡＲＣＯＲ係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかできる
。

尚、上記■の線形予測係数は、以下の如く定義される。

即ち、音声波形のサンプル値（χ。）の間には、−Ｍに
高い近接相関があることが知られている。

そこで次のような線形予測が可能であると仮定する。

線形予測値　　χ、＝−Σαムχ、−１・・・（１）線
形予測誤差　εｔ＝χｔ−χし　　・・・（２）ここで
、χｔ＝＠刻ｔにおける音声波形のサンプル値、（α１
）（ｉ＝１．・・・、ｐ）：　（ｐ次の）線形予測係数さて、本発明の実施においては、線形予測誤差ε、の２
乗平均値が最小となるように線形予測係数（α、）を求
める。

具体的には　（εｔ）２を求め、その時間平均を（「コ
２と表わして、θ（讃）２／θαＩ＝＝ｏ、ｉ＝１．２
．−・・、ｐとおくことによって、次の式から（ａｌ）
が求められる。

又、上記■のＰＡＲＣＯＲ係数は以下の如く定義される
。

即ち、［ｋｎ］（ｎ＝ｔ、・・・、ｐ）を（ｐ次の）Ｐ
ＡＲＣＯＲ係数（偏自己相関係数）とする時、ＰＡＲＣ
ＯＲ係数ｋ　ｎｉｌは、線形予測による前向き残差ε、
　（ｆｆｉ）と後向き残差εｔ−，，，１，（ｂ１間の
正規化相関係数として、次の式によって定義される。

ここて、εを目）＝χ、−Σ　α、χｔ−１、（α１）
　：前向き予測係数、 ε、−３わ。、（ｂｌ＝χ、−１゜。１．−Ｖβ４．χ
ｔ−Ｊ　、Ｊ＊Ｑ（βｊ）：後向き予測係数又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期（ピッチ周期）の逆数である。

尚、ニューラルネットワークへの入力として、個人差が
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人／小人、男性／女性間の話者の認
識率を向上することかできる。

又、上記■の高域強調とは、音声波形のスベクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものてあり、話者の認識
には無関係である。

ところか、このスペクトルの平均的な傾きか補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間かかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無間係てありながら、学習に影響を及ぼすスペク
トルの平均的な傾きを補償できるため、学習速度か速く
なるのである。

上記実施例によれば、下記■〜■の作用効果がある。

■　非登録話者の学習用入力データを演算で作成するこ
とにより、「登録話者」と「その他」の２つのカテゴリ
ー間の境界を有効に決めることかでき、照合率か向上す
る。

■非登録話者の音声が必要なくなる。

■理想的な非登録話者の学習用入力データを作成するこ
とにより、非登録話者の学習データ数を少なくでき、処
理時間が短縮てきる。

■照合ニューラルネットワークへの入力として、「音声
の一定時間内における平均的な周波数特性の時間的変化
」等、前述■〜■の各要素のうちの１つ以上を用いるか
ら、入力を得るための前処理が単純となり、この前処理
に要する時間か短くて足りるため、話者照合システムを
複雑な処理装置によることなく容易に実時間処理てきる
。

［発明の効果］以上のように本発明によれば、ニューラルネットワーク
を用いた話者照合システムを構築するに際し、「登録話
者」と「その他」との有効な境界を効率的に形成して意
図的に照合率の向上を図るとともに、処理時間の短縮を
図ることができる。

【図面の簡単な説明】

第１図は登録話者の学習用入力データ作成系統を示すブ
ロック図、第２図は非登録話者の学習用入力データ作成
系統を示すブロック図、第３図はニューラルネットワー
クの学習系統を示すブロック図、第４図はニューラルネ
ットワークによる話者照合系統を示すブロック図である
。１１・・・音声入力部、１２・・・前処理部、１３・・・登録話者用学習データ記憶部、１４・・・ニ
ューラルネットワーク、１５・・・主成分分析部、１６・・・非登録話者用学習データ設定部、１７・・・
非登録話者用学習データ記憶部、１８・・・判定部。第１図第３図特許出願人　積水化学工業株式会社代表者　廣　１）　馨第４図

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて、今回の入力話
者が登録話者と非登録話者のいずれに属するかの判定用
出力値を出力できる話者照合システムであって、登録話
者の学習用入力音声に前処理を施し、この登録話者の学
習用入力データに基づき、特徴空間上で（Ａ）「登録話
者」の領域により近いデータ、及び／又は（Ｂ）「その
他」の領域全域をより効果的に埋めるデータを選択し、
選択したデータを用いて非登録話者のための学習用入力
データを演算により決定し、上述の登録話者と非登録話
者の学習用入力データをニューラルネットワークに入力
して該ニューラルネットワークの学習を行なうこととす
る話者照合システム。
（２）前記ニューラルネットワークへの入力として、［１］音声の周波数特性の時間的変化、［２］音声の平均的な線形予測係数、［３］音声の平均的なＰＡＲＣＯＲ係数、［４］音声の平均的な周波数特性、及びピッチ周波数、［５］高域強調を施された音声波形の平均的な周波数特
性、並びに［６］音声の平均的な周波数特性のうちの１つ以上を使用する請求項１記載の話者照合シ
ステム。