JPH0415699A

JPH0415699A - 話者認識システム

Info

Publication number: JPH0415699A
Application number: JP2120866A
Authority: JP
Inventors: Hidekazu Tsuda; 津田　英一; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-05-09
Filing date: 1990-05-09
Publication date: 1992-01-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は話者認識システムに関する。

［従来の技術］従来、セキュリティシステム等で、登録者本人であるか
否かを照合する時、ＩＤカードや暗唱番号を入力する方
法か採用されている。然しなから、これらの照合方法で
は、ＩＤカートの盗難、暗唱番号の漏洩により、必ずし
も登録者本人でなくても照合可能てあった。

そこて従来、特開昭５９−１８０６６５号公報に記載の
如く、暗唱番号を音声認識することにて、登録者本人で
あることを照合する方法か提案されている。

［発明か解決しようとする課題］然しなから、従来技術では、音声認識のみによって話者
照合を行なっており、発声した入力話者の特定を行なっ
ていないため、この場合でも、必ずしも登録話者本人で
なくても照合可能となるという不都合かある。

本発明は、登録話者本人であることを確実に認識できる
話者認識システムを提供することを目的とする。

［課題を解決するための手段］請求項１に記載の本発明は、複数の各登録話者毎にキー
ワードを設定し、話者を認識する話者認識システムにお
いて、話者照合により入力話者か登録話者か否かを判定
するための話者照合ニューラルネットワークと、話者同
定により入力話者か登録話者中の誰であるかを判定する
ための話者同定ニューラルネットワークと、入力音声単
語か上記話者同定ニューラルネットワークにて同定した
話者のキーワードと合致するか否かを判定する単語認識
ニューラルネットワークとを有して構成され、話者照合
ニューラルネットワークの出力により入力話者が登録話
者か否かを判定し、話者同定ニューラルネットワークの
出力により入力話者が登録話者中の誰であるかを判定し
、単語認識ニューラルネットワークの出力により入力音
声単語が同定した話者のキーワードと合致するか否かを
判定することにより、話者の認識を行なうようにしたも
のである。

請求項２に記載の本発明は、前記ニューラルネットワー
クへの入力として、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なＰＡＲＣＯＲ係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性のうちの１つ以上を使用するようにしたものである。

［作用］請求項１に記載の本発明によれば、下記■の作用効果が
ある。

■話者照合ニューラルネットワークの出力により入力話
者が登録話者であるか否かを判定できる。又、話者同定
ニューラルネットワークの出力により入力話者か登録話
者中の誰であるかを判定し、かつ単語認識ニューラルネ
ットワークの出力により同定した話者が本人のキーワー
ドを言っているか否かを判定できる。

即ち、話者照合、話者同定、単語認識の３重のチエツク
を設けることにより、入力話者が登録話者本人であるこ
とを確実に認識できる。

請求項２に記載の本発明によれば、下記■の作用かある
。

■ニューラルネットワークへの入力として、請求項１に
記載の■〜■の各要票のうちの１つ以上を用いるから、
入力を得るための前処理か単純となり、この前処理に要
する時間が短くて足りるため、話者認識システムを複雑
な処理装置によることなく容易に実時間処理できる。

［実施例コ第１図は本発明の一実施例を示すブロック図、第２図は
本発明の一実施例を示す流れ図である。

話者認識システム１０は、音声入力部１１、前処理部１
２、話者照合ニューラルネットワーク２１、話者同定ニ
ューラルネットワーク２２、単語認識ニューラルネット
ワーク２３、話者照合判定部３１、最終判定部３２にて
構成される。

以下、話者認識システム１０の各部の構成について説明
する。

（１）前処理部前処理部１２は、入力音声に簡単な前処理を施し、各ニ
ューラルネットワーク２１〜２３への入力データを作成
する。

前処理部１２の具体的構成を例示すれば以下の如くであ
る。

即ち、前処理部１２としては、ローパスフィルタ、バン
トパスフィルタ、平均化回路の結合からなるものを用い
ることができる。

■入力音声の音声信号の高域の雑音成分を、ローパスフ
ィルタにてカットする。そして、この入力音声を４つの
ブロックに時間的に等分割する。

■音声波形を、複数（ｎ個）チャンネルのバントパスフ
ィルタに通し、各ブロック即ち各一定時間毎の周波数特
性を得る。

この時、バンドパスフィルタの出力信号は、平均化回路
にて、各ブロック毎、即ち各一定時間で平均化される。

以上の前処理により、「音声の一定時間内における平均
的な周波数特性の時間的変化」か得られる。

（２）話者照合ニューラルネットワーク話者照合ニュー
ラルネットワーク２１は、話者照合により入力話者か登
録話者か否かを判定する。

話者照合ニューラルネットワーク２１の具体的構成を例
示すれば、以下の如くである。

■構造話者照合ニューラルネットワーク２１は例えば３層バー
セブトロン型であり、入カニニット数は前処理部１２の
４ブロツク、ｎチャンネルに対応する４ｎ個、出カニニ
ット数は登録話者群とその他の群のそれぞれに対応する
２個である。

■学習目標値は、■登録話者群については対応する出カニニッ
トの出力値を１、その他の群に対応する出カニニットの
出力値を０、■その他の群については上記■と逆とする
。

（ａ）登録話者の音声に前処理部１２による前処理を施
し、話者照合ニューラルネットワーク２１に入力する。

目標値に近づくように話者照合ニューラルネットワーク
２１の重みと変換関数を修正する。

（ｂ）非登録話者の音声に前処理部１２による前処理を
施し、話者照合ニューラルネットワーク２１に入力する
。目標値に近づくように話者照合ニューラルネットワー
ク２１の重みと変換関数を修正する。

（ａ）、（ｂ）を目標値と出カニニットの出力値の誤差
か、十分に小さな値（例えば、Ｉ　Ｘ　１０−’）にな
るまて繰り返す。

（３）話者同定ニューラルネットワーク話者同定ニュー
ラルネットワーク２２は、話者同定により入力話者が登
録話者中の誰であるかを判定する。

話者同定ニューラルネットワーク２２の具体的構成を例
示すれば、以下の如くである。

■構造話者同定ニューラルネットワーク２２は例えば３層バー
セブトロン型であり、入カニニット数は前処理部１２の
４ブロツク、ｎチャンネルに対応する４ｎ個、出カニニ
ット数は登録話者と同数個である。

■学習目標値は、登録話者について対応する出カニニットの出
力値を　１、その他の出力値を０とする。

（ａ）登録話者の音声に前処理部１２による前処理を施
し、話者同定ニューラルネットワーク２２に入力する。

目標値に近づくように話者同定ニューラルネットワーク
２２の重みと変換関数を修正する。

（ａ）を目標値と出カニニットの出力値の誤差が、十分
に小さな値（例えば、Ｉ　Ｘ　１（１−’）になるまで
繰り返す。

（４）単語認識ニューラルネットワーク単語認識ニュー
ラルネットワーク２３は、入力音声単語が上記話者同定
ニューラルネットワーク２２にて同定した話者のキーワ
ードと合致するか否かを判定する。

単語認識ニューラルネットワーク２３の具体的構成を例
示すれば、以下の如くである。

■構造単語認識ニューラルネットワーク２３は例えば３層バー
セブトロン型であり、入カニニット数は前処理部１２の
４ブロツク、ｎチャンネルに対応する４０個、出カニニ
ット数はキーワード数と同数個である。

■学習目標値は、キーワードについて対応する出カニニットの
出力値を　１、その他の出力値を　０とする。

（ａ）キーワードの音声に前処理部１２による前処理を
施し、単語認識ニューラルネットワーク２３に入力する
。目標値に近づくように単語認識ニューラルネットワー
ク２３の重みと変換関数を修正する。

（ａ）を目標値と出カニニットの出力値の誤差か、十分
に小さな値（例えば、Ｉ　Ｘ　１０−’）になるまて繰
り返す。

（５）話者照合判定部話者照合判定部３１は、話者照合ニューラルネットワー
ク２１の出力を得て、該ニューラルネットワーク２１の
登録話者群の出カニニットの値か予め定めたしきい値よ
り大きい場合、入力話者か登録話者であるものと判定す
る。

話者照合判定部３１は、入力話者か登録話者であるもの
と判定した時、話者同定ニューラルネットワーク２２と
単語認識ニューラルネットワーク２３を駆動せしめる。

（６）最終判定部最終判定部３２は、話者同定ニューラルネットワーク２
２の出力を得て、該ニューラルネットワーク２２のいず
れかの登録話者の出カニニットの値か予め定めたしきい
値より大きい場合、入力話者が登録話者のうちでその出
カニニットに対応する誰であるかを判定する。

又、最終判定部３２は、単語認識ニューラルネットワー
ク２３の出力を得て、該ニューラルネットワーク２３の
いずれかのキーワードの出力ユニッートの値が予め定め
たしきい値より大きい場合、入力音声単語かその出カニ
ニットに対応するキーワードであるものと判定する。

結果どして、最終判定部３２は、話者同定ニューラルネ
ットワーク２２か同定した話者か、本人のキーワードを
言っているかを否かを判定することになる。これにより
話者認識を完了する。

以下、上記話者認識システム１０の具体的実施結果につ
いて説明する。

（１）登録話者として５名を用い、各登録話者のキーワ
ードとして当該登録話者の姓を用いた。

（２）登録話者５名、非登録話者２５名の音声試料（キ
ーワード）に前処理を施し、６４次元の特徴ベクトル（
４ブロツク×１６チヤンネル）を得た。これを学習デー
タとし、各ニューラルネットワーク２１〜２３を構築し
た。

（３）上記ニューラルネットワーク２１〜２３を用い、
下記■〜■により話者認識を行なった（第２図参照）。

■話者照合ニューラルネットワーク２１の出力により話
者照合を行なう。

■上記■により入力話者を登録話者として照合した時、
話者同定ニューラルネットワーク２２の出力により登録
話者の特定を行なう。

■上記■の登録話者について、入力音声単語か予め登録
したキーワードと合致するか否かを単語認識ニューラル
ネットワーク２３の出力により判定する。これにより、
本人であるか否かを判定する。

（４）上記（３）の結果、照合率９４．５％か得られた
。

尚、上記実施例ては１話者照合ニューラルネットワーク
２１の判定結果か登録話者を判定したことを条件に、話
者同定ニューラルネットワーク２２と単語認識ニューラ
ルネットワーク２３を駆動することとした。然しながら
、本発明の実施にあっては、ニューラルネットワーク２
１〜２３の全ニューラルネットワークを略同時に並列駆
動し、全ニューラルネットワークの出力を判定部にて略
同時判定し、請求項１に記載の判定動作を行なわせるこ
ともできる。

又、前述の前処理部１２により、入力音声を前処理して
作成されるニューラルネットワークへの入力としては、 ■音声の周波数特性の時間的変化、 ■音声の平均的な線形予測係数、 ■音声の平均的なＰＡＲＣＯＲ係数、 ■音声の平均的な周波数特性、及びピッチ周波数、 ■高域強調を施された音声波形の平均的な周波数特性、
並びに ■音声の平均的な周波数特性のうちの１つ以上を使用できる。

そして、上記■の要素は「音声の一定時間内における平
均的な周波数特性の時間的変化」、上記■の要素は「音
声の一定時間内における平均的な線形予測係数の時間的
変化」、上記■の要素は［音声の一定時間内における平
均的なＰＡＲＣＯＲ係数の時間的変化」、上記■の要素
は「音声の一定時間内における平均的な周波数特性、及
びピッチ周波数の時間的変化」、上記■の要素は、「高
域強調を施された音声波形の一定時間内における平均的
な周波数特性の時間的変化」として用いることかてきる
。

尚、上記■の線形予測係数は、以下の如く定義される。

即ち、音声波形のサンプル値（χ。）の間には、一般に
高い近接相関かあることか知られている。

そこで次のような線形予測が可能であると仮定する。

八線形予測値　　χ、＝−Σα１χ、−１　　・・・（１
）線形予測誤差　ε、＝χ、−χ、　　・・・（２）こ
こで、χ、：時刻ｔにおける音声波形のサンプル値、（
αム）（ｉ＝１．・・・、ｐ）：　（ｐ次の）線形予測
係数さて、本発明の実施においては、線形予測誤差εｔの２
乗平均値が最小となるように線形予測係数（α、）を求
める。

具体的には　（ε　）２を求め、その時間平均を（ｃ　
ｔｌ”と表わシテ、δ（ｔｔ）”　／ａ　ａ　、　＝０
．　ｉ＝１．２．・・・、ｐとおくことによって、次の
式から（ａ、）か求められる。

Σ　ａ　ＩＩＩ−Ｊｌ　　＝０．ｊ＝１　．２　、−、
ｐ　　　−（３）又、上記■のＰＡＲ（：ＯＲ係数は以
下の如く定義される。

即ち、［ｋｎｌ　（ｎ　＝１　、　”・、ｐ　）を（ｐ
次の）ＰＡＲＣＯＲ係数（偏自己相関係数）とする時、
ＰＡＲＣＯＲ係数ｋ　ｎｉｌは、線形予測による前向き
残差ε　（ｆ）と後向き残差ε、−（。。）（６）間の
正規化相関係数として、次の式によって定義される。

・・・（４）ここで・εｔ１ゝ２χｔ−Σ　α五χｔ−１、（α五）
　：前向き予測係数、ｔｔ−（。。０．＝え、−１゜＋１１　　　”Ｔ−β４
．χ１１、（βｊ）：後向き予測係数又、上記■の音声のピッチ周波数とは、声帯波の繰り返
し周期（ピッチ周期）の逆数である。

尚、ニューラルネットワークへの入力として、個人差か
ある声帯の基本的なパラメータであるピッチ周波数を付
加したから、特に大人／小人、男性／女性間の話者の認
識率を向上することかてきる。

又、上記■の高域強調とは、音声波形のスペクトルの平
均的な傾きを補償して、低域にエネルギか集中すること
を防止することである。然るに、音声波形のスペクトル
の平均的な傾きは話者に共通のものであり、話者の認識
には無関係である。

ところが、このスペクトルの平均的な傾きが補償されて
いない音声波形をそのままニューラルネットワークへ入
力する場合には、ニューラルネットワークか学習する時
にスペクトルの平均的な傾きの特徴の方を抽出してしま
い、話者の認識に必要なスペクトルの山と谷を抽出する
のに時間かかかる。これに対し、ニューラルネットワー
クへの入力を高域強調する場合には、話者に共通で、認
識には無関係てありながら、学習に影響を及ぼすスペク
トルの平均的な傾きを補償できるため、学習速度が速く
なるのである。

上記話者認識システム１０によれば、下記■、■の作用
効果がある。

■話者照合ニューラルネットワーク２１の出力により入
力話者か登録話者であるか否かを判定てきる。又、話者
同定ニューラルネットワーク２２の出力により入力話者
か登録話者中の誰であるかを判定し、かつ単語認識ニュ
ーラルネットワーク２３の出力により同定した話者が本
人のキーワードを言っているか否かを判定てきる。

即ち、話者照合、話者同定、単語認識の３重のチエツク
を設けることにより、入力話者か登録話者本人であるこ
とを確実に認識できる。

■ニューラルネットワーク２１〜２３への入力として、
「音声の一定時間内における平均的な周波数特性の時間
的変化」等、前述■〜■の各要素のうちの１つ以上を用
いるから、入力を得るための前処理が単純となり、この
前処理に要する時間か短くて足りるため、話者認識シス
テム１０を複雑な処理装置によることなく容易に実時間
処理できる。

［発明の効果］以上のように本発明によれば、登録話者本人であること
を確実に認識できる話者認識システムを得ることができ
る。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
本発明の一実施例を示す流れ図である。１０・・・話者認識システム、１１・・・音声入力部、１２・・・前処理部、２１・・・話者照合ニューラルネットワーク、２２・・
・話者同定ニューラルネットワーク、２３・・・単語認
識ニューラルネットワーク、３１・・・話者照合判定部
、３２・・・最終判定部。特許出願人　積水化学工業株式会社代表者　廣　１）　馨

Claims

【特許請求の範囲】

（１）複数の各登録話者毎にキーワードを設定し、話者
を認識する話者認識システムにおいて、話者照合により
入力話者が登録話者か否かを判定するための話者照合ニ
ューラルネットワークと、話者同定により入力話者が登
録話者中の誰であるかを判定するための話者同定ニュー
ラルネットワークと、入力音声単語が上記話者同定ニュ
ーラルネットワークにて同定した話者のキーワードと合
致するか否かを判定する単語認識ニューラルネットワー
クとを有して構成され、話者照合ニューラルネットワー
クの出力により入力話者が登録話者か否かを判定し、話
者同定ニューラルネットワークの出力により入力話者が
登録話者中の誰であるかを判定し、単語認識ニューラル
ネットワークの出力により入力音声単語が同定した話者
のキーワードと合致するか否かを判定することにより、
話者の認識を行なうことを特徴とする話者認識システム
。
（２）前記ニューラルネットワークへの入力として、［１］音声の周波数特性の時間的変化、［２］音声の平均的な線形予測係数、［３］音声の平均的なＰＡＲＣＯＲ係数、［４］音声の平均的な周波数特性、及びピッチ周波数、［５］高域強調を施された音声波形の平均的な周波数特
性、並びに［６］音声の平均的な周波数特性のうちの１つ以上を使用する請求項１に記載の話者認識
システム。