JPH04163600A

JPH04163600A - 話者認識方法

Info

Publication number: JPH04163600A
Application number: JP2292731A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村; Masashi Miyagawa; 宮川　正志
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-10-29
Filing date: 1990-10-29
Publication date: 1992-06-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等で
入力音声からその話者を同定又は照合するに好適な話者
認識方法に関する。

［従来の技術］話者認識とは、入力音声からその話者を認識することて
あり、話者同定と話者照合の２つの形態がある。

話者同定とは入力音声が登録話者のうちのだれの声であ
るかを判定することであり、話者照合とは入力音声が登
録話者の声であるとみなせるか否かを判定することであ
る。

本出願人は、容易に★時間処理できる話者認識方法とし
て、特願平１−９６’１３１号により、ニューラルネッ
トワークを用いて入力音声からその話者を認識するもの
を提案している。この話者認識方法にあっては、ニュー
ラルネットワークへの入力とじて、入力音声の周波数特
性を算出し、各帯域のそれぞれにおいて時間的に等分割
した音声区間のそれぞれを１つのブロックとして、各ブ
ロックの中で周波数特性の平均を算出し、それらの平均
を話者のパワー全体で正規化したものを用いることとし
ている。

［発明か解決しようとする課題］然しながら、上述の従来技術による場合には、ニューラ
ルネットワークを構築するために標準入カバターン（学
習人カバターン）を作製する時と、構築されたニューラ
ルネットワークを使用して話者認識するために評価入カ
バターンを作製する時との間て、定常雑音の混入や回線
等の入力系の相違等によってそれらの作製条件が異なる
と、認識率の低下か見られることとなる。

この認識率の低下は、以下に解析する如く、話者のパワ
ー全体て正規化するために、スペクトル歪を消去できな
いことによる。即ち、ｉをブロック番号、ｋを帯域番号
、Ａｋをに帯域の周波数伝送特性、Ｓ　ｍｉｋを学習段
階でのに帯域ｉブロックの音声信号、Ｓ　ｔｉｋを評価
段階で電話回線を通した後における如く、定常的な周波
数伝送特性Ａｋの影響によりスペクトルか歪んだ、ｋ帯
域ｉブロックの音声信号とする時、５ｔｉｋ　＝Ａ　ｋ−３ｍｉである。そして、評価段階での各音声信号Ｓ　ｔｉｋを
話者のパワー全体で正規化したものは、Ｓ　ｔｉｋ　　
　　　　Ａ　ｋ　Ｓ　ｍｉｋであって、右辺の周波数伝
送特性Ａｋを消去てきない、即ち、スペクトル歪を消去
できないのである。

本発明は、容易に実時間処理でき、かつ高い認識率を確
保てきる話者認識方法を提供することを目的とする。

［課題を解決するための手段］本発明は、ニューラルネットワークを用いて入力音声か
らその話者を認識する話者認識方法てあって、入力音声
の周波数特性を算出し、各帯域のそれぞれにおいて時間
的に等分割した音声区間のそれぞれを１つのブロックと
して、各ブロックの中で周波数特性の平均を算出し、そ
れらの平均を対応する帯域毎に正規化したものを、ニュ
ーラルネットワークへの入力として用いるようにしたも
のである。

［作用］本発明によれば、下記■〜■の作用効果かある。

■ニューラルネットワークへ入力する特徴パラメータと
して「周波数特性」を用いたから、入力を得るための前
処理が、ＬＰＧ相関やＬＰＣケプストラムの如くの複雑
な特徴量抽出に比して単純て並列的に周波数分析でき、
その前処理に要する時間か短くて足りる。

■ニューラルネットワークは、原理的に、ネットワーク
全体の演算処理か単純かつ迅速である。

■ニューラルネットワークは、原理的に、それを構成し
ている各ユニットが独立に動作しており、並列的な演算
処理か可能である。従って、演算処理か迅速である。

■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理できる。

■定常的なスペクトル歪に強く、高い認識率を維持でき
る。これは、以下に解析する如く、入力音声の各ブロッ
クでの周波数特性の平均を同一帯域内で正規化するもの
であるため、スペクトル歪を消去てきることによる。即
ち、前述の如く、１をブロック番号、ｋを帯域番号、Ａ
ｋをに帯域の周波数伝送特性、Ｓ■ｉｋを学習段階ての
に帯域１ブロツクの音声信号、Ｓ　ｔｉｋを評価段階で
電話回線を通した後における如く、定常的な周波数伝送
特性Ａｋの影響によりスペクトルか歪んだ、ｋ帯域ｉブ
ロックの音声信号とする時、Ｓ　ｔｉｋ　＝　Ａ　ｋ−８ａｉｋ　　　　　　　　　
−（１）である。そして、評価段階ての各音声信号Ｓ　
ｔｉｋを帯域毎に正規化したものは、であって、周波数伝送特性Ａｋを消去てきる、即ち、ス
ペクトル歪を消去できるのである。

［実施例］第１図は本発明か適用された話者認識システムの一例を
示す模式図である。

認識システム１は、３２チヤンネルのバンドパスフィル
タ１１、平均化回路１２、正規化回路１３、ニューラル
ネットワーク２０、判定回路３０の結合にて構成される
（第１図参照）。

ここて、学習単語は「タタイマ」、入力単語は「タダイ
マ」とし、入力単語と学習単語との時期差は３か月とし
た。

また、話者は（ａ）、（ｂ）とした。

（ａ）話者同定登録話者９名とした。

（ｂ）話者照合登録話者９名、詐称者２７名を学習用話者とし、詐称者
１０名を未学習用話者とした。

以下、認識システム１の学習動作と評価動作について詳
述する。

（学習）１、入力作成 ■各話者の音声波形「タダイマ」を３２チヤンネルのバ
ントパスフィルタ１１に通し、入力音声の周波数特性を
算出する。

■バントパスフィルタ１１の各帯域のそれぞれにおいて
音声波形を時間的に８等分割した音声区間のそれぞれを
１つのブロックとして、平均化回路１２により、各ブロ
ックの中で、上記■て求めた周波数特性の平均を算出す
る。この学習段階における音声信号のに帯域ｉブロワつ
ての周波数特性の平均を、Ｓ　ｉｉｋとする。

■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和Σ５Ｉ
Ｉｌｉｋで除算し、対応する帯域毎に、 ΣＳ　ｍｉｋとして正規化する。

■上記■で求めた値をニューラルネットワーク２０への
入力とする。入力個数は３２チャンネル×８ブロック＝
２５６個となる。

２、学習 ■２５６個の入力層と、同定の時９個、照合の時２個の
出力層をもつニューラルネットワーク２ｏをそれぞれ用
いる。

■発声話者と出力層とを対応させ、入力話者に対応した
出力層か「１」、その他の出力層か「０」という値を目
標値にして、バックプロパゲーションにより十分学習す
る。

（評価）１、入力作成 ■上記単語の未知話者音声波形を３２チヤンネルのバン
ドパスフィルタ１１に通し、入力音声の周波数特性を算
出する。

■バントパスフィルタ１１の各帯域のそれぞれにおいて
音声波形を時間的に８等分割した音声区間のそれぞれを
１つのブロックとして、平均化回路１２により、各ブロ
ックの中で、上記■で求めた周波数特性の平均を算出す
る。この評価段階における音声信号のに帯域ｉブロワつ
ての周波数特性の平均を、Ｓ　ｔｉｋとする。

■上記■て各帯域にて求めた各ブロックの周波数特性の
平均を、対応する帯域の全ブロックのレベルの和ΣＳ　
ｔｉｋて除算し、対応する帯域毎に、　　ｔｉｋ Σ　Ｓ　　ｔｉｋとして正規化する。

２、学習 ■上記■て求めた値をニューラルネットワーク２０へ入
力する。

■ニューラルネットワーク２０の出力層の値より判定回
路３０にて話者を同定又は照合する。

以下、本発明の実験結果について説明する。

実験は電話音声について認識した。

（実験１：話者同定）音声入力として、登録話者９名の学習直後の「タタイマ
」を学習し、３か月後の「タダイマ」を評価した結果、
同定率９８．０％てあった。

■従来法でマイク音声を学習させ電話音声て同定した時
、同定率３８．０％てあった。

■本発明方法でマイク音声を学習させ電話音声で同定し
た時、同定率９４．０％であった。

（実験２：話者照合）音声入力として、登録話者９名と詐称者２７名（学習用
話者）の学習直後の「タタイマ」を学習し、登録話者９
名と詐称者２７名（学習用話者）と詐称者１０名（未学
習用話者）の３か列後の「タダイマ」を評価した結果、
照合率９９．０％であった。

■従来法でマイク音声を学習させ電話音声て同定した時
、照合率３６．０％てあった。

■本発明方法てマイク音声を学習させ電話音声で同定し
た時、照合率９９．０％てあった。

以下、上記実施例の作用について説明する。

■ニューラルネットワーク２０へ入力する特徴パラメー
タとして「周波数特性」を用いたから、入力を得るため
の前処理か、ＬＰＧ相関やＬＰＣケプストラムの如くの
複雑な特徴量抽出に比して単純で並列的に周波数分析で
き、その前処理に要する時間が短くて足りる。

■ニューラルネットワーク２０は、原理的に、ネットワ
ーク全体の演算処理が単純かつ迅速である。

■ニューラルネットワーク２０は、原理的に、それを構
成している各ユニットか独立に動作しており、並列的な
演算処理か可能である。従って、演算処理か迅速である
。

■上記■〜■により、話者認識処理を複雑な処理装置に
よることなく容易に実時間処理てきる。

■定常的なスペクトル歪に強く、高い認識率を維持てき
る。これは、［作用］の■にて前述の如く、評価段階で
正規化された（４）式の如くの値か、（２）式にて解析
された如くに周波数伝送特性Ａｋを消去されて、学習段
階で正規化された（３）式の如くの値と同等となり、雑
音の影響や回線等の入力系の相違に起因するスペクトル
歪を消去できるからである。

［発明の効果］以上のように本発明によれば、容易に実時間処理てき、
かつ高い認識率を確保できる話者認識方法を得ることが
てきる。

【図面の簡単な説明】

第１図は本発明が適用された話者認識システムの一例を
示す模式図である。１・・・認識システム、１０・・・バンドパスフィルタ、１２・・・平均化回路、１３・・・正規化回路、２ｏ・・・ニューラルネットワーク、３０・・・判定回路。特許出願人　積水化学工業株式会社代表者　廣　１）　馨

Claims

【特許請求の範囲】

（１）ニューラルネットワークを用いて入力音声からそ
の話者を認識する話者認識方法であって、入力音声の周
波数特性を算出し、各帯域のそれぞれにおいて時間的に
等分割した音声区間のそれぞれを１つのブロックとして
、各ブロックの中で周波数特性の平均を算出し、それら
の平均を対応する帯域毎に正規化したものを、ニューラ
ルネットワークへの入力として用いる話者認識方法。