JPH0136960B2

JPH0136960B2 -

Info

Publication number: JPH0136960B2
Application number: JP56214312A
Authority: JP
Inventors: Akihiro Kimura; Juji Kijima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-12-25
Filing date: 1981-12-25
Publication date: 1989-08-03
Also published as: JPS58111992A

Description

【発明の詳細な説明】 (1) 発明の技術分野本発明は話者認識方式に関し、特に各話者に特
有なスペクトル概形をあらかじめ学習してこれを
記録しておき、話者認識のときにこの学習したス
ペクトル概形にもとづくマツチングを行なつて話
者が誰であるかということを確実に認識するよう
にした話者認識装置に関する。

(2) 従来技術と問題点従来、話者を認識する場合、その音声の特徴パ
ラメータとして時間領域の計算で求められるパラ
メータ、例えば自己相関関数などが使用されてい
た。すなわちあらかじめ話者毎に特定語を読むこ
とにより得られた自己相関関数を記憶しておき、
話者認識すべき音声が入力されたときこれよりそ
の自己相関関数を求め、先に登録ずみのメモリ内
よりこれともつとも一致する自己相関関数を抽出
して、話者を認識することが行なわれていた。

しかし、この自己相関関数のようなパラメータ
は、音声スペクトルと直接的な関係ではなく、そ
の関数全体の形状を表現するものであつて、特定
の周波数領域における状態を表示するものではな
いので、話者認識に重要な周波数スペクトルにお
ける特定の周波数領域における微妙な変化状態を
捉えることはできなかつたために、高精度の話者
認識を行なうことができなかつた。

(3) 発明の目的したがつて本発明はこのような問題を改善する
ために、話者間の音声スペクトルの細かな差異を
抽出するために、話者毎のスペクトル概形を求め
ておき、話者間のスペクトル概形の細かな差異に
注目して話者認識を行なう話者認識装置を提供す
ることにある。

(4) 発明の構成そしてこのために本発明における話者認識装置
では、音声信号を入力する音声入力手段と、この
入力された音声をスペクトル分析するスペクトル
分析手段と、入力された音声信号からスペクトル
概形となる音声の短区間スペクトルのパワー加重
平均を、スペクトル包絡分析を用いて得るスペク
トル加重平均手段と、あらかじめ既知の話者のス
ペクトル概形が登録される話者メモリ手段と、ス
ペクトル概形を、スペクトル重み関数を用いて比
較する比較手段を設け、前記話者メモリ手段にあ
らかじめ既知の複数の話者のスペクトル概形を記
入しておき、未知の話者の入力音声から得られた
スペクトル概形と前記話者メモリ手段に記入され
たスペクトル概形とをスペクトル重み関数を用い
て比較することにより入力音声の話者を認識する
ようにしたことを特徴とする。

(5) 発明の実施例本発明の一実施例を詳述するに先立ちその動作
原理について説明する。

本発明では発声された音声の短区間スペクトル
のパワー加重平均をその発声者の固有の音声スペ
クトル概形として各話者毎にこれを登録してお
き、話者認識時にその入力音声のスペクトル概形
と登録されている各話者のスペクトル概形との間
で距離計算を行ない、最も距離の小さくなつたも
のの登録話者名を認識結果として出力するもので
ある。この際、各話者のスペクトル概形間で話者
変動の大きな帯域での距離計算を行なつてその最
も小さな距離のものを求めるものである。

すなわち、第１図に示す如く、入力音声を時間
軸ｔ方向に、例えば10ｍsec程度の時間間隔△ｔ
で、t₁，t₂，t₃…と区間分割し、第２図に示す如
く、その区間のスペクトル包絡を作成し、このス
ペクトル包絡を｛Sij（ω）｝とする。ここでは区
間番号、ｊは話者番号、ωは正規化周波数（図示
の例では8KHzのときω＝π）である。そしてそ
の音声の正規化対数パワーを｛Pij｝；０≦Pij≦
１とする。ここで換言すればこのPijは第１図の
入力音声の各区間分割のパワーに対応するもので
あり、Sij（ω）は第２図のスペクトル包絡線に対
応するものであるが、これを正規化周波数ω＝π
まである単位周波数毎にサンプリングした値とし
て演算しておく。そしてこれらにより話者ｊの音
声スペクトル概形ｊ（ω）は次の式により求
められる。

ｊ（ω）＝〓ⁱ Sij（ω）Pij／〓ⁱ Pij … この｛ｊ（ω）｝を各話者について登録してお
く。

この場合、｛ｊ（ω）｝は単位周波毎にサンプ
リングした値として登録しておく。

一方音声認識時には、入力音声についてそのス
ペクトル包絡｛S′i（ω）｝とその正規化対数パワ
ー｛P′i｝｛P′i｝（０≦Pij≦１）を登録時のときと
同様にして求め、、入力音声のスペクトル概形
S′（ω）を次の式により求める。

′（ω）＝〓ⁱ S′i（ω）P′i／〓ⁱ P′i … そしてこの式により得られた入力音声のスペ
クトル概形′（ω）を、登録ずみの各話者の音声
スペクトル概形（ω）と比較してそれがもつと
もよくマツチングしたものを話者として認識する
ものである。このとき、各スペクトル概形のうち
話者変動の大きな帯域での距離計算を行なつてそ
の距離の最も小さなものを求める。すなわち次の
式を最小にするｊを認識結果とする。但しＷ
（ω）は重み関数であつて、話者変動の大きな帯
域を指定する関数で、あらかじめ定められてお
り、例えば第３図に示す如き帯域を示しており、
その値は０≦Ｗ（ω）≦１であるものとする。

〓〓｜ｊ（ω）−′（ω）｜Ｗ（ω） … このようにして各話者に細かく相違するスペク
トル範囲での比較ができることになり、より正確
な話者認識が可能となる。

次に本発明の一実施例を第４図にもとづき説明
する。

１はマイクロフオンであつて第１図に示す如き
音声信号を入力するものであり、２はAD変換部
であつて、マイクロフオン１から第１図の如きア
ナログの音声信号が入力されたとき、これをデイ
ジタル出力に変換するものである。３はスペクト
ル包絡分析部であつてAD変換部２から出力され
た信号を高速フーリエ変換して第２図に示す如く
音声スペクトル包絡を作成するものである。４は
スペクトル加重平均部であつて、前記式および
式の演算を行ない入力音声のスペクトル概形を
求めるものである。５は登録部であつて学習時に
前記スペクトル加重平均部４で求めた話者の判明
しているスペクトル概形を話者名とともに話者辞
書メモリ６に登録するものである。７は重み関数
メモリであつて、例えば第３図に示す重み関数が
出力されるメモリであり、８はマツチング部であ
つて、未知の話者の入力音声から作成されたスペ
クトル概形を話者辞書メモリ６に格納されている
話者の明らかな各スペクトル概形とを重み関数メ
モリ７から伝達された重み関数の制御のもとで距
離演算を行なつて、すなわち前記式の演算を行
ないそのもつとも小さな距離のスペクトル概形の
話者名を出力するものである。

次に第４図の動作について簡単に説明する。

(イ)はじめに切換スイツチＳを登録側接点S₂に接続
し、あらかじめ規定されている短文あるいは単語
を話者毎にマイクロフオン１から音声入力する。
この音声入力信号はAD変換部２でデイジタル信
号に変換され、スペクトル包絡分析部３で音声の
短区間の前記スペクトル包絡｛Sij（ω）｝が求め
られる。このスペクトル包絡｛Sij（ω）｝はその
ときのサンプリングのときに求めたPijとともに
このスペクトル包絡｛Sij（ω）｝を伝達する。こ
のスペクトル包絡は単位周波数毎にサンプリング
された値として求められている。スペクトル加重
平均部４はこのスペクトル包絡｛Sij（ω）｝およ
びPijにより前記式の演算を行なう。この結果
得られたスペクトル概形がその話者名とともに登
録部５に伝達されて話者辞書メモリ６に格納され
る。このようにして話者辞書メモリ６にはあらか
じめその話者名とともに多数のスペクトル概形が
格納される。

(ロ)このようにして話者辞書メモリ６に対する登録
が終ると、今度は切換スイツチＳをマツチング側
接点S₁と接続する。そして話者認識すべき入力音
声がマイクロフオン１より入力されると、前記と
同様にしてスペクトル包絡分析部３にはスペクト
ル包絡｛S′i（ω）｝が求められ、スペクトル加重
平均部４では前記式の演算が行なわれてスペク
トル概形′（ω）が求められ、これがマツチング
部８に伝達される。これにより話者辞書メモリ６
から登録されているスペクトル概形が順次出力さ
れる。このとき、重み関数メモリ７から、重み関
数にもとづき、例えば単位周波数毎にＷ（ω）と
して第３図に示すような０〜１までの値が出力さ
れて重みの付与された上記式の演算が行なわれ
る。そしてこのような演算が話者辞書メモリ６に
登録されているすべてのスペクトル概形について
行なわれたのちに、マツチング部８はその距離の
もつとも小さかつたスペクトル概形の話者名を認
識結果として出力する。

なお話者辞書メモリにスペクトル概形を登録す
るときに、あらかじめ各スペクトル概形を比較し
てその個人的変化の大きな帯域を検出し、これに
もとづき重み関数メモリ７の重み関数値を記入し
ておけば、その登録者間の個人差をより正確に示
した重み関数を記入することができる。

ところで本発明においてスペクトル概形′
（ω）を使用するのは以下のことによる。

話者毎の音声の違いは特に母音区間のスペクト
ルに現れることはよく知られている。具体的には
各母音（アイウエオ）のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の音声データ
よりその話者特有の各母音のホルマント周波数お
よび各ホルマントの相対強度関係を事前に学習し
ておけばほぼ完全にその話者を認識することがで
きる。しかし、話者認識装置には不特定の話者の
音声が入力されるわけであり、不特定話者の音声
中の母音の位置を検出ししかもその母音を正しく
認識することは現状の音声認識技術では非常に困
難である。

そこで本発明では、音声中の母音はパワーが大
きいことに注目し、全音声区間のスペクトル時系
列のパワー重み付平均を式を用いて計算するこ
とにより、等価的に全母音（アイウエオ）の平均
スペクトルの近似値を求めている。上述のよう
に、本当は各母音の平均スペクトルを求めたいの
であるが、上述の理由により本発明では全母音の
平均スペクトルの近似値を求めている。しかし、
本発明の全母音の平均スペクトルの近似値でも話
者を認識する情報を十分含んでおり、これを用い
て話者認識装置を構成することが可能である。

(6) 発明の効果以上説明の如く、本発明によれば自己相関関数
を使用する場合とは異なり、各個人差が細かく存
在するスペクトルを利用して、そのスペクトル概
形を求め、これにもとづき話者識別を行なうよう
にするとともに、スペクトルの話者変動の大きい
帯域に重みをつけて距離計算ができるので、認識
率の高い話者認識が実現できる。

【図面の簡単な説明】

第１図はサンプリング区間の正規化対数パワー
の説明図、第２図は音声スペクトルの説明図、第
３図は重み関数の説明図、第４図は本発明の一実
施例構成図である。図中、１はマイクロフオン、２はAD変換部、
３はスペクトル包絡分析部、４はスペクトル加重
平均部、５は登録部、６は話者辞書メモリ、７は
重み関数メモリ、８はマツチング部をそれぞれ示
す。

Claims

【特許請求の範囲】

１音声信号を入力する音声入力手段と、この入
力された音声をスペクトル分析するスペクトル分
析手段と、入力された音声信号からスペクトル概
形となる音声の短区間スペクトルのパワー加重平
均を、スペクトル包絡分析を用いて得るスペクト
ル加重平均手段と、あらかじめ既知の話者のスペ
クトル概形が登録される話者メモリ手段と、スペ
クトル概形を、スペクトル重み関数を用いて比較
する比較手段を設け、前記話者メモリ手段にあら
かじめ既知の複数の話者のスペクトル概形を記入
しておき、未知の話者の入力音声から得られたス
ペクトル概形と前記話者メモリ手段に記入された
スペクトル概形とをスペクトル重み関数を用いて
比較することにより入力音声の話者を認識するよ
うにしたことを特徴とする話者認識装置。