JPS58111992A

JPS58111992A - 話者認識装置

Info

Publication number: JPS58111992A
Application number: JP56214312A
Authority: JP
Inventors: 晋太木村; 裕二木島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-12-25
Filing date: 1981-12-25
Publication date: 1983-07-04
Also published as: JPH0136960B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）　　発明の技術分野本発明は話者認識方式に関し、２％に各話者に特有なス
ペクトル概形をあらかじめ学習してこれを記録しておき
、話者認識のときにこの学習し九スペクトル概形にもと
づくマツチングを行なって話者が帷であるかということ
を確実に認識するようにした話者認識方式に関する。

（２）従来技術と間亀点従来、話者なＩｉｗＩｔする場合、その音声の特徴パラ
メータとして時間領域の計算で求められるパラメータ、
例えば自己相関関数な、どが使用されていた。すなわち
あらかじめ話者毎に特定暗を読むことにより得られた自
己相関関数を配憶しておき、話者認識すべき音声か入力
されたときこれよりその自己相関関数を求め、先に登録
ずみのメモリ内よりこれともつとも一致する自己相関関
数を抽出して、話者をＵ繊することが行なわれていた。

しかし、この自己相関Ｎ数のようなパラメータは、音声
スペクトルと直接的な関係で社なく、その関数全体の形
状を表現するものであって、物定の周波数領域に、おけ
る伏線を表示するものではないので、話者認識に１賛な
周波数スペクトルにおけゐ特定の周波数領域における微
妙な変化状態を捉えることはできなかったために、高精
度の話者認識を行なうことができなかった。

（３）発明の目的したがって本発明はこのような問題を改善するために、
話者間の音声スペクトルの細かな差異を抽出するために
、話者毎のスペクトル概形な求めておき、話者間のスペ
クトル概形の細かな差異に注目して話者認識を行なう話
者認識方式を提供することにある。

（４）発明の構成そしてこのために本発明における話者ｇ線方式では、音
声信号を入力する音声入力手段と、この入力された音声
をスペクトル分析するスペクトル分析手段と、入力され
た音声信号からスペクトル概形となる音声の短区間スペ
クトルのパワー加重平均を得るスペクトル加重平均手段
と、あらかじめ既知の話者のスペクトル概形が登録され
る話者メモリ手段と、スペクトル概形を比較する比較手
段を設け、前記話者メモリ手段にあらかじめ既知の複数
の話者のスペクトル概形を記入しておき、未知の話者の
入力音声から得られたスペクトル概形と前記話者メモリ
手段に記入されたスペクトル概形とを比較することによ
り入力音声の話者を認識するようにしたことを％黴とす
る。

（５）　　発明の実施例本発明の一実鵜例を詳述するに先立ちその動作原理につ
いて説明する。

本発明では発声され丸音声の短区間スペクトルのパワー
加重平均をその発声者の固有の音声スペクトル概形とし
て各話者毎にこれを登録しておき、話者認識時にその入
力音声のスペクトル概形と登録されている各話者のスペ
クトル概形との間で距離計算を行ない、最も距離の小さ
くなったものの登録話者名を鰺鐵結果として出力するも
のであんこの際、各話者のスペクトル概形間で話者変動
の大きな帯域での距離計算を行なってその最も小さな距
離のものを求めるものである。

す々わち、第１図に示す如く、入力音声を時間軸を方向
に、例えば１０　ｍ　ｓｅｃ　根度の時間間隔Δ１で、
ｔ＋　、ｂ　、ｔ＊・・・と区間分割し、第２図に示す
如く、その区間のスペクトル包絡を作成し、このスペク
トル包絡な（ｂｉｊ　（ω））とする。ここでｔｊ）坪
漬１号、ｊは話者番号、ωは正規化周波数（図示の例で
は５曲翼のときω＝π）である。そしてその音声の正規
化対数パワーを（Ｐｉｊ）　：　０＜　Ｐｔｊ≦１とす
る。こむで換首すればこのＰりは第１図の入力音声の各
区間分割のパワーに対応するものであり、８−ｊ（ω）
は第２図のスペクトル包結線に対応するものであるが、
これを正規化周波数ω＝　ｔ　ｉである単位周波数毎に
サンプリングしｔ（ｉＥとして演算しておく。そしてこ
れらにより話者ｊの音声スペクトル概形１Ｎ（ω）は次
の０式により求められる。

８ｊ　（ω）　＝２ｂ４ｊ　（Ｑｌ）　Ｐｉｊ　／’；
Ｐ４ｊ・−・・・・■ｓこの（，７（＠）を各話者について登録しておく。

この場合、（Ｂ、＜ω））は単位周波毎にサンプリング
し友値としてｆ録しておく。

一方音声認識時には、入力音声についてそのスペクトル
包絡（８’４（ω））とその正規化対数パワー（Ｐ’４
　）　（ＬＩＦ’ｉ≦１）を登録時のときと同様にして
求め、入力音声のスペクトル概形Ｈ＋（ω）を次の０式
により求める。

Ｍ’　（ω）　−ｆ　ｂ’ｔ　（ω）　”４／）；　１
１”ｉ　・・・・・［そしてこの０式により得られた入
力音声のスペクトル概形百１（ψ）を、登録ずみの各話
者の音声スペクトル概形８ｊ（ω）と比較してそれがも
つともよくマツチングしたものを話者として認識する４
のである。このとき、各スペクトル概形のうち話者変動
の大きな帯域での距離計算を行なってその距離の蝋も小
さなものを求める。すなわち次の０式を蛾小にするｔｔ
Ｕ−結果とする。但しＶｖ（ω）は菖み関数であって、
話者変動の大きな帯域を指定する関数で、あらかじめ定
められており、例えは第３図に示す如き帯域を示してお
り、その値は９〈Ｗ（ω）≦１であるものとする。

ゑ１百ｊ（ω）　−８’（ω）ＩＷ（ω）・・・・・・
■このようにして各話者毎に細かく相違するスペクトル
範囲での比較ができることにな９、より正確な話者Ｓ繊
が可能となる。

次に本発明の一実施例を第４図にもとづき説明する。

１はマイクロフォンであって第１図に示す如き音声信号
を入力するものであシ、２はＡｉ）変換部であって、マ
イクロフォン１から第１図の如きアナログの音声信号が
入力されたとき、これをデイジタシ出力に変換するもの
である。３はスペクトル包絡分析部であってＡＤ変換部
２から出力され良信号を高速フーリエ変換して第２図に
示す如く音声スペクトル包絡を作成するものである。４
はスペクトル加重平均部であって、前記０式および０式
の演算を行ない入力音声のスペクトル概形を求めるもの
である。５は登録部であって学習時に前記スペクトル加
重平均部４で求めた話者の判明しているスペクトル概形
を話、看病とともに話者辞書メモリ６に登録するもので
ある。７は重み関数メモリであって、例えば第３図に示
す重み関数が出力されるメモリであり、８はマツチング
部であって、未知の話者の入力音声から作成されたスペ
クトル概形を語基辞書メモリ６に格納されている話者の
明らかな各スペクトル概形とを重み関数メモリ７から伝
達された重み関数の制御のもとで距−演算を行なって、
すなわち前記０式の演算を行ないそのもつとも小さな距
離のスペクトル概形の話者病を出力すあものである。

次に第４図の動作について簡単に説明する。

ｆｉ）　　はじめに切換スイッチ８を登録側接点ａに接
続し、あらかじめ規定されている短文あるいは単鎖を話
者毎にマイクロフォン１から音声入力する。この音声入
力信号はＡＩＪ変換部２でディジタル信号に変換され、
スペクトル包絡分析部３で音声の短区間の前記スペクト
ル包絡（Ｂｔｊ　（ω））が求められる。このスペクト
ル包Ｈ（５ｓｊ（ω））ハそのときのサンプリングのと
きに求め九Ｐ−ｊとともにこのスペクトル包絡（ｂｉｊ
　（ω））を伝達する。

コノスペクトル包絡は単位周波数毎にサンプリングさＡ
た値とじて求められている。スペクトル加重平均部４は
このスペクトル包絡（８旬（ω））およびＰｊｊにより
前記０式の演算を行なう。この結果得られ九スペクトル
概形がその話者病とともに登録部５に伝達されて話者辞
書メモリ６に格納される。このようにして話者辞書メモ
リ６にはあらかじめその話者病とともに多数のスペクト
ル概形が格納される。

（ロ）　このようにして話者辞書メモリ６に対するｆ録
が終ると、今度は切換スイッチＳをマッチング１１１１
接点鈎と接続する。そして話者認識すべ色入力音声がマ
イクロフォン１より入力されると、前記と同様にしてス
ペクトル包絡分析部３にはスペクトル包絡（５’（（ω
））が求められ、スペクトル加重平均部４では前記０式
の演算が行なわれてスペクトル概形♂（ψ〉φ（１求め
ら才し、これがマツチング部８に伝達される。これによ
り話者辞書メモリ６から登録されているスペクトル概形
が順次出力される。このとき、重み関数メモリ７から、
重み関数にもとづき、例えば単位周波数毎にＷ（ω）と
して第３図に示すよりな０〜１ｔでの値が出力されて重
みの付与され九上記■式の演算が行なわれる。そしてこ
のような演算が話者辞書メ毫り６に登録されているすべ
てのスペクトル概形について行なわれたのちに、マツチ
ング部８はその距離のもつとも小さかったスペクトル概
形の話者病を認識結果として出力する。

なお話者ｌ＃膏メモリにスペクトル概形を登録するとき
に、あらＪ≧しめ各スペクトル概形を比較してその個人
的変化の大亀な帯域を検出し、これにもとづき重み関数
メモリ７０重み関数値を記入しておけは、その登録者間
の個人差をより正確に示し九重み関数を記入することが
できる。

（６）発明の詳細な説明の如く、本発明によれば自己相関関数を使用する
場合とは異なり、各個人差が細かく存在するスペクトル
を利用して、そのスペクトル概形を求め、これにもとづ
き話者識別を行なうようにするとともに、スペクトルの
話者変動の大きい帯域の距離計算を行なうことができな
いので、認識率の高い話者認識が集塊できる。

【図面の簡単な説明】

第１図はサンプリング区間の正規化対数パワーの説明図
、第２図は音声スペクトルの説明図、第３図は重み関数
の説明図、第４図は本発明の一実施例構成図である。図中、１はマイクｄフォン、２はＡＤ変換部、３はスペ
クトル包籟分析部、４はスペクトル加重平均部、５は登
録部、６祉話省辞書メモリ、７は重みＸａメモリ、８は
マツチング部をそれぞれ示す。特許出願人　富士通株式金社代理人弁理士　　　山　谷　　晧　榮才１目１、　　　１２１３１４ Δを才２巳才３目

Claims

【特許請求の範囲】

（１）　　音声備考を入力する音−人力手段と、この入
力され九音声をスペクトル分析するスペクトル分析手段
と、入力され友音声信号からスペクトル概形となる音声
の短区間スペクトルのパワー加重平均を得るスペクトル
加重平均手段と、あらかじめ既知の話者のスペクトル概
形が登録される話者メモリ手段と、スペクトル概形を比
較する比較手段を設け、前記話者メモリ手段にあらかじ
め既知の複数の話者のスペクトル概形を記入しておき、
未知の話者の入力音声から得られたスペクトル概形と前
記話者メモリ手段に記入されたスペクトル概形とを比較
することによυ入力音声の話者を認識するようにしたこ
とを特徴とする話者認識方式。