JPH0136960B2 - - Google Patents

Info

Publication number
JPH0136960B2
JPH0136960B2 JP56214312A JP21431281A JPH0136960B2 JP H0136960 B2 JPH0136960 B2 JP H0136960B2 JP 56214312 A JP56214312 A JP 56214312A JP 21431281 A JP21431281 A JP 21431281A JP H0136960 B2 JPH0136960 B2 JP H0136960B2
Authority
JP
Japan
Prior art keywords
speaker
spectral
outline
spectrum
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56214312A
Other languages
English (en)
Other versions
JPS58111992A (ja
Inventor
Akihiro Kimura
Juji Kijima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56214312A priority Critical patent/JPS58111992A/ja
Publication of JPS58111992A publication Critical patent/JPS58111992A/ja
Publication of JPH0136960B2 publication Critical patent/JPH0136960B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (1) 発明の技術分野 本発明は話者認識方式に関し、特に各話者に特
有なスペクトル概形をあらかじめ学習してこれを
記録しておき、話者認識のときにこの学習したス
ペクトル概形にもとづくマツチングを行なつて話
者が誰であるかということを確実に認識するよう
にした話者認識装置に関する。
(2) 従来技術と問題点 従来、話者を認識する場合、その音声の特徴パ
ラメータとして時間領域の計算で求められるパラ
メータ、例えば自己相関関数などが使用されてい
た。すなわちあらかじめ話者毎に特定語を読むこ
とにより得られた自己相関関数を記憶しておき、
話者認識すべき音声が入力されたときこれよりそ
の自己相関関数を求め、先に登録ずみのメモリ内
よりこれともつとも一致する自己相関関数を抽出
して、話者を認識することが行なわれていた。
しかし、この自己相関関数のようなパラメータ
は、音声スペクトルと直接的な関係ではなく、そ
の関数全体の形状を表現するものであつて、特定
の周波数領域における状態を表示するものではな
いので、話者認識に重要な周波数スペクトルにお
ける特定の周波数領域における微妙な変化状態を
捉えることはできなかつたために、高精度の話者
認識を行なうことができなかつた。
(3) 発明の目的 したがつて本発明はこのような問題を改善する
ために、話者間の音声スペクトルの細かな差異を
抽出するために、話者毎のスペクトル概形を求め
ておき、話者間のスペクトル概形の細かな差異に
注目して話者認識を行なう話者認識装置を提供す
ることにある。
(4) 発明の構成 そしてこのために本発明における話者認識装置
では、音声信号を入力する音声入力手段と、この
入力された音声をスペクトル分析するスペクトル
分析手段と、入力された音声信号からスペクトル
概形となる音声の短区間スペクトルのパワー加重
平均を、スペクトル包絡分析を用いて得るスペク
トル加重平均手段と、あらかじめ既知の話者のス
ペクトル概形が登録される話者メモリ手段と、ス
ペクトル概形を、スペクトル重み関数を用いて比
較する比較手段を設け、前記話者メモリ手段にあ
らかじめ既知の複数の話者のスペクトル概形を記
入しておき、未知の話者の入力音声から得られた
スペクトル概形と前記話者メモリ手段に記入され
たスペクトル概形とをスペクトル重み関数を用い
て比較することにより入力音声の話者を認識する
ようにしたことを特徴とする。
(5) 発明の実施例 本発明の一実施例を詳述するに先立ちその動作
原理について説明する。
本発明では発声された音声の短区間スペクトル
のパワー加重平均をその発声者の固有の音声スペ
クトル概形として各話者毎にこれを登録してお
き、話者認識時にその入力音声のスペクトル概形
と登録されている各話者のスペクトル概形との間
で距離計算を行ない、最も距離の小さくなつたも
のの登録話者名を認識結果として出力するもので
ある。この際、各話者のスペクトル概形間で話者
変動の大きな帯域での距離計算を行なつてその最
も小さな距離のものを求めるものである。
すなわち、第1図に示す如く、入力音声を時間
軸t方向に、例えば10msec程度の時間間隔△t
で、t1,t2,t3…と区間分割し、第2図に示す如
く、その区間のスペクトル包絡を作成し、このス
ペクトル包絡を{Sij(ω)}とする。ここでは区
間番号、jは話者番号、ωは正規化周波数(図示
の例では8KHzのときω=π)である。そしてそ
の音声の正規化対数パワーを{Pij};0≦Pij≦
1とする。ここで換言すればこのPijは第1図の
入力音声の各区間分割のパワーに対応するもので
あり、Sij(ω)は第2図のスペクトル包絡線に対
応するものであるが、これを正規化周波数ω=π
まである単位周波数毎にサンプリングした値とし
て演算しておく。そしてこれらにより話者jの音
声スペクトル概形j(ω)は次の式により求
められる。
j(ω)= 〓i Sij(ω)Pij/ 〓i Pij … この{j(ω)}を各話者について登録してお
く。
この場合、{j(ω)}は単位周波毎にサンプ
リングした値として登録しておく。
一方音声認識時には、入力音声についてそのス
ペクトル包絡{S′i(ω)}とその正規化対数パワ
ー{P′i}{P′i}(0≦Pij≦1)を登録時のときと
同様にして求め、、入力音声のスペクトル概形
S′(ω)を次の式により求める。
′(ω)= 〓i S′i(ω)P′i/ 〓i P′i … そしてこの式により得られた入力音声のスペ
クトル概形′(ω)を、登録ずみの各話者の音声
スペクトル概形(ω)と比較してそれがもつと
もよくマツチングしたものを話者として認識する
ものである。このとき、各スペクトル概形のうち
話者変動の大きな帯域での距離計算を行なつてそ
の距離の最も小さなものを求める。すなわち次の
式を最小にするjを認識結果とする。但しW
(ω)は重み関数であつて、話者変動の大きな帯
域を指定する関数で、あらかじめ定められてお
り、例えば第3図に示す如き帯域を示しており、
その値は0≦W(ω)≦1であるものとする。
〓 〓|j(ω)−′(ω)|W(ω) … このようにして各話者に細かく相違するスペク
トル範囲での比較ができることになり、より正確
な話者認識が可能となる。
次に本発明の一実施例を第4図にもとづき説明
する。
1はマイクロフオンであつて第1図に示す如き
音声信号を入力するものであり、2はAD変換部
であつて、マイクロフオン1から第1図の如きア
ナログの音声信号が入力されたとき、これをデイ
ジタル出力に変換するものである。3はスペクト
ル包絡分析部であつてAD変換部2から出力され
た信号を高速フーリエ変換して第2図に示す如く
音声スペクトル包絡を作成するものである。4は
スペクトル加重平均部であつて、前記式および
式の演算を行ない入力音声のスペクトル概形を
求めるものである。5は登録部であつて学習時に
前記スペクトル加重平均部4で求めた話者の判明
しているスペクトル概形を話者名とともに話者辞
書メモリ6に登録するものである。7は重み関数
メモリであつて、例えば第3図に示す重み関数が
出力されるメモリであり、8はマツチング部であ
つて、未知の話者の入力音声から作成されたスペ
クトル概形を話者辞書メモリ6に格納されている
話者の明らかな各スペクトル概形とを重み関数メ
モリ7から伝達された重み関数の制御のもとで距
離演算を行なつて、すなわち前記式の演算を行
ないそのもつとも小さな距離のスペクトル概形の
話者名を出力するものである。
次に第4図の動作について簡単に説明する。
(イ)はじめに切換スイツチSを登録側接点S2に接続
し、あらかじめ規定されている短文あるいは単語
を話者毎にマイクロフオン1から音声入力する。
この音声入力信号はAD変換部2でデイジタル信
号に変換され、スペクトル包絡分析部3で音声の
短区間の前記スペクトル包絡{Sij(ω)}が求め
られる。このスペクトル包絡{Sij(ω)}はその
ときのサンプリングのときに求めたPijとともに
このスペクトル包絡{Sij(ω)}を伝達する。こ
のスペクトル包絡は単位周波数毎にサンプリング
された値として求められている。スペクトル加重
平均部4はこのスペクトル包絡{Sij(ω)}およ
びPijにより前記式の演算を行なう。この結果
得られたスペクトル概形がその話者名とともに登
録部5に伝達されて話者辞書メモリ6に格納され
る。このようにして話者辞書メモリ6にはあらか
じめその話者名とともに多数のスペクトル概形が
格納される。
(ロ)このようにして話者辞書メモリ6に対する登録
が終ると、今度は切換スイツチSをマツチング側
接点S1と接続する。そして話者認識すべき入力音
声がマイクロフオン1より入力されると、前記と
同様にしてスペクトル包絡分析部3にはスペクト
ル包絡{S′i(ω)}が求められ、スペクトル加重
平均部4では前記式の演算が行なわれてスペク
トル概形′(ω)が求められ、これがマツチング
部8に伝達される。これにより話者辞書メモリ6
から登録されているスペクトル概形が順次出力さ
れる。このとき、重み関数メモリ7から、重み関
数にもとづき、例えば単位周波数毎にW(ω)と
して第3図に示すような0〜1までの値が出力さ
れて重みの付与された上記式の演算が行なわれ
る。そしてこのような演算が話者辞書メモリ6に
登録されているすべてのスペクトル概形について
行なわれたのちに、マツチング部8はその距離の
もつとも小さかつたスペクトル概形の話者名を認
識結果として出力する。
なお話者辞書メモリにスペクトル概形を登録す
るときに、あらかじめ各スペクトル概形を比較し
てその個人的変化の大きな帯域を検出し、これに
もとづき重み関数メモリ7の重み関数値を記入し
ておけば、その登録者間の個人差をより正確に示
した重み関数を記入することができる。
ところで本発明においてスペクトル概形′
(ω)を使用するのは以下のことによる。
話者毎の音声の違いは特に母音区間のスペクト
ルに現れることはよく知られている。具体的には
各母音(アイウエオ)のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の音声データ
よりその話者特有の各母音のホルマント周波数お
よび各ホルマントの相対強度関係を事前に学習し
ておけばほぼ完全にその話者を認識することがで
きる。しかし、話者認識装置には不特定の話者の
音声が入力されるわけであり、不特定話者の音声
中の母音の位置を検出ししかもその母音を正しく
認識することは現状の音声認識技術では非常に困
難である。
そこで本発明では、音声中の母音はパワーが大
きいことに注目し、全音声区間のスペクトル時系
列のパワー重み付平均を式を用いて計算するこ
とにより、等価的に全母音(アイウエオ)の平均
スペクトルの近似値を求めている。上述のよう
に、本当は各母音の平均スペクトルを求めたいの
であるが、上述の理由により本発明では全母音の
平均スペクトルの近似値を求めている。しかし、
本発明の全母音の平均スペクトルの近似値でも話
者を認識する情報を十分含んでおり、これを用い
て話者認識装置を構成することが可能である。
(6) 発明の効果 以上説明の如く、本発明によれば自己相関関数
を使用する場合とは異なり、各個人差が細かく存
在するスペクトルを利用して、そのスペクトル概
形を求め、これにもとづき話者識別を行なうよう
にするとともに、スペクトルの話者変動の大きい
帯域に重みをつけて距離計算ができるので、認識
率の高い話者認識が実現できる。
【図面の簡単な説明】
第1図はサンプリング区間の正規化対数パワー
の説明図、第2図は音声スペクトルの説明図、第
3図は重み関数の説明図、第4図は本発明の一実
施例構成図である。 図中、1はマイクロフオン、2はAD変換部、
3はスペクトル包絡分析部、4はスペクトル加重
平均部、5は登録部、6は話者辞書メモリ、7は
重み関数メモリ、8はマツチング部をそれぞれ示
す。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号を入力する音声入力手段と、この入
    力された音声をスペクトル分析するスペクトル分
    析手段と、入力された音声信号からスペクトル概
    形となる音声の短区間スペクトルのパワー加重平
    均を、スペクトル包絡分析を用いて得るスペクト
    ル加重平均手段と、あらかじめ既知の話者のスペ
    クトル概形が登録される話者メモリ手段と、スペ
    クトル概形を、スペクトル重み関数を用いて比較
    する比較手段を設け、前記話者メモリ手段にあら
    かじめ既知の複数の話者のスペクトル概形を記入
    しておき、未知の話者の入力音声から得られたス
    ペクトル概形と前記話者メモリ手段に記入された
    スペクトル概形とをスペクトル重み関数を用いて
    比較することにより入力音声の話者を認識するよ
    うにしたことを特徴とする話者認識装置。
JP56214312A 1981-12-25 1981-12-25 話者認識装置 Granted JPS58111992A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56214312A JPS58111992A (ja) 1981-12-25 1981-12-25 話者認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56214312A JPS58111992A (ja) 1981-12-25 1981-12-25 話者認識装置

Publications (2)

Publication Number Publication Date
JPS58111992A JPS58111992A (ja) 1983-07-04
JPH0136960B2 true JPH0136960B2 (ja) 1989-08-03

Family

ID=16653655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56214312A Granted JPS58111992A (ja) 1981-12-25 1981-12-25 話者認識装置

Country Status (1)

Country Link
JP (1) JPS58111992A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3091337A1 (en) 2015-04-23 2016-11-09 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3091337A1 (en) 2015-04-23 2016-11-09 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Also Published As

Publication number Publication date
JPS58111992A (ja) 1983-07-04

Similar Documents

Publication Publication Date Title
ES2208887T3 (es) Metodo y reconocedor para reconocer una señal de sonido muestreada con ruido de fondo.
US4956865A (en) Speech recognition
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
US4343969A (en) Apparatus and method for articulatory speech recognition
JPH0736475A (ja) 音声分析における基準パターン形成方法
CN102543073A (zh) 一种沪语语音识别信息处理方法
EP0096712B1 (en) A system and method for recognizing speech
CA1232686A (en) Speech recognition
CN107871498A (zh) 一种基于Fisher准则以提高语音识别率的混合特征组合算法
JPH0136960B2 (ja)
EP0114814B1 (en) Apparatus and method for articulatory speech recognition
Paliwal et al. Synthesis‐based recognition of continuous speech
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
Wolf Speech signal processing and feature extraction
JP2569472B2 (ja) 音声分析装置
Nath et al. Feature Selection Method for Speaker Recognition using Neural Network
JPS5936759B2 (ja) 音声認識方法
JPH0136959B2 (ja)
JPH04199100A (ja) 音声分析法および音声認識装置
JPH0469800B2 (ja)
JPS59114600A (ja) 話者識別方式
MAINDARGI et al. Implementation Of Speech Recognition System
Venugopal et al. Minimum Mean Square Error Spectral Peak Envelope Estimation for Automatic Vowel Classification
Chien et al. One-formant vocal tract modeling for glottal pulse shape estimation