JPS58108591A - 話者正規化機能付き音声認識装置 - Google Patents

話者正規化機能付き音声認識装置

Info

Publication number
JPS58108591A
JPS58108591A JP56208357A JP20835781A JPS58108591A JP S58108591 A JPS58108591 A JP S58108591A JP 56208357 A JP56208357 A JP 56208357A JP 20835781 A JP20835781 A JP 20835781A JP S58108591 A JPS58108591 A JP S58108591A
Authority
JP
Japan
Prior art keywords
speech
spectrum
speaker
outline
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP56208357A
Other languages
English (en)
Other versions
JPH0136959B2 (ja
Inventor
晋太 木村
裕二 木島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56208357A priority Critical patent/JPS58108591A/ja
Publication of JPS58108591A publication Critical patent/JPS58108591A/ja
Publication of JPH0136959B2 publication Critical patent/JPH0136959B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (1)  発明の技術分針 本発明は音声認識装置における話者正規化方式に関し、
特に不特定話者を対象とした音声認識装置に不可決な話
者正規化方式に関するものである。
(2)技術の背景 入力され九音声にもとづき各種処理を行なうような場合
、入力された音声が何であるかを認識しなければならな
い。そのために入力された音声信号より特徴抽出を行な
いその特徴を辞書と比較して入力音声信号が何かという
ことを識別することが行なわれている。
しかしながら音声には個人差があるために不特定話者を
対象とした音声認識装置では、各話者の個人差を欧除く
、いわゆる話者正規住処St入力音声に対して行なう必
要がある。
(3)従来技術と問題点 従来、不特定話者を対象として音声認識を行なう場合に
は、11111図に示すように1例えばマイク四ツオン
1より入力され九音声信号をAD変換部2に伝達してこ
れをサンプリングしたのち、後述する逆フィルタ3によ
り話者正規化を行ない、これをスペクトル分析部4にて
高速フーリエ変換して音声スペクトルを作成し、特徴抽
出部5にてその特徴抽出を行ない、パターンマツチy/
部6により辞書7に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準パター
ンのものを認識結果として出力している。
ここで、前記逆フィルタ3は下記■式の特性Hφ)を有
するものである。
H弱)=(1−αr1)3・・・・・・・・・・・・・
・・■z=ci′  ω:正規化周波数 したがってこの逆フィルタ3の特性は上記αを変えるこ
とKより定まるものであるので、認識に先立ち、話者毎
に特定文章を読上げてこれよりとのαを学資し、話者正
規化をはかるものである。
なおこのαは個人別に異なるものであ抄、自己相関関係
より求められる。
しかしながら、このようにして音声波に時間領域の処理
のみの上記0式の逆フィルタをかけて数次の平担化フィ
ルタ処理を行うのみでは、周波数領域(例えばO〜5 
KHz )でこの0式の関数の形の範囲でしか正規化で
きないので、個人毎に細かい相違があるようなものに対
しては充分正規化することができないという欠点があっ
九。
(4)発明の目的 したがって本発明はこのような問題を改善するために、
話者間の音声スペクトルの各周波数における強度軸方向
の差異を細かく正規化する方式を提供するものである。
(5)  発明の構成 そしてこのために本発明における話者正規化方式では、
音声信号入力手段と話者特性正規化手段とスペクトル分
析手段と特徴抽出手段とパターンマツチング手段と辞書
部を具備する音声認識方式において、音声スペクトル概
形を作成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を設け、
音声−繊に先立ち各話者に特有の音声スペクトル概形を
任嵩の音声から学習してこれを前記保持手段に保持して
おき、認識時にこの音声スペクトル概形により入力音声
のスペクトルを正規化することにより話者間のスペクト
ルの各周波数における強度軸方向の差異を正規化するよ
うにしたことを特徴とする。
(6)発明の実施例 本発明の一実施例を詳述するに先立ちその動作原理につ
いて説明する。
本発明では発声された音声の短区間スペクトルのパワー
加重平均をその発声者の固有の音声スペクトル概形とし
、認識時にその音声スペクトル概形を入力音声のスペク
トルから差引くこと−により話者正規化を行なうもので
ある。第2図に示す如く、学習に際して入力音声を時間
軸を方向に、例えば10 m5ec程の時間間隔Δtで
’I、”*s G・・・と区間分割し、第3図に示す如
く、その区間のスペクトル又はスペクトル包絡を作成し
、これを(8((ω))とする。ここで1は区間番号、
ωは正規化周波数(図示の例r5家5KHz )である
。そしてその区間の正規化対数・ノパワーt (P4)
(0≦P(≦1)とする。
換言すれば、とのPiは第2図の各区間の音声波形のパ
ワーに対応するものであり、84(ω)は第3図のスペ
クトル包結線に対応するものである。そしてこれらKよ
り音声スペクトル概′形「(#)を次の■式により求め
る。
■(ω)=・s<(ω) P S / 4 P %・・
・・・・・・・■を 一方音声認識時は、入力音声のスペクトル包絡を(S9
(ω))とすると、特徴抽出するスペクトルri(ω)
は次の0式のようにして求める。
8〜(ω)=8’iCω)−8Cω)・・・・・・・・
・・・・・・・■すなわちS(ω)は話者の個人性を示
すものであり、音声認識に先立ち特定文章を読上げるこ
とKよりこれを作成しておく。そして音声認識時には入
力された音声信号より得られ九スペクトル包絡6/j 
(ω)よ妙この個人製性分の1(ω)を引けば各正規化
周波数までのスペクトルに対して細かく補正され九正規
化スペクトルS〜(ω)を得ることができるので、これ
よ抄特徴抽出するととKより正確な音声認識を行なうこ
とができる。
次に本発明の一実施例を第4図にもとづき説明する。
第4図において第1図と同符号部は同一部分を示すもの
であり、8はスペクトル加重平均部、9はスペクトル概
形メモリ、loは加算部、Sは切換スイッチである。
スペクトル加重平均部8は、学習時において前記0式の
演算を行なって話者個人の音声スペクトbaser<ω
)t−算出するものである。
スペクトル概形メモリ9は前記スペクトル加重平均部8
にて演算されて求められ九音声スペクトル概形「(ω)
を保持するメモリである。
次に第4図の動作について説明する。
先ず音声認識に先立ち特定話者に対する学習のために切
換スイッチ8を固定接点sI&接続させる。
そして特定話者が学習のためにあらかじめ特定の文章を
読上げるとその音声信号がマイクロフォン1からAD変
換部2−6に伝達されてディジタル信号として出力され
、これがスペクトル分析部4にて高速フーリエ交換(F
FT)されてスペクトル分析される。このときスペクト
ル分析部4からはスペクトル加重平均部8に対してその
スペクトル分析され木スペクトル曲線のみならず、゛、
正規化対数パワーP(も伝達される。かくしてこのスペ
クトル加重平均部8にて前記0式の演算が行なわれ、そ
の結果得られた音声スペクトル概形S(ω)がスペクト
ル概形メモリ9に配憶されることになる。
認識時には切換スイッチsl固定接点S、側に切換える
。そして特定話者が認識のためにマイクロフォンlから
入力した音声信号はAD変換部2によりディジタル値に
変換されたのち、スペクトル、分析部4にて高速フーリ
エ変換されてスペクトル分析される。そして加算部10
においてスペクトル概形メモリ9に記憶されている音声
スペクトル概形g(ω)の符号反転されたものの加算、
つまり減算を行なうことKより、その個人的特性分が補
償され、これKもとづき特徴抽出部5にて特徴抽出(例
えば帯域パワーの抽出等)が行なわれる。
そしてこの特徴抽出されたものと辞書に記入されタモの
との比較がパターンマツチング部で行なわれ、そのもつ
とも一致しえものを認識結果とじて出力することになる
(7)発明の効果 したがって本発明によれば話者間のスペクトルの各周波
数における強度軸方向の差異が学習により細かく正規化
することが可能となるので、不特定話者を対象とし友音
声認識装置において、非常に安定した、高い認識率を得
ることができる。
【図面の簡単な説明】
萬1図は従来の音声認識装置の説明図、第2図は本発明
&’CfIPける分割区間の説明図、第3図は音声スペ
クトル包絡の説明図、第4図は本発明の一実施例構成図
である。 図中、lはマイクロフォン、2はAD変換部、3は逆フ
ィルタ、4はスペクトル分析部、5は特徴抽出部、6は
パターンマツチング部、7は辞書、8はスペクトル加重
平均部、9はスペクトル概形メモリ、10は加算部をそ
れぞれ示す。 特許出願人  富士通株式会社 代理人弁理士  山 谷 晧 榮 才1芭 才3因 才、1m 才2図

Claims (1)

    【特許請求の範囲】
  1. (1)  音声信号入力手段と話者特性正規化手段とス
    ペクトル分析手段と特徴抽出手段とパターンマツチング
    手段と辞書部を具備する音声認識方式において、音声ス
    ペクトル概形を形成する音声スペクトル概形作成手段と
    、この作成された音声スペクトル概形を保持する保持手
    段を設け、音声認識に先立ち各話者に4I有の音声スペ
    クトル概形を任意の音声から学習してこれを前記保持手
    段に保持しておき、認識時にこの音声スペクトル概形に
    よ抄入力音声のスペクトルを正規化することにより話者
    間のスペクトルの各周波数における強度軸方向の差異を
    正規化するようKし九ことを特徴とする話者正規化方式
JP56208357A 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置 Granted JPS58108591A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56208357A JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56208357A JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Publications (2)

Publication Number Publication Date
JPS58108591A true JPS58108591A (ja) 1983-06-28
JPH0136959B2 JPH0136959B2 (ja) 1989-08-03

Family

ID=16554948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56208357A Granted JPS58108591A (ja) 1981-12-23 1981-12-23 話者正規化機能付き音声認識装置

Country Status (1)

Country Link
JP (1) JPS58108591A (ja)

Also Published As

Publication number Publication date
JPH0136959B2 (ja) 1989-08-03

Similar Documents

Publication Publication Date Title
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US5842162A (en) Method and recognizer for recognizing a sampled sound signal in noise
JP3055691B2 (ja) 音声認識装置
CN106935248A (zh) 一种语音相似度检测方法及装置
GB2225142A (en) Real time speech recognition
Rajan et al. Using group delay functions from all-pole models for speaker recognition
JPS58130393A (ja) 音声認識装置
JPS58134698A (ja) 音声認識方法および装置
JPH0612089A (ja) 音声認識方法
CN102054480A (zh) 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
Athineos et al. LP-TRAP: Linear predictive temporal patterns
Prasad et al. Speech features extraction techniques for robust emotional speech analysis/recognition
Li et al. A high-performance auditory feature for robust speech recognition.
Allen et al. Warped magnitude and phase-based features for language identification
JPS58108591A (ja) 話者正規化機能付き音声認識装置
Vestman et al. Time-varying autoregressions for speaker verification in reverberant conditions
JPH07121197A (ja) 学習式音声認識方法
Tolba et al. Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
JPS59131999A (ja) 音声認識装置
Zaw et al. Speaker identification using power spectral subtraction method
Wolf Speech signal processing and feature extraction
JPH0318720B2 (ja)
JPH0426479B2 (ja)
Marković et al. Recognition of Whispered Speech Based on PLP Features and DTW Algorithm