JPH0136959B2 - - Google Patents
Info
- Publication number
- JPH0136959B2 JPH0136959B2 JP56208357A JP20835781A JPH0136959B2 JP H0136959 B2 JPH0136959 B2 JP H0136959B2 JP 56208357 A JP56208357 A JP 56208357A JP 20835781 A JP20835781 A JP 20835781A JP H0136959 B2 JPH0136959 B2 JP H0136959B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- spectrum
- speaker
- outline
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000001228 spectrum Methods 0.000 claims description 51
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010183 spectrum analysis Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000000034 method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Description
【発明の詳細な説明】
(1) 発明の技術分野
本発明は音声認識装置における話者正規化機能
付き音声認識装置に関し、特に不特定話者を対象
とした音声認識装置に不可決な話者正規化機能付
き音声認識装置に関するものである。
付き音声認識装置に関し、特に不特定話者を対象
とした音声認識装置に不可決な話者正規化機能付
き音声認識装置に関するものである。
(2) 技術の背景
入力された音声にもとづき各種処理を行なうよ
うな場合、入力された音声が何であるかを認識し
なければならない。そのために入力された音声信
号より特徴抽出を行ないその特徴を辞書と比較し
て入力音声信号が何かということを識別すること
が行なわれている。
うな場合、入力された音声が何であるかを認識し
なければならない。そのために入力された音声信
号より特徴抽出を行ないその特徴を辞書と比較し
て入力音声信号が何かということを識別すること
が行なわれている。
しかしながら音声には個人差があるために不特
定話者を対象とした音声認識装置では、各話者の
個人差を取除く、いわゆる話者正規化処理を入力
音声に対して行なう必要がある。
定話者を対象とした音声認識装置では、各話者の
個人差を取除く、いわゆる話者正規化処理を入力
音声に対して行なう必要がある。
(3) 従来技術と問題点
従来、不特定話者を対象として音声認識を行な
う場合には、第1図に示すように、例えばマイク
ロフオン1より入力された音声信号をAD変換部
2に伝達してこれをサンプリングしたのち、後述
する逆フイルタ3により話者正規化を行ない、こ
れをスペクトル分析部4にて高速フーリエ変換し
て音声スペクトルを作成し、特徴抽出部5にてそ
の特徴抽出を行ない、パターンマツチング部6に
より辞書7に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準
パターンのものを認識結果として出力している。
う場合には、第1図に示すように、例えばマイク
ロフオン1より入力された音声信号をAD変換部
2に伝達してこれをサンプリングしたのち、後述
する逆フイルタ3により話者正規化を行ない、こ
れをスペクトル分析部4にて高速フーリエ変換し
て音声スペクトルを作成し、特徴抽出部5にてそ
の特徴抽出を行ない、パターンマツチング部6に
より辞書7に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準
パターンのものを認識結果として出力している。
ここで、前記逆フイルタ3は下記式の特性H
(Z)を有するものである。
(Z)を有するものである。
H(Z)=(1−αZ-1)2 ……
Z=e〓〓ω:正規化周波数
したがつてこの逆フイルタ3の特性は上記αを
変えることにより定まるものであるので、認識に
先立ち、話者毎に特定文章を読上げてこれにより
このαを学習し、話者正規化をはかるものであ
る。なおこのαは個人別に異なるものであり、自
己相関関係より求められる。
変えることにより定まるものであるので、認識に
先立ち、話者毎に特定文章を読上げてこれにより
このαを学習し、話者正規化をはかるものであ
る。なおこのαは個人別に異なるものであり、自
己相関関係より求められる。
しかしながら、このようにして音声波に時間領
域の処理のみの上記式の逆フイルタをかけて数
次の平担化フイルタ処理を行うのみでは、周波数
領域(例えば0〜5KHz)でこの式の関数の形
の範囲でしか正規化できないので、個人毎に細か
い相違があるようなものに対しては充分正規規化
することができないという欠点があつた。
域の処理のみの上記式の逆フイルタをかけて数
次の平担化フイルタ処理を行うのみでは、周波数
領域(例えば0〜5KHz)でこの式の関数の形
の範囲でしか正規化できないので、個人毎に細か
い相違があるようなものに対しては充分正規規化
することができないという欠点があつた。
(4) 発明の目的
したがつて本発明はこのような問題を改善する
ために、話者間の音声スペクトルの各周波数にお
ける強度軸方向の差異を細かく正規化する装置を
提供するものである。
ために、話者間の音声スペクトルの各周波数にお
ける強度軸方向の差異を細かく正規化する装置を
提供するものである。
(5) 発明の構成
そしてこのために本発明における話者正規化機
能付き音声認識装置では、音声信号入力手段と話
者特性正規化手段とスペクトル分析手段と特徴抽
出手段とパターンマツチング手段と辞書部を具備
する音声認識装置において、スペクトル分析対象
の全音声区間についてのスペクトル時系列のパワ
ー重み付平均値からなる音声スペクトル概形を作
成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を
設け、音声認識に先立ち各話者に特有の音声スペ
クトル概形を任意の音声から学習してこれを前記
保持手段に保持しておき、認識時にこの音声スペ
クトル概形により入力音声のスペクトルを正規化
することにより話者間のスペクトルの各周波数に
おける強度軸方向の差異を正規化するようにした
ことを特徴とする。
能付き音声認識装置では、音声信号入力手段と話
者特性正規化手段とスペクトル分析手段と特徴抽
出手段とパターンマツチング手段と辞書部を具備
する音声認識装置において、スペクトル分析対象
の全音声区間についてのスペクトル時系列のパワ
ー重み付平均値からなる音声スペクトル概形を作
成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を
設け、音声認識に先立ち各話者に特有の音声スペ
クトル概形を任意の音声から学習してこれを前記
保持手段に保持しておき、認識時にこの音声スペ
クトル概形により入力音声のスペクトルを正規化
することにより話者間のスペクトルの各周波数に
おける強度軸方向の差異を正規化するようにした
ことを特徴とする。
(6) 発明の実施例
本発明の一実施例を詳述するに先立ちその動作
原理について説明する。
原理について説明する。
本発明では発声された音声の短区間スペクトル
のパワー加重平均をその発声者の固有の音声スペ
クトル概形とし、認識時にその音声スペクトル概
形を入力音声のスペクトルから差引くことにより
話者正規化を行なうものである。第2図に示す如
く、学習に際して入力音声を時間軸t方向に、例
えば10msec程の時間間隔△tでt1,t2,t3…と区
間分割し、第3図に示す如く、その区間のスペク
トル又はスペクトル包絡を作成し、これを{Si
(ω)}とする。ここでiは区間番号、ωは正規化
周波数(図示の例では5KHz)である。そしてそ
の区間の正規化対数のパワーを{Pi}(0≦Pi≦
1)とする。換言すれば、このPiは第2図の各区
間の音声波形のパワーに対応するものであり、Si
(ω)は第3図のスペクトル包絡線に対応するも
のである。そしてこれらにより音声スペクトル概
形(ω)を次の式により求める。
のパワー加重平均をその発声者の固有の音声スペ
クトル概形とし、認識時にその音声スペクトル概
形を入力音声のスペクトルから差引くことにより
話者正規化を行なうものである。第2図に示す如
く、学習に際して入力音声を時間軸t方向に、例
えば10msec程の時間間隔△tでt1,t2,t3…と区
間分割し、第3図に示す如く、その区間のスペク
トル又はスペクトル包絡を作成し、これを{Si
(ω)}とする。ここでiは区間番号、ωは正規化
周波数(図示の例では5KHz)である。そしてそ
の区間の正規化対数のパワーを{Pi}(0≦Pi≦
1)とする。換言すれば、このPiは第2図の各区
間の音声波形のパワーに対応するものであり、Si
(ω)は第3図のスペクトル包絡線に対応するも
のである。そしてこれらにより音声スペクトル概
形(ω)を次の式により求める。
(ω)=
〓i
Si(ω)Pi/
〓i
Pi ……
一方音声認識時は、入力音声のスペクトル包絡
を{S′i(ω)}とすると、特徴抽出するスペクト
ルS″i(ω)は次の式のようにして求める。
を{S′i(ω)}とすると、特徴抽出するスペクト
ルS″i(ω)は次の式のようにして求める。
S″i(ω)=S′i(ω)−(ω) ……
すなわち(ω)は話者の個人性を示すもので
あり、音声認識に先立ち特定文章を読上げること
によりこれを作成しておく。そして音声認識時に
は入力された音声信号より得られたスペクトル包
絡S′i(ω)よりこの個人特性分の(ω)を引け
ば各正規化周波数までのスペクトルに対して細か
く補正された正規化スペクトルS″i(ω)を得るこ
とができるので、これにより特徴抽出することに
より正確な音声認識を行なうことができる。
あり、音声認識に先立ち特定文章を読上げること
によりこれを作成しておく。そして音声認識時に
は入力された音声信号より得られたスペクトル包
絡S′i(ω)よりこの個人特性分の(ω)を引け
ば各正規化周波数までのスペクトルに対して細か
く補正された正規化スペクトルS″i(ω)を得るこ
とができるので、これにより特徴抽出することに
より正確な音声認識を行なうことができる。
次に本発明の一実施例を第4図にもとづき説明
する。
する。
第4図において第1図と同符号部は同一部分を
示すものであり、8はスペクトル加重平均部、9
はスペクトル概形メモリ、10は加算部、Sは切
換スイツチである。
示すものであり、8はスペクトル加重平均部、9
はスペクトル概形メモリ、10は加算部、Sは切
換スイツチである。
スペクトル加重平均部8は、学習時において前
記式の演算を行なつて話者個人の音声スペクト
ル概形(ω)を算出するものである。
記式の演算を行なつて話者個人の音声スペクト
ル概形(ω)を算出するものである。
スペクトル概形メモリ9は前記スペクトル加重
平均部8にて演算されて求められた音声スペクト
ル概形(ω)を保持するメモリである。
平均部8にて演算されて求められた音声スペクト
ル概形(ω)を保持するメモリである。
次に第4図の動作について説明する。
先ず音声認識に先立ち特定話者に対する学習の
ために切換スイツチSを固定接点S1と接続させ
る。そして特定話者が学習のためにあらかじめ特
定の文章を読上げるとその音声信号がマイクロフ
オン1からAD変換部2に伝達されてデイジタル
信号として出力され、これがスペクトル分析部4
にて高速フーリエ交換(FFT)されてスペクト
ル分析される。このときスペクトル分析部4から
はスペクトル加重平均部8に対してそのスペクト
ル分析されたスペクトル曲線のみならず、正規化
対数パワーPiも伝達される。かくしてこのスペク
トル加重平均部8にて前記式の演算が行なわ
れ、その結果得られた音声スペクトル概形
(ω)がスペクトル概形メモリ9に記憶されるこ
とになる。
ために切換スイツチSを固定接点S1と接続させ
る。そして特定話者が学習のためにあらかじめ特
定の文章を読上げるとその音声信号がマイクロフ
オン1からAD変換部2に伝達されてデイジタル
信号として出力され、これがスペクトル分析部4
にて高速フーリエ交換(FFT)されてスペクト
ル分析される。このときスペクトル分析部4から
はスペクトル加重平均部8に対してそのスペクト
ル分析されたスペクトル曲線のみならず、正規化
対数パワーPiも伝達される。かくしてこのスペク
トル加重平均部8にて前記式の演算が行なわ
れ、その結果得られた音声スペクトル概形
(ω)がスペクトル概形メモリ9に記憶されるこ
とになる。
認識時には切換スイツチSを固定接点S2側に切
換える。そして特定話者が認識のためにマイクロ
フオン1から入力した音声信号はAD変換部2に
よりデイジタル値に変換されたのち、スペクトル
分析部4にて高速フーリエ変換されてスペクトル
分析される。そして加算部10においてスペクト
ル概形メモリ9に記憶されている音声スペクトル
概形(ω)の符号反転されたものの加算、つま
り減算を行なうことにより、その個人的特性分が
補償され、これにもとづき特徴抽出部5にて特徴
抽出(例えば帯域パワーの抽出等)が行なわれ
る。そしてこの特徴抽出されたものと辞書に記入
されたものとの比較がパターンマツチング部で行
なわれ、そのもつとも一致したものを認識結果と
して出力することになる。このようにして認識時
には一定したスペクトル概形(ω)を使用でき
るので、音声認識に重要な時間変動情報を見落す
ことなく正しい認識を行うことができる。
換える。そして特定話者が認識のためにマイクロ
フオン1から入力した音声信号はAD変換部2に
よりデイジタル値に変換されたのち、スペクトル
分析部4にて高速フーリエ変換されてスペクトル
分析される。そして加算部10においてスペクト
ル概形メモリ9に記憶されている音声スペクトル
概形(ω)の符号反転されたものの加算、つま
り減算を行なうことにより、その個人的特性分が
補償され、これにもとづき特徴抽出部5にて特徴
抽出(例えば帯域パワーの抽出等)が行なわれ
る。そしてこの特徴抽出されたものと辞書に記入
されたものとの比較がパターンマツチング部で行
なわれ、そのもつとも一致したものを認識結果と
して出力することになる。このようにして認識時
には一定したスペクトル概形(ω)を使用でき
るので、音声認識に重要な時間変動情報を見落す
ことなく正しい認識を行うことができる。
ところで本発明において音声スペクトル概形
(ω)を使用するのは以下のことによる。
(ω)を使用するのは以下のことによる。
話者毎の音声の違いは特に母音区間のスペクト
ルに現れることはよく知られている。具体的には
各母音(アイウエオ)のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の学習用音声
データよりその話者特有の各母音のスペクトル情
報(ホルマント周波数および各ホルマントの相対
強度関係など)を事前に学習しておけばほぼ完全
にその話者の母音を認識することができる。その
ため認識に先立ち母音のみを学習させる音声認識
装置さえ発表されている。本発明では、学習用音
声データとして母音を発声させるのではなく、任
意の発音内容の音声からその話者の母音の情報を
学習することを目的としている。本発明では、音
声中の母音はパワーが大きいことに注目し、全音
声区間のスペクトル時系列のパワー重み付平均を
式を用いて計算することにより、等価的に全母
音(アイウエオ)の平均スペクトルの近似値を求
めている。上述のように、本当は各母音の平均ス
ペクトルを求めたいのであるが、本発明の適用さ
れる音声認識装置の前処理部では認識結果さえ得
られず、ましてや不特定の話者の任意発声内容の
音声中の母音位置を検出しその母音の種類を決定
することは不可能であるため、本発明では全母音
の平均スペクトルの近似値を求めている。しか
し、本発明の全母音の平均スペクトルの近似値で
も話者の個人性を表現する情報を十分含んでお
り、これを認識音声データから差し引くことによ
り、音声データから話者性を取り除くことが十分
に可能となる。
ルに現れることはよく知られている。具体的には
各母音(アイウエオ)のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の学習用音声
データよりその話者特有の各母音のスペクトル情
報(ホルマント周波数および各ホルマントの相対
強度関係など)を事前に学習しておけばほぼ完全
にその話者の母音を認識することができる。その
ため認識に先立ち母音のみを学習させる音声認識
装置さえ発表されている。本発明では、学習用音
声データとして母音を発声させるのではなく、任
意の発音内容の音声からその話者の母音の情報を
学習することを目的としている。本発明では、音
声中の母音はパワーが大きいことに注目し、全音
声区間のスペクトル時系列のパワー重み付平均を
式を用いて計算することにより、等価的に全母
音(アイウエオ)の平均スペクトルの近似値を求
めている。上述のように、本当は各母音の平均ス
ペクトルを求めたいのであるが、本発明の適用さ
れる音声認識装置の前処理部では認識結果さえ得
られず、ましてや不特定の話者の任意発声内容の
音声中の母音位置を検出しその母音の種類を決定
することは不可能であるため、本発明では全母音
の平均スペクトルの近似値を求めている。しか
し、本発明の全母音の平均スペクトルの近似値で
も話者の個人性を表現する情報を十分含んでお
り、これを認識音声データから差し引くことによ
り、音声データから話者性を取り除くことが十分
に可能となる。
(7) 発明の効果
したがつて本発明によれば話者間のスペクトル
の各周波数における強度軸方向の差異が学習によ
り細かく正規化することが可能となるので、不特
定話者を対象とした音声認識装置において、時間
変動情報を落すこともない、非常に安定した、高
い認識率を得ることができる。
の各周波数における強度軸方向の差異が学習によ
り細かく正規化することが可能となるので、不特
定話者を対象とした音声認識装置において、時間
変動情報を落すこともない、非常に安定した、高
い認識率を得ることができる。
第1図は従来の音声認識装置の説明図、第2図
は本発明における分割区間の説明図、第3図は音
声スペクトル包絡の説明図、第4図は本発明の一
実施例構成図である。 図中、1はマイクロフオン、2はAD変換部、
3は逆フイルタ、4はスペクトル分析部、5は特
徴抽出部、6はパターンマツチング部、7は辞
書、8はスペクトル加重平均部、9はスペクトル
概形メモリ、10は加算部をそれぞれ示す。
は本発明における分割区間の説明図、第3図は音
声スペクトル包絡の説明図、第4図は本発明の一
実施例構成図である。 図中、1はマイクロフオン、2はAD変換部、
3は逆フイルタ、4はスペクトル分析部、5は特
徴抽出部、6はパターンマツチング部、7は辞
書、8はスペクトル加重平均部、9はスペクトル
概形メモリ、10は加算部をそれぞれ示す。
Claims (1)
- 1 音声信号入力手段と話者特性正規化手段とス
ペクトル分析手段と特徴抽出手段とパターンマツ
チング手段と辞書部を具備する音声認識装置にお
いて、スペクトル分析対象の全音声区間について
のスペクトル時系列のパワー重み付平均値からな
る音声スペクトル概形を形成する音声スペクトル
概形作成手段と、この作成された音声スペクトル
概形を保持する保持手段を設け、音声認識に先立
ち各話者に特有の音声スペクトル概形を任意の音
声から学習してこれを前記保持手段に保持してお
き、認識時にこの音声スペクトル概形により入力
音声のスペクトルを正規化することにより話者間
のスペクトルの各周波数における強度軸方向の差
異を正規化するようにしたことを特徴とする話者
正規化機能付き音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56208357A JPS58108591A (ja) | 1981-12-23 | 1981-12-23 | 話者正規化機能付き音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56208357A JPS58108591A (ja) | 1981-12-23 | 1981-12-23 | 話者正規化機能付き音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS58108591A JPS58108591A (ja) | 1983-06-28 |
JPH0136959B2 true JPH0136959B2 (ja) | 1989-08-03 |
Family
ID=16554948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56208357A Granted JPS58108591A (ja) | 1981-12-23 | 1981-12-23 | 話者正規化機能付き音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58108591A (ja) |
-
1981
- 1981-12-23 JP JP56208357A patent/JPS58108591A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS58108591A (ja) | 1983-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0219109B1 (en) | Method of analyzing input speech and speech analysis apparatus therefor | |
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
Bou-Ghazale et al. | A comparative study of traditional and newly proposed features for recognition of speech under stress | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
US4783802A (en) | Learning system of dictionary for speech recognition | |
WO2011046474A2 (ru) | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания | |
JPH0612089A (ja) | 音声認識方法 | |
Athineos et al. | LP-TRAP: Linear predictive temporal patterns | |
Zhou et al. | Classification of speech under stress based on features derived from the nonlinear Teager energy operator | |
Naini et al. | Formant-gaps features for speaker verification using whispered speech | |
KR19990001828A (ko) | 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 | |
JPH07191696A (ja) | 音声認識装置 | |
JPH0136959B2 (ja) | ||
CN116052689A (zh) | 一种声纹识别方法 | |
JPH1097274A (ja) | 話者認識方法及び装置 | |
Sahu et al. | Analysis of Short-Time Magnitude Spectra for Improving Intelligibility Assessment of Dysarthric Speech | |
Tolba et al. | Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator | |
Christiansen et al. | Noise reduction in speech using adaptive filtering I: Signal processing algorithms | |
Singh et al. | The Voice Signal and Its Information Content—2 | |
JPS63213899A (ja) | 話者照合方式 | |
JP2569472B2 (ja) | 音声分析装置 | |
JPH0136960B2 (ja) | ||
Krause | Recent developments in speech signal pitch extraction | |
Flanagan et al. | Techniques for speech analysis | |
JPS6148898A (ja) | 音声の有声無声判定装置 |