JP2668877B2 - 音源正規化方法 - Google Patents

音源正規化方法

Info

Publication number
JP2668877B2
JP2668877B2 JP62094761A JP9476187A JP2668877B2 JP 2668877 B2 JP2668877 B2 JP 2668877B2 JP 62094761 A JP62094761 A JP 62094761A JP 9476187 A JP9476187 A JP 9476187A JP 2668877 B2 JP2668877 B2 JP 2668877B2
Authority
JP
Japan
Prior art keywords
channel
power
sum
value
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62094761A
Other languages
English (en)
Other versions
JPS63259694A (ja
Inventor
正照 赤羽
幸 田中
雅男 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP62094761A priority Critical patent/JP2668877B2/ja
Publication of JPS63259694A publication Critical patent/JPS63259694A/ja
Application granted granted Critical
Publication of JP2668877B2 publication Critical patent/JP2668877B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、例えば、不特定話者を対象とする音声認
識装置の認識処理に用いられる音源正規化方法に関す
る。 〔発明の概要〕 この発明は、例えば、不特定話者を対象とする音声認
識装置の認識処理に用いられる音源正規化方法におい
て、周波数分析により得られる各チャンネルの出力値か
らパワーの平均値を減算してスペクトルエンベロープを
平行移動させ、略々中央となるチャンネルにおいて出力
値が略々0となるような形として、スペクトルエンベロ
ープの近似直線の傾きを加減算だけで算出し、この算出
された近似直線の傾きのみで容易に、然も、効率的に音
源正規化処理を行えるようにしたものである。 〔従来の技術〕 従来の不特定話者を対象とする音声認識装置では、標
準パターンを登録した話者以外の不特定な話者の音声に
関しても十分に認識処理が行えるようになされている。 これらの音声認識装置においては、認識率を向上させ
るために、何らかの方法で話者の個人差等による周波数
スペクトルの全体的な傾向及びバラツキを正規化するこ
とが必要とされている。一般的な正規化手法としては、
例えば、最小二乗法等で周波数スペクトルのエンベロー
プを一次関数で推定して正規化する手法が知られてい
る。 例えば、入力音声を周波数分析して得られる時系列上
の1フレーム分のデータによる一例としてのスペクトル
エンベロープを第3図に示す。第3図は、横軸を周波数
(チャンネル)とし、縦軸をレベルとしたもので、第3
図において32で示される破線がエンベロープを示し、破
線32上の各点が周波数分析部からの各出力値を示してい
る。 このようなスペクトルエンベロープに対して正規化処
理を行う場合には、先ず、破線32上の各出力値に対して
誤差の二乗和が最小となる直線を推定する。つまり、周
波数分析部のチャンネル数をnとし、各チャンネルから
の出力値をxi(i=1……n)とすると、第3図におい
て31で示される最小二乗近似直線は、 y=ai+b,(i=1……n) ……(1) となり、この時、出力値xiに対応する直線31上の各点の
誤差の二乗和f(xi)は、 となる。この誤差の二乗和f(xi)を最小とする傾きa
及び切片bによって最小二乗近似直線31が決定される。 実際に傾きa及び切片bを算出する場合には、 の関係が成り立つため、傾きa及び切片bが で求められ、上記(4)式における の項を算出することで傾きa及び切片bが定められ
る。得られた最小二乗近似直線31に基づいて各出力値xi
が正規化される。即ち、正規化された出力値をとす
ると =xi−(ai+b) ……(5) により算出され、この減算処理により話者の個人差等に
よるスペクトルの全体的な傾向及びバラツキが平坦化さ
れる。 〔発明が解決しようとする問題点〕 しかしながら、前述した従来の最小二乗法を用いた正
規化方法においては、最小二乗近似直線の傾きaと切片
bとを求めなければならず、更に、それらの計算処理の
過程において複数回の乗算を実行しなければならない。
このため、計算処理のソフトウェアのステップ数が増大
し、処理時間が長くなる問題点もあった。 従って、この発明の目的は、近似直線に基づいて容易
に然も効率的に周波数スペクトルの傾向を正規化するこ
とができる音源正規化方法を提供することにある。 〔問題点を解決するための手段〕 この発明では、1チャンネルから中央までのチャンネ
ルまでのパワーの和P1と中央以上のチャンネルからnチ
ャンネルまでのパワーの和P2と全体のパワーの和(P1
P2)からパワーの平均値mを求めるステップと、各チャ
ンネルの出力値からパワーの平均値mを減算して
求めるステップと、平均値のパワーが減算された出力値
のパワーの和と等しいパワーの和を有するような近
似直線の傾きaを求めるステップと、nチャンネル分の
正規化値−a{i−(n+1)/2} ……(9) により求めるステップとにより正規化処理がなされる。 〔作用〕 周波数分析により得られる各チャンネルの出力値xi
らパワーの平均値mが求められ、各チャンネルの出力値
xiからパワーの平均値mが減算されて初期的な正規化値
が算出される。この減算処理により、1個のフレー
ムのスペクトルエンベロープが平行移動されて略々中央
に位置するチャンネルにおいて出力値が略々0とされ、
初期的な正規化値により描かれるエンベロープの近
似直線が y=a{i−(n+1)/2} (n:チャンネル数,i:チャンネル番号1≦i≦n) ……(8) とされ、近似直線の傾きaが1チャンネルから略々中央
となるチャンネルまでのパワーの和P1と略々中央となる
チャンネルからnチャンネルまでのパワーの和P2とを用
いて により加減算のみで算出される。得られた近似直線の傾
きaにより最終的な正規化処理なされ、正規化値−a{i−(n+1)/2} =xi−m−a{i−(n+1)/2} (i=1,……n) ……(9) により算出される。 〔実施例〕 a,音声認識装置の構成とその処理の流れ 以下、この発明の一実施例を図面を参照して説明す
る。第2図は、音声認識装置においてなされる処理の流
れの一例を概念的に示したもので、この発明は、第2図
において15で示される音源正規化処理に係わるものであ
る。 第2図において、11で示される部分が入力系を示して
いる。入力系11において、音声認識処理に必要とされる
前処理が行われる。例えば、入力音声がマイクロホンを
介してアンプに供給され、入力音声信号が増幅されてロ
ーパスフィルタに供給される。ローパスフィルタにおい
て認識処理に必要とされる帯域に入力音声信号が制限さ
れる。そして、入力音声が所定のサンプリング周波数で
アナログ−ディジタル変換される。入力系11からのディ
ジタルの音声信号が分析系12に供給される。 分析系12は、例えば、n個のバンドパスフィルタから
成るディジタルバンドパスフィルタバンク等により構成
されており、分析系12において、入力音声信号に対する
周波数分析がなされる。例えば、ディジタルバンドパス
フィルタバンクの各通過帯域の中心周波数は、対数軸上
で等間隔となるように割り振られており、このディジタ
ルバンドパスフィルタバンクに入力音声信号を供給して
得られるnチャンネルの出力の夫々が2乗され、更に、
平均化されてパワースペクトルとされる。従って、音声
信号が対数軸上で等間隔となるnチャンネルのパワース
ペクトルの大きさによって表現される。そして、単位時
間(フレーム周期)毎にnチャンネルのパワースペクト
ルを示すデータ列が1個のフレームとして出力される。
即ち、フレーム周期毎に音声信号がn次元ベクトルによ
り表現されるパラメータとして切り出され、認識処理系
13に供給される。 認識処理系13は、例えば、特徴量抽出器,音声区間判
定器,音源正規化器,リジェクト判定器,NAT処理部,マ
ッチング判定部等により構成されている。尚、認識処理
系13においてなされる第2図において破線で囲まれた部
分に関しては、フレーム単位での処理がなされる。 先ず、分析系12からの各フレームのnチャンネルのパ
ワースペクトルに対してパラメータ変換処理14がなさ
れ、例えば、パワースペクトルが対数変換されて対数パ
ワースペクトルとされる。そして、音源正規化処理15,
音声区間判定処理16,特徴量抽出処理17の各処理が行わ
れる。 音源正規化器において、各フレーム毎にスペクトルエ
ンベロープに対する近似直線が推定され、この近似直線
により音源正規化処理15がなされる。この発明の音源正
規化方法においては、近似直線の傾きが加減算のみで算
出され、近似直線の切片成分を算出することなく、音源
正規化処理15がなされる。 また、特徴量抽出器において、特徴量抽出処理17がな
される。例えば、フレーム単位で入力音声信号のゼロク
ロス数がカウントされ、カウント値が求められると共
に、各フレームにおける入力音声信号のパワー、即ち、
2乗和が求められる。それと共に、各フレームの音素
性、即ち、スペクトルエンベロープの形状の特徴等が検
出される。これらの処理により得られた特徴量を示すデ
ータが新たにパラメータとして各フレームに付加され
る。 更に、音声区間判定器においてゼロクロス数のカウン
ト値,各フレームのパワー及び音源正規化情報に基づい
て複合的な音声区間判定処理16がなされ、例えば、無
音,無声音及び有声音の判定が行われて音声区間が決定
される。 この時、リジェクト判定器において、周囲ノイズ等と
入力音声とを区別するために、リジェクト処理21がなさ
れる。例えば、各フレームのパワーのレベルが所定のし
きい値と比較され、所定のしきい値より大とされる時に
は、音声が入力されたとして音声区間判定処理16及び特
徴量抽出処理17がなされ、所定のしきい値より小とされ
る時には、周囲ノイズ等と判断されて棄却され、無効入
力とされる。 音声区間判定処理16により決定された音声区間に対応
したフレームのみが有効とされて特徴パターンが形成さ
れ、この特徴パターンに対してNAT(Normalization Al
ong Trajectory)処理18がなされる。即ち、特徴ベク
トル(バラメータの個数に対応するものでN個のパラメ
ータで表される場合にはN次元ベクトル)空間上におけ
る時系列軌跡に沿って正規化処理がなされ、特徴パター
ンが時間軸方向に圧縮(若しくは伸長)される。例え
ば、特徴パターンを構成する隣り合うフレーム間のフレ
ーム間距離が計算され、更に、フレーム間距離の総和が
求められて特徴パターンの始端フレームから終端フレー
ムまでの軌跡長が求められる。そして、特徴パターンの
持つ特徴を抽出するのに必要とされる所定の分割数でも
って軌跡長が等分割され、分割点に対応して近接存在す
るフルームのみが抽出されて話者の音声の発生速度変動
に影響されることがないように時間軸が正規化される。 NAT処理18がなされた特徴パターンに対して2ビット
化処理19がなされ、例えば、特徴パターンを構成する各
フレームの各データが2ビットされてデータ量が圧縮さ
れる。 予め登録されてなる標準パターンと入力された音声の
特徴パターンとの間において、マッチング処理20がなさ
れ、例えば、比較の対象として選択される全ての標準パ
ターンとの間においてパターンマッチングがなされる。
例えば、特徴パターンを構成するフレームと標準パター
ンを構成するフレームとの間において、フレーム間距離
が求められ、その総和がマッチング距離とされる。 この時、リジェクト判定器においてリジェクト処理21
がなされる。例えば、各標準パターンとの間において算
出されたマッチング距離が所定のしきい値と比較され、
所定のしきい値より大とされるものに関しては、該当し
ないとして棄却される。そして、判定処理22がなされ、
所定のしきい値より小とされたマッチング距離のうちで
最小となるものが判断され、マッチング距離が最小とな
る標準パターンに対応する単語が認識結果とされる。 b,音源正規化処理の説明 前述した音源正規化処理について第1図A〜Cを参照
して説明する。尚、第1図A〜Cの夫々は、横軸が周波
数(チャンネル)を示し、縦軸がパワースペクトルのレ
ベルを示している。 例えば、入力音声を周波数分析して得られる時系列上
の1フレーム分のデータによる一例としてのスペクトル
エンベロープを第1図Aに示す。第1図Aにおいて1で
示される実線がスペクトルエンベロープを示し、実線上
の各点が周波数分析して得られる各チャンネル(例えば
チャンネル数をnとするとn=16)の出力値を示してい
る。また、第1図Aにおいて1aで示される実線がスペク
トルエンベロープ1に対する近似直線である。 第1図Aにおけるスペクトルエンベロープ1上の各点
のパワーの平均値mは、各チャンネルの出力値をxiとす
ると、 により算出される。この平均値mを用いて下記(7)式
に示す処理がなされる。つまり、各チャンネルの出力値
xiからパワーの平均値mが減算されて初期的な正規化値
が算出される。 =xi−m(i−1,……n) ……(7) 上記(7)式に示す処理により、スペクトルエンベロ
ープ1及び近似直線1aが第1図Aに示すように平行移動
され、実線2及び2aに示すものとされる。この時の近似
直線2aは、略々中央となる位置のチャンネルにおいてx
軸と交差するため、 y=a{i−(n+1)/2} (n:チャンネル数,i:チャンネル番号1≦i≦n) ……(8) と仮定することができる。このため、最終的な正規化値
−a{i−(n+1)/2} =xi−m−a{i−(n+1)/2} (i=1,……n) ……(9) によって算出することができる。 例えば、上記(9)式によって正規化された各チャン
ネルの出力値が第1図Bにおいて3の破線で示すよ
うなエンベロープを描くものとする。このエンベロープ
3により形成される斜線の領域4の面積をS1とすると、
面積S1は、により算出される。また、前述の(8)式を満足する第
1図Cにおいて5の実線で示す近似直線により形成され
る斜線の領域6の面積をS2とすると、面積S2は、 により算出される。これらの面積S1とS2とが等しいと仮
定することができ、近似直線5の傾きaが により算出される。 上記(12)式の右辺の分母は、チャンネル数nが固定
であるため、定数となる。従って、近似直線の傾きa
は、1チャンネルから略々中央に位置するチャンネルま
での前半部におえる出力値の和P1と、略々中央に位置す
るチャンネルからnチャンネルまでの後半部における出
力値の和P2との差の定数倍で算出される。 即ち、各チャンネルの出力に対して乗算を行うことな
く、加減算のみで近似直線の傾きaを求めることがで
き、下記(9)′式により最終的な正規化値が算出
される。 実際の計算においては、分析系12のチャンネル数が偶
数(n=2m)とされているか奇数(n=2m+1)とされ
ているかによって計算処理が若干異なるもので、夫々の
場合について以下に示す。 i)チャンネル数nが偶数とされ、(n=2m,m=1,2,…
…)の場合 (前記(9)′式の右辺の第2項の分母)が ∴ 2m2 =2m2 −2ki+(2m+1)k ∴ S1 =Si −S2i+S3となる。 尚、S1=2m2, S3=(2m+1)kである。 ii)チャンネル数nが奇数とされ、(n=2m+1,m=1,
2,……)の場合 (前記(9)′式の右辺の第2項の分母)が ∴ m(m+1)=m(m+1)−k′i+
k′(m+1) ∴ S1=S1−S2′i+S3′とされる。 尚、S1′=m(m+1) S3′=(m+1)k′である。 尚、チャンネル数nが偶数(n=2m)の場合及び奇数
(n=2m+1)の場合の両者共に、S1(又はS1′)×
の形とされて正規化値が定数倍されるが、認識処
理においては、相対比較であるため、何ら認識率に影響
を与えることがなく、S1(又はS1′)×は、
定数倍と、S3(又はS3′)との和から逐次S2(又は
S2′)だけ減算した形で算出される。 また、チャンネル数が奇数(n=2m+1)とされる時
には、1チャンネルから(m+1)チャンネルまでの前
半部として出力の和P1を算出すると共に、(m+2)チ
ャンネルからnチャンネルまでを後半部として出力の和
P2を算出して正規化する場合について説明したが、チャ
ンネル数が奇数の時には、中央に位置する(m+1)チ
ャンネルの出力値を両者の計算に用いるようにして出力
の和P1,P2を求めても良く、また、中央に位置する(m
+1)チャンネルの出力値を無視した形で出力の和P1,P
2を求めるようにしても良い。 〔発明の効果〕 この発明では、周波数分析により得られる各チャンネ
ルの出力値xiからパワーの平均値mが求められ、各チャ
ンネルの出力値xiからパワーの平均値mが減算されて初
期的な正規化処理がなされる。この初期的な正規化によ
り、1個のフレームのスペクトルエンベロープが平行移
動されて略々中央に位置するチャンネルにおいて出力値
が略々0とされ、近似直線の傾きaが1チャンネルから
略々中央となるチャンネルまでのパワーの和P1と略々中
央となるチャンネルからnチャンネルまでのパワーの和
P2とを用いた加減算のみの式により算出される。得られ
た近似直線線の傾きaにより最終的な正規化処理がなさ
れる。 従って、この発明に依れば、従来の最小二乗法を用い
た正規化処理に必要であった切片bを算出することな
く、傾きaのみにより容易に然も効率的に周波数スペク
トルの傾向を正規化することができる。 また、この発明に依れば、正規化処理に用いられる近
似直線の傾きaを加減算のみにより算出することがで
き、更に、効率的に周波数スペクトルの傾向を正規化す
ることができる。 尚、1個のフレームに対する従来の最小二乗法を用い
た正規化処理と、この発明における正規化処理との演算
量の比較を参考のために記す。 最小二乗法を用いて正規化処理を行う場合には、前記
(4)式に示すように、 i×xi,(i=1,……n) ……(14) なる乗算をn回実行し、更に、 Σi×Σxi ……(15) なる乗算を1回実行して傾きa及び切片bを決定する。
そして、正規化値を算出する段階で a×i ……(16) なる乗算をn回実行することが必要とされる。 一方、この発明の正規化処理に依れば、加減算のみに
より算出される傾きaのみで正規化が行われるため、上
記(14)式及び(15)式に相当する乗算が不必要とさ
れ、上記(16)式に相当する。 a×{i−(n+1)/2} なる乗算をn回のみ実行することで、正規化値を得るこ
とができ、極めて効率的に処理される。
【図面の簡単な説明】 第1図A〜Cはこの発明の一実施例の説明に用いる略線
図、第2図は音声認識装置の説明に用いる一例としての
概念図、第3図は従来の音源正規化方法の説明に用いる
略線図である。

Claims (1)

  1. (57)【特許請求の範囲】 1.1チャンネルから中央までのチャンネルまでのパワ
    ーの和P1と中央以上のチャンネルからnチャンネルまで
    のパワーの和P2と全体のパワーの和(P1+P2)からパワ
    ーの平均値mを求めるステップと、 各チャンネルの出力値から上記パワーの平均値mを減算
    してを求めるステップと、 上記平均値のパワーが減算された出力値のパワーの
    和と等しいパワーの和を有するような近似直線の傾きa
    を求めるステップと、 下記(9)式に従ってnチャンネル分の正規化値
    求めるステップと、 からなることを特徴とする音源正規化方法。−a{i−(n+1)/2} ……(9)
JP62094761A 1987-04-17 1987-04-17 音源正規化方法 Expired - Fee Related JP2668877B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62094761A JP2668877B2 (ja) 1987-04-17 1987-04-17 音源正規化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62094761A JP2668877B2 (ja) 1987-04-17 1987-04-17 音源正規化方法

Publications (2)

Publication Number Publication Date
JPS63259694A JPS63259694A (ja) 1988-10-26
JP2668877B2 true JP2668877B2 (ja) 1997-10-27

Family

ID=14119083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62094761A Expired - Fee Related JP2668877B2 (ja) 1987-04-17 1987-04-17 音源正規化方法

Country Status (1)

Country Link
JP (1) JP2668877B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5728918B2 (ja) * 2010-12-09 2015-06-03 ヤマハ株式会社 情報処理装置

Also Published As

Publication number Publication date
JPS63259694A (ja) 1988-10-26

Similar Documents

Publication Publication Date Title
EP0219712B1 (en) Method of and system for speech recognition
JP4177755B2 (ja) 発話特徴抽出システム
CA1227286A (en) Speech recognition method and apparatus thereof
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
JP2004531767A5 (ja)
CN113160852A (zh) 语音情绪识别方法、装置、设备及存储介质
JPS6128998B2 (ja)
JP2668877B2 (ja) 音源正規化方法
JP2606211B2 (ja) 音源正規化方法
JP2644494B2 (ja) 不特定話者音声認識装置
JP3283971B2 (ja) 音声認識方法
JPH0424717B2 (ja)
JPH0556520B2 (ja)
JP3023135B2 (ja) 音声認識装置
JPS63266496A (ja) 音声認識装置における雑音棄却方法
JPS62113197A (ja) 音声認識装置
JPH03122699A (ja) 雑音除去装置及び該装置を用いた音声認識装置
JPS6225798A (ja) 音声認識装置
JPH0632025B2 (ja) 音声認識装置
JPS62159195A (ja) 音声パタン作成方法
JPH0646359B2 (ja) 単語音声認識装置
JPS625298A (ja) 音声認識装置
JP3015477B2 (ja) 音声認識方法
JPH0454960B2 (ja)
JPS63121100A (ja) 音声認識装置における特徴パタ−ン抽出方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees