JP2569472B2

JP2569472B2 - 音声分析装置

Info

Publication number: JP2569472B2
Application number: JP60231721A
Authority: JP
Inventors: 祐輔塚原; 斉益田
Original assignee: Toppan Inc
Current assignee: Toppan Inc
Priority date: 1985-10-17
Filing date: 1985-10-17
Publication date: 1997-01-08
Anticipated expiration: 2012-01-08
Also published as: JPS6290700A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、入力音声信号を分析する音声分析装置に
関する。

〔従来の技術〕

音声認識装置、聴覚障害者のための発生練習装置、音
声分析合成による通信システムあるいは音声合成装置な
どにおいては、目的とする処理を実現するために、入力
音声信号の分析及びその特徴抽出が必要となる。入力音
声信号の分析は、一般に、その周波数スペクトルに基づ
いてなされる。それは、人間の聴覚が音声信号の時間変
化波形そのものより、むしろ音声信号のスペクトルに対
して敏感であり、同一のスペクトル形状を持った信号を
同じ音韻として認識するという事実によっている。

音声信号は、有声音部分においては、声帯振動によっ
て駆動される周期的信号としての構造を持つ。その結
果、有声音部分の周波数スペクトルは、線スペクトル的
構造を持つ。一方、無音声部分においては、音声信号は
声帯振動をともなわず、むしろ、声動を通過する気流に
よって起こされる雑音をその音源としている。その結
果、この無音声部分の周波数スペクトルは、線スペクト
ルのような周期的な構造を持たない。これに対応して、
従来の音声分析においては、入力音声信号の音源として
周期的パルス発生源を想定する方法と、ノイズ音源を想
定する方法がある。前者は自己回帰モデル（ARモデル）
による音声分析で良く知られ、後者はケプストラム分析
による音声分析で良く知られている。これらの音声分析
によれば、入力音声信号のスペクトルから微細な構造を
取り除いたいわゆるスペクトル包絡が得られる。

さらに、上記の分析方法以外の有力な分析方法とし
て、フィルタバングによる周波数分析方法がある。この
分析方法は、入力音声信号を多数のそれぞれ異なる中心
周波数を持つバンドパスフィルタに通し、それらフィル
タ出力をもってスペクトル強度とするものである。この
分析方法の特徴は、例えば、ハードウェア化による実時
間処理の容易さにある。

入力音声信号を、上記のARモデルによる分析方法ある
いはケプストラム分析方法などの方法で分析し、スペク
トル包絡を求める場合、これらの方法は系の時間的定常
性を仮定しているため、本来的には、時間的に音韻が変
化する場合には、適用できないものである。そこで、こ
れらの分析方法においては、系が大きく変化しないと見
られるような短かい時間領域の信号を切り出し、これに
端点の影響が出ないようにハミング窓、ハニング窓など
の窓関数をかけることで、時間的に準定常的な信号を作
り出している。そして、この信号を分析することによっ
て得られるスペクトル包絡を、上記信号切り出し時点で
のスペクトル包絡としている。

〔発明が解決しようとする問題点〕

上述したように、従来の音声分析においては、入力音
声信号のスペクトルを求める場合、ある時間的な長さ
（以下、フレーム長と記す）で切り出された信号部分の
平均的なスペクトルを求めている。このため、スペクト
ルの急激な変化を十分に抽出するためには、そのフレー
ム長を短くする必要がある。特に、子音の立上り部分で
は、数ミリ秒の時間内にスペクトルが刻々変化していく
ため、フレーム長にも数ミリ秒程度のオーダが要求され
る。しかし、このようにすると、フレーム長と声帯振動
のピッチ周期が同程度となるので、スペクトルの抽出結
果が声帯パルスが解析フレーム長のどこにどの程度含ま
れるかという点に大きく依存し、スペクトルを安定に抽
出することができなくなることが知られている。

この原因は、非定常な系のスペクトルの時間的発展を
解析する上において、これを定常な系として仮定された
モデルによって行なおうとしているためと考えられる。
なお、この明細書では時間的発展や時間発展を時間軸方
向の変化という意味で使用している。

また、従来のスペクトル抽出においては、スペクトル
の急激な変化に対処するためには、信号切出しのための
フレーム位置をずらす際に、その時間間隔（以下、フレ
ーム周期と記す）を短くする必要がある。しかし、例え
ば、フレーム周期を半分にすると、解析しなければなら
ないフレーム数が倍になるというように、フレーム周期
を短くすると、処理量は非常に大きくなる。例えば、１
秒間にわたって連続する音声信号を50μsecのピッチで
アナログ／デジタル変換することによって得られるデー
タ数は20000個である。ところが、上記データ長を、フ
レーム長10msec、フレーム周期2msecで分析すると、分
析されるフレーム数は、 1s÷0.002s＝500 となる。その結果、分析されるデータ数は、全部で、（10msec÷0.05msec）×500＝100000 となり、本来のデータ数の５倍のデータを処理すること
になる。

以上述べたように、系の定常性を基本とする従来の音
声分析においては、子音の立上がり部分などの系が非定
常な部分においては、スペクトルの急激な変化を安定か
つ精度良く捕えることができないという問題があった。

この発明の第１の目的は、子音の立上がり部分のよう
な非定常な系のスペクトルの時間的発展を、安定かつ精
度よく抽出することができる音声分析装置を提供すると
ころにある。

この発明の第２の目的は、上記第１の目的を達成でき
るとともに、無音部分や子音部分を含むフレームのよう
に、ノイズを多く含むフレームを解析する場合であって
も、ノイズの影響を受けない高品質なスペクトルの時間
発展を得ることができる音声分析装置を提供するところ
にある。

〔問題点を解決するための手段及び作用〕

上記第１の目的を達成するためにこの発明は、入力音
声信号をフーリエ変換することにより得た周波数スペク
トルから、但し、_Ｐ：入力音声信号のピッチ周波数 n:0または正の整数なる周波数範囲のスペクトルを取り出し、これを逆フー
リエ変換することにより、周波数_Ｐ×ｎにおけるスペ
クトルの時間発展を求めるようにしたものである。

また、上記第２の目的を達成するためにこの発明は、
上記のようにして得られる周波数_Ｐ×ｎのスペクトル
の時間発展を平滑するようにしたものである。

〔実施例〕

以下、図面を参照してこの発明の一実施例を詳細に説
明する。

第１図は一実施例の構成を示すブロック図であるが、
この第１図を説明する前に、第２図乃至第６図を用いて
一実施例の概要を説明する。

今、音声信号ｉ（ｔ）の生成モデルとして第２図に示
すようなものを考える。このモデルにおいては、音源と
して、ピッチ周期（Ｔ）で繰り返すパルス列ｐ（ｔ）を
声帯振動の強度包絡ｅ（ｔ）で振幅変調するようなもの
を想定している。そして、この音源からの信号を非定常
な声道特性ｑ（t;τ）によってフィルタリングすること
により、音声信号ｉ（ｔ）を得ている。

上記モデルを数学的に表現すると、次式（１）のよう
になる。

ｉ（ｔ）＝∫ｄτｑ（t;τ）ｅ（τ）ｐ（τ） ……
（１）特殊な例として声道特性を定常とすると、ｑ（t;τ）→ｑ（ｔ−τ）となり、式（１）は従来のケプストラム分析におけるモ
デルと同じく、次式（２）に帰着することになる。

ｉ（ｔ）＝∫ｄτｑ（ｔ−τ）ｅ（τ）ｐ（τ） ……
（２）つまり、本実施例の基礎となるモデルにおいては、従
来のケプストラム分析におけるモデル（式（２））の声
道特性を、時間的に変化するものとして考えている。

さて、非定常声道特性ｑ（t;τ）、声帯振動波形（パ
ルス列）ｐ（ｔ）、音源の包絡強度ｅ（ｔ）をフーリエ
分解すると、それぞれ、と表わせる。

式（３）は、定常モデルの式（２）のｑ（ｔ−τ）に
対する表現、つまり、の非定常な場合に対する自然な拡張となっており、Ｑ
（t,ω）は声道特性のスペクトルの角周波数ω成分の時
間的変化を表現する。

式（３），（４），（５）を式（１）の音声生成モデ
ルに代入すると、が得られる。

ここで、とし、これを式（７）に代入すると、となる。さらに、式（９）のＱ（t,ω）のｔ依存性につ
いてフーリエ変換することにより、式（10）に示される
ようなＱ′（P,ω）が得られる。

Ｑ′（P,ω）＝∫dte^-itpＱ（t,ω） ……（10）音声信号ｉ（ｔ）のフーリエスペクトルＩ（ω）は、
式（９）と（10）から、と表わすことができる。

ところで、式（８）で定義されるＦ（ω）は、第３図
に示すような周期の離散的スペクトルである。図中のスペクトルの幅
（Δω）は、上記包絡強度ｅ（ｔ）のスペクトルＥ
（ω）のバンド幅である。このバンド幅（Δω）の大き
さは、包絡強度ｅ（ｔ）の時間変化の激しさによって規
定されるものである。ここで、包絡強度ｅ（ｔ）は、第
３図に示す２つのスペクトルS₁，S₂が分離するために
は、声帯振動の１ピッチ以内の時間で激しく変化しない
という条件を満たさなければならない。同様に、式（1
0）で定義されるＱ′（P,ω）のＰ依存性は、声道特性
スペクトルの時間変化に対するスペクトル表現である。
したがって、包絡強度ｅ（ｔ）が声帯振動の１ピッチ以
内の時間で激しく変化しないと仮定すれば、Ｐは、に帯域制限される。

Ｑ′（P,ω）のω依存性は、声道特性スペクトルを示
すもので、第４図に示すように、通常は１ピッチに対応
する周波数変化以内では、大きく変化しないと考えられる。

以上の議論から、式（11）の積分内のＱ′（P,ω−
Ｐ）はにおいてだけ、０以外の値をもち、そのとき、 ∫Ｑ′（P,ω−Ｐ）Ｑ′（P,ω） ……（12）と近似できる。

そこで、Ｑ′（P,ω）を、ωがの近傍であるとみなして、によって代表すれば、の範囲では、式（11）のＩ（ω）は、次ので近似される。

この式（14）のＦ（ω−Ｐ）は定義式（８）により、であるから、と変形される。

は、式（４）と（10）の定義よりであるから、これらを式（15）に代入することにより、はさらに、となる。ところが、仮定により、とも、スペクトルがに帯域制限されているので、式（18）の右辺の積分は、の場合だけ、０以外の値をもつ。そして、式（18）のω
は、式（13）の仮定により、の近傍、つまり、であるとしているので、式（13）と（19）から、式（1
8）のｎに関する和は、ｎ＝ｍの項だけが残る。

式（20）の積分内の関数は、前述のように、に帯域制限されていると仮定しているため、式（20）の
τに関する積分は、サンプル間隔（Ｔ）の和で近似でき
る。

ところで、は音声スペクトルＩ（ω）の近傍における値として定義されたが、それ以外の周波数
範囲へも、周期関数として拡張することができる。

但し、ｌ＝0,±1,±2,…… これを図示したのが、第５図である。

こうして定義された周期関数はフーリエ級数展開により、と表わすことができる。ここで導入されたは、と逆変換によって求めることができる。

以上求めた式（21）と（22）を比較すれば、とファクトライズすることが分かる。この式（24）が求
める関係式である。

式（24）の左辺は、式（23）よりであるが、積分範囲において、であるから、式（23）は次式（25）で代用される。

以上まとめると、声道特性の時間的変化ｑ（t;τ）、
声帯音源の振幅の包絡強度ｅ（ｔ）がともにピッチ周期
Ｔ以内の時間で激しく変化しないこと、いいかえれば、
そのスペクトルがに帯域制限されていることを仮定すれば、入力音声信号
をｉ（ｔ）として、の手続きで結果が得られる。この手続きを示す式（26）
を図解したのが第６図である。得られた結果である式
（24）の意味するものは、「時間nTにおけるは、声帯振動スペクトルとそのときの音源強度及びその
ときの声道特性スペクトルの積である。」ということで
ある。このが入力音声信号ｉ（ｔ）の周波数スペクトルの時間的発
展SEP（t;_Ｐ・ｎ）である。但し、ここで、でする。

本実施例の概略は上述したようなものであるが、ここ
で、第１図に戻り、上述したような処理を行うための構
成を説明する。

第１図において、11は、入力音声信号ｉ（ｔ）をフー
リエ変換して周波数スペクトルを得るフーリエ変換部で
ある。

12は、入力音声信号ｉ（ｔ）のピッチ周波数（_Ｐ）
を検出するピッチ周波数検出部である。このピッチ周波
数検出部12は、例えばフーリエ変換部11の出力をケプス
トラム分析することにより、ピッチ周波数（_Ｐ）を検
出する。

13は、フーリエ変換部11から出力される周波数スペク
トルより、所定の周波数範囲（_Ａ）にあるスペクトル
を抽出するスペクトル抽出部である。ここで、所定の周
波数範囲（_Ａ）とは、ピッチ周波数検出部12で検出さ
れたピッチ周波数（_Ｐ）に基づいて次のように設定さ
れる。

但し、ｎは０または正の整数である。

14は、スペクトル抽出部13で抽出された周波数スペク
トルを逆にフーリエ変換することにより、周波数_Ｐ×
ｎにおける周波数スペクトルの時間発展SEP（t;_Ｐ）
を得る逆フーリエ変換部である。

第１図に示すようにブロック化される本実施例の音声
分析装置は、ハードウェア、ソフトウェアのいずれによ
っても実現できるものであるが、ここで、ソフトウェア
による場合を代表として、第１図の具体的な構成を実測
例を基に説明する。

第７図は、マイクロホンから入力される音声信号を50
μsecの間隔でサンプリングし、このサンプリング値を1
2ビットのアナログ／デジタルコンバータにより量子化
することにより得た音声試料を示すものである。但し、
第７図は実際上に得られた音声試料のうち、1638ポイン
ト分の試料だけを示す。また、話者は20代女性で、音韻
は母音“ア”である。さらに、第７図のフレームでは、
語頭部も含んでいる。

第８図は、上記音声試料の処理を示すフローチャート
である。この第８図において、ステップS₁では、量子化
された音声試料から予じめ定めたフレーム長分の音声試
料が取り出される。このフレーム中の音声試料をi_n（１
ｎＮ）とすると、次のステップS₂では、前処理とし
て、次式で示される差分をとる処理がなされる。

i_n←i_n−i_n-1 次に、この差分出力にステップS₃でハミング窓をかけ
た上で、ステップS₄でフーリエ変換（FFT）を施し、この変換結
果に従ってステップS₅で周波数スペクトルＩ（ω）を求
める。このようにして得られるスペクトルＩ（ω）の実
部と虚部をそれぞれIR_n，II_nとすると、これらはそれぞ
れ第９図、第10図に示すようなものとなる。但し、ｎはである。

以上が第１図に示すフーリエ変換部11の処理に対応す
る。また、ステップS₆，S₇では、ピッチ周波数検出部12
の処理がなされる。すなわち、ステップS₆では、フーリ
エ変換出力のケプストラム分析がなされ、次のステップ
S₇では、この分析結果に従って入力音声信号のピッチ周
期（いいかえればピッチ周波数_Ｐ）（Ｔ）が検出され
る。

以下、ステップS₈〜S₁₀では、第１図に示すスペクト
ル抽出部13、逆フーリエ変換部14の処理がなされる。つ
まり、周波数スペクトルＩ（ω）から１周期分をとり出
しては、逆フーリエ変換して、スペクトルＩ（ω）の時
間発展 SEP（t;_Ｐ・ｎ）を求めることが繰り返される。これ
をさらに詳しく説明すると、まず、ステップS₈では、ピ
ッチ周期（Ｔ）より大きな値Ｌを長さとする２つの領域 IMR_j，IMI_j（１ｊＬ）に対して、スペクトルIR_n，II_nのｎ×Ｍ番目前後のM/2
個のデータを移す処理がなされる。移す規則は、FFTア
ルゴリズムに対応するように、第11図に示すような規則
に従ってなされる。この後、ステップS₉でIMR,IMIの組
に対して逆フーリエ変換することにより、スペクトルの
時間発展が得られる。この処理は、１からN/2Mまでのｍについて
行われる。

なお、スペクトルの直流成分は、ｍ＝０の場合に対応するが、始めに音声試料を差分
したので、ここでは、を０と考えて無視した。

第12図は、こうして得られたスペクトルの時間発展SE
P（mT;_Ｐ・ｎ）の絶対値の対数を示すものである。

以上詳述したこの実施例によれば、次のような効果が
ある。すなわち、従来のケプストラム解析、ARモデルに
よる音声分析では、入力音声信号のうち、解析フレーム
中の平均的スペクトルしか得ることができなかったのに
対し、この実施例では、解析フレーム中のスペクトルの
時間的発展を抽出することができるので、スペクトルの
急激な変化も安定にかつ精度良く抽出することができ
る。

また、得られたスペクトルの時間発展SEP（t;
_Ｐｎ）は式（24）に示すように明確な意味をもち、解析
中に人為的なパラメータ（例えばARモデルにおける分析
次数、ケプストラム分析におけるカットオフケフレンシ
ーなど）が含まれないので、信頼性が高い。

第13図はこの発明の他の実施例の構成を示すブロック
図である。なお、第13図において、先の第１図と同一部
には同一符号を付し、詳細な説明を省略する。

この実施例では、逆フーリエ変換部14の出力は、絶対
値部15に与えられる。絶対値部15は入力信号の絶対値を
とり、平滑化部16に与える。平滑化部16は、入力信号の
時間軸上での移動平均をとることで、入力信号を平滑化
する。そして、この平滑出力を対数化部17に与え、その
対数をとるようにしたものである。

上記構成によれば、次のような効果がある。すなわ
ち、無音部分や子音部分を含むフレームから得られたス
ペクトルの時間発展は多くのノイズを含むため、これを
そのまま使用することは問題がある。しかし、本実施例
のように、逆フーリエ変換部14から得られるスペクトル
の時間発展SEP（mT;_Ｐ・ｎ）を、一旦平滑する構成に
よれば、上記ノイズの影響を軽減でき、高品質な時間発
展出力を得ることができる。

第14図、第15図はそれぞれ、子音“カ”の立上がり部
分について、平滑化した場合と平滑化しない場合の時間
発展を示すものである。これら２つの図を比較すると、
平滑化を施した第14図の方が、平滑化を施さない第15図
より、大幅にノイズの影響が軽減されていることがわか
る。なお、第14図では、以下に示すように、単純に３点
の平均をとることにより、移動平均を求めている。

【図面の簡単な説明】

第１図は一実施例の構成を示すブロック図、第２図乃至
第６図は一実施例の概略を説明するための図、第７図は
一実施例の実測例を説明するための波形図、第８図は一
実施例の実測例の処理を説明するためのフローチャー
ト、第９図、第10図は一実施例の実測例を説明するため
のスペクトル図、第11図は第８図の一部の処理を説明す
るための図、第12図は一実施例の実測例を説明するため
のスペクトル図、第13図はこの発明の他の実施例の構成
を示すブロック図、第14図、第15図は第13図の効果を説
明するためのスペクトル図である。 11……フーリエ変換部、12……ピッチ周波数検出部、13
……スペクトル抽出部、14……逆フーリエ変換部、15…
…絶対値部、16……平滑部、17……対数化部。

Claims

(57)【特許請求の範囲】

【請求項１】入力音声信号をフーリエ変換して周波数ス
ペクトルを得るフーリエ変換手段と、上記入力音声信号のピッチ周波数を検出するピッチ周波
数検出手段と、上記フーリエ変換手段の変換出力から上記ピッチ周波数
検出手段で検出されたピッチ周波数によって規定される
周波数範囲（fA） fP・（ｎ−（fP/2））＜fA＜fP・（ｎ＋（fP/2））但し、fP:ピッチ周波数 n:0または正の整数の周波数スペクトルを抽出するスペクトル抽出手段と、このスペクトル抽出手段の抽出出力を逆フーリエ変換す
ることにより、周波数fP・ｎの周波数スペクトルの時間
軸方向の変化を求める逆フーリエ変換手段とを具備した
ことを特徴とする音声分析装置。
【請求項２】上記ピッチ周波数検出手段は、上記入力音声信号をフーリエ変換して周波数スペクトル
を得るフーリエ変換手段と、このフーリエ変換手段の変換出力をケプストラム解析す
ることにより、ピッチ周波数を得るケプストラム解析手
段とを具備したことを特徴とする特許請求の範囲第１項
記載の音声分析装置。
【請求項３】入力音声信号をフーリエ変換して周波数ス
ペクトルを得るフーリエ変換手段と、上記入力音声信号のピッチ周波数を検出するピッチ周波
数検出手段と、上記フーリエ変換手段の変換出力から上記ピッチ周波数
検出手段で検出されたピッチ周波数によって規定される
周波数範囲（fA） fP・（ｎ−（fP/2））＜fA＜fP・（ｎ＋（fP/2））但し、fP:ピッチ周波数 n:0または正の整数の周波数スペクトルを抽出するスペクトル抽出手段と、このスペクトル抽出手段の抽出出力を逆フーリエ変換す
ることにより、周波数fP・ｎの周波数スペクトルの時間
軸方向の変化を求める逆フーリエ変換手段と、この逆フーリエ変換手段の変換出力を平滑する平滑手段
とを具備したことを特徴とする音声分析装置。
【請求項４】上記ピッチ周波数検出手段は、上記入力音声信号をフーリエ変換して周波数スペクトル
を得るフーリエ変換手段と、このフーリエ変換手段の変換出力をケプストラム解析す
ることにより、ピッチ周波数を得るケプストラム解析手
段とを具備したことを特徴とする特許請求の範囲第３項
記載の音声分析装置。