JPS5936279B2

JPS5936279B2 - 音声分析処理方式

Info

Publication number: JPS5936279B2
Application number: JP20479982A
Authority: JP
Inventors: ヒネク・ヘルマンスキー; 泰雄佐藤; 忠靖杉田; 博也藤崎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-11-22
Filing date: 1982-11-22
Publication date: 1984-09-03
Also published as: JPS5994796A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は、線形予測にもとづく音声分析処理方式に関し
、特に音声のスペクトル包絡を、標本化と補間により近
似することにより、精度が高くノイズにも強い分析結果
を得ることのできる音声分析処理方式に関する。

〔技術の背景〕

音声合成や音声認識に用いる音声波形の情報圧縮パラメ
ータとして、音声波形の標本値間の相関にもとずく線形
予測理論にしたがつて抽出した線形予測係数ないし偏自
己相関係数を使用する音声分析方式は、従来から多くの
用途に広く利用されている。

しかし、この方式は、ノイズやピッチ周波数変動に影響
され易く、誤差を生じ易い欠点があつた。一般に線形予
測係数α（ｎ）は、まず音声波形Ｓ（ｎ）をフーリエ変
換してＦ（ｉを求め、これからパワー・スペクトルｐ
（ω）−ＩＦ（ω）１２をを計算し、更にこれを逆フー
リエ変換して自己相関係数Ｒ（ｎ）を求め、この自己相
関係数Ｒ（ｎ）から抽出されているが、本発明者は、先
に特願昭５７−５０４３１において、パワー・スペクト
ルの包絡をパワー・スペクトルの各ピーク値により標
本化し、これらピーク値によるパワー・スペクトル包絡
情報をフーリエ逆変換するようにして、ノイズやピッチ
周波数変動の影響を軽減した改良方式を提案している。

〔発明の目的および構成〕本発明の目的は、ノイズやピ
ツチ周波数変動の影響が少く、かつフオルマント推定精
度の高い線形予測にもとづく音声分析処理方式を提供す
ることにあり、特に、前記した先行出願の発明を更に改
良して、より性能のよい線形予測係数ないし偏自己相関
係数などか得られる音声分析処理方式を提供することに
ある。

本発明は、そのための手段としてパワー・スベクトル包
絡を標本化し、その各点間を直線あるいは２次曲線によ
り補間して連続スペクトル化し、従来方式よりも包絡情
報の精度を高めるものであり、その構成として、入力音
声信号中の有声部に対して該音声部のパワースペクト
ルを算出し、該パワー・スペクトルの包絡をもつとも
よく表現する個々の高調波成分の振幅をまず検出し、つ
ぎに隣り何う高調波成分の振幅間を補間することによつ
て、より密なスペクトル包絡を求めたのち、該スペクト
ル包絡を逆フーリエ変換して自己相関係数を算出し、該
自己相関係数から線形予測係数ないし偏自己相関係数な
どを算出することを特徴とする。

〔発明の実施例〕

以下、本発明実施例を図面にしたがつて詳述する。

第１図乃至第４図は本発明の前提技術を説明するための
図であり、第５乃至第１０図が本発明実施例を説明する
ための図である。

第１図は、従来の線形予測分析方式の構成例を示す図で
ある。

第１図において、１はフーリエ変換部、２はフーリエ逆
変換部、３は線形予測演算部、Ｓ（ｎ）は入力音声信号
、Ｐ（ωノはパワー・スペクトル、Ｒ（ｎ）は自己相
関係数、α（ｎ）／Ｋ（ｎ）は線形予測係数ないし偏
自己相関係数などを表わしている。

従来から線形予測係数ないし偏自己相関係数α（ｎ）／
Ｋ（ｎ）を得るに当つて、第１図図示の如き構成が採用
され、入力音声信号Ｓ（ｎ）についてフーリエ変換部１
によつてフーリエ変換を行い例えば２乗するなどしてパ
ワー・スペクトルｐ（一を抽出する。

該パワー・スペクトルは、第３図においてパワー・ス
ペクトルＰ（一の対数値をとつて１０ｇＰ（一として示
す如く、ピツチ周波数に対応した凹凸をもつものである
と考えてよい。従来、該パワー・スペクトルＰ（ω）に
もとづいて、フーリエ逆変換部２によつて、自己相関係
数Ｒ（ｎ）を算出し、そして線形予測演算部３によつて
線形予測係数ないし偏自己相関係数α（ｎｌ／Ｋ（ｎ
）を抽出するようにしていた。

第２図は前記先行発明の一構成例を示しており、図中の
符号１，２，３は第１図に対応し、４はピツチ周波数抽
出部、５はパワー・スペクトル包絡情報抽出部を表わし
ている。

またΦ（ω）はパワー・スペクトル包絡情報、Ｒ’（
ｎ）は本発明において得られる自己相関係数、α’（ｎ
）／Ｋ’（ｎ）は改良線形予測係数ないし改良偏自己
相関係数を表わす。本構成の場合には、第２図において
入力信号Ｓ（ｎ）からピツチ周波数を抽出するなどして
、フーリエ変換部１を介して得られているパワー・ス
ペクトルｐ（ω）について、第３図図示＋印の如き点に
対応するパワー・スペクトル情報を抽出し、該抽出さ
れたパワー・スペクトル情報やフーリエ逆変換部２へ
入力するようにされる。

上記＋印の如き点に対応するパワー・スペクトル情報を
本構成においてはパワー・スペクトル包絡情報全（ω
）と呼んでいる。そして上記＋印の点以外のパワー・
スペクトルの値を値゛ｏ’’としてフーリエ逆変換部２
へ入力するようにする。勿論、十印の点のみの値をフー
リエ逆変換部２へ入力してもよい。上記＋印の点は、フ
ーリエ変換部１を介して得られたパワー・スペクトル
ｐ（ω）におけるピーク点に対応しているものと考えて
よく、第２図図示の場合には、入力音声信号Ｓ（ｎ）か
ら図示ピツチ周波数抽出部４によつてピッチ周波数を抽
出し、該ピツチ周波数できまる周期の整数倍（ｌ倍を含
む）の周期でサンプリングする点で与えられる。

しかし、上記パワー・スペクトル包絡情報ヤ（ω俺得
る手段については任意である。上記パワー・スペクト
ル包絡情報Φ（ω坤Ｓ第２図図示の如くフーリエ逆変換
部２に入力されかつ得られた出力Ｒ’（ｎ）が線形予測
演算部３に入力されることによつて、改良された線形予
測係数ないし改良偏自己相関係数ｄ（ｎ）／Ｋ’（ｎ
）が抽出される。

第４図は、上述した第２図の先行発明の構成によつて得
られた改良線形予測係数ないし改良偏自己相関係数を用
いることによる効果を説明する説明図を示している。曲
線Ａは第２図の構成による改良線形予測係数ないし改良
偏自己相関係数を用いた場合に対応し、曲線Ｂは第１図
の構成において得られた線形予測係数ないし偏自己相関
係数を用いた場合に対応している。なお横軸はＳ／Ｎ比
（ＤＢ）を表わし、縦軸はノイズ混入により変動したス
ペクトルと基準のスペクトルとの間の誤差距離について
対数をとつた値（ＤＢ）を表わしている。第４図の曲線
Ａは、Ｓ／Ｎを小さくしたとき、すなわちノイズ混入率
を高くしたとき、曲線Ｂよりはスペクトル変動量が小さ
いことを示しており、これより第２図の方式は、第１図
の方式とくらべて、ノイズに対して性能的に改善されて
いることがわかる。第５図は、本発明によるスペクトル
包絡補間の１実施例の説明図であり、単純な直線補間に
よる方式を示す。

同図において、６はパワー・スペクトル、１は高調波
ピーク、８は隣り合つた２つのピークを結ぶ直線補間線
、９は線形予測ＬＰによる近似線を示す。第６図は、本
発明によるスペクトル包絡補間方式の他の実施例の説明
図であり、第５図の直線補間方式よりも近似特性のよい
２次曲線を用いた補間方式を示す。

同図において、ＰＫ−１，ＰＫ，ＰＫｆ．，ＰＫ．ｆ，
２は、相連なる高調波ピーク点であり、それぞれ座標（
ＸＫ−、，ＹＫ−１）、（ＸＫ，ｙＫ）・（ＸＫ＋１，
ｙＫ＋１）、（ＸＫ＋２，ｙＫ→２）をもつている
。またＬＫ−，は、ＰＫ−１，ＰＫ，ＰＫ＋，の３点を
通る２次曲線を表わし、ＬＫは、次に続くＰＫ，ＰＫ＋
１，ＰＫ＋２の３点を通る２次曲線を表わす。２次曲線
ＬＫ−１，ＬＫは、ビーク点ＰＫおよびＰＫ＋，を共有
する。

ＬＩ（’は、２次曲線ＬＫ−１およびＬＫを、ピーク点
ＰＫおよびＰＫ＋ｌ間で平均した平均２次曲線であり、
これを各ピーク点の相続く２点間で求め、補間線として
使用する。２点間を補間する平均２次曲線の公式は、（
ＸＫ，ｙｋ）、（ＸＫ＋１，ｙＫ＋１）、（ＸＫ＋２１
ｙＫ＋２）の３点を通る２次曲線の係数をＡＫ，ｂＫ，
ｃＫとするとき、（ＸＫ，ｙＫ）および（ＸＫ＋１，ｙ
Ｋ＋１）の間の区間において、で表わされる。

第Ｔ図は、第５図あるいは第６図のスペクトル包絡補間
を適用したＥＩＬＰ（ＥｎｖｅｌＯｐｅＩｎｔｅｒト０
１ａｔｉ０ｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ）音声
分析処理システムのｌ実施例のプロツク図である。

同図において、１乃至５は第２図で説明した先行発明の
構成要素に対応するものである。そして、１０は本発明
によるスペクトル包絡補間部である。スペクトル包絡補
間部１０は、パワー・スペクトル包絡情報抽出部５か
らの、高調波ピーク点からなるパワースペクトル包絡情
報貨ω）にもとづいて、たとえば第６図で説明したよう
に平均２次曲線Ｌ１！？を算出し、補間パワー・スペ
クトル包絡情報介Ｉ（ω）を出力する。

逆フーリエ変換部２は、補間パワー・スペクトル包絡
情報ＰＩ（ω）にもとづいて自己相関係数Ｒ（Ｎｙ’を
生成し、線形予測演算部３は、それにより線形予測係数
α（ＮＹ’／Ｋ（ＮＹ’を算出する。

このようにして求められた線形予測係数α（ｎ）″／
Ｋ（ｎΥ′は、第２図の先行発明の方式により得られる
線形予測係数α（ｎ）’／Ｋ（Ｎｙにくらべて、パワ
ー・スペクトル包絡をより良好に近似するものとなつ
ている。第８図は、本発明の更に他の実施例のＥＩＴＬ
Ｐ（ＥｎｖｅｌＯｐｅＩｎｔｅｒｐＯｌＯｔｉＯｎａｎ
ｄＴｒａｎｓｆＯｒｍＬｉｎｅａｒＰｒｅｄｉｃｔｉｖ
ｅ）システムのプロツク図である。

本実施例は、フオルマントのピークがピツチ周波数と一
致して、パワースペクトルがピツチ周波数の強い影響を
受け、異音を生じる場合があるのを改善するため、更に
パワースペクトルの振幅を圧縮変換する手段をそなえて
いるものである。これにより、パワー・スペクトルの
高レベルのピークが線形予測係数算出に及ほす影響は弱
められ、逆に、低レベルのピークが線形予測係数算出に
及ぼす影響は強められる。第８図において、１１は時間
窓処理部、１２はフーリエ変換部、１３は包絡標本抽出
部、１４はスペクトル包絡補間部、１５はスペクトル変
換部、１６は逆フーリエ変換部、１？は線形予測演算部
、１８は逆スペクトル変換部、１９は逆フーリエ変換部
、２０は線形予測演算部を示す。

また、Ｓ（ｎ）は分析される音声波形信号、Ｓｗ（ｎ）
は短時間スペクトル分析のための窓処理を受けた信号、
Ｐ（ω）は信号の原スペクトル、ＦＯは信号の基本周波
数（ピツチ）、Ｐｓ（ω）は信号の包絡標本化スペクト
ルＰＩ（ω）は信号の補間スペクトル、ＰＴ（ω）は信
号スペクトルの振幅変換された補間スペクトル、Ｒ（ｎ
）は振幅変換された補間スペクトルの自己相関関数、ヤ
Ｔ（ω）は振幅変換された補間スペクトルに対するＬＰ
スペクトル近似、Ｐ（ω）は補間されたスペクトルに対
するスペクトル近似、Ｒ’（ｎ）はｐ（ωｐ自己相関関
数、ＰＬｐ（一は補間されたスペクトルに対するＬＰス
ペクトル近似を表わしている。

スペクトル包絡補間部１４は、本発明による、たとえば
第６図に示す平均２次曲線による補間処理を行う。

スペクトル変換部１５は、パワー・スペクトルＰＩ（
一に対して、振幅を圧縮あるいは伸長する適当な変換を
行う。

たとえば、本実施例では、なる変換を行う。γの値は予
め定められ、ｏ＜γ＜１，１＜γ，−１＜γ＜０，γ＜
−ｌのそれぞれの場合にしたがつて、ＰＩ（ω”こつい
て圧縮、伸長、圧縮／逆数、伸長／逆数の処理を行う。
線形予測演算部ＩＴは、Ｒ（ｎ）から線形予測を求め更
にスペクトル包絡ＰＴ（一に変換する。

変換処理の逆変換処理Λ ．を行う。

逆フーリエ変換部１９は、このヤ（ω）を自己相関係数
Ｒ’（ｎ）に変換し、線形予測演算部２０は最終的にス
ペクトル包絡全Ｌｐ（ω）を生成する。第９図および第
１０図は、本発明実施例の効果を説明するための図であ
り、横軸はＳ／Ｎ（ＤＢ）、縦軸は第１フオルマントの
相対誤差〔％〕を表わす。また△で示す曲線は従来の単
純なＬＰ方式、○で示す曲線はスペクトル振幅変換を行
つたＳＴＬＰ方式、▲で示す曲線は標本化および補間を
行つた第Ｔ図の実施例のＥＩＬＰ方式、●で示す曲線は
、標本化、補間およびスペクトル振幅変換を行つた第８
図の実施例のＥＩＴＬＰ方式の、Ｓ／Ｎに対する相対誤
差特性を示す。第９図は基本周波数Ｆ，とフオルマント
周波数ＦＯとの比がＦ，／ＦＯ二２．５の場合、そして
第１０図はＦ，／ＦＯ二１．７５の場合を示す。

これらの図から、ＥＩＬＰおよびＥＩＴＬＰの各方式が
、Ｓ／Ｎの小さい領域でＬＰ方式よりも良好な特性を示
し、またそれがＦｌ／ＦＯの違いによつて大きく変らな
いことがわかる。〔発明の効果〕以上述べたように、本発明によれば、ノイズ混入率の大
きい信号波形に対しても良い精度で線形予測分析を行う
ことができ、またヒーツチ周波数の違いによりフオルマ
ント周波数が受ける影響を軽減することができる。

【図面の簡単な説明】

第１図および第２図は本発明の前提技術の従来方式の構
図、第３図はスペクトル包絡情報の説明図、第４図は第
２図に示す従来方式の効果を示す図、第５図は本発明に
おける補間方式の１例の説明図、第６図は他の補間方式
の説明図、第Ｔ図は本発明のｌ実施例システムの構成図
、第８図は他の実施例システムの構成図、第９図および
第１０図は本発明の効果を示す図である。図中、１はフーリエ変換部、２はフーリエ逆変換部、３
は線形予測演算部、４はピツチ周波数抽出部、５はパワ
ー・スペクトル包絡情報抽出部、１０はスペクトル包絡
補間部を示す。

Claims

【特許請求の範囲】１入力音声信号中の有声部に対して、該音声部のパワ
ースペクトルを算出し、該パワースペクトルの包絡をも
つともよく表現する個々の高調波成分の振幅をまず検出
し、つぎに隣り合う高調波成分の振幅間を補間すること
によつて、より密なスペクトル包絡を求めたのち、該ス
ペクトル包絡を逆フーリエ変換して自己相関係数を算出
し、該自己相関係数から線形予測係数ないし偏自己相関
係数などを算出することを特徴とする音声分析処理方式
。２前記第１項において、音声部のパワースペクトルの
隣り合う高調波成分の振幅間の線形補間することを特徴
とする音声分析処理方式。３前記第１項において、音声部のパワー・スペクトル
の相連なる３点の高調波成分の各点を通る２次曲線を求
め、次に隣り合う２点の高調波成分間の２種の２次曲線
から平均２次曲線を求め、該平均２次曲線を用いて隣り
合う２点の高周波成分間を補間することを特徴とする音
声分析処理方式。