JPH04116700A

JPH04116700A - 音声分析・合成装置

Info

Publication number: JPH04116700A
Application number: JP2237545A
Authority: JP
Inventors: Katsushi Seza; 瀬座　勝志; Hirohisa Tazaki; 裕久田崎; Kunio Nakajima; 中島　邦男
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1990-09-07
Filing date: 1990-09-07
Publication date: 1992-04-17
Anticipated expiration: 2013-12-24
Also published as: JP2841797B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、音声信号をデジタル伝送あるいは蓄積すると
きに用いる音声分析・合成装置の改良に関するものであ
る。

［従来の技術］入力音声信号を低ビツトレートで符号化する方法として
、一定時間の分析フレーム（以下、フレームと略す）毎
にスペクトル包絡分析して得られる音声合成フィルタを
、有声音の場合はピッチ周期間隔のインパルス列、無声
音の場合は白色雑音て駆動するボコーダ方式か知られて
おり、例えば“ディジタル音声処理”古井貞煕著　ｐｐ
、５５、図４．１４、東海大学出版会、１９８５年９月
２５日により報告されている。

第３図および第４図は、上記文献と同様の構成を表す図
であり、第３図は分析部を、第４図は合成部を表す。第
３図において、（１）は入力音声信号、（２）はこの入
力音声信号（１）からスペクトル包絡を表すパラメータ
を求めるスペクトル包絡分析手段、（３）はこのスペク
トル包絡分析手段（２）により出力されるスペクトル包
絡パラメータ、（２２）は入力音声信号（１）のフレー
ムのピッチ周期を求めるピッチ周期抽出手段、（２３）
はこのピッチ周期抽出手段（２２）によって求められた
ピッチ周期、（２４）は入力音声信号（１）のフレーム
の有声・無声を判定する有声・無声判定手段、（２５）
はこの有声・無声判定手段（２４）の出力である有声・
無声情報でこれらにより分析部（１）を構成する。

第４図において、（２０）は音声の周波数的な特徴を付
与する音声合成フィルタ手段、（２１）はこの音声合成
フィルタ手段（２０）で合成された合成音声、（２６）
は上記ピッチ周期（２３）によりピッチ周期間隔のイン
パルス列を生成するインパルス列生成手段、（２７）は
このインパルス列生成手段（２６）の出力であるインパ
ルス列、（２８）は白色雑音生成手段、（２９）はこの
白色雑音生成手段（２８）の出力である白色雑音、（３
０）は上記有声・無声情報（２５）により上記音声合成
フィルタ手段（２０）に入力させる信号を上記インパル
ス列（２７）と上記白色雑音（２９）とに切り替える切
り替えスイッチでこれらにより合成部（ＩＩ）を構成す
る。

次に、従来装置の動作を説明する。

まず、分析部（Ｉ）について説明する。

スペクトル包絡分析手段（２）は、入力音声信号（１）
を入力とし、スペクトル包絡を表すパラメータを求め、
これをスペクトル包絡パラメータ（３）として出力する
。ピッチ周期抽出手段（２２）は、入力音声信号（１）
を入力とし、該フレームのピッチ周期を求め、これをピ
ッチ周期（２３）として出力する。有声・無声判別手段
（２４）は入力音声信号（１）を入力とし、該フレーム
の有声・無声判定を行いその結果を有声・無声情報（２
５）として出力する。

次に合成部（ＩＩ）を説明する。

切り替えスイッチ（３０）は、有声・無声情報（２５）
が有声音の場合はインパルス列生成手段（２６）に、無
声音の場合は白色雑音生成手段（２８）に接続される。

該フレームが有声音の場合、インパルス列生成手段（２
６）はピッチ周期（２３）を入力とし、ピッチ周期間隔
のインパルス列を生成し、これをインパルス列（２７）
として音声合成フィルタ手段（２０）に出力する。無声
音の場合、白色雑音生成手段（２８）は白色雑音を生成
し、これを白色雑音（２９）として音声合成フィルタ手
段（２０）に出力する。音声合成フィルタ手段（２０）
は、入力されたスペクトル包絡パラメータ（３）から該
当する音声合成フィルタを求め、該フレームが有声音の
場合インパルス列（２７）で、無声音の場合白色雑音（
２９）で、このフィルタを駆動して音声を合成し、これ
を合成音声（２１）として出力する。

［発明が解決しようとする課題］以上説明したように、従来装置では音声信号を有声音、
無声音の２つに分類し、有声音の場合ピッチ周期間隔の
インパルス列を、無声音の場合白色雑音を音声合成フィ
ルタ手段の駆動音源としている。このようにインパルス
列や白色雑音を単独で駆動音源とすると、有声音の立ち
上がりや立ち下がり、有声音から無声音の渡りの部分や
、声帯波雑音の多い話者の音声の場合には音声の過渡部
だけでなく定常母音部でも、合成音の音質が劣化するこ
とがあった。

本発明は上記課題の解消を行うものである。

［課題を解決するための手段］本発明の音声分析・合成装置は、分析部に入力音声信号
を複数の周波数帯域に分割し、各帯域に含まれる調波成
分と雑音成分の比率を求める帯域別雑音比推定手段と、
入力された音声信号から調波音源のパラメータを求め音
源パラメータとして出力する音源パラメータ抽出手段と
を備え、合成部に上記音源パラメータより調波音源を求
め出力する調波音源生成手段と、白色雑音を出力する白
色雑音生成手段と、各帯域毎に調波音源と白色雑音の振
幅比をその帯域の雑音振幅比に調整し、駆動音源として
出力する帯域別振幅調整手段を備えたものである。

［作用コ本発明における帯域別雑音比推定手段は、入力音声信号
を複数の周波数帯域に分割し、各帯域に含まれる調波成
分と雑音成分の振幅比を求め、帯域別雑音比として出力
し、音源パラメータ抽出手段は入力された音声信号から
調波音源のパラメータを求め音源パラメータとして出力
し、調波音源生成手段は音源パラメータより調波音源を
生成し、白色雑音生成手段は白色雑音を生成する。振幅
調整手段は、各帯域の調波成分と雑音成分の振幅比にし
たがって、前記調波音源と前記白色雑音の振幅を調整し
、これを重ね合わせたものを駆動音源とする。

「実施例〕（実施例１）以下、本発明の一実施例を第１図について説明する。

第１図は本発明の分析部（１）の一実施例を示す構成図
、第２図は本発明の合成部（ＩＩ）の一実施例を示す構
成図である。第１閣において、（１）は入力音声信号、
（２）はこの人力音声信号（１）の線形予測分析を行い
スペクトル包絡パラメータを求めるスペクトル包絡分析
手段、（３）はそのスペクトル包絡パラメータ、（４）
は上記スペクトル包絡分析手段（２）で線形予測分析に
よって求められた振幅、（５）は上記入力音声信号（１
）から音源パラメータを求める音源パラメータ抽出手段
、（６）はその音源パラメータ、（７）は上記入力音声
信号（１）の帯域毎に雑音成分の比率を求める帯域別雑
音比推定手段、（８）はその帯域別雑音比で、これらに
より分析部（１）を構成している。

第２図において、（９）は上記音源パラメータ（６）か
らインパルス列を生成し調波音源として出力する調波音
源生成手段、（１ｏ）はその調波音源、（１１）は白色
雑音生成手段、（１２）はこの白色雑音生成手段（１１
）で生成された白色雑音、（１３）は上記帯域別雑音比
（８）に対応する帯域毎に、上記調波音源（１ｏ）と上
記白色雑音（１２）の振幅比を上記帯域別雑音比（８）
に従って調整して駆動音源を求める帯域別振幅調整手段
で、振幅調整手段（１４）、帯域フィルタ（１６）、駆
動音源生成手段（１８）から構成される。なお（１５）
は振幅調整手段（１４）の出力である振幅調整音源、（
１７）は帯域フィルタ（１６）の出力である帯域別駆動
音源、（１９）は駆動音源生成手段（１８）の出力であ
る駆動音源である。（２０）は上記スペクトル包絡パラ
メータ（３）と駆動音源（１９）から音声を合成する音
声合成フィルタ手段、（２１）はその出力である合成音
声であり、これらにより合成部（ｎ）構成している。

以上のように構成された装置にあって、まず分析部（１
）の動作を説明する。

スペクトル包絡分析手段（２）では、スペクトル包絡を
分析する方法として、例えば、入力音声信号（１）の線
形予測分析を行い線形予測フィルタパラメータを求め、
これをスペクトル包絡パラメータ（３）として出力し、
また、入力音声信号（１）を線形予測逆フィルタリング
することにより得られる線形予測残差信号（以下、残差
信号と略す）の振幅を求め、これを振幅（４）として出
力する。音源パラメータ抽出手段（５）は、入力音声信
号（１）を入力とじ、音源パラメータとして、例えば、
ピッチ周期を求め、音源パラメータ（６）を出力する。

帯域別雑音比推定手段（７）は、入力音声信号（１）を
入力とし、有限Ｍ個の帯域毎に、音声信号に対する雑音
成分の比率を求め、これを帯域別雑音比（８）として出
力する。

帯域別雑音比（８）を推定する方法として例えば次の■
〜■の手順によるものがある。

■入力音声信号（１）を線形予測逆フィルタリングして
残差信号を求める。

■この残差信号にＮポイントのＤ　Ｆ　Ｔ　（Ｄｉｓｃ
ｒｅｔＦｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）をして、
対数パワースペクトルを求める。

■対数パワースペクトルを逆ＤＦＴして残差信号のケプ
ストラムを求める。

■次に残差信号のケプストラムについて、Ｋ次までの低
次のケプストラムとピッチ周期に相当する点の前後数ポ
イントのケプストラムのみを残しその他の成分を０とす
る、いわゆるリフタリング処理を行い、これをＤＦＴす
ることで周波数領域での推定調波成分を求める。

■この推定調波成分と対数パワースペクトルとの差を有
限Ｍ個の帯域毎に求め、これを帯域別雑音比（ｇ　（ｍ
）：ｍ＝１、Ｍ）とする。

合成部（ＩＩ）では、調波音源生成手段（９）に、音源
パラメータ（６）か入力され、ピッチ周期間隔のインパ
ルス列を生成し、これを調波音源（１０）として出力す
る。又、白色雑音生成手段（１１）は、白色雑音を生成
し、これを白色雑音（１２）として出力する。帯域別振
幅調整手段（１３）には、まず振幅調整手段（１４）に
振幅（４）、帯域別雑音比（８）、調波音源（１０）、
白色雑音（１２）が入力される。振幅調整手段（１４）
は、Ｍ個の帯域別雑音比ｇ　（ｍ）（ｍ＝１、Ｍ）を用
いて、調波音源（１０）と白色雑音（１２）の振幅比が
１−ｇ（ｍ）対ｇ　（ｍ）となるように調整したＭ個の
振幅調整音源を生成し、振幅調整音源（１５）として出
力する。帯域フィルタ（１６）は、帯域別雑音比推定手
段（７）で設定した各周波数帯域を通過域とするＭ個の
バンドパスフィルタで構成され、入力されたＭ個の振幅
調整音源（１５）に、各々の対応する周波数帯域を通過
域とするフィルタリングを行い、Ｍ個の帯域別駆動音源
を求め、これを帯域別駆動音源（１７）として出力する
。駆動音源生成手段（１８）は入力されたＭ個の帯域別
駆動音源（１７）を重ね合わせることにより駆動音源を
求め、これを駆動音源（１９）として出力する。音声合
成フィルタ手段（２０）は、帯域別振幅調整手段（１３
）より入力された駆動音源（１９）で、スペクトル包絡
パラメータ（３）より計算される音声合成フィルタを駆
動して音声を合成し、これを合成音声（２１）として出
力する。

（実施例２）上記実施例では、調波成分を表す音源として、ピッチ周
期間隔のインパルス列を用いたが、声帯波形を近似した
モデル等を使用し、そのモデルのパラメータを用いるこ
とも可能である。

［発明の効果コ本発明によれば、入力音声信号を有限Ｍ個に帯域分割し
、各周波数帯域毎に調波成分と雑音成分の振幅比を求め
、各帯域における調波音源と白色雑音の振幅をその振幅
比に調整したので、原音声に含まれる調波成分と雑音成
分の混在している状態を精度よく表すことができインパ
ルス列や白色雑音を単独で駆動音源とすると合成音声の
音質が劣化する有声音の立ち上がりや立ち下がり、有声
音から無声音への渡りの部分や、声帯波雑音の多い話者
の音声等において、合成音声の音質が向上する効果を有
する。

【図面の簡単な説明】

第１図は本発明の分析部の一実施例を表す構成図、第２
図は本発明の合成部の一実施例を表す構成図、第３図は
従来のボコーダ方式による音声分析部の構成図、第４図
は従来のボコーダ方式による音声合成部の構成図である
。図中、（１）は入力音声信号、（２）はスペクトル包絡
分析手段、（３）はスペクトル包絡パラメータ、（４）
は振幅、（５）は音源パラメータ抽出手段、（６）は音
源パラメータ、（７）は帯域別雑音比推定手段、（８）
は帯域別雑音比、（９）は調波音源生成手段、（１０）
は調波音源、（１１）は白色雑音生成手段、（１２）は
白色雑音、（１３）は帯域別振幅調整手段、（１４）は
振幅調整手段、（１５）は振幅調整音源、（１６）は帯
域フィルタ、（１７）は帯域別駆動音源、（１８）は駆
動音源生成手段、（１９）は駆動音源、（２０）は音声
合成フィルタ手段、（２１）は合成音声、（２２）はピ
ッチ周期抽出手段、（２３）はピッチ周期、（２４）は
有声・無声判定手段、（２５）は有声・無声情報、（２
６）はインパルス列生成手段、（２７）はインパルス列
、（２８）は白色雑音生成手段、（２９）は白色雑音、
（３０）は切り替えスイッチである。なお、図中同一符号は同一または相当部分を示す。

Claims

【特許請求の範囲】

　音声信号をスペクトル包絡情報を表すパラメータと音
源信号に分離する分析部と、この分析部で分離されたス
ペクトル包絡情報を表すパラメータと音源信号により音
声合成を行う合成部とからなる音声分析・合成装置にお
いて、分析部に、入力音声信号からスペクトル包絡情報
を表すパラメータを求めるスペクトル包絡分析手段と、
入力音声信号を有限Ｍ個の周波数帯域に分割し、各周波
数帯域に含まれる雑音成分の比率を求め、帯域別雑音比
として出力する帯域別雑音比推定手段と、入力された音
声信号から調波音源のパラメータを求め音源パラメータ
として出力する音源パラメータ抽出手段を備え、合成部
に、この音源パラメータ抽出手段から出力された音源パ
ラメータより調波音源を求める調波音源生成手段と、白
色雑音を出力する白色雑音生成手段と、各周波数帯域毎
に、前記調波音源生成手段から出力される調波音源と前
記白色雑音生成手段より出力される白色雑音の振幅比を
前記帯域別雑音比推定手段より出力される帯域別雑音比
に従って調整して駆動音源を求める帯域別振幅調整手段
と、この帯域別振幅調整手段より出力される駆動音源で
前記スペクトル包絡情報より求められる音声合成フィル
タを駆動して音声を合成する音声合成フィルタ手段を備
えることを特徴とした音声分析・合成装置。