JPH07104791A

JPH07104791A - 声質制御型音声合成装置

Info

Publication number: JPH07104791A
Application number: JP5247828A
Authority: JP
Inventors: Naoto Iwahashi; 直人岩橋; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1993-10-04
Filing date: 1993-10-04
Publication date: 1995-04-21
Anticipated expiration: 2014-09-20
Also published as: JP2951514B2

Abstract

(57)【要約】【目的】従来例に比較して非常に簡単な構成を有し、
しかもより高い自由度を有して入力された音声に対して
声質制御した後の音声を合成することができる音声合成
装置を提供する。【構成】複数の話者の音声スペクトルのデータを予め
記憶する記憶装置と、記憶装置から複数の話者の音声ス
ペクトルのデータを読み出し、所定の補間比率を用いて
上記複数の話者の音声スペクトルのデータに対して内挿
処理を実行して所定の声質を有する音声スペクトルのデ
ータを出力する処理回路と、処理回路から出力される音
声スペクトルのデータに基づいて音声を合成して出力す
る音声合成回路とを備える。さらに、ターゲット話者の
音声に基づいて音声スペクトルのデータを抽出し、抽出
された音声スペクトルのデータが処理回路から出力され
る音声スペクトルのデータに近似するように補間比率を
演算して設定する演算回路とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、声質を制御して音声合
成することができる声質制御型音声合成装置に関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】男性の
声から女性の声に又は女性の声から男性の声に変換する
方法（以下、第１の従来例という。）が、例えば、箱田
和雄，“極制御による男女声変換法の検討”，日本音響
学会講演論文集，２−６−１３，ｐｐ２１３−２１４，
昭和６２年１０月に開示されている。この第１の従来例
においては、ＬＰＣ分析で得られる極周波数を用いて、
母音情報の代わりに極周波数値を用いて極の変換を行う
とともに、変換に伴うスペクトルの傾きの変動を２次の
フィルタを用いて吸収する方法を提案している。しかし
ながら、男性の声から女性の声に又は女性の声から男性
の声への変換のみで、例えば男性から男性への変換で、
異なる個人性を有する音声を発生することはできない。

【０００３】また、アナウンサーなどの明瞭は音声の物
理的特性の１つとして、ホルマント周波数のダイナミッ
クな変動に着目し、特に声の明瞭性を改善するために、
ホルマント周波数の時間変化を制御する方法（以下、第
２の従来例という。）が、例えば、都木徹，桑原尚夫，
“ホルマント変化の強調・抑圧による声質制御”，日本
音響学会講演論文集，１−４−１２，ｐｐ１４５−１４
６，昭和６１年１０月に開示されている。この第２の従
来例は、次のステップを有する。（ａ）所定の標本化周波数でＤ／Ａ変換した音声信号
を、所定のフレーム幅、フレーム周期、及び男女で異な
る分析次数で線形予測分析し、予測係数との残差を計算
する。（ｂ）各フレーム毎に予測係数からホルマント周波数を
算出し、従来の粕谷の方法（“線形予測分析法で得られ
る極周波数からのホルマント周波数選択アルゴリズ
ム”，電子通信学会論文誌，Ｖｏｌ．Ｊ６６−Ａ，Ｎ
ｏ．１１，ｐｐ．１１４４−１１４５，１９８３年１１
月参照。）により、母音部の第１乃至第３ホルマントの
軌跡を求める。（ｃ）得られたホルマント軌跡に対して、ある音声のホ
ルマント周波数の時間変化を示す所定の式に適用し、各
フレーム毎に新たなホルマント軌跡を求め、その値から
合成に用いる予測係数を算出する。なお、ここで、第４
以上のホルマント及び無声音部、有声子音部は変更しな
い。（ｄ）新たな予測係数と最初に求めた残差から合成音を
発生する。この第２の従来例においては、ホルマント周波数のダイ
ナミックスを強調又は抑制するのみなので、声の明瞭性
を改善することはできるが、第１の従来例と同様に、異
なる個人性を有する音声を発生することはできず、声質
制御の自由度が小さいという問題点があった。

【０００４】さらに、ある特定話者からターゲット話者
への声質の変換方法（以下、第３の従来例という。）
が、M.Abe et al.,“Voice Conversion through vector
quantization",Proc.ICASSP'88,pp.655-658,1988年に
開示されている。この第３の従来例においては、いわゆ
るコードベクトル・マッピング手法に基づいて特徴パラ
メータのベクトル量を制御し、これらのマッピングは音
声スペクトルに対する適切な拘束なしに学習データから
計算されていたために、ターゲット話者への適切なマッ
ピング関数を求めるときに、ターゲット話者による大量
の発声データを必要とし、極めて大きな記憶装置を設け
る必要があるという問題点があった。

【０００５】本発明の目的は以上の問題点を解決し、従
来例に比較して非常に簡単な構成を有し、しかもより高
い自由度を有して声質制御して音声合成することができ
る音声合成装置を提供することにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の声質制御型音声合成装置は、複数の話者の音声スペ
クトルのデータを予め記憶する記憶手段と、上記記憶手
段から複数の話者の音声スペクトルのデータを読み出
し、所定の補間比率を用いて上記複数の話者の音声スペ
クトルのデータに対して内挿処理を実行して所定の声質
を有する音声スペクトルのデータを出力する処理手段
と、上記処理手段から出力される音声スペクトルのデー
タに基づいて音声を合成して出力する音声合成手段とを
備えたことを特徴とする。

【０００７】また、請求項２記載の声質制御型音声合成
装置は、請求項１記載の声質制御型音声合成装置におい
て、さらに、ターゲット話者の音声に基づいて音声スペ
クトルのデータを抽出する特徴抽出手段と、上記特徴抽
出手段によって抽出された音声スペクトルのデータが上
記処理手段から出力される音声スペクトルのデータに近
似するように上記補間比率を演算して上記処理手段に設
定する演算手段とを備えたことを特徴とする。

【０００８】さらに、請求項３記載の声質制御型音声合
成装置は、請求項１記載の声質制御型音声合成装置にお
いて、さらに、上記補間比率を入力して上記処理手段に
設定する入力手段を備えたことを特徴とする。

【０００９】またさらに、請求項４記載の声質制御型音
声合成装置は、請求項１、２又は３記載の声質制御型音
声合成装置において、上記音声スペクトルのデータは、
ケプストラム係数又は対数面積比であることを特徴とす
る。

【００１０】

【作用】音声スペクトルを変更することにより、声質を
制御するためには、音声のスペクトル構造及びそのダイ
ナミックスに存在するある種の特徴を適切にモデル化
し、そのモデル化に基づいたスペクトルの制御を行うこ
とが望ましいと考えられる。しかしながら、音声スペク
トルのモデル化を直接に、声門運動や声道形状に基づい
て行った音声合成方式では、ホルマント合成で人手によ
る精密な制御を行った数例を除き、自動的な手段を用い
て高品質な合成音を発声させることはできていない。そ
こで、本発明者は、このような物理的モデルを直接的に
用いる代わりに複数の人数の音声スペクトルそのものを
ノン・パラメトリックな音声スペクトルモデルとみな
し、これをスペクトル制御の拘束条件として用いること
を考えた。新しい音声スペクトルは、以下に詳細後述す
るように、複数の人数の音声スペクトルを線形に内挿す
ることで求める。

【００１１】請求項１記載の声質制御型音声合成装置に
おいては、上記処理手段は、上記記憶手段から複数の話
者の音声スペクトルのデータを読み出し、所定の補間比
率を用いて上記複数の話者の音声スペクトルのデータに
対して内挿処理を実行して所定の声質を有する音声スペ
クトルのデータを出力し、次いで、上記音声合成手段
は、上記処理手段から出力される音声スペクトルのデー
タに基づいて音声を合成して出力する。

【００１２】また、請求項２記載の声質制御型音声合成
装置においては、請求項１記載の声質制御型音声合成装
置において、さらに、上記特徴抽出手段は、ターゲット
話者の音声に基づいて音声スペクトルのデータを抽出
し、上記演算手段は、上記特徴抽出手段によって抽出さ
れた音声スペクトルのデータが上記処理手段から出力さ
れる音声スペクトルのデータに近似するように上記補間
比率を演算して上記処理手段に設定する。これによっ
て、上記ターゲット話者の音声に近似した音声を上記音
声合成手段によって合成することができる。

【００１３】さらに、請求項３記載の声質制御型音声合
成装置においては、請求項１記載の声質制御型音声合成
装置において、さらに、上記入力手段は、上記補間比率
を入力して上記処理手段に設定する。従って、上記補間
比率を変更して種々の声質を有する音声を上記音声合成
手段によって発声させることができる。

【００１４】またさらに、請求項４記載の声質制御型音
声合成装置においては、請求項１、２又は３記載の声質
制御型音声合成装置において、上記音声スペクトルのデ
ータは、好ましくは、ケプストラム係数又は対数面積比
である。

【００１５】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は本発明に係る一実施例である声
質制御型音声合成装置のブロック図である。

【００１６】本実施例の音声合成装置は、複数の人数の
音声スペクトルを線形に内挿する処理のために、予め音
声情報メモリ１０−１乃至１０−Ｍにそれぞれ複数Ｍ人
の話者の音声スペクトルのデータを格納し、ターゲット
話者の音声を入力してその音声に近似するように、上記
複数Ｍ人の話者の音声スペクトルを内挿混合することに
より、上記ターゲット話者の音声の声質に近い音声を発
声させる一方、上記内挿比率を変更することによって所
定の異なる声質を有する音声を発声させることを特徴と
している。ここで、内挿するためのスペクトル・パラメ
ータとして、比較的良好な補間特性を有するケプストラ
ム係数又は対数面積比を用い、パラメータの内挿比率を
変更することにより、異なる声質を有する音声を合成し
て出力させる。

【００１７】ターゲット話者の発声音声はマイクロホン
１に入力されて音声信号に変換された後、特徴抽出部２
に入力される。一方、音声情報メモリ１０−１乃至１０
−Ｍにそれぞれ、複数Ｍ人の話者の音声スペクトルのデ
ータを格納されている。ここで、音声スペクトルのデー
タは、音声スペクトルの振幅の時系列データ及び例えば
１６次のケプストラム係数の時系列データを含む。

【００１８】特徴抽出部２は、入力された音声信号をＡ
／Ｄ変換した後、例えばＬＰＣ分析を実行し、対数パワ
ー、１６次ケプストラム係数、Δ対数パワー及び１６次
Δケプストラム係数を含む３４次元の特徴パラメータを
抽出する。抽出された特徴パラメータの時系列はバッフ
ァメモリ３を介して時間正規化部４に入力される。時間
正規化部４は、ターゲット話者の発声音声のスペクトル
と、上記音声情報メモリ１０−１乃至１０−Ｍに予め記
憶された複数Ｍ人の話者のスペクトルとの時間整合を、
距離尺度としてケプストラム距離を用いてＤＴＷ（Dyna
mic time warping）法により実行する。すなわち、ター
ゲット話者の発声音声の例えば単語又は文の時間長さは
人及び時々により変化するので、当該ターゲット話者の
発生音声のスペクトルのデータを、その単語又は文と同
一の単語又は文に関する複数Ｍ人の話者の音声スペクト
ルの時間長さと同一となるように時間整合処理（時間正
規化処理）を実行し、処理後のターゲット話者の音声ス
ペクトルのデータは補間比率決定部５に出力される。

【００１９】音声情報メモリ１０−１乃至１０−Ｍから
読み出される複数Ｍ人の音声スペクトルのケプストラム
係数データは補間比率決定部５に出力されるとともに、
乗算器１１−１乃至１１−Ｍに出力される。乗算器１１
−１乃至１１−Ｍはそれぞれ、入力された各人の音声ス
ペクトルのケプストラム係数データと、補間比率決定部
５から出力される補間比率ａ₁，ａ₂，…，ａ_Mとを乗算
して加算器１２に出力し、加算器１２は入力されるデー
タを加算して、加算結果のデータをパラメータ時系列生
成部６に出力する。すなわち、複数Ｍ個の乗算器１１−
１乃至１１−Ｍと加算器１２とによって音声スペクトル
の内挿処理が実行される。

【００２０】補間比率決定部５は、ターゲット話者への
声質適応を行う場合、すなわち音声合成後のターゲット
話者の発声音声に近似させる場合、ターゲット話者のス
ペクトルとスペクトルの内挿により生成したスペクトル
との間の距離が最小になるように内挿比率を決定する。
具体的には、最適な補間比率ａ₁，ａ₂，…，ａ_Mを次の
数１で示す関数Ｆの関数値を最小２乗化法により演算し
て決定する。すなわち、ターゲット話者の発声音声のケ
プストラム係数値と、それに時間的に対応する予め格納
された複数Ｍ人の音声スペクトルのケプストラム係数値
との差の二乗が最小になるように、補間比率ａ₁，ａ₂，
…，ａ_Mを求める。

【００２１】

【数１】ここで、

【数２】ｙ_ij＝ａ₁・ｘ_1ij＋ａ₂・ｘ_2ij＋…＋ａ_M・ｘ_Ｍｉｊただし、

【数３】である。

【００２２】ここで、Ｙ_ijとｙ_ijはそれぞれ、ターゲッ
ト話者と内挿により得られるスペクトルの第ｉフレーム
のｊ次ケプストラム係数を表わす。ｘ_kijは予め音声情
報メモリ１０−１乃至１０−Ｍに格納されたｋ番目の話
者の第ｉフレームのｊ次ケプストラム係数を表わす。な
お、音声合成後のターゲット話者の発声音声に近似させ
ず、ターゲット話者とは異なる声質の音声を合成する場
合は、補間比率を適宜変更する。この場合、補間比率
は、操作者がキーボード（図示せず。）を用いて補間比
率決定部５に入力するように構成してもよい。

【００２３】上記補間比率決定部５の処理の後に、パラ
メータ時系列生成部６は、加算器１２から逐次出力され
る１６次のケプストラム係数の時系列を取りまとめて、
内蔵のバッファメモリに格納した後、そのデータを係数
変換部７に出力する。係数変換部７は、入力された１６
次のケプストラム係数の時系列データに基づいて、その
データを、公知の方法により、音声合成のためのピッ
チ、有声／無声切り換え、振幅及びフィルタ係数のデー
タに変換して、それぞれパルス発生器２１とスイッチＳ
Ｗと振幅変更型増幅器２３とフィルタ２４とに出力す
る。

【００２４】音声合成部２０は、パルス発生器２１と雑
音発生器２２とスイッチＳＷと振幅変更型増幅器２３と
フィルタ２４とから構成される。パルス発生器２１は、
有声音の励振音源であって各ピッチ周期の開始時点で単
位大きさのインパルスを発生して、スイッチＳＷを介し
て振幅変更型増幅器２３に出力する。一方、雑音発生器
２２は、無声音の励振音源であって、無相関でかつ一様
分布を有する標準偏差１と平均値０のランダム雑音を発
生して、スイッチＳＷを介して振幅変更型増幅器２３に
出力する。従って、スイッチＳＷは有声音を発生すると
きパルス発生器２１側に切り換える一方、無声音を発生
するときは雑音発生器２２側に切り換られる。さらに、
振幅変更型増幅器２３は、入力される振幅情報に基づい
て入力される信号の振幅を変更しかつ増幅してフィルタ
２４に出力する。そして、フィルタ２４は、その伝達関
数に対応するフィルタ係数を入力されるフィルタ係数に
設定し、入力された信号を当該設定されたフィルタ係数
でろ波した後、スピーカ３０を介して出力する。

【００２５】以上実施例において、音声合成後のターゲ
ット話者の発声音声に近似させる場合、このスピーカ３
０からは、ターゲット話者の発声音声に近似した音声信
号が出力される一方、音声合成後のターゲット話者の発
声音声に近似させず、ターゲット話者とは異なる声質の
音声を合成する場合は、設定された補間比率に対応して
声質制御された音声信号を出力させることができる。な
お、後者の場合においては、ターゲット話者の発生音声
に基づかず、補間比率決定部５以降の回路のみで構成し
てもよい。また、音声情報メモリ１０−１乃至１０−Ｍ
に格納される音声スペクトルのデータは予め時間正規化
処理を実行されていることが好ましい。

【００２６】以上の実施例において、スペクトル・パラ
メータとして、ケプストラム係数を用いているが、本発
明はこれに限らず、ＰＡＲＣＯＲパラメータｋ_iから誘
導できる等価パラメータ集合を示す次の数４の対数面積
比パラメータｇ_iを用いてもよい。この場合、補間比率
決定部５は、音声合成後のターゲット話者の発声音声に
近似させるとき、好ましくは、数１を用いて演算した補
間比率を初期値として、さらに、非線形降下法を用いて
ケプストラム距離の低減を行う。

【数４】ｇ_i＝ｌｏｇ［（１−ｋ_i）／（１＋ｋ_i）］，１≦ｉ≦ｐ

【００２７】本発明者は、本実施例の装置を用いてシミ
ュレーションを実行して、２話者ので間で補間が良好に
行えるかどうかを調べた。音質に関しては、ケプストラ
ム係数と対数面積比のどちらのパラメータを用いた場合
も比較的良好に補間して内挿することができ、補間比率
を変化することにより声質が一方の話者から他方の話者
に安定に徐々に変化していくことを確認した。

【００２８】

【発明の効果】以上詳述したように本発明によれば、複
数の話者の音声スペクトルのデータを予め記憶する記憶
手段と、上記記憶手段から複数の話者の音声スペクトル
のデータを読み出し、所定の補間比率を用いて上記複数
の話者の音声スペクトルのデータに対して内挿処理を実
行して所定の声質を有する音声スペクトルのデータを出
力する処理手段と、上記処理手段から出力される音声ス
ペクトルのデータに基づいて音声を合成して出力する音
声合成手段とを備えたので、従来例に比較してより小さ
い記憶容量を有する記憶装置を用い、より簡単な構成の
回路を用いて、より自由度が高い声質の制御が可能にな
り、より多様な声質を有する音声を合成することができ
る。

【００２９】さらに、ターゲット話者の音声に基づいて
音声スペクトルのデータを抽出する特徴抽出手段と、上
記特徴抽出手段によって抽出された音声スペクトルのデ
ータが上記処理手段から出力される音声スペクトルのデ
ータに近似するように上記補間比率を演算して上記処理
手段に設定する演算手段とを備えたので、ターゲット話
者が発声した少量の音声を入力として、声質変換のター
ゲットとする話者の声質を近似する音声を発生すること
ができるという特有の利点がある。

【図面の簡単な説明】

【図１】本発明に係る一実施例である声質制御型音声
合成装置のブロック図である。

【符号の説明】

１…マイクロホン、２…特徴抽出部、３…バッファメモリ、４…時間正規化部、５…補間比率決定部、６…パラメータ時系列生成部、７…係数変換部、１０−１乃至１０−Ｍ…音声情報メモリ、１１−１乃至１１−Ｍ…乗算器、１２…加算器、２０…音声合成部、２１…パルス発生器、２２…雑音発生器、２３…利得変更型増幅器、２４…フィルタ、３０…スピーカ、ＳＷ…スイッチ。

Claims

【特許請求の範囲】

【請求項１】複数の話者の音声スペクトルのデータを
予め記憶する記憶手段と、上記記憶手段から複数の話者の音声スペクトルのデータ
を読み出し、所定の補間比率を用いて上記複数の話者の
音声スペクトルのデータに対して内挿処理を実行して所
定の声質を有する音声スペクトルのデータを出力する処
理手段と、上記処理手段から出力される音声スペクトルのデータに
基づいて音声を合成して出力する音声合成手段とを備え
たことを特徴とする声質制御型音声合成装置。
【請求項２】声質制御型音声合成装置はさらに、ターゲット話者の音声に基づいて音声スペクトルのデー
タを抽出する特徴抽出手段と、上記特徴抽出手段によって抽出された音声スペクトルの
データが上記処理手段から出力される音声スペクトルの
データに近似するように上記補間比率を演算して上記処
理手段に設定する演算手段とを備えたことを特徴とする
請求項１記載の声質制御型音声合成装置。
【請求項３】声質制御型音声合成装置はさらに、上記補間比率を入力して上記処理手段に設定する入力手
段を備えたことを特徴とする請求項１記載の声質制御型
音声合成装置。
【請求項４】上記音声スペクトルのデータは、ケプス
トラム係数又は対数面積比であることを特徴とする請求
項１、２又は３記載の声質制御型音声合成装置。