JP2008139651A

JP2008139651A - 音声合成装置、音声合成方法およびプログラム

Info

Publication number: JP2008139651A
Application number: JP2006326964A
Authority: JP
Inventors: Yuji Hisaminato; 裕司久湊
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2008-06-19

Abstract

【課題】物理モデルを利用して自然な音声を生成する。
【解決手段】音声生成部１０は、声門を通過する空気の体積流Ｕ1(t)を声帯音源モデルＭ1に基づいて算定するとともに体積流Ｕ2(t)に応じた音声信号Ｖを生成する。ノイズ制御部３２は、ノイズ発生部３２１が発生したホワイトノイズＮWと体積流Ｕ1との乗算によって、体積流Ｕ1(t)に比例したレベルのノイズＮを生成する。ノイズ付加部３４は、ノイズ制御部３２が生成したノイズＮを体積流Ｕ1(t)に付加することで体積流Ｕ2(t)を算定する。
【選択図】図２

Description

本発明は、物理モデルを利用して音声を合成する技術に関する。

人間が発声した音声には、純粋な調和成分に加えてノイズ成分も含まれる。したがって、声帯や声道を模擬する物理モデルを利用した音声合成装置（物理モデル音源）において現実感のある音声を生成するためには、音声にノイズ成分を付加する処理が必要である。非特許文献１には、声帯の振動に応じた調和成分と全極型のフィルタにホワイトノイズを通過させたノイズ成分とを加算することで音声を合成する技術が開示されている。
Perry Raymond Cook, "IDENTIFICATION OF CONTROL PARAMETERS IN A ARTICULATORY VOCAL TRACT MODEL WITH APPLICATIONS TO THE SYSTHESIS OF SINGING", Stanford University, 1991

しかし、非特許文献１の技術において調和成分に付加されるノイズ成分は単純なフィルタ処理を経たホワイトノイズに過ぎないから、実際に生成される音声は、調和成分とノイズ成分とが聴覚上において個別の音声として知覚される不自然な音声となる。以上の事情を背景として、本発明は、物理モデルを利用して自然な音声を生成するという課題の解決を目的としている。

以上の課題を解決するために、本発明に係る音声合成装置は、声門を通過する空気の第１体積流（例えば図２の体積流Ｕ1(t)）を声帯音源モデルに基づいて算定するとともに第２体積流（例えば図２の体積流Ｕ2(t)）に応じた音声信号を生成する音声生成手段と、第１体積流に比例したレベルのノイズを生成するノイズ制御手段と、ノイズ制御手段が生成したノイズを第１体積流に付加することで第２体積流を算定するノイズ付加手段とを具備する。

以上の構成においては、第１体積流に比例したレベルのノイズが当該第１体積流に付加されることで第２体積流が算定される。すなわち、声門の体積流が大きいほど声道における乱流に起因して音声のノイズ成分が増加するという発声の機構が忠実に再現される。したがって、現実の人間の音声に近い自然な音声を生成することが可能となる。

本発明の好適な態様において、ノイズ制御手段は、ホワイトノイズを発生するノイズ発生手段と、ノイズ発生手段が発生したホワイトノイズと第１体積流とを乗算する乗算手段（例えば図２の乗算部３２２）とを含む。以上の態様によれば、第１体積流に比例するノイズを簡易な構成によって生成することができる。

所定のノイズ（例えばホワイトノイズ）を第１体積流に乗算することでノイズを生成する態様において、第１体積流は、例えば、声門が開く動作に対応して当該第１体積流が増減する第１区間（例えば図３の区間ｔ1）と、声門が閉じた状態に対応して当該第１体積流がゼロ以外の所定値（例えば図３の所定値ｕL）を維持する第２区間（例えば図３の区間ｔ2）とが交互に配列された波形となる。本態様においては、第１体積流が第２区間にてゼロ以外の所定値を維持するから、ノイズ制御手段が生成するノイズ（さらにはノイズ付加手段が算定する第２体積流）には第２区間においてもノイズが現れる。第２区間のノイズが豊富な音声はいわゆる嗄声（hoarseness）として知覚されるという傾向があるから、第１区間に加えて第２区間にもノイズが重畳される本態様によれば、嗄声のような音響的な効果が付与された音声の生成が可能となる。

本発明の好適な態様に係る音声合成装置は、ノイズ制御手段が生成するノイズのレベルを調整する調整手段（例えば図２における乗算部３２３）を具備する。調整手段による調整の程度は例えば利用者からの指示に応じて決定される。本態様によれば、ノイズのレベルを変化させた多様な音声を生成することが可能となる。また、第１体積流の第２区間にノイズが付与される構成（すなわち第１体積流が第２区間にてゼロ以外の所定値を維持する構成）に本態様の調整手段を採用すれば、嗄声のような音響的な効果の程度を調整手段によって適宜に調整することができる。例えば、利用者の指示に応じて調整手段がノイズのレベルを増大させるほど嗄声らしい音声が生成されるといった具合である。

本発明の好適な態様において、音声生成手段は、声帯から声道の下流側に向かう前進波と声道の上流側に向かう後退波とを模擬する声道モデルに基づいて音声信号を生成し、声帯音源モデルを定義する複数の変数は、後退波に関する変数（例えば図１の音圧ＳB(t)）を含む。以上の態様によれば、人間の発声が後退波に影響されるという現実の発声の仕組を忠実に再現して自然な音声を生成することができる。

本発明は、音声信号を生成する方法（すなわち以上の各態様に係る音声合成装置の動作方法）としても特定される。本発明のひとつの態様に係る音声合成方法は、声門を通過する空気の第１体積流を声帯音源モデルに基づいて算定し、第１体積流に比例したレベルのノイズを生成し、ノイズを第１体積流に付加することで第２体積流を算定し、第２体積流に応じた音声信号を生成する。以上の方法によれば、本発明に係る音声合成装置と同様の作用および効果が奏される。

以上の各態様に係る音声合成装置は、各処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のひとつの態様に係るプログラムは、声門を通過する空気の第１体積流を声帯音源モデルに基づいて算定するとともに第２体積流に応じた音声信号を生成する音声生成処理と、第１体積流に比例したレベルのノイズを生成するノイズ制御処理と、ノイズ制御処理で生成したノイズを第１体積流に付加することで第２体積流を算定するノイズ付加処理とをコンピュータに実行させる内容である。以上のプログラムによっても、本発明に係る音声合成装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。

＜Ａ：音声合成装置の機能的な構成＞
図１は、本発明のひとつの形態に係る音声合成装置の機能的な構成を示すブロック図である。同図に示すように、音声合成装置（物理モデル音源）１００は、人間の発声の仕組を模擬（モデル化）する複数の物理モデル（Ｍ1〜Ｍ5）に基づいて音声信号Ｖを合成する音声生成部１０と、音声生成部１０が生成する音声信号Ｖにノイズを付加する特性制御部３０とを具備する。なお、図１に図示された各部は、例えばＣＰＵなどの演算処理装置がプログラムを実行することで実現されてもよいし、音声の合成に専用されるＤＳＰなどのハードウェアによって実現されてもよい。

音声信号Ｖの合成に使用される複数の物理モデルは、声帯音源モデルＭ1と声道モデルＭ2と鼻道モデルＭ3と２種類の放射モデルＭ4およびＭ5とを含む。声帯音源モデルＭ1は、バネとダンパとが各々に接続された複数の質点で人間の声帯ｖcを模擬する。本形態の声帯音源モデルＭ1は、声帯ｖcの質量やバネのバネ定数、ダンパの抵抗係数、声帯ｖcの上流側（肺）の圧力、声道から到来する音波（以下「後退波」という）の音圧ＳB(t)、声帯ｖcの共振周波数など様々な変数によって定義される。音声生成部１０は、以上の変数について所定の演算を実行することで、体積流Ｕ1(t)や音圧ＳA(t)を模擬的に算定（シミュレート）する。

体積流Ｕ1(t)は、単位時間内に声門を通過する空気の流量である。音声生成部１０が算定した体積流Ｕ1(t)は特性制御部３０に供給される。特性制御部３０は、体積流Ｕ1(t)にノイズを付加した体積流Ｕ2(t)を算定して音声生成部１０に出力する。音声生成部１０は、特性制御部３０が算定した体積流Ｕ2(t)と所定の係数Ｚ0との乗算値を音圧ＳA(t)として算定する。係数Ｚ0は、声帯ｖcと声道との境界部におけるインピーダンス（空気の流動に対する抵抗）を意味する。したがって、音圧ＳA(t)は、声帯ｖcから放射して声道に流入する音波（以下「前進波」という）の圧力に相当する。

声道モデルＭ2は、声道（声帯ｖcから口唇までの空間）を模擬する物理モデルである。図１に示すように、声道は、経路ｒ1上に配列された複数の遅延回路Ｄaと、経路ｒ2上に配列された複数の遅延回路Ｄbと、遅延回路ＤaおよびＤbの間隙に介挿されて経路ｒ1と経路ｒ2とを連結する複数のジャンクションＪとによって模擬される。声帯音源モデルＭ1に基づいて算定された音圧ＳA(t)は経路ｒ1に供給される。経路ｒ1は、声帯ｖcから放射された前進波が声道の下流側（口腔側）に進行する様子を模擬し、経路ｒ2は、後退波が声道の上流側（声帯ｖc側）に進行する様子を模擬する。したがって、遅延回路Ｄaに設定される遅延時間ｄは前進波の伝播遅延に対応し、遅延回路Ｄbに設定される遅延時間ｄは後退波の伝播遅延に対応する。ジャンクションＪは、声道のうち直径が変化する各区画における音波の散乱を模擬する。ジャンクションＪには、声道のひとつの区画の断面積に応じた係数ｓが設定される。

放射モデルＭ4は、声道を経由して口唇に到達した音波をローパスフィルタ２１と加算器２２とインバータ２３とによって模擬する物理モデルである。経路ｒ1を経由して声道モデルＭ2（最終段の遅延回路Ｄa）から出力された前進波の音圧はローパスフィルタ２１と加算器２２とに入力される。ローパスフィルタ２１とインバータ２３とは、声道（口唇）と外界との境界（共鳴管の終端）における音波の反射を模擬する。インバータ２３の出力（反射波の音圧）を声道モデルＭ2の経路ｒ2に供給することで、声道を逆流して声帯ｖcに向かう後退波の音圧ＳB(t)が算定される。一方、口唇から外界に放射される音波の音圧は、声道モデルＭ2から放射モデルＭ4への出力とインバータ２３からの出力との加算値（加算器２２による演算値）として表現される。

鼻道モデルＭ3は、鼻道内にて進行する音波を、声道モデルＭ2と同様の要素によって模擬する物理モデルである。放射モデルＭ5は、鼻道から外界への音波の放射を放射モデルＭ4と同様の演算によって模擬する。放射モデルＭ4およびＭ5の各々による出力を加算器２５が加算することで、外界に放射された音波の波形を示す音声信号Ｖが生成される。

図２は、特性制御部３０の具体的な構成を示すブロック図である。同図に示すように、特性制御部３０は、ノイズ制御部３２とノイズ付加部３４とを含む。ノイズ制御部３２は、音声生成部１０が算定した体積流Ｕ1(t)に応じたレベルのノイズＮを生成する手段であり、ノイズ発生部３２１と乗算部３２２と乗算部３２３とを含む。

ノイズ発生部３２１は、広範な周波数帯域にわたって強度が均一であるホワイトノイズＮWを生成する。乗算部３２２は、音声生成部１０が算定した体積流Ｕ1(t)とノイズ発生部３２１が生成したホワイトノイズＮWとを乗算する手段である。乗算部３２３は、乗算部３２２による出力値（Ｕ1(t)×ＮW）と係数ｋとの乗算値をノイズＮとして算定する。係数ｋは、外部から可変に指定される。すなわち、乗算部３２２は、係数ｋに応じてノイズＮのレベルを調整する手段として機能する。

ノイズ付加部３４は、音声生成部１０が算定した体積流Ｕ1(t)にノイズＮを付加して体積流Ｕ2(t)を算定する。本形態のノイズ付加部３４は、体積流Ｕ1(t)とノイズＮとを加算する加算器である。音声生成部１０は、ノイズ付加部３４の算定した体積流Ｕ2(t)と係数Ｚ0との乗算によって音圧ＳA(t)を算定する。

本形態の特性制御部３０は音声信号Ｖの標本化周期に同期して動作する。さらに詳述すると、ノイズ制御部３２によるノイズＮの生成とノイズ付加部３４によるノイズＮの付加とは、音声信号Ｖの標本化周期ごとに実行される。

図３の部分(a)は、体積流Ｕ1(t)の時間的な変動を示すグラフである。発声に際して声門は周期的に開閉するから、図３に示すように、体積流Ｕ1(t)は、正弦波を半波整流したような周期的な波形となる。すなわち、体積流Ｕ1(t)は、正弦波的に増減する区間ｔ1と所定値ｕL（ｕL≠０）を維持する区間ｔ2とを時間軸上に交互に配列した波形となる。区間ｔ1は声門が開く期間に相当し、区間ｔ2は声門が閉じる期間に相当する。

図３の部分(b)は、ノイズ制御部３２（乗算部３２３）が出力するノイズＮの波形を示す。同図に示すように、ノイズＮの周波数は体積流Ｕ1(t)と比較して充分に高い。また、乗算部３２２はホワイトノイズＮWと体積流Ｕ1(t)とを乗算するから、ノイズＮは、図３の部分(b)に示すように、体積流Ｕ1(t)に比例したレベル（振幅）となる。すなわち、区間ｔ1におけるノイズＮは、体積流Ｕ1(t)の変動に対応するように増減する。また、区間ｔ2の体積流Ｕ1(t)は所定値ｕLを維持するから、区間ｔ2におけるノイズＮは、所定値ｕLに応じた略一定の振幅を維持する。

図３の部分(c)は、特性制御部３０（ノイズ付加部３４）が出力する体積流Ｕ2(t)の時間的な変動を示すグラフである。同図に示すように、体積流Ｕ2(t)は、部分(a)の体積流Ｕ1(t)と部分(b)のノイズＮとを加算した波形となる。すなわち、体積流Ｕ2(t)は、区間ｔ1において概略的には体積流Ｕ1(t)と同様に増減するとともに当該体積流Ｕ1(t)が大きいほどノイズ成分（高調波成分）が増加し、区間ｔ2においては略一定の振幅で変動する。

実際の声帯においては、声門を通過する体積流が増加するほど声道内において乱流が発生する傾向がある。声道内の乱流は音声に重畳されるノイズの主要な原因である。すなわち、体積流が増加するほど音声のノイズ成分が増加する。本形態においては、体積流Ｕ1(t)に比例したレベルのノイズＮが体積流Ｕ1(t)に付加されるから、実際の発声における体積流とノイズとの関係が忠実に再現される。したがって、音声信号Ｖが示す音声は、実際の音声の特性に近い自然な音声となる。

また、本形態においては体積流Ｕ1(t)とホワイトノイズＮWとの乗算値（乗算部３２２の出力）に係数ｋが乗算されるから、音声に付与されるノイズＮのレベルを係数ｋの指定によって適宜に調整することが可能である。したがって、体積流Ｕ1(t)とホワイトノイズＮWとの乗算値がノイズＮとして出力される構成と比較して、ノイズＮのレベルが相違する多様な音声を合成できるという利点がある。

＜Ｂ：変形例＞
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。

（１）変形例１
ノイズ制御部３２の具体的な構成は適宜に変更される。例えば、乗算部３２３を、乗算部３２２の前段やノイズ発生部３２１と乗算部３２２との間に配置した構成としてもよい。何れの構成に老いても、乗算部３２２はノイズＮのレベルを調整する手段として機能する。また、乗算部３２３を省略してもよい。

さらに、ノイズ発生部３２１と乗算部３２２との間にフィルタ（例えばローパスフィルタ）を介在させ、ホワイトノイズＮWにフィルタ処理を実行したうえで乗算部３２２に供給する構成としてもよい。さらに、ノイズ発生部３２１が発生するノイズの特性は任意である。例えばノイズ発生部３２１がピンクノイズを発生する構成としてもよい。すなわち、本発明のひとつの形態におけるノイズ制御部３２は、体積流Ｕ1(t)に応じたレベル（典型的には体積流Ｕ1(t)に比例したレベル）のノイズＮを発生する手段であれば足り、具体的な構成の如何は不問である。

（２）変形例２
以上の形態においてはノイズ付加部３４がノイズＮと体積流Ｕ1(t)とに加算する構成を例示したが、体積流Ｕ2(t)を算定するための演算の内容は適宜に変更される。例えば、ノイズ付加部３４は、ノイズＮと体積流Ｕ1(t)との乗算値を体積流Ｕ2(t)として演算する乗算器であってもよい。すなわち、本発明のひとつの形態におけるノイズ付加部３４は、体積流Ｕ1(t)およびノイズＮの双方に応じて変化する性質の体積流Ｕ2(t)を算定する手段であれば足りる。

（３）変形例３
音声合成装置１００に使用される物理モデルの種類や各物理モデルの内容は適宜に変更される。例えば、鼻道モデルＭ3や放射モデルＭ5を省略した構成や、声帯音源モデルＭ1や声道モデルＭ2の構成を図１から変更した構成も採用される。さらに、声道モデルＭ2の経路ｒ2が省略された構成や声道モデルＭ2自体が省略された構成も採用される。

（４）変形例４
以上の形態においては特性制御部３０が音声信号Ｖの標本化周期ごとに体積流Ｕ2(t)を算定する構成を例示したが、特性制御部３０の動作の間隔は任意である。例えば、音声信号Ｖの標本化周期の所定数に相当する期間を単位としてノイズＮの生成や体積流Ｕ2(t)の算定を実行する構成も採用される。以上の構成によれば、特性制御部３０による演算の負荷が軽減されるという利点がある。

本発明のひとつの形態に係る音声合成装置の構成を示すブロック図である。特性制御部の構成を示すブロック図である。体積流（Ｕ1(t)，Ｕ2(t)）とノイズとの関係を示す概念図である。

符号の説明

１００……音声合成装置、１０……音声生成部、Ｍ1……声帯音源モデル、Ｍ2……声道モデル、Ｍ3……鼻道モデル、Ｍ4，Ｍ5……放射モデル、３０……特性制御部、３２……ノイズ制御部、３４……ノイズ付加部、３２１……ノイズ発生部、３２２，３２３……乗算部、Ｖ……音声信号、Ｕ1(t)……体積流（ノイズ付加前）、Ｕ2(t)……体積流（ノイズ付加後）、Ｎ……ノイズ。

Claims

声門を通過する空気の第１体積流を声帯音源モデルに基づいて算定するとともに第２体積流に応じた音声信号を生成する音声生成手段と、
前記第１体積流に比例したレベルのノイズを生成するノイズ制御手段と、
前記ノイズ制御手段が生成したノイズを前記第１体積流に付加することで前記第２体積流を算定するノイズ付加手段と
を具備する音声合成装置。
前記ノイズ制御手段は、
ホワイトノイズを発生するノイズ発生手段と、
前記ノイズ発生手段が発生したホワイトノイズと前記第１体積流とを乗算する乗算手段とを含む
請求項１に記載の音声合成装置。
声門を通過する空気の第１体積流を声帯音源モデルに基づいて算定し、
前記第１体積流に比例したレベルのノイズを生成し、
前記ノイズを前記第１体積流に付加することで第２体積流を算定し、
前記第２体積流に応じた音声信号を生成する
音声合成方法。
声門を通過する空気の第１体積流を声帯音源モデルに基づいて算定するとともに第２体積流に応じた音声信号を生成する音声生成処理と、
前記第１体積流に比例したレベルのノイズを生成するノイズ制御処理と、
前記ノイズ制御処理で生成したノイズを前記第１体積流に付加することで前記第２体積流を算定するノイズ付加処理と
をコンピュータに実行させるプログラム。