JP2008139651A - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP2008139651A
JP2008139651A JP2006326964A JP2006326964A JP2008139651A JP 2008139651 A JP2008139651 A JP 2008139651A JP 2006326964 A JP2006326964 A JP 2006326964A JP 2006326964 A JP2006326964 A JP 2006326964A JP 2008139651 A JP2008139651 A JP 2008139651A
Authority
JP
Japan
Prior art keywords
noise
volume flow
generating
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006326964A
Other languages
English (en)
Inventor
Yuji Hisaminato
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2006326964A priority Critical patent/JP2008139651A/ja
Publication of JP2008139651A publication Critical patent/JP2008139651A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】物理モデルを利用して自然な音声を生成する。
【解決手段】音声生成部10は、声門を通過する空気の体積流U1(t)を声帯音源モデルM1に基づいて算定するとともに体積流U2(t)に応じた音声信号Vを生成する。ノイズ制御部32は、ノイズ発生部321が発生したホワイトノイズNWと体積流U1との乗算によって、体積流U1(t)に比例したレベルのノイズNを生成する。ノイズ付加部34は、ノイズ制御部32が生成したノイズNを体積流U1(t)に付加することで体積流U2(t)を算定する。
【選択図】図2

Description

本発明は、物理モデルを利用して音声を合成する技術に関する。
人間が発声した音声には、純粋な調和成分に加えてノイズ成分も含まれる。したがって、声帯や声道を模擬する物理モデルを利用した音声合成装置(物理モデル音源)において現実感のある音声を生成するためには、音声にノイズ成分を付加する処理が必要である。非特許文献1には、声帯の振動に応じた調和成分と全極型のフィルタにホワイトノイズを通過させたノイズ成分とを加算することで音声を合成する技術が開示されている。
Perry Raymond Cook, "IDENTIFICATION OF CONTROL PARAMETERS IN A ARTICULATORY VOCAL TRACT MODEL WITH APPLICATIONS TO THE SYSTHESIS OF SINGING", Stanford University, 1991
しかし、非特許文献1の技術において調和成分に付加されるノイズ成分は単純なフィルタ処理を経たホワイトノイズに過ぎないから、実際に生成される音声は、調和成分とノイズ成分とが聴覚上において個別の音声として知覚される不自然な音声となる。以上の事情を背景として、本発明は、物理モデルを利用して自然な音声を生成するという課題の解決を目的としている。
以上の課題を解決するために、本発明に係る音声合成装置は、声門を通過する空気の第1体積流(例えば図2の体積流U1(t))を声帯音源モデルに基づいて算定するとともに第2体積流(例えば図2の体積流U2(t))に応じた音声信号を生成する音声生成手段と、第1体積流に比例したレベルのノイズを生成するノイズ制御手段と、ノイズ制御手段が生成したノイズを第1体積流に付加することで第2体積流を算定するノイズ付加手段とを具備する。
以上の構成においては、第1体積流に比例したレベルのノイズが当該第1体積流に付加されることで第2体積流が算定される。すなわち、声門の体積流が大きいほど声道における乱流に起因して音声のノイズ成分が増加するという発声の機構が忠実に再現される。したがって、現実の人間の音声に近い自然な音声を生成することが可能となる。
本発明の好適な態様において、ノイズ制御手段は、ホワイトノイズを発生するノイズ発生手段と、ノイズ発生手段が発生したホワイトノイズと第1体積流とを乗算する乗算手段(例えば図2の乗算部322)とを含む。以上の態様によれば、第1体積流に比例するノイズを簡易な構成によって生成することができる。
所定のノイズ(例えばホワイトノイズ)を第1体積流に乗算することでノイズを生成する態様において、第1体積流は、例えば、声門が開く動作に対応して当該第1体積流が増減する第1区間(例えば図3の区間t1)と、声門が閉じた状態に対応して当該第1体積流がゼロ以外の所定値(例えば図3の所定値uL)を維持する第2区間(例えば図3の区間t2)とが交互に配列された波形となる。本態様においては、第1体積流が第2区間にてゼロ以外の所定値を維持するから、ノイズ制御手段が生成するノイズ(さらにはノイズ付加手段が算定する第2体積流)には第2区間においてもノイズが現れる。第2区間のノイズが豊富な音声はいわゆる嗄声(hoarseness)として知覚されるという傾向があるから、第1区間に加えて第2区間にもノイズが重畳される本態様によれば、嗄声のような音響的な効果が付与された音声の生成が可能となる。
本発明の好適な態様に係る音声合成装置は、ノイズ制御手段が生成するノイズのレベルを調整する調整手段(例えば図2における乗算部323)を具備する。調整手段による調整の程度は例えば利用者からの指示に応じて決定される。本態様によれば、ノイズのレベルを変化させた多様な音声を生成することが可能となる。また、第1体積流の第2区間にノイズが付与される構成(すなわち第1体積流が第2区間にてゼロ以外の所定値を維持する構成)に本態様の調整手段を採用すれば、嗄声のような音響的な効果の程度を調整手段によって適宜に調整することができる。例えば、利用者の指示に応じて調整手段がノイズのレベルを増大させるほど嗄声らしい音声が生成されるといった具合である。
本発明の好適な態様において、音声生成手段は、声帯から声道の下流側に向かう前進波と声道の上流側に向かう後退波とを模擬する声道モデルに基づいて音声信号を生成し、声帯音源モデルを定義する複数の変数は、後退波に関する変数(例えば図1の音圧SB(t))を含む。以上の態様によれば、人間の発声が後退波に影響されるという現実の発声の仕組を忠実に再現して自然な音声を生成することができる。
本発明は、音声信号を生成する方法(すなわち以上の各態様に係る音声合成装置の動作方法)としても特定される。本発明のひとつの態様に係る音声合成方法は、声門を通過する空気の第1体積流を声帯音源モデルに基づいて算定し、第1体積流に比例したレベルのノイズを生成し、ノイズを第1体積流に付加することで第2体積流を算定し、第2体積流に応じた音声信号を生成する。以上の方法によれば、本発明に係る音声合成装置と同様の作用および効果が奏される。
以上の各態様に係る音声合成装置は、各処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のひとつの態様に係るプログラムは、声門を通過する空気の第1体積流を声帯音源モデルに基づいて算定するとともに第2体積流に応じた音声信号を生成する音声生成処理と、第1体積流に比例したレベルのノイズを生成するノイズ制御処理と、ノイズ制御処理で生成したノイズを第1体積流に付加することで第2体積流を算定するノイズ付加処理とをコンピュータに実行させる内容である。以上のプログラムによっても、本発明に係る音声合成装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、ネットワークを介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:音声合成装置の機能的な構成>
図1は、本発明のひとつの形態に係る音声合成装置の機能的な構成を示すブロック図である。同図に示すように、音声合成装置(物理モデル音源)100は、人間の発声の仕組を模擬(モデル化)する複数の物理モデル(M1〜M5)に基づいて音声信号Vを合成する音声生成部10と、音声生成部10が生成する音声信号Vにノイズを付加する特性制御部30とを具備する。なお、図1に図示された各部は、例えばCPUなどの演算処理装置がプログラムを実行することで実現されてもよいし、音声の合成に専用されるDSPなどのハードウェアによって実現されてもよい。
音声信号Vの合成に使用される複数の物理モデルは、声帯音源モデルM1と声道モデルM2と鼻道モデルM3と2種類の放射モデルM4およびM5とを含む。声帯音源モデルM1は、バネとダンパとが各々に接続された複数の質点で人間の声帯vcを模擬する。本形態の声帯音源モデルM1は、声帯vcの質量やバネのバネ定数、ダンパの抵抗係数、声帯vcの上流側(肺)の圧力、声道から到来する音波(以下「後退波」という)の音圧SB(t)、声帯vcの共振周波数など様々な変数によって定義される。音声生成部10は、以上の変数について所定の演算を実行することで、体積流U1(t)や音圧SA(t)を模擬的に算定(シミュレート)する。
体積流U1(t)は、単位時間内に声門を通過する空気の流量である。音声生成部10が算定した体積流U1(t)は特性制御部30に供給される。特性制御部30は、体積流U1(t)にノイズを付加した体積流U2(t)を算定して音声生成部10に出力する。音声生成部10は、特性制御部30が算定した体積流U2(t)と所定の係数Z0との乗算値を音圧SA(t)として算定する。係数Z0は、声帯vcと声道との境界部におけるインピーダンス(空気の流動に対する抵抗)を意味する。したがって、音圧SA(t)は、声帯vcから放射して声道に流入する音波(以下「前進波」という)の圧力に相当する。
声道モデルM2は、声道(声帯vcから口唇までの空間)を模擬する物理モデルである。図1に示すように、声道は、経路r1上に配列された複数の遅延回路Daと、経路r2上に配列された複数の遅延回路Dbと、遅延回路DaおよびDbの間隙に介挿されて経路r1と経路r2とを連結する複数のジャンクションJとによって模擬される。声帯音源モデルM1に基づいて算定された音圧SA(t)は経路r1に供給される。経路r1は、声帯vcから放射された前進波が声道の下流側(口腔側)に進行する様子を模擬し、経路r2は、後退波が声道の上流側(声帯vc側)に進行する様子を模擬する。したがって、遅延回路Daに設定される遅延時間dは前進波の伝播遅延に対応し、遅延回路Dbに設定される遅延時間dは後退波の伝播遅延に対応する。ジャンクションJは、声道のうち直径が変化する各区画における音波の散乱を模擬する。ジャンクションJには、声道のひとつの区画の断面積に応じた係数sが設定される。
放射モデルM4は、声道を経由して口唇に到達した音波をローパスフィルタ21と加算器22とインバータ23とによって模擬する物理モデルである。経路r1を経由して声道モデルM2(最終段の遅延回路Da)から出力された前進波の音圧はローパスフィルタ21と加算器22とに入力される。ローパスフィルタ21とインバータ23とは、声道(口唇)と外界との境界(共鳴管の終端)における音波の反射を模擬する。インバータ23の出力(反射波の音圧)を声道モデルM2の経路r2に供給することで、声道を逆流して声帯vcに向かう後退波の音圧SB(t)が算定される。一方、口唇から外界に放射される音波の音圧は、声道モデルM2から放射モデルM4への出力とインバータ23からの出力との加算値(加算器22による演算値)として表現される。
鼻道モデルM3は、鼻道内にて進行する音波を、声道モデルM2と同様の要素によって模擬する物理モデルである。放射モデルM5は、鼻道から外界への音波の放射を放射モデルM4と同様の演算によって模擬する。放射モデルM4およびM5の各々による出力を加算器25が加算することで、外界に放射された音波の波形を示す音声信号Vが生成される。
図2は、特性制御部30の具体的な構成を示すブロック図である。同図に示すように、特性制御部30は、ノイズ制御部32とノイズ付加部34とを含む。ノイズ制御部32は、音声生成部10が算定した体積流U1(t)に応じたレベルのノイズNを生成する手段であり、ノイズ発生部321と乗算部322と乗算部323とを含む。
ノイズ発生部321は、広範な周波数帯域にわたって強度が均一であるホワイトノイズNWを生成する。乗算部322は、音声生成部10が算定した体積流U1(t)とノイズ発生部321が生成したホワイトノイズNWとを乗算する手段である。乗算部323は、乗算部322による出力値(U1(t)×NW)と係数kとの乗算値をノイズNとして算定する。係数kは、外部から可変に指定される。すなわち、乗算部322は、係数kに応じてノイズNのレベルを調整する手段として機能する。
ノイズ付加部34は、音声生成部10が算定した体積流U1(t)にノイズNを付加して体積流U2(t)を算定する。本形態のノイズ付加部34は、体積流U1(t)とノイズNとを加算する加算器である。音声生成部10は、ノイズ付加部34の算定した体積流U2(t)と係数Z0との乗算によって音圧SA(t)を算定する。
本形態の特性制御部30は音声信号Vの標本化周期に同期して動作する。さらに詳述すると、ノイズ制御部32によるノイズNの生成とノイズ付加部34によるノイズNの付加とは、音声信号Vの標本化周期ごとに実行される。
図3の部分(a)は、体積流U1(t)の時間的な変動を示すグラフである。発声に際して声門は周期的に開閉するから、図3に示すように、体積流U1(t)は、正弦波を半波整流したような周期的な波形となる。すなわち、体積流U1(t)は、正弦波的に増減する区間t1と所定値uL(uL≠0)を維持する区間t2とを時間軸上に交互に配列した波形となる。区間t1は声門が開く期間に相当し、区間t2は声門が閉じる期間に相当する。
図3の部分(b)は、ノイズ制御部32(乗算部323)が出力するノイズNの波形を示す。同図に示すように、ノイズNの周波数は体積流U1(t)と比較して充分に高い。また、乗算部322はホワイトノイズNWと体積流U1(t)とを乗算するから、ノイズNは、図3の部分(b)に示すように、体積流U1(t)に比例したレベル(振幅)となる。すなわち、区間t1におけるノイズNは、体積流U1(t)の変動に対応するように増減する。また、区間t2の体積流U1(t)は所定値uLを維持するから、区間t2におけるノイズNは、所定値uLに応じた略一定の振幅を維持する。
図3の部分(c)は、特性制御部30(ノイズ付加部34)が出力する体積流U2(t)の時間的な変動を示すグラフである。同図に示すように、体積流U2(t)は、部分(a)の体積流U1(t)と部分(b)のノイズNとを加算した波形となる。すなわち、体積流U2(t)は、区間t1において概略的には体積流U1(t)と同様に増減するとともに当該体積流U1(t)が大きいほどノイズ成分(高調波成分)が増加し、区間t2においては略一定の振幅で変動する。
実際の声帯においては、声門を通過する体積流が増加するほど声道内において乱流が発生する傾向がある。声道内の乱流は音声に重畳されるノイズの主要な原因である。すなわち、体積流が増加するほど音声のノイズ成分が増加する。本形態においては、体積流U1(t)に比例したレベルのノイズNが体積流U1(t)に付加されるから、実際の発声における体積流とノイズとの関係が忠実に再現される。したがって、音声信号Vが示す音声は、実際の音声の特性に近い自然な音声となる。
また、本形態においては体積流U1(t)とホワイトノイズNWとの乗算値(乗算部322の出力)に係数kが乗算されるから、音声に付与されるノイズNのレベルを係数kの指定によって適宜に調整することが可能である。したがって、体積流U1(t)とホワイトノイズNWとの乗算値がノイズNとして出力される構成と比較して、ノイズNのレベルが相違する多様な音声を合成できるという利点がある。
<B:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の各態様を適宜に組み合わせてもよい。
(1)変形例1
ノイズ制御部32の具体的な構成は適宜に変更される。例えば、乗算部323を、乗算部322の前段やノイズ発生部321と乗算部322との間に配置した構成としてもよい。何れの構成に老いても、乗算部322はノイズNのレベルを調整する手段として機能する。また、乗算部323を省略してもよい。
さらに、ノイズ発生部321と乗算部322との間にフィルタ(例えばローパスフィルタ)を介在させ、ホワイトノイズNWにフィルタ処理を実行したうえで乗算部322に供給する構成としてもよい。さらに、ノイズ発生部321が発生するノイズの特性は任意である。例えばノイズ発生部321がピンクノイズを発生する構成としてもよい。すなわち、本発明のひとつの形態におけるノイズ制御部32は、体積流U1(t)に応じたレベル(典型的には体積流U1(t)に比例したレベル)のノイズNを発生する手段であれば足り、具体的な構成の如何は不問である。
(2)変形例2
以上の形態においてはノイズ付加部34がノイズNと体積流U1(t)とに加算する構成を例示したが、体積流U2(t)を算定するための演算の内容は適宜に変更される。例えば、ノイズ付加部34は、ノイズNと体積流U1(t)との乗算値を体積流U2(t)として演算する乗算器であってもよい。すなわち、本発明のひとつの形態におけるノイズ付加部34は、体積流U1(t)およびノイズNの双方に応じて変化する性質の体積流U2(t)を算定する手段であれば足りる。
(3)変形例3
音声合成装置100に使用される物理モデルの種類や各物理モデルの内容は適宜に変更される。例えば、鼻道モデルM3や放射モデルM5を省略した構成や、声帯音源モデルM1や声道モデルM2の構成を図1から変更した構成も採用される。さらに、声道モデルM2の経路r2が省略された構成や声道モデルM2自体が省略された構成も採用される。
(4)変形例4
以上の形態においては特性制御部30が音声信号Vの標本化周期ごとに体積流U2(t)を算定する構成を例示したが、特性制御部30の動作の間隔は任意である。例えば、音声信号Vの標本化周期の所定数に相当する期間を単位としてノイズNの生成や体積流U2(t)の算定を実行する構成も採用される。以上の構成によれば、特性制御部30による演算の負荷が軽減されるという利点がある。
本発明のひとつの形態に係る音声合成装置の構成を示すブロック図である。 特性制御部の構成を示すブロック図である。 体積流(U1(t),U2(t))とノイズとの関係を示す概念図である。
符号の説明
100……音声合成装置、10……音声生成部、M1……声帯音源モデル、M2……声道モデル、M3……鼻道モデル、M4,M5……放射モデル、30……特性制御部、32……ノイズ制御部、34……ノイズ付加部、321……ノイズ発生部、322,323……乗算部、V……音声信号、U1(t)……体積流(ノイズ付加前)、U2(t)……体積流(ノイズ付加後)、N……ノイズ。

Claims (4)

  1. 声門を通過する空気の第1体積流を声帯音源モデルに基づいて算定するとともに第2体積流に応じた音声信号を生成する音声生成手段と、
    前記第1体積流に比例したレベルのノイズを生成するノイズ制御手段と、
    前記ノイズ制御手段が生成したノイズを前記第1体積流に付加することで前記第2体積流を算定するノイズ付加手段と
    を具備する音声合成装置。
  2. 前記ノイズ制御手段は、
    ホワイトノイズを発生するノイズ発生手段と、
    前記ノイズ発生手段が発生したホワイトノイズと前記第1体積流とを乗算する乗算手段とを含む
    請求項1に記載の音声合成装置。
  3. 声門を通過する空気の第1体積流を声帯音源モデルに基づいて算定し、
    前記第1体積流に比例したレベルのノイズを生成し、
    前記ノイズを前記第1体積流に付加することで第2体積流を算定し、
    前記第2体積流に応じた音声信号を生成する
    音声合成方法。
  4. 声門を通過する空気の第1体積流を声帯音源モデルに基づいて算定するとともに第2体積流に応じた音声信号を生成する音声生成処理と、
    前記第1体積流に比例したレベルのノイズを生成するノイズ制御処理と、
    前記ノイズ制御処理で生成したノイズを前記第1体積流に付加することで前記第2体積流を算定するノイズ付加処理と
    をコンピュータに実行させるプログラム。
JP2006326964A 2006-12-04 2006-12-04 音声合成装置、音声合成方法およびプログラム Pending JP2008139651A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006326964A JP2008139651A (ja) 2006-12-04 2006-12-04 音声合成装置、音声合成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006326964A JP2008139651A (ja) 2006-12-04 2006-12-04 音声合成装置、音声合成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2008139651A true JP2008139651A (ja) 2008-06-19

Family

ID=39601175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006326964A Pending JP2008139651A (ja) 2006-12-04 2006-12-04 音声合成装置、音声合成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2008139651A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014160236A (ja) * 2013-01-23 2014-09-04 Panasonic Corp 音声信号の生成方法、音声合成装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288095A (ja) * 2002-03-28 2003-10-10 Yamaha Corp 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288095A (ja) * 2002-03-28 2003-10-10 Yamaha Corp 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014160236A (ja) * 2013-01-23 2014-09-04 Panasonic Corp 音声信号の生成方法、音声合成装置

Similar Documents

Publication Publication Date Title
Verfaille et al. Adaptive digital audio effects (A-DAFx): A new class of sound transformations
JP2504203B2 (ja) 楽音合成装置
US5508473A (en) Music synthesizer and method for simulating period synchronous noise associated with air flows in wind instruments
Wilson et al. Robot, alien and cartoon voices: Implications for speech-enabled systems
JPH03186897A (ja) 楽音波形信号形成装置
JPH02287395A (ja) 楽音合成装置
JP2008139651A (ja) 音声合成装置、音声合成方法およびプログラム
Guillemain Some roles of the vocal tract in clarinet breath attacks: Natural sounds analysis and model-based synthesis
Polychronopoulos et al. Physical modeling of the ancient Greek wind musical instrument aulos: A double-reed exciter linked to an acoustic resonator
Cooper et al. Digital simulation of “brassiness” and amplitude-dependent propagation speed in wind instruments
JP2504324B2 (ja) 楽音合成装置
JP4760692B2 (ja) 音声合成装置およびプログラム
JP2009258238A (ja) 楽音合成装置およびプログラム
JP5211437B2 (ja) 音声処理装置およびプログラム
JP2824555B2 (ja) 音圧推定装置
Zeki Digital modelling of guitar audio effects
JP2003288095A (ja) 音声合成装置、音声合成方法並びに音声合成用プログラム及びこのプログラムを記録したコンピュータで読み取り可能な記録媒体
Rugchatjaroen et al. A study on dynamic vocal tract shaping for diphthong simulation using a 2D digital waveguide mesh
JPH0774957B2 (ja) 楽音波形信号形成装置
WO2007097215A1 (ja) 波動合成装置
JPH0774956B2 (ja) 楽音波形信号形成装置
JP2841847B2 (ja) 楽音合成装置
Türkheim A Semi-Virtual Violin For Investigations Into Sound Quality And Musician-Instrument Interaction
JP2674595B2 (ja) 楽音波形信号形成装置
JP5928489B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110308