JP2012048154A - 音声合成装置、音声合成方法およびプログラム - Google Patents

音声合成装置、音声合成方法およびプログラム Download PDF

Info

Publication number
JP2012048154A
JP2012048154A JP2010192656A JP2010192656A JP2012048154A JP 2012048154 A JP2012048154 A JP 2012048154A JP 2010192656 A JP2010192656 A JP 2010192656A JP 2010192656 A JP2010192656 A JP 2010192656A JP 2012048154 A JP2012048154 A JP 2012048154A
Authority
JP
Japan
Prior art keywords
band
spectrum
speech
unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010192656A
Other languages
English (en)
Other versions
JP5085700B2 (ja
Inventor
Masanori Tamura
正統 田村
Shinko Morita
眞弘 森田
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2010192656A priority Critical patent/JP5085700B2/ja
Priority to US13/051,541 priority patent/US9058807B2/en
Publication of JP2012048154A publication Critical patent/JP2012048154A/ja
Application granted granted Critical
Publication of JP5085700B2 publication Critical patent/JP5085700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

【課題】高速に音声波形を生成する。
【解決手段】第1記憶部は、n個の帯域通過フィルタを雑音信号に適用したn個の帯域雑音信号を記憶する。第2記憶部は、n個の帯域通過フィルタをパルス信号に適用したn個の帯域パルス信号を記憶する。パラメータ入力部は、基本周波数、n個の帯域雑音強度およびスペクトルパラメータを入力する。切出部は、ピッチマークごとにn個の帯域雑音信号をシフトしながら切り出す。振幅制御部は、切り出した帯域雑音信号の振幅と帯域パルス信号の振幅とを帯域雑音強度に応じて変更する。生成部は、n個の帯域雑音信号とn個の帯域パルス信号とを加算した混合音源信号を生成する。重畳部は、ピッチマークに基づいて生成された混合音源信号を重畳する。声道フィルタ部は、重畳された混合音源信号にスペクトルパラメータを用いた声道フィルタを適用して音声波形を生成する。
【選択図】図1

Description

本発明の実施形態は、音声合成装置、音声合成方法およびプログラムに関する。
音声の特徴パラメータから音声波形を生成する装置を音声合成装置という。音声合成装置の1つとして、ソースフィルタ型の音声合成装置が用いられている。ソースフィルタ型の音声合成装置は、声帯振動による音源成分を表すパルス音源や空気の乱流などによる音源を表す雑音音源から生成した音源信号(励振源信号)を入力し、声道特性などを表すスペクトル包絡のパラメータによってフィルタリングを行うことによって音声波形を生成する。音源信号は、単純には、有声音区間には基本周波数系列から得られるピッチ情報に従って作成するパルス信号を用い、無声音区間にはガウスノイズ信号を用い、これらを切り替えることによって作成することができる。また、声道フィルタとしては、スペクトル包絡パラメータとして線形予測係数を利用した場合の全極フィルタをはじめ、PARCOR係数のための格子形フィルタ、LSPパラメータのためのLSP合成フィルタ、および、ケプストラムパラメータのためのLMAフィルタ(対数振幅近似フィルタ)などが用いられる。また、声道フィルタとして、非直線周波数に対応した、メルLPCのためのメル全極フィルタ、メルケプストラムのためのMLSAフィルタ(メル対数スペクトル近似フィルタ)、および、メル一般化ケプストラムのためのMGLSAフィルタ(メル一般化対数スペクトル近似フィルタ)なども用いられる。
このようなソースフィルタ型音声合成装置に用いる音源信号は、上述したようなパルス音源と雑音音源の切り替えによって作成することができる。しかし、単純にパルスと雑音を切り替えた場合、例えば有声摩擦音など、高い周波数領域は雑音的な信号、低い周波数領域は周期的な信号になるような、雑音成分と周期成分が混合された信号に用いた場合、バジー感が生じて不自然な音質になる。
この問題に対応するため、MELP(混合励振線形予測)など、ある周波数より高い帯域は雑音音源とし、低い帯域はパルス音源として切り替えることにより生じるバズ(buzz)音またはブザー的な音による劣化を防ぐ技術が提案されている。また、より適切に混合音源を作成するために、信号をサブバンドに帯域分割し、サブバンドごとに雑音音源とパルス音源を混合比に従って混合する技術も用いられている。
特許第3292711号公報
Heiga Zen and Tomoki Toda,"An Overview of Nitech HMM−based Speech Synthesis System for Blizzard Challenge 2005," Proc. of Interspeech2005(Eurospeech),pp.93−96,Lisbon,Sept.2005.
しかしながら、従来技術では、再生音声の生成時に雑音信号およびパルス信号に帯域通過フィルタを適用するため、高速に波形生成することができないという問題があった。
実施形態の音声合成装置は、第1記憶部と、第2記憶部と、パラメータ入力部と、切出部と、振幅制御部と、生成部と、重畳部と、声道フィルタ部とを備える。第1記憶部は、n個の帯域通過フィルタを雑音信号に適用したn個の帯域雑音信号を記憶する。第2記憶部は、n個の帯域通過フィルタをパルス信号に適用したn個の帯域パルス信号を記憶する。パラメータ入力部は、基本周波数、n個の帯域雑音強度およびスペクトルパラメータを入力する。切出部は、ピッチマークごとにn個の帯域雑音信号をシフトしながら切り出す。振幅制御部は、切り出した帯域雑音信号の振幅と帯域パルス信号の振幅とを帯域雑音強度に応じて変更する。生成部は、n個の帯域雑音信号とn個の帯域パルス信号とを加算した混合音源信号を生成する。重畳部は、ピッチマークに基づいて生成された混合音源信号を重畳する。声道フィルタ部は、重畳された混合音源信号にスペクトルパラメータを用いた声道フィルタを適用して音声波形を生成する。
第1の実施形態にかかる音声合成装置のブロック図。 音源信号生成部のブロック図。 音声波形の例を示す図。 入力するパラメータの一例を示す図。 帯域通過フィルタの仕様の一例を示す図。 雑音信号と、雑音信号から作成される帯域雑音信号の一例を示す図。 パルス信号から作成される帯域パルス信号の一例を示す図。 音声波形の例を示す図。 基本周波数系列、ピッチマーク、および帯域雑音強度系列の一例を示す図。 混合音源作成部の処理の詳細を示す図。 重畳部によって作成された混合音源信号の例を示す図。 音声波形の一例を示す図。 第1の実施形態における音声合成処理の全体の流れを示すフローチャート。 合成音声のスペクトログラムを示す図。 声道フィルタ部のブロック図。 メルLPCフィルタ部の回路図。 第2の実施形態にかかる音声合成装置のブロック図。 スペクトル算出部のブロック図。 音声波形を音声分析部が分析する例を示す図。 フレーム位置を中心として分析したスペクトルの一例を表す図。 39次のメルLSPパラメータの一例を示す図。 音声波形と、当該音声波形の周期成分および雑音成分を表す図。 音声波形を音声分析部が分析する例を示す図。 雑音成分指標の一例を示す図。 帯域雑音強度の一例を示す図。 後処理の具体例を説明するための図。 境界周波数からより得られた帯域雑音強度を示す図。 第2の実施形態におけるスペクトルパラメータ算出処理の全体の流れを示すフローチャート。 第2の実施形態における帯域雑音強度算出処理の全体の流れを示すフローチャート。 第3の実施形態にかかる音声合成装置のブロック図。 left−right型HMMの一例を示す図。 決定木の一例を示す図。 音声パラメータ生成処理を説明するための図。 第3の実施形態における音声合成処理の全体の流れを示すフローチャート。 第1〜第3の実施形態にかかる音声合成装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる音声合成装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
第1の実施形態にかかる音声合成装置は、予め帯域通過フィルタを適用したパルス信号(帯域パルス信号)および雑音信号(帯域雑音信号)を記憶し、帯域雑音信号から巡回シフトまたは往復シフトさせながら切り出した帯域雑音信号を用いてソースフィルタモデルの音源信号を生成することにより、高速に音声波形を生成する。
図1は、第1の実施形態にかかる音声合成装置100の構成の一例を示すブロック図である。音声合成装置100は、合成する音声の基本周波数系列、帯域雑音強度系列、およびスペクトルパラメータ系列からなる音声パラメータ列を入力して音声波形を生成するソースフィルタ型の音声合成装置である。
図1に示すように、音声合成装置100は、第1パラメータ入力部11と、音源信号を生成する音源信号生成部12と、声道フィルタを適用する声道フィルタ部13と、音声波形を出力する波形出力部14と、を備えている。
第1パラメータ入力部11は、音声波形を生成するための特徴パラメータを入力する。第1パラメータ入力部11は、基本周波数または基本周期の情報を表す系列(以降基本周波数系列と記載する)とスペクトルパラメータの系列とを少なくとも含む特徴パラメータの系列を入力する。
基本周波数系列としては、有声音のフレームにおける基本周波数の値と、無声音のフレームは0に固定するなど予め定めた無声音フレームであることを示す値との系列を用いる。有声音のフレームでは、周期信号のフレームごとのピッチ周期、基本周波数(F)、または対数Fなどの値が記録されている。本実施形態では、フレームとは、音声信号の区間を示す。固定のフレームレートによって分析する場合、例えば5msごとに特徴パラメータを持つことになる。
スペクトルパラメータは、音声のスペクトル情報をパラメータとして表現したものである。基本周波数系列と同様に、固定のフレームレートで分析した場合、例えば5msごとの区間に対応するパラメータ系列を蓄積している。スペクトルパラメータとしては様々なパラメータを用いることができるが、本実施形態では、一例として、メルLSPをパラメータとして利用する場合について記述する。この場合、1つのフレームに対応するスペクトルパラメータは、1次元のゲイン成分を表す項と、p次元の線スペクトル周波数とから構成される。ソースフィルタ型音声合成は、これら基本周波数系列および、スペクトルパラメータ系列を入力して音声を生成する。
本実施形態では、第1パラメータ入力部11は、さらに帯域雑音強度系列を入力する。帯域雑音強度系列とは、フレームごとの帯域雑音強度の系列である。帯域雑音強度とは、各フレームのスペクトル中の所定の周波数帯域における雑音成分の強さを、該当する帯域のスペクトル全体に対する比率として表す情報である。帯域雑音強度は、比率の値、または、比率の値をデシベルに変換した値などにより表わされる。第1パラメータ入力部11は、このように基本周波数系列、スペクトルパラメータ系列、および帯域雑音強度系列を入力する。
音源信号生成部12は、入力された基本周波数系列および帯域雑音強度系列から音源信号を生成する。図2は、音源信号生成部12の構成例を示すブロック図である。図2に示すように、音源信号生成部12は、第1記憶部221と、第2記憶部222と、第3記憶部223と、第2パラメータ入力部201と、判断部202と、ピッチマーク作成部203と、混合音源作成部204と、重畳部205と、雑音音源作成部206と、接続部207と、を備えている。
第1記憶部221は、雑音信号に対して、所定のn個(nは2以上の整数)の通過帯域の周波数帯域をそれぞれ通過させるn個の帯域通過フィルタを適用して得られるn個の雑音信号を表す帯域雑音信号を記憶する。第2記憶部222は、パルス信号に対して、上記n個の帯域通過フィルタを適用して得られるn個のパルス信号を表す帯域パルス信号を記憶する。第3記憶部223は、無声音源作成のための雑音信号を記憶する。以下では、n=5、すなわち、5つに分割した通過帯域の帯域通過フィルタにより得られる5つの帯域雑音信号および帯域パルス信号を用いる例を説明する。
なお、第1記憶部221、第2記憶部222、および第3記憶部223は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
第2パラメータ入力部201は、基本周波数系列と、帯域雑音強度系列とを入力する。判断部202は、基本周波数系列の着目しているフレームが無声音のフレームか否かを判断する。例えば、判断部202は、基本周波数系列中で無声音フレームの値を0としている場合は、当該フレームの値が0か否かを判定することによって、無声音のフレームか否かを判断する。
ピッチマーク作成部203は、フレームが有声音の場合に、ピッチマーク列を作成する。ピッチマーク列は、ピッチパルスを配置する時刻の列を表す情報である。ピッチマーク作成部203は、基準時刻を定め、当該基準時刻におけるピッチ周期を基本周波数系列内の該当するフレームの値から計算し、該ピッチ周期の長さ分進めた時刻にマークを付与する処理を繰り返すことにより、ピッチマークを作成する。ピッチマーク作成部203は、基本周波数の逆数を求めることによりピッチ周期を計算する。
混合音源作成部204は、混合音源信号を作成する。本実施形態では、混合音源作成部204は、帯域雑音信号および帯域パルス信号の波形重畳によって混合音源信号を作成する。混合音源作成部204は、切出部301と、振幅制御部302と、生成部303とを備えている。
切出部301は、合成する音声のピッチマークごとに、第1記憶部221に記憶されたn個の帯域雑音信号のそれぞれをシフトしながら切り出す。第1記憶部221に記憶されている帯域雑音信号は有限長であるため、帯域雑音を切り出す際には、有限な帯域雑音信号を繰り返し利用する必要がある。シフトとは、ある時点で利用した帯域雑音信号サンプルの隣のサンプルを次の時点において利用する、帯域雑音信号からサンプル点の決定方法であり、例えば巡回シフト、もしくは往復シフトによって実現できる。このため、切出部301は、例えば巡回シフトまたは往復シフトによって有限な長さの帯域雑音信号から任意の長さの音源信号を切り出す。巡回シフトとは、予め用意されている帯域雑音信号を先頭から順に用い、終端まで到達した場合に、先頭を終端の後続点とみなして、再度先頭から順に利用していくシフト方法である。往復シフトとは、終端まで到達した場合に逆方向に先頭に向かって順に利用し、先頭まで到達したら再度終端に向かって順に利用していくシフト方法である。
振幅制御部302は、n個の帯域ごとに、切り出した帯域雑音信号の振幅と、第2記憶部222に記憶された帯域パルス信号の振幅とを、入力された帯域雑音強度系列に応じて変更する振幅制御を行う。生成部303は、振幅制御したn個の帯域雑音信号およびn個の帯域パルス信号を加算したピッチマークごとの混合音源信号を生成する。
重畳部205は、生成部303により得られた混合音源信号を、ピッチマークに従って重畳合成することにより、有声音の音源である混合音源信号を作成する。
雑音音源作成部206は、判断部202で無声音と判断された場合に、第3記憶部223に記憶されている雑音信号を利用して雑音音源信号を作成する。
接続部207は、重畳部205により得られた有声音区間に対応する混合音源信号と、雑音音源作成部206により得られた無声音区間に対応する雑音音源信号とを接続する。
図1に戻り、声道フィルタ部13は、接続部207により得られた音源信号と、スペクトルパラメータ系列から音声波形を生成する。メルLSPパラメータを用いた場合、例えば声道フィルタ部13は、メルLSPからメルLPCに変換し、メルLPCフィルタを利用してフィルタリングを行うことにより、音声波形を生成する。声道フィルタ部13が、メルLSPをメルLPCに変換せず、メルLSPから直接波形生成するフィルタを適用することにより音声波形を生成するように構成してもよい。また、スペクトルパラメータはメルLSPに限定するものではなく、ケプストラム、メルケプストラム、線形予測係数等、およびスペクトル包絡をパラメータとして表し、声道フィルタとして波形生成できるスペクトルパラメータであればよい。メルLSP以外のスペクトルパラメータを用いる場合も、声道フィルタ部13は、それぞれのパラメータに対応した声道フィルタを適用することにより波形生成を行う。波形出力部14は、得られた音声波形を出力する。
以下、このように構成された音声合成装置100により音声合成の具体例を説明する。図3は、以下の説明に用いる音声波形の例を示す図である。図3は、「After the T−Junction, turn right.」という音声の音声波形の例である。以下、図3の音声波形を利用し、分析した音声パラメータから波形生成を行う例を示す。
図4は、第1パラメータ入力部11で入力する、スペクトルパラメータ系列(メルLSPパラメータ)、基本周波数系列、および帯域雑音強度系列の一例を示す図である。LSPパラメータは、線形予測分析の結果から変換したパラメータであり、周波数の値として表される。メルLSPパラメータは、メル周波数スケール上で求めたLSPパラメータであり、メルLPCパラメータから変換して作成される。図4のメルLSPパラメータは、音声のスペクトログラム上にメルLSPパラメータをプロットしたものである。無音区間や雑音的な区間ではノイズ的な変化になり、有声音の区間ではフォルマント周波数の変化に近い動きをしている。メルLSPパラメータは、ゲイン項と、図4の例では16次のパラメータとで表されており、ゲイン成分を同時に示している。
基本周波数系列は、図4の例ではHz単位で表されている。基本周波数系列は、無声音の区間は0とし、有声音の区間はその基本周波数の値を保持している。
帯域雑音強度系列は、図4の例では、5つの帯域に分割したそれぞれの帯域(band1〜band5)の雑音成分の強さを、スペクトルに対する割合で示したパラメータであり、0から1の間の値になる。無声音の区間は全帯域雑音成分であるとみなすため、帯域雑音強度の値は1となる。有声音の区間では、帯域雑音強度は1未満の値を持つ。一般的に高い帯域で雑音成分は強くなる。また、有声摩擦音の高域成分では、帯域雑音強度は1に近い高い値になる。なお、基本周波数系列は対数基本周波数としてもよく、帯域雑音強度はデシベル単位で保持してもよい。
上述のように、第1記憶部221は、帯域雑音強度系列のパラメータに対応した帯域雑音信号を記憶している。帯域雑音信号は、雑音信号に帯域通過フィルタを適用することにより作成される。図5は、帯域通過フィルタの仕様の一例を示す図である。図5は、BPF1からBPF5の5つのフィルタの周波数に対する振幅を表している。図5の例では、16kHzサンプリングの音声信号を用いて、1kHz、2kHz、4kHz、および6kHzを境界とし、境界間の中心周波数を中心とした以下の(1)式で表されるハニング窓関数により形状を作成している。
Figure 2012048154
このように定めた周波数特性から、帯域通過フィルタを作成し、雑音信号に適用することで帯域雑音信号および帯域パルス信号が作成される。図6は、第3記憶部223に記憶される雑音信号と、この雑音信号から作成され第1記憶部221に記憶される帯域雑音信号の一例を示す図である。図7は、パルス信号から作成され第2記憶部222に記憶される帯域パルス信号の一例を示す図である。
図6は、64ms(1024点)の雑音信号に対し、図5に示す振幅特性の帯域通過フィルタBPF1からBPF5を適用し、帯域雑音信号BN1からBN5が作成される例を示している。図7は、同様の手順により、パルス信号Pに対し、BPF1からBPF5を適用し、帯域パルス信号BP1からBP5が作成される例を示している。図7では、3.125ms(50点)の長さの信号を作成している。
図6および図7のBPF1からBPF5は、図5の周波数特性から作成されるフィルタである。BPF1からBPF5は、各振幅特性に対し零位相として逆FFTし、端にハニング窓をかけることによって作成している。帯域雑音信号は、このように得られたフィルタを用いて畳み込み演算により作成される。なお、図6に示すように、第3記憶部223は帯域通過フィルタを適用する前の雑音信号Nを記憶している。
図8〜図12は、図1に示す音声合成装置100の動作例を説明するための図である。音源信号生成部12の第2パラメータ入力部201は、上述した基本周波数系列および帯域雑音強度系列を入力する。判断部202は、処理対象のフレームの基本周波数系列の値が0であるか否かを判断する。値が0以外の場合、すなわち、有声音の場合は、ピッチマーク作成部203へ処理が進む。
ピッチマーク作成部203は、基本周波数系列からピッチマーク系列を作成する。図8は、例として用いる音声波形を示している。この音声波形は、図4に示した基本周波数系列の1.8秒付近から1.95秒付近(T−junctionの“ju”付近)を拡大した波形である。
図9は、図8の音声波形(音声信号)に対応する基本周波数系列、ピッチマーク、および帯域雑音共同系列の一例を示す図である。図9の上部のグラフが、図8の音声波形の基本周波数系列を表す。ピッチマーク作成部203は、この基本周波数系列から開始点を設定し、現在の位置での基本周波数からピッチ周期を求め、該ピッチ周期を加えた時刻を次のピッチマークとする処理を繰り返すことにより図9の中央部に示すようなピッチマークを作成する。
混合音源作成部204は、ピッチマーク列と、帯域雑音強度系列とから各ピッチマークでの混合音源信号を作成する。図9の下部の2つのグラフは、1.85秒付近および、1.91秒付近のピッチマークでの帯域雑音強度の例を示している。このグラフの横軸は周波数であり、縦軸は強度(0から1の値)である。2つのグラフのうち左側のグラフは、「j」の音素に対応しており、有声摩擦音区間なので、高域は雑音成分が強くなり1.0付近になっている。2つのグラフのうち右側のグラフは、有声音である「u」の音素に対応しており、低域は0に近く、高域でも0.5程度になっている。これら各ピッチマークに対応した帯域雑音強度は、各ピッチマークに隣接したフレームの帯域雑音強度から線形補間することにより作成することができる。
図10は、混合音源信号を作成する混合音源作成部204の処理の詳細を示す図である。まず、切出部301が、第1記憶部221に記憶された各帯域の帯域雑音信号に対して、ピッチの2倍の長さのハニング窓(HAN)をかけることにより帯域雑音信号を切り出す。切出部301は、巡回シフトを用いる場合は、以下の(2)式により帯域雑音信号bn (t)を切り出す。
Figure 2012048154
ここで、bn (t)は、時刻t、帯域b、ピッチマークpにおける帯域雑音信号を表す。bandnoiseは、第1記憶部221に記憶されている帯域bの帯域雑音信号を表す。Bは、bandnoiseの長さを表す。%は剰余演算子を表す。pitは、ピッチを表す。pmは、ピッチマーク時刻を表す。“0.5−0.5cos(t)”は、ハニング窓の式を表している。
振幅制御部302は、(2)式により切り出された各帯域の帯域雑音信号に対して、各帯域の帯域雑音強度BAP(b)を乗じて、BN0からBN4の帯域雑音信号を作成する。振幅制御部302は、第2記憶部222に記憶されている帯域パルス信号に(1.0−BAP(b))を乗じることにより、BP0からBP4の帯域パルス信号を作成する。振幅制御部302は、各帯域の帯域雑音信号(BN0〜BN4)および帯域パルス信号(BP0からBP4)を、中心位置を揃えて加算することにより、混合音源信号MEを作成する。
すなわち、振幅制御部302は、以下の(3)式により混合音源信号me(t)を作成する。ここで、bandpulse(t)は、帯域bのパルス信号を表しており、bandpulse(t)は中心が時刻0となるように作成されているものとしている。
Figure 2012048154
以上の処理により、各ピッチマークにおける混合音源信号が作成される。なお、巡回シフトではなく往復シフトを用いる場合は、式(2)におけるt%Bの部分が、時刻0においてt=0とし、続いてt=t+1として順に移動し、t=Bとなった時点から、t=t−1として移動し、再度t=0となった時点からt=t+1として移動していくことを繰り返すように変更される。すなわち、巡回シフトの場合は、帯域雑音信号を始点から順にシフトして終点に達した次時刻で始点にシフトすることを繰り返す。往復シフトの場合は、終点に達した次時刻で逆方向にシフトすることを繰り返す。
次に重畳部205が、ピッチマーク作成部203によって作成されたピッチマークに従って、作成された混合音源信号を重畳し、区間全体の混合音源信号を作成する。図11は、重畳部205によって作成された混合音源信号の例を示す図である。図11に示すように、これまでの処理により、有声摩擦音区間では雑音信号が強くなり、母音区間ではパルス信号の強い適切な混合音源信号が生成されていることがわかる。
上述した処理は有声音区間に対する処理であり、無声音区間では、第3記憶部223に記憶されている雑音信号から合成する無声音区間または無音区間の雑音音源信号が作成される。例えば記憶された雑音信号をコピーすることにより、無声音区間の雑音音源信号が作成される。
接続部207は、このように作成された有声音区間における混合音源信号と、無声音または無音区間の雑音音源信号を接続し、文全体の音源信号を作成する。なお、(3)式では帯域雑音強度のみをかけているが、さらに振幅を制御する値をかけてもよい。例えばピッチによって定まる音源信号のスペクトルの振幅を1とするような値をかけることで、適切な音源信号が作成される。
次に、声道フィルタ部13が、接続部207に得られた音源信号にスペクトルパラメータ(メルLSPパラメータ)による声道フィルタを適用し、音声波形を生成する。図12は、得られた音声波形の一例を示す図である。
次に、第1の実施形態にかかる音声合成装置100による音声合成処理について図13を用いて説明する。図13は、第1の実施形態における音声合成処理の全体の流れを示すフローチャートである。
図13は、第1パラメータ入力部11により基本周波数系列、スペクトルパラメータ系列および帯域雑音強度系列が入力された後に開始され、音声フレーム単位で処理される。
まず、判断部202が、処理対象のフレームが有声音か否かを判断する(ステップS101)。有声音の場合(ステップS101:Yes)、ピッチマーク作成部203が、ピッチマーク列を作成する(ステップS102)。この後、ピッチマーク単位でステップS103〜ステップS108の処理がループして実行される。
まず、混合音源作成部204は、入力された帯域雑音強度系列から各ピッチマークにおける各帯域の帯域雑音強度を算出する(ステップS103)。この後、帯域ごとにステップS104およびステップS105の処理がループして実行される。すなわち、切出部301が、現在処理している帯域の帯域雑音信号を、第1記憶部221に記憶された対応する帯域の帯域雑音信号から切り出す(ステップS104)。また、混合音源作成部204は、現在処理している帯域の帯域パルス信号を、第2記憶部222から読み出す(ステップS105)。
混合音源作成部204は、すべての帯域を処理したか否かを判断し(ステップS106)、処理していない場合(ステップS106:No)、ステップS104に戻り次の帯域に対して処理を繰り返す。すべての帯域を処理した場合(ステップS106:Yes)、生成部303が、各帯域に対して得られた帯域雑音信号および帯域パルス信号を加算し、全帯域の混合音源信号を作成する(ステップS107)。次に、重畳部205が、得られた混合音源信号を重畳する(ステップS108)。
次に、混合音源作成部204は、すべてのピッチマークを処理したか否かを判断し(ステップS109)、処理していない場合(ステップS109:No)、ステップS103に戻り次のピッチマークに対して処理を繰り返す。
ステップS101で、有声音でないと判断された場合(ステップS101:No)、雑音音源作成部206が、第3記憶部223に記憶されている雑音信号を用いて無声音の音源信号(雑音音源信号)を作成する(ステップS110)。
ステップS110で雑音音源信号生成後、または、ステップS109すべてのピッチマークを処理したと判断された場合(ステップS109:Yes)、接続部207が、ステップS109で得られた有声音の混合音源信号と、ステップS110で得られた無声音の雑音音源信号とを接続して、文全体の音源信号を作成する(ステップS111)。
音源信号生成部12は、すべてのフレームを処理したか否かを判断し(ステップS112)、処理していない場合(ステップS112:No)、ステップS101に戻り処理を繰り返す。すべてのフレームを処理した場合(ステップS112:Yes)、声道フィルタ部13が、文全体の音源信号に声道フィルタを適用することで合成音声を作成する(ステップS113)。次に、波形出力部14が合成音声の波形を出力し(ステップS114)、音声合成処理を終了する。
なお、音声合成処理の順序は図13に限定するものではなく適宣変更してもよい。例えば、音源の作成と声道フィルタとをフレームごとに同時に行ってもよい。また、文全体のピッチマークを作成してから、音声フレームのループを行ってもよい。
上述した手順で混合音源信号を作成することにより、波形生成時に帯域通過フィルタを適用する必要がなくなるため、従来法より高速に波形生成を行うことができる。例えば、有声音部分の1点あたりの音源作成のための計算量(積の回数)は、B(帯域数)×3(パルス信号と雑音信号の強度制御と、窓かけ)×2(重畳合成)のみである。従って、例えば50タップのフィルタリングを行いつつ波形生成する場合(B×53×2)と比べると、計算量は大幅に小さく抑えられる。
なお、上述した処理では、ピッチマークごとの混合音源波形(混合音源信号)生成とその重畳により文全体の混合音源信号を作成しているが、これに限定するものではない。例えば、ピッチマークごとの帯域雑音強度を、入力された帯域雑音強度を補間して算出し、第1記憶部221に記憶されている帯域雑音信号に、算出された帯域雑音強度を掛けることによりピッチマークごとの混合音源信号を順に作成し、帯域パルス信号のみピッチマーク位置に重畳合成する方法などによっても、文全体の混合音源信号を作成することができる。
上述したように、第1の実施形態の音声合成装置100では、帯域雑音信号を予め作成しておくことにより処理の高速化を行っている。しかし、雑音音源に用いる白色雑音信号は周期性を持たないことが特徴である。従って、予め作成した雑音信号を記憶しておく方法では、雑音信号の長さによる周期性が生じる。例えば、巡回シフトを用いた場合には、バッファの長さの周期の周期性が生じ、往復シフトを用いた場合にはバッファの長さの2倍の周期の周期性が生じる。この周期性は、帯域雑音信号の長さが周期性を知覚する範囲を超える場合には知覚されず、問題は生じない。しかし、周期性を知覚する範囲の長さしか帯域雑音信号を用意していない場合には、不自然なブザー音や不自然な周期音が生じ、合成音声の音質劣化の原因となる。ただし、帯域雑音信号は短いほど記憶領域の利用量が減少するために、メモリ量の観点では短い方が望ましい。
そこで、第1記憶部221が、音質劣化しない最小の長さとして予め定められた規定長以上の長さの帯域雑音信号を記憶するように構成してもよい。規定長は例えば以下のように定めることができる。図14は、帯域雑音信号の長さを変更した場合の合成音声のスペクトログラムを示す図である。図14は、上から帯域雑音信号の長さを2ms、4ms、5ms、8ms、16ms、および1sに変更したときの“He danced a jig there and then on a rush thatch.”という文を合成した場合のスペクトログラムを示している。
2msのスペクトルでは、無声音の部分「c、j、sh、ch」の音素付近などで横縞が観察される。これは、周期性が生じ、ブザー的な音になっている場合に現れるスペクトルである。この場合は、通常の合成音声として利用できる音質は得られない。帯域雑音信号を長くするほど横方向の縞模様は減少し、16msおよび1s程度の長さとした場合にはほとんど横方向の縞模様は観察されなくなる。これらのスペクトルを比較すると、5msより短い場合は、横方向の縞模様が明確に現れている。例えば、4msの“sh”付近のスペクトルの領域1401では、黒の横線が明確に現れているのに対し、5msの対応する領域1402では、縞模様は不明瞭になっている。このことから、5msより短い帯域雑音信号長では、メモリサイズは少なくなるものの利用可能ではないことがわかる。
以上から、規定長を5msとし、第1記憶部221が、5ms以上の長さの帯域雑音信号を記憶するように構成してもよい。これにより高品質な合成音声が得られることになる。このように第1記憶部221に含まれる帯域雑音信号を短くする場合には、高域の信号ほど周期性は短くなり、また振幅も小さくなる傾向がある。このため、低域ほど長くし、高域ほど短くしてもかまわない。また、例えば低域成分のみ規定長(例えば5ms)以上に限定し、高域成分は規定長より短くしてもかまわない。これにより、さらに効率よく帯域雑音を記憶することができ、かつ高品質な合成音声が得られる。
次に、声道フィルタ部13の詳細について説明する。図15は、声道フィルタ部13の構成例を示すブロック図である。図15に示すように、声道フィルタ部13は、メルLSPメルLPC変換部111と、メルLPCパラメータ変換部112と、メルLPCフィルタ部113とを備えている。
声道フィルタ部13は、スペクトルパラメータによるフィルタリングを行う。メルLSPパラメータから波形生成する場合は、図15に示すように、まず、メルLSPメルLPC変換部111が、メルLSPパラメータをメルLPCパラメータに変換する。次に、メルLPCパラメータ変換部112が、変換されたメルLPCパラメータからゲイン項くくりだしの処理を行ってフィルタパラメータを求める。次に、メルLPCフィルタ部113が、得られたフィルタパラメータからメルLPCフィルタによってフィルタリングを行う。図16は、メルLPCフィルタ部113の一例を示す回路図である。
メルLSPパラメータは、次数が偶数の場合、A(z−1)を伝達関数の分母を表す式とした場合、以下の(4)式のωおよびθとして表されるパラメータである。
Figure 2012048154
メルLSPメルLPC変換部111は、これらのパラメータをz−1の時数ごとに展開した係数aを計算する。αは、周波数ワーピングパラメータを表し、16kHzサンプリングの音声の場合は0.42などの値が用いられる。メルLPCパラメータ変換部112は、(4)式を展開して得られた線形予測係数aからゲイン項をくくりだして、フィルタに用いるパラメータを作成する。フィルタ処理に用いるbは、以下の(5)式によって算出できる。
Figure 2012048154
なお、図4のメルLSPパラメータがωおよびθであり、ゲイン項がgであり、変換したゲイン項がg’で表されている。図16のメルLPCフィルタ部113は、これらの処理によって得られたパラメータを用いてフィルタリングを行う。
このように、第1の実施形態にかかる音声合成装置100では、第1記憶部221に記憶されている帯域雑音信号および第2記憶部222に記憶されている帯域パルス信号を用いて混合音源信号を作成し、声道フィルタの入力に用いることにより、適切に制御された混合音源信号を用いて高速かつ高品質に音声波形を合成することが可能となる。
(第2の実施形態)
第2の実施形態にかかる音声合成装置200は、ピッチマークと音声波形を入力し、ピッチ同期分析したスペクトルを固定フレームレートに補間することにより得られたスペクトルにより音声を分析して音声パラメータを生成する。これにより精密な音声分析が可能になり、このようにして生成された音声パラメータから音声を合成することで、高品質な合成音声を作成することが可能になる。
図17は、第2の実施形態にかかる音声合成装置200の構成の一例を示すブロック図である。図17に示すように、音声合成装置200は、入力した音声信号を分析する音声分析部120と、第1パラメータ入力部11と、音源信号生成部12と、声道フィルタ部13と、波形出力部14と、を備えている。
第2の実施形態では、音声分析部120を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる音声合成装置100の構成を表すブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
音声分析部120は、音声信号を入力する音声入力部121と、スペクトルを算出するスペクトル算出部122と、得られたスペクトルから音声パラメータを算出するパラメータ算出部123とを備えている。
以下、音声分析部120の処理について述べる。音声分析部120は、入力した音声信号から音声パラメータ列を算出する。音声分析部120は、固定フレームレートの音声パラメータを求めるものとする。すなわち、固定のフレームレートの時間間隔による音声パラメータを求めて出力する。
音声入力部121は、分析対象の音声信号を入力する。音声入力部121は、音声信号に対するピッチマーク系列、基本周波数系列、および、有声フレームか無声フレームかを判別するフレーム判別情報も同時に入力してもよい。スペクトル算出部122は、入力された音声信号から固定のフレームレートのスペクトルを算出する。ピッチマーク系列、基本周波数系列およびフレーム判別情報を入力しない場合は、スペクトル算出部122がこれらの情報も抽出する。これらの抽出では、従来から用いられている様々な有声/無声判別方法、ピッチ抽出方法、およびピッチマーク作成方法を用いることができる。例えば、波形の自己相関値に基づいてこれらの情報を抽出することができる。以下では、これらの情報は予め付与され、音声入力部121で入力されるものとして記述する。
スペクトル算出部122は、入力された音声信号からスペクトルを算出する。本実施形態ではピッチ同期分析したスペクトルを補間することによって固定フレームレートのスペクトルを算出する。
パラメータ算出部123は、スペクトル算出部122で算出されたスペクトルからスペクトルパラメータを求める。メルLSPパラメータを用いる場合は、パラメータ算出部123は、パワースペクトルからメルLPCパラメータを算出し、メルLPCパラメータから変換することによってメルLSPパラメータを求めることができる。
図18は、スペクトル算出部122の構成例を示すブロック図である。図18に示すように、スペクトル算出部122は、波形抽出部131と、スペクトル分析部132と、補間部133と、指標算出部134と、境界周波数抽出部135と、補正部136と、を備えている。
スペクトル算出部122は、波形抽出部131によりピッチマークに従ってピッチ波形を抽出し、スペクトル分析部132によりピッチ波形のスペクトルを求め、補間部133により固定のフレームレートの各フレーム中心の前後に隣接するピッチマークのスペクトルを補間することにより、該当フレームにおけるスペクトルを算出する。以下、波形抽出部131、スペクトル分析部132、および、補間部133の機能の詳細について説明する。
波形抽出部131は、ピッチマーク位置を中心とし、ピッチの2倍のハニング窓を音声波形にかけることによりピッチ波形を抽出する。スペクトル分析部132は、得られたピッチ波形に対してフーリエ変換を行って振幅スペクトルを求めることにより、該ピッチマークにおけるスペクトルを算出する。補間部133は、このように得られた各ピッチマークのスペクトルを補間することにより、固定フレームレートのスペクトルを求める。
従来のスペクトル分析に広く用いられている固定の分析窓長および固定フレームレートの分析を行う場合は、フレーム中心位置を中心とした固定の分析窓長の窓関数を用いて音声を切り出し、切り出した音声から各フレーム中心のスペクトルのスペクトル分析を行う。
例えば、25msの窓長のブラックマン窓による分析、および、5msのフレームレートなどが用いられる。この場合、一般的に窓関数の長さはピッチの数倍程度のものが用いられ、有声音の音声波形の周期性を含む波形、または、有声音および無声音が混在された波形を用いてスペクトル分析が行われる。このため、パラメータ算出部123でのスペクトルパラメータ分析の際に、周期性に起因するスペクトルの微細構造を取り除くようなパラメータ化が必要になる。従って、高い次数の特徴パラメータを用いることは困難である。また、フレームの中心位置の位相の違いもスペクトル分析に影響を与え、求められるスペクトルが不安定になる場合がある。
これに対し、本実施形態のようにピッチ同期分析したピッチ波形のスペクトルの補間によって音声パラメータを求める場合は、より適切な分析窓長で分析を行うことができる。このため、精密なスペクトルが得られ、ピッチに起因する周波数方向の微細変動が生じない。また、分析中心時刻の位相のずれに起因するスペクトルの変動も低減されたスペクトルが得られ、高い次数の精密な特徴パラメータを求めることができる。
非特許文献1に記載されているSTRAIGHT方式によるスペクトル算出は、本実施形態と同様に、ピッチ長程度の長さのスペクトルを、時間方向平滑化および周波数方向平滑化によって求めている。STRAIGHT方式は、ピッチマークを入力せず、基本周波数系列と音声波形とからスペクトル分析を行う。スペクトルの時間方向平滑化によって、分析中心位置のずれに起因するスペクトルの微細構造を取り除き、周波数方向平滑化によってハーモニクス間を補間するような滑らかなスペクトル包絡を求める。しかし、STRAIGHT方式は、周期性の明瞭でない有声破裂音の立ち上がりの部分や声門閉鎖音などの基本周波数抽出が難しい区間における分析は困難であり、また処理も複雑で効率的に計算することはできない。
本実施形態によるスペクトル分析は、有声破裂音等では、隣接する有声音のピッチマークから、滑らかに変化する擬似的なピッチマークを付与することで基本周波数抽出の困難な区間でも大きな影響を受けずに分析することができる。また、フーリエ変換とその補間とで計算できるため、高速に分析を行うことができる。このように、本実施形態では、音声分析部120により、有声音の周期性の影響を取り除いた各フレーム時刻での精密なスペクトル包絡を求めることができる。
なお、これまではピッチマークを保持している有声音区間の分析方法について述べた。無声音の区間では、スペクトル算出部122は、固定のフレームレート(例えば5ms)および固定の窓長(例えば10msの窓長のハニング窓)によりスペクトル分析する。また、パラメータ算出部123は、得られたスペクトルをスペクトルパラメータに変換する。
音声分析部120は、スペクトルパラメータのみでなく、帯域強度パラメータ(帯域雑音強度系列)も同様の処理により求めることができる。予め周期成分および雑音成分に分離した音声波形(周期成分音声波形および雑音成分音声波形)を用意し、この音声波形を用いて帯域雑音強度系列を求める場合は、音声入力部121が、周期成分音声波形および雑音成分音声波形を同時に入力する。
音声波形から周期成分音声波形と雑音成分音声波形への分離は、例えばPSHF(Pitch−scaled Harmonic Filter)の方法によって行うことができる。PSHFでは、基本周期の数倍の長さのDFT(Discrete Fourier Transform)を用いる。PSHFでは、基本周波数の整数倍位置以外の位置でのスペクトルをつないだスペクトルを雑音成分とし、基本周波数の整数倍位置におけるスペクトルを周期成分スペクトルとして、それぞれのスペクトルから作成される波形が求められ、雑音成分音声波形と周期成分音声波形に分離される。
周期成分と雑音成分の分離はこの方法に限るものではない。本実施形態では、音声入力部121によって雑音成分音声波形を音声波形と共に入力し、スペクトルの雑音成分指標を求め、得られた雑音成分指標から帯域雑音強度系列を算出する例を説明する。
この場合、スペクトル算出部122は、雑音成分指標をスペクトルと同時に算出する。雑音成分指標は、スペクトル中の雑音成分の割合を表すパラメータである。雑音成分指標は、スペクトルと同じ点数で表され、スペクトルの各次元に対応した雑音成分の割合を0から1の値として表したパラメータである。ただし、デシベル単位としたものを用いてもよい。
波形抽出部131は、入力した音声波形に対するピッチ波形と共に、雑音成分波形から雑音成分ピッチ波形を抽出する。波形抽出部131は、雑音成分ピッチ波形もピッチ波形と同様にピッチマークを中心としてピッチの2倍の窓かけを行うことにより求める。
スペクトル分析部132は、音声波形に対するピッチ波形と同様に、雑音成分ピッチ波形のフーリエ変換を行って各ピッチマーク時刻における雑音成分スペクトルを求める。
補間部133は、音声波形から得られたスペクトルと同様に、各フレーム時刻に隣接するピッチマーク時刻における雑音成分スペクトルを線形補間することにより、該時刻における雑音成分スペクトルを求める。
指標算出部134は、得られた各フレーム時刻における雑音成分の振幅スペクトル(雑音成分スペクトル)を音声の振幅スペクトルで除算することにより、音声の振幅スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する。
以上の処理により、スペクトル算出部122では、スペクトルおよび雑音成分指標が算出される。
パラメータ算出部123は、得られた雑音成分指標から帯域雑音強度を求める。帯域雑音強度は、予め定めた帯域分割により得られる各帯域の雑音成分の割合を表すパラメータであり、雑音成分指標から求められる。図5に定めた帯域通過フィルタを用いる場合、雑音成分指標はフーリエ変換の点数から定まる次元を持つ。これに対し、本実施形態の雑音成分指標は帯域分割数の次元になり、例えば1024点のフーリエ変換を用いた場合雑音成分指標は513点のパラメータになり、帯域雑音強度は5点のパラメータになる。
パラメータ算出部123は、雑音成分指標の各帯域における平均値、フィルタの特性で重み付けして用いた平均値、または、振幅スペクトルで重み付けした平均値などにより帯域雑音強度を算出することができる。
スペクトルパラメータは、上述したようにスペクトルから求められる。音声分析部120による上述の処理により、スペクトルパラメータおよび帯域雑音強度が求められる。得られたスペクトルパラメータおよび帯域雑音強度により、第1の実施形態と同様の音声合成処理が実行される。すなわち、音源信号生成部12は、得られたパラメータを用いて音源信号を生成する。声道フィルタ部13は、生成された音源信号に声道フィルタを適用して音声波形を生成する。そして、波形出力部14が生成された音声波形を出力する。
なお、上述した処理では、各ピッチマーク時刻におけるスペクトルおよび雑音成分スペクトルから固定フレームレートの各フレームにおけるスペクトルおよび雑音成分スペクトルを作成し、雑音成分指標を算出した。これに対し、各ピッチマーク時刻における雑音成分指標を算出し、算出した雑音成分指標を補間して固定フレームレートの各フレームにおける雑音成分指標を算出してもよい。いずれの場合も、パラメータ算出部123が、作成された各フレーム位置の雑音成分指標から帯域雑音強度系列を作成する。なお、上述した処理はピッチマークの付与されている有声音区間について記述しているが、無声音区間では全帯域が雑音成分であるものとして、すなわち帯域雑音強度は1として帯域雑音強度系列が作成される。
なお、スペクトル算出部122が、さらに高品質な合成音声を得るための後処理を行ってもよい。
後処理の1つは、スペクトルの低域成分に適用することができる。上述した処理により抽出したスペクトルは、フーリエ変換の0次の直流成分から基本周波数位置のスペクトル成分に向けて増加する傾向がある。このようなスペクトルを用いて韻律変形を行い、基本周波数を低くした場合、基本周波数成分の振幅は減少してしまう。このような基本周波数成分の振幅の減少による韻律変形後の音質劣化を避けるため、基本周波数成分から直流成分の間の振幅スペクトルとして、基本周波数成分位置の振幅スペクトルをコピーして用いることができる。これにより、基本周波数(F)を低くする方向に韻律変形した場合にも基本周波数成分の振幅の減少が避けられ、音質劣化を避けることができる。
また、雑音成分指標を求める際にも後処理を行うことができる。雑音成分指標抽出の後処理として、例えば、振幅スペクトルに基づいて雑音成分を補正する方法を用いることができる。境界周波数抽出部135および補正部136が、このような後処理を実行する。なお、後処理を行わない場合は、境界周波数抽出部135および補正部136を備える必要はない。
境界周波数抽出部135は、有声音のスペクトルに対して予め定められたスペクトル振幅値の閾値を超える値を持つ最大の周波数を抽出して境界周波数とする。補正部136は、境界周波数より低い帯域では、雑音成分指標を0とするなど、全成分がパルス信号で駆動されるように雑音成分指標を補正する。
また、有声摩擦音などに対しては、境界周波数抽出部135は、予め定められた境界周波数の初期値から単調増加または減少する範囲で、予め定められたスペクトル振幅値を超える値を持つ最大の周波数を境界周波数として抽出する。補正部136は、得られた境界周波数より低い帯域は全成分パルス成分として駆動されるように雑音成分指標を0に補正し、さらに境界周波数より高い周波数成分は、全成分雑音成分であるように、雑音成分指標を1に補正する。
これにより、有声音のパワーの強い成分が雑音成分として扱われてしまうことにより生ずるパワーの大きな雑音的な音声波形が生成されることが減少する。また、有声摩擦音の高域成分などで、雑音成分が分離誤り等の影響によってパルス駆動成分として扱われてしまいバジー感の高いパルス的な音声波形が生成されることを抑えることができる。
以下、第2の実施形態による音声パラメータ生成処理の具体例を、図19〜図21を用いて説明する。図19は、図8に示した分析元の音声波形を音声分析部120が分析する例を示す図である。図19の最上部はピッチマークを表し、その下部は分析フレームの中心を表している。図8のピッチマークは、波形生成のために基本周波数系列から作成したものである。これに対し、図19のピッチマークは、音声波形から求めたものであり、音声波形の周期と同期して付与される。分析フレームの中心は、5ms単位の固定のフレームレートの分析フレームを表している。以下では、図19の黒丸で示した2か所のフレーム(1.865秒、1.9秒)でのスペクトル分析を例として示す。
スペクトル1901a〜1901dは、分析対象フレームの前後のピッチマーク位置で分析したスペクトル(ピッチ同期スペクトル)を示している。スペクトル算出部122は、音声波形にピッチの2倍の長さのハニング窓をかけ、フーリエ変換することにより、ピッチ同期スペクトルを算出する。
スペクトル1902a、1902bは、ピッチ同期スペクトルを補間することにより作成した分析対象フレームのスペクトル(フレームスペクトル)を示している。該フレームの時刻をt、スペクトルをX(ω)、前のピッチマークの時刻をt、スペクトルをX(ω)、次のピッチマークの時刻をt、スペクトルをX(ω)とすると、補間部133は、以下の(6)式により時刻tのフレームのフレームスペクトルX(ω)を算出する。
Figure 2012048154
スペクトル1903a、1903bは、それぞれスペクトル1902a、1902bに直流成分から基本周波数成分までの振幅を基本周波数位置の振幅値にする上述の後処理を適用して得られる後処理スペクトルを示している。これにより、ピッチを低くするように韻律変形した際のF成分の振幅の減衰を抑えることができる。
図20は、比較のため、フレーム位置を中心として分析して求められたスペクトルの一例を表す図である。スペクトル2001a、2001bは、ピッチの2倍の窓関数を用いて分析した場合のスペクトルの例を示している。スペクトル2002a、2002bは、25msの固定長の窓関数を用いて分析した場合の例を示している。
1.865秒のフレームのスペクトル2001aは、1つ前のピッチマークとフレーム位置とが近いために、前側のスペクトルと近いスペクトルであり、補間して作成した該フレームのスペクトル(図19のスペクトル1902a)とも近い。それに対し、1.9秒のフレームのスペクトル2001bは、フレームの中心位置がピッチマーク位置から大きくずれているため、スペクトルの微細な変動が生じており、補間して作成したフレームスペクトル(図19のスペクトル1902b)との違いが大きい。すなわち、図19のように補間フレームによるスペクトルを用いることにより、ピッチマーク位置から離れたフレーム位置のスペクトルも安定して算出することができることがわかる。
また、スペクトル2002a、2002bのような固定窓長のスペクトルは、ピッチの影響によるスペクトルの微細な変動が生じており、スペクトル包絡とはならないため、次数の高い精密なスペクトルパラメータを求めることは困難である。
図21は、図19の後処理スペクトル(スペクトル1903a、1903b)から求めた39次のメルLSPパラメータの一例を示す図である。パラメータ2101a、2101bが、それぞれスペクトル1903a、1903bから求められるメルLSPパラメータを表す。
図21のメルLSPパラメータは、メルLSPの値(周波数)を線で示しており、スペクトルと共にプロットしている。このメルLSPパラメータをスペクトルパラメータとして用いる。
図22〜図27は、帯域雑音成分を分析する例を示す図である。図22は、図8の音声波形と、当該音声波形の周期成分および雑音成分を表す図である。図22の上部の波形が、分析元の音声波形を表す。図22の中央部の波形が、PSHFによって音声波形を分離した結果の周期成分の音声波形を表す。図22の下部の波形が、雑音成分の音声波形を表す。図23は、図22の音声波形を音声分析部120が分析する例を示す図である。図19と同様に、図23の最上部はピッチマークを表し、その下部は分析フレームの中心を表している。
スペクトル2301a〜2301dは、着目しているフレームの前後のピッチマークでピッチ同期分析した雑音成分のスペクトル(ピッチ同期スペクトル)を示している。スペクトル2302a、2302bは、前後のピッチマークの雑音成分を上記(6)式によって補間することにより作成した各フレームの雑音成分スペクトル(フレームスペクトル)を示している。図23では、実線は雑音成分のスペクトルを示しており、点線は音声全体のスペクトルを示している。
図24は、雑音成分スペクトルと音声全体のスペクトルから求めた雑音成分指標の一例を示す図である。雑音成分指標2401a、2401bが、それぞれ図23のスペクトル2302a、2302bに対応する。指標算出部134は、スペクトルをX(ω)、雑音成分スペクトルをX ap(ω)としたとき、以下の(7)式により雑音成分指標AP(ω)を算出する。
Figure 2012048154
図25は、図24の雑音成分指標2401a、2401bから求められる帯域雑音強度2501a、2501bの一例を示す図である。本実施形態では、5つの帯域の境界とする周波数を1、2、4、6[kHz]として、その周波数間の雑音成分指標の重み付け平均値を用いて帯域雑音強度を算出する。すなわち、パラメータ算出部123は、振幅スペクトルを重みとして用い、以下の(8)式により帯域雑音強度BAP(b)を算出する。なお、(8)式中の加算範囲は、対応する帯域の範囲内の周波数である。
Figure 2012048154
以上の処理により、音声波形から分離した雑音成分波形と、音声波形とを用いて帯域雑音強度を求めることができる。このように求めた帯域雑音強度は、図19〜図21で説明した方法で求めたメルLSPパラメータと時間方向に同期がとれている。このため、上記のようにして求めた帯域雑音強度とメルLSPパラメータとから音声波形を生成することができる。
上述した雑音成分抽出の後処理を行う場合は、境界周波数を抽出し、得られた境界周波数に基づいて雑音成分指標を補正する。ここで用いる後処理は、有声摩擦音とその他の有声音とで処理を分けている。例えば音素“jh”は有声摩擦音であり、“uh”は有声音であるため、それぞれ異なる後処理が行われる。
図26は、後処理の具体例を説明するための図である。グラフ2601a、2601bは、境界周波数抽出のための閾値と得られた境界周波数とを示している。有声摩擦音の場合は(グラフ2601a)、500Hz付近で閾値より振幅が大きくなる境界を抽出し、境界周波数としている。その他の有声音の場合は(グラフ2601b)、振幅が閾値を超える最大周波数を抽出し、境界周波数としている。
図26に示すように、有声摩擦音の場合は、境界周波数以下の帯域は0、境界周波数より大きい帯域は1とした雑音成分指標2602aに補正される。有声摩擦音以外の場合は、境界周波数以下を0とし、境界周波数以上の帯域は求められた値をそのまま用いた雑音成分指標2602bに補正される。
図27は、このように作成された境界周波数から(8)式により得られた帯域雑音強度を示す図である。帯域雑音強度2701a、2701bは、それぞれ図26の雑音成分指標2602a、2602bに対応する。
以上のような処理により、有声摩擦音の高域成分は雑音音源から合成できるようになり、有声音の低域成分はパルス音源から合成できるようになるため、より適切に波形生成が行われる。さらに後処理として、スペクトルと同様に基本周波数成分以下の雑音成分指標を基本周波数成分における雑音成分指標の値としてもよい。これにより後処理をしたスペクトルと同期した雑音成分指標が求められる。
次に、第2の実施形態にかかる音声合成装置200によるスペクトルパラメータ算出処理について図28を用いて説明する。図28は、第2の実施形態におけるスペクトルパラメータ算出処理の全体の流れを示すフローチャートである。図28は、音声入力部121により音声信号およびピッチマークが入力された後に開始され、音声フレーム単位で処理される。
まず、スペクトル算出部122は、処理対象のフレームが有声音か否かを判断する(ステップS201)。有声音の場合(ステップS201:Yes)、波形抽出部131が該フレームの前後のピッチマークに従ってピッチ波形を抽出した後、スペクトル分析部132が抽出されたピッチ波形をスペクトル分析する(ステップS202)。
次に、補間部133が、得られた前後のピッチマークのスペクトルを、(6)式に従って補間する(ステップS203)。次に、スペクトル算出部122は、得られたスペクトルに対して後処理を行う(ステップS204)。ここでは、スペクトル算出部122は基本周波数以下の振幅を補正する。次に、パラメータ算出部123は、スペクトルパラメータ分析を行い、補正後のスペクトルをメルLSPパラメータなどの音声パラメータに変換する(ステップS205)。
ステップS201で無声音であると判断された場合(ステップS201:No)、スペクトル算出部122は、フレームごとにスペクトル分析を行う(ステップS206)。そして、パラメータ算出部123は、フレームごとにスペクトルパラメータ分析を行う(ステップS207)。
次に、スペクトル算出部122は、すべてのフレームを処理したか否かを判断し(ステップS208)、処理していない場合は(ステップS208:No)、ステップS201に戻り処理を繰り返す。すべてのフレームを処理した場合(ステップS208:Yes)は、スペクトルパラメータ算出処理を終了する。以上の処理により、スペクトルパラメータ系列が求められる。
次に、第2の実施形態にかかる音声合成装置200による帯域雑音強度算出処理について図29を用いて説明する。図29は、第2の実施形態における帯域雑音強度算出処理の全体の流れを示すフローチャートである。図29は、音声入力部121により音声信号、音声信号の雑音成分およびピッチマークが入力された後に開始され、音声フレーム単位で処理される。
まず、スペクトル算出部122は、処理対象のフレームが有声音か否かを判断する(ステップS301)。有声音の場合(ステップS301:Yes)、波形抽出部131が該フレームの前後のピッチマークに従って雑音成分のピッチ波形を抽出した後、スペクトル分析部132が抽出された雑音成分のピッチ波形をスペクトル分析する(ステップS302)。次に、補間部133は、前後のピッチマークの雑音成分スペクトルを補間し、該フレームの雑音成分スペクトルを算出する(ステップS303)。次に、指標算出部134は、図28のステップS202に示す音声信号のスペクトル分析により得られたスペクトルと雑音成分スペクトルとから、(7)式により雑音成分指標を算出する(ステップS304)。
次に、境界周波数抽出部135および補正部136が、雑音成分指標を補正する後処理を行う(ステップS305)。次に、パラメータ算出部123は、得られた雑音成分指標から(8)式を用いて帯域雑音強度を算出する(ステップS306)。なお、ステップS301で無声音であると判断された場合は(ステップS301:No)、帯域雑音強度はすべて1として処理が行われる。
次に、スペクトル算出部122は、すべてのフレームを処理したか否かを判断し(ステップS307)、処理していない場合は(ステップS307:No)、ステップS301に戻り処理を繰り返す。すべてのフレームを処理した場合(ステップS307:Yes)は、帯域雑音強度算出処理を終了する。以上の処理により、帯域雑音強度系列が算出される。
このように、第2の実施形態にかかる音声合成装置200では、ピッチマークと音声波形を入力し、ピッチ同期分析したスペクトルを固定フレームレートに補間することにより得られたスペクトルにより精密な音声分析が可能になる。そして、分析した音声パラメータから音声を合成することにより、高品質な合成音声を作成することが可能になる。さらに同様の処理により雑音成分指標および帯域雑音強度を分析することが可能となるため、高品質な合成音声を作成することが可能になる。
(第3の実施形態)
音声パラメータを入力して音声波形の生成を行う音声合成装置のみでなく、入力したテキストデータ(以下、単にテキストという)から音声を合成する装置も広く音声合成装置と呼ばれる。このような音声合成装置の1つとして隠れマルコフモデル(HMM)に基づく音声合成が提案されている。HMMに基づく音声合成は、様々なコンテキスト情報(文内の位置、呼気段落内の位置、単語内の位置、および、前後の音素環境など)を考慮した音素単位のHMMを、最尤推定および、決定木に基づく状態クラスタリングによって構築する。音声を合成する際には、入力テキストから変換して得られるコンテキスト情報によって決定木を辿ることにより分布列を作成し、得られた分布列から音声パラメータ列を生成する。音声パラメータ列から、例えばメルケプストラムによるソースフィルタ型の音声合成装置などを利用することにより音声波形生成を行う。HMMの出力分布に、動的特徴量を加え、この動的特徴量を考慮したパラメータ生成アルゴリズムを用いて音声パラメータ列を生成することにより、滑らかに接続された音声が合成される。
HMMに基づく音声合成の1つとして非特許文献1では、STRAIGHTパラメータを用いた音声合成システムが提案されている。STRAIGHTとは、F抽出、非周期成分(雑音成分)分析、およびスペクトル分析を行う音声の分析合成方法である。この方法では、時間方向平滑化および周波数方向平滑化に基づいてスペクトル分析を行う。音声合成時には、これらのパラメータから周波数領域でガウス雑音およびパルスを混合し、高速フーリエ変換(FFT)を利用して波形生成を行う。
非特許文献1に記載されている音声合成装置では、STRAIGHTにより分析したスペクトルをメルケプストラムに変換し、雑音成分を5個の帯域の帯域雑音強度に変換し、HMMを学習している。音声合成の際には、入力したテキストから得られるHMM系列から、これらのパラメータを生成し、得られたメルケプストラムと帯域雑音強度をSTRAIGHTのスペクトルおよび雑音成分に変換し、STRAIGHTの波形生成部を用いて合成音声の波形を得ている。このように、非特許文献1の方法では、STRAIGHTの波形生成部を用いる。このため、パラメータ変換処理、および、波形生成の際のFFT処理など多くの計算量が必要となり、高速に波形生成することができず、処理時間がかかる。
第3の実施形態にかかる音声合成装置では、例えば第2の実施形態の方法により分析した音声パラメータを用いて隠れマルコフモデル(HMM)を学習し、得られたHMMを利用することにより、任意の文章を入力して、該入力文章に対応する音声パラメータを生成する。そして、生成した音声パラメータから第1の実施形態にかかる音声合成装置と同様の方法により音声波形生成を行う。
図30は、第3の実施形態にかかる音声合成装置300の構成の一例を示すブロック図である。図30に示すように、音声合成装置300は、HMM学習部195と、HMM記憶部196と、テキスト入力部191と、言語解析部192と、音声パラメータ生成部193と、音声合成部194と、を備えている。
HMM学習部195は、第2の実施形態にかかる音声合成装置200で分析した音声パラメータであるスペクトルパラメータ、帯域雑音強度系列、および基本周波数系列を用いてHMMの学習を行う。この際、これらのパラメータの動的特徴量も同時にパラメータとして用い、HMMの学習に利用する。HMM記憶部196は、学習により得られたHMMのモデルのパラメータを記憶する。
テキスト入力部191は、合成するテキストを入力する。言語解析部192は、テキストから形態素解析処理などを行い、読みやアクセントなど音声合成に用いる言語情報を出力する。音声パラメータ生成部193は、予めHMM学習部195によって学習しHMM記憶部196に記憶したモデルを用いて音声パラメータを生成する。
音声パラメータ生成部193は、言語解析の結果得られた音素系列やアクセント情報の系列に従って文単位のHMM(文HMM)を構築する。文HMMは、音素単位のHMMを接続して並べることにより構築する。HMMとしては、状態ごと、および、ストリームごとの決定木クラスタリングを行ったモデルを利用できる。音声パラメータ生成部193は、入力された属性情報に従って決定木をたどり、リーフノードの分布をHMMの各状態の分布として用いて音素モデルを作成し、作成した音素モデルを並べることにより、文HMMを作成する。音声パラメータ生成部193は、作成した文HMMの出力確率のパラメータから音声パラメータの生成を行う。音声パラメータ生成部193は、まず、HMMの各状態の継続長分布のモデルから、各状態に対応したフレーム数を決定し、各フレームのパラメータを生成する。パラメータ生成の際に動的特徴量を考慮した生成アルゴリズムを利用することで、滑らかに接続された音声パラメータが生成される。なお、これらHMMの学習およびパラメータ生成は非特許文献1に記載された方法によって行うことができる。
音声合成部194は、生成された音声パラメータから音声波形を生成する。音声合成部194は、帯域雑音強度系列、基本周波数系列およびスペクトルパラメータ系列から、第1の実施形態にかかる音声合成装置100と同様の方法によって波形生成を行う。これにより、高速かつパルス成分と雑音成分の適切に混合された混合音源信号から波形生成を行うことができる。
上述のように、HMM記憶部196は、HMM学習部195により学習されたHMMを記憶している。HMMは、本実施形態では音素単位として記述するが、音素だけでなく音素を分割した半音素や、音節などいくつかの音素を含む単位を用いてもよい。HMMはいくつかの状態を持つ統計モデルであり、状態ごとの出力分布と、状態遷移の確率を表す状態遷移確率とから構成される。
図31は、left−right型HMMの一例を示す図である。left−right型HMMは、図31に示すように左側の状態から右側の状態への遷移と、自己遷移のみ可能なHMMの形であり、音声など時系列情報のモデル化に用いられる。図31は、5状態のモデルで、状態iから状態jへの状態遷移確率をaij、ガウス分布による出力分布をN(o|μ、Σ)として表している。
HMM記憶部196は、このようなHMMを記憶している。ただし、状態ごとのガウス分布は、決定木によって共有された形で記憶されている。図32は、決定木の一例を示す図である。図32に示すように、HMM記憶部196は、HMMの各状態の決定木を記憶しており、リーフノードにはガウス分布を保持している。
決定木の各ノードには、音素や言語属性に基づいて子ノードを選択する質問が保持されている。質問としては、例えば中心音素が「有声音かどうか」、「文章の先頭からの音素数が1かどうか」、「アクセント核からの距離が1である」、「音素が母音である」、および、「左音素が“a”である」といった質問が記憶されている。音声パラメータ生成部193は、言語解析部192で得られた音素系列や言語情報に基づいて決定木を辿ることにより分布を選択することができる。
用いる属性としては、{先行、当該、後続}音素、当該音素の単語内での音節位置、{先行、当該、後続}の品詞、{先行、当該、後続}単語の音節数、アクセント音節からの音節数、文内の単語の位置、前後のポーズの有無、{先行、当該、後続}呼気段落の音節数、当該呼気段落の位置、および、文の音節数などを用いる。以下、これらの情報を含む音素単位のラベルをコンテキストラベルと呼ぶ。これらの決定木は、特徴パラメータのストリームごとに作成しておくことができる。特徴パラメータとして、以下の(9)式に示すように学習データOを用いる。
Figure 2012048154
ただし、Oの時刻tのフレームoは、スペクトルパラメータc、帯域雑音強度パラメータb、基本周波数パラメータfであり、それらの動的特徴を表すデルタパラメータにΔ、2次のΔパラメータにΔを付して示している。基本周波数は、無声音のフレームでは、無声音であることを表す値として表されている。多空間上の確率分布に基づくHMMによって、有声音と無声音の混在した学習データからHMMを学習することができる。
ストリームとは、(c’,Δc’,Δc’)、(b’,Δb’,Δb’)、(f’,Δf’,Δf’)のように、それぞれの特徴パラメータなど特徴ベクトルの一部分を取り出したものを指す。ストリームごとの決定木とは、スペクトルパラメータを表す決定木、帯域雑音強度パラメータb、基本周波数パラメータfそれぞれに対して、決定木を持つことを意味する。この場合、合成時には入力した音素系列および言語属性に基づいて、HMMの各状態に対して、それぞれの決定木を辿ってそれぞれのガウス分布を決定し、それらを併せて出力分布を作成し、HMMを作成することになる。
例えば“right(r・ai・t)”という音声を合成する場合について説明する。図33は、この例での音声パラメータ生成処理を説明するための図である。図33に示すように、音素ごとのHMMを接続して全体のHMMが作成され、各状態の出力分布から音声パラメータが生成される。HMMの各状態の出力分布は、HMM記憶部196に記憶されている決定木から選択されたものである。音声パラメータ生成部193は、これらの平均ベクトルおよび共分散行列から、音声パラメータを生成する。音声パラメータは、非特許文献1でも利用されている動的特徴量に基づくパラメータ生成アルゴリズムによって生成できる。ただし、平均ベクトルの線形補間やスプライン補間など、その他のHMMの出力分布からパラメータを生成するアルゴリズムを用いてもよい。これらの処理により、合成した文章に対する声道フィルタの系列(メルLSP系列)、帯域雑音強度系列、および、基本周波数(F)系列による音声パラメータの系列が生成される。
音声合成部194は、このように生成された音声パラメータから、第1の実施形態にかかる音声合成装置100と同様の方法を用いて音声波形を生成する。これにより、高速かつ適切に混合された混合音源信号を用いて音声波形の生成が可能となる。
HMM学習部195は、学習データとして用いる音声信号およびそのラベル列からHMMの学習を行う。HMM学習部195は、非特許文献1と同様に、それぞれの音声信号から(9)式によって表わされる特徴パラメータを作成し、学習に用いる。音声の分析は、第2の実施形態の音声合成装置200の音声分析部120の処理によって行うことができる。HMM学習部195は、得られた特徴パラメータ、および、決定木構築に用いる属性情報を付与したコンテキストラベルからHMMの学習を行う。通常、音素ごとのHMMの学習、コンテキスト依存HMMの学習、ストリーム別のMDL基準を用いた決定木に基づく状態クラスタリング、およびそれぞれのモデルの最尤推定とから学習が実行される。HMM学習部195は、このようにして得られた決定木とガウス分布をHMM記憶部196に記憶させる。なお、HMM学習部195は、さらに状態ごとの継続時間長を表す分布も同時に学習し、決定木クラスタリングを行い、HMM記憶部196に記憶する。これらの処理により、音声合成に用いるHMMのパラメータが学習される。
次に、第3の実施形態にかかる音声合成装置300による音声合成処理について図34を用いて説明する。図34は、第3の実施形態における音声合成処理の全体の流れを示すフローチャートである。
音声パラメータ生成部193は、言語解析部192による言語解析の結果得られたコンテキストラベル列を入力する(ステップS401)。音声パラメータ生成部193は、HMM記憶部196に記憶されている決定木を探索し、状態継続長のモデルおよびHMMを作成する(ステップS402)。次に、音声パラメータ生成部193は、状態ごとの継続長を決定する(ステップS403)。次に、音声パラメータ生成部193は、継続長に従って文全体のスペクトルパラメータ、帯域雑音強度、および基本周波数の分布列を作成する(ステップS404)。音声パラメータ生成部193は、これらの分布列からパラメータ生成を行い(ステップS405)、所望の文に対応するパラメータ列を得る。次に、音声合成部194が、得られたパラメータから、音声波形を生成する(ステップS406)。
このように、第3の実施形態にかかる音声合成装置300によれば、第1および第2の実施形態にかかる音声合成装置を用いて、HMM音声合成を用いることにより任意の文章に対応した合成音声を作成することが可能となる。
以上説明したとおり、第1から第3の実施形態によれば、記憶された帯域雑音信号および帯域パルス信号を用いて混合音源信号を作成し、声道フィルタの入力に用いることにより、適切に制御された混合音源信号を用いて高速かつ高品質に音声波形を合成することが可能となる。
次に、第1〜第3の実施形態にかかる音声合成装置のハードウェア構成について図35を用いて説明する。図35は、第1〜第3の実施形態にかかる音声合成装置のハードウェア構成を示す説明図である。
第1〜第3の実施形態にかかる音声合成装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1〜第3の実施形態にかかる音声合成装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1〜第3の実施形態にかかる音声合成装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1〜第3の実施形態にかかる音声合成装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1〜第3の実施形態にかかる音声合成装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1〜第3の実施形態にかかる音声合成装置で実行されるプログラムは、コンピュータを上述した音声合成装置の各部(第1パラメータ入力部、音源信号生成部、声道フィルタ部、波形出力部)として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
なお、本実施形態は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100、200、300 音声合成装置
11 第1パラメータ入力部
12 音源信号生成部
13 声道フィルタ部
14 波形出力部
201 第2パラメータ入力部
202 判断部
203 ピッチマーク作成部
204 混合音源作成部
205 重畳部
206 雑音音源作成部
207 接続部
221 第1記憶部
222 第2記憶部
223 第3記憶部
301 切出部
302 振幅制御部
303 生成部

Claims (12)

  1. n個(nは2以上の整数)の通過帯域に対応するn個の帯域通過フィルタそれぞれを雑音信号に適用して得られるn個の帯域雑音信号を記憶する第1記憶部と、
    n個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるn個の帯域パルス信号を記憶する第2記憶部と、
    合成する音声の基本周波数系列と、n個の前記通過帯域それぞれの雑音の強度を表すn個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力部と、
    前記基本周波数系列から作成した前記合成する音声のピッチマークごとに、前記第1記憶部に記憶されたn個の前記帯域雑音信号をシフトしながら切り出す切出部と、
    n個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御部と、
    振幅を変更したn個の前記帯域雑音信号と、振幅を変更したn個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成部と、
    前記ピッチマークごとの前記混合音源信号を重畳する重畳部と、
    重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタ部と、
    を備えることを特徴とする音声合成装置。
  2. 音声信号と前記ピッチマークとを入力する音声入力部と、
    前記ピッチマークを中心として前記音声信号に窓関数を適用することにより音声波形を抽出する波形抽出部と、
    前記音声波形をスペクトル分析して前記音声波形のスペクトルを表す音声スペクトルを算出するスペクトル分析部と、
    予め定められたフレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルを補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルを算出する補間部と、
    前記補間部により得られた音声スペクトルに基づいて前記スペクトルパラメータ系列を算出するパラメータ算出部と、をさらに備え、
    前記パラメータ入力部は、前記基本周波数系列と、前記帯域雑音強度系列と、算出された前記スペクトルパラメータ系列とを入力すること、
    を特徴とする請求項1に記載の音声合成装置。
  3. 音声信号と前記音声信号の雑音成分と前記ピッチマークとを入力する音声入力部と、
    前記ピッチマークを中心として前記音声信号に窓関数を適用することにより音声波形を抽出し、前記ピッチマークを中心として前記雑音成分に窓関数を適用することにより雑音成分波形を抽出する波形抽出部と、
    前記音声波形および前記雑音成分波形をスペクトル分析して前記音声波形のスペクトルを表す音声スペクトルおよび前記雑音成分のスペクトルを表す雑音成分スペクトルを算出するスペクトル分析部と、
    予め定められたフレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルおよび前記雑音成分スペクトルを補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルおよび雑音成分スペクトルを算出し、算出した音声スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する、または、前記フレームレートの各フレーム時刻に隣接する複数の前記ピッチマークの前記音声スペクトルに対する前記雑音成分スペクトルの割合を補間することにより、前記フレームレートの各フレーム時刻の音声スペクトルに対する雑音成分スペクトルの割合を表す雑音成分指標を算出する補間部と、
    算出された雑音成分指標に基づいて、前記帯域雑音強度系列を算出するパラメータ算出部と、をさらに備え、
    前記パラメータ入力部は、前記基本周波数系列と、算出された前記帯域雑音強度系列と、前記スペクトルパラメータ系列とを入力すること、
    を特徴とする請求項1に記載の音声合成装置。
  4. 前記音声入力部は、前記音声信号と、前記音声信号のスペクトルの基本周波数の整数倍以外の成分を表す前記雑音成分と、前記ピッチマークとを入力すること、
    を特徴とする請求項3に記載の音声合成装置。
  5. 予め定められた閾値を超える最大の周波数である境界周波数を、有声音のスペクトルから抽出する境界周波数抽出部と、
    前記境界周波数より低い周波数帯域は音源信号がパルス信号となるように前記雑音成分指標を補正する補正部と、をさらに備えること、
    を特徴とする請求項3に記載の音声合成装置。
  6. 予め定められた初期周波数から単調増加または単調減少する範囲で予め定められた閾値を超える最大の周波数である境界周波数を、有声摩擦音のスペクトルから抽出する境界周波数抽出部と、
    前記境界周波数より低い周波数帯域は音源信号がパルス信号となるように前記雑音成分指標を補正する補正部と、をさらに備えること、
    を特徴とする請求項3に記載の音声合成装置。
  7. 予め定められた音声単位に対する基本周波数系列、帯域雑音強度系列、およびスペクトルパラメータ系列の出力確率分布パラメータを含む隠れマルコフモデルパラメータを記憶する隠れマルコフモデル記憶部と、
    入力されたテキストデータに含まれる前記音声単位を解析する言語解析部と、
    解析された前記音声単位および前記隠れマルコフモデルパラメータに基づいて、入力されたテキストデータに対する前記基本周波数系列、前記帯域雑音強度系列および前記スペクトルパラメータ系列を生成する音声パラメータ生成部と、をさらに備え、
    前記パラメータ入力部は、生成された前記基本周波数系列、前記帯域雑音強度系列、および、前記スペクトルパラメータ系列を入力すること、
    を特徴とする請求項1に記載の音声合成装置。
  8. 前記第1記憶部に記憶された前記帯域雑音信号は、音質劣化しない最小の長さとして予め定められた規定長以上の長さであること、
    を特徴とする請求項1に記載の音声合成装置。
  9. 前記規定長は5ミリ秒であること、
    を特徴とする請求項7に記載の音声合成装置。
  10. 前記第1記憶部に記憶された前記帯域雑音信号は、対応する前記通過帯域が大きい前記帯域雑音信号が、対応する前記通過帯域が小さい前記帯域雑音信号より長く、対応する前記通過帯域が小さい前記帯域雑音信号が、音質劣化しない最小の長さとして予め定められた規定長以上の長さであること、
    を特徴とする請求項1に記載の音声合成装置。
  11. n個(nは2以上の整数)の通過帯域に対応するn個の帯域通過フィルタそれぞれを雑音信号に適用して得られるn個の帯域雑音信号を記憶する第1記憶部と、n個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるn個の帯域パルス信号を記憶する第2記憶部と、を備える音声合成装置で実行される音声合成方法であって、
    合成する音声の基本周波数系列と、n個の前記通過帯域それぞれの雑音の強度を表すn個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力ステップと、
    前記基本周波数系列から作成した合成する音声のピッチマークごとに、前記第1記憶部に記憶されたn個の前記帯域雑音信号をシフトしながら切り出す切出ステップと、
    n個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御ステップと、
    振幅を変更したn個の前記帯域雑音信号と、振幅を変更したn個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成ステップと、
    前記ピッチマークごとの前記混合音源信号を重畳する重畳ステップと、
    重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタステップと、
    を含むことを特徴とする音声合成方法。
  12. コンピュータを、
    n個(nは2以上の整数)の通過帯域に対応するn個の帯域通過フィルタそれぞれを雑音信号に適用して得られるn個の帯域雑音信号を記憶する第1記憶部と、
    n個の前記帯域通過フィルタそれぞれをパルス信号に適用して得られるn個の帯域パルス信号を記憶する第2記憶部と、
    合成する音声の基本周波数系列と、n個の前記通過帯域それぞれの雑音の強度を表すn個の帯域雑音強度系列と、スペクトルパラメータ系列とを入力するパラメータ入力部と、
    前記基本周波数系列から作成した前記合成する音声のピッチマークごとに、前記第1記憶部に記憶されたn個の前記帯域雑音信号をシフトしながら切り出す切出部と、
    n個の前記通過帯域ごとに、切り出した前記帯域雑音信号の振幅と、前記帯域パルス信号の振幅とを、前記通過帯域の前記帯域雑音強度系列に応じて変更する振幅制御部と、
    振幅を変更したn個の前記帯域雑音信号と、振幅を変更したn個の前記帯域パルス信号とを加算した前記ピッチマークごとの混合音源信号を生成する生成部と、
    前記ピッチマークごとの前記混合音源信号を重畳する重畳部と、
    重畳された前記混合音源信号に前記スペクトルパラメータ系列を用いた声道フィルタを適用して音声波形を生成する声道フィルタ部、
    として機能させるためのプログラム。
JP2010192656A 2010-08-30 2010-08-30 音声合成装置、音声合成方法およびプログラム Active JP5085700B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010192656A JP5085700B2 (ja) 2010-08-30 2010-08-30 音声合成装置、音声合成方法およびプログラム
US13/051,541 US9058807B2 (en) 2010-08-30 2011-03-18 Speech synthesizer, speech synthesis method and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010192656A JP5085700B2 (ja) 2010-08-30 2010-08-30 音声合成装置、音声合成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012048154A true JP2012048154A (ja) 2012-03-08
JP5085700B2 JP5085700B2 (ja) 2012-11-28

Family

ID=45698345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010192656A Active JP5085700B2 (ja) 2010-08-30 2010-08-30 音声合成装置、音声合成方法およびプログラム

Country Status (2)

Country Link
US (1) US9058807B2 (ja)
JP (1) JP5085700B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
JP2017520016A (ja) * 2014-05-28 2017-07-20 インタラクティブ・インテリジェンス・インコーポレイテッド パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
JP2017167526A (ja) * 2016-03-14 2017-09-21 株式会社東芝 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013003470A (ja) * 2011-06-20 2013-01-07 Toshiba Corp 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN105122351B (zh) 2013-01-18 2018-11-13 株式会社东芝 声音合成装置及声音合成方法
KR102148407B1 (ko) * 2013-02-27 2020-08-27 한국전자통신연구원 소스 필터를 이용한 주파수 스펙트럼 처리 장치 및 방법
US9607610B2 (en) * 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
WO2016042659A1 (ja) 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN104916282B (zh) * 2015-03-27 2018-11-06 北京捷通华声科技股份有限公司 一种语音合成的方法和装置
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
CN107924686B (zh) 2015-09-16 2022-07-26 株式会社东芝 语音处理装置、语音处理方法以及存储介质
US10586526B2 (en) * 2015-12-10 2020-03-10 Kanru HUA Speech analysis and synthesis method based on harmonic model and source-vocal tract decomposition
CN107871494B (zh) * 2016-09-23 2020-12-11 北京搜狗科技发展有限公司 一种语音合成的方法、装置及电子设备
EP3553950B1 (en) * 2016-12-06 2023-10-11 Nippon Telegraph and Telephone Corporation Signal feature extraction device, signal feature extraction method, and program
KR102136464B1 (ko) * 2018-07-31 2020-07-21 전자부품연구원 어텐션 메커니즘 기반의 오디오 분할 방법
US11468879B2 (en) * 2019-04-29 2022-10-11 Tencent America LLC Duration informed attention network for text-to-speech analysis
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
JP7334942B2 (ja) * 2019-08-19 2023-08-29 国立大学法人 東京大学 音声変換装置、音声変換方法及び音声変換プログラム
US11151979B2 (en) 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
WO2021127978A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和存储介质
CN113409756B (zh) * 2020-03-16 2022-05-03 阿里巴巴集团控股有限公司 语音合成方法、系统、设备及存储介质
CN113689837B (zh) * 2021-08-24 2023-08-29 北京百度网讯科技有限公司 音频数据处理方法、装置、设备以及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03123400A (ja) * 1989-10-06 1991-05-27 Kokusai Electric Co Ltd 線形予測分析・合成方式の復号器
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH07239700A (ja) * 1994-03-02 1995-09-12 Nec Corp 音声符号化装置
JPH09319398A (ja) * 1996-05-27 1997-12-12 Nec Corp 信号符号化装置
JPH11272296A (ja) * 1998-03-23 1999-10-08 Toshiba Corp 音声符号化/復号化方法
JP2000356995A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd 音声通信システム
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2010049196A (ja) * 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
JP4380669B2 (ja) * 2006-08-07 2009-12-09 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
JP5159325B2 (ja) 2008-01-09 2013-03-06 株式会社東芝 音声処理装置及びそのプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03123400A (ja) * 1989-10-06 1991-05-27 Kokusai Electric Co Ltd 線形予測分析・合成方式の復号器
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH07239700A (ja) * 1994-03-02 1995-09-12 Nec Corp 音声符号化装置
JPH09319398A (ja) * 1996-05-27 1997-12-12 Nec Corp 信号符号化装置
JPH11272296A (ja) * 1998-03-23 1999-10-08 Toshiba Corp 音声符号化/復号化方法
JP2000356995A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd 音声通信システム
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2010049196A (ja) * 2008-08-25 2010-03-04 Toshiba Corp 声質変換装置及び方法、音声合成装置及び方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101402805B1 (ko) * 2012-03-27 2014-06-03 광주과학기술원 음성분석장치, 음성합성장치, 및 음성분석합성시스템
US9390728B2 (en) 2012-03-27 2016-07-12 Gwangju Institute Of Science And Technology Voice analysis apparatus, voice synthesis apparatus, voice analysis synthesis system
JP2017520016A (ja) * 2014-05-28 2017-07-20 インタラクティブ・インテリジェンス・インコーポレイテッド パラメトリック音声合成システムに基づく声門パルスモデルの励磁信号形成方法
US10878801B2 (en) 2015-09-16 2020-12-29 Kabushiki Kaisha Toshiba Statistical speech synthesis device, method, and computer program product using pitch-cycle counts based on state durations
US11423874B2 (en) 2015-09-16 2022-08-23 Kabushiki Kaisha Toshiba Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
JP2017167526A (ja) * 2016-03-14 2017-09-21 株式会社東芝 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現

Also Published As

Publication number Publication date
US20120053933A1 (en) 2012-03-01
JP5085700B2 (ja) 2012-11-28
US9058807B2 (en) 2015-06-16

Similar Documents

Publication Publication Date Title
JP5085700B2 (ja) 音声合成装置、音声合成方法およびプログラム
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
US8255222B2 (en) Speech separating apparatus, speech synthesizing apparatus, and voice quality conversion apparatus
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US8195464B2 (en) Speech processing apparatus and program
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
US8301451B2 (en) Speech synthesis with dynamic constraints
US8370153B2 (en) Speech analyzer and speech analysis method
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP2015161774A (ja) 音合成方法及び音合成装置
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JPH0247700A (ja) 音声合成方法および装置
JP2018004997A (ja) 音声合成装置及びプログラム
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
Anil et al. Pitch and duration modification for expressive speech synthesis in Marathi TTS system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120807

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120905

R151 Written notification of patent or utility model registration

Ref document number: 5085700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350