JP2014109669A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP2014109669A
JP2014109669A JP2012263607A JP2012263607A JP2014109669A JP 2014109669 A JP2014109669 A JP 2014109669A JP 2012263607 A JP2012263607 A JP 2012263607A JP 2012263607 A JP2012263607 A JP 2012263607A JP 2014109669 A JP2014109669 A JP 2014109669A
Authority
JP
Japan
Prior art keywords
subband
waveform
speech
sound source
weighted sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012263607A
Other languages
English (en)
Other versions
JP6201205B2 (ja
Inventor
Nobuyuki Nishizawa
信行 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012263607A priority Critical patent/JP6201205B2/ja
Publication of JP2014109669A publication Critical patent/JP2014109669A/ja
Application granted granted Critical
Publication of JP6201205B2 publication Critical patent/JP6201205B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減する。
【解決手段】入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置200であって、音源波形を複数の周波数帯域の成分に分解する成分分解部205と、分解された成分をそれぞれサブバンド符号化するサブバンド符号化部210と、サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、分解成分について重み付き和を算出する重み付き和算出部220と、重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部140と、を備える。
【選択図】図6

Description

本発明は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置、音声合成方法および音声合成プログラムに関する。
音声合成技術とは、一般にテキストから音声波形を合成する一連の技術の総称であるが、まず、その一要素である、合成したい音声のスペクトル情報および音源情報から、音声波形を合成する処理を説明する。この処理にあたり、合成したい音声のスペクトル情報や音源情報は、予め対応する自然音声等から求めておく。
音声合成波形の合成の方法として代表的なものに、ソース・フィルタモデルに基づく音声合成方法がある。この方式は、まず適当な音源(ソース)波形を生成し、それを適当な特性のフィルタを通過させることで、所望の特徴を有した音声波形を合成する方法である。これは、例えば、音源が声帯振動に伴う声門体積流に、フィルタが声道伝達特性にそれぞれ対応すると考えると、人間の音声生成過程に対応したモデルであるとも言える。
ただし、音声の波形から観測できるのは、音声波形のスペクトル特性や周期的な音声波形で観測される基本周波数といった最終的な音声波形に対する物理量であり、音声生成過程に関連した特徴との厳密な対応付けは難しい。そのため、実際には、インパルス列や白色雑音といったスペクトル的に白色な音源波形に対して、フィルタにより合成目標となる音声のスペクトル特性を直接的に与えることで、音声波形を合成することが多い。
なお、音声波形が周期性を有する場合、観測されるスペクトル情報には、その周期性に由来した基本周波数成分およびその調波成分が含まれる。そして、通常、この周期性は、インパルス列等により音源側で表現される。
以下、スペクトル情報とは、基本周波数およびその調波成分の影響を除いた、平滑化されたスペクトル情報をいう。この平滑化の方法には、周波数軸上で、調波成分のピーク点のみをつなぐ方法等がある。また、音声波形は短時間的にはほぼ定常と見なせるが、長時間的には時変であるので、通常は、ある一定間隔(例えば1ミリ秒から20ミリ秒程度)毎の特性を考慮し、そのそれぞれの時刻においてはその定常性を仮定する。ここで、各サンプルのスペクトル情報は例えば複数次のメルケプストラム係数や線形予測係数等で表現する。
一般に、声帯振動を伴う音声は有声音、伴わない音声は無声音と呼ばれ、有声音では通常、波形の周期性が観測される。ソース・フィルタに基づく音声波形合成では、有声音の音源としてインパルス列のみを、無声音の音源に白色雑音のみを用いる方法がしばしば用いられている。この方法でも合成音声の言語的な了解度の点では問題ないことが多いが、実際の有声音には雑音的成分も含まれており、その自然性が低下するという問題が生じていた。
そこで、インパルス列と白色雑音を同時に生成し、それを組み合わせた波形を音源波形とすることで、合成音声の自然性を改善する方法が開発されている。しかし通常、最適なインパルスと雑音のパワー比が各周波数帯域で一定ではなく、それは合成対象の音声の種類ごとに異なる。そこで、フィルタバンク等を用いて、インパルスと白色雑音の振幅特性を周波数帯域(サブバンド)毎に変える必要がある。
この際、従来のソース・フィルタモデルとの対応を考え、各音源を足し合わせた結果が白色になるように制御する方法がしばしば用いられる。以下、このような音源をマルチバンド混合励振源と呼ぶ。サブバンド毎の混合比は、時間変化させなくてもある程度の自然性が得られると考えられるが、スペクトル情報同様に時間変化させた方が、より自然性の高い音声を合成することができる。
よって、音声合成には、時間軸上である間隔毎の、音声のスペクトル情報、有声・無声情報、有声についての基本周波数の情報、およびマルチバンド混合励振源を用いてかつその特性を動的に変化させる場合における各サブバンドの混合比の情報が必要となる。なお、以下で説明される音声合成の形態では、説明の便宜上、音源のパワーは常に一定とし、合成音声のパワーはスペクトル特性に含めて制御されるものとする。
今井聖、住田一男、古市千枝子、「音声合成のためのメル対数スペクトル近似(MLSA)フィルタ」、電子情報通信学会論文誌(A)、 J66-A、 2、 Feb.1983、 pp.122-129
上記のような従来技術ではソース・フィルタモデルのフィルタに、MLSA(メル対数スペクトル近似)フィルタ等の比較的演算量の大きいフィルタが用いられている(非特許文献1参照)。MLSAフィルタは、z変換領域における指数関数を、z変換領域上でパデ近似により直接有理式近似することで、目標特性を近似的に実現する回路を構成する手法が用いられている。そして、メルケプストラム係数をほぼそのままフィルタ係数とできる、といった利点があるが、波形1サンプル当たりの積和演算回数が、およそフィルタの次数とパデ近似の次数の積となり、計算量が比較的大きい。
例えば合成音声品質上は、16kHzサンプリング時に30〜40次のメルケプストラムを用いる必要があるが、その場合、指数関数を必要な精度で近似するためには4次または5次のパデ近似が必要、つまり1サンプル当たり150〜200回程度の積和演算が必要である。
さらにマルチバンド混合励振を行なう場合、指定の混合比となるように、インパルス列と白色雑音のそれぞれにフィルタを掛ける必要があるため、それぞれのフィルタ処理の分、さらに計算量が増える。このため、携帯端末等の計算処理性能が限られた環境では、比較的高次のフィルタを用いた音声合成処理や、混合励振を行なうことが難しい。
これを解決するため、インパルス列や白色雑音列の音源波形に対して、疑似直交鏡像フィルタバンク等に基づき、サンプルレート削減を包含したサブバンド符号化を行なう方法が考えられる。その方法では、サブバンド符号化領域で各帯域要素の振幅調整を行なってから、復号処理し、音声波形を合成する。
上記の方法では、高速コサイン変換等を用いたフィルタバング処理を用いることで、サンプル当たりの処理量をサブバンド数に対して対数オーダとすることができる。従来のフィルタに基づく方法では、サンプル当たりの処理量がフィルタ次数に対して線形オーダとなるため、設定条件によっては、従来手法よりも処理量を減らすことが可能である。
さらに、全ての信号処理が線形な処理である場合に、サブバンド符号領域で事前符号化された白色雑音やインパルス列を組み合わせる方法が考えられる。この方法を用いた場合、音声合成時のサブバンド符号化処理が不要になるため、処理量をさらに削減することができる。
これに対し、インパルス列や白色雑音列といった白色な音源波形に対して、疑似直交鏡像フィルタバンク等に基づき、サンプルレート削減を包含したサブバンド符号化を行なうことが考えられる。その場合には、サブバンド符号化領域で各帯域要素の振幅調整を行なってから、復号処理を行うことで音声波形を合成できる。
この方法では、高速コサイン変換等を用いたフィルタバング処理を用いることで、サンプル当たりの処理量をサブバンド数に対して対数オーダとすることができる。従来のフィルタに基づく方法は、フィルタ次数に対して線形オーダとなるため、設定条件により、従来手法よりも処理量を減らすことが可能である。さらに、全ての信号処理が線形な処理である場合に、サブバンド符号領域で事前符号化された白色雑音やインパルス列を組み合わせる方法が示されている。この方法を用いた場合、音声合成時のサブバンド符号化処理が不要になるため、処理量をさらに削減することができる。
しかし、この方法では、音声スペクトル特徴生成において、その周波数軸方向の解像度がサブバンド符号化におけるサブバンド数で決まる。所望のスペクトル特徴からの誤差を抑えた音声を合成するためには、サブバンド数を大きく設定しなければならないが、サブバンド数を増やすと処理量も増える。この処理量の増加はフレーム周期を長くすることで抑えられるものの、一方でフレーム周期を長くするとスペクトル特徴変化の時間軸方向への解像度が不足し、品質が損なわれる。
また、疑似直交鏡像フィルタバンクでは、ダウンサンプリングに伴うエイリアスをアップサンプリングによるエイリアスで打ち消す構成が可能であり、サブバンド符号化ではこのような構成が通常用いられる。しかし、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変えると、このエイリアスを互いに打ち消し合う処理が崩れ、エイリアスに起因するノイズが生じる。
このようなエイリアスを生じさせないようにするため、ダウンサンプリングを通常のサブバンド符号化の半分に制限する方法が考えられる。しかし、その結果、処理量が倍になることに加え、エイリアスを生じさせる周波数を挟んで隣り合う2つのサブバンドの振幅調整係数を等しく設定する必要があるため、結果として周波数解像度もサブバンド分割数の約半分となってしまう。
本発明は、このような事情に鑑みてなされたものであり、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
(1)上記の目的を達成するため、本発明の音声合成装置は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、音源波形を複数の周波数帯域の成分に分解する成分分解部と、前記分解された成分をそれぞれサブバンド符号化するサブバンド符号化部と、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する重み付き和算出部と、前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部と、を備えることを特徴としている。
これにより、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変える構成においてもエイリアスに起因するノイズを防止するための設定や処理が不要となり、処理量を低減できる。また、成分分解に伴うサブバンド符号化波形ベクトルの重み付き和算出処理の分、処理量が増加するが、サブバンド符号化した際にサブバンド符号化波形ベクトルに0となる要素を多く含むように音源波形を分解し、それらをサブバンド符号上で組み合わせて音声波形を構成することで、サブバンド符号上での重み付き和の計算処理において、実際の積和演算処理の多くを省くことができる。
また、音源波形の分解の方法は、サブバンド符号化とは別に任意に定めることができるので、音源波形をより細かく分解することで、合成する音声波形の周波数解像度を高めることができる。これにより、サブバンド符号化におけるサブバンド数を増やした際の処理量増加や時間解像度低下の問題を避けることができる。このようにして、携帯端末等の計算処理性能が限られた環境でも、十分な音声合成処理を可能となる。
(2)また、本発明の音声合成装置は、前記成分分解部が、帯域通過フィルタの集合で構成され、前記分解された成分の和により前記音源波形を近似的に再現できるように前記音源波形を成分分解することを特徴としている。このように、分解された成分ごとにサブバンド符号化して、サブバンド符号化波形ベクトルの重み付き和を算出する処理を行なうことでスペクトル情報に対応した音声を再現できる。
(3)また、本発明の音声合成装置は、前記成分分解部が、前記音源波形として、インパルス列および白色雑音の2種類の音源波形を用い、前記重み付き和算出部は、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、前記2種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求めることを特徴としている。これにより、インパルス列と白色雑音を音源波形とし、音声の種類ごとに異なる最適なインパルスと雑音のパワー比で音声合成することで合成音声の自然性を改善できる。
(4)また、本発明の音声合成装置は、前記成分分解部が、前記サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、前記音源波形を成分分解することを特徴としている。これにより、事前の成分分解が無い方法に比べて、3/4程度の処理量で同等の周波数および時間の解像度を得られる。
(5)また、本発明の音声合成方法は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、音源波形を複数の周波数帯域の成分に分解するステップと、前記分解された成分をそれぞれサブバンド符号化するステップと、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出するステップと、前記重み付き和を算出されたサブバンド符号化波形ベクトルを、復号し、単一の音声波形に合成するステップと、を含むことを特徴としている。これにより、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。
(6)また、本発明の音声合成プログラムは、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、音源波形を複数の周波数帯域の成分に分解する処理と、前記分解された成分をそれぞれサブバンド符号化する処理と、前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する処理と、前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴としている。これにより、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。
本発明によれば、音声合成における周波数解像度および時間解像度を高めつつ、処理量を低減することができる。その結果、携帯端末等の計算処理性能が限られた環境でも、十分な音声合成処理を可能となる。
基礎となる実施形態に係る音声合成装置の基本構成を示すブロック図である。 基礎となる実施形態に係る音声合成装置の具体的構成を示すブロック図である。 サブバンド符号化部の実際の回路構成を示すブロック図である。 サブバンド符号化部の理論的な構成を示すブロック図である。 サブバンド復号部の実際の回路構成を示すブロック図である。 サブバンド復号部の理論的な構成を示すブロック図である。 帯域分割フィルタバンクについて周波数に対する振幅特性を示すグラフである。 第1の実施形態に係る音声合成装置の基本構成を示すブロック図である。 第1の実施形態に係る音声合成装置の具体的構成を示すブロック図である。 第1の実施形態に係る音声合成装置の動作の一例を示すフローチャートである。 第1の実施形態に係る音声合成装置の動作の一例を示すフローチャートである。
次に、本発明の実施形態について、図面を参照しながら説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては同一の参照番号を付し、重複する説明は省略する。
[基礎となる実施形態]
(音声合成装置の構成)
図1は、音声合成装置100の基本構成を示すブロック図であり、図2は、音声合成装置100の具体的構成を示すブロック図である。音声合成装置100は、音源波形をサブバンド符号化部110によりサブバンド符号化して蓄積し、入力情報に応じてサブバンド毎に振幅を調整する。そして、振幅を調整されたサブバンド符号化波形ベクトルを用いてサブバンド復号部140により合成し、目標となるスペクトル特性を近似的に有する音声波形を合成する。
音声合成装置100は、入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する。本実施形態において、音源制御情報とは基本周波数である。図1に示すように、音声合成装置100は、サブバンド符号化部110、サブバンド符号化音源生成部120、サブバンドパワー調整部130およびサブバンド復号部140を備えている。
サブバンド符号化部110は、音源波形を複数の周波数帯域に分割し、音源波形の分割によりベクトル系列を生成する。サブバンド符号化部110は、等時間間隔内のベクトル系列からベクトルを間引き、音源として蓄積をするためのサブバンド符号化波形ベクトルを生成することが好ましい。
なお、サブバンド符号化部110は、例えば分析フィルタバンクE(z)〜EM−1(z)およびダウンサンプラD↓により構成される。分析フィルタバンクE(z)〜EM−1(z)は、M個の周波数帯域に等分割するフィルタバンクで構成される。ダウンサンプラD↓は、サブバンド符号化後のM次元のベクトル系列に対し、等時間間隔でD(ただしD≦Mとする)サンプルのベクトル系列から(D−1)のベクトルを間引いて1つのベクトルのみを残す処理を行なう。このような間引き処理により、事前蓄積のサイズと、合成フィルタバンクの処理量をそれぞれ削減できる。
サブバンド符号化音源生成部120は、音源波形を複数の周波数帯域に分割して蓄積されたサブバンド符号化波形ベクトルに基づいて、入力された音源制御情報に対応するサブバンド符号化波形ベクトルを生成する。その際には、蓄積されたサブバンド符号化波形ベクトルのうち複数のサブバンド符号化波形ベクトルを組み合わせて、入力された音源制御情報に対応するサブバンド符号化波形ベクトルを生成する。
サブバンド符号化音源生成部120は、さらに蓄積部121および選択部122を備えている。蓄積部121は、事前に生成した、比較的短時間の音源波形(音源波形素片)をサブバンド符号化した結果としてのベクトルを格納する。このベクトルは、サブバンド符号化によるサブバンド分割数と同じ次元数のベクトルであり、これをサブバンド符号化波形ベクトルという。
選択部122は、入力された基本周波数の情報に基づき、事前蓄積されたサブバンド符号化波形ベクトルを選択する。このようにして、サブバンド符号化音源生成部120は、選択されたサブバンド符号化波形ベクトルを用いて、または、複数種類のサブバンド符号化波形ベクトルをサブバンド符号化波形ベクトルとして構成して、サブバンド符号化された音源波形ベクトルを出力する。なお、上記の蓄積までは事前処理として予め行ない、それ以降の処理は入力情報があったときに行なう。
サブバンドパワー調整部130は、生成されたサブバンド符号化波形ベクトルに対して、入力されたスペクトル特性情報に応じたサブバンド毎の振幅調整を行なう。サブバンドパワー調整部130には、各サブバンドのパワーを制御するための乗算回路を設けている。サブバンドパワー調整部130は、入力されるスペクトル特徴情報に基づき、サブバンド毎にこの係数A〜AM−1を調整する。その結果、目標音声のスペクトル特性を再現する。なお、入力となるスペクトル情報は、直接的に各サブバンドのパワー情報で構成してもよいが、例えばメルケプストラム係数を入力とし、内部的に各サブバンドのパワー情報を計算し、その結果を用いてもよい。
サブバンド復号部140は、振幅調整がなされたサブバンド符号化波形ベクトルを単一の音声波形に合成する。すなわち、サブバンド符号化波形を合成し、最終的な合成音声波形を生成する。サブバンド復号部140は、例えばアップサンプラD↑および合成フィルタバンクR(z)〜RM−1(z)により構成される。アップサンプラD↑は、振幅調整がなされたサブバンド符号化波形ベクトルに対し、帯域分割信号間にゼロ値サンプルを挿入し、D倍のアップサンプリングを行なう。合成フィルタバンクR(z)〜RM−1(z)は、M個の周波数帯域に分割されたサブバンド符号化波形ベクトルを単一の音声波形に合成する。
(フィルタバンクの構成)
フィルタバンクを構成するあるフィルタの係数に離散フーリエ変換(DFT)や離散コサイン変換(DCT)、あるいはそれらの逆変換の係数系列を掛けると、基となったフィルタの特性を、周波数軸上でシフトした形のフィルタ特性が得られる。そして、このようなフィルタでフィルタバンクを構成することで、フィルタバンクの処理で必要な計算に、FFT(高速フーリエ変換)等の高速化手法が利用可能となる。これにより、サブバンド符号化・サブバンド合成の処理を高速化することができる。
図3Aおよび図3Bは、それぞれサブバンド符号化部110の実際の回路構成および理論的な構成を示すブロック図である。また、図4Aおよび図4Bは、それぞれサブバンド復号部140の実際の回路構成および理論的な構成を示すブロック図である。いずれの例も離散コサイン変換を用いた構成例を示している。
サブバンド符号化部110およびサブバンド復号部140のいずれについても、実際の回路構成には、遅延要素z−1が設けられ、離散コサイン変換要素DCTまたは逆離散コサイン変換要素IDCTが設けられている。これに対し、サブバンド符号化部110およびサブバンド復号部140と理論的に等価な構成では、上記の各要素が含まれない形が等価となっている。サブバンド符号化部110と理論的に等価な構成では、フィルタ処理を行なってからダウンサンプリングを行なうため、処理のサンプルレートが大きく、処理量も大きくなるが、実際の構成では、先にダウンサンプリングを行なっているため、処理量は少なくなる。これは、サブバンド復号部140も同様である。
図5は、等帯域分割フィルタバンクについて周波数に対する振幅特性を示すグラフである。DFTやDCTのみを用いた場合、矩形窓関数をインパルス応答とする帯域通過フィルタを、周波数軸上でシフトした形の帯域通過フィルタで構成されるフィルタバンクと通常見なせる。以下、シフト前の基となるフィルタを基礎フィルタと呼ぶ。なお、基礎フィルタを、一般にはより好ましいと考えられる、遮断域での減衰量がより大きい周波数特性を持つ帯域通過フィルタ(なお周波数0を中心とする場合は、低域通過フィルタとなる)とすることも可能である。ただし、サブバンド符号化処理結果をサブバンド合成した場合に原音声波形が復元できるようにフィルタを設計する必要がある。その条件は完全再構成条件と呼ばれる。また、フィルタ構成によっては厳密な復元が不可能な場合があり、その場合は、近似的に復元されるようにフィルタを設計する。また、長さMのDFTを用いた場合は、基となるフィルタを、正規化角周波数で2πk/M(k≦0<M)シフトさせたM個のフィルタでフィルタバンクが構成され、DCTを用いた場合は、その定義にもよるが、以下の例で定義されるDCT変換の場合、正規化角周波数でπ(k+1/2)/Mシフトさせた特徴と、π(−k+1/2)/Mシフトさせた特徴の和をその周波数特性とする、M個のフィルタでフィルタバンクが構成される。
以下の例では、DCT変換および逆DCT変換のペアを用いている。DFTの入出力は複素数で定義されるのに対し、DCTの入出力は実数であり、処理をより簡単に行なうことができる。例えば、(1)式のM次のDCT係数を係数とするフィルタとして(2)式(0≦k<M)を用いても分析フィルタバンクを構成できる。
Figure 2014109669
Figure 2014109669
DCT係数の特性上、これはM分割の等帯域分割フィルタバンクであり、さらにこのフィルタバンクは、完全再構成条件を満たすように構成できるので、帯域分割波形から入力波形を復元することができる。
なお、上記の構成において、サブバンド数はスペクトル特徴情報で記述されるスペクトルを所定の精度で模擬できるだけの数とする。例えば、1サンプルのスペクトル情報がk次(0次係数も含めパラメータ数としてはk+1個)のメルケプストラムの場合で、かつここでのkがスペクトル特徴を表現するのに必要な次元数の場合、そのようなスペクトルを一般的に模擬するために、少なくとも(k+1)個のサブバンド数が必要となる。
また、サブバンドパワー調整部130は、白色な音源に対して、各サブバンドのゲインを調整し、入力されたスペクトル特徴情報に対応する音声波形を生成するように動作する。なお、マルチバンド混合励振を行なう場合は、予めインパルス音源と白色雑音源が等パワーとなるように正規化しておき、各サブバンドのパワー重みの和が1となるように制御することで白色な音源を得ることができる。
先述のように、スペクトル情報として各サブバンドのパワー値を直接入力とする構成ではなく、メルケプストラム係数等から変換して各サブバンドのパワー係数を求めてもよい。サブバンド中心のスペクトル強度を、サブバンドのパワー値と見なして制御することで、目標のスペクトル特徴を近似的に得ることができる。サブバンドの中心は、DFTに基づくフィルタバンクを構成する場合、正規化角周波数軸上で、0,2π/M,4π/M,…となる。
一方、先述のDCTに基づくフィルタバンクを構成する場合は、±π/2M,±3π/2M,…となる。ただし、入力が実数系列でかつ、インパルス応答が対称な基礎フィルタを用いる場合は、周波数特性も全て周波数0を中心に対称となるので、例えば正規化角周波数で0からπの範囲のみ考えればよい。サブバンド毎のスペクトル特性はフィルタバンク係数から求めることができるので、目標のスペクトル特徴との誤差を、周波数軸上で、サブバンド数よりもより細かい間隔で評価してもよい。例えば平均二乗誤差が最少となるようなサブバンドのパワー係数の組を、反復近似推定等により求めることで、より正確な制御を実現できる。なお、上記の例は一例であり、DCT変換・逆DCT変換のペアを、他の可逆変換のペアに置き換えることもできる。
(音源の制御方法)
次に、音源の制御方法について説明する。まず前提として、サブバンド符号化・サブバンド合成の前後で処理の線形性が保証されているものとする。先述のDFTやDCTに基づくフィルタバンクは、線形な操作の組み合わせだけでその処理が構成されているので、この条件を満たす。
このとき、インパルス列について、例えば、過去の32サンプルから32帯域の分割を行ない、かつ各帯域の分析フィルタ・合成フィルタがFIRフィルタで表現可能な場合、サブバンド符号化した結果を次のように得ることができる。すなわち、入力フレームの1番目と20番目のサンプルでインパルスが立っているようなインパルス音源波形を帯域分割した場合には、1番目のサンプルのみでインパルスが立っている音源波形をサブバンド符号化した結果と、20番目のサンプルのみでインパルスが立っている音源波形をサブバンド符号化した結果の各要素を足すことにより得ることができる。
つまり、M帯域分割の場合、インパルス音源については、M種類の音源波形の変化の事前蓄積があればよい。実際には、音声合成で用いる基本周波数は比較的に低いので、音源波形のMサンプル内に2つ以上のインパルスが含まれるケースが少ない場合も考えられる。その場合、足し合わせ処理の処理量はほぼ無視することができる。
なお、事前作成・蓄積する波形を生成するための処理量は音声合成時の処理ではないためあまり問題とならない。したがって、例えば、1.5番目のサンプルでインパルスが立っているといった、仮想的にサンプリング周期以上の時間精度でインパルスの位置を制御することも容易である。そのような音源波形は、例えば2倍のサンプリング周波数を用いた対応する波形をまず作成し、高域遮断フィルタであるアンチエイリアスフィルタを掛けることで、元のサンプリング周波数におけるナイキスト周波数以上の成分を除去してから、2:1のダウンサンプリングによりサンプルを間引くことで得ることができる。
このような手法は、サンプリング周波数が低く、インパルス位置をサンプル点に丸めてしまうと合成される音声の基本周波数の誤差が大きくなるケースで特に有効である。逆にサンプリングレートが高い場合は、逆にインパルスの位置精度を下げ、蓄積するサブバンド符号化波形の数を減らすという方法も考えられる。
一方、白色雑音源については、インパルスの足し合わせで白色雑音を合成してもよいが、適当な個数、フレーム長の白色雑音列を事前に帯域分割・蓄積しておき、それをフレーム毎にランダムに選択することで、近似的に構成してもよい。この場合、変換波形を蓄積する必要はあるものの、重みづけ和の計算処理が不要となるので、処理量を減らすことができる。なお、比較的少ない数の蓄積のみから白色な雑音を生成するため、蓄積された帯域分割音源波形を複数個足し合わせて、帯域分割音源波形を構成する方法も考えられる。
(非最大間引きフィルタバンクを用いた構成)
フィルタバンクにおける間引き率Mはその値が1(全く間引かない)からMまでの場合で、少なくとも再合成前に各サブバンドでパワー調整を行なわない場合、サブバンド合成結果がサブバンド符号化前の入力信号と一致するようなフィルタバンクを構成することができることが理論上知られている。例えば、DFTやDCTのみでフィルタバンクを構成し、間引き率Lの間引きを行なう場合、計算誤差を無視すれば、それらの逆変換により入力波形が完全に復元できることは明らかである。
しかし、特にD=M(間引き率が最大であり、最大間引きと呼ばれる)の場合は、DCTを用いると、正規化角周波数において(ただしここではその対称性から0からπの範囲のみ考えることとする)、0〜π/M,π/M〜2π/M,…,(M−2)π/M〜(M−1)π/Mの各帯域の成分が、それが通過帯域、遮断帯域であるかに関わらず、それぞれのサブバンドに全て折り返されて格納される。そして、合成時に、各サブバンドの折り返し雑音成分が互いに打ち消しあうことで、入力波形が復元される。
各サブバンドのフィルタを帯域通過と見た場合、その通過域の幅もπ/Mだが、実際には、通過域で常にゲインが1、遮断域で常に0となるような理想的なフィルタは、有限長のフィルタでは理論上実現できない。実際には、遮断域でもある程度の通過量があり、最大間引きの場合、大きな折り返し雑音が各サブバンドには含まれている。このため、各サブバンドのパワーをサブバンド毎に独立に変更してしまうと、サブバンド間で互いに打ち消しあっている折り返し雑音の構造が崩れてしまい、その折り返し雑音が問題となる。
これに対し、DにMより小さい値を設定すると、サンプルの間引きによる折り返しの幅が、フィルタバンクにおける帯域通過フィルタの通過域の幅より広くなるので、各サブバンドの折り返し雑音が減り、サブバンド毎に独立にパワーを調整した場合でも、折り返し雑音の影響を小さくすることができる。このような設定は非最大間引きと呼ばれる。一般に間引き率Dを小さくするほど、折り返し雑音の影響は小さくなるが、情報量的には冗長となり、蓄積・処理するデータ量が増える。このため、折り返し雑音の影響を抑えるために必要な範囲で、Dはできるだけ大きな値を設定することが好ましい。
先述の非最大間引きは、帯域分割前、帯域合成後の波形系列から見ると、フレームシフトDのオーバラップ分析を行なっていることと等価である。また、時間領域におけるDサンプルの処理毎に、サブバンド符号化によるサブバンド分割領域における1サンプルの処理が行なわれる。ここで、簡単のためにDがMの約数であるとする。なお、完全再構成条件を満たすフィルタバンクを用いるものとする。
まず、インパルス音源については、非最大間引きであっても、上記で説明している音源の制御方法と同様の方法で制御する。ただし、例えば長さMのフレームにおいて、先頭からNサンプル目(ただしM>N≧Dとする)のサンプルが立っている場合、Dサンプルのフレームシフトにより、次のフレームでは先頭からN−D番目のサンプルにインパルスが立つ。このとき、インパルス音源はそれぞれのタイミングで、対応する事前蓄積されたサブバンド符号化波形ベクトルを出力する。
一方、白色雑音については、例えば、最も簡単な方法として、M×Nサンプル周期で同じ波形を繰り返すことで生成する方法が考えられる。その場合は、フレームシフトに対応する、M×N×(M/D)通りの、長さMの波形を事前蓄積しておき、フレームシフトに応じて順に出力する方法がまず考えられる。ここでNは、雑音周期が聴感上問題ない程度となるものであればよい。例えば雑音の周期M×Nが、可聴周波数の下限(例えば20Hz)に対応する周期より長ければよい。
あるいは、長さMの白色雑音波形素片を予め何個か用意しておき、それをランダムに繋ぎ合わせる方法もある。ここで1つの長さMの白色雑音波形素片について、時間軸上の素片範囲外でサンプル値が全て0として扱う。この白色雑音波形素片単独の時間領域における1フレーム内での出現パターンは、フレーム内における波形の開始点の違いで決まり、開始点には−M+D,−M+2D,…,−D,0,D,…,M−Dの計(2(M/D)−1)個のパターンがある。
1フレーム分の雑音波形は1種類(開始点が0の場合)または2種類の長さMの雑音波形の組み合わせで表現できる。したがって、事前作成する長さMのサンプルの白色雑音波形素片がN種類のとき、合計N(2(M/D)−1)個の事前蓄積から、1または2個のサブバンド符号化波形を取得し、それをサブバンド符号化におけるサブバンド分割領域で足し合わせる処理により、白色雑音源を実現できる。
また、白色雑音波形素片の長さをM/2,M/4,…と短くしていくことで、その場合、1フレーム内での出現パターン数が減り、音源で必要な足し合せ処理が増えていく。逆に白色雑音波形素片の長さを長くすることもできる。その場合は出現パターン数が増えるため、必要な蓄積の数が増えるが、音源で足し合わせの処理が必要となる場合が減ることとなる。
[第1の実施形態]
(成分分解を行う装置の構成)
上記の実施形態は、サブバンド符号化により周波数分割された帯域ごとに振幅調整をしているが、本発明の実施形態においてはサブバンド符号化前に成分分解しておき、符号化とは別に、分解された成分ごとに振幅調整を行なう。
図6は、サブバンド符号化とは別に成分分解して振幅調整する音声合成装置200の基本構成を示すブロック図であり、図7は、音声合成装置200の具体的構成を示すブロック図である。音声合成装置200の基本構成は、音声合成装置100と同様であり、音源波形をサブバンド符号化部210によりサブバンド符号化して蓄積し、入力情報に応じて振幅を調整した後にサブバンド符号を復号する。図6に示すように、音声合成装置200は、成分分解部205、サブバンド符号化部210、重み付き和算出部220およびサブバンド復号部140を備えている。
成分分解部205は、インパルス側分解部206a、白色雑音側分解部206bを備え、音源波形として、インパルス列および白色雑音の2種類の音源波形を用い、音源波形を複数の周波数帯域の成分に分解する。成分分解部205は、帯域通過フィルタの集合で構成され、分解された成分の和により音源波形を近似的に再現できるように音源波形を成分分解する。このように、分解された成分ごとにサブバンド符号化して、重み付き和を行なうことでスペクトル情報に対応した音声を再現できる。
成分分解部205は、それぞれM個、N個のフィルタFpおよびFaを有し、インパルス列と白色雑音の音源波形をそれぞれM個、N個の音源要素波形に分割する。分割については、適当な音源波形に対し、分割波形の和が元の音源波形を再現するか、近似的に特徴を再現するように分割すればよい。このような分割を実現するようなフィルタとして、1/2のハーフバンドフィルタを1/Nの帯域制限に拡張した、N−thバンドフィルタを基礎フィルタとして、その係数をコサイン変調して周波数軸上でシフトさせることで構築したフィルタバンクを用いることができる。なお、成分分解部205における帯域分割方法は、続くサブバンド符号化処理のおける帯域分割処理とは独立に定めることができる。
また、成分分解部205で帯域制限フィルタの遮断域における遮断量を大きくとり、遮断域の振幅強度を仮想的に0と見なすことが好ましい。これにより、サブバンド符号化結果のベクトルにおいて、帯域制限フィルタの遮断域と完全に重なる周波数帯域のサブバンドの要素の値を0とすることができる。そして、多くの0要素を含んだサブバンド符号化波形ベクトルを音声合成処理に用いることができる。その結果、重み付き和算出部220における重み付き和の計算処理において、0要素の積和演算処理を省いて、実際の処理量を減らすことができる。
サブバンド符号化部210は、分解された成分のそれぞれをD分割でサブバンド符号化する。すなわち、分割された音源要素波形をD次元のベクトルに変換する。サブバンド符号化部210は、インパルス側符号化部211aおよび白色雑音側符号化部211bを備えている。インパルス側符号化部211aはインパルス音源をサブバンド符号化し、白色雑音側符号化部211bは、白色雑音源をサブバンド符号化する。
重み付き和算出部220は、サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、分解成分に重みを掛け、重み付き和を求める。そして、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、2種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求める。これにより、インパルス列と白色雑音を音源波形とし、音声の種類ごとに異なる最適なインパルスと雑音のパワー比で音声合成することで合成音声の自然性を改善できる。
重み付き和算出部220は、インパルス側蓄積部221a、インパルス側選択部222a、インパルス側重み付け乗算部223a、白色雑音側蓄積部221b、白色雑音側選択部222b、白色雑音側重み付け乗算部223bおよび加算部224を備えている。
インパルス側蓄積部221aおよび白色雑音側蓄積部221bのそれぞれは、D次元のベクトルに変換された音源要素波形を蓄積する。インパルス側蓄積部221aは、インパルス音源に基づくサブバンド符号化波形ベクトルを蓄積する。白色雑音側蓄積部221bは、白色雑音源に基づくサブバンド符号化波形ベクトルを蓄積する。蓄積までの動作は、音声合成前に行なわれる。
インパルス側選択部222aおよび白色雑音側選択部222bは、音声合成時に音源情報およびスペクトル特徴情報に基づき、合成音声波形を構成するために必要なサブバンド符号化波形ベクトルを選択する。インパルス側選択部222aは、入力された基本周波数の情報に基づき、事前蓄積されたインパルス音源に基づくサブバンド符号化波形ベクトルを選択する。白色雑音側選択部222bは、例えば上記の「音源の制御方法」に基づき、事前蓄積された白色雑音源に基づくサブバンド符号化波形ベクトルを選択する。
インパルス側重み付け乗算部223aおよび白色雑音側重み付け乗算部223bは、選択したベクトルの重み付き和を計算することで、合成音声波形を構成するサブバンド符号化波形ベクトルを生成する。インパルス側重み付け乗算部223aは、選択されたサブバンド符号化波形ベクトルの各要素に重み付け係数Ap0〜Ap(M−1)をそれぞれ乗算する。白色雑音側重み付け乗算部223bは、選択されたサブバンド符号化波形ベクトルの各要素に重み付け係数Aa0〜Aa(N−1)をそれぞれ乗算する。なお、各係数は、Apx+Aax=1となるように決められる。
重み付き和算出部220は、音源波形要素選択において、インパルス列を帯域分割した要素と、白色雑音を帯域分割した要素を組み合わせる方法を用いることができる。その重み係数は、まず、音源情報として含まれるインパルス列と雑音の混合比から、インパルス列成分のみのスペクトル特徴と、雑音成分のみのスペクトル特徴を求める。そして、帯域分割した要素の各中心周波数において、それぞれ目標となるスペクトル特徴と、音源要素波形のスペクトル特徴の振幅強度が一致するように重み付き係数を求めればよい。
なお、インパルス側蓄積部221a、インパルス側選択部222aおよびインパルス側重み付け乗算部223aは、インパルス側重み付き和算出部220aを構成する。白色雑音側蓄積部221b、白色雑音側選択部222bおよび白色雑音側重み付け乗算部223bは、白色雑音側重み付き和算出部220bを構成する。
加算部224は、それぞれインパルス側および白色雑音側で重み付け乗算されたサブバンド符号化波形ベクトルを加算する。このように、複数種類のサブバンド符号化波形ベクトルを、音源情報に基づき1つのサブバンド符号化波形ベクトルとして生成する。混合励振源を音源に用いる場合、音源情報に基づき、インパルス列と雑音源の混合比調整も同時に行なう。このように、音声合成装置200は、音源波形の種類に応じて、サブバンド符号化した結果を音声合成時に計算し、事前蓄積した帯域サブバンド符号化波形ベクトルとを組み合わせて、音源となるサブバンド符号化波形ベクトルを生成する。
サブバンド復号部140は、生成されたサブバンド符号化波形ベクトルを、サブバンド符号化に伴うエイリアスを打ち消す構成で復号し、単一の音声波形に合成する。そして、生成されたサブバンド符号化波形ベクトルを最終的な合成音声波形に変換する。
これにより、スペクトル特性の合成のために各サブバンドの振幅係数を独立に変える構成においてもエイリアスに起因するノイズを防止するための設定や処理が不要となり、処理量を低減できる。また、成分分解に伴う処理の分、処理量が増加するが、サブバンド符号化した際にサブバンド符号化波形ベクトルに0となる要素を多く含むような音源波形を分解し、それらをサブバンド符号上で組み合わせて音声波形を構成することで、サブバンド符号上での重み付き和の計算処理において、実際の積和演算処理の多くを省くことができる。
また、音源波形の分解の方法は、サブバンド符号化とは別に任意に定めることができるので、音源波形をより細かく分解することで、合成する音声波形の周波数解像度を高めることができる。これにより、サブバンド符号化におけるサブバンド数を増やした際の処理量増加や時間解像度低下の問題を避けることができる。このようにして、携帯端末等の計算処理性能が限られた環境でも、十分な音声合成処理を可能となる。
(音声合成装置の動作例)
次に、音声合成装置200の動作例を説明する。雑音素片は、成分分解部205における音源波形に対する帯域制限フィルタのタップ数と、サブバンド符号化部210におけるフィルタのタップ数の影響を考慮する必要がある。ランダムに選択した素片の足し合わせで雑音を構成する方法をとることもできるが、そのようにすると、足し合わせの数が増え、処理が複雑になる。
そこで、もっと単純な方法として、有限長の音源波形を繰り返し出力する方法により雑音源を構成するのが容易である。有限長の音源波形は、例えば、白色雑音を帯域制限フィルタに通した結果を周期のサンブル分だけ切り出したものである。その周期は充分に長ければ(例えば数千サンプル以上)であれば実質ランダムと見なせる。
この場合、例えばサブバンド数D、周期Lのとき、雑音素片IDは(n,i)で表せる。nは、分割帯域番号であり、帯域制限フィルタFaの添字に対応している。iは雑音素片IDである。iを0から(L/D)−1まで順に変更して出力し、また0に戻る、という処理を行なう。
図8および図9は、音声合成装置200の動作の一例を示すフローチャートである。なお、図中のA、Bは、図8と図9との流れを結ぶ点を示している。
まず、分割帯域番号nを0に設定する(ステップT1)。次に、入力データの有無を判定する(ステップT2)。入力データが無い場合には、処理を終了する。入力データがある場合には、入力データとして、基本周波数、混合重み、スペクトル特徴情報を取得する(ステップT3)。
入力された基本周波数からインパルスの位置を決定する(ステップT4)。各インパルスに対応するサブバンド符号化波形ベクトルを蓄積されたサブバンド符号化波形ベクトルから取得する(ステップT5)。なお、取得数はインパルスの数と同じ個数である。そして、インパルス側で取得したサブバンド符号化波形ベクトルに対して混合重みおよびスペクトル特徴情報を反映した重みを掛ける(ステップT6)。そして、インパルス側でそれらの和を計算する(ステップT7)。
一方、白色雑音のサブバンド符号化波形ベクトルであるnの情報に基づき蓄積されたサブバンド符号化波形ベクトルから取得する(ステップT8)。そして、取得したサブバンド符号化波形ベクトルに対して、(1−混合重み係数)およびスペクトル特徴情報を反映した重みを掛ける(ステップT9)。そして、白色雑音側でそれらの和を計算する(ステップT10)。
次に、分割帯域番号nをn+1に設定する(ステップT11)。分割帯域番号nがL/Nより小さいか否かを判定し(ステップT12)、小さい場合には、ステップT14に進む。分割帯域番号nがL/D以上である場合には、分割帯域番号nを0に設定する(ステップT13)。
次に、混合励振源のサブバンド符号化波形ベクトルとして、インパルス側と白色雑側の重み付きサブバンド符号化波形ベクトルの和を計算する(ステップT14)。そして、サブバンド合成処理を行ない(ステップT15)、Dサンプルを出力して(ステップT16)、ステップT2に戻る。このような処理により、処理量を削減し、十分な音声合成処理や混合励振が可能になる。
(処理量の低減)
サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、音源波形を成分分解する例を上げて、本発明の処理量の低減を説明する。この例では、事前に成分分解しない方法に比べて、3/4程度の処理量で同等の周波数および時間の解像度を得られる。
折り返し雑音を防止するためには、ダウンサンプリングを通常のサブバンド符号化の半分に制限する方法を採用できる。この方法によれば、間引き率を最大間引きの半分に抑え、折り返し雑音が生じる周波数を挟んで隣接する片側のサブバンドとの間で等しい振幅調整係数を設定する。このようにして、折り返し雑音の影響を解消した音声合成を実現できる。これに対し、一方、本発明ではそのような考慮は不要である。
例えば、最終出力のサンプリングレートが16kHzで、サブバンド符号化におけるサブバンド数が32のとき、最大間引き条件でのサブバンド符号のサンプルレートは500Hzとなる。このサンプルレートは、通常、音声特徴を表す場合の時間解像度としては充分なものである。よって、時間解像度の観点からも最大間引きで問題なく、周波数解像度の低下も生じない。その結果、サブバンド符号復号部における出力サンプル当たりの乗算回数は、上記の折り返し雑音を防止するための方法を採用した場合と比較し、単純計算で約1/4以下にできる。
一方で、混合重みおよびスペクトル特徴情報から決まる振幅乗数は、サブバンド符号化波形ベクトルの全ての乗数に乗じる必要がある。例えば、音源波形の分割数Nが、サブバンド符号化におけるサブバンド数Dと等しい場合、この処理の乗算回数は、上記の方法における同様の処理に対してN(=D)倍となる。
ただし、サブバンド符号化の際の帯域制限フィルタE(z)の遮断域における振幅特性を0と見なせるときは、実際にはサブバンド符号化波形ベクトルのうち、帯域制限フィルタの通過域と対応するサブバンドは3個となり、この3つのサブバンドの要素以外の値は全て0となる。よって、この乗算処理の回数処理量はN倍ではなく、3倍に抑えることができる。このようにして、事前に成分分解しない方法と比較しても、処理量を抑えることができる。
なお、以上のような装置の動作は、装置内のコンピュータによりプログラムが実行されることで行なわれる。また、上記の実施形態では、出力目標音声のスペクトル特性を模擬するように、振幅調整された正弦波を合成し、特定のサブバンドにおいて振幅調整されたサブバンド分割音源波形ベクトルおよび正弦波が合成された正弦波合成成分を組み合わせて1つのサブバンド分割波形ベクトルを生成してもよい。その場合には、生成されたサブバンド分割波形ベクトルおよび振幅調整がなされたサブバンド分割音源波形ベクトルをそれぞれ単一の音声波形に合成できる。
100 音声合成装置
110 サブバンド符号化部
120 サブバンド符号化音源生成部
121 蓄積部
122 選択部
130 サブバンドパワー調整部
140 サブバンド復号部
200 音声合成装置
205 成分分解部
206a インパルス側分解部
206b 白色雑音側分解部
210 サブバンド符号化部
211a インパルス側符号化部
211b 白色雑音側符号化部
220 重み付き和算出部
220a インパルス側重み付き和算出部
220b 白色雑音側重み付き和算出部
221a インパルス側蓄積部
221b 白色雑音側蓄積部
222a インパルス側選択部
222b 白色雑音側選択部
223a インパルス側重み付け乗算部
223b 白色雑音側重み付け乗算部
224 加算部

Claims (6)

  1. 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成装置であって、
    音源波形を複数の周波数帯域の成分に分解する成分分解部と、
    前記分解された成分をそれぞれサブバンド符号化するサブバンド符号化部と、
    前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する重み付き和算出部と、
    前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するサブバンド復号部と、を備えることを特徴とする音声合成装置。
  2. 前記成分分解部は、帯域通過フィルタの集合で構成され、前記分解された成分の和により前記音源波形を近似的に再現できるように前記音源波形を成分分解することを特徴とする請求項1記載の音声合成装置。
  3. 前記成分分解部は、前記音源波形として、インパルス列および白色雑音の2種類の音源波形を用い、
    前記重み付き和算出部は、入力されたスペクトル特性情報に基づくインパルス列と白色雑音との混合比で、前記2種類の音源波形に基づくサブバンド符号化波形ベクトルの重み付き和を求めることを特徴とする請求項1または請求項2記載の音声合成装置。
  4. 前記成分分解部は、前記サブバンド符号化および復号を行なう対象の周波数帯域と同じ幅で、前記音源波形を成分分解することを特徴とする請求項1から請求項3のいずれかに記載の音声合成装置。
  5. 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成方法であって、
    音源波形を複数の周波数帯域の成分に分解するステップと、
    前記分解された成分をそれぞれサブバンド符号化するステップと、
    前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出するステップと、
    前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成するステップと、を含むことを特徴とする音声合成方法。
  6. 入力された時系列の音源制御情報およびスペクトル特性情報を基に、音声波形を合成する音声合成プログラムであって、
    音源波形を複数の周波数帯域の成分に分解する処理と、
    前記分解された成分をそれぞれサブバンド符号化する処理と、
    前記サブバンド符号化された成分で構成されるサブバンド符号化波形ベクトルに対して、前記分解成分について重み付き和を算出する処理と、
    前記重み付き和を算出されたサブバンド符号化波形ベクトルを復号し、単一の音声波形に合成する処理と、をコンピュータに実行させることを特徴とする音声合成プログラム。
JP2012263607A 2012-11-30 2012-11-30 音声合成装置、音声合成方法および音声合成プログラム Expired - Fee Related JP6201205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012263607A JP6201205B2 (ja) 2012-11-30 2012-11-30 音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012263607A JP6201205B2 (ja) 2012-11-30 2012-11-30 音声合成装置、音声合成方法および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2014109669A true JP2014109669A (ja) 2014-06-12
JP6201205B2 JP6201205B2 (ja) 2017-09-27

Family

ID=51030336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012263607A Expired - Fee Related JP6201205B2 (ja) 2012-11-30 2012-11-30 音声合成装置、音声合成方法および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP6201205B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP2022055464A (ja) * 2020-09-29 2022-04-08 Kddi株式会社 音声分析装置、方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH05113799A (ja) * 1991-08-30 1993-05-07 Oki Electric Ind Co Ltd コード励振線形予測符号化方式
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
JP2007171519A (ja) * 2005-12-21 2007-07-05 Mitsubishi Electric Corp 音声符号化・復号装置
JP2008519991A (ja) * 2004-11-09 2008-06-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声の符号化及び復号化

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04116700A (ja) * 1990-09-07 1992-04-17 Mitsubishi Electric Corp 音声分析・合成装置
JPH05113799A (ja) * 1991-08-30 1993-05-07 Oki Electric Ind Co Ltd コード励振線形予測符号化方式
JP2001051698A (ja) * 1999-08-06 2001-02-23 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 音声符号化復号方法および装置
JP2008519991A (ja) * 2004-11-09 2008-06-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声の符号化及び復号化
JP2007171519A (ja) * 2005-12-21 2007-07-05 Mitsubishi Electric Corp 音声符号化・復号装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP7209275B2 (ja) 2017-08-31 2023-01-20 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP2022055464A (ja) * 2020-09-29 2022-04-08 Kddi株式会社 音声分析装置、方法及びプログラム

Also Published As

Publication number Publication date
JP6201205B2 (ja) 2017-09-27

Similar Documents

Publication Publication Date Title
RU2586846C2 (ru) Устройство и способ обработки входного звукового сигнала с помощью каскадированного банка фильтров
RU2547220C2 (ru) Устройство и способ для генерирования высокочастотного аудиосигнала с применением адаптивной избыточной дискретизации
JP4473913B2 (ja) スペクトル/変調スペクトル域表現における変形による情報信号処理
CA3008914C (en) Improved subband block based harmonic transposition
AU2011263191B2 (en) Bandwidth Extension Method, Bandwidth Extension Apparatus, Program, Integrated Circuit, and Audio Decoding Apparatus
KR102014696B1 (ko) 교차 곱 강화된 서브밴드 블록 기반 고조파 전위
AU2013286049B2 (en) Device, method and computer program for freely selectable frequency shifts in the sub-band domain
JP6410890B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6201205B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP6284298B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5763487B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
RU2641253C2 (ru) Устройство и способ для обработки звукового сигнала с использованием сигнала ошибки вследствие наложения спектров

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170613

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170808

R150 Certificate of patent or registration of utility model

Ref document number: 6201205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees