JP5245962B2 - 音声合成装置、音声合成方法、プログラム及び記録媒体 - Google Patents

音声合成装置、音声合成方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5245962B2
JP5245962B2 JP2009068920A JP2009068920A JP5245962B2 JP 5245962 B2 JP5245962 B2 JP 5245962B2 JP 2009068920 A JP2009068920 A JP 2009068920A JP 2009068920 A JP2009068920 A JP 2009068920A JP 5245962 B2 JP5245962 B2 JP 5245962B2
Authority
JP
Japan
Prior art keywords
voiced
segment
pitch frequency
target
unvoiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009068920A
Other languages
English (en)
Other versions
JP2010224053A (ja
Inventor
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009068920A priority Critical patent/JP5245962B2/ja
Publication of JP2010224053A publication Critical patent/JP2010224053A/ja
Application granted granted Critical
Publication of JP5245962B2 publication Critical patent/JP5245962B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声合成装置、音声合成方法、プログラム及び記録媒体に関し、特に、テキストから音声を合成する音声合成技術に関する。
従来から、テキスト文を解析し、その文が示す音声情報から規則合成により合成音声を生成する音声合成装置が、種々開発されてきた。図27は、一般的な規則合成型の音声合成装置の構成を示したブロック図である。このような構成を有する音声合成装置の構成と動作の詳細については、例えば非特許文献1から3と、特許文献1及び2に記載されている。
図27に示した音声合成装置は、言語処理部1と、韻律推定部2と、有声素片情報記憶部12と、無声素片情報記憶部13と、素片選択部3と、韻律制御選択部6と、有声素片韻律制御部41と、無声素片韻律制御部42と、素片接続部5と、を備えている。
有声素片情報記憶部12と無声素片情報記憶部13は、音声合成単位毎に生成された音声素片を表す音声素片情報と、各音声素片の属性情報と、を記憶している。ここで、音声素片情報は、合成音声(音声波形)を生成するために用いられる情報である。音声素片情報は、人間が発した音声(自然音声波形)から抽出された情報であることが多い。例えば、音声素片情報は、アナウンサーあるいは声優が発した(発声した)音声を録音した情報に基づいて生成される。音声素片情報の基となった音声を発した人間(話者)は、音声素片の元発話者と呼ばれる。
例えば、音声素片は、音声合成単位毎に分割された(切り出された)音声波形、線形予測分析パラメータ、又は、ケプストラム係数等である。また、音声素片の属性情報は、各音声素片の基となった音声の音素環境、ピッチ周波数、振幅、継続時間等の音韻情報、並びに、韻律情報である。音声合成単位は、音素、CV、CVC、又は、VCV(Vは母音、Cは子音)等が用いられることが多い。この音声素片の長さ及び音声合成単位の詳細については、非特許文献1及び非特許文献3に記載されている。
音声素片のうち、有声音からなる素片は有声素片情報記憶部12に、無声音からなる素片は無声素片情報記憶部13に記憶される。非特許文献4に記載されているように、声帯振動を伴う音声が有声音、伴わない音声が無声音である。従来の一般的な音声合成装置では、有声音と無声音の区別は音素単位で行われてきた。例えば、日本語の母音はすべて有声音である。日本語の子音は、有声音と無声音に分類されるが、その対応関係については、非特許文献4の5ページに記載されている。
言語処理部1は、入力された文字列情報に対して、形態素解析、構文解析、及び、読み付け等の分析を行い、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、アクセント型等を表す情報と、を言語解析処理結果として韻律推定部2と素片選択部3に出力する。
韻律推定部2は、言語処理部1から出力された言語解析処理結果に基づいて、合成音声の韻律(音の高さ(ピッチ)、音の長さ(時間長)、及び、音の大きさ(パワー)等に関する情報)を推定し、推定した韻律を表す韻律情報を目標韻律情報として素片選択部3及び韻律制御選択部6に出力する。
素片選択部3は、言語解析処理結果と目標韻律情報とに基づいて、有声素片情報記憶部12及び無声素片情報記憶部13に記憶されている音声素片情報の中から、下記のように音声素片情報を選択し、選択した音声素片情報とその属性情報とを韻律制御選択部6に出力する。
具体的には、素片選択部3は、入力された言語解析処理結果と目標韻律情報とに基づいて、合成音声の特徴を表す情報(以下、これを「目標素片環境」と呼ぶ。)を音声合成単位毎に求める。目標素片環境は、該当・先行・後続の各音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、単位の継続時間長、ケプストラム、MFCC(Mel Frequency Cepstral Coefficients)、及び、これらのΔ量(単位時間当たりの変化量)等である。
次に、素片選択部3は、求めた目標素片環境に含まれる特定の情報(主に該当音素)に対応(例えば、一致)する音素を有する音声素片を表す音声素片情報を有声素片情報記憶部12及び有声素片情報記憶部13から複数取得する。取得された音声素片情報は、音声を合成するために用いられる音声素片情報の候補である。
そして、素片選択部3は、取得された音声素片情報に対して、音声を合成するために用いる音声素片情報としての適切度を示す指標であるコストを算出する。コストは、適切度が高くなるほど小さくなる値である。即ち、コストが小さい音声素片情報を用いるほど、合成された音声は、人間が発した音声と類似している程度を表す自然度が高い音声となる。すなわち、素片選択部3は、算出されたコストが最も小さい音声素片情報を選択する。
韻律制御選択部6は、素片選択部3から供給された選択素片の属性情報に基づき韻律制御部を選択し、目標韻律情報と選択素片及びその属性情報を、有声素片韻律制御部41又は第一無声素片韻律制御部42へ供給する。韻律制御選択部6に入力された選択素片が有声素片であれば、有声素片韻律制御部41を選択する。逆に、無声素片が入力された場合には、第一無声素片韻律制御部42を選択する。
有声素片韻律制御部41は、有声素片情報と目標韻律情報とを基に、有声素片の韻律が目標韻律に一致するように有声素片波形を変形し、素片接続部5に伝達する。有声素片の韻律を制御する方法としては、例えば特許文献4により公開されている分析手法を用いた方法が挙げられる。
この特許文献4の分析手法によれば、元音声波形のスペクトル包絡を表す複素ケプストラムを求め、複素ケプストラムを表現するフィルタを所望のピッチ周波数に相当する時間間隔で駆動することによって、所望のピッチ周波数を持つ音声波形を再構成することができる。また他には、非特許文献5に記載されているPSOLA方式が挙げられる。
第一無声素片韻律制御部41は、無声素片情報と目標韻律情報とを基に、無声素片の韻律が目標韻律に一致するように有声素片波形を変形し、素片接続部5に伝達する。無声素片の韻律を制御する方法としては、例えば非特許文献6や非特許文献7に公開されている手法を用いた方法が挙げられる。
素片接続部5は、入力された有声素片と無声素片を接続し、合成音声として出力する。
上記の従来例は、音素毎に有声素片と無声素片に分類し、それぞれ別々に処理する。しかし、実際には有声音として分類されていた素片の中にも無声成分が多く含まれ、これを無視した韻律制御を行うと、合成音声の音質低下を招くことがある。この問題を解決する目的で、音素毎の分類ではなく、収録音声波形そのものから有声成分と無声成分(非有声成分)を信号的に分離して、それぞれ韻律制御を行ってから両者を重ね合わせる方法が、例えば非特許文献8に記載されている。
特開2005−91551号公報 特開2006−84854号公報 特開2004−138728号公報 特許第2812184号公報
Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, "SPOKEN LANGUAGE PROCESSING", Prentice Hall, pp.689-836, 2001 石川泰、"音声合成のための韻律制御の基礎"、電子情報通信学会技術研究報告、Vol.100、No.392、pp.27-34、2000 阿部匡伸、"音声合成のための合成単位の基礎"、電子情報通信学会技術研究報告、Vol.100、No.392、pp.35-42、2000 古井貞熙、"音声情報処理"、森北出版、1998 Eric Moulines, Francis Charapentier, "PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES", Speech Communication 9, pp.453-467, 1990 Ryoji Suzuki, Masayuki Misaki, "TIME-SCALE MODIFICATION OF SPEECH SIGNALS USING CROSS-CORRELATION", IEEE Trans. Consum. Electron., vol.38, pp.166-167, 1992 清山信正、今井篤、三島剛、都木徹、宮坂栄一、"高品質リアルタイム話速変換システムの開発"、電子情報通信学会論文誌、Vol.J84-D-II、No.6、pp.918-926、2001 Jordi Bonada, Xavier Serra, "Synthesis of the Singing Voice by Performance Sampling and Spectral Models", IEEE Signal Processing Magazine, Vol.24, No.2, pp.67-79, 2007 Lawrence R. Rabiner, Ronald W. Schafer, "DIGITAL PROCESSING OF SPEECH SIGNALS", PRENTICE HALL, pp.150-162, 1987
しかしながら、上記の非特許文献8に記載された従来の音声合成装置は、以下のような問題点を有している。すなわち、無声素片に対して、有声成分が完全に除去されていない状態で、一般的な韻律制御を行うと音質低下を招くことがあるという点である。有声素片と無声素片を分離する手法は様々あるが、どの方法でも完全に分離することは困難なため、無声素片に有声成分が漏れ出すことがある。従来の一般的な無声素片韻律制御では、有声成分が無いことが前提となっているので、漏れ出した有声成分が合成音声に出現し、不適切なピッチ周波数成分が聞こえてしまう。一方、無声素片対して有声素片と同じ方法で韻律制御を行うことは可能である。しかし、有声素片の韻律制御では、無声素片の韻律制御の特徴である波形の連続性保存が困難なため、有声成分が殆ど存在しない場合には、波形の不連続性に基づく著しい音質劣化を招くことになる。
そこで、本発明は、上記問題点に鑑みてなされたものであり、無声素片に含まれる有声成分の状態に応じて韻律制御を行うことにより、従来よりも音質の高い無声素片韻律制御を行うことができる音声合成装置、音声合成方法及び音声合成プログラムを実現することを目的とする。
本発明の一側面である音声合成装置は、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置であって、図1に示すように、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定部と、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御部と、を備える。
本発明の一側面である音声合成方法は、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置で用いられ、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定ステップと、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御ステップと、を有する。
本発明の一側面であるプログラムは、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置で用いられ、コンピュータに、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定処理と、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御処理と、を実行させる。
本発明の一側面である記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、無声素片に含まれる有声成分の状態に応じて韻律制御を行うため、韻律制御に伴う無声素片の音質劣化を低減することが可能となる。
本発明に係る音声合成装置の構成を示した図である。 本発明の実施形態に係る音声合成装置の構成を示したブロック図である。 本発明の実施形態に係る音声合成装置の第二無音素片韻律制御部の構成を示したブロック図である。 本発明の実施形態における韻律制御の選択を説明するための図である。 本発明の実施形態における目標ピッチ周波数の修正に用いられるデータテーブル例を示した図である。 本発明の実施形態における目標ピッチ周波数の修正に用いられるデータテーブル例を示した図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(パワースペクトルを表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態における目標ピッチ周波数の修正を説明するための図(無声素片波形を表した図)である。 本発明の実施形態に係る音声合成装置の構成を示したブロック図である。 本発明の実施形態に係る音声合成装置の第二無音素片韻律制御部の構成を示したブロック図である。 従来の音声合成装置の構成を示したブロック図である。
以下、本発明の実施形態について図面を参照して詳細に説明する。
[第一実施形態]
(音声合成装置の構成)
図2は、本発明の第一実施形態の音声合成装置の構成を示すブロック図である。第一実施形態の音声合成装置は、言語処理部1、韻律推定部2、素片選択部3、韻律制御選択部61、有声素片制御部41、第一無声素片制御部42、第二無声素片制御部43、素片接続部5、残留有声成分量推定部7、有声素片情報記憶部12、無声素片情報記憶部13を備えている。以下、図2のブロック図を参照しながら、第一実施形態の音声合成装置の詳細な動作について説明する。
(音声合成装置の動作)
言語処理部1は、入力されたテキスト文に対して形態素解析や構文解析、読み付け等の分析を行い、言語処理結果として韻律推定部2と、素片選択部3、韻律制御選択部3に出力する。
韻律推定部2は、言語処理部1から出力された言語処理結果を基に、合成音声の韻律を推定し、合成音声が実現すべき目標韻律情報として、素片選択部3、韻律制御選択部61に出力する。
素片選択部3は、言語処理部1から供給された言語処理結果と、韻律推定部2から供給された目標韻律情報と、有声素片情報記憶部12と無声素片情報記憶部13に記憶された素片の中から、言語処理結果及び目標韻律情報に最も適合した素片を選択し、選択素片及びその属性情報を選択素片情報として韻律制御選択部61及び残留有声成分量推定部7へ伝達する。
残留有声成分量推定部7は、素片選択部3から供給された選択素片を基に、無声素片に残留する有声成分の量を推定し、推定結果を韻律制御選択部61及び第二無声素片韻律制御部43へ伝達する。有声成分の推定量は、基本周波数(F0)、及びその倍音周波数(2F0、3F0等)における周波数成分のパワー比(無声素片/有声素片)で求められる。パワー比では無く振幅比でも良く、パワーの対数値から比率を計算しても良い。もし有声素片と無声素片から分離前の素片(すなわち元音声の素片)の状態を導くことができれば、無声素片と元音声素片をもとに比率を計算しても良い。残留量だけでなく残留状態も推定するためには、周波数成分のパワー比を基本周波数及び倍音周波数のそれぞれについて求めておく方法が有効である。例えば、基本周波数及び倍音周波数の値をf0,f1,・・・ ,fnとし、ある周波数fにおける有声素片及び無声素片のパワースペクトルをPv(f)及びPu(f)とすれば、残留推定量R(f)は下記で与えられる。
R(f)=Pu(f)/Pv(f),f=f0,f1,・・・ ,fn
残留状態の概要(およそどの程度残留しているのか)を把握するうえでは、上記のR(f)の和あるいは積により残留推定量を求めても良い。例えば、残留推定量Rとして、以下の式で求められる。
Figure 0005245962
また、一般に基本及び倍音周波数は音声波形を分析して推定するが、その推定精度が不十分である可能性がある場合には、特定の周波数ではなく、基本及び倍音周波数が含まれる周波数帯に対してパワースペクトルを求める方法が、残留推定量を算出する上で有効である。周波数幅をΔfとすると、この場合の残留推定量はR(f)は下記で与えられる。
Figure 0005245962
,f=f0,f1,・・・ ,fn
韻律制御選択部61は、言語処理部1から供給された言語処理結果と、残留有声成分量推定部7から供給された推定残留量とを基に、韻律制御方式の選択を行い、韻律推定部2から供給された目標韻律情報と、素片選択部3から供給された選択素片を、有声素片韻律制御部41、又は第一無声素片韻律制御部42、又は第二無声素片韻律制御部43に伝達する。有声素片韻律制御部41を選択した場合は、無声素片を使わないので有声素片情報のみを伝達する。逆に、第一無声素片韻律制御部42を選択した場合は、有声素片を使わないので無声素片情報のみを伝達する。第二無声素片韻律制御部43を選択した場合には、有声素片情報も用いて無声素片の韻律を制御するため、有声・無声の両素片情報を伝達する。
第一実施形態では、ある特定の音声素片から有声素片と無声素片の両方の素片を分離して、それぞれに対して韻律制御を行うことを主に想定しているが、言語処理結果から事前にどちらか一方の素片しかないことが仮定されていることもある。有声・無声素片の両者が揃っていない場合は、従来例と同様に有声素片又は無声素片の韻律を制御すれば良い。有声・無声素片の両者が揃っている場合、韻律制御選択部61は、有声素片は有声素片制御部41へ伝達し、無声素片は有声成分の推定残留量に応じて制御方法を選択する。
図4に示すとおり、推定残留量が多い(TH1を上回る)場合には有声素片韻律制御41を、推定残留量が少ない(TH2を下回る)場合には第一無声素片韻律制御42を、中間的な場合には第二無声素片韻律制御部43を選択する。素片単位でこの三状態(推定残留量が多い・少ない・中間的)に分割すれば処理の切り替えが素片単位で行えるので、波形生成における制御が容易になる。しかし、同一素片内に二つ以上の状態が存在する可能性がある。この場合は、残留推定量の状態に応じて素片をサブ素片に分割し、各サブ素片に対してそれぞれ韻律制御を行う。但し、あまりに細かく分割すると、分割・再接続が頻繁に行われることになるため、接続歪み等の音質劣化が目立つようになる。分割に伴う音質劣化を低減するためにも、分割数やサブ素片の長さ等に応じて素片分割を行う必要がある。
有声素片制御部41は、韻律制御選択部から供給された目標韻律情報及び有声素片情報を基に、有声素片の韻律を制御し、素片接続部5に伝達する。韻律の制御方法としては、PSOLA方式等の一般的な有声素片用の韻律制御方法が用いられる。
第一無声素片制御部42は、韻律制御選択部から供給された目標韻律情報及び無声素片情報をもとに、無声素片の韻律を制御し、素片接続部5に伝達する。韻律の制御方法としては、従来の一般的な無声素片用の韻律制御方法が用いられる。
第二無声素片制御部43の説明については、図3を用いて行う。図3は、第二無声素片制御部43のブロック図である。図3を参照すると、第二無声素片制御部43は、ピッチ・時間長情報分離部431、目標ピッチ周波数補正部432、有声素片ピッチ周波数列抽出部433、韻律制御部434を備える。第二無声素片制御部42との相違は、有声成分が残留している可能性が高いため、基本的に有声素片制御部41と同様の韻律制御を行う点である。一方、有声素片制御部41との相違は、入力された各種韻律情報に応じて目標ピッチ周波数を修正する点である。目標ピッチ周波数の修正の有無以外には相違点は無いため、実際の韻律制御は有声素片制御部41と同じである。
ピッチ・時間長情報分離部431は、入力された目標韻律情報から、目標ピッチ周波数と目標継続時間長を抽出し、目標ピッチ周波数は目標ピッチ周波数補正部432、目標継続時間長は韻律制御部434へ伝達する。
有声素片ピッチ周波数抽出部433は、無声素片に含まれる残留有声成分のピッチ周波数を求めるために、有声素片情報から有声素片のピッチ周波数を抽出し、目標ピッチ周波数補正部432と韻律制御部434へ伝達する。
目標ピッチ周波数補正部432は、目標ピッチ周波数と、目標継続時間長と、無声素片情報に含まれる無声素片の継続時間長と、有声成分ピッチ周波数抽出部433から供給されたピッチ周波数と、推定残留量を基に、韻律制御部434で利用される目標ピッチ周波数の補正を行う。
目標ピッチ周波数の修正値は、ピッチ周波数の変更比率(目標ピッチ周波数/元ピッチ周波数)、継続時間長の変更比率(目標継続時間長/元継続時間長)を求めた後、図5や図6に示すテーブルを用いて決定する。テーブル中の「修正無し」は、目標ピッチ周波数の修正を行わないことを意味する。なお、テーブル中に出ていない条件では、この修正無しが適用される。
テーブル中の「修正1」は目標ピッチ周波数を2倍の値に変更することを表す。たとえば、ピッチ周波数の変更比率が0.8、継続時間長の変更比率が0.63、目標ピッチ周波数が200Hzの場合、修正後のピッチ周波数を400Hzとする。これは、韻律制御後の無声素片のF0成分、より正確には残留有声成分のF0成分を、有声素片の倍音成分にオーバーラップさせて、残留有声成分を目立たなくするために行う。
「修正1」により実現しようとする波形の操作をスペクトルの観点から図7から図14を用いて説明する。図7は、有声成分と無声成分に分離する前の音声のパワースペクトルである。図8は分離後の有声素片、図9は分離後の残留有声成分のパワースペクトルを表している。もし、有声素片と無声素片を韻律制御して重ね合わせる際に、有声素片と残留有声成分を図10から図12のように重ね合わせれば、残留有声成分は聞き取れないが、もし図13及び図14のように重ね合わせると、残留有声成分が聞こえてしまう。図10から図12のようなスペクトルを重ね合わせる修正方法が「修正1」で実現しようとしていることである。
「修正1」のような方法で無声素片の目標ピッチ周波数を修正する利点、すなわち無声素片のピッチ周波数を上げることによる利点は、図15から図17により説明される。図15は、ピッチ周期で切り出した無声素片波形を表している。ここでは、波形1から8をピッチ波形と呼ぶ。「修正1」が適用される条件は、ピッチ周波数を下げつつ継続時間長を短くする場合であるが、無修正で韻律制御を行った場合、ピッチ波形は図16のような形状になる。このようなピッチ波形の並びになる理由は、PSOLA方式のようにピッチ波形の間隔や数で韻律を制御する方法においては、ピッチを低くするためにピッチ波形の間隔を広くし、時間長を短くするために波形の間引きを行うためである。波形の間引きが発生しているため、波形の不連続性が生じることになり音質劣化につながる。一方、「修正1」を適用すると、ピッチ周波数を高くする処理になるため、ピッチ波形間隔が短くなり、同時に素片の時間長も短くなる。図16とは異なり、波形の連続性が保存できているので、波形の不連続性に伴う音質低下を防ぐことができる。
テーブル中の「修正2」は、目標ピッチ周波数を元ピッチ周波数に差し替える修正を行う。これは、無声素片のピッチ周波数、より正確には残留有声成分のピッチ周波数を、元発話ピッチ周波数に合わせる、すなわちピッチ周波数の制御を行わないようにするためである。
テーブル中の「修正3」は、目標ピッチ周波数を半分の値に変更することを表す。これは、韻律制御後の無声素片の2倍音成分(2F0成分)、より正確には残留有声成分の2倍音成分を、有声素片のF0成分にオーバーラップさせて、残留有声成分を目立たなくするために行う。例えば、ピッチ周波数の変更比率が1.2倍、継続時間長の変更比率が1.66、目標ピッチ周波数が200Hzの場合、修正後のピッチ周波数を100Hzとする。このような修正方法が有効となるのは、基本周波数における残留有声成分が十分小さいときである。
「修正3」により実現しようとする波形の操作をスペクトルの観点から図18から図21を用いて説明する。図18は、有声成分と無声成分に分離する前の音声のパワースペクトルである。図19は分離後の有声素片、図20は分離後の残留有声成分のパワースペクトルを表している。「修正3」を利用する条件としては、基本周波数における残留有声成分が十分小さいときを想定しているので、図20に示すようなスペクトル形状を仮定する。有声素片と無声素片を韻律制御して重ね合わせる際に、有声素片と残留有声成分を図21のように重ね合わせれば、残留有声成分は聞き取れない。このようなスペクトルを重ね合わせる修正方法が「修正3」で実現しようとしていることである。
「修正3」のような方法で無声素片の目標ピッチ周波数を修正する利点、すなわち無声素片のピッチ周波数を下げることによる利点は、図22から図24により説明される。図22は、ピッチ周期で切り出した無声素片波形を表している。ここでは、波形1から8をピッチ波形と呼ぶ。「修正3」が適用される条件は、ピッチ周波数を上げつつ継続時間長を長くする場合であるが、無修正で韻律制御を行った場合、ピッチ波形は図23のような形状になる。これは、ピッチを高くするためにピッチ波形の間隔が短くなり、時間長を短くするために波形の補間を行った結果である。波形の補間が発生しているため、波形の不連続性が生じることになり音質劣化につながる。一方、「修正3」を適用すると、ピッチ周波数を低くする処理になるため、ピッチ波形間隔が長くなり、同時に素片の時間長も長くなる。図22とは異なり、波形の連続性が保存できているので、波形の不連続性に伴う音質低下を防ぐことができる。
韻律制御部434は、目標ピッチ周波数補正部432から供給された目標ピッチ周波数と、有声素片ピッチ周波数抽出部433から供給された有声素片のピッチ周波数と、入力された無声素片情報を基に、無声素片の韻律を制御し、素片接続部5へ伝達する。韻律制御自体は、有声素片韻律制御部41と同じである。但し、残留有声成分のピッチ周波数を変更するために必要となるピッチ周波数については、有声素片情報から得られたピッチ周波数を用いる。
素片接続部5は、有声素片韻律制御部41、第一無声素片韻律制御部42、及び第二無声素片韻律制御部43からそれぞれ供給された素片を接続し、合成音声波形として出力する。各韻律制御部から素片が別々のタイミングで供給されれば、供給された順番に素片を接続すれば良い。もし、同一のタイミング、すなわち同時に2種類の素片が供給された場合には、それらの素片はいったん重ね合わせて1つの音声素片にしてから、素片の接続を行う。特に、ある音声素片を有声素片と無声素片に分離して、それぞれ別々の韻律制御を行った場合には、それらの素片は重ね合わせて一つに音声素片にする必要がある。
(第一実施形態の効果)
本発明の第一実施形態によれば、残留有声成分が含まれる無声素片に対して、残留有声成分量に応じて韻律の制御方法を切り替える、具体的には目標ピッチ周波数を修正してから韻律制御を行うため、無声素片の波形の連続性に配慮した韻律制御を行うことが可能である。この結果、従来方式と比較して波形の不連続性に伴う音質低下を低減できる。
[第二実施形態]
(音声合成装置の構成)
図25は、本発明の第二実施形態の音声合成装置の構成を示すブロック図である。第二実施形態の音声合成装置は、第一実施形態の音声合成装置(図2)と比較して、第一無声素片韻律制御部42が省略されており、韻律制御選択部61が韻律制御選択部62に、残留有声成分量推定部7が残留有声成分量推定部71に、第二無声素片韻律制御部43が第二無声素片韻律制御部44にそれぞれ置換されている。以下、図25のブロック図を参照しながら、第二実施形態の音声合成装置の詳細な動作について説明する。
(音声合成装置の動作)
残留有声成分量推定部71は、素片選択部3から供給された無声素片を基に、無声素片に残留する有声成分の量を推定し、推定結果を韻律制御選択部62及び第二無声素片韻律制御部44へ伝達する。無声素片のみを用いて残留有声成分量を推定する点が、第一実施形態の残留有声成分量推定部7と主に異なる。
無声素片から残留有声成分を推定する方法としては、無声素片のパワースペクトルの形状を分析することで行うことが可能である。最も簡単な例としては、全ての周波数におけるパワースペクトルの平均値を計算し、その平均値と基本周波数及び倍音周波数のパワースペクトルの大きさを比較して、残留推定量を求める方法である。たとえば、基本周波数及び倍音周波数の値をf0,f1,・・・,fnとし、ある周波数fにおける無声素片のパワースペクトルをPu(f)、全周波数のパワースペクトルの平均値をPaveとすれば、残留推定量R(f)は下記で与えられる。
R(f)=Pu(f)/Pave,f=f0,f1,・・・ ,fn
他には、平均値の代わりに、最大値や最小値やメジアン(中央値)等の順序統計量を比較対象に用いる方法等もある。つまり、全ての周波数におけるパワースペクトルの中で最大(あるいは最小)のものをPaveの代わりに用いる方法である。残留有声成分を正確に求めることは困難だが、残留状況をする目的にはこのような方法も十分有効である。
韻律制御選択部62は、言語処理部1から供給された言語処理結果と、残留有声成分量推定部71から供給された推定残留量とを基に、韻律制御方式の選択を行い、韻律推定部2から供給された目標韻律情報と、素片選択部3から供給された選択素片を、有声素片韻律制御部41、又は第二無声素片韻律制御部44に伝達する。有声素片韻律制御部41を選択した場合は、無声素片を使わないので有声素片情報のみを伝達する。第二無声素片韻律制御部44を選択した場合は、有声素片を使わないので無声素片情報のみを伝達する。第二実施形態では、第一無声素片韻律制御部42が存在しないので、完全に無声素片と断定された素片は第二無声素片韻律制御部44へ伝達される。図4を用いて説明すれば、推定残留量がTH1を上回る程度に多い場合には有声素片韻律制御41を、それ以外の場合には第二無声素片韻律制御44を選択する。
第二無声素片制御部44の説明については、図26を用いて行う。図26は、第二無声素片制御部44のブロック図である。図3の第二無声素片制御部43と比較して、第二無声素片制御部44は、有声素片ピッチ周波数抽出部433が有声成分ピッチ周波数抽出部443に置換されている。以下、図26のブロック図を参照しながら、第二無声素片制御部44の詳細な動作について説明する。
有声成分ピッチ周波数抽出部443は、無声素片に含まれる残留有声成分のピッチ周波数を求めるために、無声素片から残留有声成分のピッチ周波数を抽出し、目標ピッチ周波数補正部432と韻律制御部434に伝達する。有声素片情報からピッチ周波数を取得するのではなく、無声素片に含まれる残留有声成分からピッチ周波数を推定する点が、第一実施形態の有声素片ピッチ周波数抽出部443と主に異なる。
任意の音声波形からピッチ周波数を推定する手法としては、例えば非特許文献9に掲載されている自己相関関数を用いた方法が挙げられる。但し、自己相関関数を用いた手法において、有声性が十分低いと分析された場合には、ピッチ周波数の値は事前に定めた適当な定数(例えば50Hz)とする。第二実施形態の第二無声素片制御部44では、完全な無声素片の韻律も制御対象となっているため、有声性が十分低い場合がある。
(第二実施形態の効果)
本発明の第二実施形態によれば、先に述べた第一実施形態と比較して、有声素片を利用せずに残留有声成分量の推定や無声素片韻律の制御を行う。また、第一無声素片制御部が省略された構成となっている。この結果、第一実施形態よりも構成内容が簡単になり、処理の複雑さを低減することが可能である。
なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
すなわち、上述した実施形態の音声合成装置における各部(残留有声成分量推定部、韻律制御選択部、有声素片韻律制御部、第一無声素片韻律制御部、第二無声素片韻律制御部等)は、ハードウエア、あるいはメモリ上に展開してハードウエアを制御することでその作用が得られるソフトウエア、あるいはハードウエア及びソフトウエアの両方で実現することができる。
また、本発明は、装置として実現できるのみでなく、方法としても実現可能である。また、本発明の全体あるいは一部をソフトウエアとして構成することもできる。当該ソフトウエアは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードさせることにより提供されるように構成してもよい。また、上記ソフトウエアをインターネット等のネットワーク経由で提供あるいは配布するように構成してもよい。
また、上記ソフトウエアは、インストール可能な形式又は実行可能な形式のファイルで、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD、不揮発性のメモリカード等のコンピュータで読み取り可能な記録媒体に記録されて提供されるように構成してもよい。また、上記ソフトウエアは、ROM等にあらかじめ組み込んで提供するように構成してもよい。
この場合、上記記録媒体から読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の機能を実現することになる。そして、そのプログラムコードを記録した記録媒体は本発明を構成する。
1 言語処理部
2 韻律推定部
3 素片選択部
5 素片接続部
6,61,62 韻律制御選択部
12 有声素片情報記憶部
13 無声素片情報記憶部
41 有声素片韻律制御部
42 第一無声素片韻律制御部
43,44 第二無声素片韻律制御部
431 ピッチ・時間長情報分離部
432 目標ピッチ周波数補正部
433,443 有声素片ピッチ周波数抽出部
434 韻律制御部

Claims (16)

  1. 音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定する残留有声成分量推定部と、
    前記残留有声成分の量が第1の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第1の閾値より小さい第2の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第1の閾値以下かつ前記第2の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する波形生成部と、
    を備える声合成装置。
  2. 前記波形生成部は、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
    請求項1に記載の音声合成装置。
  3. 前記波形生成部は、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を2倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
    請求項2に記載の音声合成装置。
  4. 前記残留有声成分推定部は、前記無声素片と前記有声素片とに基づいて、前記留有声成分の量を推定する
    請求項1から3のいずれか1項に記載の音声合成装置。
  5. 前記波形生成部は、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
    請求項1から4のいずれか1項に記載の音声合成装置。
  6. 音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定し、
    前記残留有声成分の量が第1の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第1の閾値より小さい第2の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第1の閾値以下かつ前記第2の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する、
    音声合成方法。
  7. 前記無声素片に対する有声韻律制御において、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
    請求項6に記載の音声合成方法。
  8. 前記無声素片に対する有声韻律制御において、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を2倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
    請求項7に記載の音声合成方法。
  9. 前記無声素片に含まれる残留有声成分の量の推定において、前記無声素片と前記有声素片とに基づいて、前記留有声成分の量を推定する
    請求項6から8のいずれか1項に記載の音声合成方法。
  10. 前記無声素片に対する有声韻律制御において、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
    請求項6から9のいずれか1項に記載の音声合成方法。
  11. ンピュータに、
    音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定し、
    前記残留有声成分の量が第1の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第1の閾値より小さい第2の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第1の閾値以下かつ前記第2の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する、
    処理を実行させるログラム。
  12. 前記無声素片に対する有声韻律制御において、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
    処理を実行させる請求項11に記載のプログラム。
  13. 前記無声素片に対する有声韻律制御において、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を2倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
    処理を実行させる請求項12に記載のプログラム。
  14. 前記無声素片に含まれる残留有声成分の量の推定において、前記無声素片と前記有声素片とに基づいて、前記留有声成分の量を推定する
    処理を実行させる請求項11から13のいずれか1項に記載のプログラム。
  15. 前記無声素片に対する有声韻律制御において、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
    処理を実行させる請求項11から14のいずれか1項に記載のプログラム。
  16. 請求項11から15のいずれか1項に記載のプログラムを記録しコンピュータ読み取り可能なことを特徴とする記録媒体。
JP2009068920A 2009-03-19 2009-03-19 音声合成装置、音声合成方法、プログラム及び記録媒体 Active JP5245962B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009068920A JP5245962B2 (ja) 2009-03-19 2009-03-19 音声合成装置、音声合成方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009068920A JP5245962B2 (ja) 2009-03-19 2009-03-19 音声合成装置、音声合成方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010224053A JP2010224053A (ja) 2010-10-07
JP5245962B2 true JP5245962B2 (ja) 2013-07-24

Family

ID=43041342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009068920A Active JP5245962B2 (ja) 2009-03-19 2009-03-19 音声合成装置、音声合成方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5245962B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6519096B2 (ja) * 2014-02-14 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
CN113409762B (zh) * 2021-06-30 2024-05-07 平安科技(深圳)有限公司 情感语音合成方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004287350A (ja) * 2003-03-25 2004-10-14 Casio Comput Co Ltd 音声変換装置、音声効果付与装置、及びプログラム
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
JP4433734B2 (ja) * 2003-09-11 2010-03-17 カシオ計算機株式会社 音声分析合成装置、音声分析装置、及びプログラム

Also Published As

Publication number Publication date
JP2010224053A (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
US10535336B1 (en) Voice conversion using deep neural network with intermediate voice training
US10347238B2 (en) Text-based insertion and replacement in audio narration
US9368103B2 (en) Estimation system of spectral envelopes and group delays for sound analysis and synthesis, and audio signal synthesis system
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US8447592B2 (en) Methods and apparatus for formant-based voice systems
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
EP4266306A1 (en) A speech processing system and a method of processing a speech signal
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP5983604B2 (ja) 素片情報生成装置、音声合成装置、音声合成方法および音声合成プログラム
JP5245962B2 (ja) 音声合成装置、音声合成方法、プログラム及び記録媒体
EP3113180B1 (en) Method for performing audio inpainting on a speech signal and apparatus for performing audio inpainting on a speech signal
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
AU2015397951B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
EP1589524B1 (en) Method and device for speech synthesis
Ninh et al. F0 parameterization of glottalized tones in HMM-based speech synthesis for Hanoi Vietnamese
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
Greibus et al. Segmentation analysis using synthetic speech signals
Moberg et al. Comparing CART and Fujisaki intonation models for synthesis of US-English names
Chunwijitra et al. Tonal context labeling using quantized F0 symbols for improving tone correctness in average-voice-based speech synthesis

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110920

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Ref document number: 5245962

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3