JP5245962B2

JP5245962B2 - 音声合成装置、音声合成方法、プログラム及び記録媒体

Info

Publication number: JP5245962B2
Application number: JP2009068920A
Authority: JP
Inventors: 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2013-07-24
Anticipated expiration: 2029-03-19
Also published as: JP2010224053A

Description

本発明は、音声合成装置、音声合成方法、プログラム及び記録媒体に関し、特に、テキストから音声を合成する音声合成技術に関する。

従来から、テキスト文を解析し、その文が示す音声情報から規則合成により合成音声を生成する音声合成装置が、種々開発されてきた。図２７は、一般的な規則合成型の音声合成装置の構成を示したブロック図である。このような構成を有する音声合成装置の構成と動作の詳細については、例えば非特許文献１から３と、特許文献１及び２に記載されている。

図２７に示した音声合成装置は、言語処理部１と、韻律推定部２と、有声素片情報記憶部１２と、無声素片情報記憶部１３と、素片選択部３と、韻律制御選択部６と、有声素片韻律制御部４１と、無声素片韻律制御部４２と、素片接続部５と、を備えている。

有声素片情報記憶部１２と無声素片情報記憶部１３は、音声合成単位毎に生成された音声素片を表す音声素片情報と、各音声素片の属性情報と、を記憶している。ここで、音声素片情報は、合成音声（音声波形）を生成するために用いられる情報である。音声素片情報は、人間が発した音声（自然音声波形）から抽出された情報であることが多い。例えば、音声素片情報は、アナウンサーあるいは声優が発した（発声した）音声を録音した情報に基づいて生成される。音声素片情報の基となった音声を発した人間（話者）は、音声素片の元発話者と呼ばれる。

例えば、音声素片は、音声合成単位毎に分割された（切り出された）音声波形、線形予測分析パラメータ、又は、ケプストラム係数等である。また、音声素片の属性情報は、各音声素片の基となった音声の音素環境、ピッチ周波数、振幅、継続時間等の音韻情報、並びに、韻律情報である。音声合成単位は、音素、ＣＶ、ＣＶＣ、又は、ＶＣＶ（Ｖは母音、Ｃは子音）等が用いられることが多い。この音声素片の長さ及び音声合成単位の詳細については、非特許文献１及び非特許文献３に記載されている。

音声素片のうち、有声音からなる素片は有声素片情報記憶部１２に、無声音からなる素片は無声素片情報記憶部１３に記憶される。非特許文献４に記載されているように、声帯振動を伴う音声が有声音、伴わない音声が無声音である。従来の一般的な音声合成装置では、有声音と無声音の区別は音素単位で行われてきた。例えば、日本語の母音はすべて有声音である。日本語の子音は、有声音と無声音に分類されるが、その対応関係については、非特許文献４の５ページに記載されている。

言語処理部１は、入力された文字列情報に対して、形態素解析、構文解析、及び、読み付け等の分析を行い、音素記号等の「読み」を表す記号列を表す情報と、形態素の品詞、活用、アクセント型等を表す情報と、を言語解析処理結果として韻律推定部２と素片選択部３に出力する。

韻律推定部２は、言語処理部１から出力された言語解析処理結果に基づいて、合成音声の韻律（音の高さ（ピッチ）、音の長さ（時間長）、及び、音の大きさ（パワー）等に関する情報）を推定し、推定した韻律を表す韻律情報を目標韻律情報として素片選択部３及び韻律制御選択部６に出力する。

素片選択部３は、言語解析処理結果と目標韻律情報とに基づいて、有声素片情報記憶部１２及び無声素片情報記憶部１３に記憶されている音声素片情報の中から、下記のように音声素片情報を選択し、選択した音声素片情報とその属性情報とを韻律制御選択部６に出力する。

具体的には、素片選択部３は、入力された言語解析処理結果と目標韻律情報とに基づいて、合成音声の特徴を表す情報（以下、これを「目標素片環境」と呼ぶ。）を音声合成単位毎に求める。目標素片環境は、該当・先行・後続の各音素、ストレスの有無、アクセント核からの距離、音声合成単位毎のピッチ周波数、パワー、単位の継続時間長、ケプストラム、ＭＦＣＣ（Mel Frequency Cepstral Coefficients）、及び、これらのΔ量（単位時間当たりの変化量）等である。

次に、素片選択部３は、求めた目標素片環境に含まれる特定の情報（主に該当音素）に対応（例えば、一致）する音素を有する音声素片を表す音声素片情報を有声素片情報記憶部１２及び有声素片情報記憶部１３から複数取得する。取得された音声素片情報は、音声を合成するために用いられる音声素片情報の候補である。

そして、素片選択部３は、取得された音声素片情報に対して、音声を合成するために用いる音声素片情報としての適切度を示す指標であるコストを算出する。コストは、適切度が高くなるほど小さくなる値である。即ち、コストが小さい音声素片情報を用いるほど、合成された音声は、人間が発した音声と類似している程度を表す自然度が高い音声となる。すなわち、素片選択部３は、算出されたコストが最も小さい音声素片情報を選択する。

韻律制御選択部６は、素片選択部３から供給された選択素片の属性情報に基づき韻律制御部を選択し、目標韻律情報と選択素片及びその属性情報を、有声素片韻律制御部４１又は第一無声素片韻律制御部４２へ供給する。韻律制御選択部６に入力された選択素片が有声素片であれば、有声素片韻律制御部４１を選択する。逆に、無声素片が入力された場合には、第一無声素片韻律制御部４２を選択する。

有声素片韻律制御部４１は、有声素片情報と目標韻律情報とを基に、有声素片の韻律が目標韻律に一致するように有声素片波形を変形し、素片接続部５に伝達する。有声素片の韻律を制御する方法としては、例えば特許文献４により公開されている分析手法を用いた方法が挙げられる。

この特許文献４の分析手法によれば、元音声波形のスペクトル包絡を表す複素ケプストラムを求め、複素ケプストラムを表現するフィルタを所望のピッチ周波数に相当する時間間隔で駆動することによって、所望のピッチ周波数を持つ音声波形を再構成することができる。また他には、非特許文献５に記載されているＰＳＯＬＡ方式が挙げられる。

第一無声素片韻律制御部４１は、無声素片情報と目標韻律情報とを基に、無声素片の韻律が目標韻律に一致するように有声素片波形を変形し、素片接続部５に伝達する。無声素片の韻律を制御する方法としては、例えば非特許文献６や非特許文献７に公開されている手法を用いた方法が挙げられる。

素片接続部５は、入力された有声素片と無声素片を接続し、合成音声として出力する。

上記の従来例は、音素毎に有声素片と無声素片に分類し、それぞれ別々に処理する。しかし、実際には有声音として分類されていた素片の中にも無声成分が多く含まれ、これを無視した韻律制御を行うと、合成音声の音質低下を招くことがある。この問題を解決する目的で、音素毎の分類ではなく、収録音声波形そのものから有声成分と無声成分(非有声成分)を信号的に分離して、それぞれ韻律制御を行ってから両者を重ね合わせる方法が、例えば非特許文献８に記載されている。

特開２００５−９１５５１号公報特開２００６−８４８５４号公報特開２００４−１３８７２８号公報特許第２８１２１８４号公報

Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, "SPOKEN LANGUAGE PROCESSING", Prentice Hall, pp.689-836, 2001 石川泰、"音声合成のための韻律制御の基礎"、電子情報通信学会技術研究報告、Vol.100、No.392、pp.27-34、2000 阿部匡伸、"音声合成のための合成単位の基礎"、電子情報通信学会技術研究報告、Vol.100、No.392、pp.35-42、2000 古井貞熙、"音声情報処理"、森北出版、1998 Eric Moulines, Francis Charapentier, "PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES", Speech Communication 9, pp.453-467, 1990 Ryoji Suzuki, Masayuki Misaki, "TIME-SCALE MODIFICATION OF SPEECH SIGNALS USING CROSS-CORRELATION", IEEE Trans. Consum. Electron., vol.38, pp.166-167, 1992 清山信正、今井篤、三島剛、都木徹、宮坂栄一、"高品質リアルタイム話速変換システムの開発"、電子情報通信学会論文誌、Vol.J84-D-II、No.6、pp.918-926、2001 Jordi Bonada, Xavier Serra, "Synthesis of the Singing Voice by Performance Sampling and Spectral Models", IEEE Signal Processing Magazine, Vol.24, No.2, pp.67-79, 2007 Lawrence R. Rabiner, Ronald W. Schafer, "DIGITAL PROCESSING OF SPEECH SIGNALS", PRENTICE HALL, pp.150-162, 1987

しかしながら、上記の非特許文献８に記載された従来の音声合成装置は、以下のような問題点を有している。すなわち、無声素片に対して、有声成分が完全に除去されていない状態で、一般的な韻律制御を行うと音質低下を招くことがあるという点である。有声素片と無声素片を分離する手法は様々あるが、どの方法でも完全に分離することは困難なため、無声素片に有声成分が漏れ出すことがある。従来の一般的な無声素片韻律制御では、有声成分が無いことが前提となっているので、漏れ出した有声成分が合成音声に出現し、不適切なピッチ周波数成分が聞こえてしまう。一方、無声素片対して有声素片と同じ方法で韻律制御を行うことは可能である。しかし、有声素片の韻律制御では、無声素片の韻律制御の特徴である波形の連続性保存が困難なため、有声成分が殆ど存在しない場合には、波形の不連続性に基づく著しい音質劣化を招くことになる。

そこで、本発明は、上記問題点に鑑みてなされたものであり、無声素片に含まれる有声成分の状態に応じて韻律制御を行うことにより、従来よりも音質の高い無声素片韻律制御を行うことができる音声合成装置、音声合成方法及び音声合成プログラムを実現することを目的とする。

本発明の一側面である音声合成装置は、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置であって、図１に示すように、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定部と、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御部と、を備える。

本発明の一側面である音声合成方法は、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置で用いられ、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定ステップと、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御ステップと、を有する。

本発明の一側面であるプログラムは、音声素片を有声素片と無声素片に分離して、それぞれに対して韻律制御を行う音声合成装置で用いられ、コンピュータに、無声素片に基づいて、無声素片に含まれる残留有声成分を推定する残留有声成分推定処理と、目標韻律情報と無声素片と残留有声成分推定量とに基づいて、無声素片の韻律制御を行う無声素片韻律制御処理と、を実行させる。

本発明の一側面である記録媒体は、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、無声素片に含まれる有声成分の状態に応じて韻律制御を行うため、韻律制御に伴う無声素片の音質劣化を低減することが可能となる。

本発明に係る音声合成装置の構成を示した図である。本発明の実施形態に係る音声合成装置の構成を示したブロック図である。本発明の実施形態に係る音声合成装置の第二無音素片韻律制御部の構成を示したブロック図である。本発明の実施形態における韻律制御の選択を説明するための図である。本発明の実施形態における目標ピッチ周波数の修正に用いられるデータテーブル例を示した図である。本発明の実施形態における目標ピッチ周波数の修正に用いられるデータテーブル例を示した図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（パワースペクトルを表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態における目標ピッチ周波数の修正を説明するための図（無声素片波形を表した図）である。本発明の実施形態に係る音声合成装置の構成を示したブロック図である。本発明の実施形態に係る音声合成装置の第二無音素片韻律制御部の構成を示したブロック図である。従来の音声合成装置の構成を示したブロック図である。

以下、本発明の実施形態について図面を参照して詳細に説明する。

［第一実施形態］
（音声合成装置の構成）
図２は、本発明の第一実施形態の音声合成装置の構成を示すブロック図である。第一実施形態の音声合成装置は、言語処理部１、韻律推定部２、素片選択部３、韻律制御選択部６１、有声素片制御部４１、第一無声素片制御部４２、第二無声素片制御部４３、素片接続部５、残留有声成分量推定部７、有声素片情報記憶部１２、無声素片情報記憶部１３を備えている。以下、図２のブロック図を参照しながら、第一実施形態の音声合成装置の詳細な動作について説明する。

（音声合成装置の動作）
言語処理部１は、入力されたテキスト文に対して形態素解析や構文解析、読み付け等の分析を行い、言語処理結果として韻律推定部２と、素片選択部３、韻律制御選択部３に出力する。

韻律推定部２は、言語処理部１から出力された言語処理結果を基に、合成音声の韻律を推定し、合成音声が実現すべき目標韻律情報として、素片選択部３、韻律制御選択部６１に出力する。

素片選択部３は、言語処理部１から供給された言語処理結果と、韻律推定部２から供給された目標韻律情報と、有声素片情報記憶部１２と無声素片情報記憶部１３に記憶された素片の中から、言語処理結果及び目標韻律情報に最も適合した素片を選択し、選択素片及びその属性情報を選択素片情報として韻律制御選択部６１及び残留有声成分量推定部７へ伝達する。

残留有声成分量推定部７は、素片選択部３から供給された選択素片を基に、無声素片に残留する有声成分の量を推定し、推定結果を韻律制御選択部６１及び第二無声素片韻律制御部４３へ伝達する。有声成分の推定量は、基本周波数（Ｆ０）、及びその倍音周波数（２Ｆ０、３Ｆ０等）における周波数成分のパワー比（無声素片／有声素片）で求められる。パワー比では無く振幅比でも良く、パワーの対数値から比率を計算しても良い。もし有声素片と無声素片から分離前の素片（すなわち元音声の素片）の状態を導くことができれば、無声素片と元音声素片をもとに比率を計算しても良い。残留量だけでなく残留状態も推定するためには、周波数成分のパワー比を基本周波数及び倍音周波数のそれぞれについて求めておく方法が有効である。例えば、基本周波数及び倍音周波数の値をｆ０，ｆ１，・・・，ｆｎとし、ある周波数ｆにおける有声素片及び無声素片のパワースペクトルをＰｖ（ｆ）及びＰｕ（ｆ）とすれば、残留推定量Ｒ（ｆ）は下記で与えられる。
Ｒ（ｆ）＝Ｐｕ（ｆ）／Ｐｖ（ｆ），ｆ＝ｆ０，ｆ１，・・・，ｆｎ

残留状態の概要（およそどの程度残留しているのか）を把握するうえでは、上記のＲ（ｆ）の和あるいは積により残留推定量を求めても良い。例えば、残留推定量Ｒとして、以下の式で求められる。

また、一般に基本及び倍音周波数は音声波形を分析して推定するが、その推定精度が不十分である可能性がある場合には、特定の周波数ではなく、基本及び倍音周波数が含まれる周波数帯に対してパワースペクトルを求める方法が、残留推定量を算出する上で有効である。周波数幅をΔｆとすると、この場合の残留推定量はＲ（ｆ）は下記で与えられる。

，ｆ＝ｆ０，ｆ１，・・・，ｆｎ

韻律制御選択部６１は、言語処理部１から供給された言語処理結果と、残留有声成分量推定部７から供給された推定残留量とを基に、韻律制御方式の選択を行い、韻律推定部２から供給された目標韻律情報と、素片選択部３から供給された選択素片を、有声素片韻律制御部４１、又は第一無声素片韻律制御部４２、又は第二無声素片韻律制御部４３に伝達する。有声素片韻律制御部４１を選択した場合は、無声素片を使わないので有声素片情報のみを伝達する。逆に、第一無声素片韻律制御部４２を選択した場合は、有声素片を使わないので無声素片情報のみを伝達する。第二無声素片韻律制御部４３を選択した場合には、有声素片情報も用いて無声素片の韻律を制御するため、有声・無声の両素片情報を伝達する。

第一実施形態では、ある特定の音声素片から有声素片と無声素片の両方の素片を分離して、それぞれに対して韻律制御を行うことを主に想定しているが、言語処理結果から事前にどちらか一方の素片しかないことが仮定されていることもある。有声・無声素片の両者が揃っていない場合は、従来例と同様に有声素片又は無声素片の韻律を制御すれば良い。有声・無声素片の両者が揃っている場合、韻律制御選択部６１は、有声素片は有声素片制御部４１へ伝達し、無声素片は有声成分の推定残留量に応じて制御方法を選択する。

図４に示すとおり、推定残留量が多い（ＴＨ１を上回る）場合には有声素片韻律制御４１を、推定残留量が少ない（ＴＨ２を下回る）場合には第一無声素片韻律制御４２を、中間的な場合には第二無声素片韻律制御部４３を選択する。素片単位でこの三状態（推定残留量が多い・少ない・中間的）に分割すれば処理の切り替えが素片単位で行えるので、波形生成における制御が容易になる。しかし、同一素片内に二つ以上の状態が存在する可能性がある。この場合は、残留推定量の状態に応じて素片をサブ素片に分割し、各サブ素片に対してそれぞれ韻律制御を行う。但し、あまりに細かく分割すると、分割・再接続が頻繁に行われることになるため、接続歪み等の音質劣化が目立つようになる。分割に伴う音質劣化を低減するためにも、分割数やサブ素片の長さ等に応じて素片分割を行う必要がある。

有声素片制御部４１は、韻律制御選択部から供給された目標韻律情報及び有声素片情報を基に、有声素片の韻律を制御し、素片接続部５に伝達する。韻律の制御方法としては、ＰＳＯＬＡ方式等の一般的な有声素片用の韻律制御方法が用いられる。

第一無声素片制御部４２は、韻律制御選択部から供給された目標韻律情報及び無声素片情報をもとに、無声素片の韻律を制御し、素片接続部５に伝達する。韻律の制御方法としては、従来の一般的な無声素片用の韻律制御方法が用いられる。

第二無声素片制御部４３の説明については、図３を用いて行う。図３は、第二無声素片制御部４３のブロック図である。図３を参照すると、第二無声素片制御部４３は、ピッチ・時間長情報分離部４３１、目標ピッチ周波数補正部４３２、有声素片ピッチ周波数列抽出部４３３、韻律制御部４３４を備える。第二無声素片制御部４２との相違は、有声成分が残留している可能性が高いため、基本的に有声素片制御部４１と同様の韻律制御を行う点である。一方、有声素片制御部４１との相違は、入力された各種韻律情報に応じて目標ピッチ周波数を修正する点である。目標ピッチ周波数の修正の有無以外には相違点は無いため、実際の韻律制御は有声素片制御部４１と同じである。

ピッチ・時間長情報分離部４３１は、入力された目標韻律情報から、目標ピッチ周波数と目標継続時間長を抽出し、目標ピッチ周波数は目標ピッチ周波数補正部４３２、目標継続時間長は韻律制御部４３４へ伝達する。

有声素片ピッチ周波数抽出部４３３は、無声素片に含まれる残留有声成分のピッチ周波数を求めるために、有声素片情報から有声素片のピッチ周波数を抽出し、目標ピッチ周波数補正部４３２と韻律制御部４３４へ伝達する。

目標ピッチ周波数補正部４３２は、目標ピッチ周波数と、目標継続時間長と、無声素片情報に含まれる無声素片の継続時間長と、有声成分ピッチ周波数抽出部４３３から供給されたピッチ周波数と、推定残留量を基に、韻律制御部４３４で利用される目標ピッチ周波数の補正を行う。

目標ピッチ周波数の修正値は、ピッチ周波数の変更比率（目標ピッチ周波数／元ピッチ周波数）、継続時間長の変更比率（目標継続時間長／元継続時間長）を求めた後、図５や図６に示すテーブルを用いて決定する。テーブル中の「修正無し」は、目標ピッチ周波数の修正を行わないことを意味する。なお、テーブル中に出ていない条件では、この修正無しが適用される。

テーブル中の「修正１」は目標ピッチ周波数を２倍の値に変更することを表す。たとえば、ピッチ周波数の変更比率が０．８、継続時間長の変更比率が０．６３、目標ピッチ周波数が２００Ｈｚの場合、修正後のピッチ周波数を４００Ｈｚとする。これは、韻律制御後の無声素片のＦ０成分、より正確には残留有声成分のＦ０成分を、有声素片の倍音成分にオーバーラップさせて、残留有声成分を目立たなくするために行う。

「修正１」により実現しようとする波形の操作をスペクトルの観点から図７から図１４を用いて説明する。図７は、有声成分と無声成分に分離する前の音声のパワースペクトルである。図８は分離後の有声素片、図９は分離後の残留有声成分のパワースペクトルを表している。もし、有声素片と無声素片を韻律制御して重ね合わせる際に、有声素片と残留有声成分を図１０から図１２のように重ね合わせれば、残留有声成分は聞き取れないが、もし図１３及び図１４のように重ね合わせると、残留有声成分が聞こえてしまう。図１０から図１２のようなスペクトルを重ね合わせる修正方法が「修正１」で実現しようとしていることである。

「修正１」のような方法で無声素片の目標ピッチ周波数を修正する利点、すなわち無声素片のピッチ周波数を上げることによる利点は、図１５から図１７により説明される。図１５は、ピッチ周期で切り出した無声素片波形を表している。ここでは、波形１から８をピッチ波形と呼ぶ。「修正１」が適用される条件は、ピッチ周波数を下げつつ継続時間長を短くする場合であるが、無修正で韻律制御を行った場合、ピッチ波形は図１６のような形状になる。このようなピッチ波形の並びになる理由は、ＰＳＯＬＡ方式のようにピッチ波形の間隔や数で韻律を制御する方法においては、ピッチを低くするためにピッチ波形の間隔を広くし、時間長を短くするために波形の間引きを行うためである。波形の間引きが発生しているため、波形の不連続性が生じることになり音質劣化につながる。一方、「修正１」を適用すると、ピッチ周波数を高くする処理になるため、ピッチ波形間隔が短くなり、同時に素片の時間長も短くなる。図１６とは異なり、波形の連続性が保存できているので、波形の不連続性に伴う音質低下を防ぐことができる。

テーブル中の「修正２」は、目標ピッチ周波数を元ピッチ周波数に差し替える修正を行う。これは、無声素片のピッチ周波数、より正確には残留有声成分のピッチ周波数を、元発話ピッチ周波数に合わせる、すなわちピッチ周波数の制御を行わないようにするためである。

テーブル中の「修正３」は、目標ピッチ周波数を半分の値に変更することを表す。これは、韻律制御後の無声素片の２倍音成分（２Ｆ０成分）、より正確には残留有声成分の２倍音成分を、有声素片のＦ０成分にオーバーラップさせて、残留有声成分を目立たなくするために行う。例えば、ピッチ周波数の変更比率が１．２倍、継続時間長の変更比率が１．６６、目標ピッチ周波数が２００Ｈｚの場合、修正後のピッチ周波数を１００Ｈｚとする。このような修正方法が有効となるのは、基本周波数における残留有声成分が十分小さいときである。

「修正３」により実現しようとする波形の操作をスペクトルの観点から図１８から図２１を用いて説明する。図１８は、有声成分と無声成分に分離する前の音声のパワースペクトルである。図１９は分離後の有声素片、図２０は分離後の残留有声成分のパワースペクトルを表している。「修正３」を利用する条件としては、基本周波数における残留有声成分が十分小さいときを想定しているので、図２０に示すようなスペクトル形状を仮定する。有声素片と無声素片を韻律制御して重ね合わせる際に、有声素片と残留有声成分を図２１のように重ね合わせれば、残留有声成分は聞き取れない。このようなスペクトルを重ね合わせる修正方法が「修正３」で実現しようとしていることである。

「修正３」のような方法で無声素片の目標ピッチ周波数を修正する利点、すなわち無声素片のピッチ周波数を下げることによる利点は、図２２から図２４により説明される。図２２は、ピッチ周期で切り出した無声素片波形を表している。ここでは、波形１から８をピッチ波形と呼ぶ。「修正３」が適用される条件は、ピッチ周波数を上げつつ継続時間長を長くする場合であるが、無修正で韻律制御を行った場合、ピッチ波形は図２３のような形状になる。これは、ピッチを高くするためにピッチ波形の間隔が短くなり、時間長を短くするために波形の補間を行った結果である。波形の補間が発生しているため、波形の不連続性が生じることになり音質劣化につながる。一方、「修正３」を適用すると、ピッチ周波数を低くする処理になるため、ピッチ波形間隔が長くなり、同時に素片の時間長も長くなる。図２２とは異なり、波形の連続性が保存できているので、波形の不連続性に伴う音質低下を防ぐことができる。

韻律制御部４３４は、目標ピッチ周波数補正部４３２から供給された目標ピッチ周波数と、有声素片ピッチ周波数抽出部４３３から供給された有声素片のピッチ周波数と、入力された無声素片情報を基に、無声素片の韻律を制御し、素片接続部５へ伝達する。韻律制御自体は、有声素片韻律制御部４１と同じである。但し、残留有声成分のピッチ周波数を変更するために必要となるピッチ周波数については、有声素片情報から得られたピッチ周波数を用いる。

素片接続部５は、有声素片韻律制御部４１、第一無声素片韻律制御部４２、及び第二無声素片韻律制御部４３からそれぞれ供給された素片を接続し、合成音声波形として出力する。各韻律制御部から素片が別々のタイミングで供給されれば、供給された順番に素片を接続すれば良い。もし、同一のタイミング、すなわち同時に２種類の素片が供給された場合には、それらの素片はいったん重ね合わせて１つの音声素片にしてから、素片の接続を行う。特に、ある音声素片を有声素片と無声素片に分離して、それぞれ別々の韻律制御を行った場合には、それらの素片は重ね合わせて一つに音声素片にする必要がある。

（第一実施形態の効果）
本発明の第一実施形態によれば、残留有声成分が含まれる無声素片に対して、残留有声成分量に応じて韻律の制御方法を切り替える、具体的には目標ピッチ周波数を修正してから韻律制御を行うため、無声素片の波形の連続性に配慮した韻律制御を行うことが可能である。この結果、従来方式と比較して波形の不連続性に伴う音質低下を低減できる。

［第二実施形態］
（音声合成装置の構成）
図２５は、本発明の第二実施形態の音声合成装置の構成を示すブロック図である。第二実施形態の音声合成装置は、第一実施形態の音声合成装置（図２）と比較して、第一無声素片韻律制御部４２が省略されており、韻律制御選択部６１が韻律制御選択部６２に、残留有声成分量推定部７が残留有声成分量推定部７１に、第二無声素片韻律制御部４３が第二無声素片韻律制御部４４にそれぞれ置換されている。以下、図２５のブロック図を参照しながら、第二実施形態の音声合成装置の詳細な動作について説明する。

（音声合成装置の動作）
残留有声成分量推定部７１は、素片選択部３から供給された無声素片を基に、無声素片に残留する有声成分の量を推定し、推定結果を韻律制御選択部６２及び第二無声素片韻律制御部４４へ伝達する。無声素片のみを用いて残留有声成分量を推定する点が、第一実施形態の残留有声成分量推定部７と主に異なる。

無声素片から残留有声成分を推定する方法としては、無声素片のパワースペクトルの形状を分析することで行うことが可能である。最も簡単な例としては、全ての周波数におけるパワースペクトルの平均値を計算し、その平均値と基本周波数及び倍音周波数のパワースペクトルの大きさを比較して、残留推定量を求める方法である。たとえば、基本周波数及び倍音周波数の値をｆ０，ｆ１，・・・，ｆｎとし、ある周波数ｆにおける無声素片のパワースペクトルをＰｕ（ｆ）、全周波数のパワースペクトルの平均値をＰａｖｅとすれば、残留推定量Ｒ（ｆ）は下記で与えられる。
Ｒ（ｆ）＝Ｐｕ（ｆ）／Ｐａｖｅ，ｆ＝ｆ０，ｆ１，・・・，ｆｎ

他には、平均値の代わりに、最大値や最小値やメジアン（中央値）等の順序統計量を比較対象に用いる方法等もある。つまり、全ての周波数におけるパワースペクトルの中で最大（あるいは最小）のものをＰａｖｅの代わりに用いる方法である。残留有声成分を正確に求めることは困難だが、残留状況をする目的にはこのような方法も十分有効である。

韻律制御選択部６２は、言語処理部１から供給された言語処理結果と、残留有声成分量推定部７１から供給された推定残留量とを基に、韻律制御方式の選択を行い、韻律推定部２から供給された目標韻律情報と、素片選択部３から供給された選択素片を、有声素片韻律制御部４１、又は第二無声素片韻律制御部４４に伝達する。有声素片韻律制御部４１を選択した場合は、無声素片を使わないので有声素片情報のみを伝達する。第二無声素片韻律制御部４４を選択した場合は、有声素片を使わないので無声素片情報のみを伝達する。第二実施形態では、第一無声素片韻律制御部４２が存在しないので、完全に無声素片と断定された素片は第二無声素片韻律制御部４４へ伝達される。図４を用いて説明すれば、推定残留量がＴＨ１を上回る程度に多い場合には有声素片韻律制御４１を、それ以外の場合には第二無声素片韻律制御４４を選択する。

第二無声素片制御部４４の説明については、図２６を用いて行う。図２６は、第二無声素片制御部４４のブロック図である。図３の第二無声素片制御部４３と比較して、第二無声素片制御部４４は、有声素片ピッチ周波数抽出部４３３が有声成分ピッチ周波数抽出部４４３に置換されている。以下、図２６のブロック図を参照しながら、第二無声素片制御部４４の詳細な動作について説明する。

有声成分ピッチ周波数抽出部４４３は、無声素片に含まれる残留有声成分のピッチ周波数を求めるために、無声素片から残留有声成分のピッチ周波数を抽出し、目標ピッチ周波数補正部４３２と韻律制御部４３４に伝達する。有声素片情報からピッチ周波数を取得するのではなく、無声素片に含まれる残留有声成分からピッチ周波数を推定する点が、第一実施形態の有声素片ピッチ周波数抽出部４４３と主に異なる。

任意の音声波形からピッチ周波数を推定する手法としては、例えば非特許文献９に掲載されている自己相関関数を用いた方法が挙げられる。但し、自己相関関数を用いた手法において、有声性が十分低いと分析された場合には、ピッチ周波数の値は事前に定めた適当な定数（例えば５０Ｈｚ）とする。第二実施形態の第二無声素片制御部４４では、完全な無声素片の韻律も制御対象となっているため、有声性が十分低い場合がある。

（第二実施形態の効果）
本発明の第二実施形態によれば、先に述べた第一実施形態と比較して、有声素片を利用せずに残留有声成分量の推定や無声素片韻律の制御を行う。また、第一無声素片制御部が省略された構成となっている。この結果、第一実施形態よりも構成内容が簡単になり、処理の複雑さを低減することが可能である。

なお、上述する実施形態は、本発明の好適な実施形態であり、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

すなわち、上述した実施形態の音声合成装置における各部（残留有声成分量推定部、韻律制御選択部、有声素片韻律制御部、第一無声素片韻律制御部、第二無声素片韻律制御部等）は、ハードウエア、あるいはメモリ上に展開してハードウエアを制御することでその作用が得られるソフトウエア、あるいはハードウエア及びソフトウエアの両方で実現することができる。

また、本発明は、装置として実現できるのみでなく、方法としても実現可能である。また、本発明の全体あるいは一部をソフトウエアとして構成することもできる。当該ソフトウエアは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードさせることにより提供されるように構成してもよい。また、上記ソフトウエアをインターネット等のネットワーク経由で提供あるいは配布するように構成してもよい。

また、上記ソフトウエアは、インストール可能な形式又は実行可能な形式のファイルで、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ、不揮発性のメモリカード等のコンピュータで読み取り可能な記録媒体に記録されて提供されるように構成してもよい。また、上記ソフトウエアは、ＲＯＭ等にあらかじめ組み込んで提供するように構成してもよい。

この場合、上記記録媒体から読み出された又は通信回線を通じてロードし実行されたプログラムコード自体が前述の実施形態の機能を実現することになる。そして、そのプログラムコードを記録した記録媒体は本発明を構成する。

１言語処理部
２韻律推定部
３素片選択部
５素片接続部
６，６１，６２韻律制御選択部
１２有声素片情報記憶部
１３無声素片情報記憶部
４１有声素片韻律制御部
４２第一無声素片韻律制御部
４３，４４第二無声素片韻律制御部
４３１ピッチ・時間長情報分離部
４３２目標ピッチ周波数補正部
４３３，４４３有声素片ピッチ周波数抽出部
４３４韻律制御部

Claims

音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定する残留有声成分量推定部と、
前記残留有声成分の量が第１の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第１の閾値より小さい第２の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第１の閾値以下かつ前記第２の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する波形生成部と、
を備える音声合成装置。
前記波形生成部は、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
請求項１に記載の音声合成装置。
前記波形生成部は、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を２倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
請求項２に記載の音声合成装置。
前記残留有声成分量推定部は、前記無声素片と前記有声素片とに基づいて、前記残留有声成分の量を推定する、
請求項１から３のいずれか１項に記載の音声合成装置。
前記波形生成部は、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
請求項１から４のいずれか１項に記載の音声合成装置。
音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定し、
前記残留有声成分の量が第１の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第１の閾値より小さい第２の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第１の閾値以下かつ前記第２の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する、
音声合成方法。
前記無声素片に対する有声韻律制御において、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
請求項６に記載の音声合成方法。
前記無声素片に対する有声韻律制御において、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を２倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
請求項７に記載の音声合成方法。
前記無声素片に含まれる残留有声成分の量の推定において、前記無声素片と前記有声素片とに基づいて、前記残留有声成分の量を推定する、
請求項６から８のいずれか１項に記載の音声合成方法。
前記無声素片に対する有声韻律制御において、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
請求項６から９のいずれか１項に記載の音声合成方法。
コンピュータに、
音声波形を生成するための有声素片と無声素片の内、前記無声素片に基づいて、前記無声素片に含まれる残留有声成分の量を推定し、
前記残留有声成分の量が第１の閾値を超える場合は、目標ピッチ周波数を含む目標韻律情報に基づいて前記有声素片に対する有声韻律制御を行い、前記残留有声成分の量が前記第１の閾値より小さい第２の閾値未満の場合は、前記目標韻律情報に基づいて前記無声素片に対する無声韻律制御を行い、前記残留有声成分の量が前記第１の閾値以下かつ前記第２の閾値以上の場合は、前記目標ピッチ周波数を補正した前記目標韻律情報に基づいて前記無声素片に対する有声韻律制御を行い、各韻律制御の結果を合成して音声波形を生成する、
処理を実行させるプログラム。
前記無声素片に対する有声韻律制御において、前記目標韻律情報と前記無声素片とに基づいてピッチ及び継続時間長の変更比率を求め、該求めたピッチ及び継続時間長の変更比率を基に、前記目標ピッチ周波数を補正する、
処理を実行させる請求項１１に記載のプログラム。
前記無声素片に対する有声韻律制御において、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より小さい場合、前記目標ピッチ周波数を２倍の値に補正し、前記目標ピッチ周波数が前記残留有声成分のピッチ周波数より大きい場合、前記目標ピッチ周波数を半分の値に補正する、
処理を実行させる請求項１２に記載のプログラム。
前記無声素片に含まれる残留有声成分の量の推定において、前記無声素片と前記有声素片とに基づいて、前記残留有声成分の量を推定する、
処理を実行させる請求項１１から１３のいずれか１項に記載のプログラム。
前記無声素片に対する有声韻律制御において、前記有声素片のピッチ周波数を抽出することにより、前記残留有声成分のピッチ周波数を求め、該求めた前記残留有声成分のピッチ周波数が前記補正した前記目標ピッチ周波数となるように、前記無声素片に対する有声韻律制御を行う、
処理を実行させる請求項１１から１４のいずれか１項に記載のプログラム。
請求項１１から１５のいずれか１項に記載のプログラムを記録しコンピュータ読み取り可能なことを特徴とする記録媒体。