JP2006084854A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP2006084854A
JP2006084854A JP2004270252A JP2004270252A JP2006084854A JP 2006084854 A JP2006084854 A JP 2006084854A JP 2004270252 A JP2004270252 A JP 2004270252A JP 2004270252 A JP2004270252 A JP 2004270252A JP 2006084854 A JP2006084854 A JP 2006084854A
Authority
JP
Japan
Prior art keywords
speech
unit
units
synthesis
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004270252A
Other languages
English (en)
Inventor
Tatsuya Mizutani
竜也 水谷
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004270252A priority Critical patent/JP2006084854A/ja
Publication of JP2006084854A publication Critical patent/JP2006084854A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 高品質な音声素片を用いて自然で音質のよい合成音声を生成する音声合成装置を提供する。
【解決手段】 音声素片選択部104bは、音声素片記憶部104aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて、合成単位ごとに複数の音声素片を選択する。代表音声素片選択部104cは、音声素片選択部104bで合成単位ごとに選択された複数の音声素片から、これらの音声素片間の距離に基づいて、合成単位ごとに一つの代表音声素片を選択する。音声素片変形・接続部104dは、代表音声素片選択部104cで合成単位ごとに選択された代表音声素片を変形、接続して合成音声を生成する。
【選択図】 図1

Description

本発明は、音声合成装置、音声合成方法および音声合成プログラムに係り、特に高品質な音声素片を用いて合成音声を生成することにより、自然で音質のよい合成音声を得ること可能とする音声合成装置、音声合成方法および音声合成プログラムに関する。
従来から、任意の文章(テキスト)から人工的に音声信号を作り出すテキスト音声合成の技術が提案されている(例えば、特許文献1を参照)。このようなテキスト音声合成を実現する音声合成装置は、一般に言語処理部、韻律処理部及び音声合成部の3つの要素によって構成される。
この音声合成装置では、まず言語処理部において、入力されたテキストの形態素解析や構文解析などが行われる。次に、韻律処理部においてアクセントやイントネーションの処理が行われ、音韻系列、基本周波数及び音韻継続時間長などの情報が算出される。そして最後に、音声合成部において、あらかじめ合成音声を生成する際の音声の接続単位である合成単位(例えば、音素や音節など)ごとに記憶されている音声素片と呼ばれる特徴パラメータや音声波形を、韻律処理部で算出された基本周波数や音韻継続時間長などに基づいて接続することで合成音声が生成される。
ここで、このようにあらかじめ記憶された音声素片を韻律処理部で算出された基本周波数や音韻継続時間長などに基づいて接続することで合成音声を生成するテキスト音声合成では、接続する音声素片の質が合成音声の音質に大きな影響を与える。そのため、従来から、質のよい音声素片を用いて合成音声を生成するテキスト音声合成技術の提案がなされている。
質のよい音声素片を用いて合成音声を生成する方法としては、例えば、あらかじめ大量の音声素片から高品質な音声素片を生成して記憶しておき、任意のテキストに対して、この高品質な音声素片を変形して接続することで合成音声を生成する方法が開示されている(例えば、特許文献2を参照)。この方法では、例えば、あらかじめ閉ループ学習を用いて合成音声と自然音声の間の歪が小さくなるような高品質な音声素片を生成して記憶しておき、この音声素片を変形して接続することで入力されたテキストに対する合成音声を作成するので、自然音声に近い合成音声を生成することが可能になる。
しかし、このようにあらかじめ高品質な音声素片を生成して記憶しておき、これを用いて音声合成を行う方法では、記憶されている音声素片の数が少ないと、入力されるテキストの韻律や音韻環境の多様なバリエーションに対応することが難しくなり、接続の際の音声素片の変形によって合成音声の音質が劣化する場合がある、という問題があった。
一方、前もって高品質な音声素片を生成しておくことなく音声合成を行う方法として、あらかじめ大量の音声素片を記憶しておき、この中から入力されたテキストの韻律や音韻環境に応じて適切な音声素片を選択して、これを変形して接続することで合成音声を生成する方法が開示されている(例えば、特許文献3を参照)。この方法では、音声素片を変形、接続して合成音声を生成した場合の合成音声の音質の劣化の度合いを推定するコスト関数をあらかじめ定義しておき、このコスト関数が小さくなるような音声素片を大量の音声素片の中から選択して用いることで高品質な合成音声の生成を実現している。
しかし、このような大量の音声素片から、入力されたテキストに応じて適切な音声素片を選択して用いる方法では、韻律や音韻環境のバリエーションに応じて適切な音声素片を選択する選択規則をコスト関数として定式化することが難しい。そのため、適切な音声素片が選択されずに、合成音声の音質が劣化する場合がある、という問題があった。
特開平8−254993号公報(第4頁、図1) 特許第3281281号公報(第3頁、図1) 特開2001−282278公報(第3頁、図2)
上述したように、あらかじめ高品質な音声素片を生成しておき、これを用いて合成音声を生成するテキスト音声合成技術では、生成された音声素片の数が少ないと、入力されるテキストの韻律や音韻環境の多様なバリエーションに対処することができず、合成音声の音質が劣化する場合がある、という問題があった。
また一方で、大量の音声素片から、入力されるテキストの韻律や音韻環境に応じて適切な音声素片を選択して合成音声を生成するテキスト音声合成技術では、適切な音声素片を選択する選択規則をコスト関数として定式化することが難しいため、適切な音声素片が選択されずに、合成音声の音質が劣化する場合がある、という問題があった。
本発明は、上記従来技術の問題点を解決するためになされたものであって、自然で音質のよい合成音声を生成することを可能とする音声合成装置、音声合成方法および音声合成プログラムを提供することを目的とする。
上記目的を達成するために、本発明の音声合成装置は、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、合成単位に対応する複数の音声素片を記憶する記憶手段と、前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択手段と、前記合成単位ごとに、前記選択手段で選択された複数の音声素片間の距離に基づいて前記選択手段で選択された複数の音声素片から代表音声素片を得る代表音声素片取得手段と、前記代表音声素片取得手段で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、を備えることを特徴とする。
また、本発明の音声合成方法は、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択ステップと、前記合成単位ごとに、前記選択ステップで選択された複数の音声素片間の距離に基づいて前記選択ステップで選択された複数の音声素片から代表音声素片を取得する代表音声素片取得ステップと、前記代表音声素片取得ステップで得られた代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、を有することを特徴とする。
また、本発明の音声合成プログラムは、コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択機能と、前記合成単位ごとに、前記選択機能で選択された複数の音声素片間の距離に基づいて前記選択機能で選択された複数の音声素片から代表音声素片を取得する代表音声素片取得機能と、前記代表音声素片取得機能で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、を備えることを特徴とする。
本発明によれば、まず、あらかじめ記憶された音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて複数の音声素片を選択し、次に、選択された複数の音声素片の中から音声素片間の距離に基づいて質のよい代表音声素片を選択するので、自然で音質のよい合成音声を生成することが可能となる。
以下、本発明の実施形態について説明する。
(第1の実施形態)
図1は、本発明の第1の実施形態に係る音声合成装置を示すブロック図である。
この第1の実施形態に係わる音声合成装置は、テキストを入力するテキスト入力部101と、テキスト入力部101で入力されたテキストの形態素解析および構文解析を行う言語処理部102と、言語処理部102で得られる言語解析結果から入力されたテキストの音韻系列および目標素片環境を取得する韻律処理部103と、韻律処理部103で得られるテキストの音韻系列および目標素片環境を用いて、あらかじめ記憶されている複数の音声素片から合成単位ごとに代表音声素片を選択し、選択された代表音声素片を接続して合成音声を生成する音声合成部104と、音声合成部104で生成された合成音声を出力する合成音声出力部105とを備えている。
また、合成音声部104は、あらかじめ合成単位に対応する複数の音声素片が記憶されている音声素片記憶部104aと、音声素片記憶部104aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪を算出し、その歪に基づいて合成単位ごとに複数の音声素片を選択する音声素片選択部104bと、音声素片選択部104bで選択された複数の音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに代表音声素片を選択する代表音声素片選択部104cと、代表音声素片選択部104cで選択された代表音声素片を変形、接続することで合成音声を生成する音声素片変形・接続部104dとから構成されている。
次に、図1および図2を用いて、本発明の第1の実施形態に係る音声合成装置の動作について説明する。なお、図2は、本発明の第1の実施形態に係る音声合成装置の動作を示すフローチャートである。
まず合成音声を生成すべきテキストが、テキスト入力部101にユーザによって入力される(ステップS101)。テキストの入力は、例えば、ユーザがキーボードなどを用いてテキストデータを入力することによって行なってもよく、すでにテキストデータのファイルを図示しない記憶領域に格納しているのであれば、そのファイルをユーザが選択・指定することによって行なってもよい。
テキスト入力部101で入力されたテキストは、次に、言語処理部102に送られる。
言語処理部102では、テキスト入力部101で入力されたテキストの形態素解析および構文解析が行なわれる(ステップS102)。言語処理部102における形態素解析および構文解析の結果は、形態素列、各形態素の品詞や読み情報、アクセント位置情報などとして、韻律処理部103に送られる。
韻律処理部103では、言語処理部102におけるテキストの形態素解析および構文解析の結果に基づいて、テキスト入力部101において入力されたテキストの音韻系列および目標素片環境を取得する(ステップS103)。
ここで音韻系列とは、テキストを音素や音節などの音声の構成単位の並びで表現した系列をいう。なお、本実施形態では、音韻系列は、音素の系列であるとして説明する。図3に、入力されたテキストが「こんにちは」である場合の音韻系列(音素系列)の例を示す。ここでは、「k」「o」「x」などが音素を表している。
また、目標素片環境とは、入力されたテキストから得られる目標とする音声素片に関する環境的な属性(素片環境)をいう。ここで素片環境には、例えば、基本周波数、音韻継続時間長、パワーなどの韻律情報のほか、音素名、先行する音素名、後続する音素名、後続する音素に後続する音素名、音声素片境界のケプストラム、ストレスの有無、アクセント核から距離、息継ぎからの時間、発声速度、発声時の感情などが含まれるが、ここでは、目標素片環境は、基本周波数および音韻継続時間長であるとして説明する。
韻律処理部103で得られた入力されたテキストの音韻系列および目標素片環境(基本周波数および音韻継続時間長)は、図4に示すように、音韻系列に含まれる音素ごとに、基本周波数および音韻継続時間長と関連付けられて音声合成部104に送られる。なお、無声子音である/k/については基本周波数が存在しないため、図4では基本周波数を「0.0」としている。
音声合成部104では、まず音声素片選択部104bにおいて、韻律処理部103から送られる音韻系列および目標素片環境に基づいて、音声素片記憶部104aに記憶された音声素片から合成単位ごとにM個の音声素片が選択される(ステップS104)。音声素片選択部104bにおける音声素片の選択は、まず、音声素片記憶部104aに記憶された音声素片を接続したときの合成音声の歪を算出し、次に、その歪に基づいて合成単位ごとにM個の音声素片を選択することによって行なう。なお、Mはあらかじめ適切に定めた定数である。
ここで、音声素片記憶部104aには、合成単位に対応する複数の音声素片が記憶されている。なお、合成単位とは、合成音声を生成する際の音声の接続単位であり、合成単位としては、例えば、半音素、音素、ダイフォン、トライフォン、音節などを用いることができる。また合成単位は、これらの半音素、音素、ダイフォン、トライフォン、音節などが混在するものであってもよい。なお、本実施形態では、合成単位は音素であるとして説明する。図5に合成単位を音素とした場合の合成単位の例を示す。
また、音声素片記憶部104aに記憶される音声素片は、音声波形そのものであってもよく、音声波形をケプストラムなどのスペクトルパラメータに変換したものであってもよい。なお、本実施形態では、音声素片記憶部104aに記憶される音声素片は、音声波形そのものであるとして説明する。
また、音声素片記憶部104aには、音声素片ごとに、それぞれの音声素片の素片環境もあわせて記憶されている。ここでは、音声素片の素片環境として、音素名、基本周波数、音韻継続時間長および音声素片境界のケプストラムが音声素片記憶部104aに記憶されているものとする。図6に、波形である音声素片と素片環境が関連付けられて記憶されている音声素片記憶部104aの例を示す。
このような音声素片記憶部104aは、例えば、あらかじめ収録された発声データについて、図7に示すように音素単位でラベリングを行い、音素ごとに音声波形を切り出して、これを音声素片として記憶媒体に記憶することによって得ることができる。また、このとき、音声波形とあわせて、その音声素片が属する音素名、基本周波数、音韻継続時間長、音声素片境界のケプストラムも抽出して音声素片記憶部104aに記憶する。なお、音声素片記憶部104aとして用いる記憶媒体には、例えば、半導体メモリ、ハードディスク、CD−R、CD−RW、DVD−R、DVD−RAM、DVD−RWなどが適用できる。
次に図8を用いて、音声素片選択部104bの動作について説明する。
まず、音声素片選択部104bは、韻律処理部103から送られる音韻系列を、代表音声素片を選択する単位となる合成単位で区切る(ステップS201)。なお、以下では音韻系列を合成単位で区切ったときの各区分をセグメントと呼ぶ。図9に、韻律処理部103から送られる音韻系列を合成単位で区切ったときのセグメントの例を示す。
次に、音声素片選択部104bは、音声素片記憶部104aに記憶されている音声素片を韻律処理部103から送られる音韻系列にしたがって接続した場合の合成音声の歪を算出し、この歪が最小となる音声素片の系列(最適音声素片系列)を探索する(ステップS202)。
ここで、音声素片記憶部104aに記憶されている音声素片を接続したときの合成音声の歪は、音声素片記憶部104aに記憶された音声素片の素片環境と韻律処理部103から送られる目標素片環境(基本周波数および音韻継続時間長)との違いに基づく歪である目標コストと、接続する音声素片間の素片環境(音声素片境界のケプストラム)の違いに基づく歪である接続コストの重み付け和として求められる。すなわち、目標コストとは、音声素片記憶部104aに記憶されている音声素片を入力されたテキストの目標素片環境(基本周波数および音韻継続時間長)のもとで使用することによって生じる歪であり、接続コストとは、接続する音声素片間の素片環境が不連続であることによって生じる歪である。
本実施形態では、目標コストとしては、韻律処理部103から送られる目標素片環境である基本周波数および音韻継続時間長と、音声素片記憶部104aに記憶されている音声素片の素片環境である基本周波数および音韻継続時間長との違いに基づく基本周波数コストおよび音韻継続時間長コストを用いる。また、接続コストとしては、接続する音声素片間における音声素片記憶部104aに記憶されている音声素片境界のケプストラムの違いに基づくスペクトル接続コストを用いる。
次に、図10を用いて、基本周波数コスト、音韻継続時間長コストおよびスペクトル接続コストを求める方法について説明する。
図10(a)には、「こんにちは」というテキストに対して韻律処理部103で得られた音韻系列(音素系列)および目標素片環境(基本周波数および音韻継続時間長)を示している。上述したように、本実施形態では、合成単位を音素としているので、セグメントごとに音素および目標素片環境である基本周波数(fTi)および音韻継続時間長(dTi)が定まる。また、図10(b)には、図10(a)に示す各セグメントに対して、音声素片記憶部104aから音声素片uを選択して用いる場合の音声素片の系列の例を示している。なお、音声素片uは、セグメントiの音素を素片環境として持つ音声素片の中から選択する。そして、図10(b)には、音声素片記憶部104aに記憶されている音声素片uに対する基本周波数fui、音韻継続時間長duiおよび素片境界のケプストラムpui、quiもあわせて表している。なお、素片境界のケプストラムについては、先行する音声素片との境界についてのケプストラムをpui、後続する音声素片との境界についてのケプストラムをquiとしている。
この場合、各セグメントにおける基本周波数コストC(i,u)、音韻継続時間長コストC(i,u)およびスペクトル接続コストC(i,u)は、それぞれ(1)式、(2)式および(3)式によって求めることができる。
Figure 2006084854
Figure 2006084854
Figure 2006084854
ここで‖x‖は、ベクトルxのノルムを表す。
各セグメントのコストCSG(i,u)は、これらのコストの重み付け和として(4)式によって求めることができる。
Figure 2006084854
ここで、w、wおよびwはあらかじめ適切に定められた重み係数である。
したがって、入力されたテキストに対して図10(b)に示すような音声素片{u,u,・・・}を接続することによって合成音声を生成したときに生じる歪Cは、(5)式のように算出することができる。
Figure 2006084854
ここで、Nは入力されたテキストから得られる音韻系列(音素系列)を合成単位で区切ることにより得られるセグメントの数である。
以上が韻律処理部103から送られる音韻系列にしたがって音声素片記憶部104aに記憶されている音声素片を接続した場合の合成音声の歪を算出する方法である。そして、ステップS202では、上述した(5)式に基づいて、歪Cが最小となる音声素片系列(最適音声素片系列)が求められる。なお、最適音声素片系列は、例えば、韻律処理部103から送られる音韻系列にしたがって、すべての音声素片の組み合わせについて歪Cを求めることによって探索してもよいが、動的計画法(Dynamic Programing/DP)を用いることで効率的に探索することが可能である。
次に、音声素片選択部104bでは、ステップS202で求められた最適音声素片系列に基づいて、セグメントごとにM個の音声素片が選択される(ステップS203)。
セグメントiに対するM個の音声素片の選択は、上述した最適音声素片系列に含まれる音声素片(最適音声素片)の他に、図11に示すように、音声素片記憶部104aからM−1個の音声素片を選択することによって行なう。すなわち、まずステップS301で、セグメントi以外のセグメントの音声素片を最適音声素片に固定する。次にステップS302で、セグメントiの音声素片を、音声素片記憶部104aに記憶された音声素片のうち、セグメントiの音素と同じ音素を素片環境に持つ他の音声素片に置き換えて歪Cを計算する。歪Cの計算は、音声素片記憶部104aに記憶されている、セグメントiの音素と同じ音素を素片環境に持つ音声素片すべてについて行なう。そして、ステップS303で、歪Cが小さい音声素片から順番にM−1個の音声素片を選択すればよい。このような処理をすべてのセグメントについて行なうことで、セグメントごとにM個の音声素片を選択することができる。
以上が音声素片選択部104bにおいて、韻律処理部103から送られる音韻系列および目標素片環境に基づいて、音声素片記憶部104aに記憶された音声素片から合成単位ごとにM個の音声素片を選択する方法である。このように、音声素片記憶部104aに記憶された音声素片のうち、入力されたテキストに対する合成音声の歪が小さくなる音声素片を選択することにより、入力されるテキストの音韻系列や韻律情報などのバリエーションに対応した適切な音声素片を代表音声素片の候補として選択することが可能になる。
次に、このように音声素片選択部104bで合成単位ごとにM個選択された音声素片は、代表音声素片選択部104cに送られる。
代表音声素片選択部104cでは、音声素片選択部104bより送られる音声素片から、音声素片間の距離に基づいて合成単位ごとに一つの代表音声素片が選択される(ステップS105)。
図12に、合成単位ごとに、音声素片選択部104bで選択されたM個の音声素片から一つの代表音声素片を選択する方法を示す。なお、ここで音声素片間の距離とは、対比される音声素片間のスペクトル包絡の類似性の尺度をいう。このような音声素片間の距離は、例えば、音声素片から得られるケプストラムなどのスペクトルパラメータ(ベクトル)間のベクトル間距離として求めることができる。あるいは、音声素片が音声波形である場合には、対比される音声波形の基本周波数や音韻継続時間長などの韻律を揃えた後、各音声波形をベクトルで表して、これらのベクトル間距離を計算することによって求めてもよい。なお、以下では、音声素片間の距離は、各音声素片から得られるケプストラム間の距離であるとして説明する。
まず、M個の音声素片それぞれについて、音声素片記憶部104aに記憶された音声素片の中心部におけるケプストラムを求める(ステップS401)。音声素片の中心部におけるケプストラムは、例えば、20ミリ秒程度の窓幅のハニング窓によって音声素片中心部の波形信号を切り出し、これをケプストラムに変換することによって得ることができる。
次に、ステップS401で求められたM個のケプストラムの平均値を求めることでM個の音声素片のセントロイドのケプストラムを求める(ステップS402)。
次に、(6)式にしたがって、M個の音声素片のケプストラムとセントロイドのケプストラムとの間の距離を求め、最もセントロイドに近い音声素片を代表音声素片として選択する(ステップS403)。
Figure 2006084854
ここで、cは第i番目の音声素片のケプストラム、ccentはM個の音声素片のセントロイドのケプストラム、Dは第i番目の音声素片のケプストラムcとセントロイドのケプストラムccentとの間の距離を表す。ステップS403では、Dが最も小さい音声素片を最もセントロイドに近い音声素片として選択すればよい。
以上が代表音声素片選択部104cにおいて、合成単位ごとに、音声素片選択部104bで選択されたM個の音声素片から一つの代表音声素片を選択する方法である。
このように、代表音声素片選択部104cにおいて、合成単位ごとに、音声素片選択部104bで求められたM個の音声素片の間の距離に基づいて代表音声素片を求めることにより、M個の音声素片の中でスペクトルの性質が他の音声素片と大きく異なる音声素片が代表音声素片となることを防ぐことが可能となる。
次に、代表音声素片選択部104cで合成単位ごとに求められた代表音声素片は、音声素片変形・接続部104dに送られる。
音声素片変形・接続部104dでは、代表音声素片選択部104cから送られた合成単位ごとの代表音声素片を韻律処理部103で得られた音韻系列および目標素片環境に基づいて変形、接続して合成音声を生成する(ステップS106)。
ここで、図13を用いて、合成単位ごとに得られた代表音声素片を接続して合成音声を生成する方法について説明する。まず、図13(a)に示すように、有声音については、代表音声素片からピッチ波形を抽出し、このピッチ波形の基本周波数を韻律処理部103で得られた基本周波数となるように変形し、これを韻律処理部103で得られた音韻継続時間長にしたがって適切な数だけ重畳する。なお、代表音声素片からピッチ波形を抽出する方法としては、例えば、基本周期(ピッチ)同期窓を用いる方法や、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法などを用いることができる。
一方、無声音については、ピッチ波形は存在しないので、代表音声素片の音韻継続時間長のみを韻律処理部103で得られた音韻継続時間長にしたがって変形する。例えば、無声破裂音や無声破擦音は、音が発せられる前に調音器官を閉じ呼気を止める区間(閉鎖区間)が存在するので、図13(b)に示すように、閉鎖区間中の適当な区間をコピーして閉鎖区間の伸長を行なうことによって、音声素片が適切な音韻継続時間長となるように変形すればよい。また、無声摩擦音については、音声素片を短くする場合には、例えば、音声素片の中心付近の適当な長さの区間の波形を切り落とし、音声素片を長くする場合には、音声素片の中心付近の適当な長さの区間の波形を繰り返すことによって、音声素片が適切な音韻継続時間長となるように変形すればよい。このとき、波形の接続付近で平滑化処理を行えば、波形を切り落としたり、接続したりすることによる合成音声の不連続感を低減させることができる。
そして、このようにして得られた代表音声素片を、各音声素片の接続境界においてスペクトルが連続的に変化するように変形して接続することで合成音声が生成される。
このように音声素片変形・接続部104dで生成された合成音声は、次に、合成音声出力部105に送られる。
合成音声出力部107では、音声合成部104から送られる合成音声を出力する(ステップS107)。合成音声の出力は、例えば、スピーカやヘッドホンなどを用いて行なえばよい。また、スピーカやヘッドホンなどを用いて音声として出力する代わりに、電子データとして半導体メモリやハードディスクなどの記憶媒体上にファイルとして出力してもよい。
このように、第1の実施形態に係る音声合成装置によれば、まず音声素片選択部104bにおいて、音声素片記憶部104aに記憶された音声素片から、入力されたテキストの音韻系列に基づいて生成される合成音声の歪が小さくなる音声素片を選択することで、入力されるテキストの音韻系列や韻律情報などのバリエーションに対応した適切な音声素片を代表音声素片の候補として選択することが可能になる。そして、次に、代表音声素片選択部104cにおいて、音声素片選択部104bで選択された音声素片の間の距離に基づいて代表音声素片を選択することにより、音声素片選択部104bで求められた音声素片の中で、スペクトルの性質が他の音声素片と大きく異なる音声素片が代表音声素片となることを防ぐことできる。すなわち、音声素片選択部104bにおいて選択された音声素片の中に不適切な音声素片が含まれている場合にも、高品質な音声素片を代表音声素片とすることができる。そして、このような代表音声素片を用いることで、自然で音質のよい合成音声を生成することが可能になる。
なお、上述した実施形態では、韻律処理部103で得られる目標素片環境を基本周波数および音韻継続時間長とし、音声素片選択部104bでは、目標コストとして基本周波数コストおよび音韻継続時間長コストを用いたが、目標素片環境としては、このほかに音素のパワーや先行する音素、後続する音素、後続する音素に後続する音素などを用いることも可能である。この場合、音声素片記憶部104aに記憶されている音声素片ごとに、これらの目標素片環境に対応する素片環境をもあわせて記憶しておき、音声素片選択部104bでは、素片環境ごとに目標素片環境と音声素片記憶部104aに記憶されている音声素片の素片環境の違いを評価するコスト関数を定義して、これを(4)式で表されるセグメントごとに得られるコストCSG(i,u)に重み付け和として追加すればよい。
また、上述した実施形態では、音声素片選択部104bで求められる接続コストとして、スペクトル接続コストを用いたが、接続コストとしては、接続される音声素片間の基本周波数の違いに基づく基本周波数接続コストを用いることも可能である。さらに、音声素片記憶部104aに記憶される素片環境として、各音声素片のパワーもあわせて記憶しておき、接続される音声素片間のパワーの違いをパワー接続コストとして求めて用いることも可能である。また、さらに、これらのスペクトル接続コスト、基本周波数接続コストおよびパワー接続コストの重み付け和を取り、これを接続コストとすることも可能である。
また、上述した実施形態では、(4)式のように、基本周波数コスト、音韻継続時間長コストおよびスペクトル接続コストの重み付け和として各セグメントのコストCSG(i,u)を求めたが、各セグメントのコストCSG(i,u)は、(7)式に示すように、各コストの累乗の重み付け和とすることも可能である。
Figure 2006084854
ここで、x、yおよびzは、各コストに対して適切に定められた塁数である。このように各コストの累乗の重み付け和をとることによって、特定のコストだけが大きい音声素片が音声素片選択部104bで選択されることを防ぐことができる。
また、上述した実施形態では、音声素片選択部104bにおいて、合成音声の歪を目標コストと接続コストの重み付け和として求めたが、重み付け和を求めず、目標コストあるいは接続コストのいずれか一方を、そのまま合成音声の歪とすることも可能である。このように、目標コストあるいは接続コストのいずれか一方を、そのまま合成音声の歪とすることで、目標コストあるいは接続コストのいずれか一方のみを算出すればよくなり、計算量を削減して高速に合成音声を生成することが可能になる。
また、上述した実施形態では、音声素片選択部104bにおいて、合成音声の歪を目標コストと接続コストの重み付け和として求めたが、目標コストと接続コストを求めることなく、韻律処理部103から送られる目標素片環境、音声素片記憶部104aに記憶された音声素片の素片環境、および、その音声素片に接続される音声素片の素片環境の組を入力として、あらかじめ学習されたニューラルネットワークを用いて合成音声の歪を求めることも可能である。
このようなニューラルネットワークの学習のためには、まず、あらかじめ大量のテキストから合成音声を生成し、各合成音声に対して音質の主観評価を行なう。主観評価は、例えば、合成音声の音質を「非常によい(0点)」「よい(1点)」「ふつう(2点)」「悪い(3点)」「非常に悪い(4点)」という5段階に分類することによって行なえばよい。次に、それぞれのテキストについて、合成単位ごとに目標素片環境、音声合成に用いた音声素片の素片環境、および、その音声素片に接続される音声素片の素片環境の組を入力データ、そのテキストに対する主観評価の得点を出力データとして、これらの入出力データを教師データとしてニューラルネットワークを学習する。
音声素片選択部104bでは、このようにして学習されたニューラルネットワークに、合成単位ごとに韻律処理部103から送られる目標素片環境、音声素片記憶部104aに記憶された音声素片の素片環境、および、その音声素片に接続される音声素片の素片環境の組を入力して、主観評価の得点を出力データとして得る。このようにしてニューラルネットワークから出力される主観評価の得点を合成音声の歪とする。
このように音声素片選択部104bにおいて、あらかじめ学習したニューラルネットワークを用いて得られる出力データ(主観評価の得点)を合成音声の歪として算出することにより、目標コストおよび接続コストを求めることなく、音声素片記憶部104aから主観評価を反映した音声素片の選択を行なうことが可能になる。
また、上述した実施形態では、音声素片選択部104bにおいて、セグメントごとに最適音声素片以外のM−1個の音声素片を選択する際に、まず、セグメントiの音声素片を最適音声素片に固定し、次にセグメントiの音声素片を他の音声素片に置き換えて歪Cを計算して、歪Cが小さい音声素片から順番にM−1個の音声素片を選択していたが、歪Cを計算せず、例えば、基本周波数コストC(i,u)のみを計算して、基本周波数コストC(i,u)が小さい音声素片から順番にM−1個の音声素片を選択してもよい。このようにすることで、他の音韻継続時間長コストや接続コストを計算することなく、計算量を減らして効率的に音声素片の選択を行なうことが可能となる。
また、上述した実施形態では、代表音声素片選択部104cにおいて、音声素片選択部104bから送られるM個の音声素片をそのまま用いてケプストラムを計算していたが、これらの音声素片の基本周波数および音韻継続時間長を、まず韻律処理部103で得られる目標素片環境である基本周波数および音韻継続時間長となるように変形してからケプストラムを計算することも可能である。
また、上述した実施形態では、代表音声素片選択部104cにおいて、合成単位ごとに音声素片選択部104bから送られるM個の音声素片のセントロイドを求め、求められたセントロイドに最も近い音声素片を、その合成単位の代表音声素片としていたが、セントロイドを求めることなく、音声素片ごとに、その音声素片と他の音声素片との間の距離の和を求め、この距離の和が最も小さい音声素片を代表音声素片として選択することも可能である。
以下、図14を用いて、音声素片選択部104bから送られるM個の音声素片から音声素片間の距離の和に基づいて代表音声素片を選択する方法について説明する。
まず、代表音声素片選択部104cでは、合成単位ごとに、音声素片選択部104bから送られるM個の音声素片のケプストラムを求める(ステップS501)。
次に、(8)式にしたがって、音声素片ごとに、他の音声素片との距離の和を求める(ステップS502)。
Figure 2006084854
ここで、cは第i番目の音声素片のケプストラム、Sは第i番目の音声素片のケプストラムと他の音声素片のケプストラムの距離の和を表す。
そして、(8)式で求まる距離の和Sが最小となる音声素片を代表音声素片として選択する(ステップS503)。
このように音声素片ごとに、他の音声素片との間の距離の和を求め、その距離の和が最小となる音声素片を代表音声素片とすることによって、M個の音声素片からセントロイドを求めることなく代表音声素片を選択することが可能になる。
さらに、ステップS501の前に、M個の音声素片の基本周波数および音韻継続時間長を、韻律処理部103で得られる目標素片環境である基本周波数および音韻継続時間長となるように変形するステップを設けて、ステップS501では、このようにして変形された音声素片のケプストラムを求めるようにしてもよい。このようにすることで、目標素片環境である基本周波数および音韻継続時間長のもとで音声素片間の距離を求めることが可能になる。
また、上述した実施形態では、音声素片間の距離を、各音声素片から得られるケプストラム間の距離であるとして説明したが、音声素片間の距離は、ケプストラムの代わりに、各音声素片から得られるメルケプストラム、フィルタバンク係数、LPC、LSP、PARCOR係数、MFCCなどを用いて計算してもよい。
また、上述した実施形態では、音声素片選択部104bにおいて、合成単位ごとに選択される音声素片の数は一定値(M個)としたが、選択される音声素片の数は合成単位ごとに異なっていてもよい。また、あらかじめ合成単位ごとに選択される音声素片の数を定めず、(5)式で求められる合成音声の歪が、あらかじめ定めた一定の閾値以下となる音声素片をすべて選択して代表音声素片選択部104cに送るようにすることも可能である。
また、上述した実施形態では、音声素片変形・接続部104dにおいて、代表音声素片選択部104cで得られた代表音声素片を韻律処理部103で得られる目標素片環境にしたがって変形して接続することとしていたが、代表音声素片を変形せずに接続することも可能である。代表音声素片の変形を行なわないことで変形処理による音質の劣化が生じないため、より肉声間のある合成音声を得ることが可能になる。
なお、この音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、言語処理部102、韻律処理部103、音声合成部104は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、音声合成装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、テキスト入力部101は、上記コンピュータ装置に内臓あるいは外付けされたキーボードなどを適宜利用して実現することができる。また、音声素片記憶部104aは、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。また、合成音声出力部105は、上記コンピュータ装置に内臓あるいは外付けされたスピーカやヘッドホンなどを適宜利用して実現することができる。
(第2の実施形態)
第1の実施形態に係わる音声合成装置では、代表音声素片選択部104cにおいて、音声素片選択部104bにおいて選択された複数の音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに一つの代表音声素片を選択し、選択された代表音声素片を音声素片変形・接続部104dにおいて接続することによって合成音声を生成していた。
第2の実施形態では、代表音声素片選択部104cの代わりに、音声素片選択部104bにおいて選択された音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに複数の音声素片を選択する第2の音声素片選択部を設け、その第2の音声素片選択部で選択された複数の音声素片を融合することによって新たに代表音声素片を生成する実施の形態について説明する。
図15は、本発明の第2の実施形態に係る音声合成装置を示すブロック図である。
この第2の実施形態に係わる音声合成装置は、テキストを入力するテキスト入力部201と、テキスト入力部201で入力されたテキストの形態素解析および構文解析を行う言語処理部202と、言語処理部202で得られる言語解析結果から入力されたテキストの音韻系列および目標素片環境を取得する韻律処理部203と、韻律処理部203で得られるテキストの音韻系列および目標素片環境を用いて、あらかじめ記憶されている複数の音声素片から合成単位ごとに代表音声素片を生成し、生成された代表音声素片を接続して合成音声を生成する音声合成部204と、音声合成部204で生成された合成音声を出力する合成音声出力部205とを備えている。
また、合成音声部204は、あらかじめ合成単位に対応する複数の音声素片が記憶されている音声素片記憶部204aと、音声素片記憶部204aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪を算出し、その歪に基づいて合成単位ごとに複数の音声素片を選択する第1の音声素片選択部204bと、音声素片選択部204bで選択された音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに複数の音声素片を選択する第2の音声素片選択部204cと、第2の音声素片選択部204cで選択された音声素片を融合することで合成単位ごとに代表音声素片を生成する代表音声素片生成部204dと、代表音声素片生成部204dで生成された代表音声素片を変形、接続することで合成音声を生成する音声素片変形・接続部204eとから構成されている。
つまり、第1の実施形態とは、音声合成部204において、代表音声素片選択部104cの代わりに、第1の音声素片選択部204bから送られた音声素片から、これらの音声素片間の距離に基づいて複数の音声素片を選択する第2の音声素片選択部204cを備える点、および第2の音声素片選択部204cで選択された複数の音声素片を融合して代表音声素片を生成する代表音声素片生成部204dを備える点が異なるのみである。したがって、以下では、第1の実施形態と共通の動作を行う部分(テキスト入力部201、言語処理部202、韻律処理部203、音声素片記憶部204a、第1の音声素片選択部204b、音声素片変形・接続部204e、合成音声出力部205)については、説明を省略する。
次に、図15および図16を用いて、本発明の第2の実施形態に係わる音声合成装置の動作について説明する。なお、図16は、本発明の第2の実施形態に係わる音声合成装置の動作を示すフローチャートである。
第2の音声素片選択部204cは、第1の音声素片選択部204bから送られる複数の音声素片から、これらの音声素片間の距離に基づいて代表音声素片を生成するための複数の音声素片を選択する(ステップS605)。ここで、第1の音声素片選択部204bから送られる音声素片の数は、上述した第1の実施形態と同様に合成単位ごとにM個とし、第2の音声素片選択部204cでは、そのM個の音声素片の中から合成単位ごとにL個(L<M)の音声素片を選択するものとする。
第2の音声素片選択部204cにおけるL個の音声素片の選択は、例えば、上述したように、まず、合成単位ごとに第1の音声素片選択部204bから送られるM個の音声素片のケプストラムのセントロイドを求め、そのセントロイドに近い音声素片からL個の音声素片を選択することによって行なうことができる。すなわち、第i番目の音声素片のケプストラムをc、M個の音声素片のケプストラムのセントロイドをccentとして、(6)式でこれらのケプストラム間の距離Dを求め、この距離Dが小さい音声素片から順番にL個の音声素片を選択すればよい。
このように第2の音声素片選択部204cにおいて、音声素片間の距離に基づいて合成単位ごとに選択されたL個の音声素片は、次に、代表音声素片生成部204dに送られる。
代表音声素片生成部204dでは、第2の音声素片選択部204cから送られる合成単位ごとにL個の音声素片を融合することによって代表音声素片が生成される(ステップS606)。複数の音声素片を融合して新たな音声素片を生成する方法としては、例えば、音声素片ごとにピッチ波形を抽出し、抽出されたピッチ波形を音声素片間で平均化して新たな音声素片を生成する方法や音声素片からピッチ波形を抽出することなく閉ループ学習を用いて新たな音声素片を生成する方法(例えば、特許文献2を参照)などを用いることができる。
ここでは、図17を用いて、合成単位ごとにL個の音声素片のそれぞれについてピッチ波形を抽出して、これを融合することにより代表音声素片を生成する方法について説明する。なお、ここでは、音声素片の融合は有声音についてのみ行なうものとし、無声音については、第2の音声素片選択部204cから送られるL個の音声素片のうち、第2の音声素片選択部204cで求められた音声素片のセントロイドに最も近い音声素片をそのまま代表音声素片として用いるものとする。また、図17では、L=3の場合について示している。
有声音における音声素片の融合では、まず、図17(a)に示すように、合成単位ごとに、L個(=3個)の音声素片のそれぞれについてピッチ波形を抽出する。そして、次に、L個の音声素片のうち、抽出されたピッチ波形の数が最も多い音声素片を検出し、その他の音声素片のピッチ波形の数を最もピッチ波形の数が多い音声素片のピッチ波形の数に揃える(図17(b))。なお、図17(b)では、音声素片2および音声素片3について、末尾のピッチ波形をコピーしてピッチ波形の数を揃えているが、コピーするピッチ波形は末尾のものでなくてもよく、その他のピッチ波形をコピーしてもよい。次に、各音声素片の対応するピッチ波形ごとにピッチ波形の融合を行う(図17(c))。ピッチ波形の融合は、例えば、各ピッチ波形の平均を計算してセントロイドを求めることによって行なってもよく、また、各ピッチ波形間の相関が最大となるように各ピッチ波形を変形した後にセントロイドを求めることによって行なってもよい。そして、この融合されたピッチ波形を重畳して接続することにより、代表音声素片を得ることができる(図17(d))。
このように、第2の実施形態に係わる音声合成装置によれば、まず、第2の音声素片選択部204cにおいて、音声素片間の距離に基づいて音声素片を選択することで、第1の音声素片選択部204bで求められた音声素片の中で、スペクトルの性質が他の音声素片と大きく異なる音声素片が代表音声素片を生成するための音声素片として選択されることを防ぐことができる。そして、次に、代表音声素片生成部204dにおいて、第2の音声素片選択部204cにおいて選択された複数の音声素片を融合して代表音声素片を生成することによって、高品質な音声素片を作りだすことが可能になる。そのため、このような代表音声素片を用いて合成音声を生成すれば、自然で音質のよい合成音声を得ることが可能になる。
なお、上述した実施形態では、第2の音声素片選択部204cにおいて、合成単位ごとにあらかじめ定めたL個の音声素片を選択することとしたが、選択される音声素片の数は合成単位ごとに異なっていてもよい。また、あらかじめ合成単位ごとに選択される音声素片の数を定めず、合成単位ごとに複数の音声素片を選ぶ場合に、音声素片のケプストラムcと音声素片のセントロイドのケプストラムccentとの間の距離Dが、あらかじめ定めた一定の閾値以下となる音声素片をすべて選択して、代表音声素片生成部104dに送るようにすることも可能である。
また、上述した実施形態では、代表音声素片生成部204dにおいて、有声音における音声素片の融合の際に、各音声素片のピッチ波形の数を、ピッチ波形の数が最も多い音声素片に揃えたが、ピッチ波形の数を、あらかじめ定めた一定の数に揃えるようにすることも可能である。
また、上述した実施形態では、代表音声素片生成部204dにおいて、無声音については、第2の音声素片選択部204cから送られるL個の音声素片のうち、第2の音声素片選択部204cで求められた音声素片のセントロイドに最も近い音声素片をそのまま代表音声素片として用いたが、代表音声素片生成部204dにおいて、L個の音声素片を音声波形の長さが揃うように変形したのち、これらを波形レベルで平均化したものを代表音声素片として用いることも可能である。
(第3の実施形態)
第2の実施形態に係わる音声合成装置では、代表音声素片生成部204dにおいて、第2の音声素片選択部204cで選択された複数の音声素片を融合することによって代表音声素片を生成していた。
第3の実施形態では、代表音声素片生成部204dに代わりに、第2の音声素片選択部204cで選択された音声素片から、これらの音声素片を接続して得られる合成音声の歪に基づいて代表音声素片を選択する代表音声素片選択部を設ける実施の形態について説明する。
図18は、本発明の第3の実施形態に係る音声合成装置を示すブロック図である。
この第3の実施形態に係わる音声合成装置は、テキストを入力するテキスト入力部301と、テキスト入力部301で入力されたテキストの形態素解析および構文解析を行う言語処理部302と、言語処理部302で得られる言語解析結果から入力されたテキストの音韻系列および目標素片環境を取得する韻律処理部303と、韻律処理部303で得られるテキストの音韻系列および目標素片環境を用いて、あらかじめ記憶されている複数の音声素片から合成単位ごとに代表音声素片を選択し、選択された代表音声素片を接続して合成音声を生成する音声合成部304と、音声合成部304で生成された合成音声を出力する合成音声出力部305とを備えている。
また、合成音声部304は、あらかじめ合成単位に対応する複数の音声素片が記憶されている音声素片記憶部304aと、音声素片記憶部304aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪を算出し、その歪に基づいて合成単位ごとに複数の音声素片を選択する第1の音声素片選択部304bと、第1の音声素片選択部304bで選択された音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに複数の音声素片を選択する第2の音声素片選択部304cと、第2の音声素片選択部304cで選択された音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて合成単位ごとに代表音声素片を選択する代表音声素片選択部304dと、代表音声素片選択部304dで選択された代表音声素片を変形、接続することで合成音声を生成する音声素片変形・接続部304eとから構成されている。
つまり、第2の実施形態とは、音声合成部304において、代表音声素片生成部204dの代わりに、第2の音声素片選択部304cで選択された音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて代表音声素片を選択する代表音声素片選択部304dを備える点が異なるのみである。したがって、以下では、第2の実施形態と共通の動作を行う部分(テキスト入力部301、言語処理部302、韻律処理部303、音声素片記憶部304a、第1の音声素片選択部304b、第2の音声素片選択部304c、音声素片変形・接続部304e、合成音声出力部305)については、説明を省略する。
次に、図18および図19を用いて、本発明の第3の実施形態に係わる音声合成装置の動作について説明する。なお、図19は、本発明の第3の実施形態に係わる音声合成装置の動作を示すフローチャートである。
代表音声素片選択部304dでは、第2の音声素片選択部304cで選択された音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて合成単位ごとに一つの代表音声素片を選択する(ステップS706)。
ここで、代表音声素片選択部304dにおける合成音声の歪の算出は、第1の音声素片選択部304bにおける合成音声の歪の算出と同様に、合成単位ごとに、韻律処理部303から送られる目標素片環境と第2の音声素片選択部304cで選択された音声素片の素片環境との違いから目標コストを算出し、第2の音声素片選択部304cで選択された音声素片を接続する場合の接続境界におけるスペクトルの違いから接続コストを算出し、これらの目標コストと接続コストの重み付け和を計算することによって行なうことができる。
そして、代表音声素片選択部304dは、第2の音声素片選択部304cにおいて合成単位ごとにL個選択された音声素片から、このようにして計算される合成音声の歪が最小となる音声素片の系列(最適音声素片系列)を選択する。最適音声素片系列を探索する方法としては、例えば、上述した動的計画法を用いることができる。
代表音声素片選択部304dは、このようにして第2の音声素片選択部304cで選択された音声素片から最適音声素片系列を求め、最適音声素片系列に含まれる最適音声素片を合成単位ごとに代表音声素片として音声素片変形・接続部304eに送る。
このように第3の実施形態によれば、第2の音声素片選択部304cにおいて、第1の音声素片選択部304bで求められた音声素片からスペクトルの性質が他の音声素片と大きく異なる音声素片を排除することができ、さらに、代表音声素片選択部304dにおいて、合成音声の歪が最も小さくなる音声素片を代表音声素片として選択できるため、このような代表音声素片を用いることで、自然で音質のよい合成音声を生成することが可能になる。
なお、上述した実施形態では、代表音声素片選択部304dにおける合成音声の歪の算出は、第1の音声素片選択部304bにおける合成音声の歪の算出と同様の方法を用いて行なうこととしたが、代表音声素片選択部304dと第1の音声素片選択部304bで合成音声の歪の算出方法を変えることも可能である。すなわち、例えば、第1の音声素片選択部304bでは、基本周波数コストだけを目標コストとして合成音声の歪を計算し、代表音声素片選択部304dでは、基本周波数コストと音韻継続時間長コストの重み付け和を目標コストとして合成音声の歪を計算する。このようにすることで、第1の音声素片選択部304bにおいて、基本周波数コストだけを用いて荒く歪を計算して音声素片を選択した後に、代表音声素片選択部304dにおいて、基本周波数コストと音韻継続時間長コストを用いて詳細に歪を計算して代表音声素片を選択することができ、計算量を減らして効率的な代表音声素片の選択が可能になる。
また、上述した実施形態では、代表音声素片選択部304dにおいて、第2の音声素片選択部304cで選択された音声素片から得られる合成音声の歪は、第1の音声素片選択部304bにおける合成音声の歪の算出と同様の方法を用いて算出することとしていたが、第1の音声素片選択部304bにおいて計算された合成音声の歪を、そのまま代表音声素片選択部304dにおいて用いることも可能である。すなわち、第1の音声素片選択部304bにおいて合成音声の歪を計算したときに、これを別途図示しない記憶領域に記憶しておき、代表音声素片選択部304dにおいて合成音声の歪を求める場合には、前記記憶領域に記憶された合成音声の歪を読み出すようにすればよい。このようにすることにより、第1の音声素片選択部304bにおいてすでに計算された合成音声の歪を代表音声素片選択部304dにおいて再度計算する必要がなくなり、計算量を減らして効率的な代表音声素片の選択が可能になる。
(第4の実施形態)
第3の実施形態では、代表音声素片選択部304dにおいて、第2の音声素片選択部304cで選択された音声素片から得られる合成音声の歪が最小となるものを合成単位ごとに選択し、これを代表音声素片としていた。
第4の実施形態では、代表音声素片選択部304dの代わりに、第2の音声素片選択部304cで選択される音声素片から得られる合成音声の歪に基づいて複数の音声素片を選択する第3の音声素片選択部を設け、その第3の音声素片選択部で選択された複数の音声素片を融合することによって代表音声素片を生成する実施の形態について説明する。
図20は、本発明の第4の実施形態に係る音声合成装置を示すブロック図である。
この第4の実施形態に係わる音声合成装置は、テキストを入力するテキスト入力部401と、テキスト入力部401で入力されたテキストの形態素解析および構文解析を行う言語処理部402と、言語処理部402で得られる言語解析結果から入力されたテキストの音韻系列および目標素片環境を取得する韻律処理部403と、韻律処理部403で得られるテキストの音韻系列および目標素片環境を用いて、あらかじめ記憶されている複数の音声素片から合成単位ごとに代表音声素片を生成し、生成された代表音声素片を接続して合成音声を生成する音声合成部404と、音声合成部404で生成された合成音声を出力する合成音声出力部405とを備えている。
また、合成音声部404は、あらかじめ合成単位に対応する複数の音声素片が記憶されている音声素片記憶部404aと、音声素片記憶部404aに記憶されている音声素片から、これらの音声素片を接続したときの合成音声の歪を算出し、その歪に基づいて合成単位ごとに複数の音声素片を選択する第1の音声素片選択部404bと、第1の音声素片選択部404bで選択された音声素片から、これらの音声素片間の距離に基づいて合成単位ごとに複数の音声素片を選択する第2の音声素片選択部404cと、第2の音声素片選択部404cで選択された音声素片から、これらの音声素片を接続したときの合成音声の歪を算出し、その歪に基づいて合成単位ごとに複数の音声素片を選択する第3の音声素片選択部404dと、第3の音声素片選択部404dで選択された音声素片を融合することで合成単位ごとに代表音声素片を生成する代表音声素片生成部404eと、代表音声素片生成部404eで生成された代表音声素片を変形、接続することで合成音声を生成する音声素片変形・接続部404fとから構成されている。
つまり、第3の実施形態とは、音声合成部404において、代表音声素片生成部304dの代わりに、第2の音声素片選択部404cで選択された音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて、複数の音声素片を選択する第3の音声素片選択部404dを備える点、および第3の音声素片選択部404dで選択された複数の音声素片を融合して代表音声素片を生成する代表音声素片生成部404fを備える点が異なるのみである。したがって、以下では、第3の実施形態と共通の動作を行う部分(テキスト入力部401、言語処理部402、韻律処理部403、音声素片記憶部404a、第1の音声素片選択部404b、第2の音声素片選択部404c、音声素片変形・接続部404f、合成音声出力部405)については、説明を省略する。
次に、図20および図21を用いて、本発明の第4の実施形態に係わる音声合成装置の動作について説明する。なお、図21は、本発明の第4の実施形態に係わる音声合成装置の動作を示すフローチャートである。
第3の音声素片選択部404dは、第2の音声素片選択部404cから送られる音声素片から、これらの音声素片を接続したときの合成音声の歪に基づいて、複数の音声素片を選択する(ステップS806)。ここで、第2の音声素片選択部404cで選択される音声素片の数は、上述した第3の実施形態と同様に、合成単位ごとにL個とし、第3の音声素片選択部404dでは、第2の音声素片選択部404cで選択されたL個の音声素片の中から合成単位ごとにK個(K<L)の音声素片を選択するものとする。
なお、第3の音声素片選択部404dにおけるK個の音声素片の選択は、第2の音声素片選択部404cで選択された合成単位ごとにL個の音声素片から、これらの音声素片を接続したときの合成音声の歪を求め、歪の小さい音声素片の系列に含まれる音声素片から順番に、合成単位ごとにK個の音声素片を選択することにより行なう。
ここで、第3の音声素片選択部404dにおける合成音声の歪の算出は、第1の音声素片選択部404bにおける合成音声の歪の算出と同様に、合成単位ごとに、韻律処理部403から送られる目標素片環境と第2の音声素片選択部404cで選択された音声素片の素片環境との違いから目標コストを算出し、第2の音声素片選択部404cで選択された音声素片を接続する場合の接続境界におけるスペクトルの違いから接続コストを算出し、これらの目標コストと接続コストの重み付け和を計算することによって行なうことができる。
そして、第3の音声素片選択部404dでは、第2の音声素片選択部404cにおいて合成単位ごとにL個選択された音声素片から、このようにして計算される合成音声の歪が小さい音声素片系列に含まれる音声素片から順番にK個の音声素片を選択する。
このように第3の音声素片選択部404dで選択された合成単位ごとにK個の音声素片は、次に、代表音声素片選択部404eに送られる。
代表音声素片生成部404eでは、第3の音声素片選択部404dから送られる合成単位ごとにK個の音声素片を融合することによって、代表音声素片を生成する(ステップS807)。ここで、複数の音声素片を融合して新たな音声素片を生成する方法としては、上述した図17に示す方法を用いることができる。
このように、第4の実施形態に係わる音声合成装置によれば、まず、第3の音声素片選択部404dにおいて、第2の音声素片選択部404cで求められた音声素片から、合成音声の歪が小さくなる音声素片を選択することができ、次に、代表音声素片選択部404eにおいて、第3の音声素片選択部404dで選択された複数の音声素片を融合することによって、高品質な代表音声素片を生成することが可能になる。そのため、このような代表音声素片を用いて合成音声を生成すれば、自然で音質のよい合成音声を得ることが可能になる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施形態に係わる音声合成装置の構成を示すブロック図。 第1の実施形態の動作を示すフローチャート。 第1の実施形態の音韻系列(音素系列)の一例を示す図。 第1の実施形態の音韻系列(音素系列)および目標素片環境の一例を示す図。 第1の実施形態の合成単位(音素)の一例を示す図。 第1の実施形態の音声素片記憶部に記憶された音声波形および素片環境の一例を示す図。 音声素片の生成方法を説明するための図。 第1の実施形態の音声素片選択部の動作を示すフローチャート。 音韻系列を合成単位で区切ることにより得られる区分(セグメント)を示す図。 第1の実施形態の音声素片選択部における基本周波数コスト、音韻継続時間長コストおよびスペクトル接続コストを算出する方法を説明するための図。 第1の実施形態の音声素片選択部における音声素片の選択動作を示すフローチャート。 第1の実施形態の代表音声素片選択部の動作を示すフローチャート。 第1の実施形態の代表音声素片の変形、接続方法を示す図。 第1の実施形態の代表音声素片選択部の動作を示すフローチャート。 本発明の第2の実施形態に係わる音声合成装置の構成を示すブロック図。 第2の実施形態に係わる音声合成装置の動作を示すフローチャート。 第2の実施形態の音声素片の融合方法を示す図。 本発明の第3の実施形態に係わる音声合成装置の構成を示すブロック図。 第3の実施形態に係わる音声合成装置の動作を示すフローチャート。 本発明の第4の実施形態に係わる音声合成装置の構成を示すブロック図。 第4の実施形態に係わる音声合成装置の動作を示すフローチャート。
符号の説明
101、201、301、401・・・テキスト入力部
102、202、302,402・・・言語処理部
103、203、303、403・・・韻律処理部
104、204、304,404・・・音声合成部
105、205、305、405・・・合成音声出力部
104a、204a、304a、404a・・・音声素片記憶部
104b、204b、204c、304b、304c、404b、404c、404d・・・音声素片選択部
104c、304d・・・代表音声素片選択部
204d、404e・・・代表音声素片生成部
104d、204e、304e、404f・・・音声素片変形・接続部

Claims (19)

  1. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
    合成単位に対応する複数の音声素片を記憶する記憶手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択手段と、
    前記合成単位ごとに、前記選択手段で選択された複数の音声素片間の距離に基づいて前記選択手段で選択された複数の音声素片から代表音声素片を得る代表音声素片取得手段と、
    前記代表音声素片取得手段で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    を備えることを特徴とする音声合成装置。
  2. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
    合成単位に対応する複数の音声素片を記憶する記憶手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択手段と、
    前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片間の距離に基づいて前記第1の選択手段で選択された複数の音声素片から代表音声素片を選択する第2の選択手段と、
    前記第2の選択手段で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    を備えることを特徴とする音声合成装置。
  3. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
    合成単位に対応する複数の音声素片を記憶する記憶手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
    前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
    前記合成単位ごとに、前記第2の選択手段で選択された複数の第2の音声素片を融合して代表音声素片を生成する生成手段と、
    前記生成手段で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    を備えることを特徴とする音声合成装置。
  4. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
    合成単位に対応する複数の音声素片を記憶する記憶手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
    前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記第2の選択手段で選択された第2の音声素片から合成音声の歪を求め、その歪に基づいて前記複数の第2の音声素片から前記合成単位ごとに代表音声素片を選択する第3の選択手段と、
    前記第3の選択手段で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    を備えることを特徴とする音声合成装置。
  5. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成装置において、
    合成単位に対応する複数の音声素片を記憶する記憶手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の第1の音声素片を選択する第1の選択手段と、
    前記合成単位ごとに、前記第1の選択手段で選択された複数の第1の音声素片間の距離に基づいて前記複数の第1の音声素片から複数の第2の音声素片を選択する第2の選択手段と、
    前記入力されたテキストから得られる音韻系列にしたがって前記第2の選択手段で選択された第2の音声素片から合成音声の歪を求め、その歪に基づいて前記複数の第2の音声素片から前記合成単位ごとに複数の第3の音声素片を選択する第3の選択手段と、
    前記合成単位ごとに、前記第3の選択手段で選択された複数の第3の音声素片を融合して代表音声素片を生成する生成手段と、
    前記生成手段で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    を備えることを特徴とする音声合成装置。
  6. 前記合成音声の歪を、基本周波数、音韻継続時間長、パワーのうち少なくとも一つを用いて算出することを特徴とする請求項1乃至請求項5のいずれか1項に記載の音声合成装置。
  7. 前記合成音声の歪を、前記記憶手段に記憶された音声素片の素片環境と前記入力されたテキストから得られる目標素片環境との違いによって生じる目標コストと、前記記憶手段に記憶された音声素片を前記記憶手段に記憶された他の音声素片と接続することによって生じる接続コストとを算出し、これらのコスト用いて算出することを特徴とする請求項1乃至請求項5のいずれか1項に記載の音声合成装置。
  8. 前記目標コストを、基本周波数、音韻継続時間長、パワー、音韻環境、スペクトルのうち少なくとも一つを用いて算出することを特徴とする請求項7に記載の音声合成装置。
  9. 前記接続コストを、基本周波数、パワー、スペクトルのうち少なくとも一つを用いて算出することを特徴とする請求項7に記載の音声合成装置。
  10. 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片ごとに他の音声素片との間の距離の和を算出し、算出された距離の和に基づいて代表音声素片を選択することを特徴とする請求項2に記載の音声合成装置。
  11. 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片のセントロイドを求め、そのセントロイドと前記第1の選択手段で選択された音声素片との間の距離に基づいて代表音声素片を選択することを特徴とする請求項2に記載の音声合成装置。
  12. 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片ごとに他の音声素片との間の距離の和を算出し、算出された距離の和に基づいて複数の第2の音声素片を選択することを特徴とする請求項5に記載の音声合成装置。
  13. 前記第2の選択手段は、前記合成単位ごとに、前記第1の選択手段で選択された複数の音声素片のセントロイドを求め、そのセントロイドと前記第1の選択手段で選択された音声素片との間の距離に基づいて複数の第2の音声素片を選択することを特徴とする請求項5に記載の音声合成装置。
  14. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択ステップと、
    前記合成単位ごとに、前記選択ステップで選択された複数の音声素片間の距離に基づいて前記選択ステップで選択された複数の音声素片から代表音声素片を取得する代表音声素片取得ステップと、
    前記代表音声素片取得ステップで得られた代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
    を有することを特徴とする音声合成方法。
  15. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択ステップと、
    前記合成単位ごとに、前記第1の選択ステップで選択された複数の音声素片間の距離に基づいて前記第1の選択ステップで選択された複数の音声素片から代表音声素片を選択する第2の選択ステップと、
    前記第2の選択ステップで選択された代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
    を有することを特徴とする音声合成方法。
  16. 入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成方法において、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択ステップと、
    前記合成単位ごとに、前記第1の選択ステップで選択された複数の音声素片間の距離に基づいて前記第1の選択ステップで選択された複数の音声素片から複数の第2の音声素片を選択する第2の選択ステップと、
    前記合成単位ごとに、前記第2の選択ステップで選択された複数の第2の音声素片を融合して代表音声素片を生成する生成ステップと、
    前記生成ステップで生成された代表音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
    を有することを特徴とする音声合成方法。
  17. コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する選択機能と、
    前記合成単位ごとに、前記選択機能で選択された複数の音声素片間の距離に基づいて前記選択機能で選択された複数の音声素片から代表音声素片を取得する代表音声素片取得機能と、
    前記代表音声素片取得機能で得られた代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
    を備えることを特徴とする音声合成プログラム。
  18. コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択機能と、
    前記合成単位ごとに、前記第1の選択機能で選択された複数の音声素片間の距離に基づいて前記第1の選択機能で選択された複数の音声素片から代表音声素片を選択する第2の選択機能と、
    前記第2の選択機能で選択された代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
    を備えることを特徴とする音声合成プログラム。
  19. コンピュータに、入力されたテキストから得られる音韻系列を合成単位で区切り、合成単位ごとに代表音声素片を得、その代表音声素片を接続することによって合成音声を生成する音声合成プログラムにおいて、
    前記入力されたテキストから得られる音韻系列にしたがって合成単位に対応する複数の音声素片を記憶する記憶手段に記憶された音声素片から合成音声の歪を求め、その歪に基づいて前記記憶手段に記憶された音声素片から前記合成単位ごとに複数の音声素片を選択する第1の選択機能と、
    前記合成単位ごとに、前記第1の選択機能で選択された複数の音声素片間の距離に基づいて前記第1の選択機能で選択された複数の音声素片から複数の第2の音声素片を選択する第2の選択機能と、
    前記合成単位ごとに、前記第2の選択機能で選択された複数の第2の音声素片を融合して代表音声素片を生成する生成機能と、
    前記生成機能で生成された代表音声素片を接続することによって合成音声を生成する合成音声生成機能と、
    を備えることを特徴とする音声合成プログラム。



JP2004270252A 2004-09-16 2004-09-16 音声合成装置、音声合成方法および音声合成プログラム Pending JP2006084854A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004270252A JP2006084854A (ja) 2004-09-16 2004-09-16 音声合成装置、音声合成方法および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004270252A JP2006084854A (ja) 2004-09-16 2004-09-16 音声合成装置、音声合成方法および音声合成プログラム

Publications (1)

Publication Number Publication Date
JP2006084854A true JP2006084854A (ja) 2006-03-30

Family

ID=36163415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004270252A Pending JP2006084854A (ja) 2004-09-16 2004-09-16 音声合成装置、音声合成方法および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP2006084854A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102710A1 (ja) * 2007-02-20 2008-08-28 Nec Corporation 音声合成装置及び方法とプログラム
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
US8407054B2 (en) 2007-05-08 2013-03-26 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
JP2017151291A (ja) * 2016-02-25 2017-08-31 三菱電機株式会社 音声合成装置及び音声合成方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008102710A1 (ja) * 2007-02-20 2008-08-28 Nec Corporation 音声合成装置及び方法とプログラム
US8630857B2 (en) 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
US8407054B2 (en) 2007-05-08 2013-03-26 Nec Corporation Speech synthesis device, speech synthesis method, and speech synthesis program
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP5275470B2 (ja) * 2009-09-10 2013-08-28 株式会社東芝 音声合成装置およびプログラム
JP2017151291A (ja) * 2016-02-25 2017-08-31 三菱電機株式会社 音声合成装置及び音声合成方法

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP4738057B2 (ja) ピッチパターン生成方法及びその装置
JP4469883B2 (ja) 音声合成方法及びその装置
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
CN101131818A (zh) 语音合成装置与方法
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2006276528A (ja) 音声合成装置及びその方法
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JP2006309162A (ja) ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
JP4639932B2 (ja) 音声合成装置
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP2001265375A (ja) 規則音声合成装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4167084B2 (ja) 音声合成方法及び装置、並びに音声合成プログラム
JP2003208188A (ja) 日本語テキスト音声合成方法
EP1589524B1 (en) Method and device for speech synthesis
JP3854593B2 (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100305