JP2009047837A - 音声合成方法及びその装置 - Google Patents

音声合成方法及びその装置 Download PDF

Info

Publication number
JP2009047837A
JP2009047837A JP2007212809A JP2007212809A JP2009047837A JP 2009047837 A JP2009047837 A JP 2009047837A JP 2007212809 A JP2007212809 A JP 2007212809A JP 2007212809 A JP2007212809 A JP 2007212809A JP 2009047837 A JP2009047837 A JP 2009047837A
Authority
JP
Japan
Prior art keywords
speech
formant
unit
parameter
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007212809A
Other languages
English (en)
Other versions
JP4469883B2 (ja
Inventor
Ryo Morinaka
亮 森中
Masanori Tamura
正統 田村
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007212809A priority Critical patent/JP4469883B2/ja
Priority to US12/222,725 priority patent/US8175881B2/en
Priority to CNA2008102154865A priority patent/CN101369423A/zh
Publication of JP2009047837A publication Critical patent/JP2009047837A/ja
Application granted granted Critical
Publication of JP4469883B2 publication Critical patent/JP4469883B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】ホルマントパラメータを直接制御することにより自然で高音質な合成音声を生成する。
【解決手段】目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求め、音声素片記憶部42から、目標音声に対応する韻律情報を基に、複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択し、選択された複数の音声素片のそれぞれのフレームに対して、ホルマント周波数を含むホルマントパラメータを生成し、複数の音声素片のそれぞれのフレームに対応するホルマントパラメータから、フレーム毎に融合ホルマントパラメータを求め、フレーム毎の融合ホルマントパラメータから、各セグメントに対応する融合音声素片をそれぞれ求め、セグメント毎の融合音声素片を接続することによって合成音声を生成する。
【選択図】図2

Description

本発明は、テキスト音声合成のための音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成方法及びその装置に関する。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階から構成される。
入力されたテキストは、第1段階として言語処理部において形態素解析や構文解析などが行われる。次に、第2段階として韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。その後、最終段階として音声信号合成部で音韻系列・韻律情報から音声信号を合成することによりテキスト音声合成を実現している。
このような任意の音韻記号列を合成することができる合成器の原理は、母音をV、子音をCで表すと、CV、CVC、VCVなどの基本となる小さな音声単位の特徴パラメータ(音声素片)を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成する。この方式では、記憶されている音声素片が音声合成の品質を大きく左右することになる。
このような音声合成方法の1つとして、入力された音韻系列・韻律情報を目標として、大量の音声素片から音声単位毎に複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択・融合型の音声合成方法がある(例えば、特許文献1参照)。
この複数素片選択・融合型の音声合成は、まず予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択する。素片選択手法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように音声素片を選択する方法がある。例えば、目標とする音声と各音声素片との韻律・音韻環境などの差異を表す目標歪み、音声素片を接続することで生じる接続歪みをコストとして数値化し、このコストに基づいて音声合成に使用する音声素片を選択し、さらに、例えばピッチ波形を平均化する、選択された複数の音声素片のセントロイドを用いるなどの手法で融合することにより、素片の編集及び接続における音質の劣化を抑え、安定した合成音声を得ることができる。
また、より品質の良い音声素片の生成法として記憶する音声素片をホルマント周波数などを用いて表現するという方法がある(例えば、特許文献2参照)。この方法は、1つのホルマントを表す波形(以下、「ホルマント波形」と呼ぶ)を、ホルマント周波数を周波数とする正弦波に窓関数をかけることにより表現し、各ホルマント波形を各々加算することによって波形を表現する。
特開2005−164749号公報 特許第3732793号公報
複数素片選択・融合型の音声合成方法では波形を融合するため、合成された音声のスペクトルが不明瞭となり音質の劣化が生じてしまうという問題点があった。
これは、異なるホルマント周波数を持つ音声素片同士を融合すると、融合された音声素片のホルマントが不明瞭になり、結果として音質が劣化するものと考えられる。
そこで、本発明は、上記問題点に鑑み、複数素片選択・融合型の音声合成において、自然で高音質な合成音声を生成することができる音声合成方法及びその装置を提供することを目的とする。
本発明は、目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割ステップと、1つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択ステップと、前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成ステップと、前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合ステップと、前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成ステップと、前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成ステップと、を有する音声合成方法である。
本発明によれば、選択された音声素片を融合する際、音声素片を物理的な意味が明らかなホルマント周波数を直接用いて音声素片を融合することにより合成音声のホルマントが明瞭となり、音質の劣化の程度が音声素片を波形を融合する場合と比べ減少し、自然で高音質な合成音を生成する。
以下、図面を参照して本発明の実施形態を説明する。
(第1の実施形態)
以下、本発明の第1の実施形態のテキスト音声合成装置について、図1〜図19に基づいて説明する。
(1)テキスト音声合成装置の構成
図1は、本実施形態に係るテキスト音声合成装置の構成を示すブロック図である。
このテキスト音声合成装置は、テキスト入力部1、言語処理部2、韻律処理部3、音声合成部4、音声波形出力部5から構成される。
言語処理部2は、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部3へ送る。
韻律処理部3は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部4へ送る。
音声合成部4は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部5で出力される。
各部1〜4の機能は、コンピュータに格納されたプログラムによっても実現できる。
(2)音声合成部4の構成
図2は、図1の音声合成部4の構成例を示すブロック図である。
図2に示すように、音声合成部4は、ホルマントパラメータ作成部41、音声素片記憶部42、音素環境記憶部43、ホルマントパラメータ記憶部44、音韻系列・韻律情報入力部45、音声素片選択部46、音声素片融合部47、融合音声素片編集・接続部48により構成される。
(2−1)音声素片記憶部42
音声素片記憶部42には、大量の音声素片が蓄積されており、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が記憶されている。
合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C,V)、ダイフォン(CV,VC,VV)、トライフォン(CVC,VCV)、音節(CV,V)などであり、これらが混在しているなど可変長であってもよい。なお、Vは母音、Cは子音を表す。
(2−2)音素環境記憶部43
音素環境記憶部43には、音声素片記憶部42に記憶されている音声素片の音素環境の情報(以下、「音素環境情報」と呼ぶ)が記憶されている。
音素環境情報とは、当該音声素片にとっての環境となる要因の組み合わせに対応する情報である。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。
(2−3)ホルマントパラメータ記憶部44
ホルマントパラメータ記憶部44には、ホルマントパラメータ作成部41において作成されたホルマントパラメータが蓄積されている。「ホルマントパラメータ」とはホルマント周波数と、各ホルマントの形状を表すパラメータで構成されるものである。
(2−4)音韻系列・韻律情報入力部45
音韻系列・韻律情報入力部45には、韻律処理部3から出力された目標音声の音韻系列及び韻律情報が入力される。
音韻系列・韻律情報入力部45に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。
以下、音韻系列・韻律情報入力部45に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。
(2−5)音声素片選択部46
音声素片選択部46は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報と、音声素片の音素環境に含まれる韻律情報との歪みの度合いを推定し、前記歪みの度合いを最小化するように音声素片記憶部42に記憶されている音声素片の中から音声素片を選択する。
歪みの度合いとしては、後述するコスト関数を用いることができるが、これに限定するものではない。その結果、入力音韻系列の音韻記号の系列に対応する音声素片が得られる。
(2−6)音声素片融合部47
音声素片融合部47は、音声素片選択部46において選択された複数の音声素片に関して、ホルマントパラメータ作成部41において作成されたホルマントパラメータを融合し、融合されたホルマントパラメータから融合音声素片を生成する。
ここで、融合音声素片とは融合される複数の音声素片それぞれの特徴を代表するような音声素片のことで、例えば、融合される複数の音声素片の平均や加重平均、融合される複数の音声素片を任意の帯域に分割し、各帯域で平均や加重平均をしたものなどが考えられる。
(2−7)融合音声素片編集・接続部48
融合音声素片編集・接続部48は、融合音声素片の系列を入力韻律情報に基づいて変形及び接続して、合成音声の音声波形を生成する。
こうして生成された音声波形は音声波形出力部5で出力される。
(3)音声合成部4の処理の概略
図3は、音声合成部4における処理の流れを示すフローチャートである。
ステップS401において、音声素片選択部46は入力音韻系列及び入力韻律情報に基づいて、各セグメントに対し、音声素片記憶部42に記憶されている音声素片の中から複数の音声素片を選択する。
各セグメントに対し選択される複数の音声素片は、いずれも当該セグメントの音韻に対応すると共に、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴と一致あるいは類似する音声素片である。
また、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために入力韻律情報に基づき当該音声素片を変形したときに生ずる当該合成音声の目標音声に対する歪みの度合いが出来るだけ少なくなるような音声素片である。
また、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために当該音声素片を当該セグメントの隣のセグメントの音声素片と接続した際に生ずる当該合成音声の目標音声に対する歪みの度合いが出来るだけ少なくなるような音声素片である。
本実施形態では、セグメント毎に、後述するコスト関数を用いて、目標音声に対する歪みの度合いを推定しながら、このような複数の音声素片を選択する。
次に、ステップS402において、音声素片融合部47は、各セグメントに対し選択された複数の音声素片に対応するホルマントパラメータ記憶部44に記憶されているホルマントパラメータを呼び出してから融合し、セグメント毎に、新たな音声素片を生成する。
次に、ステップS403において、新たな音声素片の系列を、入力された韻律情報に基づいて変形及び接続して音声波形を生成する。
以下、音声合成部4の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。
なお、ここでは音声素片は音素単位としているが、半音素、ダイフォン、トライフォン、音節あるいはこれらの組み合わせや可変長であっても同様である。
(4)記憶されている情報
音声素片記憶部42には、図4に示すように、各音素の音声信号の波形が当該音素を識別するための音声素片番号と共に記憶されている。
音素環境記憶部43には、図5に示すように、音声素片記憶部42に記憶されている各音声素片の音素環境情報が、当該音素の素片番号に対応付けて記憶されている。ここでは、音素環境として、音素記号(音素名)、基本周波数、音韻継続長、接続境界ケプストラムが記憶されている。
ホルマントパラメータ記憶部44には、音声素片記憶部42に記憶されている各音声素片からホルマントパラメータ作成部41において作成されたホルマントパラメータ系列が、当該音素の素片番号に対応付けて記憶されている。
(5)ホルマントパラメータ作成部44
ホルマントパラメータ作成部44では、音声素片記憶部42に記憶されている各音声素片を入力としてホルマントパラメータを作成する。図6はホルマントパラメータ作成部41における処理の流れを示すフローチャートである。
ホルマントパラメータはステップS411で作成されたピッチ波形から、ステップS412でこれらのパラメータを作成する。ホルマントパラメータ記憶部44には、図10に示すように、各音声フレームのホルマントパラメータが当該音素の素片番号と音声フレーム番号とに対応付けて記憶されている。図10ではホルマント周波数の個数を3としたが、個数はいくつでも良い。
窓関数は基底関数として任意の次数のDCT基底にハニング窓をかけたものを基底関数として、基底関数と重み係数ベクトルとして表現されたものを記憶しても良いし、基底関数は窓関数をKL展開することによって生成された基底関数を用いても良い。
図6のステップS411、ステップS412を経て、各音声素片に対して得られたピッチ波形それぞれに対するホルマントパラメータはホルマントパラメータ記憶部44に記憶される。
(5−1)フレームの分割
ステップS411において、音声素片記憶部42からの入力が有声音のセグメントの場合、音声素片を複数の音声フレームと呼ばれる音声素片よりも小さな単位に分割する処理を行う。
音声フレームとは、音声素片を当該音声素片の継続時間長よりも短い長さを単位として分割したものやピッチ波形などを意味する。
ここで、ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。
その分割方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法などがある。
本実施形態では、音声フレームの単位をピッチ波形とし、ピッチ波形の抽出方法として基本周期同期窓で切り出す方法を用いてピッチ波形に分割する場合を例にとり、図7のフローチャートを参照して説明する。
ステップS421において、該音声素片の音声波形に、その周期間隔毎にマーク(ピッチマーク)を付ける。図8(a)には、M個の音声素片のうちの1つの音声素片の音声波形431に対し、その周期間隔毎にピッチマーク432が付けられている場合を示している。
ステップS422において、図8(b)に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓433を用い、その窓長は基本周期の2倍とする。そして、図8(c)に示すように、窓掛けされた波形434をピッチ波形として切り出す。
(5−2)ホルマントパラメータの生成
次に、図6のステップS412において、ステップS411で切り出された音声素片のピッチ波形毎にホルマントパラメータを求める。図8(d)は、切り出されたピッチ波形434それぞれに対して作成されたホルマントパラメータ435を示している。
本実施形態では、ホルマントパラメータは、ホルマント周波数、パワー、位相、窓関数とから構成されるものとする。
図9はホルマントパラメータに含まれるホルマント周波数の数を3としたときの、ホルマントパラメータとピッチ波形との関係を示したものである。図9(a)では横軸が時間、縦軸が振幅を、図9(b)では横軸が周波数、縦軸が振幅を表している。
図9(a)は各ホルマント周波数の正弦波で、対応するパワーと位相を持つ正弦波441、442、443各々に対して、対応する窓関数444、445、446をそれぞれ掛けることにより得られるホルマント波形447、448、449を加算したものが、ピッチ波形450である。ここで、ホルマント波形のパワースペクトルは、必ずしも音声信号のパワースペクトルの山の部分を表現するとは限らず、複数のホルマント波形の和であるピッチ波形のパワースペクトルが音声のスペクトルを表現するものである。
図9(b)には、図9(a)の正弦波441、442、443のパワースペクトルを示し、窓関数444、445、446のパワースペクトルを示し、ホルマント波形447、448、449のパワースペクトルを示し、ピッチ波形450のパワースペクトルをそれぞれ示している。
(5−3)ホルマントパラメータの記憶
上記で作成したホルマントパラメータをホルマントパラメータ記憶部44に記憶させる。この場合にホルマントパラメータ系列は、当該音素の素片番号に対応付けて記憶されている。
(6)音韻系列・韻律情報入力部45
図2の音韻系列・韻律情報入力部45には、音韻の情報として、テキスト音声合成のために入力テキストの形態素解析・構文解析後、更にアクセントやイントネーション処理を行って得られた韻律情報と音韻系列が入力される。
入力韻律情報には、基本周波数及び音韻継続時間長が含まれていることとする。
(7)音声素片選択部46
音声素片選択部46では、コスト関数に基づいて音声素片系列を求める。
(7−1)コスト関数
コスト関数は次のように定める。
まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Cn(ui,ui−1,ti)(n:1,・・・,N、Nはサブコスト関数の数)を定める。
ここで、tiは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t1,・・・,tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、uiは音声素片記憶部42に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
(7−1−1)サブコスト関数
サブコスト関数は、音声素片記憶部42に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。当該コストを算出するために、ここでは、具体的には、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する目標コストと、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する接続コストという2種類のサブコストを用いる。
目標コストとしては、音声素片記憶部42に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。
接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。
(7−1−2)サブコスト関数の具体例
具体的には、基本周波数コストは、
Figure 2009047837
から算出する。ここで、vは音声素片記憶部42に記憶されている音声素片uの音素環境を、fは音素環境vから基本周波数を取り出す関数を表す。
音韻継続時間長コストは、
Figure 2009047837
から算出する。ここで、gは音素環境vから音韻継続時間長を取り出す関数を表す。
スペクトル接続コストは、2つの音声素片間のケプストラム距離:
Figure 2009047837
から算出する。ここで、hは音声素片uの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。
(7−1−3)合成単位コスト関数
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する:
Figure 2009047837
ここで、wnはサブコスト関数の重みを表す。本実施形態では、簡単のため、wは全て「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の合成単位コストである。
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(5)に示すように定義する:
Figure 2009047837
(7−2)選択
図3のステップS401では、上記の式(1)〜(5)に示したコスト関数を使って2段階で1セグメント当たり(すなわち、1合成単位当たり)複数の音声素片を選択する。詳細を図11のフローチャートに示す。
ステップS451において、音声素片記憶部42に記憶されている音声素片群の中から、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。このコストが最小となる音声素片の組合せを「最適素片系列」と呼ぶ。すなわち、最適素片系列中の音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各音声素片から算出された上記合成単位コストと式(5)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
次に、ステップS452に進み、素片選択では、最適素片系列を用いて、1セグメント当たり複数の音声素片を選ぶ。ここでは、セグメントの数をJ個とし、セグメント当たりM個の音声素片を選ぶこととして説明する。ステップS452の詳細を説明する。
ステップS453及びステップS454では、J個のセグメントのうちの1つを注目セグメントとする。ステップS453及びS454はJ回繰り返され、J個のセグメントが1回ずつ注目セグメントとなるように処理を行う。まず、ステップS453では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部42に記憶されている音声素片を式(5)のコストの値に応じて順位付けし、上位M個を選択する。
(7−3)具体例
例えば、図12に示すように、入力音韻系列が「ts・i・i・s・a・・・・」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、・・・のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。図12では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片461a、461b、461d、461e・・・を固定する。
この状態で、音声素片記憶部42に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次の手順となる。
(手順1) 音声素片記憶部42に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片u3とする。音声素片u3の基本周波数f(v3)と、目標の基本周波数f(t3)とから、式(1)を用いて、基本周波数コストを算出する。
(手順2) 音声素片u3の音韻継続時間長g(v3)と、目標の音韻継続時間長g(t3)とから、式(2)を用いて、音韻継続時間長コストを算出する。
(手順3) 音声素片u3のケプストラム係数h(u3)と、音声素片451b(u2)のケプストラム係数h(u2)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片u3のケプストラム係数h(u3)と、音声素片451d(u4)のケプストラム係数h(u4)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。
(手順4) 上記手順1〜手順3で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片u3のコストを算出する。
(手順5) 音声素片記憶部42に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記手順1〜手順4に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図11のステップS453)。そして、上位M個の音声素片を選択する(図11のステップS454)。例えば、図12では、音声素片462aが最も順位が高く、音声素片462dが最も順位が低い。
以上の手順1〜手順5をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個ずつの音声素片が得られる。
音素環境として、音声素片の音韻とその基本周波数及び音韻継続長の情報として説明したが、これらに限定するものではなく、必要に応じて、音韻、基本周波数、音韻継続時間長、先行音素、後続音素、後々続音素 、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発生速度、感情などの情報や接続部におけるホルマント周波数などを組み合わせて用いることが出来る。
(8)音声素片融合部47
次に、図3のステップS402における音声素片融合部47の処理について説明する。
ステップS402では、ステップS401で求めた、複数のセグメントのそれぞれについて選択されたM個の音声素片から、セグメント毎に当該M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成する。音声素片が有声音である場合と無声音である場合とで別の処理を行う。
まずは、有声音の場合について説明する。有声音の場合には、図2のホルマントパラメータ作成部41で音声素片から分割したピッチ波形を音声フレーム単位としてホルマントパラメータを融合する。音声素片融合部47における処理の流れを図13のフローチャートを参照して説明する。
(8−1)ホルマントパラメータの抽出
ステップS471において、まず行われるのは、音声素片選択部46において選択された各セグメント中のM個の音声素片に対応するホルマントパラメータをホルマントパラメータ記憶部44から抽出する。この場合にホルマントパラメータ系列は、音声素片の素片番号に対応付けて記憶されているため、それに基づいて抽出する。
(8−2)ホルマントパラメータの数の合致
ステップS471では、上記のように抽出した、当該セグメント中のM個の音声素片それぞれのホルマントパラメータ系列の中で、最もホルマントパラメータの数が多いものに合わせて、M個全てのホルマントパラメータ系列中のホルマントパラメータの数が同じになるようにする。このときに、ホルマントパラメータの数が少ないホルマントパラメータの系列については、ホルマントパラメータを複製して、ホルマントパラメータの数をそろえる。
図14には、当該セグメントのM個(例えば、ここでは、3個)の音声素片の、各音声フレームに対応するホルマントパラメータの系列f1〜f3を示している。
各音声フレームに対応するホルマントパラメータの系列f1のホルマントパラメータの数は7個、各音声フレームに対応するホルマントパラメータの系列f2のホルマントパラメータの数は5個、各音声フレームに対応するホルマントパラメータの系列f3のホルマントパラメータの数は6個である。
したがって、各音声フレームに対応するホルマントパラメータの系列f1〜f3のうち最もホルマントパラメータの数が多いものは、系列f1である。
このため、この系列f1中のホルマントパラメータの数(例えば、ここでは、7個)に合わせて、他の系列f2、f3については、それぞれ、当該系列中のホルマントパラメータのいずれかをコピーして、ホルマントパラメータの数を7個にする。
その結果得られた、系列f2、f3のそれぞれに対応する新たなホルマントパラメータの系列がf2’、f3’である。
なお、図14ではM個の音声素片のうち最も多い音声フレームを持つものに合わせたが、作成する合成音声素片の音声フレーム数に合わせても良い。
(8−3)融合
ステップS472では、ステップS471において音声素片の各音声フレームに対応するホルマントパラメータの数を揃えられたホルマントパラメータを各々融合する。図15はホルマントパラメータを融合するステップS472の処理の流れを示したフローチャートである。
ステップS481で融合されるホルマントパラメータ間のホルマントをホルマントの類似度を推定するための融合コスト関数を計算する。
融合コスト関数としては、融合されるホルマントパラメータ間の各ホルマントのホルマント周波数の違い(差、すなわち、類似度)を表すホルマント周波数コストと、各ホルマントのパワーの違い(差、すなわち、類似度)を表すパワーコストとを融合コスト関数として用いる。
具体的には、ホルマント周波数コストは、
Figure 2009047837
から算出する。ここで、qxyiはホルマントパラメータ記憶部44に記憶されている音声素片pのy番目のフレームのホルマントパラメータi番目のホルマントを表す。rはホルマントパラメータqxyiからホルマント周波数を取り出す関数を表す。
また、パワーコストは
Figure 2009047837
から算出する。ここで、sはホルマントパラメータqxyiからi番目のホルマントのパワー周波数を取り出す関数を表す。
上記式(6)、(7)の重み付き和をホルマントを対応付ける際の融合コスト関数と定義する:
Figure 2009047837
ここで、zはホルマント周波数コスト、zはパワーコストの重みを表す。本実施形態では、簡単のためz、zは全て「1」とする。
ステップS482において、コスト関数の値がTforより小さく似た形状のホルマントが存在するホルマントは、融合コスト関数の値が最小となるホルマント同士を対応付ける。
ステップS483において、コスト関数の値がTforより大きく似た形状のホルマントがないホルマントは、パワーが0である仮想ホルマントを作成し、作成されたホルマントに対応付ける。
ステップS484において、対応付けられたホルマント同士の、ホルマント周波数、位相、パワー、窓関数の各々の平均を求めることにより融合する。ホルマントパラメータの融合方法としてホルマント周波数、位相、パワー、窓関数の各々の平均を求めることにより融合したが、対応付けられたホルマントの中からホルマント周波数、位相、パワー、窓関数をそれぞれ1つずつ選択しても良い。
(8−4)融合の具体例
図16は、M個(例えば、ここでは、2個)の音声素片中のフレームのホルマントパラメータ485、486をステップS481で計算された融合コスト関数を基に、ステップS482で似た形状のホルマントを対応付け、ステップS483で仮想ホルマントに対応付け、ステップS484においてホルマントパラメータを融合して融合ホルマントパラメータ487を作成するまでの流れを示したものである。
ホルマントパラメータ485において仮想ホルマントを作成する際、ホルマントパラメータ486のホルマント番号3のホルマント周波数の値をそのまま用いているが、この限りではない。
(8−5)融合ピッチ波形系列の生成
次に、図13のステップS473では、ステップS472で融合された融合ホルマントパラメータ系列g1から融合ピッチ波形系列h1を生成する。
図17は、ステップS471においてホルマントパラメータの数をそろえられたホルマントパラメータの系列f1、f2’、f3記号から、ステップS472においてホルマントパラメータを融合し融合ホルマントパラメータ系列g1が作成され、ステップS473において融合ピッチ波形が生成され、融合ピッチ波形系列h1が生成されるまでの流れを示したものである。
融合ホルマントパラメータ系列g1の要素数がK個(例えば、図17の場合では、7個)としたときのホルマントパラメータからピッチ波形を生成する場合の処理手順の詳細を図18に示す。
まず、ステップS473において、K個のホルマントパラメータのうちの1つを注目ホルマントパラメータとして、ステップS481をK回繰り返し、K個のホルマントパラメータが1回ずつ注目ホルマントパラメータとなるように処理を行う。
次に、ステップS481において、当該ホルマントパラメータに含まれるN個のホルマント周波数のうちの1つを注目ホルマント周波数とし、ステップS482、S483をN回繰り返し、N個のホルマント周波数が1回ずつ注目ホルマント周波数となるように処理を行う。
次に、ステップS482において、当該ホルマントパラメータに含まれるホルマント周波数の正弦波で、対応するパワーと位相を持つ正弦波を生成する。ここでは、該当するホルマント周波数を周波数とする正弦波を出力するものであったが、これに限るものではない。例えば、計算量の削減を目的として計算精度を落としたり、テーブル化した場合には誤差のために完全な正弦波にはならない場合がある。
次に、ステップS483において、ステップS482で生成された正弦波に対して、当該ホルマントパラメータに含まれる注目ホルマント周波数に対応する窓関数により窓掛けを行って、ホルマント波形を生成する。
ステップS484において、ステップS482、ステップS483で生成されたN個のホルマント波形同士を加算し、融合ピッチ波形を生成する。
このように、ステップS481をK回繰り返すことで融合ホルマントパラメータ系列g1から融合ピッチ波形系列h1を生成する。
一方、図3のステップS402の処理において、無声音のセグメントの場合には、素片選択ステップS401で当該セグメントのM個の音声素片のうち、当該M個の音声素片のそれぞれに付けられている順位が1位の音声素片をそのまま使用する。
以上のようにして、入力音韻系列に対応する複数のセグメントのそれぞれについて、当該セグメントに対し選択されたM個の音声素片から、当該M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成する。次に、図3の融合素片編集・接続ステップS403へ進む。
(9)融合音声素片編集・接続部48
ステップS403において、融合音声素片編集・接続部48は、ステップS402で求めた、セグメント毎の融合音声素片を、入力韻律情報に従って変形し、接続することで音声波形を生成する。
ステップS402で求めた融合音声素片は、実際には図17の融合ピッチ波形系列h1のように系列の各要素はピッチ波形の形になっているので、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図19はステップS403の処理を説明するための図である。図19では、音素「m」、「a」、「d」、「o」の各合成単位についてステップS402で求めた、融合された音声素片を変形・接続して、「まど」という音声波形を生成する場合を示している。図19に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じてセグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数の変更及び、ピッチ波形数の変更を行う。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。
なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、上記のような融合された音声素片の基本周波数や音韻継続時間長などを変更することにより生ずる当該合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような目標コストの一例である式(1)、式(2)から算出される目標コストは、当該歪みの度合いを、目標音声の韻律情報と音声素片記憶部42に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。
また、接続コストは、合成音声を生成するために上記のような融合された音声素片を接続することにより生ずる当該合成音声の目標音声に対する歪みをできるだけ正確に推定(評価)するものであることが望ましい。そのような接続コストの一例である、式(3)から算出される接続コストは、音声素片記憶部42に記憶されている音声素片の接続境界のケプストラム係数の違いに基づき算出されるものである。
(10)従来法との相違
ここで、本実施形態と、従来の複数素片選択・融合型の音声合成手法との違いについて説明する。
本実施形態に係る図2に示した音声合成装置では、ホルマントパラメータ作成部41とホルマントパラメータ記憶部44があり、ホルマントパラメータを融合して新たな音声素片を生成する点が、従来の音声合成装置(例えば、特許文献1参照)と異なる。
本実施形態では、合成単位毎に、複数の音声素片のホルマントパラメータを融合することによって明瞭なスペクトルを持ち、且つホルマントの不明瞭さが減少し、高音質な音声素片を作り出すことができ、その結果、より自然でより高音質な合成音声を生成することができるのである。
(第2の実施形態)
次に、第2の実施形態に係る音声合成部4について説明する。図20は、第2の実施形態に係る音声合成部4の構成例を示したものである。
第1の実施形態では予めホルマントパラメータ作成部41においてホルマントパラメータが作成され、ホルマントパラメータ記憶部44に記憶されていたが、これに限定されるものではない。
本実施形態では、音声素片選択部46で選択された音声素片を、音声素片記憶部42からホルマントパラメータ作成部41へ入力し、作成されたホルマントパラメータを音声素片融合部47へ出力する。
これにより、本実施形態では、第1の実施形態におけるホルマントパラメータ記憶部44がなくなり、その結果、記憶容量が少なく、より自然でより高音質な合成音声を生成することができる。
(第3の実施形態)
次に、第3の実施形態に係る音声素片融合部47について説明する。
合成音声を生成する別の方法として、ホルマント合成方式がある。ホルマント合成方式は人間の発声機構を模擬するモデルであり、声帯から発生する信号をモデル化した音源信号で声道の特性をモデル化するフィルタを駆動することにより音声信号を生成する。一例として特開平7−152396号公報の「音声合成装置」に、ホルマント合成方式を用いた音声合成器が開示されている。
図21は、本実施形態に係る音声素片融合部47の処理の流れを示す。この図21は、図13のステップS473において、ホルマント合成方式によって音声信号を生成する原理を表している。
共振器491、492、493の縦続接続によって構成される声道フィルタを、パルス信号497に駆動して合成音声信号498を生成する。
共振器491の周波数特性494は、ホルマント周波数F1とホルマント帯域幅B1によって決定される。
同様に共振器492の周波数特性495は、ホルマント周波数F2とホルマント帯域幅B2によって、共振器493の周波数特性496はホルマント周波数F3とホルマント帯域幅B3によって決定される。
ホルマントパラメータを合成する場合、図15のステップS484では、対応付けられたホルマント同士のホルマント周波数、パワー、ホルマント帯域幅の平均を求めることによりホルマントパラメータを融合する。
ここでは、ホルマントパラメータの融合方法として平均を用いたが、対応付けられたホルマントのホルマント周波数、パワー、ホルマント帯域幅のそれぞれを1つずつ選択しても良い。
(第4の実施形態)
次に、第4の実施形態に係る音声素片融合部47について説明する。図22は音声素片融合部47における処理の流れを示すフローチャートである。図13の相対応する部分に同一の参照符号を付して相違点を中心に説明する。
本実施形態では、ホルマントパラメータ平滑ステップS474が新たに付加されており、各ホルマントパラメータの時間的な変化が滑らかになるようにホルマントパラメータを平滑化する点が異なっている。
ホルマントパラメータを平滑ステップS474では、ホルマントパラメータの各要素を全て平滑化するようにしても良いし、一部の要素のみを平滑化するようにしても良い。
図23はホルマントパラメータに含まれるホルマント周波数の数を3としたときの、ホルマントの平滑化の例を示している。×で表されるのが平滑化される前のホルマント周波数501、502、503であり、先行、もしくは後続のフレームに対応するホルマント周波数との変化が滑らかになるように平滑化を行って白丸で表される平滑化されたホルマント周波数511、512、513が生成される。
また、ホルマントの接続部において対応がとれないような場合に、図24(a)のxで表されるようにホルマント周波数502に対応するホルマントが消滅してしまうことが起こりうる。この場合、スペクトルに大きな不連続が生じて音質が劣化するために白丸で表されるように、ホルマントを付加してホルマント周波数512を生成する。この際、図24(b)で表されるように、ホルマント周波数512に対応する窓関数514のパワーを減衰させるようにしてホルマントのパワーの不連続が生じないようにする。
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
本発明の第1の実施形態に係る音声合成装置の構成を示すブロック図である。 音声合成部の構成例を示すブロック図である。 音声合成部の処理動作を説明するためのフローチャートである。 音声素片記憶部の音声素片の記憶例を示す図である。 音素環境記憶部の音素環境の記憶例を示す図である。 ホルマントパラメータ作成部の処理動作を説明するためのフローチャートである。 音声素片からピッチ波形を作成する処理動作を説明するためのフローチャートである。 音声素片からホルマントパラメータを得るための手順を説明するための図である。 正弦波、窓関数、ホルマント波形、ピッチ波形の例を示す模式図である。 ホルマントパラメータ記憶部のホルマントパラメータの記憶例を示す図である。 音声素片選択部の処理動作を説明するためのフローチャートである。 入力音韻系列に対応する複数のセグメントのそれぞれに対し、複数の音声素片を求めるための手順を説明するための図である。 音声素片融合部の処理を説明するためのフローチャートである。 音声素片融合部の処理を説明するための図である。 ホルマントパラメータを融合する処理を説明するためのフローチャートである。 ホルマントパラメータを融合する処理を説明するための図である。 ホルマントパラメータを融合する処理を説明するための図である。 ピッチ波形を生成する処理を説明するためのフローチャートである。 素片編集・接続部の処理動作を説明するための図である。 第2の実施形態における音声合成部の構成例を示すブロック図である。 従来のホルマント合成器のブロック図である。 第2の実施形態にかかる音声素片融合部の処理を説明するためのフローチャートである。 ホルマント周波数の平滑化の例を示す模式図である。 ホルマント周波数の平滑化の例を示す模式図である。
符号の説明
1 テキスト入力部
2 言語処理部
3 韻律処理部
4 音声合成部
5 音声波形出力部

Claims (14)

  1. 目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割ステップと、
    1つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択ステップと、
    前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成ステップと、
    前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合ステップと、
    前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成ステップと、
    前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成ステップと、
    を有する音声合成方法。
  2. 前記パラメータ生成ステップは、予め記憶された複数のホルマントパラメータから、前記選択された複数の音声素片のそれぞれに対応するホルマントパラメータを抽出する、
    請求項1記載の音声合成方法。
  3. 前記パラメータ生成ステップは、前記選択された音声素片に対応する前記ホルマントパラメータを生成する、
    請求項1記載の音声合成方法。
  4. 前記ホルマントパラメータは、前記ホルマント周波数と、前記音声素片のホルマントの形状を表す形状パラメータを含む、
    請求項1記載の音声合成方法。
  5. 前記形状パラメータは、少なくとも窓関数、位相、パワーを含む、
    請求項1記載の音声合成方法。
  6. 前記形状パラメータは、少なくともパワー、ホルマント帯域幅を含む、
    請求項1記載の音声合成方法。
  7. 前記パラメータ生成ステップは、前記選択された複数の音声素片のフレームの数が互いに異なるときは、前記フレームの数が一致するように対応付けする、
    請求項1記載の音声合成方法。
  8. 前記融合ステップは、前記対応付けしたホルマントパラメータに含まれるホルマント周波数の数が互いに異なるときは、前記ホルマント周波数の数が一致するように対応付けする、
    請求項1記載の音声合成方法。
  9. 前記融合ステップは、
    前記ホルマント周波数を対応付けするときは、前記ホルマントパラメータ間の各ホルマント周波数の類似度を推定し、
    前記類似度が任意の閾値より大きいときは、前記類似度が大きい前記ホルマント周波数同士を対応付けし、
    前記類似度が前記閾値より小さいときは、前記対応付けしたいホルマント周波数と、同一のホルマント周波数でパワーが0のホルマントを仮想ホルマントとして作成し、
    前記対応付けしたいホルマント周波数と前記仮想ホルマントのホルマント周波数を対応付ける、
    請求項8記載の音声合成方法。
  10. 前記融合音声素片生成ステップは、
    前記複数の音声素片のそれぞれの前記ホルマントパラメータに含まれるホルマント周波数、パワー、位相から正弦波をそれぞれ生成し、
    前記正弦波に窓関数をかけることによって前記複数の音声素片のそれぞれのホルマント波形を生成し、
    前記複数の音声素片のそれぞれのホルマント波形を加算して、前記フレーム毎のピッチ波形を生成し、
    前記各フレームのピッチ波形を重畳することで前記融合音声素片を生成する、
    請求項5記載の音声合成方法。
  11. 前記融合ステップにおいて、
    前記ホルマントパラメータに含まれるホルマント周波数の変化を平滑化する、
    請求項1記載の音声合成方法。
  12. 前記選択ステップは、
    前記合成音声を前記音声素片群を用いて生成したときに生ずる、前記合成音声の前記目標音声に対する歪みの度合いを推定し、
    前記歪み度合いが小さくなるように、前記複数のセグメントのそれぞれに対し前記複数の音声素片を選択する、
    請求項1記載の音声合成方法。
  13. 目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割部と、
    1つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択部と、
    前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成部と、
    前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合部と、
    前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成部と、
    前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成部と、
    を有する音声合成装置。
  14. 目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割機能と、
    1つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択機能と、
    前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成機能と、
    前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合機能と、
    前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成機能と、
    前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成機能と、
    をコンピュータによって実現する音声合成プログラム。
JP2007212809A 2007-08-17 2007-08-17 音声合成方法及びその装置 Expired - Fee Related JP4469883B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007212809A JP4469883B2 (ja) 2007-08-17 2007-08-17 音声合成方法及びその装置
US12/222,725 US8175881B2 (en) 2007-08-17 2008-08-14 Method and apparatus using fused formant parameters to generate synthesized speech
CNA2008102154865A CN101369423A (zh) 2007-08-17 2008-08-15 语音合成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007212809A JP4469883B2 (ja) 2007-08-17 2007-08-17 音声合成方法及びその装置

Publications (2)

Publication Number Publication Date
JP2009047837A true JP2009047837A (ja) 2009-03-05
JP4469883B2 JP4469883B2 (ja) 2010-06-02

Family

ID=40363649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007212809A Expired - Fee Related JP4469883B2 (ja) 2007-08-17 2007-08-17 音声合成方法及びその装置

Country Status (3)

Country Link
US (1) US8175881B2 (ja)
JP (1) JP4469883B2 (ja)
CN (1) CN101369423A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001457A1 (en) * 2010-06-28 2012-01-05 Kabushiki Kaisha Toshiba Method and apparatus for fusing voiced phoneme units in text-to-speech
CN113763931A (zh) * 2021-05-07 2021-12-07 腾讯科技(深圳)有限公司 波形特征提取方法、装置、计算机设备及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US9311929B2 (en) * 2009-12-01 2016-04-12 Eliza Corporation Digital processor based complex acoustic resonance digital speech analysis system
JP5320363B2 (ja) * 2010-03-26 2013-10-23 株式会社東芝 音声編集方法、装置及び音声合成方法
CN102184731A (zh) * 2011-05-12 2011-09-14 北京航空航天大学 一种韵律类和音质类参数相结合的情感语音转换方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
US9997154B2 (en) * 2014-05-12 2018-06-12 At&T Intellectual Property I, L.P. System and method for prosodically modified unit selection databases
JP6392012B2 (ja) * 2014-07-14 2018-09-19 株式会社東芝 音声合成辞書作成装置、音声合成装置、音声合成辞書作成方法及び音声合成辞書作成プログラム
EP3625791A4 (en) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
RU2692051C1 (ru) 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для синтеза речи из текста
KR102637341B1 (ko) * 2019-10-15 2024-02-16 삼성전자주식회사 음성 생성 방법 및 장치
CN110634490B (zh) * 2019-10-17 2022-03-11 广州国音智能科技有限公司 一种声纹鉴定方法、装置和设备
CN111564153B (zh) * 2020-04-02 2021-10-01 湖南声广科技有限公司 广播电台智能主播音乐节目系统
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备
CN113409762B (zh) * 2021-06-30 2024-05-07 平安科技(深圳)有限公司 情感语音合成方法、装置、设备及存储介质
CN113793591B (zh) * 2021-07-07 2024-05-31 科大讯飞股份有限公司 语音合成方法及相关装置和电子设备、存储介质
US20230335110A1 (en) * 2022-04-19 2023-10-19 Google Llc Key Frame Networks
CN116798405B (zh) * 2023-08-28 2023-10-24 世优(北京)科技有限公司 语音合成方法、装置、存储介质和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3828132A (en) * 1970-10-30 1974-08-06 Bell Telephone Labor Inc Speech synthesis by concatenation of formant encoded words
US4979216A (en) * 1989-02-17 1990-12-18 Malsheen Bathsheba J Text to speech synthesis system and method using context dependent vowel allophones
ATE277405T1 (de) * 1997-01-27 2004-10-15 Microsoft Corp Stimmumwandlung
US7251607B1 (en) 1999-07-06 2007-07-31 John Peter Veschi Dispute resolution method
JP3732793B2 (ja) 2001-03-26 2006-01-11 株式会社東芝 音声合成方法、音声合成装置及び記録媒体
US7251601B2 (en) 2001-03-26 2007-07-31 Kabushiki Kaisha Toshiba Speech synthesis method and speech synthesizer
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis
GB2392592B (en) * 2002-08-27 2004-07-07 20 20 Speech Ltd Speech synthesis apparatus and method
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001457A1 (en) * 2010-06-28 2012-01-05 Kabushiki Kaisha Toshiba Method and apparatus for fusing voiced phoneme units in text-to-speech
CN113763931A (zh) * 2021-05-07 2021-12-07 腾讯科技(深圳)有限公司 波形特征提取方法、装置、计算机设备及存储介质
CN113763931B (zh) * 2021-05-07 2023-06-16 腾讯科技(深圳)有限公司 波形特征提取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
US8175881B2 (en) 2012-05-08
US20090048844A1 (en) 2009-02-19
JP4469883B2 (ja) 2010-06-02
CN101369423A (zh) 2009-02-18

Similar Documents

Publication Publication Date Title
JP4469883B2 (ja) 音声合成方法及びその装置
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2010009034A (ja) 歌声合成パラメータデータ推定システム
JP2000172285A (ja) フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP5930738B2 (ja) 音声合成装置及び音声合成方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP2005004104A (ja) 規則音声合成装置及び規則音声合成方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4476855B2 (ja) 音声合成装置及びその方法
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3576792B2 (ja) 音声情報処理方法
WO2013014858A1 (ja) ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100301

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees