JP3588302B2 - 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 - Google Patents

連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 Download PDF

Info

Publication number
JP3588302B2
JP3588302B2 JP2000065106A JP2000065106A JP3588302B2 JP 3588302 B2 JP3588302 B2 JP 3588302B2 JP 2000065106 A JP2000065106 A JP 2000065106A JP 2000065106 A JP2000065106 A JP 2000065106A JP 3588302 B2 JP3588302 B2 JP 3588302B2
Authority
JP
Japan
Prior art keywords
unit
vowel
statistical model
state transition
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000065106A
Other languages
English (en)
Other versions
JP2000310997A (ja
Inventor
ニコラス・キブレ
スティーブ・ピアソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JP2000310997A publication Critical patent/JP2000310997A/ja
Application granted granted Critical
Publication of JP3588302B2 publication Critical patent/JP3588302B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Description

【0001】
【発明の属する技術分野】
本発明は、本発明は連結型(concatenative)音声を合成するシステムに関する。より詳しくは、本発明は、連結した音声単位(音声ユニット:speech unit)について適切なエッジ境界領域を識別するためのシステムおよび方法に関する。システムは、音声単位モデルを用いて設けられた音声単位データベースを利用する。
【0002】
【従来の技術】
連結型音声の合成は、今日、数多くの様々な形態で世の中に存在しており、それは、どのように連結音声単位が格納され、処理されるかに依存している。これらの形態は、時間領域波形表現や、(例えば、フォルマント線形予測コーディングLPC表現などの)周波数領域表現、またはこれらの組み合わせを含む。
【0003】
音声単位の形態にかかわらず、連結型音声の合成は、各単位(ユニット:unit)のエッジで適切な境界領域を識別することにより行われる。ここで、単位は滑らかに重複され、それにより語や句を含む新たな音声単位に合成される。連結型音声合成システムにおける音声単位は、典型的には2音(diphones)または半音節(demisyllables)である。この場合には、境界重複領域は音素内にある(phoneme−medial)。したがって、例えば、「tool」という語は、「tooth」および「fool」という語から導き出された単位「tu」および「ul」により組み立てられる。決定すべきは、どの程度の量のソース語が音声単位にセーブされるかであり、また一緒に置かれたときにどの程度重複するべきかである。
【0004】
連結型テキスト−音声(text−to−speech : TTS)システムに関する従来の研究では、重複領域を判定するのに多くの方法が利用されてきた。このようなシステムを設計するに際しては、3つの因子が考慮される。すなわち、
・シームレスな連結:音声単位の重複により、ある単位とテキストとの間は十分滑らかに遷移し、急激な変化は聞こえないようにすべきである。リスナーには、音声片から組み立てられた音声を聞いているとはわからないようする必要がある。
【0005】
・歪みのない遷移:音声単位の重複により、それ自身の歪みを生じてはならない。単位は、非重複音声との識別ができないように混在する必要がある。
【0006】
・最小のシステム負荷:音声合成部における計算に必要な要件および/または記憶容量の要件は、できるだけ小さくする必要がある。
【0007】
【発明が解決しようとする課題】
現在のシステムではこれらの3つの目標の間にはトレードオフが存在し、3つのすべてに関して最適なシステムは存在していない。現在のアプローチは、一般的に3つの目標のバランスをとった、2つの選択に基づいてグループ化できる。第1の選択は、短い重複領域を用いるか、長い重複領域を用いるかである。短い重複領域を用いると、単一の声門パルスと同じ程度に早くできる。一方、長い重複領域を用いると、全音素の大部分を含むことができる。第2の選択は、重複領域は前後関係が整合しているか、または変化してもよいかである。前者の場合には、各音声単位の対応する部分は、先行する単位および後続の単位がどのような単位であるかにかかわらず重複している。後者の場合には、その単位が用いられる度に、隣接する単位に依存して、用いられる部分が変化する。
【0008】
重複が長いと、単位間の遷移がよりシームレスになるという利点がある。その理由は、それらの間の微妙な相違が取り除かれる機会が多いからである。しかし、重複が長いと歪みを生じやすい。信号と異なり、混合すると歪みが生じる。
【0009】
重複が短いと、歪みを最小にできるという利点がある。重複を短くすると、重複部分を十分に一致させることが簡単かつ確実にできる。短い重複領域は、(動的変化状態とは異なり)ほぼその瞬間の状態の特徴を表すと考えられる。しかし重複を短くすると、重複が長いシステムで実現できるシームレスな連結が犠牲になる。
【0010】
重複が長い場合でシームレスが実現できることが望ましく、重複が短い場合に歪みを少なくできることが望ましいが、現在までのところ、これを達成できるシステムは存在しない。最新のシステムの中には、重複が長い場合の利点を保持しながら歪みを最小にするという目的で、可変重複領域を用いる実験が行われているものがある。しかし、このようなシステムは、計算負荷が高い処理に非常に大きく頼っているために、多くの用途には非実用的である。
【0011】
本発明の目的は、シームレスで、かつ歪みのない重複を与える音声単位の領域を識別する方法、および連結型音声を合成する方法を提供することである。
【0012】
【課題を解決するための手段】
本発明の連結型音声合成のための単位重複領域の識別方法は、音声の時変特性を表す統計モデルを画定するステップと、同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップとからなり、それにより上記目的が達成される。
【0013】
前記統計モデルは隠れマルコフモデルであってもよい。
【0014】
前記統計モデルはリカレントニューラルネットワークであってもよい。
【0015】
前記音声信号パラメータは音声フォルマントを含んでいてもよい。
【0016】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有していてもよい。
【0017】
統計モデルを学習する前記ステップは、埋め込み再評価により行われ、前記時系列データによって表される全データセットにわたって整列のために収束したモデルを生成してもよい。
【0018】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心軌線領域に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含んでいてもよい。
【0019】
本発明による連結型音声合成方法は、音声の時変特性を表す統計モデルを画定するステップと、同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップと、前記音声単位の各単位重複領域に基づいて、2つの異なる前記音声単位からの前記時系列データを重複させ、マージすることにより、新たな音声単位を連結して合成するステップとからなり、それにより上記目的が達成される。
【0020】
前記合成するステップを行う前に、前記単位重複領域の少なくとも1つの継続時間を選択的に変化させて、前記単位重複領域の他方の継続時間に一致させるステップをさらに含んでいてもよい。
【0021】
前記統計モデルは隠れマルコフモデルであってもよい。
【0022】
前記統計モデルはリカレントニューラルネットワークであってもよい。
【0023】
前記音声信号パラメータは音声フォルマントを含んでいてもよい。
【0024】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有していてもよい。
【0025】
統計モデルを学習する前記ステップは、埋め込み再評価により行われ、前記時系列データによって表される全データセットにわたって整列のために収束したモデルを生成してもよい。
【0026】
前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含んでいてもよい。
【0027】
本発明は統計的モデル化技術を利用することにより、音声単位内で中心軌跡領域を識別する。これらの領域は最適な重複境界を識別するのに用いられる。好ましい本実施の形態では、時系列データが、隠れマルコフモデルを用いて統計的にモデル化される。隠れマルコフモデルは、各音声単位の音素領域上に構築され、学習または埋め込み(embedded)再評価を経て整列(align)される。
【0028】
好ましい実施の形態では、各音声単位の最初と最後の音素は3要素からなると考えられる。すなわち中心の核をなす状態遷移部(中心軌跡:nuclear trajectory)、中心の核をなす状態遷移部に先行する遷移部および中心の核をなす状態遷移部に後続する遷移部である。モデル化プロセスはこれらの3要素を最適に識別し、それにより中心の核をなす状態遷移部は問題となる音素のすべてのインスタンスに対して、相対的な整合を維持する。
【0029】
識別された中心の核をなす状態遷移部を用いると、中心の核をなす状態遷移部の先頭境界および終端境界は重複領域を画定する。重複領域はその後、連結合成に用いられる。
【0030】
好ましい本実施の形態では、母音の中心の核をなす状態遷移部、中心の核をなす状態遷移部に先行する第1の遷移部、および中心の核をなす状態遷移部に後続する第2の遷移部を別個にモデル化するためのデータ構造を有する統計的モデルを利用する。データ構造は、音声単位データの一部分を破棄にするのに用いられる。音声単位データの一部分のデータは、連結プロセスの間には用いられない音声単位の部分に対応する。
【0031】
本発明には多数の利点および使用法が存在するが、本発明は、連結型音声合成システムに用いられる音声単位データベースの自動構築の基礎として用いることができる。自動化技術は、導き出された合成音声の品質を向上し、データベース収集プロセスにおける労力を大幅に削減することができる。
【0032】
音声信号パラメータは、同じ母音を含む、異なる音声単位に対応する時系列データから抽出される。抽出されたパラメータは、隠れマルコフモデルといった統計的モデルを学習するのに用いられる。統計的モデルは、母音の中心の核をなす状態遷移部と、その周りの遷移部とを別々にモデル化するデータ構造を有する。このモデルは、埋め込み再評価を経て学習され、中心の核をなす状態遷移部を識別する最適に整列されたモデルを決定する。中心の核をなす状態遷移部の境界は、後の音声単位との連結のために重複領域を定めるよう機能する。
【0033】
【発明の実施の形態】
本発明は、以下の添付の図面を参照して説明される。
【0034】
本発明により利用される技術をもっともよく理解するためには、連結合成の基本的な理解が必要である。図1は、例を通した連結合成プロセスを示す。この例では、異なる2つの語からの音声単位(この場合は音節)が連結され、第3の語を形成する。より具体的には、「suffice」および「tight」という語からの音声単位が組み合わされ、新たな「fight」という語が合成される。
【0035】
図1を参照して、「suffice」および「tight」という語からの時系列データが、好ましくは音節の境界で抽出され、音声単位10、12を規定する。この場合、音声単位10は14においてさらに細分割され、連結に必要な関連部分を分離する。
【0036】
その後、音声単位は16で整列され、それにより各部分18および20により規定される重複領域が作られる。整列後、時系列データがマージされ、新たな語22が合成される。
【0037】
本発明は特に、重複領域16と最適部分18、20に関連し、ある音声単位から別の音声単位までの遷移をシームレスで、かつ歪みがないようにする。
【0038】
本発明は、自動化された手順を経てこの最適な重複を実現する。この手順では、母音内で中心の核をなす(中心軌跡:nuclear trajectory)領域が探し出される(なお、「中心軌跡」の「軌跡」とは、本明細書において、目標周波数に向かって変化する概念を表すのに用いられる)。ここで母音内で「中心の核をなす」領域とは、母音の中心にある、安定した領域をいう。音声波形は、それを構成するフォーマット周波数によって表すことができる。これらの周波数は、ある音節が次の音節に融和して発音されると一定の変化を生じる。伝統的には、発声は、安定した目標周波数に向かって変化するこれらのフォーマット周波数を利用して、典型的には母音を利用してなされている。このとき周波数の波形は、直ちにより安定した波形になる。本明細書で母音内で「中心の核をなす」とは、母音によって占められる、中心にある安定した領域をいう。音声信号は、動的ではあるが同じ音素の異なる例に対しては相対的に変化がない動的パターンに続く。母音の境界領域は、隣接する子音によって影響を受けるが、中心にある安定した領域は強く影響を受けない。
【0039】
これらの最適な重複領域を改良するための手順が、図2に示される。まず、音声単位のデータベース30が提供されている。データベース30は時系列データを含んでおり、時系列データは、連結合成システムを構成する異なる音声単位に対応する。好ましい本実施の形態では、音声単位は発声された語の例の中から抽出される。発声された語の例は、後に音節境界でさらに分割される。図2では、図解的に音声単位32,34が描かれている。音声単位32は「tight」という語から抽出され、音声単位34は「suffice」という語から抽出されている。
【0040】
データベース30に格納されている時系列データはまず、36においてパラメータ化される。概して、音声単位は任意の方法論を用いてパラメータ化できる。好ましい本実施の形態では、各音声単位内で音素領域をフォルマント解析してパラメータ化を行う。フォルマント解析は、必然的に音声フォルマント周波数の抽出を伴う。本実施の形態ではフォルマント周波数F1、F2およびF3が抽出される。必要であれば、RMS信号レベルもまたパラメータ化できる。
【0041】
現在のところはフォルマント解析が好ましいが、パラメータ化の他の形態もまた利用できる。例えば、音声の特徴抽出は線形予測コーディング(Linear Predictive Coding:LPC)などの手順を用いて行い、適切な特徴パラメータを識別し、抽出できる。
【0042】
適切なパラメータが抽出され、各音声単位の音素領域が表されると、38で示されるようにモデルが構築され、各単位の音素領域が表される。好ましい本実施の形態はこの目的のために隠れマルコフモデルを用いる。しかし、概して時変または動的挙動を表す、適切な任意の統計的モデルを用いることができる。例えば、リカレントニューラルネットワークモデルを利用できる。
【0043】
好ましい本実施の形態は、音素領域を3つの異なる中間領域に分割してモデル化する。これらの領域は40で示されており、中心の核をなす状態遷移部(中心の核をなす領域)42と、中心の核をなす状態遷移部42に先行する状態遷移部(先行状態遷移領域)44と、中心の核をなす状態遷移部42に後続する状態遷移部(後続状態遷移領域)46とを含む。好ましい実施の形態では、これらの3領域の各々について別々の隠れマルコフモデルを用いる。先行および後続の状態遷移部44、46には、3状態モデルが用いられる。一方、中心の核をなす状態遷移部42には4または5状態モデルが用いられる。図2には5状態モデルが示されている。より大きな状態数を中心の核をなす状態遷移部42に用いると、後の手順は、整合のある非ヌル中心軌線に収束する。
【0044】
まず、音声モデル40が平均的な初期値で設けられる。その後、48で示されたこれらのモデルに関して、埋め込み(embedded)再評価が行われる。再評価とは、実質的には学習プロセスを継続することである。学習プロセスによりモデルは最適化されて、時系列データ内でもっともよい繰り返しシーケンスを表す。繰り返しシーケンスとは、母音内で中心にある安定した領域に関連する時系列データが呈する、より規則的な反復パターンのシーケンスをいう。これは、音声データが時系列データとして表されたときに、子音に対応する音声部分が規則性をもって反復しない非常に無秩序なパターンを呈しやすいこととは対照的である。したがって、母音が発生される度に繰り返して生じやすい時系列データ内のパターンは、母音領域内で識別できる。時系列データの繰り返しシーケンスは、識別されて所与の母音に対応する発声部分の識別手段として用いられる。例えば、音節「ya」の終端における母音音声は、音節「a」の統計的パターンと非常に関連のある統計的パターンを呈する。同じ統計的パターンは、例えば、音節「ka」、「ma」、「ha」内の安定領域において見出すことができる。対照的に、安定的な母音領域に先行する音節部分では、統計的な関連がない場合が多く、したがって識別可能な繰り返しパターンも存在しない。さらなる例示のために、時系列データが統計モデルを学習するのに用いられ、各モデルがパラメータの組を規定すると仮定する。モデルを学習させた後、母音音声「a」はパラメータ番号のシーケンス:4−5−3.1−6に対応する。母音が存在するたびに同一の番号のパターンが発生しているとすると、そのパターンは、その母音が存在することを示すのに信頼性高く利用できる繰り返しシーケンスを構成する。本発明では、子音、または安定的な母音に融和する音声などの他の音声は、非常に繰り返しのあるシーケンスを生成することが統計的に存在しないと判断する。したがって、発せられた音声内に安定した母音領域があることを検出する手段として、非常によく反復するシーケンス(繰り返しシーケンス)を見つけ出す。
【0045】
中心の核をなす状態遷移部42、先行および後続の状態遷移部44,46は、データベース30を介して供給される現実のデータに基づいて、学習プロセスにより各音素領域に整合するモデルが構築されるよう設計される。この点に関して、中心の核をなす部分42は母音の核心を表し、先行および後続の状態遷移部44,46は、現在の音素および現在の音素に先行するおよび後続する音声に固有の母音の相を表す。例えば、「tight」という語から抽出された音声単位32では、先行する遷移部は、前にある子音字「t」により母音「ay」の音声に与えられた音調(coloration)を表す。
【0046】
整合プロセスは本来、最適な整列モデルに収束する。どのようしてそのようになるのかを理解するために、音声単位30のデータベースが、少なくとも2つ、好ましくは多数の各母音の音声の例を含むとする。例えば図2には、「tight」および「suffice」の双方に見受けられる母音の音声「ay」が、音声単位32、34により表されている。埋め込み再評価プロセスまたは学習プロセスは、音声「ay」のこのような複数のインスタンスを用いて初期音声モデル40の学習を行い、それにより最適に整列された音声モデル50を生成する。音声「ay」の例のすべてにわたって整合のある時系列データの部分は、中核、または中心の核をなす領域を表す。50で図示されるように、システムは、先行および後続の状態遷移部を別々に学習する。これらは、母音に先行するおよび後続する音声に依存して当然に異なっている。
【0047】
一旦モデルが学習され、最適に整列されたモデルを生成すると、中心の核をなす領域42の両側の境界が確定し、連結合成のための重複領域の位置が決定される。そのため、ステップ52では最適に整列されたモデルが重複境界を決定するのに用いられる。図2は、重複境界AおよびBを示す。重複境界AおよびBは、「suffice」および「tight」という語から導かれた音声単位に対するフォルマント周波数データに重ね合わされている。
【0048】
パラメータデータ(この場合はフォルマント周波数データ)で識別された重複境界により、システムはステップ54において時系列データを分類して時系列データ内の重複境界を定める。必要であれば、分類されたデータは連結型音声合成について後に使用するために、データベース30に格納してもよい。
【0049】
図示の関係上、オーバレイテンプレート56として模式的に示されている重複境界領域が、「suffice」という語の時系列データの模式的表現に重ね合わされて示されている。具体的には、テンプレート56は、後半の音節「...fice」内で括弧58によって示すように整列されている。この音声単位が連結音声に用いられると、先行領域62は破棄され、境界AおよびBにより定められている中心の核をなす領域64は、クロスフェード領域または連結領域として働く。
【0050】
ある実施形態では、連結合成を行うために、重複領域の継続時間を調整する必要がある。このプロセスが図3に示される。入力テキスト70が解析され、ステップ72に示されるようにデータベース30から適切な音声単位が選択される。例えば、「fight」という語が入力テキストとして与えられると、システムは「tight」および「suffice」という語から抽出した、あらかじめ格納してある音声単位を選択する。
【0051】
各音声単位の中心の核をなす領域は必ずしも同じ時間にわたっている必要はない。そのためステップ74では、各中心の核をなす領域の継続時間が伸張または短縮され、それにより継続時間を一致させる。図3では、中心の核をなす領域64aが領域64bに伸張される。音声単位Bも同様に変更される。図3は中心の核をなす領域64cが領域64dに圧縮され、それにより2つの単位の各領域が同じ継続時間を持つことになる。
【0052】
一旦継続時間が調整されて一致すると、ステップ76において、音声単位からのデータがマージされて、78で示される新しく連結された単語を形成する。
【0053】
【発明の効果】
これまでの説明によれば、本発明は連結型音声合成システムに用いられる音声単位データベースを構築する自動化手段を提供することが理解される。中心の核をなす領域を分離することによって、このシステムは、シームレスで、かつ歪みのない重複を与える。有利なのは、重複領域は共通の固定サイズに伸張または圧縮され、連結プロセスを簡単化できることである。統計的モデル化プロセスを用いることで、中心の核をなす領域は音声信号の1部分を表すことができる。ここでは、音響学上の音声特性は、同じ音素の異なる例に対しては相対的に変化がない動的パターンを生じる結果となる。変化がないことにより、シームレスで、かつ歪みのない遷移が可能になる。
【0054】
本発明の原理により生成された音声単位は、コンピュータ処理システムにかける負担を最小にして、後の抽出および連結に用いるデータベースに容易に格納できる。したがって、このシステムは、処理能力が制限されている合成音声に関する製品および応用の開発には理想的といえる。さらに、音声単位を生成する自動化プロセスは、目的が特化された音声単位データベースを構築するのに必要な時間と労力を大幅に減少させる。例えば音声単位を生成する自動化プロセスは、専門的なボキャブラリに対して、または多言語音声合成システムの開発に対して必要とされるであろう。
【0055】
現時点での好ましい形態で本発明を説明してきたが、当業者であれば、特許請求の範囲に記載された本発明の精神から逸脱することなく本システムを修正できる。
【図面の簡単な説明】
【図1】連結型音声を合成する技術の理解に有用なブロック図である。
【図2】本発明による、音声単位が構築される手順を示すフローチャートである。
【図3】本発明の音声単位データベースを用いた、連結型音声を合成するプロセスを示すブロック図である。
【符号の説明】
40 音声モデル
42 中心の核をなす状態遷移部
44 先行状態遷移部
46 後続状態遷移部
50 音声モデル
56 オーバレイテンプレート
62 先行領域
64 中心の核をなす領域

Claims (13)

  1. 音声の時変特性を表す統計モデルを画定するステップと、
    同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、
    前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、
    学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、
    前記繰り返しシーケンスを用いて、前記音声単位の少なくとも1つに対する連結型音声合成のための単位重複領域を定めるステップとを含み、前記単位重複領域は、前記繰り返しシーケンスの直前の時系列データ又は直後の時系列データであることを特徴とする、連結型音声合成のための単位重複領域の識別方法。
  2. 前記統計モデルは隠れマルコフモデルである、請求項1に記載の方法。
  3. 前記統計モデルはリカレントニューラルネットワークである、請求項1に記載の方法。
  4. 前記音声信号パラメータは音声フォルマントを含む、請求項1に記載の方法。
  5. 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有する、請求項1に記載の方法。
  6. 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、
    前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含む、請求項1に記載の方法。
  7. 音声の時変特性を表す統計モデルを画定するステップと、
    同じ母音を含む異なる音声単位に対応する複数の時系列データを提供するステップと、
    前記時系列データから音声信号パラメータを抽出し、前記音声信号パラメータを用いて前記統計モデルを学習するステップと、
    学習させた前記統計モデルを用いて前記時系列データ内の繰り返しシーケンスを識別し、前記繰り返しシーケンスを前記母音の中心の核をなす状態遷移部と関連付けるステップと、
    前記繰り返しシーケンスを用いて、連結型音声合成のための単位重複領域を定めるステップとを含み、前記単位重複領域は、前記繰り返しシーケンスの直前の時系列データ又は直後の時系列データであり
    前記音声単位の各単位重複領域に基づいて、2つの異なる前記音声単位からの前記時系列データを重複させ、マージすることにより、新たな音声単位を連結して合成するステップとを含むことを特徴とする、連結型音声合成方法。
  8. 前記合成するステップを行う前に、前記単位重複領域の少なくとも1つの継続時間を選択的に変化させて、前記単位重複領域の他方の継続時間に一致させるステップをさらに含む、請求項に記載の方法。
  9. 前記統計モデルは隠れマルコフモデルである、請求項に記載の方法。
  10. 前記統計モデルはリカレントニューラルネットワークである、請求項に記載の方法。
  11. 前記音声信号パラメータは音声フォルマントを含む、請求項に記載の方法。
  12. 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部の周囲の遷移部とを別々にモデル化するデータ構造を有する、請求項に記載の方法。
  13. 前記統計モデルは、前記母音の中心の核をなす状態遷移部と、前記中心の核をなす状態遷移部に先行する第1の遷移部と、前記中心の核をなす状態遷移部に後続する第2の遷移部とを別々にモデル化するデータ構造を有し、
    前記データ構造を用いて、前記第1の遷移部および前記第2の遷移部の1つに対応する前記時系列データの1部分を破棄するステップを含む、請求項に記載の方法。
JP2000065106A 1999-03-09 2000-03-09 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法 Expired - Fee Related JP3588302B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/264,981 US6202049B1 (en) 1999-03-09 1999-03-09 Identification of unit overlap regions for concatenative speech synthesis system
US09/264981 1999-03-09

Publications (2)

Publication Number Publication Date
JP2000310997A JP2000310997A (ja) 2000-11-07
JP3588302B2 true JP3588302B2 (ja) 2004-11-10

Family

ID=23008465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000065106A Expired - Fee Related JP3588302B2 (ja) 1999-03-09 2000-03-09 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法

Country Status (7)

Country Link
US (1) US6202049B1 (ja)
EP (1) EP1035537B1 (ja)
JP (1) JP3588302B2 (ja)
CN (1) CN1158641C (ja)
DE (1) DE60004420T2 (ja)
ES (1) ES2204455T3 (ja)
TW (1) TW466470B (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369994B1 (en) 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001034282A (ja) * 1999-07-21 2001-02-09 Konami Co Ltd 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
US7266497B2 (en) 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
EP1860646A3 (en) * 2002-03-29 2008-09-03 AT&T Corp. Automatic segmentaion in speech synthesis
ATE318440T1 (de) * 2002-09-17 2006-03-15 Koninkl Philips Electronics Nv Sprachsynthese durch verkettung von sprachsignalformen
US7280967B2 (en) * 2003-07-30 2007-10-09 International Business Machines Corporation Method for detecting misaligned phonetic units for a concatenative text-to-speech voice
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US20070219799A1 (en) * 2005-12-30 2007-09-20 Inci Ozkaragoz Text to speech synthesis system using syllables as concatenative units
US9053753B2 (en) * 2006-11-09 2015-06-09 Broadcom Corporation Method and system for a flexible multiplexer and mixer
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN102047321A (zh) * 2008-05-30 2011-05-04 诺基亚公司 用于提供改进的语音合成的方法、设备和计算机程序产品
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
JP5699496B2 (ja) * 2010-09-06 2015-04-08 ヤマハ株式会社 音合成用確率モデル生成装置、特徴量軌跡生成装置およびプログラム
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533222B2 (en) * 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8533224B2 (en) 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
JP5888013B2 (ja) 2012-01-25 2016-03-16 富士通株式会社 ニューラルネットワーク設計方法、プログラム及びデジタルアナログフィッティング方法
JP6524674B2 (ja) * 2015-01-22 2019-06-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN113268186A (zh) * 2015-05-28 2021-08-17 三菱电机株式会社 输入显示装置和显示方法
CN106611604B (zh) * 2015-10-23 2020-04-14 中国科学院声学研究所 一种基于深度神经网络的自动语音叠音检测方法
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
KR102151682B1 (ko) 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
EP3436989A4 (en) 2016-03-31 2019-11-20 Maluuba Inc. METHOD AND SYSTEM FOR PROCESSING AN INQUIRY INQUIRY
WO2019221985A1 (en) 2018-05-14 2019-11-21 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
WO2019231624A2 (en) * 2018-05-30 2019-12-05 Quantum-Si Incorporated Methods and apparatus for multi-modal prediction using a trained statistical model

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5490234A (en) * 1993-01-21 1996-02-06 Apple Computer, Inc. Waveform blending technique for text-to-speech system
US5751907A (en) 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis

Also Published As

Publication number Publication date
EP1035537B1 (en) 2003-08-13
US6202049B1 (en) 2001-03-13
CN1266257A (zh) 2000-09-13
EP1035537A2 (en) 2000-09-13
EP1035537A3 (en) 2002-04-17
JP2000310997A (ja) 2000-11-07
TW466470B (en) 2001-12-01
DE60004420D1 (de) 2003-09-18
DE60004420T2 (de) 2004-06-09
CN1158641C (zh) 2004-07-21
ES2204455T3 (es) 2004-05-01

Similar Documents

Publication Publication Date Title
JP3588302B2 (ja) 連結型音声合成のための単位重複領域の識別方法および連結型音声合成方法
US6144939A (en) Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains
EP1643486B1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
EP2140447B1 (en) System and method for hybrid speech synthesis
Huang et al. Recent improvements on Microsoft's trainable text-to-speech system-Whistler
JP3667950B2 (ja) ピッチパターン生成方法
JPH031200A (ja) 規則型音声合成装置
CN111223474A (zh) 一种基于多神经网络的语音克隆方法和系统
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
JPH08335096A (ja) テキスト音声合成装置
EP1589524B1 (en) Method and device for speech synthesis
JP2008058379A (ja) 音声合成システム及びフィルタ装置
EP1640968A1 (en) Method and device for speech synthesis
JP2577372B2 (ja) 音声合成装置および方法
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
Juergen Text-to-Speech (TTS) Synthesis
EP1638080B1 (en) A text-to-speech system and method
JPH11327594A (ja) 音声合成辞書作成システム
JPH09244680A (ja) 韻律制御装置及び方法
Lutfi et al. Adding Emotions to Malay Synthesized Speech Using Diphone-based templates
SAMSUDIN et al. Adjacency analysis for unit selection speech model using MOMEL/INTSINT
SARANYA DEVELOPMENT OF BILINGUAL TTS USING FESTVOX FRAMEWORK
STAN TEZA DE DOCTORAT

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040812

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070820

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080820

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090820

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees