JP6614745B2 - 提供されたテキストの音声合成のためのシステム及び方法 - Google Patents

提供されたテキストの音声合成のためのシステム及び方法 Download PDF

Info

Publication number
JP6614745B2
JP6614745B2 JP2016542126A JP2016542126A JP6614745B2 JP 6614745 B2 JP6614745 B2 JP 6614745B2 JP 2016542126 A JP2016542126 A JP 2016542126A JP 2016542126 A JP2016542126 A JP 2016542126A JP 6614745 B2 JP6614745 B2 JP 6614745B2
Authority
JP
Japan
Prior art keywords
parameter
parameters
frame
speech
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016542126A
Other languages
English (en)
Other versions
JP2017502349A (ja
Inventor
タン,インギ
ガナパシラジュ,アルビンド
ワイス,フェリックス,イマニュエル
Original Assignee
インタラクティブ・インテリジェンス・グループ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・グループ・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・グループ・インコーポレイテッド
Publication of JP2017502349A publication Critical patent/JP2017502349A/ja
Application granted granted Critical
Publication of JP6614745B2 publication Critical patent/JP6614745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、概して音声合成並びに通信システムと方法に関する。より詳細には、本発明は、パラメータ生成を使用し、提供されたテキストから音声を合成することに関する。
提供されたテキストの音声合成のためのシステムと方法が示される。特に、システム内でのパラメータ生成は、パラメータのストリームの段階的近似ではなく音声の自然な流れを真似するために連続近似として実行される。提供されたテキストは、分割されることができ、パラメータは、音声モデルを使用して生成されることができる。音声モデルから生成されたパラメータは、音声合成に適用する新たなパラメータのセットを得るために後処理段階においてさらに使用される。
ある実施形態において、提供されたテキストのためのコンテキストラベルを生成する手段と、音声モデルを使用して、前記提供されたテキストために生成された前記コンテキストラベルのためのパラメータのセットを生成する手段と、分散スケーリングが可能である、前記生成されたパラメータのセットの処理手段と、音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストのための音声合成手段とを含む、提供されたテキストの音声合成のためのシステムが示される。
別の実施形態において、提供されたテキストをフレーズのシーケンスに分割するステップと、音声モデルを使用して前記フレーズのシーケンスのためのパラメータを生成するステップと、提供されたテキストのための音声合成に使用可能である別のパラメータのセットを得るために、前記生成されたパラメータを処理するステップとを含む、連続的な特徴ストリームを使用する、音声合成に使用するための提供されたテキストのためのパラメータ生成方法が示される。
音声合成のシステムの実施形態を示す図である。
音声合成システムの変更実施形態を示す図である。
パラメータ生成の実施形態を示すフローチャートである。
パラメータ生成の実施形態を示す図である。
f0パラメータ生成処理の実施形態を示すフローチャートである。
MCEPs生成処理の実施形態を示すフローチャートである。
本発明の原理を理解するのを促す目的で、図面に表されている実施形態を参照し、具体的な用語を使用してそれらの実施形態を説明する。それにもかかわらず、本発明の範囲の限定はそれによって意図されていないことが理解されよう。説明されている実施形態における任意の変更およびさらなる修正、ならびに本明細書に記載されている本発明の原理の任意のさらなる応用は、本発明が関連する技術分野における当業者に一般的に想起されるように企図されている。
従来のテキスト読み上げ(TTS)システムにおいて、文字言語若しくはテキストは、自動的に言語規格に変換されることができる。言語規格は、音声波形を生成するために音声コーパスの保存形式または音声コーパスのモデルに指標をつける。統計的パラメトリック音声システムは、いかなる音声もそのものは保存せず、かわりに音声モデルを保存する。音声コーパスのモデルと言語分析の出力結果とは、出力音声の合成に使用されるパラメータのセットを評価するために使用されることができる。音声コーパスのモデルは、音声パラメータが適合する確率関数の平均と共分散を含む。検索モデルは、音声シグナルを表すために、基本周波数(f0)およびメルケプストラム(MCEPs)などのスペクトルパラメータを生成することができる。しかし、これらのパラメータは、固定フレームレートのためであり、ステートマシンから得られる。パラメータのストリームの段階的近似は、音声の自然な流れの真似ではない結果を生む。自然な音声は、連続的であり段階的ではない。ある実施形態において、音声の自然な流れを真似するために、モデルの段階的近似を連続的なストリームへと変換するシステムと方法が開示される。
図1は、100として全体が示されている音声合成のための従来のシステムのある実施形態を表す図である。音声合成システムの基本構成要素は、音声コーパス106、言語規格107、パラメータ化モジュール108を含むことができる訓練モジュール105と、テキスト111、コンテキストラベル112、統計的パラメータモデル113、音声合成モジュール114を含むことができる合成モジュール110とを含むことができる。
訓練モジュール105は、統計的パラメータモデル113を訓練するために使用することができる。訓練モジュール105は、音声コーパス106、言語規格107、パラメータ化モジュール108を含むことができる。音声コーパス106は、言語規格107に変換されることができる。音声コーパスは、言語のボキャブラリーを成立させる音節と単語の文脈における言語において生成される音声を扱うために選択された文字言語またはテキストを含むことができる。言語規格107は、音声コーパスのモデルの保存形式または音声波形を生成するための音声コーパスのモデルに指標をつける。音声そのものは保存されないが、音声のモデルは保存される。モデルは、音声パラメータが適合する確率関数の平均と共分散を含む。
合成モジュール110は、音声モデルを保存し音声を生成することができる。合成モジュール110は、テキスト111、コンテキストラベル112、統計的パラメータモデル113、音声合成モジュール114を含むことができる。コンテキストラベル112は、様々な粒度をもつことができるテキスト111内のコンテキスト情報を表し、たとえば、サラウンディングサウンド、サラウンディング単語、サラウンディングフレーズなどに関する情報を表す。コンテキストラベル112は、言語モデルから提供されたテキストのために生成されることができる。統計的パラメータモデル113は、音声パラメータが適合する確率関数の平均と共分散を含むことができる。
音声合成モジュール114は、テキスト111の音声パラメータを受信し、当該パラメータを合成音声へと変換する。これは、スペクトル情報を時間領域信号に変換するためのメル対数スペクトル近似(MLSA)フィルタなどの標準的な方法を使用してなされることができる。
図2は、200として全体が示されているパラメータ生成を使用した音声合成システムのある変更実施形態を表す図である。システムの基本構成要素は、図1の基本構成要素と類似した構成要素にパラメータ生成モジュール205を加えた基本構成要素を含むことができる。統計的パラメトリック音声合成システムにおいて、音声信号は、固定フレームレートにおけるパラメータのセットとして表される。パラメータ生成モジュール205は、統計的パラメータモデル113からオーディオ信号を受信し、変換する。ある実施形態において、時間領域内のオーディオ信号は、より効率的な処理のためにスペクトル領域などの他の領域へと数学的に変換されている。スペクトル情報は、さらに音声信号を表すためにf0およびMCEPsなどの周波数係数形式で保存される。パラメータ生成は、入力として指標をつけられた音声モデルと、出力として指標をつけられたスペクトルパラメータを有しているようなものである。ある実施形態において、隠れマルコフモデル(HMM)技術が使用される。モデル113は、スタティック係数とも呼ばれるパラメータの統計分布だけでなく、それらの変化率も含む。変化率は、デルタ係数と呼ばれる一次導関数と、デルタデルタ係数とされる二次導関数とを有するものとして説明されることができる。3つのタイプのパラメータは、モデルの単一の観測ベクトル中に共にスタックされている。パラメータ生成処理は、下記により詳細に示される。
従来のパラメータの統計モデルにおいては、パラメータの平均と分散のみ考慮されている。平均パラメータは、パラメータ生成の各状態のために使用される。これは、自然な音声作用に反して各状態の遷移時において値が突然変化する区分的定数パラメータの軌跡を生成する。さらに、スタティック係数の統計的特性だけが考慮され、パラメータの値の変化速度は考慮されない。したがって、図2に表された変更実施形態のように、一次導関数と二次導関数の統計的特性が考慮されなければならない。
最尤パラメータ生成(MLPG)は、スタティック係数と導関数の統計的特性を考慮した方法である。しかし、この方法はシーケンスの長さを増加させる多大な計算量を有するため、リアルタイムシステムにおける実施は実際的ではない。テキストメッセージ全体ではなく言語セグメントに基づいたパラメータを生成するより効率的な方法が下記に示されている。言語セグメントは、TTSシステム中のコンテキストラベル「休止(pause)」によって区切ることができる任意の単語群または文章群を指すこともある。
図3は、300として全体が示されているパラメータの軌跡を生成するある実施形態を表すフローチャートである。パラメータの軌跡はテキストメッセージ全体のかわりに言語セグメントに基づいて生成される。パラメータ生成の前に、統計的パラメ―タモデル113に示される継続性モデルを使用して状態シーケンスが選択されることができる。これは、統計的パラメータモデル中の各状態から生成されるフレームの数を決定する。パラメータ生成モジュールによって仮定されるように、パラメータは同一の状態においては変化しない。この軌跡が結果として音声信号の質を低下させることになる。しかし、デルタパラメータとデルタデルタパラメータからの情報を使用してより平滑な軌跡を積算すると、音声合成出力はより自然でより明瞭である。
動作305において、状態シーケンスが選択される。たとえば、状態シーケンスは、モデル113の各状態から生成されるフレームの数を決定する統計的パラメータモデル113を使用して、選択されることができる。制御は動作310に移され、処理300は継続する。
動作310において、セグメントが分割される。ある実施形態において、セグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。制御は、動作315a、315bのうち少なくとも1つに移され、処理300は継続する。
動作315aおよび動作315bにおいて、スペクトルパラメータが生成される。スペクトルパラメータは音声シグナルを表し、基本周波数315a、MCEPs、315bのうち少なくとも1つを含む。これらの処理は、下記の図5と図6とにおいて、より詳細に示される。制御は動作320に移され、処理300は継続する。
動作320において、パラメータの軌跡が作成される。たとえば、パラメータの軌跡は、時間領域に沿った全ての状態にわたって各パラメータのストリームを連結することによって、作成されることができる。実際には、パラメータモデルの各次元は軌跡をもつ。そのような1つの次元のパラメータの軌跡作成の実例が図4に全体的に提供される。図4(KING,Simon(2010年6月24日) A beginners’ guide to statistical parametric speech synthesis: The Centre for Speech Technology Research, University of Edinburgh, UK 、pp.9)は、平滑にされたMLPGからの軌跡の一般化された実施形態である。
図5は、500として全体が示されている基本周波数パラメータ生成のための処理のある実施形態を表すフローチャートである。処理は、入力テキストが言語セグメントに分割された後にパラメータ生成モジュール205(図2)中に発生することがある。パラメータはセグメントごとに予測される。
動作505において、フレームがインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、i=1が第一フレームを表し、i=2が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームをインクリメントについて、「i」の値は望ましい間隔で増加される。ある実施形態において、「i」の値は各回に1ずつ増加されることができる。制御は動作510に移され、処理500は継続する。
動作510において、言語セグメントが信号中に存在するか否かが判定される。言語セグメントが存在すると判定された場合、制御は動作515に移され、処理500は継続する。言語セグメントが存在しないと判定された場合、制御は動作525に移され、処理500は継続する。
動作510における判定は、任意の適切な基準に基づいて行われることができる。ある実施形態において、言語セグメントのセグメント分割は、休止モデルに包含された状態のシーケンスとして定められる。
動作515において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの変動を調整するために使用されてもよい。f0軌跡は、パラメータ生成におけるスタティック係数とデルタ係数の平均を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向にあってもよい。分散スケーリングは、合成された信号がより鮮明に聞こえるように、f0軌跡のダイナミックレンジを拡大することができる。制御は動作520に移され、処理500は継続する。
動作520において、ログ領域から線形周波数領域への変換が基本周波数において実行され、処理500は終了する。
動作525において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作530に移され、処理500は継続する。音声化が開始したと判定された場合、制御は動作535に移され、処理500は継続する。
動作520における判定は、任意の適切な基準に基づくことができる。ある実施形態において、f0モデルがf0の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、f0モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。
動作530において、フレームは音声化されていないと判定されている。f0(i)=0のように当該フレームのスペクトルパラメータは0である。制御は動作505に戻され、処理500は継続する。
動作535において、フレームは音声化されていると判定されており、第一フレームにおいて音声化されているか否かがさらに判定される。音声化が第一フレームにおいてなされていると判定された場合、制御は動作540に移され、処理500は継続する。音声化が第一フレームにおいてなされていないと判定された場合、制御は動作545に移され、処理500は継続する。
動作535における判定は、任意の適切な基準に基づくことができる。ある実施形態においては、判定は予測されたf0値に基づいており、別の実施形態においては、判定は音声化予測のための特定モデルに基づいている可能性がある。
動作540において、第一フレームのスペクトルパラメータは、f0(i)=f0_mean(i)というセグメントの平均である。制御は動作505に戻され、処理500は継続する。
動作545において、デルタ値が調整される必要があるか否かが判定される。デルタ値は調整が必要であると判定された場合、制御は動作550に移され、処理500は継続する。デルタ値は調整が必要でないと判定された場合、制御は動作555に移され、処理500は継続する。
動作545における判定は、任意の適切な基準に基づくことができる。たとえば、各フレームにおけるパラメータの望ましい水準への変更を制御するために調整が必要であることがある。
動作550において、デルタがクランプされる。f0_deltaMean(i)は、クランプ後にf0_new_deltaMean(i)として示されることができる。クランプされなかった場合、f0_new_deltaMean(i)はf0_deltaMean(i)に等しい。デルタをクランプする目的は、各フレームにおけるパラメータの望ましい水準への変更を確実に制御することである。変更が大きすぎる場合、いくつかのフレームに渡って変更が持続した場合、パラメータの軌跡は、望ましい自然な音声の範囲内に入らない。制御は動作555に移され、処理500は継続する。
動作555において、現行のパラメータの値は、f0(i)=f0(i−1)+f0_new_deltaMean(i)という予測値にパラメータのデルタ値を足した値に更新される。これは、モデルごとの軌跡のランプアップまたはランプダウンを促進する。次に、制御は動作560に移され、処理500は継続する。
動作560において、音声が終了されたか否かが判定される。音声が終了されていないと判定された場合、制御は動作505に移され、処理500は継続する。音声が終了されたと判定された場合、制御は動作565に移され、処理500は継続する。
動作560における判定は、任意の適切な基準に基づくことができる。ある実施形態において、連続フレームの数のf0値がゼロとなることは、音声が終了されたことを示すことができる。
動作565において、平均値の移行が行われる。たとえば、全ての有声フレーム、または音声化されたセグメントがひとたび終了されると、音声セグメントの平均値は望ましい値に調整されることができる。平均値の調整は、パラメータの軌跡を望ましい自然な音声の範囲に移行することもできる。制御は動作570に移され、処理500は継続する。
動作570において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡は、ある箇所で突然変化した可能性があり、これにより、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、f0軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作505に戻され、処理500は継続する。処理は、任意の必要な回数継続的に繰り返すことができる。各フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントが終了するまで処理されることができる。言語セグメントの分散は、全体的な分散に基づいて調整されることができる。スタティック係数とデルタ係数の平均値がパラメータ生成に使用されるため、パラメータの軌跡は、自然な音声と比較するとより小さいダイナミックレンジを有してもよい。分散スケーリング法は、合成されたシグナルがくぐもった音にならないよう、パラメータの軌跡のダイナミックレンジを拡大するために使用されることができる。次に、スペクトルパラメータはログ領域から線状領域へと変換されることができる。
図6は、600として全体が示されているMCEPs生成の実施形態を示すフローチャートである。処理は、パラメータ生成モジュール205(図2)において行われることがある。
動作605において、出力パラメータ値が初期化される。ある実施形態において、出力パラメータ値は以前のフレームにて生成されたパラメータに依存しているため、出力パラメータは時間i=0のときに初期化されることができる。したがって、初期mcep(0)=mcep_mean(1)である。制御は動作610に移され、処理600は継続する。
動作610において、フレームはインクリメントされる。たとえば、フレームは、いくつかの音声化されたセグメントを含むことができる言語セグメントに対して、検査されることができる。パラメータのストリームは、i=1が第一フレームを表し、i=2が第二フレームを表すなどのように、フレームユニットに基づくことができる。フレームのインクリメントについて、「i」の値は望ましい間隔で増加される。ある実施形態において、「i」の値は各回に1ずつ増加されることができる。制御は動作615に移され、処理600は継続する。
動作615において、セグメントが終了されたか否かが判定される。セグメントが終了されたと判定された場合は、制御は動作620に移され、処理600は継続する。セグメントが終了されていないと判定された場合は、制御は動作630に移され、処理は継続する。
動作615における判定は、言語モジュールからの情報及び休止の存在を使用して行われる。
動作620において、音声セグメントは平滑化される。たとえば、生成されたパラメータの軌跡はある箇所で突然変化した可能性があり、この突然変化により、合成された言語音声に震音や音飛びを生じさせる。長尺のウィンドウの平滑化により、軌跡をより平滑にすることができ、合成された言語音声をより自然にすることができる。制御は動作625に移され、処理600は継続する。
動作625において、全体的な分散の調整が行われる。たとえば、全体的な分散は、言語セグメントの分散を調整するために使用されることができる。軌跡は、パラメータ生成にスタティック係数とデルタ係数の平均値を使用するため、自然な音声と比較するとダイナミックレンジがより小さくなる傾向があってもよい。分散スケーリングは、合成されたシグナルがくぐもった音にならないよう、軌跡のダイナミックレンジを拡大することができる。処理600は終了する。
動作630において、音声化が開始したか否かが判定される。音声化が開始していないと判定された場合、制御は動作635に移され、処理600は継続する。音声化が開始したと判定された場合、制御は動作640に移され、処理600は継続する。
動作630の判定は、任意の適切な基準に基づくことができる。ある実施形態において、f0モデルがf0の有効値を予測した場合、セグメントは音声化されたセグメントであるとみなされ、f0モデルがゼロを予測した場合、セグメントは音声化されていないセグメントであるとみなされる。
動作635において、スペクトルパラメータが判定される。フレームのスペクトルパラメータは、mcep(i)=(mcep(i−1)+mcep_mean(i))/2となる。制御は動作610に戻され、処理600は継続する。
動作640において、フレームは音声化されているか判定され、音声が第一フレームにあるか否かがさらに判定される。音声が第一フレームにあると判定された場合、制御は動作635に戻され、処理600は継続する。音声が第一フレームにないと判定された場合、制御は動作645に移され、処理600は継続する。
動作645において、音声は第一フレームに無く、スペクトルパラメータは、mcep(i)=(mcep(i−1)+mcep_delta(i)+mcep_mean(i))/2となる。制御は動作610に戻され、処理600は継続する。ある実施形態において、複数のMCEPsはシステム中に存在することができる。処理600は、すべてのMCEPsが処理されるまで任意の回数繰り返すことができる。
図および前述の説明において本発明を詳細に表し、記述したが、これらは単に説明であり、特徴を限定するものではない。好ましい実施形態のみが表され、記述されていると理解すべきであって、ここに記載されている本発明の精神と、後述の保護を求める特許請求の範囲にある本発明の精神の少なくとも一方の範囲内からくるすべての均等物、変更、修正が含まれると理解すべきである。
ゆえに本発明の適切な範囲は、添付の特許請求の範囲の最も広い解釈によって決めるべきであり、そのようなすべての修正並びに図面に表された事項および明細書に記載された事項と均等の関係にあるすべての事項が含まれる。

Claims (24)

  1. a.提供されたテキストのためのコンテキストラベルを生成する手段と、
    b.音声モデルを使用して、前記提供されたテキストのために生成された前記コンテキストラベルのためのパラメータのセットであって、ダイナミックレンジを有するf0(基本周波数)軌跡を含むパラメータのセットを生成する手段と、
    c.クランプされたデルタ係数値を含む処理されたパラメータのセットを生成するために、その生成されたパラメータのセットを処理する手段であって、前記f0軌跡のダイナミックレンジを拡大する分散スケーリングが可能である手段と、
    d.音声合成のために処理されたパラメータのセットを適用することが可能である、前記提供されたテキストの音声合成手段と
    を含む、提供されたテキストの音声合成システム。
  2. 前記音声モデルは、少なくとも1つのスペクトルパラメータの統計分布と前記スペクトルパラメータの変化率とを含む、請求項1に記載のシステム。
  3. 前記音声モデルは、予測統計的パラメータモデルを含む、請求項1に記載のシステム。
  4. 前記提供されたテキストのためのコンテキストラベルの前記生成手段は、言語モデルを含む、請求項1に記載のシステム。
  5. 前記音声合成手段は、スペクトル情報を時間領域信号へと変換可能な、請求項1に記載のシステム。
  6. 音声合成に使用するために提供されたテキストのパラメータを生成する方法であって、
    a.前記提供されたテキストをフレーズのシーケンスに分割するステップと、
    b.音声モデルを使用して前記フレーズのシーケンスのパラメータを生成するステップと、
    c.その生成されたパラメータを処理して、クランプされたデルタ係数値を含む別のパラメータのセットであって、提供されたテキストの音声合成に使用できる連続的な特徴ストリームを含む前記別のパラメータのセットを取得するステップと
    を含む、方法。
  7. 前記分割は、言語知識に基づいて行われる、請求項に記載の方法。
  8. 前記音声モデルは、予測統計的パラメータモデルを含む、請求項に記載の方法。
  9. 前記フレーズのための前記生成されたパラメータは、スペクトルパラメータを含む、請求項に記載の方法。
  10. 前記スペクトルパラメータは、フレーズに基づくスペクトルパラメータ値、スペクトルパラメータの変化率、スペクトル包絡線の値、スペクトル包絡線の変化率のうち1つまたは複数を含む、請求項に記載の方法。
  11. 前記フレーズは、言語的休止と音響的休止のうち少なくとも1つによって区切ることのできる単語群を含む、請求項に記載の方法。
  12. 前記音声合成は、複数のフレームを生成し、
    前記音声モデルを使用して前記フレーズのシーケンスのパラメータを生成するステップは、
    a.前記テキストを表すパラメータとして判定される予測パラメータに基づくベクトルであって、前記複数のフレームについての静的係数、デルタ係数およびデルタデルタ係数を含むベクトルを生成するステップと、
    b.処理対象のフレームを特定する数をインクリメントするステップと、
    c.休止区間で区切られる言語セグメントの存在を判定するステップであって、
    i.前記言語セグメントが開始されている場合、有声化が開始されているか否かを判定し、
    1.有声化が開始されている場合、有声音素のパラメータに基づいて前記ベクトルを調整し、ステップ(c)を再開し、さもなければ
    2.有声化が終了されている場合、無声音素のパラメータに基づいて前記ベクトルを調整し、ステップ(c)から再開し、
    ii.前記言語セグメントが終了されている場合、前記ベクトルを平滑化し、全体的な分散調整を行うステップと
    をさらに含む、請求項に記載の方法。
  13. 前記音声合成は、複数のフレームを生成し、
    前記パラメータの生成は、パラメータの軌跡の生成を含み、
    a.生成されたパラメータベクトルの第一要素を初期化するステップであって、前記パラメータベクトルが前記複数のフレームの静的係数、デルタ係数およびデルタデルタ係数を含み、前記第一要素が複数のフレームの第一フレームに対応するステップと、
    b.処理対象のフレームを特定する数をインクリメントするステップと、
    c.休止区間で区切られる言語セグメントが存在するか否かを判定するステップであって、
    i.前記言語セグメントが終了していない場合、有声化が開始されているか否かを判定し、
    1.有声化が開始されていない場合、有声音素のパラメータに基づいて前記パラメータベクトルを調整し、ステップ(a)から処理を再開し、
    2.有声化が開始されている場合、第一フレームにおいて有声化されているか否かを判定し、有声音が第一フレームにある場合、係数平均は基本周波数に等しく、有声音が第一フレームにない場合、係数のクランプが実行される、
    ii.言語セグメントが終了している場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行うステップと
    をさらに含む、請求項に記載の方法。
  14. ステップc.i.は、有声化が終了されたか否かを判定するステップであって、音声化が終了されていなければ、請求項14をステップ(a)から繰り返し、音声化が終了されていれば、係数の平均を望ましい値に調整して前記セグメントの長尺のウィンドウの平滑化を行うステップをさらに含む、請求項13に記載の方法。
  15. 前記初期化は、時間ゼロで行われる、請求項13に記載の方法。
  16. 前記フレームのインクリメント値は、望ましい整数を含む、請求項13に記載の方法。
  17. 前記望ましい整数は、1である、請求項16に記載の方法。
  18. フレームが有声化されているか否かの前記判定は、前記スペクトルパラメータのための予測値の検査を含み、音声化されたセグメントは、有効値を含む、請求項13に記載の方法。
  19. 言語セグメントが存在するか否かの前記判定は、セグメント分割のための状態シーケンスの検査を含む、請求項13に記載の方法。
  20. 前記音声合成は、複数のフレームを生成し、
    前記パラメータの生成は、メルケプストラムパラメータの生成を含み、
    a.生成されたパラメータベクトルを初期化するステップであって、前記複数のフレームの第一フレームに対応する前記複数のフレームの静的係数、デルタ係数、およびデルタデルタ係数を含むパラメータベクトルを生成するステップと、
    b.処理対象のフレームを特定する数をインクリメントするステップと、
    c.休止区間で区切られる言語セグメントが有声化されているか否か判定するステップであって
    i.前記言語セグメントが有声化されていない場合、数式mcep(i)=(mcep(i−1)+mcep_mean(i))/2を適用し、
    ii.前記言語セグメントが有声化され且つ前記第一フレーム内にある場合、数式mcep(i)=(mcep(i−1)+mcep_mean(i))/2を適用し、
    iii.前記言語セグメントが有声化され且つ前記第一フレーム内にない場合、数式mcep(i)=(mcep(i−1)+mcep_delta(i)+mcep_mean(i))/2を適用するステップと
    d.前記言語セグメントが終了したか否かを判定し、
    i.前記言語セグメントが終了されている場合、パラメータの軌跡の突然の変化を除去し、全体的な分散の調整を行い、
    ii.前記言語セグメントが終了されていない場合、ステップ(a)から始まる処理を繰り返すステップと
    を含む、請求項に記載の方法。
  21. 前記初期化は、時間ゼロで行われる、請求項20に記載の方法。
  22. 前記フレームのインクリメント値は、望ましい整数を含む、請求項20に記載の方法。
  23. 前記望ましい整数は、1である、請求項22に記載の方法。
  24. フレームが音声化しているか否かの前記判定は、前記スペクトルパラメータの予測値の検査を含み、音声化されたセグメントが有効値を含む、請求項20に記載の方法。
JP2016542126A 2014-01-14 2015-01-14 提供されたテキストの音声合成のためのシステム及び方法 Active JP6614745B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461927152P 2014-01-14 2014-01-14
US61/927,152 2014-01-14
PCT/US2015/011348 WO2015108935A1 (en) 2014-01-14 2015-01-14 System and method for synthesis of speech from provided text

Publications (2)

Publication Number Publication Date
JP2017502349A JP2017502349A (ja) 2017-01-19
JP6614745B2 true JP6614745B2 (ja) 2019-12-04

Family

ID=53521887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016542126A Active JP6614745B2 (ja) 2014-01-14 2015-01-14 提供されたテキストの音声合成のためのシステム及び方法

Country Status (9)

Country Link
US (2) US9911407B2 (ja)
EP (1) EP3095112B1 (ja)
JP (1) JP6614745B2 (ja)
AU (2) AU2015206631A1 (ja)
BR (1) BR112016016310B1 (ja)
CA (1) CA2934298C (ja)
CL (1) CL2016001802A1 (ja)
WO (1) WO2015108935A1 (ja)
ZA (1) ZA201604177B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107924678B (zh) 2015-09-16 2021-12-17 株式会社东芝 语音合成装置、语音合成方法及存储介质
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10896669B2 (en) 2017-05-19 2021-01-19 Baidu Usa Llc Systems and methods for multi-speaker neural text-to-speech
US10872596B2 (en) 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
CN109285535A (zh) * 2018-10-11 2019-01-29 四川长虹电器股份有限公司 基于前端设计的语音合成方法
CN109785823B (zh) * 2019-01-22 2021-04-02 中财颐和科技发展(北京)有限公司 语音合成方法及系统
US11587548B2 (en) * 2020-06-12 2023-02-21 Baidu Usa Llc Text-driven video synthesis with phonetic dictionary
WO2021248473A1 (en) 2020-06-12 2021-12-16 Baidu.Com Times Technology (Beijing) Co., Ltd. Personalized speech-to-video with three-dimensional (3d) skeleton regularization and expressive body poses

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0764939B1 (en) * 1995-09-19 2002-05-02 AT&T Corp. Synthesis of speech signals in the absence of coded parameters
US6567777B1 (en) * 2000-08-02 2003-05-20 Motorola, Inc. Efficient magnitude spectrum approximation
US6970820B2 (en) * 2001-02-26 2005-11-29 Matsushita Electric Industrial Co., Ltd. Voice personalization of speech synthesizer
US6792407B2 (en) * 2001-03-30 2004-09-14 Matsushita Electric Industrial Co., Ltd. Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
GB0113570D0 (en) * 2001-06-04 2001-07-25 Hewlett Packard Co Audio-form presentation of text messages
US20030028377A1 (en) * 2001-07-31 2003-02-06 Noyes Albert W. Method and device for synthesizing and distributing voice types for voice-enabled devices
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US7096183B2 (en) 2002-02-27 2006-08-22 Matsushita Electric Industrial Co., Ltd. Customizing the speaking style of a speech synthesizer based on semantic analysis
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
CN1692403A (zh) * 2002-10-04 2005-11-02 皇家飞利浦电子股份有限公司 具有个人化语音段的语音合成设备
US6961704B1 (en) 2003-01-31 2005-11-01 Speechworks International, Inc. Linguistic prosodic model-based text to speech
US8886538B2 (en) 2003-09-26 2014-11-11 Nuance Communications, Inc. Systems and methods for text-to-speech synthesis using spoken example
AU2005207606B2 (en) * 2004-01-16 2010-11-11 Nuance Communications, Inc. Corpus-based speech synthesis based on segment recombination
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US20100030557A1 (en) * 2006-07-31 2010-02-04 Stephen Molloy Voice and text communication system, method and apparatus
JP4455610B2 (ja) 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5457706B2 (ja) * 2009-03-30 2014-04-02 株式会社東芝 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
EP2507794B1 (en) * 2009-12-02 2018-10-17 Agnitio S.L. Obfuscated speech synthesis
US20120143611A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Trajectory Tiling Approach for Text-to-Speech
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN102270449A (zh) 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
EP3114584B1 (en) 2014-03-04 2021-06-23 Interactive Intelligence Group, Inc. Optimization of audio fingerprint search

Also Published As

Publication number Publication date
US20180144739A1 (en) 2018-05-24
EP3095112B1 (en) 2019-10-30
AU2015206631A1 (en) 2016-06-30
BR112016016310B1 (pt) 2022-06-07
US9911407B2 (en) 2018-03-06
AU2020203559A1 (en) 2020-06-18
EP3095112A4 (en) 2017-09-13
NZ721092A (en) 2021-03-26
BR112016016310A2 (ja) 2017-08-08
EP3095112A1 (en) 2016-11-23
CA2934298C (en) 2023-03-07
WO2015108935A1 (en) 2015-07-23
US10733974B2 (en) 2020-08-04
AU2020203559B2 (en) 2021-10-28
CA2934298A1 (en) 2015-07-23
US20150199956A1 (en) 2015-07-16
ZA201604177B (en) 2018-11-28
JP2017502349A (ja) 2017-01-19
CL2016001802A1 (es) 2016-12-23

Similar Documents

Publication Publication Date Title
JP6614745B2 (ja) 提供されたテキストの音声合成のためのシステム及び方法
US8594993B2 (en) Frame mapping approach for cross-lingual voice transformation
JP4551803B2 (ja) 音声合成装置及びそのプログラム
Ma et al. Incremental text-to-speech synthesis with prefix-to-prefix framework
EP2109096B1 (en) Speech synthesis with dynamic constraints
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
US20170249953A1 (en) Method and apparatus for exemplary morphing computer system background
JP2008249808A (ja) 音声合成装置、音声合成方法及びプログラム
JPH0632020B2 (ja) 音声合成方法および装置
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2583074B2 (ja) 音声合成方法
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
Lin et al. New refinement schemes for voice conversion
Astrinaki et al. sHTS: A streaming architecture for statistical parametric speech synthesis
JP2001282273A (ja) 音声情報処理装置とその方法と記憶媒体
JP2004341259A (ja) 音声素片伸縮装置およびその方法
NZ721092B2 (en) System and method for synthesis of speech from provided text
Sudhakar et al. Performance Analysis of Text To Speech Synthesis System Using Hmm and Prosody Features With Parsing for Tamil Language
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
Chomwihoke et al. Comparative study of text-to-speech synthesis techniques for mobile linguistic translation process
Kayte et al. Post-Processing Using Speech Enhancement Techniques for Unit Selection andHidden Markov Model-based Low Resource Language Marathi Text-to-Speech System
Krithiga et al. Introducing pitch modification in residual excited LPC based Tamil text-to-speech synthesis
JPH03276198A (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180522

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180820

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191102

R150 Certificate of patent or registration of utility model

Ref document number: 6614745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250