JP2013539558A - パラメータ音声の合成方法及びシステム - Google Patents
パラメータ音声の合成方法及びシステム Download PDFInfo
- Publication number
- JP2013539558A JP2013539558A JP2013527464A JP2013527464A JP2013539558A JP 2013539558 A JP2013539558 A JP 2013539558A JP 2013527464 A JP2013527464 A JP 2013527464A JP 2013527464 A JP2013527464 A JP 2013527464A JP 2013539558 A JP2013539558 A JP 2013539558A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- parameter
- value
- parameters
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Abstract
【選択図】図10
Description
従来のパラメータ音声合成方法は、合成段階における階層化作業において、以下のような横方向の処理方法を取る。即ち、すべての統計モジュールのパラメータを引出して、最尤法によってすべてのフレームを生成する平滑化したパラメータを予測し、母分散モジュールによってすべてのフレームの最適化パラメータを取得し、最後にパラメータ合成器からすべてのフレームの音声を出力する。即ち、階層毎において、すべてのフレームに関連するパラメータを保存する必要があり、音声合成の際に必要なランダムアクセスメモリ(Random Access Memory,RAM)の容量は合成する音声の時間長の増加に正比例して増加することを引き起こした。ただし、チップ上のRAMの大きさは固定的であり、数多くの応用中チップのRAMは100Kバイト未満ほど小さいであり、従来のパラメータ音声合成方法が、小さいRAMを備えるチップ上に任意時間長の音声を継続的に合成することはできない。
図4を参照するように、前記合成段階における第三層作業において、最尤法を用いて、モジュール序列中から音声パラメータ序列の実施過程を予測するには、必ずフレームずつ前向き再帰と後ろ向き再帰との二つのステップによって実現しなければならない。第一ステップの前向き再帰作業が完了後、フレーム毎の音声のために対応する一時的なパラメータを生成する。すべてのフレームの一時的なパラメータを第二ステップの後ろ向き再帰ステップに入力してはじめて、必要なパラメータ序列を予測することができる。合成する音声の時間長が長ければ長いほど、対応する音声フレームの数が多く、フレーム毎の音声パラメータを予測する際に、対応する1フレームの一時的なパラメータを生成する。すべてのフレームの一時的なパラメータは、必ずRAM中に保存してはじめて、第二ステップの再帰予測作業が完了し、それで小さいRAMを備えるチップ上に任意時間長の音声を継続的に合成できなくなってしまう。
入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、以下のような処理を行い、即ち、
入力テキストの音素序列中の現在音素に対して、統計モジュールベース中から対応する統計モジュールを引出すとともに、当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した1フレームの音声を取得することを含む。
ただし、
はt時刻の音声パラメータが最適化する前の平滑値であり、
は初歩的な最適化後の値で、wは重み値で、
は全局最適化後に取得した必要な音声パラメータで、rは統計により取得したその予測される音声パラメータの全局標準偏差値であり、mは統計により取得したその予測される音声パラメータの平均値で、rとmの値は定数である。
訓練段階において、コーパス中から引出した音響パラメータが静態パラメータのみを含み、或いは、コーパス中から引出した音響パラメータが静態パラメータと動態パラメータを含み、訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留する。
合成段階において、入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、順次に音声合成を行うための循環合成装置を含み、
前記循環合成装置は、
入力テキストの音素序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して、全局最適化を行うための全局最適化手段と、
生成された前記音声パラメータを合成させ、現在音素の現在フレームに対して合成した1フレームの音声を取得するためのパラメータ音声合成手段と
を含む音声パラメータの合成システムが提供される。
その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、wは重みの値で、
は全局最適化後に取得した必要な音声パラメータで、rは統計により取得したその予測される音声パラメータの全局標準偏差値で、mは統計により取得したその予測される音声パラメータの全局平均値であり、rとmの値は定数である。
濁音度サブバンドパラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータにより構成された準周期性パルス序列に対して濾過を行って、音声信号の濁音成分を取得するための前記濁音サブバンドフィルタと、
ホワイトノイズにより構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分を加算して、混合励振信号を取得するための加算器と、
前記混合励振信号が、スペクトル包絡パラメータにより構成されたフィルタを介してから、合成した1フレームの音声波形を出力する合成フィルタとを含む。
前記粗検索手段は、具体的に、合成段階において、前記現在の音素に基づいて、訓練段階において取得された前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである。
前記手段と関連目的を実現するために、本発明の1つ又は複数の方面が、下記詳しく説明するとともに請求項に指摘された特徴を含む。下記説明及び図では、本発明のある例示方面が詳しく紹介されている。但し、例示方面は本発明の原理が応用される様々な方法の一部にすぎない。また、本発明は、すべての方面及びその同等なものを含むことを旨とする。
図2は、本発明の1つの実施例に基づくパラメータ音声合成方法のプロセス図を示す。
図2に示すように、本発明が提供する任意時間長の音声を継続的に合成できるパラメータ音声合成方法の実現には、下記ステップを含む。
S220:順次に前記音素序列中の一つの音素を引出して、統計モジュールベース中で前記音素の各音響パラメータが対応する統計モジュールを捜索して、フレームに応じて前記音素の各統計モジュールを引出して、合成待ち音声パラメータの略値とする。
S240:全局パラメータ最適化器を用いて、前記平滑後の音声パラメータに対して全局パラメータ最適化を行って、最適化後の音声パラメータを取得する。
S260:前記音素のすべてのフレームが処理完了かどうかを判断し、処理完了でなければ、前記音素の次のフレームに対してS220〜250の音声合成処理を繰り返し、前記音素序列中のすべての音素のすべてのクレームが処理完了まで行う。
は予め設計した固定のフィルタパラメータであり、
の選択は、実際の音声における、スペクトル包絡パラメータとサブバンド濁音度が時間に伴って変化する速さの程度に基づいて、実験で確定されても良い。
基本音声周波パラメータに対して、公式(3)が示すフィルタでパラメータの予測を行っても良い。
は予め設計した固定のフィルタパラメータであり、
の選択は、実際の音声において、基本音声周波パラメータが時間に伴って変化する速さの程度に基づいて、実験で確定されても良い。
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、
は最終最適化後の値で、
は合成する音声の平均値で、
は訓練する音声と合成する音声の標準偏差の比値で、
は調節効果を制御する一つの固定の重み値である。
と
を確定するとき、某音声パラメータがすべてのフレームにおける対応する値を用いて、平均値と分散を計算してから、母分散モジュールによりすべてのフレームのパラメータを調整し、調整後の合成音声パラメータの分散を母分散モジュールと一致させするように、音質を高める目的が達する。公式(5)に示す通りである。
は、某音声パラメータが、訓練コーパス中のすべての音声上統計して得た標準偏差(母分散モジュールによって提供する)で、
は、現在合成待ちの音声パラメータの標準偏差で、一段落のテキストを合成する度に、
が再び計算する必要がある。
と
の計算は、調整前の合成音声のすべてのフレームの音声パラメータ値を用いる必要があるため、RAMが、すべてのフレームの未最適化時のパラメータを保存する必要がある。したがって、必要なRAMは、合成待ち音声の時間長の増加に伴って増加するため、大きさが固定されたRAMは、任意時間長の音声を継続的に合成する要求が満たされない。
は、tより
時隔たった音声サンプルの値で、Tは1フレームのサンプル数であり、
が基本音声周期を取る際、
は、現在サブバンドの現在フレームの濁音度である。
本発明の前記パラメータ音声合成方法は、ソフトウェアで実現するか、またハードウェアで実現か、或はソフトウェアとハードウェアの組み合わせ方法で実現できる。
音素毎のコンテキスト情報に基づいて、音素毎の各音響パラメータのために一つのモジュールを訓練するための音声パラメータモジュール訓練手段と、
前記音素のコンテキスト情報に基づいて、関連する音素に対してクラスタを行うためのクラスタ手段と、
前記モジュールを用いて訓練コーパス中の音声に対してフレームから形態までの強制的な位置合わせを行うための強制位置合わせ手段と、
前記強制位置合わせ手段の強制位置合わせ過程において成された時間長情報を用いて、音素が異なるコンテキスト情報時にクラスタした後の形態モジュールを訓練するための状態時間長モジュール訓練手段と、
異なるコンテキスト情報時に音素毎が各音声パラメータが対応する統計モジュールを、統計モジュールベースに構成するためのモジュール統計手段とを含む。
合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して以下の処理を行い、即ち、
101:入力テキストの音素序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引き出すとともに、当該統計モジュールが、現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
102:前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
103:統計によって得られた前記音声パラメータの全局平均値と全局標準偏差値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
104:生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した一つのフレームの音声を取得する。
その予測される音声パラメータが基本音声周波パラメータである際は、前記公式(3)を参考にし、本発明は下記公式に基づいて、前記略値と前一時刻に予測した音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得する。
その内、前記公式における、
は、時刻が第
フレームであることを示し、
は、その予測する音声パラメータが第
フレーム時の略値を示し、
は、
が濾過、平滑を行った後の値を示し、
、
はそれぞれフィルタのパラメータで、
と
の値は異なる。
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成し、
基本音声周波パラメータによって構成された準周期性パルス序列が、前記濁音サブバンドフィルタを介して、音声信号の濁音成分を取得し、ホワイトノイズによって構成されたランダム序列が、前記清音サブバンドフィルタを介して音声信号の清音成分を取得し、
前記濁音成分と清音成分を加算して混合励振信号を取得し、前記混合励振信号が、スペクトル包絡パラメータによって構成されたフィルタを介してから、1フレームの合成音声波形を出力する。
合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、音声合成を行うための循環合成装置110を含み、
前記循環合成装置110が、
入力テキストの音声序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段111と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段112と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差値の比率に基づいて、前記現在予測される音声パラメータの平滑値に対して、全局最適化を行うための全局最適化手段113と、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した1フレームの音声を取得するためのパラメータ音声合成手段114とを含む。
その予測される音声パラメータは基本音声周波パラメータである時、前記ローパスフィルタ組は、下記公式に基づき、前記略値と前一時刻に予測された音声パラメータの平滑値を用いて、前記略値に対して濾過を行って、現在予測する音声パラメータの平滑値を取得する。
その内、前記公式における、
は、時刻が第
フレームであることを示し、
は、予測する音声パラメータが第
フレーム時の略値を示し、
は、
が濾過、平滑を行った後の値を示し、
、
はそれぞれフィルタのパラメータで、
と
の値が異なる。
その内、
は時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、wは重み値で、
は全局最適化後に取得した必要な音声パラメータで、rは統計により取得した予測される音声パラメータの全局標準偏差値で、mは統計により取得した予測される音声パラメータの全局平均値であり、rとmの値は定数である。
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータによって構成された準周期性パルス序列に対して濾過を行って、音声信号の濁音成分を取得する前記濁音サブバンドフィルタと、
ホワイトノイズによって構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分を加算して混合励振信号を取得するための加算器と、
前記混合励振信号が、スペクトル包絡から構成されたフィルタを介してから1フレームの合成された音声波形を出力するための合成フィルタとを含む。
前記粗捜索手段111は、具体的に合成段階において、前記現在の音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである。
以上のように、模式図を参考しながら例示で本発明のパラメータ音声方法及びシステムを記述した。但し、当業者は、前記本発明に言及したパラメータ音声方法及びシステムについて、さらに、本発明の内容を脱しないことを基に、様々な改良を行えることが分かる。そのため、本発明の保護範囲は附する請求の範囲の内容によって確定されるべきである。
Claims (10)
- 合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して、
入力テキストの音素序列中の現在音素に対して、統計モジュールベース中から対応する統計モジュールを引き出すとともに、当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とし、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得し、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成された1フレームの音声を取得する
処理を行うことを含むパラメータ音声合成方法。 - 前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得することが、具体的に、
前記略値と前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得することを含み、
その内、前記前一時刻の音声フレームの情報が前一時刻に予測された音声パラメータの平滑値である
ことを特徴とする請求項1記載のパラメータ音声合成方法。 - 下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成し、
その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、wは重み値で、
は全局最適化後に取得された必要な音声パラメータで、rは統計により取得した予測される音声パラメータの全局標準偏差値で、mは統計により取得した予測される音声パラメータの全局平均値であり、rとmの値は定数である
ことを特徴とする請求項1記載のパラメータ音声合成方法。 - 前記生成された音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した1フレームの音声を取得することは、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成することと、
基本音声周波パラメータによって構成された準周期性パルスを、前記濁音サブバンドフィルタに通し、音声信号の濁音成分を取得することと、
ホワイトノイズによって構成されたランダム序列を、前記清音サブバンドフィルタに通し、音声信号の清音成分を取得し、
前記濁音成分と清音成分とを加算して混合励振信号を取得し、
前記混合励振信号を、スペクトル包絡パラメータによって構成されたフィルタに通してから、1フレームの合成した音声波形を出力することを含む、
ことを特徴とする請求項1記載のパラメータ音声合成方法。 - 前記合成段階の前に、前記方法がまた訓練段階を含み、
訓練段階において、コーパスから引き出した音声パラメータが静態パラメータのみを含み、或いは静態パラメータと動態パラメータを含み、
訓練後取得した統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留し、
合成段階において、前記の当該統計モジュールが現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とすることは、具体的に、
前記現在音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とする
ことを特徴とする請求項1記載のパラメータ音声合成方法。 - 合成段階において、順次に入力テキストの音素序列中の音素毎のフレーム毎の音声に対して音声合成を行うための循環合成装置を含み、
前記循環装置は、
入力テキストの音声序列中の現在音素に対して、統計モジュールベースから対応する統計モジュールを引出し、かつ当該統計モジュールの現在音素の現在フレームにおける対応するモジュールパラメータを現在予測される音声パラメータの略値とするための粗捜索手段と、
前記略値と現在時刻前の予定数の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するための平滑化フィルタ手段と、
統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化して、必要な音声パラメータを生成するための全局最適化手段と、
生成された前記音声パラメータに対して合成を行って、現在音素の現在フレームに対して合成した1フレームの音声を取得するためのパラメータ音声合成手段と
を含むパラメータ音声合成システム。 - 前記平滑化フィルタ手段は、ローパスフィルタ組を含み、
前記ローパスフィルタ組は、前記略値と前一時刻の音声フレームの情報を用いて、前記略値に対して濾過を行って、現在予測される音声パラメータの平滑値を取得するためであり、
その内、前記前一時刻の音声フレームの情報が前一時刻に予測された音声パラメータの平滑値である請求項6記載のパラメータ音声合成システム。 - 前記全局最適化手段は、全局パラメータ最適化器を含み、
前記全局パラメータ最適化器が、下記公式を用いて、統計により得られた前記音声パラメータの全局平均値と全局標準偏差の比値に基づいて、前記現在予測される音声パラメータの平滑値に対して全局最適化を行って、必要な音声パラメータを生成するためであり、
その内、
はt時刻の音声パラメータが最適化する前の平滑値で、
は初歩的最適化後の値で、wは重み値で、
は全局最適化後に取得した必要な音声パラメータで、rは統計により取得した予測される音声パラメータの全局標準偏差の比値で、mは統計により取得した予測される音声パラメータの全局平均値で、rとmの値は定数である
請求項6記載のパラメータ音声合成システム。 - 前記パラメータ音声合成手段は、
サブバンド濁音度パラメータを用いて、濁音サブバンドフィルタと清音サブバンドフィルタを構成するためのフィルタ構成モジュールと、
基本音声周波パラメータによって構成された準周期性パルスに対して濾過を行って、音声信号の濁音成分を取得する前記濁音サブバンドフィルタと、
ホワイトノイズによって構成されたランダム序列に対して濾過を行って、音声信号の清音成分を取得するための前記清音サブバンドフィルタと、
前記濁音成分と清音成分とを加算して混合励振信号を取得するための加算器と、
前記混合励振信号をスペクトル包絡パラメータによって構成されたフィルタに通してから、1フレームの合成した音声波形を出力するための合成フィルタと
を含む請求項6記載のパラメータ音声合成システム。 - 前記システムは、訓練装置を含み、
前記訓練装置は、訓練段階において、コーパスから引出された音声パラメータに、静態パラメータのみを含ませ、或いは静態パラメータと動態パラメータを含ませ、及び訓練後に取得された統計モジュールのモジュールパラメータに静態モジュールパラメータのみを保留するためであり、
前記粗捜索手段は、具体的に、合成段階において、前記現在音素に基づいて、訓練段階において取得した前記統計モジュールが現在音素の現在フレームにおける対応する静態モジュールパラメータを現在予測される音声パラメータの略値とするためである
ことを特徴とする請求項6のパラメータ音声合成システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011102290132A CN102270449A (zh) | 2011-08-10 | 2011-08-10 | 参数语音合成方法和系统 |
CN201110229013.2 | 2011-08-10 | ||
PCT/CN2011/081452 WO2013020329A1 (zh) | 2011-08-10 | 2011-10-27 | 参数语音合成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013539558A true JP2013539558A (ja) | 2013-10-24 |
JP5685649B2 JP5685649B2 (ja) | 2015-03-18 |
Family
ID=45052729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013527464A Active JP5685649B2 (ja) | 2011-08-10 | 2011-10-27 | パラメータ音声の合成方法及びシステム |
Country Status (7)
Country | Link |
---|---|
US (1) | US8977551B2 (ja) |
EP (1) | EP2579249B1 (ja) |
JP (1) | JP5685649B2 (ja) |
KR (1) | KR101420557B1 (ja) |
CN (2) | CN102270449A (ja) |
DK (1) | DK2579249T3 (ja) |
WO (1) | WO2013020329A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) * | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854643B (zh) * | 2012-11-29 | 2017-03-01 | 株式会社东芝 | 用于合成语音的方法和装置 |
CN103226946B (zh) * | 2013-03-26 | 2015-06-17 | 中国科学技术大学 | 一种基于受限玻尔兹曼机的语音合成方法 |
US9484015B2 (en) * | 2013-05-28 | 2016-11-01 | International Business Machines Corporation | Hybrid predictive model for enhancing prosodic expressiveness |
AU2015206631A1 (en) | 2014-01-14 | 2016-06-30 | Interactive Intelligence Group, Inc. | System and method for synthesis of speech from provided text |
US9472182B2 (en) * | 2014-02-26 | 2016-10-18 | Microsoft Technology Licensing, Llc | Voice font speaker and prosody interpolation |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
JP5995226B2 (ja) * | 2014-11-27 | 2016-09-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム |
JP6483578B2 (ja) * | 2015-09-14 | 2019-03-13 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
WO2017046887A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
EP3363015A4 (en) * | 2015-10-06 | 2019-06-12 | Interactive Intelligence Group, Inc. | METHOD FOR FORMING THE EXCITATION SIGNAL FOR A PARAMETRIC SPEECH SYNTHESIS SYSTEM BASED ON GLOTTAL PULSE MODEL |
CN105654939B (zh) * | 2016-01-04 | 2019-09-13 | 极限元(杭州)智能科技股份有限公司 | 一种基于音向量文本特征的语音合成方法 |
US10044710B2 (en) | 2016-02-22 | 2018-08-07 | Bpip Limited Liability Company | Device and method for validating a user using an intelligent voice print |
JP6852478B2 (ja) * | 2017-03-14 | 2021-03-31 | 株式会社リコー | 通信端末、通信プログラム及び通信方法 |
CN107481715B (zh) * | 2017-09-29 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN107945786B (zh) * | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
US11264010B2 (en) | 2018-05-11 | 2022-03-01 | Google Llc | Clockwork hierarchical variational encoder |
US10923107B2 (en) | 2018-05-11 | 2021-02-16 | Google Llc | Clockwork hierarchical variational encoder |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN108899009B (zh) * | 2018-08-17 | 2020-07-03 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109102796A (zh) * | 2018-08-31 | 2018-12-28 | 北京未来媒体科技股份有限公司 | 一种语音合成方法及装置 |
CN109285535A (zh) * | 2018-10-11 | 2019-01-29 | 四川长虹电器股份有限公司 | 基于前端设计的语音合成方法 |
CN109285537B (zh) * | 2018-11-23 | 2021-04-13 | 北京羽扇智信息科技有限公司 | 声学模型建立、语音合成方法、装置、设备及存储介质 |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
CN111862931A (zh) * | 2020-05-08 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音生成方法及装置 |
US11495200B2 (en) * | 2021-01-14 | 2022-11-08 | Agora Lab, Inc. | Real-time speech to singing conversion |
CN112802449B (zh) * | 2021-03-19 | 2021-07-02 | 广州酷狗计算机科技有限公司 | 音频合成方法、装置、计算机设备及存储介质 |
CN113160794B (zh) * | 2021-04-30 | 2022-12-27 | 京东科技控股股份有限公司 | 基于音色克隆的语音合成方法、装置及相关设备 |
CN113571064B (zh) * | 2021-07-07 | 2024-01-30 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
CN114822492B (zh) * | 2022-06-28 | 2022-10-28 | 北京达佳互联信息技术有限公司 | 语音合成方法及装置、电子设备、计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03102399A (ja) * | 1989-09-18 | 1991-04-26 | Fujitsu Ltd | 規則音声合成装置 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1941697A (en) * | 1996-03-25 | 1997-10-17 | Arcadia, Inc. | Sound source generator, voice synthesizer and voice synthesizing method |
US6910007B2 (en) | 2000-05-31 | 2005-06-21 | At&T Corp | Stochastic modeling of spectral adjustment for high quality pitch modification |
GB0112749D0 (en) * | 2001-05-25 | 2001-07-18 | Rhetorical Systems Ltd | Speech synthesis |
US6912495B2 (en) * | 2001-11-20 | 2005-06-28 | Digital Voice Systems, Inc. | Speech model and analysis, synthesis, and quantization methods |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
CN1262987C (zh) * | 2003-10-24 | 2006-07-05 | 无敌科技股份有限公司 | 母音间转音的平滑处理方法 |
ATE456125T1 (de) * | 2004-09-16 | 2010-02-15 | France Telecom | Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung |
WO2006053256A2 (en) * | 2004-11-10 | 2006-05-18 | Voxonic, Inc. | Speech conversion system and method |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
CN1835075B (zh) * | 2006-04-07 | 2011-06-29 | 安徽中科大讯飞信息科技有限公司 | 一种结合自然样本挑选与声学参数建模的语音合成方法 |
US7996222B2 (en) * | 2006-09-29 | 2011-08-09 | Nokia Corporation | Prosody conversion |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
JP4469883B2 (ja) | 2007-08-17 | 2010-06-02 | 株式会社東芝 | 音声合成方法及びその装置 |
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
KR100932538B1 (ko) * | 2007-12-12 | 2009-12-17 | 한국전자통신연구원 | 음성 합성 방법 및 장치 |
CN102341842B (zh) * | 2009-05-28 | 2013-06-05 | 国际商业机器公司 | 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法 |
US20110071835A1 (en) * | 2009-09-22 | 2011-03-24 | Microsoft Corporation | Small footprint text-to-speech engine |
GB2478314B (en) * | 2010-03-02 | 2012-09-12 | Toshiba Res Europ Ltd | A speech processor, a speech processing method and a method of training a speech processor |
US20120143611A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Trajectory Tiling Approach for Text-to-Speech |
-
2011
- 2011-08-10 CN CN2011102290132A patent/CN102270449A/zh active Pending
- 2011-10-27 US US13/640,562 patent/US8977551B2/en active Active
- 2011-10-27 DK DK11864132.3T patent/DK2579249T3/en active
- 2011-10-27 EP EP11864132.3A patent/EP2579249B1/en active Active
- 2011-10-27 WO PCT/CN2011/081452 patent/WO2013020329A1/zh active Application Filing
- 2011-10-27 KR KR1020127031341A patent/KR101420557B1/ko active IP Right Grant
- 2011-10-27 CN CN201110331821XA patent/CN102385859B/zh active Active
- 2011-10-27 JP JP2013527464A patent/JP5685649B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03102399A (ja) * | 1989-09-18 | 1991-04-26 | Fujitsu Ltd | 規則音声合成装置 |
JP2007011203A (ja) * | 2005-07-04 | 2007-01-18 | Sony Corp | データ出力装置、データ出力方法、およびプログラム |
Non-Patent Citations (8)
Title |
---|
CSNG199800607022; 益子 貴史,徳田 恵一,小林 隆夫,今井 聖: '動的特徴を用いたHMMに基づく音声合成' 電子情報通信学会論文誌 Vol. J79-D-II No. 12, 19961225, p.2184-2190, 社団法人電子情報通信学会 * |
CSNG200500348006; 小林 隆夫,徳田 恵一: 'コーパスベース音声合成技術の動向[IV] HMM音声合成方式' 電子情報通信学会誌 Vol. 87, No. 4, 2004, 20040401, p.322-327, 社団法人電子情報通信学会 * |
CSNJ201010077113; Ranniery Maia, Tomoki Toda, Heiga Zen, Yoshihiko Nankaku, Keiichi Tokuda: 'Mixed excitation for HMM-based speech synthesis based on state-dependent filtering HMM音声合成に' 日本音響学会 2007年 春季研究発表会講演論文集CD-ROM , 20070315, p.199-200, 社団法人日本音響学会 * |
CSNJ201110018375; 志賀 芳則,戸田 智基,坂井 信輔,河井 恒: 'HMM音声合成のための励振源学習の改良' 日本音響学会 2010年 秋季研究発表会講演論文集CD-ROM , 20100916, p.305-308, 社団法人日本音響学会 * |
JPN6014009937; 志賀 芳則,戸田 智基,坂井 信輔,河井 恒: 'HMM音声合成のための励振源学習の改良' 日本音響学会 2010年 秋季研究発表会講演論文集CD-ROM , 20100916, p.305-308, 社団法人日本音響学会 * |
JPN6014009939; Ranniery Maia, Tomoki Toda, Heiga Zen, Yoshihiko Nankaku, Keiichi Tokuda: 'Mixed excitation for HMM-based speech synthesis based on state-dependent filtering HMM音声合成に' 日本音響学会 2007年 春季研究発表会講演論文集CD-ROM , 20070315, p.199-200, 社団法人日本音響学会 * |
JPN6014009941; 小林 隆夫,徳田 恵一: 'コーパスベース音声合成技術の動向[IV] HMM音声合成方式' 電子情報通信学会誌 Vol. 87, No. 4, 2004, 20040401, p.322-327, 社団法人電子情報通信学会 * |
JPN6014009943; 益子 貴史,徳田 恵一,小林 隆夫,今井 聖: '動的特徴を用いたHMMに基づく音声合成' 電子情報通信学会論文誌 Vol. J79-D-II No. 12, 19961225, p.2184-2190, 社団法人電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019045856A (ja) * | 2017-08-31 | 2019-03-22 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
JP7209275B2 (ja) | 2017-08-31 | 2023-01-20 | 国立研究開発法人情報通信研究機構 | オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20130066631A1 (en) | 2013-03-14 |
EP2579249B1 (en) | 2018-03-28 |
KR20130042492A (ko) | 2013-04-26 |
CN102270449A (zh) | 2011-12-07 |
EP2579249A1 (en) | 2013-04-10 |
US8977551B2 (en) | 2015-03-10 |
JP5685649B2 (ja) | 2015-03-18 |
EP2579249A4 (en) | 2015-04-01 |
CN102385859A (zh) | 2012-03-21 |
CN102385859B (zh) | 2012-12-19 |
DK2579249T3 (en) | 2018-05-28 |
KR101420557B1 (ko) | 2014-07-16 |
WO2013020329A1 (zh) | 2013-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5685649B2 (ja) | パラメータ音声の合成方法及びシステム | |
CN109147758B (zh) | 一种说话人声音转换方法及装置 | |
US8386256B2 (en) | Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis | |
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
US11810546B2 (en) | Sample generation method and apparatus | |
CN112735454A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
JP4382808B2 (ja) | 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム | |
CN108369803B (zh) | 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法 | |
Sheng et al. | High-quality speech synthesis using super-resolution mel-spectrogram | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
CN110930975A (zh) | 用于输出信息的方法和装置 | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP6400526B2 (ja) | 音声合成装置、その方法、およびプログラム | |
CN114005428A (zh) | 语音合成方法、装置、电子设备、存储介质和程序产品 | |
JP6000326B2 (ja) | 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム | |
JP7088796B2 (ja) | 音声合成に用いる統計モデルを学習する学習装置及びプログラム | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
Yang et al. | A fast high-fidelity source-filter vocoder with lightweight neural modules | |
JP2012058293A (ja) | 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム | |
Degottex et al. | A Spectrally Weighted Mixture of Least Square Error and Wasserstein Discriminator Loss for Generative SPSS | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN114299912A (zh) | 语音合成方法及相关装置、设备和存储介质 | |
Pan et al. | Comprehensive voice conversion analysis based on DGMM and feature combination | |
CN117636839A (zh) | 语音合成方法和装置 | |
CN115273777A (zh) | 声音转换模型的更新方法及应用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150119 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5685649 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |