JP5049310B2 - 音声学習・合成システム及び音声学習・合成方法 - Google Patents

音声学習・合成システム及び音声学習・合成方法 Download PDF

Info

Publication number
JP5049310B2
JP5049310B2 JP2009083164A JP2009083164A JP5049310B2 JP 5049310 B2 JP5049310 B2 JP 5049310B2 JP 2009083164 A JP2009083164 A JP 2009083164A JP 2009083164 A JP2009083164 A JP 2009083164A JP 5049310 B2 JP5049310 B2 JP 5049310B2
Authority
JP
Japan
Prior art keywords
user terminal
server
speech
synthesis
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009083164A
Other languages
English (en)
Other versions
JP2010237307A (ja
Inventor
秀之 水野
昇 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009083164A priority Critical patent/JP5049310B2/ja
Publication of JP2010237307A publication Critical patent/JP2010237307A/ja
Application granted granted Critical
Publication of JP5049310B2 publication Critical patent/JP5049310B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

この発明は入力された音声データを学習し、その後、テキストが入力された場合に、学習により得られた音声の性質を有する合成音声を生成して出力する音声学習・合成システム及び音声学習・合成方法に関する。
近年、与えられた音声コーパスの特徴を統計的に自動学習し、モデル化することで、任意のテキストから合成音声を生成する統計的音声合成技術の開発が進んでいる(例えば、非特許文献1参照)。
そして、このような音声合成技術によって、原理的には音声コーパスの特徴を再現した合成音声を生成することが可能になってきている。具体的には、予め音声のスペクトルや基本周波数(F0)、音素の継続時間長に関する静的・動的特徴量を音声コーパスから分析・抽出し、EMアルゴリズムを用いて隠れマルコフモデル(HMMモデル)を学習する。そして、テキストから音声を合成する際には、入力テキストから適切なHMMモデルを選択して連結した後、スペクトル、基本周波数、音素継続時間長の特徴量系列を生成し、この特徴量系列から合成音声の生成を行う。
吉村他,"HMMに基づく音声合成におけるスペクトル・ピッチ・状態継続長の同時モデル化",信学論,J83-D-II,No.11,pp.2099-2107,2000年11月
ところで、上述したような音声学習及び合成においては種々の課題が存在する。
まず、第1の課題は音声の学習にかかる処理量の多さである。一般に学習に関わる処理の計算量は大きく、必要なメモリ量も多い。音声合成の利用分野の一つとして、電話等の端末での音声サービスへの応用が考えられるが、例えば最新の携帯端末であってもこうした学習に必要なほどの計算能力や計算リソースを有しておらず、端末側で学習や合成処理を完結させることは困難となっている。
第2の課題は設備コストである。第1の課題を解決する方法として、端末側ではなく、サーバ側で処理を行う方法が容易に考えられるが、その場合、サーバ側に処理が集中するため、端末数に比例して大規模な設備を用意する必要があり、コスト面で大きな問題となる。
さらに、第3の課題として、NW(ネットワーク)伝送に伴う遅延やパケット単価面でのユーザの使い勝手に関わる問題がある。サーバで処理を行う場合は、端末・サーバ間で学習用音声や合成音声をネットワークを用いて伝送する必要があるが、ネットワーク伝送に伴う遅延やパケットロスが生じるため、端末側で途切れのない合成音声の再生を行うためにはバッファリングするなどの処理が必要となる。この場合、当然待ち時間がかかることになる。また、従量制のパケット単価が設定されているような携帯電話のネットワーク等では、音声データの大量の配信にはユーザの費用負担が大きくなるという課題がある。
この発明の目的はこのような種々の課題を解決することができる分散型の音声学習・合成システム及び方法を提供することにある。
請求項1の発明によれば、入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成システムは、音声データ及びテキストが入力されるユーザ端末と、そのユーザ端末とネットワークを介して接続されたサーバとよりなり、ユーザ端末は音声データから特徴量を分析・抽出する特徴量分析部と、中間情報から合成音声を生成する波形生成部とを備え、サーバは上記特徴量を用いて音源DBを生成するDB生成部と、テキストから上記中間情報を生成する中間情報生成部とを備え、上記特徴量及びテキストがユーザ端末からサーバに送信され、上記中間情報がサーバからユーザ端末に送信される構成とされる。
請求項2の発明では請求項1の発明において、ユーザ端末は上記音源DBの送信をサーバに要求するDB要求部を備え、サーバは上記要求に基づき、ユーザ端末に上記音源DBを送信する構成とされる。
請求項3の発明によれば、入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成方法は、ネットワークを介して接続されたユーザ端末とサーバとを備え、学習は、ユーザ端末が入力された音声データから特徴量を分析・抽出する過程と、その特徴量をユーザ端末がサーバに送信する過程と、サーバが受信した特徴量を用いて音源DBを生成する過程とよりなる。合成は、ユーザ端末が入力されたテキストをサーバに送信する過程と、サーバが受信したテキストから中間情報を生成する過程と、その中間情報をサーバがユーザ端末に送信する過程と、ユーザ端末が受信した中間情報から合成音声を生成する過程とよりなる。
請求項4の発明では請求項3の発明において、ユーザ端末が上記音源DBの送信をサーバに要求する過程と、上記要求に基づき、サーバがユーザ端末に上記音源DBを送信する過程とを含む。
この発明によれば、ユーザ端末とサーバ間で処理を分担し、サーバ側で計算量や必要なメモリ量が大きな学習処理等を実行し、ユーザ端末側では計算量やメモリ量が少ない処理のみ実行するものとなっており、よってユーザ端末として例えば携帯端末の利用時においても、音声の学習処理の実行が可能となり、前述の第1の課題を解決することができる。
また、全ての処理をサーバのみで実行するのではなく、ユーザ端末側で一部の処理を実行することで、サーバ側で必要となる処理量を削減することが可能となり、結果としてユーザ端末あたりに用意すべきサーバ数の削減または低コストで計算能力の低いサーバを用いることが可能となるため、設備コストを削減することができ、前述の第2の課題を解決することができる。
さらに、1)合成時に中間情報のみ送信し、ユーザ端末側で中間情報から合成処理することで、サーバから合成音声を送信する場合と比較して送信データ量を少なくすることができるため、バッファリングするための待ち時間を短縮できる。
2)ランダムに発生するネットワーク遅延発生時において、音声を送信した場合は不意にバッファリングによる音声の途切れが生じ、聞き取りづらくなることが避けられないのに対し、アクセント句単位等の人が聞き取りやすいまとまった単位で中間情報を送信し、ユーザ端末側で音声に変換することにより、たとえ遅延が生じてもアクセント句等の単位となるため、聞きづらさを軽減することができる。
3)学習時にはユーザ端末側で分析処理を実行し、特徴量を送信することで、音声をそのまま送信するより送信データ量を削減することができ、合成時においてユーザ端末に中間情報のみ送信することと合わせて、ネットワークを通したユーザ端末・サーバ間のデータの送受信量を削減することができる。これにより、ユーザの費用負担を軽減することが
できる。
よって、これら1)〜3)の効果により、前述の第3の課題を解決することができる。
加えて、学習時における特徴量の分析処理と中間情報からの音声合成処理は理論的には逆過程であり、計算アルゴリズム的に共通する部分が多い。特徴量分析部と合成処理を行う波形生成部をユーザ端末に搭載することで、プログラムコード的には共通に使える部分も多くなり、ユーザ端末側に搭載すべきプログラムコードサイズも単純に学習部と合成部を載せる場合に比べて削減することができる。よって、プログラムの開発コストの削減や塔載メモリ量の少ない端末への適用も可能となるという効果も得ることができる。
この発明による音声学習・合成システムの一実施例の全体構成を示す図。 図1におけるユーザ端末の構成を示す図。 図1におけるサーバの構成を示す図。 この発明による音声学習・合成システムの一実施例の処理手順を説明するためのシーケンス図。
以下、この発明の実施形態を図面を参照して実施例により説明する。
図1はこの発明による音声学習・合成システムの一実施例の全体構成を示したものであり、ユーザ端末100とサーバ200とがネットワーク10を介して相互に接続されており、この例ではこれらユーザ端末100とサーバ200とによって音声学習・合成システムが構成される。
図2はユーザ端末100の構成を示したものであり、図2を参照して、まず、ユーザ端末100の構成を説明する。
ユーザ端末100はこの例では特徴量分析部110とテキスト前処理部120とDB要求部130と波形生成部140と入力部150と出力部160とネットワークインターフェース170と制御部180を備えている。学習用の音声データ及びテキストは入力部150から入力される。
特徴量分析部110は入力された学習用の音声データから特徴量(音声特徴量)を分析・抽出する。特徴量とは例えばスペクトル、基本周波数(F0)、音素の継続時間長等である。
テキスト前処理部120は入力されたテキストの種別に応じてテキストの前処理を行い、文字コードの変換やメールやHTMLテキストから音声合成の対象にならないタグやヘッダ等を除去する処理を行う。
波形生成部140はサーバ200から受信した中間情報から合成音声を生成する。中間情報とは例えば基本周波数(F0)、音素の継続時間長、モデルインデックス等である。中間情報から合成音声を生成する際に音源DB(データベース)が必要であれば利用する。なお、音源DBが必要かどうかは中間情報の内容に依存する。この点については後で詳述する。
DB要求部130は波形生成部140における合成音声生成の際に音源DBが必要であれば、サーバ200に音源DBの送信を要求する。図2ではこのように要求して受信し、保存された音源DB190を破線で図示している。
波形生成部140で生成された合成音声は出力部160から出力される。なお、制御部180はユーザ端末100の動作を全体的に制御し、ネットワークインターフェース170はネットワーク10との接続を担い、サーバ200との通信を可能とする。
次に、図3を参照してサーバ200の構成を説明する。
サーバ200はDB生成部210と中間情報生成部220とネットワークインターフェース230と制御部240を備えている。ネットワークインターフェース230はユーザ端末100との通信を行う。制御部240はサーバ200の動作を全体的に制御する。
DB生成部210はユーザ端末100より送信された特徴量を用いて、音声合成に必要な音源DBを生成する。音源DBは基本的には話者の特徴を有するものとする必要があるため、話者毎に異なるものが生成される。図3では話者毎に生成された音源DBを250〜250で示している。
中間情報生成部220はユーザ端末100より送信されたテキストから中間情報を生成する。
図4は上記のような構成を有するユーザ端末100及びサーバ200よりなる音声学習・合成システムの処理手順を示したものであり、以下、処理手順及び各処理の詳細を説明する。
〈学習〉
学習用音声データがユーザ端末100に入力される(ステップS11)。ユーザ端末100は入力された音声データから特徴量の分析・抽出を行う(ステップS12)。特徴量としては例えばスペクトル、基本周波数(F0)、音素の継続時間長がある。
スペクトルの分析方法には様々の方法があり、例えば古典的にはFFTによる周波数分析やLPC分析法によるスペクトル推定法がある。また、正弦波重畳モデルベースの推定法(亀岡他,“正弦波重畳モデルのパラメータ最適化アルゴリズムの導出”,信学技報,Vol.106,EA2000-97,pp.49-54,2006)、STRAIGHT分析法(H.Kawahara et al,“Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous- frequency-based F0 extraction:Possible role of a reptitive structure in sounds”,Speech Communication,Vol.27,No.3-4,pp.187-207,1999)等の方法が提案されている。
F0分析方法も様々な方法が提案されているが、例えば上述のSTRAIGHT分析法にはF0推定法も含まれており、F0推定の代表的な方法の一つである。
音素の継続時間長の推定法としては、HMMを用いた音素セグメンテーション(Ljolje A.,and Riley M.D.,“Automatic Segmentation and Labeling of Speech”,Proc. of ICASSP’91,pp.473-476,1991)が代表的な方法である。但し、どのような特徴量を分析するかは合成方法に依存し、決定され、合成時にF0や音素継続時間長のデータを必要としない場合はF0や音素継続時間を分析しなくてもよい。
分析・抽出された特徴量はサーバ200に送信される(ステップS13)。サーバ200は受信した特徴量を用いて音源DBを生成する(ステップS14)。
音源DBの生成方法としては様々な方法が存在するが、例えば素片ベースの場合、閉ループ方式(籠嶋他,“閉ループ学習に基づく最適な音声素片の解析的生成”,信学論,J83-D-II,No.6,pp.1405-1411,2000)のように、素片データベースのような形態が典型的であり、HMMのような統計モデルに基づく場合は、HMMに基づく話者モデル作成方法(前述の非特許文献1参照)が代表的な方法である。
〈合成〉
テキストがユーザ端末100に入力される(ステップS21)。ユーザ端末100は入力されたテキストの前処理を行い(ステップS22)、前処理を行ったテキストをサーバ200に送信する(ステップS23)。サーバ200は受信したテキストを解析して(ステップS24)、読み情報とアクセント等の韻律情報を決定する。
テキスト解析処理は、主に形態素解析処理と読み・アクセント付与処理からなるが、これらの処理方法については従来から様々な方法が存在し、例えば下記文献1や文献2に記載されている方法に基づいて処理を行うこともできる。
文献1:特許第3379643号公報「形態素解析方法および形態素解析プログラムを
記録した記録媒体」
文献2:特許第3518340号公報「読み韻律情報設定方法及び装置及び読み韻律情
報設定プログラムを格納した記憶媒体」
テキスト解析は中間情報生成部220で行われ、テキスト解析後、中間情報生成部220は中間情報を生成する(ステップS25)。生成された中間情報はサーバ200からユーザ端末100に送信される(ステップS26)。
中間情報生成は韻律パラメータ生成ステップと合成パラメータ生成ステップに大別される。
a)韻律パラメータ生成ステップ
形態素情報、読み、韻律情報に基づいて各種韻律パラメータを求める。ここで、韻律パラメータとしてはF0や音素継続時間長、パワー等があるが、それらを求める方式は従来から存在し、例えば下記文献3に記載されている方法によって音源DBに含まれるF0データに基づいてピッチ(基本周波数)を求めることが可能であり、音素継続時間長についても例えば下記文献4に記載されている方法で音源DBに含まれる継続時間長データに基づいて求めることが可能である。
文献3:特許第3240691号公報「音声認識方法」
文献4:M.D.Riley,“Tree-based modeling for speech synthesis”In G.Bailly,C.Benoit,and T.R.Sawallis,editors,Talking Machines:Theories,Models,and Designs,pp.265-273,Elsevier,1992
なお、古典的な点ピッチモデルや拍の等特性の継続時間モデルのように、完全に規則でF0や音素継続時間を決定するような方式を利用する場合は音源DBは必要としない。
b)合成パラメータ生成ステップ
前述の韻律パラメータを用いて合成に必要な情報を生成する。具体的にどのような情報を生成するかは合成方法に依存する。
b−1)素片接続型の場合
上記のとおり求められた読み情報や韻律パラメータに適合する最適な素片の組み合わせとなる素片系列を音源DBに基づいて決定する。例えば、下記文献5に記載されている方法のようにして合成単位の系列は決定できる。
文献5:特許第3515406号公報「音声合成方法及び装置」
この後の処理(中間情報生成及び中間情報送信)は2通りの形態がある。一つは合成パラメータとして素片データの音源DB中の位置を示す素片インデックス情報のみを中間情報として送信する形態である。もう一つの形態はインデックス情報に基づいて順次、素片データを音源DBから読み出し、素片データを結合してスペクトル特徴量の系列まで生成した後、スペクトル特徴量を中間情報として送信する形態である。
b−2)統計モデル型の場合
例えば前述の吉村らの論文(非特許文献1)の方法のとおり、上記の読み情報と韻律パラメータから決定木を用いて最適なコンテキスト依存型HMMモデルを選択する。
この後の処理(中間情報生成及び中間情報送信)は素片接続型と同様に2通りの形態がある。一つは合成パラメータとして、音源DB中に含まれるどのモデルであるかを示すモデルインデックス情報のみを中間情報として送信する形態である。もう一つの形態はインデックス情報に基づいて順次、モデルデータを音源DBから読み出し、前述の吉村らの論文のとおり、モデルからスペクトル特徴量の系列を生成した後、スペクトル特徴量を中間情報として送信する形態である。
ユーザ端末100は中間情報を受信すると、その受信した中間情報から合成音声を生成する(ステップS27)。上記b−1),b−2)のいずれの場合においても、スペクトル特徴量の系列を中間情報として受信した場合は、音源DBは不要であり、スペクトル特徴量の系列から単に音声波形を生成する。音声波形の生成方法はスペクトル特徴量の分析方法に依存する。例えば、前述のSTRAIGHT分析法で分析された特徴量であれば、STRAIGHT合成方式で合成すればよい。
一方、b−1)の場合において、中間情報として素片インデックス情報を受信する場合には、音源DBがユーザ端末100側に必要であり、音声合成前にサーバ200より音源DBを受信しておく必要がある。ユーザ端末100はサーバ200に音源DBの送信を要求し(ステップS31)、サーバ200はその要求に基づき、音源DBをユーザ端末100に送信する(ステップS32)。
ユーザ端末100の波形生成部140は素片インデックス情報に基づいて順次、素片データを音源DBから読み出し、素片データを結合してスペクトル特徴量を生成し、その後、上記のとおりスペクトル特徴量から音声波形を生成する。
b−2)の場合において、中間情報としてモデルインデックス情報を受信する場合にも、音源DBがユーザ端末100側に必要であり、ユーザ端末100はサーバ200に音源DBの送信を要求し(ステップS31)、サーバ200はその要求に基づき、音源DBをユーザ端末100に送信する(ステップS32)。
ユーザ端末100の波形生成部140はインデックス情報に基づいて順次、モデルデータを音源DBから読み出し、前述の吉村らの論文のとおり、モデルからスペクトル特徴量の系列を生成した後、上記のとおりスペクトル特徴量から音声波形を生成する。
以上説明したように、この例では音声学習・合成に関わる処理のうち、音声入力直後の処理や音声出力直前の処理などユーザへのインターフェースに近い処理かつ比較的軽い処理はユーザ端末100側で実行するものとなっており、言い換えれば特徴量分析と音声合成処理という計算処理上、共通点が多い処理をユーザ端末100側で実行するものとなっている。
なお、ユーザ端末100は電話等の携帯端末に限らず、例えばPC(パーソナルコンピュータ)等であってもよく、PCの場合、複数のユーザ(話者)が共用するといった形態がある。この場合、各話者に対する音声合成の方式は異なっていてもよく、つまりサーバ200において生成される中間情報の内容は各話者によって異なっていてもよい。ユーザ端末100において音源DBが必要かどうかは音声合成の方式に依存するため、ユーザ端末100が音源DBを保持するかどうかは話者毎に決まり、つまり話者によって音源DBの有無が異なるといった状況が生じる。

Claims (4)

  1. 入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成システムであって、
    上記音声データ及び上記テキストが入力されるユーザ端末と、そのユーザ端末とネットワークを介して接続されたサーバとよりなり、
    上記ユーザ端末は、上記音声データから、スペクトル、基本周波数(F0)、音素の継続時間長を含む特徴量を分析・抽出する特徴量分析部と、中間情報から上記合成音声を生成する波形生成部とを備え、
    上記サーバは、上記特徴量を用いて音源DBを生成するDB生成部と、上記テキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータからなる上記中間情報を生成する中間情報生成部とを備え、
    上記特徴量及び上記テキストが上記ユーザ端末から上記サーバに送信され、
    上記中間情報が上記サーバから上記ユーザ端末に送信される構成とされていることを特徴とする音声学習・合成システム。
  2. 請求項1記載の音声学習・合成システムにおいて、
    上記ユーザ端末は、上記中間情報として素片インデックス情報を受信する場合には、上記音源DBの送信を上記サーバに要求するDB要求部を備え、
    上記サーバは上記要求に基づき、上記ユーザ端末に上記音源DBを送信する構成とされ、
    上記合成パラメータは、上記音源DBのインデックス情報である
    ことを特徴とする音声学習・合成システム。
  3. 入力された音声データを学習し、その学習に基づき、入力されたテキストに対して合成音声を生成する音声学習・合成方法であって、
    ネットワークを介して接続されたユーザ端末とサーバとを備え、
    上記学習は、
    上記ユーザ端末が入力された音声データから、スペクトル、基本周波数(F0)、音素の継続時間長を含む特徴量を分析・抽出する過程と、
    その特徴量を上記ユーザ端末が上記サーバに送信する過程と、
    上記サーバが受信した特徴量を用いて音源DBを生成する過程とよりなり、
    上記合成は、
    上記ユーザ端末が入力されたテキストを上記サーバに送信する過程と、
    上記サーバが受信したテキストを解析して求めた韻律パラメータ、および当該韻律パラメータを用いて生成された合成に必要な合成パラメータから中間情報を生成する過程と、
    その中間情報を上記サーバが上記ユーザ端末に送信する過程と、
    上記ユーザ端末が受信した中間情報から合成音声を生成する過程とよりなることを特徴とする音声学習・合成方法。
  4. 請求項記載の音声学習・合成方法において、
    上記ユーザ端末が、上記中間情報として素片インデックス情報を受信する場合には、上記音源DBの送信を上記サーバに要求する過程と、
    上記要求に基づき、上記サーバが上記ユーザ端末に上記音源DBを送信する過程とを含み、
    上記合成パラメータは、上記音源DBのインデックス情報である
    ことを特徴とする音声学習・合成方法。
JP2009083164A 2009-03-30 2009-03-30 音声学習・合成システム及び音声学習・合成方法 Active JP5049310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009083164A JP5049310B2 (ja) 2009-03-30 2009-03-30 音声学習・合成システム及び音声学習・合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009083164A JP5049310B2 (ja) 2009-03-30 2009-03-30 音声学習・合成システム及び音声学習・合成方法

Publications (2)

Publication Number Publication Date
JP2010237307A JP2010237307A (ja) 2010-10-21
JP5049310B2 true JP5049310B2 (ja) 2012-10-17

Family

ID=43091703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009083164A Active JP5049310B2 (ja) 2009-03-30 2009-03-30 音声学習・合成システム及び音声学習・合成方法

Country Status (1)

Country Link
JP (1) JP5049310B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03112225A (ja) * 1989-09-26 1991-05-13 Nec Corp 音声伝送装置
JP3446764B2 (ja) * 1991-11-12 2003-09-16 富士通株式会社 音声合成システム及び音声合成サーバ
JP3805065B2 (ja) * 1997-05-22 2006-08-02 富士通テン株式会社 車載用音声合成装置
JP2000151827A (ja) * 1998-11-12 2000-05-30 Matsushita Electric Ind Co Ltd 電話音声認識システム
JP2000356995A (ja) * 1999-04-16 2000-12-26 Matsushita Electric Ind Co Ltd 音声通信システム
JP2002196780A (ja) * 2000-12-26 2002-07-12 Advanced Telecommunication Research Institute International 通信システム
JP2002358092A (ja) * 2001-06-01 2002-12-13 Sony Corp 音声合成システム
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
JP3806030B2 (ja) * 2001-12-28 2006-08-09 キヤノン電子株式会社 情報処理装置及び方法
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム
JP4653572B2 (ja) * 2005-06-17 2011-03-16 日本電信電話株式会社 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム

Also Published As

Publication number Publication date
JP2010237307A (ja) 2010-10-21

Similar Documents

Publication Publication Date Title
US10553201B2 (en) Method and apparatus for speech synthesis
CN106898340B (zh) 一种歌曲的合成方法及终端
JP5598998B2 (ja) 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
CN111899719A (zh) 用于生成音频的方法、装置、设备和介质
CN111402843B (zh) 说唱音乐生成方法、装置、可读介质及电子设备
CN101872615A (zh) 用于分布式文本到话音合成以及可理解性的系统和方法
CN108831437A (zh) 一种歌声生成方法、装置、终端和存储介质
CN111161695B (zh) 歌曲生成方法和装置
US20230206897A1 (en) Electronic apparatus and method for controlling thereof
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
US20140236597A1 (en) System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis
CN113658577B (zh) 一种语音合成模型训练方法、音频生成方法、设备及介质
CN116129863A (zh) 语音合成模型的训练方法、语音合成方法及相关装置
Panda et al. An efficient model for text-to-speech synthesis in Indian languages
CN113327576B (zh) 语音合成方法、装置、设备及存储介质
CN112185340B (zh) 语音合成方法、语音合成装置、存储介质与电子设备
CN111862933A (zh) 用于生成合成语音的方法、装置、设备和介质
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
CN113299271B (zh) 语音合成方法、语音交互方法、装置及设备
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
CN113948062A (zh) 数据转换方法及计算机存储介质
CN114333758A (zh) 语音合成方法、装置、计算机设备、存储介质和产品
KR101611224B1 (ko) 오디오 인터페이스
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
KR102376552B1 (ko) 음성 합성 장치 및 음성 합성 방법

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120410

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120720

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5049310

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350