JP2011028131A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2011028131A JP2011028131A JP2009175903A JP2009175903A JP2011028131A JP 2011028131 A JP2011028131 A JP 2011028131A JP 2009175903 A JP2009175903 A JP 2009175903A JP 2009175903 A JP2009175903 A JP 2009175903A JP 2011028131 A JP2011028131 A JP 2011028131A
- Authority
- JP
- Japan
- Prior art keywords
- tone
- speech
- hmm
- database
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】テキストの内容にかかわらず口調の選択を可能にした音声合成装置を提供する。
【解決手段】基準話者について異なる口調の情報を有するHMMパラメータが格納された複数個の基準話者データベース14a,14bを備える。波形生成部12は、口調選択手段33により選択された口調のHMMパラメータを格納した基準話者データベース14a,14bを選択し、選択した基準話者データベース14a,14bに格納されたHMMパラメータを用いて合成音声を出力する。
【選択図】図1
【解決手段】基準話者について異なる口調の情報を有するHMMパラメータが格納された複数個の基準話者データベース14a,14bを備える。波形生成部12は、口調選択手段33により選択された口調のHMMパラメータを格納した基準話者データベース14a,14bを選択し、選択した基準話者データベース14a,14bに格納されたHMMパラメータを用いて合成音声を出力する。
【選択図】図1
Description
本発明は、入力されたテキストに応じた合成音声を出力する音声合成装置に関するものである。
この種の音声合成装置には、漢字仮名混じりのテキストを入力すると、入力されたテキストに対応した合成音声を生成する装置が提供されている(たとえば、特許文献1)。特許文献1に記載された音声合成装置は、状況に応じた音声案内を行うものであり、状況に応じて合成音声の口調を切り換える構成を採用している。
特許文献1では、口調を声質と韻律とにより特徴付けており、声質は主として周波数領域に現れる特徴とし、韻律は、ピッチ、パワー、話速などを含んでいると定義し、明るい口調、警告口調、優しい口調などの口調を表現するパラメータを口調データとして登録してあり、音声波形を生成する際に登録した口調データの中から必要な口調データを選択して用いる構成が採用されている。
上述した特許文献1に記載の技術では、口調を考慮して合成音声を生成しているが、口調はテキストに結合されており、利用者が所望の口調を選択することはできない。たとえば、任意のテキストに対応する合成音声の口調を変更可能として、登録した口調とは異なる口調で合成音声を出力させることはできない。
本発明は上記事由に鑑みて為されたものであり、その目的は、テキストにかかわらず口調を選択可能にした音声合成装置を提供することにある。
請求項1の発明は、テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するHMMパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからHMMパラメータを探索し探索したHMMパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の口調を指示する口調選択手段とを有し、波形生成部は、口調選択手段により指示された口調のHMMパラメータを、音声波形データベースのHMMパラメータに含まれる口調のHMMパラメータに係数を適用することにより生成することを特徴とする。
請求項2の発明では、請求項1の発明において、前記音声波形データベースは、所定の話者について口調の異なるHMMパラメータが格納された複数個の話者データベースを有し、前記口調選択手段が選択する口調に応じて話者データベースに格納されたHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値を重み付け加算するための重み係数を配合ルールとして格納した配合ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の配合ルールである重み係数を各話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に適用して指示された口調の合成音声を出力することを特徴とする。
請求項3の発明では、請求項1の発明において、前記口調選択手段が選択する口調のうちのいずれかの口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の口調韻律ルールである係数を前記音声波形データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする。
請求項4の発明では、請求項1〜3のいずれかの発明において、情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記音声波形データベースとを備え、クライアントコンピュータは、前記テキスト入力手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする。
請求項1の発明の構成によれば、口調選択手段により口調を指示することで、音声波形データベースのHMMパラメータに含まれる口調の情報を用いて口調のHMMパラメータを生成するから、所望の口調の合成音声を出力することが可能になる。すなわち、合成音声について、テキストの内容にかかわらず口調(読み上げ口調、明るい口調、優しい口調など)が選択可能になる。
請求項2の発明の構成によれば、口調の異なるHMMパラメータが格納された複数個の話者データベースを設け、さらに、各話者データベースに格納されたHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値について口調選択手段から指示された口調に対応する配合ルールを適用して重み付け加算し、配合ルールを適用したHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値を用いて合成音声を生成するから、話者データベースの個数よりも多くの種類の口調を実現することが可能になる。
請求項3の発明の構成によれば、口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数を口調韻律ルールとして格納した口調韻律ルールデータベースを設け、口調選択手段により口調を指示すると口調韻律ルールを選択して、音声波形データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることで、所望の口調の合成音声を生成するから、口調韻律ルールを登録するだけで、様々な口調を実現することができる。この場合、合成音声の全体について同様の口調になるから、いわば大域的な口調の制御が可能になる。
請求項4の発明の構成によれば、サーバコンピュータにおいて音声合成および話者適応を行い、サーバコンピュータとは情報通信網を介して通信可能なクライアントコンピュータにおいてテキストの入力、口調の選択を行うから、クライアントコンピュータを情報通信網に接続するだけで、場所を選ばずに合成音声を利用することが可能になる。また、処理負荷の大きい音声合成の処理はサーバコンピュータで一括して行うから、クライアントコンピュータには大きなハードウェアリソースが不要になる。
(共通構成)
以下に説明する各実施形態では、HMM(Hidden Markov Model)に基づく音声合成の技術を採用している。HMMのパラメータは、スペクトル、基本周波数、時間継続長の3種類のパラメータで表される。以下の説明において、「口調」は、読み上げ口調、明るい口調、優しい口調などの口調であり、主としてピッチ、音素の時間継続長、パワー、話速のような韻律情報に対応付けられる。たとえば、明るい口調はピッチが高くなり、優しい口調は話速が遅くなる。また、「話者」は、アナウンサなどの基準話者のほか、利用者自身や利用者の家族などの特定の個人を意味し、主としてスペクトル成分により決まる声質に対応付けられる。すなわち、基準話者ではない話者は、利用者自身の声や利用者の家族の声などの特定の個人の声に対応付けられる。
以下に説明する各実施形態では、HMM(Hidden Markov Model)に基づく音声合成の技術を採用している。HMMのパラメータは、スペクトル、基本周波数、時間継続長の3種類のパラメータで表される。以下の説明において、「口調」は、読み上げ口調、明るい口調、優しい口調などの口調であり、主としてピッチ、音素の時間継続長、パワー、話速のような韻律情報に対応付けられる。たとえば、明るい口調はピッチが高くなり、優しい口調は話速が遅くなる。また、「話者」は、アナウンサなどの基準話者のほか、利用者自身や利用者の家族などの特定の個人を意味し、主としてスペクトル成分により決まる声質に対応付けられる。すなわち、基準話者ではない話者は、利用者自身の声や利用者の家族の声などの特定の個人の声に対応付けられる。
まず、以下の実施形態に共通する構成を図1に示す。図示する装置は、合成音声を生成する合成部10を有している。合成部10は、入力されたテキストを音素列に変換するとともに各音素について前後の音素・アクセント型・品詞・音素継続長などのコンテキスト情報を抽出する言語解析部11と、HMMパラメータが格納された音声波形データベース13(図は実施形態1を示している)と、言語解析部11から与えられる音素列およびコンテキスト情報を用いて、音声波形データベース13に格納されたHMMパラメータを接続することにより音声波形を生成する波形生成部12とにより構成される。
言語解析部11に入力されるテキストは漢字仮名混じりテキストであり、キーボードのようなテキスト入力手段31を用いて利用者により入力される。もちろん、テキストは漢字仮名混じりテキストではなく、仮名テキストやローマ字テキストなどでもよいがコンテキスト情報を抽出するためには、漢字仮名混じりテキストが有効である。
以下に説明する実施形態においては、テキスト入力手段31は、合成部10を備えるコンピュータとは別のコンピュータに設けられており、両コンピュータの間で、インターネットやローカルエリアネットワークのような情報通信網NTを介してデータ通信を行う場合を例示している。ただし、合成部10とともにテキスト入力手段31が1台のコンピュータに設けられた構成を採用することも可能である。
音声波形データベース13に格納されたHMMパラメータは、スペクトル成分、ピッチ、音素の時間継続長の3種類のHMMパラメータからなる。上述のように、話者の声質は主としてスペクトル成分により決まり、口調は主として音素の時間継続長およびピッチ(基本周波数)により決まる。また、HMMパラメータは、それぞれコンテキスト情報に対応付けてクラスタリングがなされた状態で音声波形データベース13に格納されている。
したがって、波形生成部12は、言語解析部11から与えられたコンテキスト情報を音声波形データベース13に照合し、該当するHMMパラメータをそれぞれ探索する。また、探索したHMMパラメータの値から、音素の時間継続長を探索して音素の長さを決定し、音素の長さに合わせてピッチおよびスペクトル成分の値を探索することで、ピッチ列とスペクトル列とを求め、HMMパラメータから合成音声の波形を生成する。波形成形部12において、口調の選択は口調選択手段33により指示される。つまり、波形生成部12は、音声波形データベース13に格納されたHMMパラメータを用いて、指示された口調を付与した音声波形を生成する。波形生成部12で生成された合成音声(音声波形)は、スピーカを備えた音声再生手段34から出力される。
図示例では、合成部10を備えるコンピュータとは別のコンピュータに口調選択手段33を設け、また、音声再生手段34も合成部10とは別に設け、情報通信網NTを介してデータ通信を行う場合を例示しているが、テキスト入力手段31と同様に口調選択手段33、音声再生手段34を合成部10と同じコンピュータに設けてもよい。口調の制御(口調を付与した音声波形の生成)の技術については、各実施形態において説明する。
なお、上述したように、情報通信網NTを用いる構成は必須ではないが、以下に説明する各実施形態では、合成部10がサーバコンピュータ1に設けられ、テキスト入力手段31、口調選択手段33、音声再生手段34がクライアントコンピュータ2に設けられ、サーバコンピュータ1とクライアントコンピュータ2が、インターネットのような情報通信網NTを介して通信可能である構成として説明する。クライアントコンピュータ2に設けたテキスト入力手段31、口調選択手段33は、クライアントコンピュータ2で実行されるウェブブラウザの表示画面において提供される。
すなわち、クライアントコンピュータ2からサーバコンピュータ1にアクセスし、合成音声を生成するサービスの享受を開始すると、ウェブブラウザの表示画面には、テキストを入力するフィールドが表示される。テキストをフィールドに入力してサーバコンピュータ1に送信すると、サーバコンピュータ1の合成部10において音声波形データベース13に格納されているHMMパラメータを用いて合成音声が生成される。サーバコンピュータ1で合成音声の生成が完了すると、クライアントコンピュータ2に通知されるから、クライアントコンピュータ2においてダウンロードを行うことが可能になる。なお、全文をダウンロードするのではなく、一部の試聴を行うことも可能である。
サーバコンピュータ1の波形生成部12では、口調選択手段33で選択された口調に応じて以下の実施形態において説明する技術を適用し、口調選択手段33により選択された口調の合成音声を生成する。
(参考例)
本例は、図1に示すように、音声波形データベース13に、話者データベースとして2個の基準話者データベース14a,14bを設けている。各基準話者データベース14a,14bには、基準話者について口調の異なるHMMパラメータが格納される。基準話者データベース14a,14には、1人の話者から得られたHMMパラメータまたは複数人の話者から得られたHMMパラメータの平均値が格納される。ここでは、一方の基準話者データベース14aには、テキストを読み上げ口調で読んだときの音声データにより生成したHMMパラメータを格納し、他方の基準話者データベース14bには、テキストを明るい口調で読んだときの音声データにより生成したHMMパラメータを格納しているものとする。基準話者データベース14a,14bはあらかじめ作成されるが、話者データベースとして、利用者などの特定話者が作成した特定話者データベースを用いることも可能である。
本例は、図1に示すように、音声波形データベース13に、話者データベースとして2個の基準話者データベース14a,14bを設けている。各基準話者データベース14a,14bには、基準話者について口調の異なるHMMパラメータが格納される。基準話者データベース14a,14には、1人の話者から得られたHMMパラメータまたは複数人の話者から得られたHMMパラメータの平均値が格納される。ここでは、一方の基準話者データベース14aには、テキストを読み上げ口調で読んだときの音声データにより生成したHMMパラメータを格納し、他方の基準話者データベース14bには、テキストを明るい口調で読んだときの音声データにより生成したHMMパラメータを格納しているものとする。基準話者データベース14a,14bはあらかじめ作成されるが、話者データベースとして、利用者などの特定話者が作成した特定話者データベースを用いることも可能である。
このように、基準話者について、読み上げ口調と明るい口調との2種類の口調のHMMパラメータを格納した2個の基準話者データベース14a,14bを設け、波形成形部13において、口調選択手段33に指示された口調のHMMパラメータが得られるように、2個の基準話者データベース14a,14bの一方を選択することで、読み上げ口調および明るい口調以外の口調の合成音声を生成している。
すなわち、口調選択手段33により読み上げ口調を選択すると、波形生成部12では、基準話者データベース14aを選択し、基準話者データベース14aに格納されたHMMパラメータを用いて合成音声を生成する。また、口調選択手段33により明るい口調を選択すると、波形成形部13では、基準話者データベース14bを選択し、基準話者データベース14bに格納されたHMMパラメータを用いて合成音声を生成する。したがって、どのようなテキストの内容にかかわらず、読み上げ口調と明るい口調との選択が可能になる。
なお、2種類の口調の基準話者データベース14a,14bとして利用しやすい読み上げ口調と明るい口調とを例示したが、他の口調の組み合わせであってもよいのはもちろんのことである。また、3種類以上の口調について基準話者データベースを設けることが可能ではあるが、HMMパラメータの学習に膨大な時間を要するから現実的ではなく、2種類の口調の基準話者データベースを用いるだけでも十分に実用に供するものである。他の構成および動作は共通構成と同様である。
(実施形態1)
参考例では、口調の異なる2種類の基準話者データベース14a,14bを設けるとともに、波形成形部12が口調選択手段33により指示された一方の基準話者データベース14a,14bを選択する構成を採用しているが、本実施形態では、図2に示すように、基準話者データベース14a,14bに格納された口調に関するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値の重み付け加算を行うための重み係数である配合ルールを格納した配合ルールデータベース16を設け、波形生成部12において合成音声を生成する際に、配合ルールを適用することによって、合成音声の口調を制御する。
参考例では、口調の異なる2種類の基準話者データベース14a,14bを設けるとともに、波形成形部12が口調選択手段33により指示された一方の基準話者データベース14a,14bを選択する構成を採用しているが、本実施形態では、図2に示すように、基準話者データベース14a,14bに格納された口調に関するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値の重み付け加算を行うための重み係数である配合ルールを格納した配合ルールデータベース16を設け、波形生成部12において合成音声を生成する際に、配合ルールを適用することによって、合成音声の口調を制御する。
上述したように、音声波形データベース13には、3種類のHMMパラメータ(スペクトル成分、ピッチ、音素の時間継続長)が格納されている。本実施形態では、これらのHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対して重み付け加算を行うための重み係数の組を口調ごとに規定した表1のような配合ルールを設定し、配合ルールを格納した配合ルールデータベース16を設けている。波形生成部12において合成音声を生成する際には、口調選択手段33により指示された口調に対応する配合ルール(重み係数の組)を配合ルールデータベース16から抽出し、配合ルールによる重み付き加算を行うことにより合成音声の口調を制御する。
配合ルールを実際に適用するにあたっては、言語解析部11によりテキストから抽出した音素列(ここでは、コンテキスト情報を含むコンテキストラベル列)に従って、各口調の基準話者データベース14a,14bのHMMパラメータからそれぞれ文HMMパラメータを作成する。文HMMパラメータは、基準話者データベース14a,14bの個数分だけ生成される。
次に、各文HMMパラメータのスペクトル成分、ピッチ、音素の時間継続長の各分布の統計値に基づいて表1の重み係数(配合ルール)を適用して重み付け加算を行い、新たな文HMMパラメータを生成するのである。波形生成部12では、新たに生成した文HMMパラメータからスペクトル成分とピッチとのHMMパラメータを生成する。すなわち、新たな口調の合成音声を生成することが可能になる。
上述のように波形生成部12において、口調に関するHMMパラメータの重み付け加算を行うことにより、複数の口調の補間を行うことになるから、音声波形データベース12に登録されている口調以外の口調であっても合成音声として出力することが可能になる。他の構成および動作は共通構成と同様である。
(実施形態3)
実施形態1、2では、口調の異なる2種類の基準話者データベース14a,14bを用いる例を示したが、本実施形態では、話者データベースとして1種類の口調(読み上げ口調が望ましい)の特定話者データベース15を用いる例を示す。特定話者データベースは、基準話者ではない特定の話者の音声を用いて作成したHMMパラメータを登録したものである。
実施形態1、2では、口調の異なる2種類の基準話者データベース14a,14bを用いる例を示したが、本実施形態では、話者データベースとして1種類の口調(読み上げ口調が望ましい)の特定話者データベース15を用いる例を示す。特定話者データベースは、基準話者ではない特定の話者の音声を用いて作成したHMMパラメータを登録したものである。
口調を決める要素には、ピッチおよび音素の時間継続長だけでなく、話速やパワーもある。これらの要素は韻律情報に含まれている。以下では、口調を決める韻律情報を口調韻律ルールと呼ぶ。口調韻律ルールは、読み上げ口調のピッチ、話速、パワーを表すパラメータに対して、表2に示す係数で表すことができる。口調韻律ルールは、基準話者の複数の口調(たとえば、読み上げ口調、明るい口調、優しい口調など)から求めたHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値を比較することにより作成される。
したがって、口調選択部33により指示される口調に対応する口調韻律ルールを規定しておくことで、波形生成部12では、特定話者データベース15に格納されている特定話者の読み上げ口調でのHMMパラメータから任意の口調の合成音声を生成することが可能になる。表2では、ピッチ、話速、パワーについて、ダイナミクスを含めて記載してあり、このダイナミクスの値が大きくなるほど抑揚が大きくなる。
口調韻律ルールは、図3に示すように、波形成形部13に付設した口調韻律ルールデータベース17に登録されている。口調韻律ルールデータベース17では、上述した係数が口調に対応付けて格納されており、口調選択部33において口調を選択すると、口調韻律ルールである係数の組み合わせが選択される。
波形成形部13では、口調選択手段33で選択された口調に対応する口調韻律ルールを口調韻律ルールデータベース17から抽出し、HMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に口調韻律ルールを適用することによって、所望の口調の合成音声を出力する。
本実施形態の構成では、口調韻律ルールによって、口調を表すHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値の全体に係数を乗じるから、いわば大域的に合成音声を制御していることになる。たとえば、合成音声のピッチを一律に2倍にしたり、話速を一律に2倍にしたりすることにより口調を制御することになる。
上述したように、本実施形態の構成では、複数の口調を生成するために、複数の基準話者データベースを設ける必要がなく、実施形態1、2の構成に比較して音声波形データベース13に格納するデータ量を低減することができる。他の構成および動作は共通構成と同様である。
なお、実施形態1、2のように複数個(図示例では2個)の基準話者データベース14a,14bを用いる場合に、所要の口調(読み上げ口調が望ましい)の基準話者データベース14aのみを基準話者の実音声を用いて作成し、他の口調の基準話者データベース14bは口調韻律ルールを適用して生成することが可能である。この場合、複数個の基準話者データベース14a,14bを基準話者の実音声で作成する場合よりも、基準話者の負担を軽減することができる。
1 サーバコンピュータ
2 クライアントコンピュータ
10 合成部
11 言語解析部
12 音声波形データベース
13 波形生成部
14a,14b 基準話者データベース
15 特定話者データベース
16 配合ルールデータベース
17 口調韻律ルールデータベース
31 テキスト入力手段
33 口調選択手段
34 音声出力手段
NT 情報通信網
2 クライアントコンピュータ
10 合成部
11 言語解析部
12 音声波形データベース
13 波形生成部
14a,14b 基準話者データベース
15 特定話者データベース
16 配合ルールデータベース
17 口調韻律ルールデータベース
31 テキスト入力手段
33 口調選択手段
34 音声出力手段
NT 情報通信網
Claims (4)
- テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するHMMパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからHMMパラメータを探索し探索したHMMパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の口調を指示する口調選択手段とを有し、波形生成部は、口調選択手段により指示された口調のHMMパラメータを、音声波形データベースのHMMパラメータに含まれる口調のHMMパラメータに係数を適用することにより生成することを特徴とする音声合成装置。
- 前記音声波形データベースは、所定の話者について口調の異なるHMMパラメータが格納された複数個の話者データベースを有し、前記口調選択手段が選択する口調に応じて話者データベースに格納されたHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値を重み付け加算するための重み係数を配合ルールとして格納した配合ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の配合ルールである重み係数を各話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に適用して指示された口調の合成音声を出力することを特徴とする請求項1記載の音声合成装置。
- 前記口調選択手段が選択する口調のうちのいずれかの口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記口調選択手段により指示された口調の口調韻律ルールである係数を前記音声波形データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする請求項1記載の音声合成装置。
- 情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記音声波形データベースとを備え、クライアントコンピュータは、前記テキスト入力手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする請求項1〜3のいずれか1項に記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009175903A JP2011028131A (ja) | 2009-07-28 | 2009-07-28 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009175903A JP2011028131A (ja) | 2009-07-28 | 2009-07-28 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011028131A true JP2011028131A (ja) | 2011-02-10 |
Family
ID=43636918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009175903A Withdrawn JP2011028131A (ja) | 2009-07-28 | 2009-07-28 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011028131A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
JP2013250486A (ja) * | 2012-06-01 | 2013-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 音声波形データベース生成装置、方法、プログラム |
WO2015092936A1 (ja) * | 2013-12-20 | 2015-06-25 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JP2016066088A (ja) * | 2012-03-14 | 2016-04-28 | 株式会社東芝 | 音声合成方法、装置及びプログラム |
WO2018013823A1 (en) * | 2016-07-13 | 2018-01-18 | Smule, Inc. | Crowd-sourced technique for pitch track generation |
CN112581935A (zh) * | 2019-09-27 | 2021-03-30 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
US20240029710A1 (en) * | 2018-06-19 | 2024-01-25 | Georgetown University | Method and System for a Parametric Speech Synthesis |
-
2009
- 2009-07-28 JP JP2009175903A patent/JP2011028131A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
JP2016066088A (ja) * | 2012-03-14 | 2016-04-28 | 株式会社東芝 | 音声合成方法、装置及びプログラム |
JP2013250486A (ja) * | 2012-06-01 | 2013-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 音声波形データベース生成装置、方法、プログラム |
WO2015092936A1 (ja) * | 2013-12-20 | 2015-06-25 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
JPWO2015092936A1 (ja) * | 2013-12-20 | 2017-03-16 | 株式会社東芝 | 音声合成装置、音声合成方法およびプログラム |
US9830904B2 (en) | 2013-12-20 | 2017-11-28 | Kabushiki Kaisha Toshiba | Text-to-speech device, text-to-speech method, and computer program product |
WO2018013823A1 (en) * | 2016-07-13 | 2018-01-18 | Smule, Inc. | Crowd-sourced technique for pitch track generation |
US10460711B2 (en) | 2016-07-13 | 2019-10-29 | Smule, Inc. | Crowd sourced technique for pitch track generation |
US20240029710A1 (en) * | 2018-06-19 | 2024-01-25 | Georgetown University | Method and System for a Parametric Speech Synthesis |
US12020687B2 (en) * | 2018-06-19 | 2024-06-25 | Georgetown University | Method and system for a parametric speech synthesis |
CN112581935A (zh) * | 2019-09-27 | 2021-03-30 | 苹果公司 | 环境感知语音辅助设备以及相关系统和方法 |
US12087284B1 (en) | 2019-09-27 | 2024-09-10 | Apple Inc. | Environment aware voice-assistant devices, and related systems and methods |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3823930B2 (ja) | 歌唱合成装置、歌唱合成プログラム | |
KR101274961B1 (ko) | 클라이언트단말기를 이용한 음악 컨텐츠 제작시스템 | |
JP5949607B2 (ja) | 音声合成装置 | |
JP2011028130A (ja) | 音声合成装置 | |
JP2011028131A (ja) | 音声合成装置 | |
CN1675681A (zh) | 客户机-服务器语音定制 | |
WO2010004978A1 (ja) | 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法 | |
CN108053814B (zh) | 一种模拟用户歌声的语音合成系统及方法 | |
CN101176146A (zh) | 声音合成装置 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
US20220076651A1 (en) | Electronic musical instrument, method, and storage medium | |
JP2009139677A (ja) | 音声処理装置及びそのプログラム | |
Macon et al. | Concatenation-based midi-to-singing voice synthesis | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP4277697B2 (ja) | 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末 | |
JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
JP6167503B2 (ja) | 音声合成装置 | |
JP4841339B2 (ja) | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JPH05100692A (ja) | 音声合成装置 | |
JP3625426B2 (ja) | 音声合成装置 | |
JP6299141B2 (ja) | 楽音情報生成装置および楽音情報生成方法 | |
JPH07140996A (ja) | 音声規則合成装置 | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP6191094B2 (ja) | 音声素片切出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20120118 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20121002 |