JP2011028130A - 音声合成装置 - Google Patents

音声合成装置 Download PDF

Info

Publication number
JP2011028130A
JP2011028130A JP2009175862A JP2009175862A JP2011028130A JP 2011028130 A JP2011028130 A JP 2011028130A JP 2009175862 A JP2009175862 A JP 2009175862A JP 2009175862 A JP2009175862 A JP 2009175862A JP 2011028130 A JP2011028130 A JP 2011028130A
Authority
JP
Japan
Prior art keywords
speaker
tone
database
hmm
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009175862A
Other languages
English (en)
Inventor
Masaya Hanazono
正也 花園
Takashi Nishiyama
高史 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Panasonic Electric Works Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Electric Works Co Ltd filed Critical Panasonic Electric Works Co Ltd
Priority to JP2009175862A priority Critical patent/JP2011028130A/ja
Publication of JP2011028130A publication Critical patent/JP2011028130A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】所望の特定話者の声を有した合成音声を出力可能にし、かつ口調も選択可能にした音声合成装置を提供する。
【解決手段】基準話者の声質および口調の情報を有するHMMパラメータが格納された基準話者データベース14を備える。話者適応部21は、音声入力手段35から入力された特定話者の音声データを用いて話者適応を行い、基準話者データベース14のHMMパラメータを変換して特定話者データベース15に格納する。話者選択手段32は、基準話者データベース14と特定話者データベース15とから話者を選択する。口調のHMMパラメータは、基準話者データベース14に格納されている口調の情報から生成される。波形生成部12は、話者選択手段32により選択された話者のHMMパラメータと口調選択手段33により選択された口調のHMMパラメータとを用いて合成音声を出力する。
【選択図】図1

Description

本発明は、入力されたテキストに応じた合成音声を出力する音声合成装置に関するものである。
この種の音声合成装置には、漢字仮名混じりのテキストを入力すると、入力されたテキストに対応した合成音声を生成する装置が提供されている(たとえば、特許文献1)。特許文献1に記載された音声合成装置は、状況に応じた音声案内を行うものであり、状況に応じて合成音声の口調を切り換える構成を採用している。
特許文献1では、口調を声質と韻律とにより特徴付けており、声質は主として周波数領域に現れる特徴とし、韻律は、ピッチ、パワー、話速などを含んでいると定義し、明るい口調、警告口調、優しい口調などの口調を表現するパラメータを口調データとして登録してあり、音声波形を生成する際に登録した口調データの中から必要な口調データを選択して用いる構成が採用されている。
特開2007−193792号公報(0029〜0032段落)
上述した特許文献1に記載の技術では、口調を考慮して合成音声を生成しているが、所望の特定話者の声での合成音声を出力するとともに、口調を選択することはできない。たとえば、利用者が自身の声を登録することによって合成音声を自身の声とし、しかも、任意のテキストに対応する合成音声の口調を変更可能として、登録した口調とは異なる口調で合成音声を出力させることはできない。
本発明は上記事由に鑑みて為されたものであり、その目的は、所望の特定話者の声を有した合成音声を出力可能にし、かつ口調も選択可能にした音声合成装置を提供することにある。
請求項1の発明は、テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するHMMパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからHMMパラメータを探索し探索したHMMパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の話者を指示する話者選択手段と、波形生成部に対して合成音声の口調を指示する口調選択手段と、特定話者の音声データを入力する音声入力手段と、音声入力手段から入力された音声を用いて音声波形データベースにあらかじめ格納された基準話者のHMMパラメータの話者適応を行って特定話者のHMMパラメータに変換する話者適応部とを有し、音声波形データベースは、基準話者の声質および口調の情報を有するHMMパラメータがあらかじめ格納された基準話者データベースと、話者適応部で基準話者のHMMパラメータから変換された特定話者のHMMパラメータが格納される特定話者データベースとを有し、波形生成部は、話者選択手段により指示された話者のHMMパラメータを、基準話者データベースと特定話者データベースとから選択するとともに、基準話者データベースと特定話者データベースとから選択したHMMパラメータを用いて、口調選択手段により指示された口調を付与した音声波形を生成することを特徴とする。
請求項2の発明では、請求項1の発明において、前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、各基準話者データベースに格納されている基準話者のHMMパラメータを同じ口調の特定話者のHMMパラメータに変換して前記特定話者データベースに格納し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した特定話者データベースを選択することを特徴とする。
請求項3の発明では、請求項1の発明において、前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、いずれかの基準話者データベースに格納されているHMMパラメータを同じ口調の特定話者のHMMパラメータに変換して前記特定話者データベースに格納するとともに、各基準話者データベースに格納されている口調に関するHMMパラメータの相対関係を用いることにより、前記特定話者データベースに格納されている口調に関するHMMパラメータを補正した新たな特定話者データベースを生成し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した特定話者データベースを選択することを特徴とする。
請求項4の発明では、請求項1の発明において、前記口調選択手段が選択する口調のうちのいずれかの口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記話者選択手段により基準話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記基準話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力し、前記話者選択手段により特定話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記特定話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする。
請求項5の発明では、請求項1〜4のいずれかの発明において、前記基準話者データベースは、基準話者についての音素の時間継続長とピッチとスペクトル成分との3種類のHMMパラメータが格納され、前記話者適応部は、基準話者データベースに格納されたスペクトル成分のHMMパラメータについて特定話者への話者適応を行い、前記特定話者データベースは、基準話者データベースに格納された音素の時間継続長とピッチとの2種類のHMMパラメータと、話者適応部での話者適応により変換された特定話者のスペクトル成分のHMMパラメータとが格納されることを特徴とする。
請求項6の発明では、請求項1〜5のいずれかの発明において、情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記基準話者データベースと前記特定話者データベースと前記話者適応部とを備え、クライアントコンピュータは、前記テキスト入力手段と前記音声入力手段と前記話者選択手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする。
請求項1の発明の構成によれば、基準話者データベースのHMMパラメータから話者適応により特定話者データベースのHMMパラメータを生成するから、特定話者データベースのHMMパラメータを用いることにより、所望の特定話者の声を有した合成音声を出力することができる。しかも、口調選択手段により口調を指示することで、基準話者データベースと1乃至複数の特定話者データベースとから話者選択手段の指示に基づいて選択されたHMMパラメータを用いて口調を付与した音声波形を生成するから、所望の口調の合成音声を出力することが可能になる。すなわち、合成音声について、話者(基準話者、利用者など)と口調(読み上げ口調、明るい口調、優しい口調など)との両方が選択可能になる。
請求項2の発明の構成によれば、口調の情報が異なる複数個の基準話者データベースを設け、話者適応部において少なくとも1種類の基準話者データベースから特定話者のHMMパラメータを生成して特定話者データベースに格納し、口調選択手段により所望の口調の情報を持つ基準話者データベースまたは特定話者データベースを選択するから、基準話者と特定話者とについて基準話者データベースの個数分の口調が選択可能になる。
請求項3の発明の構成によれば、異なる口調の複数の標準話者データベースを用いるとともに、いずれかの口調について話者適応を行った特定話者データベースを生成し、この特定話者データベースにおける口調に関するHMMパラメータを、標準話者データベースでの口調に関するHMMパラメータの相対関係によって補正することにより、特定話者に関する他の口調の特定話者データベースを生成するから、特定話者データベースの口調を決定する情報が多くなることにより、特定話者に関して精度のよい口調を付与した音声波形を生成することが可能になる。しかも、口調の異なる特定話者データベースを生成することで、波形生成部の処理負荷が軽減される。
請求項4の発明の構成によれば、口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数を口調韻律ルールとして格納した口調韻律ルールデータベースを設け、口調選択手段により口調を指示すると口調韻律ルールを選択して、基準話者データベースと特定話者データベースとのいずれかに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることで、所望の口調を付与した音声波形を生成するから、口調韻律ルールを登録するだけで、様々な口調を実現することができる。この場合、合成音声の全体について同様の口調になるから、いわば大域的な口調の制御が可能になる。
請求項5の発明の構成によれば、音素の時間継続長とピッチとのHMMパラメータについては基準話者データベースのHMMパラメータを特定話者データベースに格納し、スペクトル成分のHMMパラメータについては基準話者データベースのHMMパラメータに話者適応を行ったHMMパラメータを特定話者データベースに格納するから、スペクトル成分のみに対する話者適応であるから処理負荷が軽減される。また、基準話者データベースに含まれる音素の時間継続長およびピッチをそのまま利用するから、口調の制御を局所的に行うことが可能になる。
請求項6の発明の構成によれば、サーバコンピュータにおいて音声合成および話者適応を行い、サーバコンピュータとは情報通信網を介して通信可能なクライアントコンピュータにおいてテキストの入力、話者および口調の選択、特定話者の音声入力を行うから、クライアントコンピュータを情報通信網に接続するだけで、場所を選ばずに合成音声を利用することが可能になる。また、処理負荷の大きい音声合成および話者適応の処理はサーバコンピュータで一括して行うから、クライアントコンピュータには大きなハードウェアリソースが不要になる。
本発明の共通構成、実施形態3を示すブロック図である。 実施形態1を示すブロック図である。 実施形態2、実施形態4を示すブロック図である。
(共通構成)
以下に説明する各実施形態では、HMM(Hidden Markov Model)に基づく音声合成の技術を採用している。HMMのパラメータは、スペクトル、基本周波数、時間継続長の3種類のパラメータで表される。以下の説明において、「話者」は、アナウンサなどの基準話者のほか、利用者自身や利用者の家族などの特定の個人を意味し、主としてスペクトル成分により決まる声質に対応付けられる。すなわち、基準話者ではない話者は、利用者自身の声や利用者の家族の声などの特定の個人の声に対応付けられる。また、「口調」は、読み上げ口調、明るい口調、優しい口調などの口調であり、主としてピッチ、音素の時間継続長、パワー、話速のような韻律情報に対応付けられる。たとえば、明るい口調はピッチが高くなり、優しい口調は話速が遅くなる。
まず、以下の実施形態に共通する構成を図1に示す。図示する装置は、合成音声を生成する合成部10と、特定の話者の声質や口調の特徴を抽出することにより合成音声を当該話者に適応させる適応部20とを有している。
合成部10は、入力されたテキストを音素列に変換するとともに各音素について前後の音素・アクセント型・品詞・音素継続長などのコンテキスト情報を抽出する言語解析部11と、HMMパラメータが格納された音声波形データベース13と、言語解析部11から与えられる音素列およびコンテキスト情報を用いて、音声波形データベース13に格納されたHMMパラメータを接続することにより音声波形を生成する波形生成部12とにより構成される。
言語解析部11に入力されるテキストは漢字仮名混じりテキストであり、キーボードのようなテキスト入力手段31を用いて利用者により入力される。もちろん、テキストは漢字仮名混じりテキストではなく、仮名テキストやローマ字テキストなどでもよいがコンテキスト情報を抽出するためには、漢字仮名混じりテキストが有効である。
以下に説明する実施形態においては、テキスト入力手段31は、合成部10および適応部20を備えるコンピュータとは別のコンピュータに設けられており、両コンピュータの間で、インターネットやローカルエリアネットワークのような情報通信網NTを介してデータ通信を行う場合を例示している。ただし、合成部10および適応部20とともにテキスト入力手段31が1台のコンピュータに設けられた構成を採用することも可能である。
音声波形データベース13には、基準話者の音声によるHMMパラメータがあらかじめ格納された学習済みの基準話者データベース14と、特定話者によるHMMパラメータが格納される後学習用の特定話者データベース15とが設けられる。
基準話者データベース14には、1人の話者から得られたHMMパラメータまたは複数人の話者から得られたHMMパラメータの平均値が格納される。また、基準話者データベース14と特定話者データベース15とはそれぞれ1ないし複数設けられ、複数設ける場合には、それぞれ口調の異なるHMMパラメータが格納される。
音声波形データベース13のHMMパラメータは、スペクトル成分、ピッチ、音素の時間継続長の3種類のHMMパラメータからなる。すなわち、音声波形データベース13に設けた基準話者データベース14および特定話者データベース15には、それぞれ基準話者と特定話者とについて、スペクトル、基本周波数、時間継続長の3種類のパラメータからなるHMMパラメータが格納される。話者の声質は主としてスペクトル成分により決まり、口調は主として音素の時間継続長およびピッチ(基本周波数)により決まる。また、HMMパラメータは、それぞれコンテキスト情報に対応付けてクラスタリングがなされた状態で音声波形データベース13に格納されている。
波形生成部12は、音声波形データベース13に設けた基準話者データベース14に格納されたHMMパラメータと特定話者データベース15に格納されたHMMパラメータとの少なくとも一方を用いて、指定された話者および口調の合成音声を生成する。
すなわち、波形生成部12は、言語解析部11から与えられたコンテキスト情報を音声波形データベース13に照合し、該当するHMMパラメータをそれぞれ探索する。また、探索したHMMパラメータの値から、音素の時間継続長を探索して音素の長さを決定し、音素の長さに合わせてピッチおよびスペクトル成分の値を探索することで、ピッチ列とスペクトル列とを求め、HMMパラメータから合成音声の波形を生成する。波形成形部12において、話者の選択は話者選択手段32により指示され、口調の選択は口調選択手段33により指示される。波形生成部12で生成された合成音声(音声信号)は、スピーカを備えた音声再生手段34から出力される。
図示例では、合成部10および適応部20を備えるコンピュータとは別のコンピュータに話者選択手段32および口調選択手段33を設け、また、音声再生手段34も合成部10および適応部20とは別に設け、情報通信網NTを介してデータ通信を行う場合を例示しているが、テキスト入力手段31と同様に話者選択手段32、口調選択手段33、音声再生手段34を合成部10および適応部20と同じコンピュータに設けてもよい。
適応部20は、マイクロホンを備える音声入力手段35から入力された特定の話者の音声を用いて、音声波形データベース13の基準話者データベース14に格納されているHMMパラメータを特定の話者に対応するMHHパラメータに変換する話者適応部21を備える。
話者適応部21では、音声入力手段35から入力される特定の個人の音声を用いて話者適応を行う。話者適応部21に入力される音声は、規定の複数個(4個程度でよいことが知られている)のテキスト(文章)を音読することによって得られる。話者適応には、たとえば最尤線形回帰法(MLLR=Maximum Likelihood estimation of Linear Regressive coefficients)を用いる。
話者適応部21は、基準話者データベース14に格納されているHMMパラメータを、音声入力手段35から得られる特定の話者の少量の音声データを用いて、基準話者データベース14に格納されているHMMパラメータから特定の話者に対応するHMMパラメータに変換し、変換したHMMパラメータを特定話者データベース15に格納する。
基準話者データベース14と特定話者データベース15とにそれぞれHMMパラメータが登録されていると、波形生成部12では、基準話者データベース14と特定話者データベース15とに登録されている複数の話者の声質のいずれかを用いるとともに、基準話者データベース13と特定話者データベース15とに登録されている口調に基づいて口調を付与した音声波形を生成する。口調の制御(口調を付与した音声波形の生成)の技術については、各実施形態において説明する。
なお、上述したように、情報通信網NTを用いる構成は必須ではないが、以下に説明する各実施形態では、合成部10および適応部20がサーバコンピュータ1に設けられ、テキスト入力手段31、話者選択手段32、口調選択手段33、音声再生手段34、音声入力手段35がクライアントコンピュータ2に設けられ、サーバコンピュータ1とクライアントコンピュータ2が、インターネットのような情報通信網NTを介して通信可能である構成として説明する。クライアントコンピュータ2に設けたテキスト入力手段31、話者選択手段32、口調選択手段33は、クライアントコンピュータ2で実行されるウェブブラウザの表示画面において提供される。
すなわち、クライアントコンピュータ2からサーバコンピュータ1にアクセスし、合成音声を生成するサービスの享受を開始すると、ウェブブラウザの表示画面には、テキストを入力するフィールドが表示される。デフォルトでは基準話者が選択されており、テキストをフィールドに入力してサーバコンピュータ1に送信すると、サーバコンピュータ1の合成部10において基準話者データベース14に格納されているHMMパラメータを用いて合成音声が生成される。サーバコンピュータ1で合成音声の生成が完了すると、クライアントコンピュータ2に通知されるから、クライアントコンピュータ2においてダウンロードを行うことが可能になる。なお、全文をダウンロードするのではなく、一部の試聴を行うことも可能である。
一方、特定話者の声による合成音声を生成する場合は、ウェブブラウザの画面上に表示されたオプションにより、話者の新規作成を選択する。クライアントコンピュータ2において話者の新規作成が選択されると、サーバコンピュータ1は適応部20を起動し、基準話者データベース14のHMMパラメータから特定話者のHMMパラメータを生成する学習モードに移行する。このとき、クライアントコンピュータ2では、学習用のウィザードが起動され、特定話者のHMMパラメータを生成するのに必要な複数個のテキストがウェブブラウザの画面に提示される。
提示されたテキストを特定の話者が読み上げ、画面に表示された終了釦を押すと(ポインティングデバイスでクリックするかリターンキーを押すと)、音声入力手段35から入力された音声がサーバコンピュータ1に送信され、上述のように特定話者に話者適応したHMMパラメータが生成され、特定話者データベース15に格納される。
また、ウェブブラウザの画面上には、話者を識別する情報を入力するフィールドが提示されるから、話者を識別する情報としては名前(たとえば、「太郎」)などを入力する。話者を識別する情報は、特定話者データベース15において特定話者のHMMパラメータに対応付けて登録される。したがって、以後は当該情報を入力することで、特定話者データベース15に格納されたHMMパラメータを用いることが可能になる。
すなわち、クライアントコンピュータ2において、話者選択手段32で話者を選択し、口調選択手段33で口調を選択すると、話者識別情報と口調識別情報がサーバコンピュータ1に送信され、サーバコンピュータ1の波形生成部12では、話者識別情報と口調識別情報とに基づいて、基準話者データベース14と特定話者データベース15とのいずれかを選択する。このように、基準話者が選択されたときには基準話者データベース14を選択し、登録済みの特定話者が選択されたときには特定話者データベース15を選択する。
ここで、特定話者が未登録である場合、あるいは新規の話者を登録する選択がなされた場合には、クライアントコンピュータ2の画面に上述した学習用のウィザードを表示させる。このウィザードによって特定話者のHMMパラメータを生成することができるから、上述したように、話者適応部21において、基準話者データベース14に格納されたHMMパラメータを用いて話者適応を行い、特定話者データベース15に格納するHMMパラメータを生成する。
また、サーバコンピュータ1の波形生成部12では、口調選択手段33で選択された口調に応じて以下の実施形態において説明する技術を適用し、口調選択手段33により選択された口調の合成音声を生成する。
(実施形態1)
本実施形態は、図2に示すように、音声波形データベース13に、2個の基準話者データベース14a,14bを設けている。各基準話者データベース14a,14bには、基準話者(単独話者あるいは複数話者の平均)について口調の異なるHMMパラメータが格納される。ここでは、一方の基準話者データベース14aには、テキストを読み上げ口調で読んだときの音声データにより生成したHMMパラメータを格納し、他方の基準話者データベース14bには、テキストを明るい口調で読んだときの音声データにより生成したHMMパラメータを格納しているものとする。
上述したように、話者の声質は、主としてスペクトル成分によって決まるから、話者に関しては、上述した最尤線形回帰法の技術により、音声入力手段35から入力された特定話者の音声に基づいて基準話者データベース14に登録された基準話者のHMMパラメータから特定話者のHMMパラメータに変換することが可能である。すなわち、同じ口調で話者のみが変化するようにHMMパラメータを変換することが可能である。
本実施形態では、一例として、話者適応部21において、読み上げ口調の基準話者データベース14aのHMMパラメータに基づき、特定話者について読み上げ口調のHMMパラメータを生成して特定話者データベース15に格納している。話者適応部21において、明るい口調の基準話者データベース14bのHMMパラメータを用いれば、特定話者について明るい口調のHMMパラメータを生成することも可能である。
このように、特定話者データベース15を基準話者データベース14a,14bと同じ口調で生成すれば、話者適応部21での話者適応のみを行えばよく、また波形生成部12では選択された口調に適合するHMMパラメータを選択するだけでよいから、波形生成部12成績部12における処理負荷が少なく実時間での応答が可能になる。
特定話者について明るい口調のHMMパラメータを生成する技術としては、あらかじめ読み上げ口調の特定話者データベース15を生成しておき、読み上げ口調の基準話者データベース14aと明るい口調の基準話者データベース14bとに格納した音素の時間継続長およびピッチのHMMパラメータの相対関係(相対差あるいは相対比)を用いて、読み上げ口調の特定話者データベース15に格納した音素の時間継続長およびピッチのHMMパラメータを補正する方法も採用可能である。
上述のように明るい口調の標準話者データベース14bのみを用いて明るい口調の特定話者データベース15を生成する場合に比較すると、補正演算を行う技術のほうが多くの情報を用いて生成することで、より精度の高い合成音声を得ることが可能になる。
補正演算によって口調を表現する技術では、話者適応部21での話者適応と同時に明るい口調の特定話者データベース15を生成する場合と、合成音声を生成するたびに波形生成部12において補正の演算を行う場合とがある。前者の場合、明るい口調の特定話者データベースをあらかじめ作成しておくから波形生成部12の処理負荷が小さくなり、後者の場合、波形生成部12の処理負荷は大きくなるが、音声波形データベース13の記憶容量を小さくすることができる。
なお、2種類の口調の基準話者データベース14a,14bとして利用しやすい読み上げ口調と明るい口調とを例示したが、他の口調の組み合わせであってもよいのはもちろんのことである。また、3種類以上の口調について基準話者データベースを設けることが可能ではあるが、HMMパラメータの学習に膨大な時間を要するから現実的ではなく、2種類の口調の基準話者データベースを用いるだけでも十分に実用に供するものである。他の構成および動作は共通構成と同様である。
(実施形態2)
実施形態1では、口調の異なる2種類の基準話者データベース14a,14bを用いる例を示したが、本実施形態では、1種類の口調(読み上げ口調が望ましい)の基準話者データベース14のみを用いている。この構成では、特定話者データベース15に格納されるHMMパラメータで表される口調は、基準話者データベース14のHMMパラメータで表される口調と同じである。すなわち、実施形態1の話者適応部21では、基準話者データベース14に格納されたHMMパラメータを用いて、同じ口調かつ特定話者の声質を有するHMMパラメータを生成して特定話者データベース15に格納している。
一方、口調を決める要素には、音素の時間継続長およびピッチだけでなく、話速やパワーもある。これらの要素は韻律情報に含まれている。以下では、口調を決める韻律情報を口調韻律ルールと呼ぶ。口調韻律ルールは、読み上げ口調のピッチ、話速、パワーを表すパラメータに対して、表1に示す係数で表すことができる。口調韻律ルールは、基準話者の複数の口調(たとえば、読み上げ口調、明るい口調、優しい口調など)から求めたHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値を比較することにより作成される。
Figure 2011028130
表1からわかるように、明るい口調では読み上げ口調よりもピッチが高くなり、優しい口調では読み上げ口調よりも話速が遅くなる。
したがって、口調選択部33により指示される口調に対応する口調韻律ルールを規定しておくことで、波形生成部12では、特定話者データベース15に格納されている特定話者の読み上げ口調でのHMMパラメータから任意の口調の合成音声を生成することが可能になる。表1では、ピッチ、話速、パワーについて、ダイナミクスを含めて記載してあり、このダイナミクスの値が大きくなるほど抑揚が大きくなる。
口調韻律ルールは、図3に示すように、波形成形部13に付設した口調韻律ルールデータベース16に登録されている。口調韻律ルールデータベース16では、上述した係数が口調に対応付けて格納されており、口調選択部33において口調を選択すると、口調韻律ルールである係数の組み合わせが選択される。
波形成形部13では、話者選択部32で選択された話者に応じて、基準話者データベース14または特定話者データベース15に登録されたHMMパラメータを採用するとともに、口調選択手段33で選択された口調に対応する口調韻律ルールを口調韻律ルールデータベース16から抽出し、HMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に口調韻律ルールを適用することによって、所望の話者について所望の口調の合成音声を出力する。
本実施形態の構成では、口調韻律ルールによって、口調を表すHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値の全体に係数を乗じるから、いわば大域的に合成音声を制御していることになる。たとえば、合成音声のピッチを一律に2倍にしたり、話速を一律に2倍にしたりすることにより口調を制御することになる。
上述したように、本実施形態の構成では、基準話者の複数の口調について、それぞれHMMパラメータを登録した基準話者データベースを設ける必要がなく、実施形態1の構成に比較して基準話者データベース14に格納するデータ量を低減することができる。他の構成および動作は共通構成と同様である。
なお、実施形態1のように複数個(図示例では2個)の基準話者データベース14a,14bを用いる場合に、所要の口調(読み上げ口調が望ましい)の基準話者データベース14aのみを基準話者の実音声を用いて作成し、他の口調の基準話者データベース14bは口調韻律ルールを適用して生成することが可能である。この場合、複数個の基準話者データベース14a,14bを基準話者の実音声で作成する場合よりも、基準話者の負担を軽減することができる。
(実施形態3)
実施形態2の構成では、口調韻律ルールデータベース16を設けることによって、合成音声の口調を口調韻律ルールに従って制御するから、少ない情報量で口調を制御することができるという利点を有する反面、合成音声の全体に亘って口調韻律ルールを適用するから口調を大域的にしか制御することができない。たとえば、明るい口調では、語尾のピッチが上げる傾向を有しているという知見があるが、実施形態2のように係数を乗じる構成では、語尾のみのピッチを上げるという局所的な制御はできない。
ところで、話者適応の技術では、上述した3種類のHMMパラメータ(スペクトル成分、ピッチ、音素の時間継続長)のすべてについて話者適応を行うのが一般的である。これに対して、本実施形態では、話者については、声質を決めるスペクトル成分に関する1種類のHMMパラメータのみについて話者適応を行うことで、任意の話者の声質での合成音声の出力を可能にしている。また、口調については、音素の時間継続長とピッチとの2種類のHMMパラメータを用いることにより、任意の口調での合成音声の出力を可能にしている。
本実施形態では、図1に示すように、1個の基準話者データベース14を設け、話者適応部21では、基準話者データベース14におけるスペクトル成分に関するHMMパラメータを、音声入力手段35から入力された特定話者の音声データに基づいて、特定話者の声質に対応するスペクトル成分を有したHMMパラメータを生成する。また、音素の時間継続長およびピッチに関するHMMパラメータは、基準話者のHMMパラメータをそのまま用いる。
すなわち、音声入力手段35から入力された特定話者の音声データのうち声質にのみ着目して基準話者データベース14に格納されたスペクトル成分のHMMパラメータを特定話者に話者適合するように変換するとともに、基準話者データベース14に格納された音素の時間継続長およびピッチのHMMパラメータを変更せずに特定話者のHMMパラメータとして用い、特定話者データベース15に格納する。
この場合、音声入力手段35から入力される特定話者の音声の口調にかかわらず、合成音声の口調は基準話者の口調が反映されるから、基準話者データベース14には合成音声として出力しようとする口調に対応した音素の時間継続長およびピッチを有するHMMパラメータを登録しておく必要がある。
本実施形態の構成では、基準話者データベース14に格納された音素の時間継続長およびピッチのHMMパラメータが、そのまま特定話者データベース15に登録されるから、たとえば、特定話者の声質を有し、かつ明るい口調の合成音声を音声出力手段34から出力しようとすれば、特定話者データベース15に登録する音素の時間継続長およびピッチのHMMパラメータが明るい口調に対応したものでなければならない。つまり、基準話者データベース14に格納するHMMパラメータを作成する際に明るい口調で作成することが必要である。
一方、音声入力手段35から入力する特定話者の音声は、声質のみが重要であり、口調についてはとくに指定する必要がない。ただし、経験的に、読み上げ口調が自然に発声しやすいとされているから、特定話者は、読み上げ口調で音声入力手段35から音声を入力すればよい。
本実施形態の構成を採用することで、特定話者がどのような口調で音声を入力するかにかかわらず、基準話者データベース14に格納されたHMMパラメータにより規定された口調での合成音声を出力することが可能になるから、実施形態2の構成のように、口調韻律ルールデータベース16を用いる必要がなく、それだけ構成が簡単になる。
また、基準話者データベース14に格納した音素の時間継続長およびピッチのHMMパラメータに対応する口調の合成音声が得られるから、基準話者の口調の局所的な特徴を合成音声に反映させることができる。他の構成および動作は共通構成と同様である。
(実施形態4)
本実施形態は、図3に示すように、図1に示した実施形態3の構成について、実施形態2と同様に、口調韻律ルールデータベース16を付加したものである。実施形態3の構成では、基準話者と特定話者との声質の相違にスペクトル成分のみの変更で対応しているから、基準話者が女性であって特定話者が男性である場合のように、基準話者と特定話者との声の音響特徴の差が大きい場合には、特定話者データベース15において、特定話者の男性よりもピッチの高いHMMパラメータが格納される可能性がある。この場合、基準話者データベース14が明るい口調に対応しており読み上げ口調よりもピッチが高いとすると、特定話者データベース15に格納されるHMMパラメータで表される声が極端に高くなる可能性がある。
本実施形態では、基準話者と特定話者との声質が大きく異なる場合に備えて口調韻律ルールを設定した口調韻律ルールデータベース16を設けている。口調韻律ルールデータベース16は、実施形態2と同様に、ピッチ、話速、パワーおよびそれらのダイナミクスに関する係数を格納しており、波形成形部13では、口調選択手段33により指示された口調に応じて口調韻律ルールデータベース16から選択した係数をHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に適用する。
また、本実施形態の口調韻律ルールデータベース16では、各HMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する制限範囲が規定されており、たとえば、ピッチが高くすぎたり低すぎたりすることのないように、適正なピッチの範囲が規定されている。
したがって、基準話者が女性であり特定話者が男性であるような場合に、明るい口調が選択されたとしても、ピッチが高くなりすぎないように、ピッチを補正して制限することができ、特定話者の口調や性別に依存することなく、所望の声質かつ口調の合成音声を生成することが可能になる。なお、他の実施形態と同様に、音声入力手段35から特定話者が入力する音声は、読み上げ口調とするのが望ましい。他の構成および動作は共通構成と同様である。
1 サーバコンピュータ
2 クライアントコンピュータ
10 合成部
11 言語解析部
12 波形生成部
13 音声波形データベース
14 基準話者データベース
14a,14b 基準話者データベース
15 特定話者データベース
16 口調韻律ルールデータベース
20 適応部
21 話者適応部
31 テキスト入力手段
32 話者選択手段
33 口調選択手段
34 音声出力手段
35 音声入力手段
NT 情報通信網

Claims (6)

  1. テキストを入力するテキスト入力手段と、入力されたテキストを音素列に変換するとともにテキストからコンテキスト情報を抽出する言語解析部と、合成音声を生成するHMMパラメータが格納された音声波形データベースと、言語解析部からの音素列とコンテキスト情報とを用いて音声波形データベースからHMMパラメータを探索し探索したHMMパラメータから合成音声を生成する波形生成部と、波形生成部に対して合成音声の話者を指示する話者選択手段と、波形生成部に対して合成音声の口調を指示する口調選択手段と、特定話者の音声データを入力する音声入力手段と、音声入力手段から入力された音声を用いて音声波形データベースにあらかじめ格納された基準話者のHMMパラメータの話者適応を行って特定話者のHMMパラメータに変換する話者適応部とを有し、音声波形データベースは、基準話者の声質および口調の情報を有するHMMパラメータがあらかじめ格納された基準話者データベースと、話者適応部で基準話者のHMMパラメータから変換された特定話者のHMMパラメータが格納される特定話者データベースとを有し、波形生成部は、話者選択手段により指示された話者のHMMパラメータを、基準話者データベースと特定話者データベースとから選択するとともに、基準話者データベースと特定話者データベースとから選択したHMMパラメータを用いて、口調選択手段により指示された口調を付与した音声波形を生成することを特徴とする音声合成装置。
  2. 前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、各基準話者データベースに格納されている基準話者のHMMパラメータを同じ口調の特定話者のHMMパラメータに変換して前記特定話者データベースに格納し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した特定話者データベースを選択することを特徴とする請求項1記載の音声合成装置。
  3. 前記基準話者データベースとして、口調の情報が異なる複数個の基準話者データベースを用い、前記話者適応部は、いずれかの基準話者データベースに格納されているHMMパラメータを同じ口調の特定話者のHMMパラメータに変換して前記特定話者データベースに格納するとともに、各基準話者データベースに格納されている口調に関するHMMパラメータの相対関係を用いることにより、前記特定話者データベースに格納されている口調に関するHMMパラメータを補正した新たな特定話者データベースを生成し、前記波形生成部では、前記話者選択手段により基準話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した基準話者データベースを選択し、前記話者選択手段により特定話者が選択された場合は前記口調選択手段により選択された口調のHMMパラメータを格納した特定話者データベースを選択することを特徴とする請求項1記載の音声合成装置。
  4. 前記口調選択手段が選択する口調のうちのいずれかの口調に対応するHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に対する他の口調の係数である口調韻律ルールを格納した口調韻律ルールデータベースが付加され、前記波形生成部は、前記話者選択手段により基準話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記基準話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力し、前記話者選択手段により特定話者が選択された場合は、前記口調選択手段により指示された口調の口調韻律ルールである係数を、前記特定話者データベースに含まれる口調のHMMパラメータまたはHMMパラメータより算出した時間継続長列とピッチ列とスペクトル列との少なくとも1つの値に乗じることにより指示された口調の合成音声を出力することを特徴とする請求項1記載の音声合成装置。
  5. 前記基準話者データベースは、基準話者についての音素の時間継続長とピッチとスペクトル成分との3種類のHMMパラメータが格納され、前記話者適応部は、基準話者データベースに格納されたスペクトル成分のHMMパラメータについて特定話者への話者適応を行い、前記特定話者データベースは、基準話者データベースに格納された音素の時間継続長とピッチとの2種類のHMMパラメータと、話者適応部での話者適応により変換された特定話者のスペクトル成分のHMMパラメータとが格納されることを特徴とする請求項1〜4のいずれか1項に記載の音声合成装置。
  6. 情報通信網を介して通信可能であるサーバコンピュータとクライアントコンピュータとを備え、サーバコンピュータは、前記言語解析部と前記波形生成部と前記基準話者データベースと前記特定話者データベースと前記話者適応部とを備え、クライアントコンピュータは、前記テキスト入力手段と前記音声入力手段と前記話者選択手段と前記口調選択手段とを備え、波形生成部から出力された合成音声がクライアントコンピュータに引き渡されることを特徴とする請求項1〜5のいずれか1項に記載の音声合成装置。
JP2009175862A 2009-07-28 2009-07-28 音声合成装置 Withdrawn JP2011028130A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009175862A JP2011028130A (ja) 2009-07-28 2009-07-28 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009175862A JP2011028130A (ja) 2009-07-28 2009-07-28 音声合成装置

Publications (1)

Publication Number Publication Date
JP2011028130A true JP2011028130A (ja) 2011-02-10

Family

ID=43636917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009175862A Withdrawn JP2011028130A (ja) 2009-07-28 2009-07-28 音声合成装置

Country Status (1)

Country Link
JP (1) JP2011028130A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013214063A (ja) * 2012-03-30 2013-10-17 Toshiba Corp テキスト読み上げシステム
JP2013238819A (ja) * 2012-05-17 2013-11-28 Nippon Telegr & Teleph Corp <Ntt> 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US9361722B2 (en) 2013-08-08 2016-06-07 Kabushiki Kaisha Toshiba Synthetic audiovisual storyteller
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
US10157608B2 (en) 2014-09-17 2018-12-18 Kabushiki Kaisha Toshiba Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
WO2020141643A1 (ko) * 2019-01-03 2020-07-09 엘지전자 주식회사 음성 합성 서버 및 단말기
JP7572388B2 (ja) 2022-02-21 2024-10-23 Kddi株式会社 データ処理装置、データ処理方法及びプログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2015172769A (ja) * 2012-03-30 2015-10-01 株式会社東芝 テキスト読み上げシステム
CN103366733A (zh) * 2012-03-30 2013-10-23 株式会社东芝 文本到语音的系统
JP2013214063A (ja) * 2012-03-30 2013-10-17 Toshiba Corp テキスト読み上げシステム
US9269347B2 (en) 2012-03-30 2016-02-23 Kabushiki Kaisha Toshiba Text to speech system
JP2013238819A (ja) * 2012-05-17 2013-11-28 Nippon Telegr & Teleph Corp <Ntt> 音声変換関数学習装置、音声変換装置、音声変換関数学習方法、音声変換方法、およびプログラム
US9361722B2 (en) 2013-08-08 2016-06-07 Kabushiki Kaisha Toshiba Synthetic audiovisual storyteller
US9830904B2 (en) 2013-12-20 2017-11-28 Kabushiki Kaisha Toshiba Text-to-speech device, text-to-speech method, and computer program product
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JPWO2015092936A1 (ja) * 2013-12-20 2017-03-16 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP2015152630A (ja) * 2014-02-10 2015-08-24 株式会社東芝 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
US10157608B2 (en) 2014-09-17 2018-12-18 Kabushiki Kaisha Toshiba Device for predicting voice conversion model, method of predicting voice conversion model, and computer program product
JP2018041116A (ja) * 2017-12-18 2018-03-15 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2020141643A1 (ko) * 2019-01-03 2020-07-09 엘지전자 주식회사 음성 합성 서버 및 단말기
JP7572388B2 (ja) 2022-02-21 2024-10-23 Kddi株式会社 データ処理装置、データ処理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2011028130A (ja) 音声合成装置
US10490181B2 (en) Technology for responding to remarks using speech synthesis
CN101176146B (zh) 声音合成装置
WO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
JP4745036B2 (ja) 音声翻訳装置および音声翻訳方法
JP7228998B2 (ja) 音声合成装置及びプログラム
JP5949607B2 (ja) 音声合成装置
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
CN1675681A (zh) 客户机-服务器语音定制
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
JP2011028131A (ja) 音声合成装置
JP6977323B2 (ja) 歌唱音声の出力方法、音声応答システム、及びプログラム
JP7059524B2 (ja) 歌唱合成方法、歌唱合成システム、及びプログラム
JP2009139677A (ja) 音声処理装置及びそのプログラム
JP2004226556A (ja) 話し方診断方法、話し方診断装置、話し方学習支援方法、音声合成方法、カラオケ練習支援方法、ボイストレーニング支援方法、辞書、語学教材、方言矯正方法、方言学習方法
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP4808641B2 (ja) 似顔絵出力装置およびカラオケ装置
JP2001242882A (ja) 音声合成方法及び音声合成装置
JP4841339B2 (ja) 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム
JPH05100692A (ja) 音声合成装置
JPH07140996A (ja) 音声規則合成装置
JP6299141B2 (ja) 楽音情報生成装置および楽音情報生成方法
JPH09330019A (ja) 発声訓練装置
CN113255313B (zh) 音乐生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120118

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20121002