JP2012220701A - 音声合成装置及びその合成音声修正方法 - Google Patents
音声合成装置及びその合成音声修正方法 Download PDFInfo
- Publication number
- JP2012220701A JP2012220701A JP2011085949A JP2011085949A JP2012220701A JP 2012220701 A JP2012220701 A JP 2012220701A JP 2011085949 A JP2011085949 A JP 2011085949A JP 2011085949 A JP2011085949 A JP 2011085949A JP 2012220701 A JP2012220701 A JP 2012220701A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speech
- correction
- input
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
【課題】 利用者により入力される音声入力を用いて、利用者の修正意図を適切に反映した合成音声の修正を行う。
【解決手段】 合成音声韻律抽出処理112によりテキスト情報に基づき音声合成処理107で生成された合成音声から合成音声韻律情報を抽出するとともに、入力音声分析処理111によって入力音声から入力音声韻律情報を抽出する。修正情報決定処理113は抽出された合成音声韻律情報と入力音声韻律情報から合成音声の韻律情報の修正値を決定する。音声修正処理114は、決定された修正値を用いて修正された合成音声を生成する。
【選択図】 図1
【解決手段】 合成音声韻律抽出処理112によりテキスト情報に基づき音声合成処理107で生成された合成音声から合成音声韻律情報を抽出するとともに、入力音声分析処理111によって入力音声から入力音声韻律情報を抽出する。修正情報決定処理113は抽出された合成音声韻律情報と入力音声韻律情報から合成音声の韻律情報の修正値を決定する。音声修正処理114は、決定された修正値を用いて修正された合成音声を生成する。
【選択図】 図1
Description
本発明は、音声合成装置に係り、特に利用者の意図に沿った合成音声の生成に関する。
近年、車載用ナビゲーション装置や公共施設における自動放送装置など、音声を用いて各種の情報を提供する、自動音声案内システムが広く普及してきている。これらのシステムの一部では、与えられたテキストから音声を生成する音声合成装置が用いられており、定型文だけでなく、様々な内容の音声を、利用者が自由に作成することを可能としている。
このように、音声合成装置は、利用者が入力したテキストから様々な内容の音声を生成できる。しかしながら、音声合成装置では、利用者の「意図通り」の音声を生成することは難しい。例えば、テキストから自動的に生成された合成音声の読みやアクセントが誤っていることがある。これらの修正には、従来、読み及びアクセントの情報を示す中間記号列の修正をテキスト編集あるいはGUIによって行う方法が利用されてきた。しかしながら、音声技術に詳しくない利用者が、修正の方法を正しく指定できるようになるためには、ある程度の熟練が必要とされる。
そこで、利用者自身の発声から、音声の韻律情報を抽出して、合成音声を「意図通り」に修正する方法が期待されている。例えば、特開平4−167000号公報(特許文献1)には、音声入力手段により修正語の内容を音声を用いて入力し、入力された音声を解析して発音記号列の編集を行うことが開示されている。特許文献1に開示された技術によれば、複雑な発音記号列の定義を知らなくても容易に発音記号列を編集でき、きめ細やかな韻律の指定ができる。
また、特開2008−185911号公報(特許文献2)には、利用者が音声により入力したアクセントに基づいて、与えられた文字列に対応する合成音声を生成することが開示されている。
特許文献1に開示される技術では、利用者の発声から、アクセント・ポーズの位置を検出し、その結果に基づいて入力された音声と同じ韻律を表す発音記号列が生成される。しかし、利用者の発声のみに基づいて韻律情報を抽出・再現するだけでは、必ずしも利用者による修正の意図を適切に反映できるものではない。一般に、利用者は、修正箇所や修正方法を意識し、その意図を強調した発声をする傾向にある。従って、単に利用者の発声を解析し、それに忠実な発音記号列を生成するだけでは、必ずしも利用者の意図に即した韻律情報を抽出することはできず、利用者による修正の意図に即した合成音声を得ることは難しい。
また、特許文献2に開示される技術は、利用者により入力された音声の基本周波数軌跡の1次微分に基づいてアクセント位置を決定している。しかし、1次微分に基づいてアクセント位置を決定する方法は、基本周波数の高低変化に着目しているが、アクセント位置以外にも同様の高低変化が現れるので、一つの音声のみからアクセント句を判断するのは困難である。従って、分析精度に問題がある。
このように、単に入力音声を分析するだけでは、修正の意図を十分に反映できず、また分析精度も充分でないため、利用者の意図に即した修正を行うことは難しい、という課題がある。
上述した従来技術における課題を解決するために、本発明の音声合成装置及び合成音声の修正方法は、修正の対象となる合成音声と利用者により入力された入力音声のそれぞれから韻律情報を抽出し、これら2つの韻律情報から、修正の対象となる合成音声の韻律情報の修正値を決定し、この修正値に基づいて、修正された合成音声を生成する。
本発明の音声合成装置は、その一つの態様において、テキスト入力を受け付けるテキスト入力部、利用者から入力音声情報となる音声の入力を受け付ける音声入力部、入力部から入力されたテキストに基づき、当該テキストに対応する合成音声情報を生成する音声合成部、音声合成部により生成された音声情報及び音声入力部で受け付けられた入力音声情報それぞれから韻律情報を抽出する韻律抽出部、韻律抽出部により抽出された合成音声情報の韻律情報及び入力音声情報の韻律情報に基づいて合成音声韻律情報の修正情報を決定する修正情報決定部、及び、修正情報決定部によって決定された修正情報を用いて修正された合成音声を生成する音声修正部を有する。
本発明によれば、音声合成装置における合成音声の修正を、利用者の意図に即して効率的に行うことが可能となる。上記以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
図1は、本発明が適用された音声合成装置の一実施形態における簡略化された構成を示すブロック図である。
本実施形態における音声合成装置1は、マイク101、スピーカ102、キーボード103、マウス104、ディスプレイ105を備える。メモリ118には、本実施形態において音声合成装置1が有する各種の機能を実現するためにCPU119により実行されるプログラムとして、テキスト入力処理モジュール106、音声合成処理モジュール107、音声出力処理モジュール108、修正情報入力処理モジュール109、音声入力処理モジュール110、入力音声分析処理モジュール111、合成音声韻律抽出処理モジュール112、修正情報決定処理モジュール113、及び、音声修正処理モジュール114が保持される。また、メモリ118には、音源データ116、録音音声データ117が保持される。
テキスト入力処理モジュール106は、キーボード103やマウス104などの入力装置からのテキストの入力を受けつける。音声合成処理モジュール107は、音源データ116を用いて、入力されたテキストに対応する合成音声を生成する。音声出力処理モジュール108は、スピーカ102へ生成された合成音声を出力する。修正情報入力処理モジュール109は、キーボード103やマウス104などの入力装置を介して入力される合成音声の修正情報を受けつける。音声入力処理モジュール110は、マイク101から音声の入力を受け付け、入力音声情報として出力する。入力音声分析処理モジュール111は、入力された音声の韻律情報を分析し、録音音声データ117としてメモリ118に記憶する。合成音声韻律抽出処理モジュール112は、音声合成処理モジュール107により生成された合成音声から韻律情報を抽出する。修正情報決定処理モジュール113は、修正情報入力処理モジュール109により受け付けられた修正情報入力、入力音声分析処理モジュール111で得られた入力音声の韻律情報、及び、合成音声韻律抽出処理モジュール112で得られた合成音声の韻律情報を用いて、修正情報を決定する。音声修正処理モジュール114は、修正情報に基づいて修正された合成音声を生成する。
本実施形態において、音声合成装置1は、例えば、パーソナルコンピュータを用いて構成することができる。上述した各プログラムは、図示しないハードディスク装置のような外部記憶装置に格納され、必要に応じてメモリ118上に読み出されて利用されるように構成されていてもよい。また、音源データなどのデータについても必ずしもメモリ上に保持される必要はなく、プログラムと同様外部の記憶装置に格納されていてもかまわない。これらのことは、後述する他の実施の形態においても同様である。
次に、上記のように構成される、本実施形態に係る音声合成装置1は、合成音声の生成処理と合成音声の修正処理を実施する。
合成音声の生成処理では、まず、テキスト入力処理モジュール106により、キーボードからテキストの入力が受けつけられる。次に、音声合成処理モジュール107により、入力されたテキストに対応する合成音声が音源データ116を用いて生成される。最後に、音声出力処理モジュール108により、生成された合成音声がスピーカ102へ出力される。
図2、及び図3は、本実施形態において音声合成モジュール107により実施される音声合成処理に係るデータの概念を示す説明図である。本実施形態における音声合成処理は、言語処理、韻律付与処理、波形合成処理に分けられる。
言語処理では、入力されたテキストに対して、読み及びアクセントの情報を示す中間記号列が生成される。この中間記号列は、音声の意味を弁別するための最小単位となる“音素”又は1ないし3個程度の音素の結合からなる音声の聞こえの一種のまとまりである“音節”の並びを表現する読み情報、及び、発音の強さを指定する情報である“アクセント”又は疑問文や話し手の感情を示す情報である“抑揚”を表現するアクセント情報が含まれる。例えば、図2に示すように、入力テキスト301として「次は、国分寺です。」が与えられると、中間記号列302として、「tsugiwa|kokubuNjidesu>.」が生成される。あるいは英語の場合、入力テキスト301Eとして「the next station is Kokubunji」が与えられると、中間記号列302Eとして、「dh ax,n eh k s t*,s t ey*−sh ax n,ih z|k aa−k uh−b uh n*−jh, iy.」が生成される。中間記号列302、302Eの生成には、辞書を用いた言語処理又は形態素解析処理が応用される。
次に、韻律付与処理では、中間記号列302、302Eが示す個々の音素や音節に対して、韻律パラメータ303が決定される。図3は、日本語における一例として、入力テキスト「次は国分寺です」から生成された中間記号列302に基づいて生成される韻律パラメータ303と、この韻律パラメータ303に基づき生成される合成音声306のデータを概念的に示している。韻律パラメータ303は、声の高さに対応する声帯の振動周期である基本周波数パタン304、及び発声速度に対応する各音素の長さである継続時間長305を含む。韻律パラメータ303は、あらかじめ肉声を用いて学習された韻律モデル、及び、ヒューリスティクス(発見的に求められた制御規則)に基づいて生成される。
最後に、波形合成処理では、韻律パラメータ303にあわせた合成音声306が生成される。韻律パラメータ303から合成音声306を生成する方法としては、音素又は音節に対応する音声素片を組み合わせる波形接続型音声合成が広く用いられている。
図4は、本実施形態における音声合成装置1の合成音声の修正処理の流れを示すフローチャートである。
合成音声の修正処理が開始されると、修正情報入力処理モジュール109により、利用者が修正情報を入力するための表示画面が表示される。図5は、合成音声の修正処理においてディスプレイ105に表示される表示画面の一例を示す画面構成図である。表示画面5には、合成音声の生成処理において入力された入力テキスト、及び生成された中間記号列が、修正の対象となる合成音の情報として、それぞれ、入力テキスト表示欄501、中間記号列表示欄502として表示される。また、表示画面5には、修正の対象となる要素についての情報が表示される修正要素表示欄504、修正結果として得られる中間記号列が表示される修正結果表示欄505が含まれる。
修正情報入力処理109は、まず、利用者による修正区間の指定を受け付ける。本実施形態では、利用者が、入力テキスト表示欄501に表示された入力テキストの一部を、マウス104を用いて選択することにより、修正区間の指定が行われる。例えば、図5に示す表示画面5では、「国分寺」の区間が指定されている。この時、修正情報入力処理モジュール109は、図5に示すように、指指定された修正区間を修正区間表示枠503で囲み、利用者が指定した修正区間を容易に認識できるようにしている。なお、修正区間については、このように修正区間表示枠503で囲むほか、修正区間のテキストを強調表示するなどにより分かりやすく表示してもよい(ステップ401)。
次に、修正情報入力処理モジュール109は、利用者から修正要素の指定を受け付ける。本実施形態では、利用者がマウス104やキーボード103操作することにより、修正要素表示欄504に修正要素を指定する。例えば、図5に示す表示画面5では、修正要素として“アクセント位置”が指定されている。ここで指定される修正要素には、アクセント位置の他、ストレス位置、抑揚、継続長などがある。修正要素の指定は、キーボード103から直接入力して行われる他、プルダウンメニューやポップアップメニューなどにより修正要素の候補を修正要素リストとして表示し、マウス104によりそれら候補の中から一つを選択することにより行なうことができる。この時、修正情報入力処理モジュール109は、指定された修正要素によって、修正区間がステップ401で利用者により指定された修正区間と異なるものとなるときは、修正区間表示枠503により適切な修正区間が示されるよう修正区間表示枠503による表示を変更する。例えば、図5に示すように、修正要素としてアクセント位置が指定された場合、修正の単位がアクセント句になることを考慮して、修正区間表示枠503が、「国分寺」を含むアクセント句「国分寺です」を修正区間として示すよう変化させる(図5、波線503′部分)。
このようにして、修正区間と修正要素の指定を受け付けることにより、入力音声を用いてどのような修正を行いたいかという意図を明確にすることができる。また、修正単位に合わせて修正区間の表示を変更して示すことにより、利用者に対して、どの単位で修正を行うことが望ましいかを明確に提示することができる(ステップ402)。
次に、合成音声韻律抽出処理モジュール112は、修正対象の合成音声306に対応する韻律パラメータ303を抽出する。この時、修正区間表示枠503によって示される修正区間、例えば図5に示す例では、アクセント句「国分寺です」の区間、に対応する合成音声韻律パラメータを合成音声の生成処理で生成された合成音声韻律パラメータ303から抽出する(ステップ403)。
次に、音声入力処理モジュール110は、マイク101から利用者による音声の入力を受けつける。本処理においては、あらゆる音声入力を受けつけることができるが、修正意図を含む音声入力以外の入力を極力排除するように構成することが望ましい。簡単には、一般の音声区間検出処理に基づいて音声のみの区間を受けつけることが考えられるが、誤って修正意図を含まない音声区間を検出してしまうことが避けられない。本実施形態では、修正区間から、修正意図を含む音声のテキスト情報が予め明らかであることを利用して、ワードスポッティング型の音声認識方法を利用する。修正区間表示枠503により修正区間であることが示されているテキスト情報に基づいて、該当する音声、例えば図5に示す例においては「国分寺です」、を構成する音声が入力された際のみ、その音声入力を受け付けるようにすることができる(ステップ404)。
次に、入力音声分析処理モジュール111は、音声入力処理モジュール110が受け付けた入力音声から、入力音声韻律パラメータ703を抽出する。基本周波数パタンは、一般のピッチ抽出処理を用いることができる。また、音節ごとの継続長は、音声認識に用いられる隠れマルコフモデルを用いた強制アライメント処理により求めることができる(ステップ405)。
図6は、図5に示す例において、ステップ404、及びステップ405の処理により合成音声韻律抽出処理モジュール112により抽出された合成音声韻律パラメータ、ステップ405で受け付けられる入力音声データ、及び入力音声韻律パラメータそれぞれの概念図である。図5において、701は、合成音声韻律抽出処理モジュール112により抽出された修正区間、「国分寺です」に対応する合成音声韻律パラメータ、702は、音声入力処理モジュール110により受け付けられた入力音声、703は、入力音声分析処理モジュール111により入力音声702から抽出された入力韻律パラメータである。
修正情報決定処理モジュール113は、合成音声韻律パラメータ701と入力音声韻律パラメータ703とを比較し、指定された修正要素に応じた方法で合成音声韻律パラメータ701の修正値を決定する。修正情報決定処理モジュールは、決定した修正値を合成音声の修正に用いられる修正情報として出力する。ここで、合成音声韻律パラメータ701と入力音声韻律パラメータ703との比較の方法は、修正要素の指定に応じて変化する。例えば、指定された修正要素がアクセント位置である場合、修正情報決定処理モジュール113は、まず、合成音声韻律パラメータ701と入力音声韻律パラメータ703の時間軸を音節ごとに一致させる。さらに、基本周波数の平均値およびダイナミックレンジを合成音声と入力音声の間で一致させて正規化する。その後、修正情報決定処理モジュール113は、正規化された合成音声韻律パラメータ701と入力音声韻律パラメータ703の各音節における基本周波数の傾きの差分を計測し、この変化が最も大きい音節の直前にある音節にアクセント位置があるものとしてアクセント位置が修正された中間記号列を生成する。
図7は、正規化された韻律パラメータの一例を示す概念図である。801は、図6における合成音声韻律パラメータ701を正規化したものであり、802は、入力音声韻律パラメータ703を正規化したもので、図7には、これらが重畳して表わされている。修正情報決定処理モジュール113は、各音節における基本周波数の傾きの差分を計測することにより、音節「N」における傾きの変化が最も大きいことを検出できる。そこで、修正情報決定処理モジュール113は、アクセント位置は手前の音節「bu」にあると決定し、修正値として、修正中間記号列「kokubu’Njidesu>.」を得る。修正情報決定処理モジュール113は、表示画面5の修正結果表示欄505に得られた修正中間記号列を表示する。
このように、修正要素の指定に応じて、修正要素に関与しない韻律パラメータを合成音声と入力音声の間で正規化することにより、合成音声韻律パラメータと利用者の修正意図を含む入力音声韻律パラメータとの間の差分を抽出することが可能となり、精度の高い修正を行うことができる。入力音声の韻律パラメータのみを用いてアクセント位置を決定しようとする場合、基本周波数パタンの1次微分の極大値を用いる方法などが考えられる。しかし、この例の場合、基本周波数パタンの一次微分の極大値は、実際の発声でも合成音声の発声でも音節「ku」に存在することとなり、正しいアクセント位置の抽出は行えない。予め記憶しておいたアクセント型ごとの標準パタンと比較したり、2次微分なども考慮したりするなどして入力音声のみからアクセント位置を決定することも考えられるが、充分に学習された標準パタンやルールベースとなるデータが必要となり、データが不充分であると、必ずしも修正意図を反映できるとは限らない。本実施形態においては、入力音声に加えて元の合成音声の韻律パラメータを考慮し、両者を比較することにより、安定して修正意図を抽出し、その上で修正値を決定できる。
ここでは、アクセント位置に関する修正情報の決定処理を説明したが、その他、ストレス位置、音節無声化の有無、鼻音化の有無など、記号的な修正要素に対しても、入力音声と合成音声の比較により修正値を決定することができる。例えば、指定された修正要素がストレス位置である場合、合成音声韻律パラメータと入力音声韻律パラメータの時間軸を音声の始終端において一致させ、音節継続長の差分を測り、差分が最も大きくなる音節をストレス位置として抽出することができる。また、指定された修正要素が継続長である場合、合成音声韻律パラメータと入力音声韻律パラメータの時間軸を音声の始終端において一致させ、内部の音節継続長の変化のみを合成音声の修正に適用することができる(ステップ406)。
次に、音声修正処理モジュール114は、修正情報決定処理モジュール113で決定された修正中間記号列を用いて修正された合成音声を生成する。ここでは、修正された中間記号列「kokubu’Njidesu>.」を用いて音声合成を行うことにより、アクセント位置が修正された合成音声が得られる(ステップ407)。
最後に、音声出力処理モジュール108によって、修正された合成音声がスピーカ102から出力される(ステップ408)。
本実施形態では、音声出力処理モジュールにより修正された合成音声をスピーカから出力するようにしているが、修正された合成音声をデータとしてメモリ、あるいは外部の記憶装置などに記録するようにしてもかまわない。
以上のように、本実施形態の音声合成装置は、テキストに基づく合成音声とマイク等を介して利用者により入力される入力音声とに基づき抽出した利用者の修正意図に基づいて、合成音声の修正を行う。これにより、利用者の意図に沿った合成音声を生成することが可能となる。
本実施形態の音声合成装置は、合成音声の韻律情報と入力音声の韻律情報に基づき、その中間に存在する値を修正情報として用いることにより、より効果的に利用者の修正意図を反映した合成音声の修正を行う。
図8は、本発明の第2の実施形態における音声合成装置の簡略化された構成を示すブロック図である。本実施形態における音声合成装置1′は、修正情報決定処理モジュール113′における処理が第1の実施形態と異なる。
以下の説明において、第1の実施形態における音声合成装置1の構成要素と同一の参照番号が付された構成要素は、第1の実施形態における対応する構成要素と同一の機能等を有するものであり、ここでは共通する部分について、その詳細な説明を省略する。以下、他の図面等に関する説明についても同様とする。
本実施形態における修正情報決定処理モジュール113′は、音声合成処理モジュール107により生成された合成音声と、入力音声分析処理モジュール111による入力音声の分析結果とに基づき、1乃至複数の修正情報の候補を生成する。この後、修正情報決定処理モジュール113′は、生成された修正情報の候補から合成音声の修正に用いる修正情報を決定して出力する。
音声修正処理モジュール114は、修正情報決定処理モジュール113′により決定された修正情報を用いて修正された合成音声を生成する。
図9は、第2の実施形態における合成音声の修正処理の流れを示すフローチャートである。本実施形態における合成音声の修正処理では、入力音声の分析処理(ステップ405)の後に、修正値候補の生成処理(ステップ1006)が追加されている。この相違に伴い、修正値の決定処理(ステップ406)が修正値の選択処理(ステップ1007)に置き換えられている点を除き、図4に示す第1の実施形態の合成音声の修正処理と同様の処理が行われる。以下、第1の実施形態との相違点につき説明する。なお、合成音声の生成処理については、第1の実施形態と相違するものではないので、ここではその説明を省略する。
ステップ405において、入力音声分析処理モジュール111により入力音声から入力音声韻律パラメータが抽出されると、次に、修正情報決定処理モジュール113′は、合成音声韻律パラメータ701と入力音声韻律パラメータ703とを比較して、修正情報となる修正値の候補を生成する。以下では、一例として、指定された修正要素が抑揚である場合について説明する。
合成音声韻律パラメータ701と入力音声韻律パラメータ703とを抑揚の観点から比較するために、修正情報決定処理モジュール113′は、まず、入力音声韻律パラメータと合成音声韻律パラメータの時間軸を音節ごとに一致させる。さらに、基本周波数の平均値を合成音声と入力音声の間で一致させて正規化する。
図10は、このようにして正規化された韻律パラメータの例を示す概念図である。図において、実線1201は、正規化された合成音声韻律パラメータ、波線1202は、正規化された入力音声韻律パラメータである。
ここで、正規化された合成音声韻律パラメータ1201と正規化された入力音声韻律パラメータ1202とは異なっており、正規化された入力音声韻律パラメータ1202に従って合成音声の抑揚を修正することで、利用者の入力音声による修正を反映することができる。しかし、実際の利用場面においては、正規化された入力音声韻律パラメータ1202そのものを合成音声の修正に適用すること、過剰な修正になることがある。その理由として、人間の発声は不安定な成分が多いことと、概して人の声による修正は、過度な強調が入りがちであるということが挙げられる。そこで、本実施形態では、正規化された合成音声韻律パラメータ1201と正規化された入力音声韻律パラメータ1202の中間となる修正韻律パラメータを生成することで、修正が過剰とならないようにする。
図11は、正規化された合成音声韻律パラメータ及び入力音声パラメータと、修正韻律パラメータとの間の関係を示す概念図である。修正韻律パラメータ1203は、正規化された合成音声韻律パラメータ1201と正規化された入力音声韻律パラメータ1202の平均値として計算することができる。また、例えば、入力音声の影響をより弱く反映させたければ、合成音声のパラメータに重みを付けた加重平均値をとればよい。同じように、入力音声の影響をより強く反映させたければ、入力音声のパラメータに重みを付けた加重平均値をとればよい。修正情報決定処理モジュール113′は、このようにして複数の修正値候補を生成する。
図12は、本実施形態における合成音声の修正処理に際してディスプレイ105に表示される表示画面の一例を示す画面構成図である。修正情報決定処理モジュール113′は、生成した複数の修正値候補を表示画面5′の修正候補表示欄1100に表示する。ここでは、修正値候補として、上述したように、正規化された合成音声韻律パラメータと入力音声パラメータの平均値から得た中間修正値1101、入力音声をより弱く反映した修正値1102、入力音声をより強く反映した修正値1103を表示している。修正値候補の数は3つに限らず、それぞれ修正の程度の異なる任意の数の修正値候補を生成、表示するようにできる。(ステップ1006)。
次に、修正情報決定処理モジュール113′は、利用者によるマウス104やキーボード103の操作を受け付け、上述した表示画面に表示された複数の修正値候補の中から修正値候補の選択を受け付け、選択された修正値候補を修正値として決定する(ステップ1007)。
音声修正処理モジュール114は、前ステップ1007で決定された修正値を用いて、第1の実施形態と同様、修正された合成音声を生成する。このようにして、抑揚が修正された合成音声が得られる(ステップ407)。
以上のように、本実施形態の音声合成装置は、合成音声と入力音声との間の中間的な韻律パラメータに基づいて合成音声の修正を行い、また、複数の修正値候補を生成して提示することにより、第1の実施形態に比べてより適切に利用者の修正意図を反映させることが可能となる。
なお、ここでは、抑揚を例に説明したが、継続長、パワー、スペクトル等、連続量的な修正要素についても上述した抑揚の場合と同様に、それぞれの修正要素に応じて韻律パラメータの修正値候補を生成し、修正することができる。具体的には、ステップ1006において、修正要素に関する韻律パラメータの要素について、入力音声の反映の程度が異なる複数の修正値候補を生成するようにすればよい。
本実施形態の音声合成装置は、入力音声の録音履歴に基づき、複数の入力音声の韻律パラメータを平均した値を修正情報として用いることにより、より安定した修正意図の反映を可能とするものである。
図13は、第3の実施形態における音声合成装置の簡略化された構成を示すブロック図である。第2の実施形態の場合と同様、以下の説明において、第1の実施形態における音声合成装置1の構成要素と同一の参照番号が付された構成要素は、第1の実施形態における対応する構成要素と同一の機能等を有するものであり、第1の実施形態と共通する部分については、その詳細な説明を省略する。
本実施形態にける音声合成装置1″は、第2の実施形態における音声合成装置1′が有するプログラムに加えて、さらに、録音音声記憶処理モジュール1301を有する。また、音声入力処理モジュール110により取得された入力音声に基づいて得られた入力音声韻律パラメータが録音音声履歴情報1302として、メモリ118に保持される。録音音声記憶処理モジュール1301は、入力音声分析処理モジュール111により抽出された入力音声韻律パラメータを録音音声履歴情報1302として記録、保持するためのプログラムである。本実施形態では、記録、保持された録音音声履歴情報を用いて合成音声の修正値が決定されるため、後述するように、修正情報決定処理モジュール113″の処理が第1の実施形態、第2の実施形態における修正情報候補生成モジュールとは異なっている。
図14は、第3の実施形態における合成音声の修正処理の流れを示すフローチャートである。ここでは、修正要素として「抑揚」が指摘された場合の合成音声の修正処理を例に説明する。
本実施形態における合成音声の修正処理においても、入力音声の分析処理までは、第1、第2の実施形態と同様の処理が行われる(ステップ401〜405)。入力音声の分析処理の後、ステップ1406において、録音音声記憶処理モジュール1301は、入力音声分析処理モジュール111によって利用者の入力音声から抽出された入力音声韻律パラメータを録音音声履歴情報1302としてメモリ118に記録する。
図15は、録音音声履歴情報1302のデータ構造の一例を示す概念図である。録音音声履歴情報1302は、図15に示すように、ステップ401で指定された修正区間、あるいは、ステップ402で修正された修正区間に対応する修正区間情報1601、ステップ404で指定された修正要素に対応する修正要素情報1602、及びステップ405で抽出された韻律パラメータに対応する韻律パラメータ1603を1レコード中に含んで構成される。
本実施形態において、ステップ404〜1406の処理は、複数回繰り返され、同一の修正区間について複数のレコードが録音音声履歴情報1302として記憶されることが望ましい。この場合、利用者の操作により複数回の音声入力を受け付ける他、予め定めた回数だけステップ404〜1406の処理が繰り返されるようにし、その都度利用者からの音声入力を受け付けるようにしてもよい。また、修正情報記憶処理モジュール1301は、指定されている修正区間と修正要素に一致する録音音声履歴情報1302中のレコードを探索し、録音履歴としてディスプレイ105に表示する。表示される録音履歴は、少なくとも過去の入力音声の存在を明示するものである。このとき、記憶処理モジュール1301は、利用者からの指示に応じて、録音音声の再生や録音履歴情報1302からのレコードの削除ができるように構成されてもよい。レコードの削除を可能にすることで、録音状態の悪い入力音声に基づいて記憶されたレコードを削除し、以下に説明する合成音声の修正に反映されないようにすることが可能となる。
次に、修正情報決定処理モジュール113″は、ステップ405で抽出された合成音声韻律パラメータ701とステップ1406で録音音声履歴情報1302として記憶された録音音声韻律パラメータとを用いて、修正値候補を生成する。具体的に、修正情報決定処理モジュール113″は、録音音声履歴情報1302として格納されているレコードの中から、修正区間1601がステップ401で指定された修正区間に、および修正要素1602がステップ402で指定された修正要素にそれぞれ一致するレコードを選択する。修正情報決定処理モジュール113″は、選択したレコードが1つであれば、それを修正に用いる入力音声韻律パラメータとして用いる。また、選択したレコードが複数ある場合、修正情報決定処理モジュール113″は、それら複数のレコードに含まれる韻律パラメータ1603それぞれ正規化し、これらを平均化することで、修正に用いる入力音声韻律パラメータを生成する。修正情報決定処理モジュール113″は、このようにして生成した修正用の入力音声韻律パラメータと合成音声韻律パラメータ701とを用い、第2の実施形態のステップ1006と同様にして修正値候補を生成する。
このように、同一の修正区間について複数のレコードが存在する場合、それらに含まれる韻律パラメータを平均化して得られる韻律パラメータを用いて修正値候補を生成することで、1回の入力音声では安定しないケースでも修正値候補の信頼性を高めることができる(ステップ1407)。
この後、第2の実施形態と同様にして、ステップ1007以降の処理が行われ、修正された合成音声がスピーカ102から出力される。
以上のように、本実施形態における音声合成装置は、複数の入力音声から得られる平均的な韻律パラメータに基づいて合成音声の修正を行うことで、高い精度で修正意図を反映した合成音声を得ることが可能となる。
本実施形態における音声合成装置は、第2の実施形態と同様に、修正情報決定処理モジュールにより複数の修正値候補を生成し、その中から利用者の選択した修正値候補を用いて合成音声の修正を行っているが、修正情報決定処理モジュールにより生成された修正用の入力音声韻律パラメータ及び合成音声韻律パラメータから、第1の実施形態と同様、複数の修正値候補を生成することなく合成音声の修正を行うようにすることもできる。また、本実施形態においても第2の実施形態と同様に、継続長、パワー、スペクトル等、連続量的な修正要素についての修正を行うことができる。
以上説明した各実施形態によれば、テキスト情報に基づいて生成された合成音声の修正の修正に際し、利用者の修正意図を適切に反映させることが可能となる。
なお、上述した各実施形態では、CPU上で実行されるプログラムにより音声合成装置の各種機能を実現しているが、それらの一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。
また、以上の説明では、記号的な要素の修正と連続量的な要素の修正とを別々の実施形態として説明しているが、これらを一つの装置で実現することも可能である。例えば、上述した各実施形態におけるステップ402において利用者により指定される修正要素に応じて、ステップ405以降の処理を切り替えるように構成することでこれを実現することができる。
本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、鉄道や公共施設等の放送システム、携帯電話等の音声通信システムなどの装置・システムに適用することができる。
1、1′、1″・・・音声合成装置
106・・・テキスト入力処理モジュール
107・・・音声合成処理モジュール
108・・・音声出力処理モジュール
109・・・修正情報入力処理モジュール
110・・・音声入力処理モジュール
111・・・入力音声分析処理モジュール
112・・・合成音声韻律抽出処理モジュール
113、113′、113″・・・修正情報決定処理モジュール
114、音声修正処理モジュール
118・・・メモリ
119・・・CPU
1301・・・録音音声記憶処理
1302・・・録音音声履歴情報
106・・・テキスト入力処理モジュール
107・・・音声合成処理モジュール
108・・・音声出力処理モジュール
109・・・修正情報入力処理モジュール
110・・・音声入力処理モジュール
111・・・入力音声分析処理モジュール
112・・・合成音声韻律抽出処理モジュール
113、113′、113″・・・修正情報決定処理モジュール
114、音声修正処理モジュール
118・・・メモリ
119・・・CPU
1301・・・録音音声記憶処理
1302・・・録音音声履歴情報
Claims (11)
- テキスト入力を受け付けるテキスト入力部と、
利用者から入力音声情報となる音声の入力を受け付ける音声入力部と、
前記入力部から入力されたテキストに基づき、当該テキストに対応する合成音声情報を生成する音声合成部と、
前記音声合成部により生成された音声情報及び前記音声入力部で受け付けられた入力音声情報それぞれから韻律情報を抽出する韻律抽出部と、
前記韻律抽出部により抽出された前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいて前記合成音声韻律情報の修正情報を決定する修正情報決定部と、
前記修正情報決定部によって決定された修正情報を用いて修正された合成音声を生成音声修正部と、
を有する音声合成装置。 - 前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の中間値を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項1記載の音声合成装置。
- 前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいてそれぞれ異なる複数の修正情報の候補を生成し、前記複数の修正情報の中から利用者により選択された修正情報を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項1記載の音声合成装置。
- 前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の平均値を前記複数の修正情報の候補の一つとして生成することを特徴とする請求項3記載の音声合成装置。
- 前記複数の修正情報の候補は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の少なくともいずれか一方に重みを持たせた両者の加重平均値を含むことを特徴とする請求項3記載の音声合成装置。
- 請求項1記載の音声合成装置において、さらに、前記韻律抽出部で抽出された前記入力音声情報の韻律情報を記憶する音声記憶部を有し、
前記修正情報決定部は、利用者から指定された修正区間及び修正要素が合致する少なくとも1つの韻律情報を前記音声記憶部から抽出し、当該抽出された韻律情報を用いて前記合成音声韻律情報の修正情報を決定することを特徴とする音声合成装置。 - 前記音声記憶部は、前記入力音声情報の入力時に利用者による指定に基づき決定された修正区間、及び修正要素を前記入力音声情報の韻律情報に対応づけて記憶することを特徴とする請求項6記載の音声合成装置。
- 利用者により入力されるテキスト情報に基づいて、入力されたテキスト情報に対応する合成音声を生成する音声合成装置における合成音声の修正方法であって、
入力されたテキスト情報に基づき生成され修正の対象となる合成音声と、利用者により入力された入力音声のそれぞれから韻律情報を抽出し、
前記合成音声から抽出された韻律情報と、前記入力音声から抽出された韻律情報とに基づいて、前記合成音声から抽出された韻律情報の修正値を決定し、
前記修正値に基づいて修正された合成音声を生成する
ことを特徴とする合成音声の修正方法。 - 前記修正値を決定するステップは、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の中間値を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項8記載の合成音声の修正方法。
- 前記修正値を決定するステップは、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいてそれぞれ異なる複数の修正情報の候補を生成し、前記複数の修正情報に対して利用者による選択を受け付け、前記複数の修正情報の中から利用者により選択された修正情報を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項8記載の合成音声の修正方法。
- 請求項8記載の合成音声の修正方法は、さらに、前記韻律情報を抽出するステップで抽出された前記入力音声情報の韻律情報を記憶装置に記憶するステップを有し、
前記修正値を決定するステップは、利用者から指定された修正区間及び修正要素が合致する少なくとも1つの韻律情報を前記記憶装置から抽出し、当該抽出された韻律情報を用いて前記合成音声韻律情報の修正情報を決定することを特徴とする合成音声の修正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011085949A JP2012220701A (ja) | 2011-04-08 | 2011-04-08 | 音声合成装置及びその合成音声修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011085949A JP2012220701A (ja) | 2011-04-08 | 2011-04-08 | 音声合成装置及びその合成音声修正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012220701A true JP2012220701A (ja) | 2012-11-12 |
Family
ID=47272279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011085949A Pending JP2012220701A (ja) | 2011-04-08 | 2011-04-08 | 音声合成装置及びその合成音声修正方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012220701A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016118722A (ja) * | 2014-12-22 | 2016-06-30 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62262100A (ja) * | 1986-05-08 | 1987-11-14 | 株式会社リコー | 規則音声合成装置 |
JPH0511794A (ja) * | 1991-07-01 | 1993-01-22 | Ricoh Co Ltd | 音声合成装置 |
JPH09244677A (ja) * | 1996-03-06 | 1997-09-19 | Fujitsu Ltd | 音声合成システム |
JP2009187000A (ja) * | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | ユーザ音声診断装置及びユーザ音声診断方法 |
-
2011
- 2011-04-08 JP JP2011085949A patent/JP2012220701A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62262100A (ja) * | 1986-05-08 | 1987-11-14 | 株式会社リコー | 規則音声合成装置 |
JPH0511794A (ja) * | 1991-07-01 | 1993-01-22 | Ricoh Co Ltd | 音声合成装置 |
JPH09244677A (ja) * | 1996-03-06 | 1997-09-19 | Fujitsu Ltd | 音声合成システム |
JP2009187000A (ja) * | 2008-01-10 | 2009-08-20 | Asahi Kasei Corp | ユーザ音声診断装置及びユーザ音声診断方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016118722A (ja) * | 2014-12-22 | 2016-06-30 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US8886538B2 (en) | Systems and methods for text-to-speech synthesis using spoken example | |
JP4264841B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム | |
US20100312565A1 (en) | Interactive tts optimization tool | |
US9484012B2 (en) | Speech synthesis dictionary generation apparatus, speech synthesis dictionary generation method and computer program product | |
US20080183473A1 (en) | Technique of Generating High Quality Synthetic Speech | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
KR20160058470A (ko) | 음성 합성 장치 및 그 제어 방법 | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
JP2008046538A (ja) | テキスト音声合成を支援するシステム | |
US9129596B2 (en) | Apparatus and method for creating dictionary for speech synthesis utilizing a display to aid in assessing synthesis quality | |
JP2006293026A (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
KR101877559B1 (ko) | 모바일 단말기를 이용한 언어 자가학습 서비스 제공방법, 이를 실행하는 모바일 단말기 및 이를 실행하기 위한 애플리케이션을 저장하는 기록매체 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
RU2460154C1 (ru) | Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
US20070055524A1 (en) | Speech dialog method and device | |
JP2011242637A (ja) | 音声編集装置 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2012220701A (ja) | 音声合成装置及びその合成音声修正方法 | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP6340839B2 (ja) | 音声合成装置、合成音声編集方法及び合成音声編集用コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150210 |