JP2012220701A

JP2012220701A - 音声合成装置及びその合成音声修正方法

Info

Publication number: JP2012220701A
Application number: JP2011085949A
Authority: JP
Inventors: Yusuke Fujita; 雄介藤田; Kenji Nagamatsu; 健司永松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-04-08
Filing date: 2011-04-08
Publication date: 2012-11-12

Abstract

【課題】利用者により入力される音声入力を用いて、利用者の修正意図を適切に反映した合成音声の修正を行う。
【解決手段】合成音声韻律抽出処理１１２によりテキスト情報に基づき音声合成処理１０７で生成された合成音声から合成音声韻律情報を抽出するとともに、入力音声分析処理１１１によって入力音声から入力音声韻律情報を抽出する。修正情報決定処理１１３は抽出された合成音声韻律情報と入力音声韻律情報から合成音声の韻律情報の修正値を決定する。音声修正処理１１４は、決定された修正値を用いて修正された合成音声を生成する。
【選択図】図１

Description

本発明は、音声合成装置に係り、特に利用者の意図に沿った合成音声の生成に関する。

近年、車載用ナビゲーション装置や公共施設における自動放送装置など、音声を用いて各種の情報を提供する、自動音声案内システムが広く普及してきている。これらのシステムの一部では、与えられたテキストから音声を生成する音声合成装置が用いられており、定型文だけでなく、様々な内容の音声を、利用者が自由に作成することを可能としている。

このように、音声合成装置は、利用者が入力したテキストから様々な内容の音声を生成できる。しかしながら、音声合成装置では、利用者の「意図通り」の音声を生成することは難しい。例えば、テキストから自動的に生成された合成音声の読みやアクセントが誤っていることがある。これらの修正には、従来、読み及びアクセントの情報を示す中間記号列の修正をテキスト編集あるいはＧＵＩによって行う方法が利用されてきた。しかしながら、音声技術に詳しくない利用者が、修正の方法を正しく指定できるようになるためには、ある程度の熟練が必要とされる。

そこで、利用者自身の発声から、音声の韻律情報を抽出して、合成音声を「意図通り」に修正する方法が期待されている。例えば、特開平４−１６７０００号公報（特許文献１）には、音声入力手段により修正語の内容を音声を用いて入力し、入力された音声を解析して発音記号列の編集を行うことが開示されている。特許文献１に開示された技術によれば、複雑な発音記号列の定義を知らなくても容易に発音記号列を編集でき、きめ細やかな韻律の指定ができる。

また、特開２００８−１８５９１１号公報（特許文献２）には、利用者が音声により入力したアクセントに基づいて、与えられた文字列に対応する合成音声を生成することが開示されている。

特開平４−１６７０００号公報特開２００８−１８５９１１号公報

特許文献１に開示される技術では、利用者の発声から、アクセント・ポーズの位置を検出し、その結果に基づいて入力された音声と同じ韻律を表す発音記号列が生成される。しかし、利用者の発声のみに基づいて韻律情報を抽出・再現するだけでは、必ずしも利用者による修正の意図を適切に反映できるものではない。一般に、利用者は、修正箇所や修正方法を意識し、その意図を強調した発声をする傾向にある。従って、単に利用者の発声を解析し、それに忠実な発音記号列を生成するだけでは、必ずしも利用者の意図に即した韻律情報を抽出することはできず、利用者による修正の意図に即した合成音声を得ることは難しい。

また、特許文献２に開示される技術は、利用者により入力された音声の基本周波数軌跡の１次微分に基づいてアクセント位置を決定している。しかし、１次微分に基づいてアクセント位置を決定する方法は、基本周波数の高低変化に着目しているが、アクセント位置以外にも同様の高低変化が現れるので、一つの音声のみからアクセント句を判断するのは困難である。従って、分析精度に問題がある。

このように、単に入力音声を分析するだけでは、修正の意図を十分に反映できず、また分析精度も充分でないため、利用者の意図に即した修正を行うことは難しい、という課題がある。

上述した従来技術における課題を解決するために、本発明の音声合成装置及び合成音声の修正方法は、修正の対象となる合成音声と利用者により入力された入力音声のそれぞれから韻律情報を抽出し、これら２つの韻律情報から、修正の対象となる合成音声の韻律情報の修正値を決定し、この修正値に基づいて、修正された合成音声を生成する。

本発明の音声合成装置は、その一つの態様において、テキスト入力を受け付けるテキスト入力部、利用者から入力音声情報となる音声の入力を受け付ける音声入力部、入力部から入力されたテキストに基づき、当該テキストに対応する合成音声情報を生成する音声合成部、音声合成部により生成された音声情報及び音声入力部で受け付けられた入力音声情報それぞれから韻律情報を抽出する韻律抽出部、韻律抽出部により抽出された合成音声情報の韻律情報及び入力音声情報の韻律情報に基づいて合成音声韻律情報の修正情報を決定する修正情報決定部、及び、修正情報決定部によって決定された修正情報を用いて修正された合成音声を生成する音声修正部を有する。

本発明によれば、音声合成装置における合成音声の修正を、利用者の意図に即して効率的に行うことが可能となる。上記以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。

本発明が適用された音声合成装置の一実施形態における簡略化された構成を示すブロック図である。第１の実施形態における音声合成処理に係るデータの概念を示す説明図である。第１の実施形態における音声合成処理に係るデータの概念を示す説明図である。第１の実施形態における合成音声の修正処理の流れを示すフローチャートである。合成音声の修正処理においてディスプレイに表示される表示画面の一例を示す画面構成図である。合成音声韻律パラメータ、入力音声データ、及び入力音声韻律パラメータそれぞれの概念図である。正規化された韻律パラメータの一例を示す概念図である。第２の実施形態における音声合成装置の簡略化された構成を示すブロック図である。第２の実施形態における合成音声の修正処理の流れを示すフローチャートである。正規化された韻律パラメータの例を示す概念図である。正規化された合成音声韻律パラメータ及び入力音声パラメータと、修正韻律パラメータとの間の関係を示す概念図である。第２の実施形態における表示画面の一例を示す画面構成図である。第３の実施形態における音声合成装置の簡略化された構成を示すブロック図である。第３の実施形態における合成音声の修正処理の流れを示すフローチャートである。録音音声履歴情報のデータ構造の一例を示す概念図である。

図１は、本発明が適用された音声合成装置の一実施形態における簡略化された構成を示すブロック図である。

本実施形態における音声合成装置１は、マイク１０１、スピーカ１０２、キーボード１０３、マウス１０４、ディスプレイ１０５を備える。メモリ１１８には、本実施形態において音声合成装置１が有する各種の機能を実現するためにＣＰＵ１１９により実行されるプログラムとして、テキスト入力処理モジュール１０６、音声合成処理モジュール１０７、音声出力処理モジュール１０８、修正情報入力処理モジュール１０９、音声入力処理モジュール１１０、入力音声分析処理モジュール１１１、合成音声韻律抽出処理モジュール１１２、修正情報決定処理モジュール１１３、及び、音声修正処理モジュール１１４が保持される。また、メモリ１１８には、音源データ１１６、録音音声データ１１７が保持される。

テキスト入力処理モジュール１０６は、キーボード１０３やマウス１０４などの入力装置からのテキストの入力を受けつける。音声合成処理モジュール１０７は、音源データ１１６を用いて、入力されたテキストに対応する合成音声を生成する。音声出力処理モジュール１０８は、スピーカ１０２へ生成された合成音声を出力する。修正情報入力処理モジュール１０９は、キーボード１０３やマウス１０４などの入力装置を介して入力される合成音声の修正情報を受けつける。音声入力処理モジュール１１０は、マイク１０１から音声の入力を受け付け、入力音声情報として出力する。入力音声分析処理モジュール１１１は、入力された音声の韻律情報を分析し、録音音声データ１１７としてメモリ１１８に記憶する。合成音声韻律抽出処理モジュール１１２は、音声合成処理モジュール１０７により生成された合成音声から韻律情報を抽出する。修正情報決定処理モジュール１１３は、修正情報入力処理モジュール１０９により受け付けられた修正情報入力、入力音声分析処理モジュール１１１で得られた入力音声の韻律情報、及び、合成音声韻律抽出処理モジュール１１２で得られた合成音声の韻律情報を用いて、修正情報を決定する。音声修正処理モジュール１１４は、修正情報に基づいて修正された合成音声を生成する。

本実施形態において、音声合成装置１は、例えば、パーソナルコンピュータを用いて構成することができる。上述した各プログラムは、図示しないハードディスク装置のような外部記憶装置に格納され、必要に応じてメモリ１１８上に読み出されて利用されるように構成されていてもよい。また、音源データなどのデータについても必ずしもメモリ上に保持される必要はなく、プログラムと同様外部の記憶装置に格納されていてもかまわない。これらのことは、後述する他の実施の形態においても同様である。

次に、上記のように構成される、本実施形態に係る音声合成装置１は、合成音声の生成処理と合成音声の修正処理を実施する。

合成音声の生成処理では、まず、テキスト入力処理モジュール１０６により、キーボードからテキストの入力が受けつけられる。次に、音声合成処理モジュール１０７により、入力されたテキストに対応する合成音声が音源データ１１６を用いて生成される。最後に、音声出力処理モジュール１０８により、生成された合成音声がスピーカ１０２へ出力される。

図２、及び図３は、本実施形態において音声合成モジュール１０７により実施される音声合成処理に係るデータの概念を示す説明図である。本実施形態における音声合成処理は、言語処理、韻律付与処理、波形合成処理に分けられる。

言語処理では、入力されたテキストに対して、読み及びアクセントの情報を示す中間記号列が生成される。この中間記号列は、音声の意味を弁別するための最小単位となる“音素”又は１ないし３個程度の音素の結合からなる音声の聞こえの一種のまとまりである“音節”の並びを表現する読み情報、及び、発音の強さを指定する情報である“アクセント”又は疑問文や話し手の感情を示す情報である“抑揚”を表現するアクセント情報が含まれる。例えば、図２に示すように、入力テキスト３０１として「次は、国分寺です。」が与えられると、中間記号列３０２として、「ｔｓｕｇｉｗａ｜ｋｏｋｕｂｕＮｊｉｄｅｓｕ＞．」が生成される。あるいは英語の場合、入力テキスト３０１Ｅとして「ｔｈｅｎｅｘｔｓｔａｔｉｏｎｉｓＫｏｋｕｂｕｎｊｉ」が与えられると、中間記号列３０２Ｅとして、「ｄｈａｘ，ｎｅｈｋｓｔ＊，ｓｔｅｙ＊−ｓｈａｘｎ，ｉｈｚ｜ｋａａ−ｋｕｈ−ｂｕｈｎ＊−ｊｈ，ｉｙ．」が生成される。中間記号列３０２、３０２Ｅの生成には、辞書を用いた言語処理又は形態素解析処理が応用される。

次に、韻律付与処理では、中間記号列３０２、３０２Ｅが示す個々の音素や音節に対して、韻律パラメータ３０３が決定される。図３は、日本語における一例として、入力テキスト「次は国分寺です」から生成された中間記号列３０２に基づいて生成される韻律パラメータ３０３と、この韻律パラメータ３０３に基づき生成される合成音声３０６のデータを概念的に示している。韻律パラメータ３０３は、声の高さに対応する声帯の振動周期である基本周波数パタン３０４、及び発声速度に対応する各音素の長さである継続時間長３０５を含む。韻律パラメータ３０３は、あらかじめ肉声を用いて学習された韻律モデル、及び、ヒューリスティクス（発見的に求められた制御規則）に基づいて生成される。

最後に、波形合成処理では、韻律パラメータ３０３にあわせた合成音声３０６が生成される。韻律パラメータ３０３から合成音声３０６を生成する方法としては、音素又は音節に対応する音声素片を組み合わせる波形接続型音声合成が広く用いられている。

図４は、本実施形態における音声合成装置１の合成音声の修正処理の流れを示すフローチャートである。

合成音声の修正処理が開始されると、修正情報入力処理モジュール１０９により、利用者が修正情報を入力するための表示画面が表示される。図５は、合成音声の修正処理においてディスプレイ１０５に表示される表示画面の一例を示す画面構成図である。表示画面５には、合成音声の生成処理において入力された入力テキスト、及び生成された中間記号列が、修正の対象となる合成音の情報として、それぞれ、入力テキスト表示欄５０１、中間記号列表示欄５０２として表示される。また、表示画面５には、修正の対象となる要素についての情報が表示される修正要素表示欄５０４、修正結果として得られる中間記号列が表示される修正結果表示欄５０５が含まれる。

修正情報入力処理１０９は、まず、利用者による修正区間の指定を受け付ける。本実施形態では、利用者が、入力テキスト表示欄５０１に表示された入力テキストの一部を、マウス１０４を用いて選択することにより、修正区間の指定が行われる。例えば、図５に示す表示画面５では、「国分寺」の区間が指定されている。この時、修正情報入力処理モジュール１０９は、図５に示すように、指指定された修正区間を修正区間表示枠５０３で囲み、利用者が指定した修正区間を容易に認識できるようにしている。なお、修正区間については、このように修正区間表示枠５０３で囲むほか、修正区間のテキストを強調表示するなどにより分かりやすく表示してもよい（ステップ４０１）。

次に、修正情報入力処理モジュール１０９は、利用者から修正要素の指定を受け付ける。本実施形態では、利用者がマウス１０４やキーボード１０３操作することにより、修正要素表示欄５０４に修正要素を指定する。例えば、図５に示す表示画面５では、修正要素として“アクセント位置”が指定されている。ここで指定される修正要素には、アクセント位置の他、ストレス位置、抑揚、継続長などがある。修正要素の指定は、キーボード１０３から直接入力して行われる他、プルダウンメニューやポップアップメニューなどにより修正要素の候補を修正要素リストとして表示し、マウス１０４によりそれら候補の中から一つを選択することにより行なうことができる。この時、修正情報入力処理モジュール１０９は、指定された修正要素によって、修正区間がステップ４０１で利用者により指定された修正区間と異なるものとなるときは、修正区間表示枠５０３により適切な修正区間が示されるよう修正区間表示枠５０３による表示を変更する。例えば、図５に示すように、修正要素としてアクセント位置が指定された場合、修正の単位がアクセント句になることを考慮して、修正区間表示枠５０３が、「国分寺」を含むアクセント句「国分寺です」を修正区間として示すよう変化させる（図５、波線５０３′部分）。

このようにして、修正区間と修正要素の指定を受け付けることにより、入力音声を用いてどのような修正を行いたいかという意図を明確にすることができる。また、修正単位に合わせて修正区間の表示を変更して示すことにより、利用者に対して、どの単位で修正を行うことが望ましいかを明確に提示することができる（ステップ４０２）。

次に、合成音声韻律抽出処理モジュール１１２は、修正対象の合成音声３０６に対応する韻律パラメータ３０３を抽出する。この時、修正区間表示枠５０３によって示される修正区間、例えば図５に示す例では、アクセント句「国分寺です」の区間、に対応する合成音声韻律パラメータを合成音声の生成処理で生成された合成音声韻律パラメータ３０３から抽出する（ステップ４０３）。

次に、音声入力処理モジュール１１０は、マイク１０１から利用者による音声の入力を受けつける。本処理においては、あらゆる音声入力を受けつけることができるが、修正意図を含む音声入力以外の入力を極力排除するように構成することが望ましい。簡単には、一般の音声区間検出処理に基づいて音声のみの区間を受けつけることが考えられるが、誤って修正意図を含まない音声区間を検出してしまうことが避けられない。本実施形態では、修正区間から、修正意図を含む音声のテキスト情報が予め明らかであることを利用して、ワードスポッティング型の音声認識方法を利用する。修正区間表示枠５０３により修正区間であることが示されているテキスト情報に基づいて、該当する音声、例えば図５に示す例においては「国分寺です」、を構成する音声が入力された際のみ、その音声入力を受け付けるようにすることができる（ステップ４０４）。

次に、入力音声分析処理モジュール１１１は、音声入力処理モジュール１１０が受け付けた入力音声から、入力音声韻律パラメータ７０３を抽出する。基本周波数パタンは、一般のピッチ抽出処理を用いることができる。また、音節ごとの継続長は、音声認識に用いられる隠れマルコフモデルを用いた強制アライメント処理により求めることができる（ステップ４０５）。

図６は、図５に示す例において、ステップ４０４、及びステップ４０５の処理により合成音声韻律抽出処理モジュール１１２により抽出された合成音声韻律パラメータ、ステップ４０５で受け付けられる入力音声データ、及び入力音声韻律パラメータそれぞれの概念図である。図５において、７０１は、合成音声韻律抽出処理モジュール１１２により抽出された修正区間、「国分寺です」に対応する合成音声韻律パラメータ、７０２は、音声入力処理モジュール１１０により受け付けられた入力音声、７０３は、入力音声分析処理モジュール１１１により入力音声７０２から抽出された入力韻律パラメータである。

修正情報決定処理モジュール１１３は、合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３とを比較し、指定された修正要素に応じた方法で合成音声韻律パラメータ７０１の修正値を決定する。修正情報決定処理モジュールは、決定した修正値を合成音声の修正に用いられる修正情報として出力する。ここで、合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３との比較の方法は、修正要素の指定に応じて変化する。例えば、指定された修正要素がアクセント位置である場合、修正情報決定処理モジュール１１３は、まず、合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３の時間軸を音節ごとに一致させる。さらに、基本周波数の平均値およびダイナミックレンジを合成音声と入力音声の間で一致させて正規化する。その後、修正情報決定処理モジュール１１３は、正規化された合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３の各音節における基本周波数の傾きの差分を計測し、この変化が最も大きい音節の直前にある音節にアクセント位置があるものとしてアクセント位置が修正された中間記号列を生成する。

図７は、正規化された韻律パラメータの一例を示す概念図である。８０１は、図６における合成音声韻律パラメータ７０１を正規化したものであり、８０２は、入力音声韻律パラメータ７０３を正規化したもので、図７には、これらが重畳して表わされている。修正情報決定処理モジュール１１３は、各音節における基本周波数の傾きの差分を計測することにより、音節「Ｎ」における傾きの変化が最も大きいことを検出できる。そこで、修正情報決定処理モジュール１１３は、アクセント位置は手前の音節「ｂｕ」にあると決定し、修正値として、修正中間記号列「ｋｏｋｕｂｕ’Ｎｊｉｄｅｓｕ＞．」を得る。修正情報決定処理モジュール１１３は、表示画面５の修正結果表示欄５０５に得られた修正中間記号列を表示する。

このように、修正要素の指定に応じて、修正要素に関与しない韻律パラメータを合成音声と入力音声の間で正規化することにより、合成音声韻律パラメータと利用者の修正意図を含む入力音声韻律パラメータとの間の差分を抽出することが可能となり、精度の高い修正を行うことができる。入力音声の韻律パラメータのみを用いてアクセント位置を決定しようとする場合、基本周波数パタンの１次微分の極大値を用いる方法などが考えられる。しかし、この例の場合、基本周波数パタンの一次微分の極大値は、実際の発声でも合成音声の発声でも音節「ｋｕ」に存在することとなり、正しいアクセント位置の抽出は行えない。予め記憶しておいたアクセント型ごとの標準パタンと比較したり、２次微分なども考慮したりするなどして入力音声のみからアクセント位置を決定することも考えられるが、充分に学習された標準パタンやルールベースとなるデータが必要となり、データが不充分であると、必ずしも修正意図を反映できるとは限らない。本実施形態においては、入力音声に加えて元の合成音声の韻律パラメータを考慮し、両者を比較することにより、安定して修正意図を抽出し、その上で修正値を決定できる。

ここでは、アクセント位置に関する修正情報の決定処理を説明したが、その他、ストレス位置、音節無声化の有無、鼻音化の有無など、記号的な修正要素に対しても、入力音声と合成音声の比較により修正値を決定することができる。例えば、指定された修正要素がストレス位置である場合、合成音声韻律パラメータと入力音声韻律パラメータの時間軸を音声の始終端において一致させ、音節継続長の差分を測り、差分が最も大きくなる音節をストレス位置として抽出することができる。また、指定された修正要素が継続長である場合、合成音声韻律パラメータと入力音声韻律パラメータの時間軸を音声の始終端において一致させ、内部の音節継続長の変化のみを合成音声の修正に適用することができる（ステップ４０６）。

次に、音声修正処理モジュール１１４は、修正情報決定処理モジュール１１３で決定された修正中間記号列を用いて修正された合成音声を生成する。ここでは、修正された中間記号列「ｋｏｋｕｂｕ’Ｎｊｉｄｅｓｕ＞．」を用いて音声合成を行うことにより、アクセント位置が修正された合成音声が得られる（ステップ４０７）。

最後に、音声出力処理モジュール１０８によって、修正された合成音声がスピーカ１０２から出力される（ステップ４０８）。

本実施形態では、音声出力処理モジュールにより修正された合成音声をスピーカから出力するようにしているが、修正された合成音声をデータとしてメモリ、あるいは外部の記憶装置などに記録するようにしてもかまわない。

以上のように、本実施形態の音声合成装置は、テキストに基づく合成音声とマイク等を介して利用者により入力される入力音声とに基づき抽出した利用者の修正意図に基づいて、合成音声の修正を行う。これにより、利用者の意図に沿った合成音声を生成することが可能となる。

本実施形態の音声合成装置は、合成音声の韻律情報と入力音声の韻律情報に基づき、その中間に存在する値を修正情報として用いることにより、より効果的に利用者の修正意図を反映した合成音声の修正を行う。

図８は、本発明の第２の実施形態における音声合成装置の簡略化された構成を示すブロック図である。本実施形態における音声合成装置１′は、修正情報決定処理モジュール１１３′における処理が第１の実施形態と異なる。

以下の説明において、第１の実施形態における音声合成装置１の構成要素と同一の参照番号が付された構成要素は、第１の実施形態における対応する構成要素と同一の機能等を有するものであり、ここでは共通する部分について、その詳細な説明を省略する。以下、他の図面等に関する説明についても同様とする。

本実施形態における修正情報決定処理モジュール１１３′は、音声合成処理モジュール１０７により生成された合成音声と、入力音声分析処理モジュール１１１による入力音声の分析結果とに基づき、１乃至複数の修正情報の候補を生成する。この後、修正情報決定処理モジュール１１３′は、生成された修正情報の候補から合成音声の修正に用いる修正情報を決定して出力する。

音声修正処理モジュール１１４は、修正情報決定処理モジュール１１３′により決定された修正情報を用いて修正された合成音声を生成する。

図９は、第２の実施形態における合成音声の修正処理の流れを示すフローチャートである。本実施形態における合成音声の修正処理では、入力音声の分析処理（ステップ４０５）の後に、修正値候補の生成処理（ステップ１００６）が追加されている。この相違に伴い、修正値の決定処理（ステップ４０６）が修正値の選択処理（ステップ１００７）に置き換えられている点を除き、図４に示す第１の実施形態の合成音声の修正処理と同様の処理が行われる。以下、第１の実施形態との相違点につき説明する。なお、合成音声の生成処理については、第１の実施形態と相違するものではないので、ここではその説明を省略する。

ステップ４０５において、入力音声分析処理モジュール１１１により入力音声から入力音声韻律パラメータが抽出されると、次に、修正情報決定処理モジュール１１３′は、合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３とを比較して、修正情報となる修正値の候補を生成する。以下では、一例として、指定された修正要素が抑揚である場合について説明する。

合成音声韻律パラメータ７０１と入力音声韻律パラメータ７０３とを抑揚の観点から比較するために、修正情報決定処理モジュール１１３′は、まず、入力音声韻律パラメータと合成音声韻律パラメータの時間軸を音節ごとに一致させる。さらに、基本周波数の平均値を合成音声と入力音声の間で一致させて正規化する。

図１０は、このようにして正規化された韻律パラメータの例を示す概念図である。図において、実線１２０１は、正規化された合成音声韻律パラメータ、波線１２０２は、正規化された入力音声韻律パラメータである。

ここで、正規化された合成音声韻律パラメータ１２０１と正規化された入力音声韻律パラメータ１２０２とは異なっており、正規化された入力音声韻律パラメータ１２０２に従って合成音声の抑揚を修正することで、利用者の入力音声による修正を反映することができる。しかし、実際の利用場面においては、正規化された入力音声韻律パラメータ１２０２そのものを合成音声の修正に適用すること、過剰な修正になることがある。その理由として、人間の発声は不安定な成分が多いことと、概して人の声による修正は、過度な強調が入りがちであるということが挙げられる。そこで、本実施形態では、正規化された合成音声韻律パラメータ１２０１と正規化された入力音声韻律パラメータ１２０２の中間となる修正韻律パラメータを生成することで、修正が過剰とならないようにする。

図１１は、正規化された合成音声韻律パラメータ及び入力音声パラメータと、修正韻律パラメータとの間の関係を示す概念図である。修正韻律パラメータ１２０３は、正規化された合成音声韻律パラメータ１２０１と正規化された入力音声韻律パラメータ１２０２の平均値として計算することができる。また、例えば、入力音声の影響をより弱く反映させたければ、合成音声のパラメータに重みを付けた加重平均値をとればよい。同じように、入力音声の影響をより強く反映させたければ、入力音声のパラメータに重みを付けた加重平均値をとればよい。修正情報決定処理モジュール１１３′は、このようにして複数の修正値候補を生成する。

図１２は、本実施形態における合成音声の修正処理に際してディスプレイ１０５に表示される表示画面の一例を示す画面構成図である。修正情報決定処理モジュール１１３′は、生成した複数の修正値候補を表示画面５′の修正候補表示欄１１００に表示する。ここでは、修正値候補として、上述したように、正規化された合成音声韻律パラメータと入力音声パラメータの平均値から得た中間修正値１１０１、入力音声をより弱く反映した修正値１１０２、入力音声をより強く反映した修正値１１０３を表示している。修正値候補の数は３つに限らず、それぞれ修正の程度の異なる任意の数の修正値候補を生成、表示するようにできる。（ステップ１００６）。

次に、修正情報決定処理モジュール１１３′は、利用者によるマウス１０４やキーボード１０３の操作を受け付け、上述した表示画面に表示された複数の修正値候補の中から修正値候補の選択を受け付け、選択された修正値候補を修正値として決定する（ステップ１００７）。

音声修正処理モジュール１１４は、前ステップ１００７で決定された修正値を用いて、第１の実施形態と同様、修正された合成音声を生成する。このようにして、抑揚が修正された合成音声が得られる（ステップ４０７）。

以上のように、本実施形態の音声合成装置は、合成音声と入力音声との間の中間的な韻律パラメータに基づいて合成音声の修正を行い、また、複数の修正値候補を生成して提示することにより、第１の実施形態に比べてより適切に利用者の修正意図を反映させることが可能となる。

なお、ここでは、抑揚を例に説明したが、継続長、パワー、スペクトル等、連続量的な修正要素についても上述した抑揚の場合と同様に、それぞれの修正要素に応じて韻律パラメータの修正値候補を生成し、修正することができる。具体的には、ステップ１００６において、修正要素に関する韻律パラメータの要素について、入力音声の反映の程度が異なる複数の修正値候補を生成するようにすればよい。

本実施形態の音声合成装置は、入力音声の録音履歴に基づき、複数の入力音声の韻律パラメータを平均した値を修正情報として用いることにより、より安定した修正意図の反映を可能とするものである。

図１３は、第３の実施形態における音声合成装置の簡略化された構成を示すブロック図である。第２の実施形態の場合と同様、以下の説明において、第１の実施形態における音声合成装置１の構成要素と同一の参照番号が付された構成要素は、第１の実施形態における対応する構成要素と同一の機能等を有するものであり、第１の実施形態と共通する部分については、その詳細な説明を省略する。

本実施形態にける音声合成装置１″は、第２の実施形態における音声合成装置１′が有するプログラムに加えて、さらに、録音音声記憶処理モジュール１３０１を有する。また、音声入力処理モジュール１１０により取得された入力音声に基づいて得られた入力音声韻律パラメータが録音音声履歴情報１３０２として、メモリ１１８に保持される。録音音声記憶処理モジュール１３０１は、入力音声分析処理モジュール１１１により抽出された入力音声韻律パラメータを録音音声履歴情報１３０２として記録、保持するためのプログラムである。本実施形態では、記録、保持された録音音声履歴情報を用いて合成音声の修正値が決定されるため、後述するように、修正情報決定処理モジュール１１３″の処理が第１の実施形態、第２の実施形態における修正情報候補生成モジュールとは異なっている。

図１４は、第３の実施形態における合成音声の修正処理の流れを示すフローチャートである。ここでは、修正要素として「抑揚」が指摘された場合の合成音声の修正処理を例に説明する。

本実施形態における合成音声の修正処理においても、入力音声の分析処理までは、第１、第２の実施形態と同様の処理が行われる（ステップ４０１〜４０５）。入力音声の分析処理の後、ステップ１４０６において、録音音声記憶処理モジュール１３０１は、入力音声分析処理モジュール１１１によって利用者の入力音声から抽出された入力音声韻律パラメータを録音音声履歴情報１３０２としてメモリ１１８に記録する。

図１５は、録音音声履歴情報１３０２のデータ構造の一例を示す概念図である。録音音声履歴情報１３０２は、図１５に示すように、ステップ４０１で指定された修正区間、あるいは、ステップ４０２で修正された修正区間に対応する修正区間情報１６０１、ステップ４０４で指定された修正要素に対応する修正要素情報１６０２、及びステップ４０５で抽出された韻律パラメータに対応する韻律パラメータ１６０３を１レコード中に含んで構成される。

本実施形態において、ステップ４０４〜１４０６の処理は、複数回繰り返され、同一の修正区間について複数のレコードが録音音声履歴情報１３０２として記憶されることが望ましい。この場合、利用者の操作により複数回の音声入力を受け付ける他、予め定めた回数だけステップ４０４〜１４０６の処理が繰り返されるようにし、その都度利用者からの音声入力を受け付けるようにしてもよい。また、修正情報記憶処理モジュール１３０１は、指定されている修正区間と修正要素に一致する録音音声履歴情報１３０２中のレコードを探索し、録音履歴としてディスプレイ１０５に表示する。表示される録音履歴は、少なくとも過去の入力音声の存在を明示するものである。このとき、記憶処理モジュール１３０１は、利用者からの指示に応じて、録音音声の再生や録音履歴情報１３０２からのレコードの削除ができるように構成されてもよい。レコードの削除を可能にすることで、録音状態の悪い入力音声に基づいて記憶されたレコードを削除し、以下に説明する合成音声の修正に反映されないようにすることが可能となる。

次に、修正情報決定処理モジュール１１３″は、ステップ４０５で抽出された合成音声韻律パラメータ７０１とステップ１４０６で録音音声履歴情報１３０２として記憶された録音音声韻律パラメータとを用いて、修正値候補を生成する。具体的に、修正情報決定処理モジュール１１３″は、録音音声履歴情報１３０２として格納されているレコードの中から、修正区間１６０１がステップ４０１で指定された修正区間に、および修正要素１６０２がステップ４０２で指定された修正要素にそれぞれ一致するレコードを選択する。修正情報決定処理モジュール１１３″は、選択したレコードが１つであれば、それを修正に用いる入力音声韻律パラメータとして用いる。また、選択したレコードが複数ある場合、修正情報決定処理モジュール１１３″は、それら複数のレコードに含まれる韻律パラメータ１６０３それぞれ正規化し、これらを平均化することで、修正に用いる入力音声韻律パラメータを生成する。修正情報決定処理モジュール１１３″は、このようにして生成した修正用の入力音声韻律パラメータと合成音声韻律パラメータ７０１とを用い、第２の実施形態のステップ１００６と同様にして修正値候補を生成する。

このように、同一の修正区間について複数のレコードが存在する場合、それらに含まれる韻律パラメータを平均化して得られる韻律パラメータを用いて修正値候補を生成することで、１回の入力音声では安定しないケースでも修正値候補の信頼性を高めることができる（ステップ１４０７）。

この後、第２の実施形態と同様にして、ステップ１００７以降の処理が行われ、修正された合成音声がスピーカ１０２から出力される。

以上のように、本実施形態における音声合成装置は、複数の入力音声から得られる平均的な韻律パラメータに基づいて合成音声の修正を行うことで、高い精度で修正意図を反映した合成音声を得ることが可能となる。

本実施形態における音声合成装置は、第２の実施形態と同様に、修正情報決定処理モジュールにより複数の修正値候補を生成し、その中から利用者の選択した修正値候補を用いて合成音声の修正を行っているが、修正情報決定処理モジュールにより生成された修正用の入力音声韻律パラメータ及び合成音声韻律パラメータから、第１の実施形態と同様、複数の修正値候補を生成することなく合成音声の修正を行うようにすることもできる。また、本実施形態においても第２の実施形態と同様に、継続長、パワー、スペクトル等、連続量的な修正要素についての修正を行うことができる。

以上説明した各実施形態によれば、テキスト情報に基づいて生成された合成音声の修正の修正に際し、利用者の修正意図を適切に反映させることが可能となる。

なお、上述した各実施形態では、ＣＰＵ上で実行されるプログラムにより音声合成装置の各種機能を実現しているが、それらの一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。

また、以上の説明では、記号的な要素の修正と連続量的な要素の修正とを別々の実施形態として説明しているが、これらを一つの装置で実現することも可能である。例えば、上述した各実施形態におけるステップ４０２において利用者により指定される修正要素に応じて、ステップ４０５以降の処理を切り替えるように構成することでこれを実現することができる。

本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、鉄道や公共施設等の放送システム、携帯電話等の音声通信システムなどの装置・システムに適用することができる。

１、１′、１″・・・音声合成装置
１０６・・・テキスト入力処理モジュール
１０７・・・音声合成処理モジュール
１０８・・・音声出力処理モジュール
１０９・・・修正情報入力処理モジュール
１１０・・・音声入力処理モジュール
１１１・・・入力音声分析処理モジュール
１１２・・・合成音声韻律抽出処理モジュール
１１３、１１３′、１１３″・・・修正情報決定処理モジュール
１１４、音声修正処理モジュール
１１８・・・メモリ
１１９・・・ＣＰＵ
１３０１・・・録音音声記憶処理
１３０２・・・録音音声履歴情報

Claims

テキスト入力を受け付けるテキスト入力部と、
利用者から入力音声情報となる音声の入力を受け付ける音声入力部と、
前記入力部から入力されたテキストに基づき、当該テキストに対応する合成音声情報を生成する音声合成部と、
前記音声合成部により生成された音声情報及び前記音声入力部で受け付けられた入力音声情報それぞれから韻律情報を抽出する韻律抽出部と、
前記韻律抽出部により抽出された前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいて前記合成音声韻律情報の修正情報を決定する修正情報決定部と、
前記修正情報決定部によって決定された修正情報を用いて修正された合成音声を生成音声修正部と、
を有する音声合成装置。
前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の中間値を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項１記載の音声合成装置。
前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいてそれぞれ異なる複数の修正情報の候補を生成し、前記複数の修正情報の中から利用者により選択された修正情報を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項１記載の音声合成装置。
前記修正情報決定部は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の平均値を前記複数の修正情報の候補の一つとして生成することを特徴とする請求項３記載の音声合成装置。
前記複数の修正情報の候補は、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の少なくともいずれか一方に重みを持たせた両者の加重平均値を含むことを特徴とする請求項３記載の音声合成装置。
請求項１記載の音声合成装置において、さらに、前記韻律抽出部で抽出された前記入力音声情報の韻律情報を記憶する音声記憶部を有し、
前記修正情報決定部は、利用者から指定された修正区間及び修正要素が合致する少なくとも１つの韻律情報を前記音声記憶部から抽出し、当該抽出された韻律情報を用いて前記合成音声韻律情報の修正情報を決定することを特徴とする音声合成装置。
前記音声記憶部は、前記入力音声情報の入力時に利用者による指定に基づき決定された修正区間、及び修正要素を前記入力音声情報の韻律情報に対応づけて記憶することを特徴とする請求項６記載の音声合成装置。
利用者により入力されるテキスト情報に基づいて、入力されたテキスト情報に対応する合成音声を生成する音声合成装置における合成音声の修正方法であって、
入力されたテキスト情報に基づき生成され修正の対象となる合成音声と、利用者により入力された入力音声のそれぞれから韻律情報を抽出し、
前記合成音声から抽出された韻律情報と、前記入力音声から抽出された韻律情報とに基づいて、前記合成音声から抽出された韻律情報の修正値を決定し、
前記修正値に基づいて修正された合成音声を生成する
ことを特徴とする合成音声の修正方法。
前記修正値を決定するステップは、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報の中間値を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項８記載の合成音声の修正方法。
前記修正値を決定するステップは、前記合成音声情報の韻律情報及び前記入力音声情報の韻律情報に基づいてそれぞれ異なる複数の修正情報の候補を生成し、前記複数の修正情報に対して利用者による選択を受け付け、前記複数の修正情報の中から利用者により選択された修正情報を前記合成音声韻律情報の修正情報として決定することを特徴とする請求項８記載の合成音声の修正方法。
請求項８記載の合成音声の修正方法は、さらに、前記韻律情報を抽出するステップで抽出された前記入力音声情報の韻律情報を記憶装置に記憶するステップを有し、
前記修正値を決定するステップは、利用者から指定された修正区間及び修正要素が合致する少なくとも１つの韻律情報を前記記憶装置から抽出し、当該抽出された韻律情報を用いて前記合成音声韻律情報の修正情報を決定することを特徴とする合成音声の修正方法。