JP2016109832A

JP2016109832A - 音声合成装置および音声合成方法

Info

Publication number: JP2016109832A
Application number: JP2014246460A
Authority: JP
Inventors: 辰彦斉藤; Tatsuhiko Saito; 山浦　正; Tadashi Yamaura; 正山浦; 古本友紀; Tomonori Furumoto
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2016-06-20
Anticipated expiration: 2034-12-05
Also published as: JP6369311B2

Abstract

【課題】強調された単語の連続や強調されない単語の連続を防いで生成される合成音声において効果的な強調をすることが可能な音声合成装置を得ることを目的とする。【解決手段】複数の語句で構成される言語情報の定められた第１の範囲にある語句のそれぞれの強調の度合いを、第１の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第１の基準に応じて決定する強調度決定部１１０と、言語情報の語句に対して強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成部と、を備える。【選択図】図１

Description

この発明は、言語情報に基づいて合成音声を生成する音声合成装置に関する。

テキストなどの入力情報に基づいて合成音声を生成し、生成した合成音声を出力して利用者に情報を提供する装置（例えば、カーナビゲーションシステムなどの車載情報機器や、デジタルサイネージにおける音声出力装置）が広く用いられている。このような装置では、出力される音声を利用者によって聞き取りやすいものにするために、文章中の特定の単語を強調することが行われる。

例えば特許文献１は、文章中の単語や連語の出現頻度に基づいてその単語や連語の強調度を決定したり、あるいは文章中における単語や連語の初回の出現では強調度を高くし２回目以降は強調度を低めにするなどして同一の単語または連語に対して異なる強調度を決定したりすることで、聞きやすい合成音声を生成する音声合成装置を開示している。

国際公開第２００４／６６２７１号（図１）

しかしながら、上述のように構成された従来の音声合成装置においては、単語もしくは連語ごとの強調度を判断しており、合成音声においては単語もしくは連語ごとの強調度を変更するため、強調された単語が連続したり、あるいは強調されない単語が連続したりする可能性があり、このような場合には生成される合成音声において効果的な強調が困難になるという問題があった。

この発明は、上記のような課題を解決するためになされたものであり、強調された単語の連続や強調されない単語の連続を防いで生成される合成音声において効果的な強調をすることが可能な音声合成装置を得ることを目的とする。

この発明の音声合成装置は、複数の語句で構成される言語情報の定められた第１の範囲にある語句のそれぞれの強調の度合いを、第１の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第１の基準に応じて決定する強調度決定部と、それぞれの語句に対して強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成部と、を備えるものである。
この発明の音声合成方法は、言語情報を構成する複数の語句の入力を受けて、言語情報の定められた第１の範囲にある語句の強調の度合いを、第１の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第１の基準に応じて決定する強調度決定ステップと、それぞれの語句に対して強調度決定ステップで決定された当該語句の強調の度合いに応じた強調を行って、言語情報の音声信号を合成する音声合成ステップと、を備えるものである。

この発明の音声合成装置または音声合成方法によれば、言語情報を構成する複数の語句に対し、言語情報の定められた第１の範囲にある語句のそれぞれの強調の度合いを、第１の範囲における強調の度合いの高い語句または低い語句の割合について定められた第１の基準に応じて決定し、決定されたそれぞれの語句の強調の度合いに応じた強調をそれぞれの語句に行って言語情報の音声信号を合成することにより、合成した音声信号において強調度の高い語句あるいは低い語句が連続することを防止することができ、効果的な強調がなされた音声信号を得ることができる。

実施の形態１の音声合成装置の機能構成の一例を示すブロック図である。実施の形態１の音声合成装置の処理手順の一例を示すフローチャートである。実施の形態１の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。実施の形態２の音声合成装置の機能構成の一例を示すブロック図である。実施の形態２の音声合成装置の処理手順の一例を示すフローチャートである。実施の形態２の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。実施の形態３の音声合成装置の機能構成の一例を示すブロック図である。実施の形態３の音声合成装置の処理手順の一例を示すフローチャートである。実施の形態３の音声合成装置の強調度を修正する処理の具体例を説明する模式図である。

以下、この発明を実施するための形態を、図面を参照して説明する。なお、以下の説明で参照する図面においては、同一もしくは相当する部分には同一の符号を付している。

実施の形態１．
図１はこの発明の実施の形態１に係る音声合成装置の機能構成の一例を示すブロック図である。図１において、音声合成装置１は、入力されたテキストなどの言語情報に基づいて音声信号を合成し、合成した音声信号を出力するものである。なお、出力された音声信号はスピーカなどの音声再生装置に入力されて音声に変換される。図１に示すように、音声合成装置１は強調度決定部１１０と音声合成部１２０を備えている。また、強調度決定部１１０は強調度付与部１１１と強調度修正部１１２を、音声合成部１２０は言語辞書１２１と言語解析部１２２と韻律制御部１２３と信号合成部１２４を備えている。なお、以降の説明では、言語情報の一例として日本語のテキストを例に説明するが、この発明は言語情報をテキストに限定するものではなく、音声合成の元になる言語情報であればテキスト以外の情報であってもよい。また、言語情報は日本語に限定されるものではなく任意の言語であってよい。

音声合成装置１に入力されたテキストは音声合成部１２０に入力される。音声合成部１２０の言語解析部１２２は入力されたテキストを言語解析して、あらかじめ定められた単位の語句にテキストを細分化し、細分化したテキストの語句に当該語句の読み方や品詞、アクセントなどを示す情報を付加した中間言語を生成して出力する。なお、ここでは言語解析部１２２は単語の読み方や品詞等の情報が登録されている言語辞書１２１を参照して、入力されたテキストを形態素解析し、細分化の単位である単語にテキストが細分化されることとする。

なお、形態素解析は必ずしも言語辞書１２１を使用して行う必要はなく、対象とする言語の文法等の知識に基づいて形態素解析するように構成してもよい。さらには、言語解析部１２２が行う言語解析は形態素解析に限定されるものではなく、構文解析を行って句に細分化するものであってもよいし、その他、入力される言語情報の形式や言語の種類に対応した既知の処理を適用したものでもよい。また、音声合成部１２０において言語解析を行わず、言語情報として中間言語が入力されるように構成することも可能である。なお、この場合には言語解析部１２２、言語辞書１２１を省略することが可能である。言語解析部１２２が出力する中間言語は韻律制御部１２３と強調度決定部１１０の強調度付与部１１１に入力される。

強調度付与部１１１は入力された中間言語に基づいて各単語に強調度を付与する。ここで強調度とは合成する音声信号における各単語の強調の度合いを示す情報である。強調度修正部１１２は、強調度付与部１１１で付与された各単語の強調度をテキストの所定の範囲（第１の範囲）において強調度の高い単語の割合が所定の基準（第１の基準）になるように修正し、修正した強調度（修正強調度）を音声合成部１２０に出力する。なお、ここでは強調度付与部１１１は言語解析部１２２が生成した中間言語に基づいて細分化された単語に強調度を付与するようにしたが、強調度付与部１１１が独自に入力されたテキストの言語解析をするようにしてもよい。

このように強調度決定部は入力された中間言語について、所定の範囲における強調度の高い単語の割合が所定の基準となるように中間言語の各単語の強調度を決定する。なお、ここでは強調度の高い単語の割合について基準が定められることとしているが、低い単語の割合について基準が定められてもよい。

強調度決定部１１０の強調度修正部１１２から音声合成部１２０に出力された修正強調度は韻律制御部１２３及び信号合成部１２４に入力される。韻律制御部１２３は、言語解析部１２２から出力された中間言語と強調度修正部１１２から出力された修正強調度を用いて、修正強調度に応じた強調処理を行った韻律パラメータを生成し、中間言語と共に信号合成部１２４に出力する。信号合成部１２４では、韻律制御部１２３から出力された中間言語と韻律パラメータに基づいて、強調度修正部１１２から出力された修正強調度に応じた強調処理を行った音声信号を合成する。なお、音声信号は、音声波形の信号など当該音声信号が入力される音声再生装置に応じた任意の形式の信号にすればよい。

上述の強調度決定部１１０および音声合成部１２０を構成する、強調度付与部１１１、強調度修正部１１２、言語辞書１２１、言語解析部１２２、韻律制御部１２３、信号合成部１２４は、ＡＳＩＣ（Application Specific Integrated Circuit）およびメモリ等のハードウェアを用いて実現することが可能であるし、また、メモリ等の周辺回路を備えたプロセッサとプロセッサ上で実行されるプログラムによりソフトウェアで実現することも可能である。また、ＡＳＩＣおよびメモリ等とプロセッサおよびプログラムを組み合わせて、一部の機能をハードウェアで実現し、一部の機能をソフトウェアで実現することも可能である。

次に動作について説明する。図２はこの発明の実施の形態１の音声合成装置１の処理手順の一例を示すフローチャートである。なお、この発明は図２に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。なお、以降では音声合成装置１に入力されるテキストを漢字かな混じり文として説明をするが、上述のようにアルファベットや、中間言語などいかなる形式であってもよく、言語に関しても日本語に限らず英語や中国語などのその他の言語であってもよい。

音声合成装置１はテキストを入力されると、まず言語解析部１２２が言語辞書１２１を参照して入力されたテキストの形態素解析を実施し（ＳＴ１）、中間言語を生成する（ＳＴ２）。次に、強調度付与部１１１がＳＴ２で生成された中間言語に含まれる細分化された各単語に強調度を付与する（ＳＴ３）。なお、強調度はあらかじめ強調度を付与するルールを定めておくことや、あるいは単語の重要度をＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency）等で求め、求めた重要度に基づいて強調度を付与するなどしてもよい。また、国際公開第２００４／６６２７１号（前述の特許文献１）に記載の方法や、あるいは特開平３−６３６９６号公報に記載されているような有声音の無声化などによって付与してもよい。また、その他の既知の処理によって強調度を付与してもよい。

以降の説明では、強調度は０以上の整数で示されるものとし、値が大きいほど強く強調されることとする。なお、強調度を値ではなく強、弱の２段階で表すなど強調度の定義の仕方は種々考えられ、以下に説明する動作の詳細は強調度の定義に応じて容易に変更することが可能である。

次に、強調度修正部１１２は、ＳＴ３において強調度付与部１１１で付与された各単語の強調度を当該対象とする単語の周辺単語（第１の範囲にある単語）の強調度を考慮して修正（第１の修正処理）する（ＳＴ４）。なお、ＳＴ４の処理後の強調度を修正強調度と称する。強調度の修正処理の一例を以下に説明する。まず、入力されたテキスト文の先頭から順に、あらかじめ定めたｎ個（ｎは自然数）の連続した単語を取り出す。そして、取り出した単語の中で強調度があらかじめ定めたしきい値ｐ以上の単語があらかじめ定めたしきい値ｍ個（ｍはｎ以下の自然数）以上ある場合に、強調度がしきい値ｐ以上の単語の中で強調度が高い方からｍ−１個の単語を選択する。そして、選択されなかった単語についてその強調度をｐ−１に修正してしきい値ｐよりも小さくする。なお、ｎ、ｍ、ｐはこの発明を適用するそれぞれのシステムにおいて適した値を実験的に求めるなどすればよい。すなわちこの例によれば、強調度がしきい値ｐ以上の単語が強調度の高い単語であり、ｎ個が第１の範囲に相当し、ｎとｍで定まる割合が第１の基準である。

以下に、入力されたテキストを「にじいろクローバーＸが１３日、鎌倉ドームで初のライブを開催した」とし、当該テキストを言語解析して細分化された各単語に付与された強調度が図３の（ａ）に示す値であった場合を例に具体例を示す。なお、ここではｎ＝４、ｍ＝２、ｐ＝５であるものとする。このときｐ−１＝４である。

入力されたテキストの先頭から４個の単語を取り出すと、強調度が５以上の単語が「にじいろクローバーＸ」と「１３」の２個あるため、強調度が最も大きい単語（「にじいろクローバーＸ」）を選択して、選択した単語以外の単語（「１３」）の強調度を４に下げる。この状態を図３の（ｂ）に示す。次に取り出す単語を右方向に１個ずらし、次の４単語（「が」「１３」「日」「鎌倉ドーム」）の場合は、強調度が５以上の単語は１個であるので修正は行わない。取り出す単語をさらに１個ずらした場合も同様に修正は行わない。さらに取り出す単語を１個ずらすと、取り出された４単語（「日」「鎌倉ドーム」「で」「初」）では、強調度が５以上の単語が「鎌倉ドーム」と「初」の２個あるため、強調度が最も大きい単語（「初」）を選択して、これ以外の単語（「鎌倉ドーム」）の強調度を４に下げる。このような処理を１単語ずつずらしながらテキスト中の全ての単語を取り出すまで実施して強調度を修正するＳＴ４の処理を終了する。

なお、上述の例では、強調度を下げる際の修正値をしきい値ｐから１を減じた値としたが、これは一例であり、他の値でもよい。
また、ここではｎ個の単語中で強調度の高い単語の強調度は修正せずにより低い単語の強調度を修正するようにしたが（例えば図６（ｂ）の「鎌倉ドーム」と「初」では「鎌倉ドーム」の強調度を修正）、ｎ個の単語中で後出する単語の強調度を修正するようにするなどしてもよい。

また、ここでは強調度修正部１１２は対象の単語の強調度を低くすることで強調度の修正を行うようにしたが、反対に対象の単語の強調度を高くすることで強調度を修正するようにしてもよい。また、上述の例では所定のしきい値以上の単語を検出して強調度を修正したが、所定のしきい値以下の単語を検出して強調度を修正するようにしてもよい。

韻律制御部１２３は、ＳＴ２で言語解析部１２２が生成した中間言語とＳＴ４で強調度修正部１１２が修正した修正強調度に基づいて韻律パラメータを決定する（ＳＴ５）。ここで韻律パラメータとは、例えばパワー、ピッチ周波数、音韻継続長といった情報である。また、韻律パラメータの決定においては、修正強調度に基づいた韻律パラメータにおける強調処理を行う。なお、強調度に基づいた韻律パラメータにおける強調処理は、例えば特開２００６−２０８７９３号公報に記載されているような強調箇所をゆっくりと発声させる、大きな声で発声させるなどで、既知の強調処理を行えばよい。また、韻律制御部１２３における上述の韻律パラメータを決定する処理は、統計的手法で得られるモデルに基づいて決定したり、経験則から定められた規則に基づいて決定したりするなど、既知の処理を用いて行えばよい。

信号合成部１２４では、ＳＴ２で言語解析部１２２が生成した中間言語とＳＴ５で韻律制御部１２３が決定した韻律パラメータとＳＴ４で強調度修正部１１２が修正した修正強調度に基づいた音声信号の合成を行う（ＳＴ６）。なお、ＳＴ６での音声信号の合成については、例えばＰＳＯＬＡ（Pitch Synchronous Overlap and add）法（F.J. Charpentier and M.G. Stella, “Diphone synthesis using an overlap-add technique for speech waveforms concatenation”, Proc. ICASSP 86, pp. 2015-2018, 1986）などの既知の方法で行えばよい。また、ＳＴ６では修正強調度に基づいて、強調度の高い単語に対応する音声信号には例えば振幅強調や周波数帯域強調などの強調処理を行う。ＳＴ６で信号合成部１２４が合成した音声信号は装置外に出力され、スピーカなどの音声再生装置に入力される。

なお、上述の例では、韻律制御部１２３及び信号合成部１２４にて強調処理を行ったが必ずしも両方で行う必要はなく、いずれか一方でのみ強調処理を行うようにしてもよいが、両方で行うことでより効果的な強調を行うことが可能である。一方、いずれか一方のみとした場合には、処理量を削減する効果がある。

以上のようにこの実施の形態の音声合成措置によれば、テキストなどの言語情報を構成する複数の語句が入力され、当該言語情報の定められた第１の範囲にある語句の強調度を、当該第１の範囲における他の語句よりも強調度が高い語句または強調度が低い語句の割合について定められた第１の基準に応じて決定する強調度決定部と、強調度決定部が決定した強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、合成した音声信号において強調度の高い語句あるいは低い語句が連続することを防止することができ、聞き取りやすい音声信号を合成することができる。

また、同じ語句であっても、当該語句の周辺の語句の強調度に応じて強調度を高く、あるいは低くすることができるため、文脈に応じた適度な強調がなされ、理解しやすい音声が生成できる。

実施の形態２．
実施の形態１では言語情報の語句の強調度を言語情報における当該語句の近傍の語句の強調度に応じて修正する音声合成装置を説明したが、実施の形態２では言語情報内の強調箇所の頻度があらかじめ決められた頻度となるように強調度を修正する音声合成装置を説明する。

図４はこの発明の実施の形態２に係る音声合成装置１ｂの機能構成の一例を示すブロック図である。この実施の形態の音声信号装置１ｂは図１に示した実施の形態１の音声合成装置１に対して、強調度修正部１１２ｂに強調頻度（第２の基準）が入力され、指定された強調頻度で語句が強調されるように強調度付与部１１１で決定された強調度を修正する点が異なっている。

次に動作について説明する。図５は実施の形態２の音声合成装置１ｂの処理手順の一例を示すフローチャートである。なお、この発明は図５に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。以降の説明では、実施の形態１との差分のある処理を中心に説明する。

ＳＴ１からＳＴ３までの処理は実施の形態１と同様である。ＳＴ３の処理の後、この実施の形態では強調度修正部１１２ｂが強調頻度に基づいて強調単語数を決定する（ＳＴ７）。ここで強調頻度とは、テキスト中（第２の範囲）の語句においてしきい値以上の強調度を与える語句の割合を示すパラメータである。なお強調頻度は、しきい値以下の強調度を与える語句の割合として定義されてもよい。また、強調単語数とはテキスト中で強調度を所定のしきい値以上にする語句の数である。なお、ここでは強調頻度がパーセントで指定されるものとするが、強調頻度の指定方法はパーセントに限られるものではなく、例えば強、中、弱等の段階指定が与えられるようにしておき、強調度修正部１１２ｂにおいて指定されたそれぞれの段階に対応する割合を保持しておくようにするなどしてもよい。

ＳＴ７のあと、強調度修正部１１２ｂは実施の形態１と同様の強調度の修正を行う（ＳＴ４）。そして強調度修正部１１２ｂはＳＴ４を実施した後、強調頻度に応じた強調度の修正（第２の修正処理）を実施する（ＳＴ８）。図６を参照してＳＴ６の処理の具体例を説明する。なお、ここでは実施の形態１と同様にテキスト「にじいろクローバーＸが１３日、鎌倉ドームで初のライブを開催した」が入力されたものとし、また、ｎ＝４、ｍ＝２、ｐ＝５であり、強調頻度が１０パーセントであるものとする。

強調度修正部１１２ｂが行うＳＴ４の処理により、図６の（ａ）から（ｄ）に示す強調度の修正が行われる。そして、図６の（ｄ）から（ｅ）に示す強調度の修正がＳＴ８の処理で行われる強調度の修正である。この例の場合、テキスト中の単語の総数は１３個であるので、強調頻度が１０パーセントである場合、１３個の１０パーセントは１．３個であるので、強調度がしきい値を超える単語が１となるように強調度を修正する。なお、ここでは１．３の小数点以下を四捨五入して強調度単語数を決定することとしたが、切り上げや切り下げなどとしてもよい。

この例では、ＳＴ８の処理により図６の（ｄ）に示すそれぞれの語句の強調度を参照して、強調度が高い順に１個の単語を選択し、選択されなかった単語で強調度がしきい値ｐ以上の単語については強調度がしきい値ｐよりも小さくなるようにｐ−１＝４に下げる。以降のＳＴ５、ＳＴ６の処理は実施の形態１と同様である。なお、ここではＳＴ４で用いるしきい値とＳＴ８で用いるしきい値を同じ値としたが、異なる値にしてもよい。

以上のようにこの実施の形態の音声合成装置によれば、テキストなどの言語情報を言語解析して得られた所定の単位の複数の語句のそれぞれに与えられた強調度を、言語情報における当該語句の近傍の語句の強調度にもとづいて修正するとともに、テキスト中（第２の範囲）の強調される単語の割合が指定された強調頻度（第２の基準）に応じた割合になるようにテキスト中の語句の強調度を修正する強調度修正部と、強調度修正部において修正された強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、実施の形態１の音声合成装置の効果に加えて、言語情報中の強調される語句の割合を均一化することが可能となり、安定した合成音声の音声信号を生成することができる。

実施の形態３．
実施の形態２では、周辺単語の強調度および強調頻度に応じた強調度の修正を行う形態を説明したが、実施の形態３では強調度を修正する単語を決める際に単語の重要度を用いる形態を説明する。図７はこの発明の実施の形態３に係る音声合成装置１ｃの機能構成の一例を示すブロック図である。図７においてこの実施の形態の音声合成装置１ｃは、図４の実施の形態２の音声合成装置１ｂに対して、言語解析部１２２での言語解析結果である中間言語が入力され、入力された中間言語に基づいてテキストを細分化した語句の重要度を決定する重要度決定部１１４を備え、強調度修正部１１２ｃが重要度決定部１１４で決定された語句の重要度に応じて強調度の修正を行う点が異なっている。

以下、この実施の形態の音声合成装置１ｃの動作を説明する。なお、実施の形態１、実施の形態２と同じ処理については重複する説明を省略することとし、差分のある処理を中心に説明する。図８はこの発明の実施の形態３の音声合成装置１ｃの処理手順の一例を示すフローチャートである。なお、この発明は図８に示すフローチャートの処理手順に限定されるものではなく、同等の結果が得られる限りにおいて異なる順序で処理をしたり、並列に処理をしたりしてもよい。

ＳＴ１からＳＴ３までの処理は実施の形態１および実施の形態２と同様である。ＳＴ３の処理の後、重要度決定部１１４は、テキストを形態素解析して得られた単語の重要度を決定する（ＳＴ９）。なお、単語の重要度の決定は、例えばＴＦ−ＩＤＦを用いて各単語の重要度を算出するなど、既知の方法で行えばよい。ＳＴ９の次に強調度修正部１１２ｃが実施するＳＴ７の処理は実施の形態２と同様である。また、ＳＴ７の次に強調度修正部１１２ｃが実施するＳＴ４の処理は、実施の形態１および実施の形態２と同様である。

ＳＴ４の次に、強調度修正部１１２ｃは、指定された強調頻度と重要度決定部１１４で決定された重要度に応じた強調度の修正を行う（ＳＴ１０）。図９を参照してＳＴ１０の処理の具体例を説明する。なお、ここでは実施の形態１および実施の形態２と同様にテキスト「にじいろクローバーＸが１３日、鎌倉ドームで初のライブを開催した」が入力されたものとし、また、ｎ＝４、ｍ＝２、ｐ＝５であり、強調頻度が３０パーセントであるものとする。なお、強調頻度を３０パーセントとした場合、テキスト中の単語数は１３個であるので、強調単語数は実施の形態２と同様の求め方をすると４個である。

図９の（ａ）から（ｄ）への強調度の修正は、ＳＴ４の処理による修正であり、実施の形態１および実施の形態２と同様である。次にＳＴ１０の処理で、強調度修正部１１２ｃは、強調度がしきい値ｐ以上の単語の数が強調単語数の４になるように強調度を修正する。図９の（ｅ）から（ｆ）で示す修正がＳＴ１０の処理による強調度の修正である。なお、図９（ｅ）の強調度は同図（ｄ）と同じ状態を示している。また、図９（ｅ）に示す重要度はＳＴ９で重要度決定部１１４が決定した各単語の重要度の例である。

ＳＴ１０の処理で、強調度修正部１１２ｃが、強調度がしきい値ｐ以上である単語の数を４個にするように修正するとき、図９（ｅ）の状態ではテキスト中に強調度がしきい値ｐ以上の単語は２個であることから、その他の単語の中から２個の単語を選択して強調度をしきい値ｐ以上である５に修正する。このとき、重要度が最も高い単語を選択する。図９（ｅ）では、重要度が６である「鎌倉ドーム」と「開催」が選択される。強調度修正部１１２ｃは「鎌倉ドーム」と「開催」の強調度を５に修正してＳＴ１０を終了する。この状態が図９（ｆ）である。

なお、ここではしきい値ｐ以上の単語が強調単語数に満たない場合の動作を説明したが、例えば、強調単語数を超える数の単語の強調度がしきい値ｐ以上である場合に、強調度しきい値ｐ以下に下げる単語を選択する基準として重要度を用いたり、あるいはＳＴ４の処理での強調度の修正において、強調度が同じ単語が複数存在する場合に修正する単語を選択する基準として重要度を用いたりすることも可能である。

ＳＴ１０の後のＳＴ５からＳＴ６の処理は実施の形態１および実施の形態２と同様である。

以上のようにこの実施の形態の音声合成装置によれば、テキストなどの言語情報を言語解析して得られた所定の単位の語句の重要度を決定する重要度決定部と、語句に与えられた強調度を言語情報における当該語句の近傍の強調度と指定された強調頻度と重要度決定部が決定した語句の重要度に応じて修正する強調度修正部と、強調度修正部において修正された強調度に基づいて語句の強調を行って言語情報の音声信号を合成する音声合成部とを備えることにより、実施の形態２の音声合成装置の効果に加えて、強調度を修正する単語をその単語の重要度に基づいて選択することが可能となることで、より自然な単語の強調が行われた合成音声の音声信号を生成することができる。なお、重要度決定部を実施の形態１の音声合成装置に適用して、同様の効果を得ることも可能である。

１，１ｂ，１ｃ音声合成装置、１１０，１１０ｂ，１１０ｃ強調度決定部、１１１強調度付与部、１１２，１１２ｂ，１１２ｃ強調度修正部、１２音声合成部、１２１言語辞書、１２２言語解析部、１２３韻律制御部、１２４信号合成部。

Claims

複数の語句で構成される言語情報の定められた第１の範囲にある前記語句のそれぞれの強調の度合いを、前記第１の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第１の基準に応じて決定する強調度決定部と、
前記語句に対して前記強調度決定部が決定した当該語句の強調の度合いに応じた強調を行って、前記言語情報の音声信号を合成する音声合成部と、
を備えることを特徴とする音声合成装置。
前記強調度決定部は、前記第１の範囲にある前記語句のそれぞれに付与された強調の度合いに基づいて、当該第１の範囲にある前記語句に付与された強調の度合いを修正する第１の修正処理を行う強調度修正部を備えることを特徴とする請求項１に記載の音声合成装置。
前記強調度修正部は、前記第１の範囲を含む定められた第２の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第２の基準に応じて、前記第１の修正処理後の前記語句の強調の度合いを修正する第２の修正処理を行うことを特徴とする請求項２に記載の音声合成装置。
前記語句の重要度を決定する重要度決定部を備え、
前記強調度修正部は、前記重要度決定部で決定された前記重要度に基づいて強調の度合いを修正する前記語句を選択することを特徴とする請求項２または請求項３に記載の音声合成装置。
言語情報を構成する複数の語句の入力を受けて、前記言語情報の定められた第１の範囲にある前記語句の強調の度合いを、前記第１の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第１の基準に応じて決定する強調度決定ステップと、
前記語句に対して前記強調度決定ステップで決定された当該語句の強調の度合いに応じた強調を行って、前記言語情報の音声信号を合成する音声合成ステップと、
を備えることを特徴とする音声合成方法。
前記強調度決定ステップは、前記第１の範囲にある前記語句のそれぞれに付与された強調の度合いに基づいて、当該第１の範囲にある前記語句に付与された強調の度合いを修正する第１の強調度修正ステップを備えることを特徴とする請求項５に記載の音声合成方法。
前記強調度決定ステップは、前記第１の範囲を含む定められた第２の範囲における他の語句よりも強調の度合いが高い語句または低い語句の割合について定められた第２の基準に応じて、前記第１の強調度修正ステップで処理された前記語句の強調の度合いを修正する第２の強調度修正ステップを含むことを特徴とする請求項６に記載の音声合成方法。
前記語句の重要度を決定する重要度決定ステップを備え、
前記第１の強調度修正ステップまたは前記第２の強調度ステップは、前記重要度決定ステップで決定された前記重要度に基づいて強調の度合いを修正する前記語句を選択することを特徴とする請求項６または請求項７に記載の音声合成方法。