JP2010175717A

JP2010175717A - 音声合成装置

Info

Publication number: JP2010175717A
Application number: JP2009016786A
Authority: JP
Inventors: Keigo Kawashima; 啓吾川島; Takahiro Otsuka; 貴弘大塚; Hirohisa Tazaki; 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2009-01-28
Filing date: 2009-01-28
Publication date: 2010-08-12

Abstract

【課題】合成音声の明瞭度（強調箇所）を明示的に判別して、意図通りの明瞭度で強調処理を施した合成音声を生成し出力すると共に、ユーザが再発声要求することなしに情報の聞き逃しを少なくすることができる音声合成装置を得る。
【解決手段】数字、固有名詞等を表す可変フレーズと、それ以外のキャリアフレーズからなるテキスト文２１ａが音声合成装置１に入力されると、可変フレーズ特定部１１が可変フレーズを特定して可変フレーズ情報１１ａを生成する。音声合成部１２において、言語解析部１２２が言語辞書１２１を参照して言語解析を行って中間言語１２２ａを生成し、韻律制御部１２３が可変パラメータに強調処理を加えた韻律パラメータ１２３ａを設定し、波形生成部１２４が可変フレーズに強調処理を加えた音声波形を生成して、合成音声１２４ａとしてスピーカ３へ出力する。
【選択図】図１

Description

この発明は、テキスト文に対応する合成音声を生成する音声合成装置に関するものである。

従来、ユーザに対して、情報を合成音声によって案内する装置、例えばカーナビゲーションシステムおよびＥＴＣ（ＥｌｅｃｔｒｏｎｉｃＴｏｌｌＣｏｌｌｅｃｔｉｏｎ）（登録商標；以下省略）等の車載情報機器、ならびに音声テロップおよび音声警報装置等の音声情報伝達機器等がよく知られている。このような装置の中には、特定の条件において合成音声の了解性を強調する処理を行って、ユーザが合成音声を聞き逃しにくくしたものがあった。

例えば特許文献１の音声合成装置は、テキスト解析手段のテキスト解析結果（品詞情報、自立語・付属語情報、未知語情報、文内位置情報、出現頻度情報、出現順情報、フォーカス有無情報、類似読み語有無情報のうち、少なくとも一つの情報を含む）に基づいて、所定の読み上げ単位に対応する合成音声の明瞭度を判定する。判定の例として、出現頻度の低い語彙を馴染みの薄い語として識別し、明瞭な音声で合成するよう判定することが提案されている。そして、音声合成装置は一つの合成単位に対して合成した際の明瞭度が異なる音声素片を複数用意しておき、明瞭度の判定結果をもとにその明瞭度で合成可能な音声素片を選択して接続し、テキストに応じた音声を生成していた。

また、特許文献２の情報再生装置は、音声合成が利用される車両および周囲の状況、即ち車両の走行速度および道路の混雑状況に応じて、声の高さ、音量、読み上げ速度といった合成音声のパラメータを制御する。これにより、車両に乗車している人に対して、聞き取り可能な合成音声を生成していた。

また、特許文献３の音声処理装置は、ユーザが聞き逃した単語を再度読み上げる場合に、聞き逃した単語について大きい音量で読み上げる、ゆっくりと読み上げるといった動作を行い、再度の聞き逃しを防止していた。

特開２０００−２０６９８２号公報特開２００１−３３７６９０号公報特開２００６−２０８７９３号公報

従来の音声合成装置は以上のように構成されているので、特許文献１の音声合成装置では、明瞭な音声で合成されるべき箇所が強調されない、逆に明瞭な音声で合成する必要のない箇所が強調されてしまう等、意図通りの明瞭度に判定されないという課題があった。明瞭な音声で合成されるべき箇所が強調されない場合とは、例えば、出願頻度情報に基づいて明瞭度を判定する場面で、情報としては重要であるにもかかわらず出現頻度が高いために明瞭度が低く設定されている「左に」等の語彙が明瞭な音声で合成されないような場合である。その一方、明瞭な音声で合成する必要のない箇所が強調されてしまう場合とは、例えば、「自宅付近のコンビニを検索します」の「コンビニ」を強調したい場面で品詞情報に基づいて明瞭度を判定すると、「コンビニ」だけでなく「自宅」についても強調されてしまうという場合である。

また、特許文献２の情報再生装置では、声の高さ、音量、読み上げ速度といった合成音声のパラメータを制御して車両内のユーザに聞き取り可能な合成音声を生成しても、ユーザが常に出力音声に注意を払っているとは限らず、パラメータを制御された合成音声が突然出力されても聞き流してしまうという課題があった。

また、特許文献３の音声処理装置では、ユーザが、聞き逃した単語を常に再発声要求することが可能な環境下にいるとは限らず、再発生要求する行為自体がユーザにとっての負担となり、また時間もかかってしまうという課題があった。

この発明は、上記のような課題を解決するためになされたもので、合成音声の明瞭度（強調箇所）を明示的に判別して、意図通りの明瞭度で強調処理を施した合成音声を生成し出力する音声合成装置を得ることを目的とする。また、ユーザが再発声要求することなしに情報の聞き逃しを少なくすることができる音声合成装置を得ることを目的とする。

この発明に係る音声合成装置は、可変フレーズおよびキャリアフレーズからなるテキスト文に基づいて音声を合成する音声合成装置であって、テキスト文中の可変フレーズを特定し、可変フレーズ情報として出力する可変フレーズ特定部と、テキスト文中の、可変フレーズ情報に従い特定された可変フレーズに強調処理を加えた合成音声を生成する音声合成部とを備えるようにしたものである。

この発明に係る音声合成装置は、テキスト文に基づいて音声を合成する音声合成装置であって、テキスト文に含まれる強調対象フレーズを特定した強調対象フレーズ情報を用いて、テキスト文中の強調対象フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部と、加工テキスト文に応じた合成音声を生成する音声合成部とを備えるようにしたものである。

この発明によれば、可変フレーズおよびキャリアフレーズからなるテキスト文のうちの可変フレーズに強調処理を加えた合成音声を生成するようにしたので、合成音声の明瞭度（強調箇所）を明示的に判別することができ、意図通りの明瞭度で強調処理を施した合成音声を生成し出力する音声合成装置を得ることができる。

この発明によれば、テキスト文中の強調対象フレーズを複数回繰り返した加工テキスト文を生成し、この加工テキスト文に応じた合成音声を生成するようにしたので、ユーザが再発声要求することなしに、情報の聞き逃しを少なくすることができる音声合成装置を得ることができる。

この発明の実施の形態１に係る音声合成装置１の構成を示すブロック図である。この発明の実施の形態１に係る音声合成装置１の動作を示すフローチャートである。この発明の実施の形態１に係る音声合成装置１の可変フレーズ特定部１１による可変フレーズ特定処理を示す説明図である。この発明の実施の形態２に係る音声合成装置１の構成を示すブロック図である。この発明の実施の形態２に係る音声合成装置１の動作を示すフローチャートである。この発明の実施の形態２に係る音声合成装置１の重要フレーズ検索部１３による重要フレーズ検索処理を示す説明図である。この発明の実施の形態３に係る音声合成装置１の構成を示すブロック図である。この発明の実施の形態３に係る音声合成装置１の動作を示すフローチャートである。この発明の実施の形態３に係る音声合成装置１のテキスト加工部１５によるテキスト加工処理を示す説明図である。この発明の実施の形態４に係る音声合成装置１の構成を示すブロック図である。この発明の実施の形態４に係る音声合成装置１の動作を示すフローチャートである。

実施の形態１．
図１は、この発明の実施の形態１に係る音声合成装置１の構成を示すブロック図である。図１において、音声合成装置１は、情報処理装置２から入力されたテキスト文２１ａに対応する合成音声１２４ａを生成し、スピーカ３へ出力する装置であり、可変フレーズ特定部１１と、言語辞書１２１、言語解析部１２２、韻律制御部１２３および波形生成部１２４から構成される音声合成部１２とを備える。

情報処理装置２は、例えばカーナビゲーションシステムおよびＥＴＣ（ＥｌｅｃｔｒｏｎｉｃＴｏｌｌＣｏｒｒｅｃｔｉｏｎ）等の車載情報機器、ならびに音声テロップおよび音声警報装置等の音声情報伝達機器等である。情報処理装置２が備えるテキスト文生成部２１は、合成音声生成の対象となるテキスト文２１ａ（例えば、漢字かな混じり文）を生成して、音声合成装置１へ出力する。

ここで、テキスト文２１ａは、可変フレーズとそれ以外のキャリアフレーズから構成される。可変フレーズとは数字、固有名詞等からなり、施設名称、電話番号等を表す。そのため、その数（種類）は大きくなりやすい。キャリアフレーズは、テキスト文２１ａのうちの可変フレーズ以外の部分であり、「を表示します」、「を検索します」、「もう一度＿を入力してください」等の、情報処理装置２が生成するテキスト文２１ａの型となる定型的なフレーズである。そのため、ある程度限定された数（種類）となる。
本実施の形態では、可変フレーズを重要度の高いフレーズとして扱い、キャリアフレーズを重要度の低いフレーズとして扱う。

音声合成装置１の可変フレーズ特定部１１は、情報処理装置２から入力されたテキスト文２１ａの中から可変フレーズを特定する。そして、可変フレーズ特定部１１は特定した可変フレーズの情報を可変フレーズ情報１１ａとして、音声合成部１２内の韻律制御部１２３および波形生成部１２４に出力する。

言語辞書１２１は、可変フレーズおよびキャリアフレーズの読み方、品詞等の情報が登録されているメモリである。言語解析部１２２は、情報処理装置２から入力されたテキスト文２１ａに対し、言語辞書１２１を参照して形態素解析、構文解析等の言語解析を実施する。言語解析の結果、言語解析部１２２はテキスト文２１ａの読み方、品詞、アクセント等を示す中間言語１２２ａを生成し、韻律制御部１２３へ出力する。韻律制御部１２３は、言語解析部１２２から入力された中間言語１２２ａおよび可変フレーズ特定部１１から入力された可変フレーズ情報１１ａを用い、テキスト文２１ａの可変フレーズと特定された部分に強調処理を加えた韻律パラメータ１２３ａ（例えばパワー、ピッチ周波数、韻律継続長等）を生成し、中間言語１２２ａと共に波形生成部１２４へ出力する。波形生成部１２４は、韻律制御部１２３から入力された中間言語１２２ａおよび韻律パラメータ１２３ａならびに可変フレーズ特定部１１から入力された可変フレーズ情報１１ａを用いて可変フレーズと特定された部分に強調処理を加えた音声波形を生成し、得られた合成音声１２４ａをスピーカ３へ出力する。

次に、音声合成装置１の動作を説明する。図２は、実施の形態１に係る音声合成装置１の動作を示すフローチャートである。情報処理装置２から音声合成装置１へテキスト文２１ａが入力されると、可変フレーズ特定部１１がテキスト文２１ａの中から可変フレーズを特定し、可変フレーズ情報１１ａとして出力する（ステップＳＴ１）。

ステップＳＴ１の可変フレーズ特定処理の一例として、キャリアフレーズの情報を蓄えたキャリアフレーズ辞書１１１を用意してキャリアフレーズを特定し、その他の部分を可変フレーズと特定する方法を説明する。

図３は、可変フレーズ特定部１１の可変フレーズ特定処理を示す説明図である。可変フレーズ特定部１１は、図３に例示のキャリアフレーズを蓄積したキャリアフレーズ辞書１１１を備え、このキャリアフレーズ辞書１１１を参照して、テキスト文２１ａの中で一致した箇所をキャリアフレーズであるとし、一致しなかった箇所を可変フレーズであると特定する。テキスト文例１「次の交差点を左に曲がります。」では「次の交差点を」および「曲がります。」がキャリアフレーズ辞書１１１に存在するため、これらがキャリアフレーズと特定される。「左に」に関しては、キャリアフレーズではないので可変フレーズと特定される。テキスト文例２「自宅を検索します。」に関しても同様に、「を検索します。」がキャリアフレーズと特定され、「自宅」が可変フレーズと特定される。テキスト文例３「自宅付近のコンビニを１０件まで検索します。」については、「自宅付近の」および「まで検索します。」がキャリアフレーズと特定され、「コンビニを１０件」が可変フレーズと特定される。ここで、「自宅」という単語は、テキスト文例２では可変フレーズと特定されるが、テキスト文例３では情報処理装置２のテキスト文の型の一部としてキャリアフレーズと特定される。

なお、テキスト文内において、例えば括弧［］で囲う等の方法によりキャリアフレーズまたは可変フレーズの箇所を明示する情報（識別情報）を含めることもできる。この構成の場合には、例えば「次の交差点を［左に］曲がります。」というテキスト文２１ａをテキスト文生成部２１が生成し、可変フレーズ特定部１１は単に括弧で囲われた箇所を可変フレーズに特定する。よって、可変フレーズ特定部１１がテキスト文のみから可変フレーズを特定することができ、キャリアフレーズ辞書１１１が不要となる。あるいは、括弧で囲う方法を、キャリアフレーズ辞書１１１を用いた可変フレーズ特定処理と組み合わせてもよい。

続くステップＳＴ２において言語解析部１２２が言語辞書１２１を参照して、テキスト文２１ａに対する言語解析を実施し、中間言語１２２ａを出力する。なお、言語解析部１２２による言語解析処理は、入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよく、詳細な説明を省略する。

なお、本実施の形態ではテキスト文２１ａの一例として漢字かな混じり文を用いているが、アルファベット、中間言語等のいかなる形式であってもよく、言語に関しても日本語に限らず英語、中国語等の日本語以外の言語であってもよい。テキスト文２１ａが中間言語のみである場合には、言語辞書１２１および言語解析部１２２は不要となるため、音声合成部１２を韻律制御部１２３および波形生成部１２４で構成すればよい。

続くステップＳＴ３において韻律制御部１２３は、入力された中間言語１２２ａに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ１２３ａを出力する。この際、韻律制御部１２３は、入力された可変フレーズ情報１１ａを参照し、可変フレーズと特定された部分については韻律パラメータにおける強調処理を行うことで、可変フレーズの強調処理を行う。韻律パラメータ強調処理としては、例えば特許文献３のように強調箇所をゆっくりと発声させる、大きな声で発声させる等を行う。なお、韻律制御部１２３における所定の規則および韻律パラメータ強調処理は、公知の技術を用いればよく、詳細な説明を省略する。

続くステップＳＴ４において波形生成部１２４は、中間言語１２２ａおよび韻律パラメータ１２３ａを受けて波形生成を行い、合成音声１２４ａをスピーカ３へ出力する。この際、波形生成部１２４は、入力された可変フレーズ情報１１ａを参照し、可変フレーズと特定された部分について波形データにおける振幅強調、周波数帯域強調等の強調処理を行うことで、可変フレーズの強調処理を行う。なお、波形生成部１２４における合成音声の波形生成処理は、「Ｄｉｐｈｏｎｅｓｙｎｔｈｅｓｉｓｕｓｉｎｇａｎｏｖｅｒｌａｐ−ａｄｄｔｅｃｈｎｉｑｕｅｆｏｒｓｐｅｅｃｈｗａｖｅｆｏｒｍｓｃｏｎｃａｔｅｎａｔｉｏｎ」（Ｆ．Ｊ．ＣｈａｒｐｅｎｔｉｅｒａｎｄＭ．Ｇ．Ｓｔｅｌｌａ、ＩＣＡＳＳＰ８６、ｐｐ．２０１５−２０１８、Ｔｏｋｙｏ、１９８６）にあげるＰＳＯＬＡ（ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒＬａｐＡｄｄ）形式の規則合成音声方式等の公知の技術を用いる。また、波形データにおける強調処理は公知の技術を用いればよく、詳細な説明を省略する。

以上のように、実施の形態１によれば、数字、固有名詞等を表す可変フレーズとそれ以外の、テキスト文の型となるキャリアフレーズからなるテキスト文２１ａを入力として、可変フレーズに対し強調処理を加えた合成音声１２４ａを生成するように構成した。
従来技術では、出現頻度が低い程高い重要度を設定した出現頻度情報を用いて強調箇所を判定すると情報としては重要だが出現頻度が高い「左に」等のフレーズが強調箇所から外される可能性があるのに対し、本実施の形態の音声合成装置１は可変フレーズとして明示的に強調箇所と判定できる。このように、可変フレーズを強調箇所とし、キャリアフレーズを強調箇所ではないとすることにより、明示的に強調箇所を判別することが可能となる。

また、従来技術では、品詞情報を用いて強調箇所を判定すると同一単語は必ず強調された（または必ず強調されなかった）。これに対し、本実施の形態の音声合成装置１は同一単語であっても可変フレーズかキャリアフレーズかを区別することにより、情報処理装置２のテキスト文の型であるキャリアフレーズ内の単語は強調せずに、可変フレーズのみを強調することが可能となる。このように、明瞭な音声で合成されるべき箇所を強調し、逆に明瞭な音声で合成する必要のない箇所を強調しないようにでき、意図通りの明瞭度による合成音声の生成が可能となる。

また、音声合成装置１は数字、固有名詞等、その数（種類）が膨大になりやすい可変フレーズの情報を予め保持することなく、ある程度限定された数（種類）のキャリアフレーズ情報を保持するキャリアフレーズ辞書１１１のみを参照することによって可変フレーズを特定することができる。そのため、キャリアフレーズ辞書１１１を構成するメモリおよび参照するための処理量を軽減することができる。

また、テキスト文２１ａに、括弧で囲う方法等によりキャリアフレーズまたは可変フレーズの箇所を明示する情報を含めた場合には、キャリアフレーズ辞書１１１を構成するメモリおよび参照するための処理をさらに削減することができる。さらに、括弧で囲う方法等を、キャリアフレーズ辞書１１１を用いた可変フレーズ特定処理と組み合わせることで、より柔軟な可変フレーズの特定が可能となる。

なお、上記実施の形態１では、テキスト文２１ａの可変フレーズと特定された部分について韻律制御部１２３および波形生成部１２４が強調処理を行うよう構成したが、これらに加えて、言語解析部１２２も強調処理を行うよう構成してもよい。言語解析部１２２による強調処理としては、例えば特開平３−６３６９６号公報に記載された無声化音の有声化処理がある。この構成の場合には、可変フレーズに対する強調処理が増え、より柔軟な強調処理を行うことができる。

また、上記実施の形態１では、韻律制御部１２３および波形生成部１２４が強調処理を行うよう構成したが、いずれか一方のみが強調処理を行うよう構成してもよい。この構成の場合には、可変フレーズに対する強調処理は行うが、全体としての強調処理の処理量を削減することができる効果がある。

実施の形態２．
上記実施の形態１ではテキスト文２１ａの可変フレーズ全体に対して強調処理を行う構成としたが、本実施の形態では可変フレーズから重要フレーズを検出し、重要フレーズに対して強調処理を行う構成とする。図４は、この発明の実施の形態２に係る音声合成装置１の構成を示すブロック図である。本実施の形態の音声合成装置１は、上記実施の形態１の音声合成装置１に新たに重要フレーズ検索部１３を追加した構成である。なお、図４において図１と同一または相当の部分については同一の符号を付し説明を省略する。

重要フレーズ検索部１３は、可変フレーズ特定部１１から入力された可変フレーズ情報１１ａに対して重要フレーズを検索し、検索結果を重要フレーズ情報１３ａとして韻律制御部１２３および波形生成部１２４へ出力する。韻律制御部１２３は、言語解析部１２２から入力された中間言語１２２ａ、および上記実施の形態１における可変フレーズ情報の代わりに重要フレーズ検索部１３から入力された重要フレーズ情報１３ａを用い、重要フレーズに対応する部分に強調処理を加えた韻律パラメータ１２３ａを生成し、中間言語１２２ａと共に波形生成部１２４へ出力する。波形生成部１２４は、韻律制御部１２３から入力された中間言語１２２ａおよび韻律パラメータ１２３ａ、ならびに上記実施の形態１における可変フレーズ情報の代わりに重要フレーズ検索部１３から入力された重要フレーズ情報１３ａを用い、重要フレーズに対応する部分に強調処理を加えた音声波形を生成し、得られた合成音声１２４ａをスピーカ３へ出力する。

次に、音声合成装置１の動作を説明する。図５は、実施の形態２に係る音声合成装置１の動作を示すフローチャートである。先ず、可変フレーズ特定部１１が、図２のステップＳＴ１と同様の可変フレーズ特定処理を行う（ステップＳＴ１１）。

重要フレーズ検索部１３は、可変フレーズ特定部１１から可変フレーズ情報１１ａが入力されると、可変フレーズから重要フレーズを検索する処理を行い、検索した重要フレーズを示す重要フレーズ情報１３ａを出力する（ステップＳＴ１２）。

ステップＳＴ１２の重要フレーズ検索処理の一例として、明示的に重要フレーズの情報を蓄えた重要フレーズ辞書１３１を用意して重要フレーズを検索する方法を説明する。

図６は、重要フレーズ検索部１３の重要フレーズ検索処理を示す説明図である。重要フレーズ検索部１３は、図６に例示した重要フレーズを蓄積した重要フレーズ辞書１３１を備え、この重要フレーズ辞書１３１を参照して、可変フレーズ情報１１ａの中で一致する箇所を検索し、一致した箇所を重要フレーズであると特定する。テキスト文例１「次の交差点を左に曲がります。」では可変フレーズ「左に」が重要フレーズ辞書１３１の重要フレーズと一致するため、重要フレーズも「左に」となる。テキスト文例２「自宅を検索します。」に関しても同様に、可変フレーズ「自宅」が重要フレーズとなる。テキスト文例３「自宅付近のコンビニを１０件まで検索します。」については、可変フレーズ「コンビニを１０件」のうち重要フレーズと一致する箇所は「コンビニ」であるため、「コンビニ」が重要フレーズとなる。ここで、「自宅」という単語は、テキスト文例２では重要フレーズになるが、テキスト文例３ではキャリアフレーズに特定されているために重要フレーズにはならない。

なお、テキスト文内（可変フレーズ情報）において、例えば括弧｛｝で囲う等の方法により重要フレーズの箇所を明示する情報を含めることもできる。この構成の場合には、例えば「自宅付近の｛コンビニ｝を１０件まで検索します。」というテキスト文２１ａをテキスト文生成部２１が生成し、重要フレーズ検索部１３は単に括弧で囲われた箇所を重要フレーズに特定する。よって、重要フレーズ検索部１３がテキスト文（可変フレーズ情報）のみから重要フレーズを特定することができ、重要フレーズ辞書１３１が不要となる。あるいは、括弧で囲う方法を、重要フレーズ辞書１３１を用いた重要フレーズ検索処理と組み合わせてもよい。
さらに、上記実施の形態１のように可変フレーズ情報を括弧［］で囲う方法を組み合わせて、例えば「自宅付近の［｛コンビニ｝を１０件］まで検索します。」というテキスト文２１ａを可変フレーズ特定処理および重要フレーズ検索処理対象に用いてもよい。

続くステップＳＴ１３にて言語解析部１２２が図２のステップＳＴ２と同様に処理を行い、ステップＳＴ１４にて、韻律制御部１２３が中間言語１２２ａに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ１２３ａを出力する。この際、韻律制御部１２３は、入力された重要フレーズ情報１３ａを参照し、重要フレーズに対応する部分については韻律パラメータにおける強調処理を行うことで、重要フレーズの強調処理を行う。なお、韻律制御部１２３は、可変フレーズ特定部１１の可変フレーズ情報１１ａおよび重要フレーズ検索部１３の重要フレーズ情報１３ａを参照して、可変フレーズと特定された部分について韻律パラメータにおける強調処理を行い、重要フレーズに対応する部分については韻律パラメータにおける特に強い強調処理を行うこともできる。

続くステップＳＴ１５において波形生成部１２４は、中間言語１２２ａおよび韻律パラメータ１２３ａを受けて波形生成を行い、合成音声１２４ａをスピーカ３へ出力する。この際、波形生成部１２４は、入力された重要フレーズ情報１３ａを参照し、重要フレーズに対応する部分について波形データにおける振幅強調、周波数帯域強調等の強調処理を行うことで、重要フレーズの強調処理を行う。なお、波形生成部１２４は、可変フレーズ特定部１１の可変フレーズ情報１１ａおよび重要フレーズ検索部１３の重要フレーズ情報１３ａを参照して、可変フレーズと特定された部分について波形データにおける強調処理を行い、重要フレーズに対応する部分については波形データにおける特に強い強調処理を行うこともできる。

以上のように、実施の形態２によれば、可変フレーズの中でも重要フレーズに限定して強調処理を加えた合成音声１２４ａを生成するように構成した。そのため、可変フレーズの中でも特に重要箇所のみを強調することができる。また、情報処理装置２のテキスト文の型であるキャリアフレーズは重要フレーズ検索部１３の検索対象外であるため、キャリアフレーズ内の重要フレーズに対して誤って強調処理を行わないようにすることができる。

また、テキスト文２１ａ内（可変フレーズ情報１１ａ）に、括弧で囲う方法等により重要フレーズの箇所を明示する情報を含めた場合には、重要フレーズ辞書１３１を構成するメモリおよび参照するための処理量を削減することができる。さらに、括弧で囲う方法等を、重要フレーズ辞書１３１を用いた重要フレーズ検索処理と組み合わせることで、より柔軟な重要フレーズの特定が可能となる。

また、韻律制御部１２３の韻律制御において、可変フレーズ情報１１ａおよび重要フレーズ情報１３ａを入力情報として、可変フレーズと特定された部分について韻律パラメータにおける強調処理を行い、重要フレーズに対応する部分について、韻律パラメータにおける特に強い強調処理を行う場合には、より柔軟な韻律パラメータにおける強調処理が可能となる。

また、波形生成部１２４の波形生成において、可変フレーズ情報１１ａおよび重要フレーズ情報１３ａを入力情報として、可変フレーズと特定された部分について波形データにおける強調処理を行い、重要フレーズに対応する部分について波形データにおける特に強い強調処理を行う場合には、より柔軟な波形データにおける強調処理が可能となる。

実施の形態３．
図７は、この発明の実施の形態３に係る音声合成装置１の構成を示すブロック図である。図７において、音声合成装置１は、情報処理装置２から入力されたテキスト文２１ｂに対応する合成音声１２４ｂを生成し、スピーカ３へ出力する装置であり、強調対象フレーズ特定部１４と、テキスト加工部１５と、言語辞書１２１、言語解析部１２２、韻律制御部１２３および波形生成部１２４から構成される音声合成部１２とを備える。

テキスト文生成部２１は、合成音声生成の対象となるテキスト文２１ｂを生成して、音声合成装置１へ出力する。テキスト文２１ｂは、上記実施の形態１のテキスト文２１ａのように可変フレーズとキャリアフレーズからなるテキスト文だけでなく、いかなる形式のテキスト文でもよい。

音声合成装置１の強調対象フレーズ特定部１４は、情報処理装置２から入力されたテキスト文２１ｂの中から強調対象フレーズを特定する。そして、強調対象フレーズ特定部１４は特定した強調対象フレーズの情報を強調対象フレーズ情報１４ａとしてテキスト加工部１５へ出力する。テキスト加工部１５は、情報処理装置２から入力されたテキスト文２１ｂおよび強調対象フレーズ特定部１４から入力された強調対象フレーズ情報１４ａを用い、このテキスト文２１ｂに対して強調対象フレーズを複数回繰り返す加工を行う。そして、テキスト加工部１５は加工により得られた加工テキスト文１５ａを言語解析部１２２へ出力する。

言語辞書１２１は、加工テキスト文１５ａに含まれる単語、句等の読み方、品詞等の情報が登録されているメモリである。言語解析部１２２は、テキスト加工部１５から入力された加工テキスト文１５ａに対し、言語辞書１２１を参照して形態素解析、構文解析等の言語解析を実施する。言語解析の結果、言語解析部１２２は加工テキスト文１５ａの読み方、品詞、アクセント等を示す中間言語１２２ａを生成し、韻律制御部１２３へ出力する。韻律制御部１２３は、言語解析部１２２から入力された中間言語１２２ａに対し、韻律パラメータ１２３ｂを生成し、中間言語１２２ａと共に波形生成部１２４へ出力する。波形生成部１２４は、韻律制御部１２３から入力された中間言語１２２ａおよび韻律パラメータ１２３ｂを用いて音声波形を生成し、得られた合成音声１２４ｂをスピーカ３へ出力する。

次に、音声合成装置１の動作を説明する。図８は、実施の形態３に係る音声合成装置１の動作を示すフローチャートである。情報処理装置２から音声合成装置１へテキスト文２１ｂが入力されると、強調対象フレーズ特定部１４がテキスト文２１ｂの中から強調対象フレーズを特定し、強調対象フレーズ情報１４ａとして出力する（ステップＳＴ２１）。

ステップＳＴ２１の強調対象フレーズ特定処理では、特許文献１におけるテキスト解析手段のテキスト解析結果（品詞情報、自立語・付属語情報、未知語情報、文内位置情報、出現頻度情報、出現順情報、フォーカス有無情報、類似読み語有無情報のうちの少なくとも一つを含む）に基づいた所定の読み上げ単位に対応する合成音声の明瞭度の判定等、公知の技術を用いればよい。

なお、テキスト文２１ｂが可変フレーズとキャリアフレーズとから構成されている場合には、実施の形態１，２に示す音声合成装置１の構成を適宜用いて、可変フレーズ情報および重要フレーズ情報から強調対象フレーズを特定するようにしてもよい。

また、テキスト文内において、例えば括弧［］で囲う等の方法により強調対象フレーズの箇所を明示する情報を含めることもできる。この構成の場合には、例えば「この信号を［左に］曲がります。」というテキスト文２１ｂをテキスト文生成部２１が生成し、強調対象フレーズ特定部１４は単に括弧で囲われた箇所を強調対象フレーズに特定する。あるいは、括弧で囲う方法を、上述の強調対象フレーズ特定処理と組み合わせてもよい。

続くステップＳＴ２２においてテキスト加工部１５は、情報処理装置２からテキスト文２１ｂが、強調対象フレーズ特定部１４から強調対象フレーズ情報１４ａがそれぞれ入力されると、テキスト文２１ｂの強調対象フレーズを検出する。そして、テキスト加工部１５は、検出した強調対象フレーズを複数回繰り返す加工処理をテキスト文２１ｂに対して行い、加工テキスト文１５ａとして言語解析部１２２へ出力する。

ステップＳＴ２２のテキスト加工処理の一例を説明する。図９は、テキスト加工部１５のテキスト加工処理を示す説明図である。図９の例では、テキスト文２１ｂ「この信号を左に曲がります。」に対する強調対象フレーズ情報１４ａが「左に」である。ここでは、強調対象フレーズを含む単語、句、文を複数回繰り返した加工テキスト文を作成することにより、強調対象フレーズの聞き逃しを減らす。加工テキスト文１５ａの加工例１では、強調対象フレーズ「左に」をそのまま続けて繰り返す加工処理が施されている。加工例２および加工例３では、強調対象フレーズを含む句「左に曲がります」をテキスト文の後ろまたは前において繰り返す加工処理が施されている。加工例４および加工例５では、強調対象フレーズ「左に」を「左です」に変形させて、テキスト文の後ろまたは前において繰り返す加工処理が施されている。なお、これらの加工例以外の加工処理であっても、強調対象フレーズを複数含む加工テキスト文１５ａを生成することにより、強調対象フレーズ「左に」の聞き逃しを減らすことができる。

続くステップＳＴ２３において言語解析部１２２は、テキスト加工部１５から加工テキスト文１５ａが入力されると、言語辞書１２１を参照して加工テキスト文１５ａに対する形態素解析、構文解析等の言語解析を実施し、中間言語１２２ａを出力する。なお、言語解析部１２２による言語解析処理は、上記実施の形態１，２同様に入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよい。

なお、テキスト文２１ｂが中間言語のみである場合には、言語辞書１２１および言語解析部１２２は不要となるため、音声合成部１２を韻律制御部１２３および波形生成部１２４で構成すればよい。

続くステップＳＴ２４において韻律制御部１２３は、入力された中間言語１２２ａに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ１２３ｂを出力する。なお、韻律制御部１２３における所定の規則および韻律パラメータ設定は、上記実施の形態１，２同様に公知の技術を用いればよい。

続くステップＳＴ２５において波形生成部１２４は、中間言語１２２ａおよび韻律パラメータ１２３ｂを受けて波形生成を行い、合成音声１２４ｂをスピーカ３へ出力する。なお、波形生成部１２４における合成音声の波形生成処理は、上記実施の形態１，２同様にＰＳＯＬＡ形式の規則合成音声方式等の公知技術を用いればよい。

以上のように、実施の形態３によれば、情報処理装置２から入力されたテキスト文２１ｂの強調対象フレーズを繰り返すように加工し、加工したテキスト文２１ｂである加工テキスト文１５ａに基づいて合成音声１２４ｂを生成するように構成した。このように、ユーザが再発声要求せずとも強調対象フレーズが繰り返し発声されるため、強調対象フレーズが強調されて強調対象フレーズの聞き逃しを少なくすることができる。また、ユーザが強調対象フレーズを聞き逃すことで再発声要求するという負担を軽減することができる。

また、テキスト文２１ｂが可変フレーズとキャリアフレーズから構成されている場合には、上記実施の形態１および２の構成を適宜用いて可変フレーズ情報および重要フレーズ情報から強調対象フレーズを特定する構成にすることにより、上記実施の形態１，２と同様の効果が得られる。

また、テキスト文２１ｂに、括弧で囲う方法等により強調対象フレーズの箇所を明示する情報を含めた場合には、強調対象フレーズ特定部１４による強調対象フレーズを特定するための処理を削減することができる。さらに、括弧で囲う方法等を、強調対象フレーズ特定部１４による強調対象フレーズ特定処理と組み合わせることで、より柔軟な強調対象フレーズの特定が可能となる。

なお、上記実施の形態３では音声合成装置１がテキスト加工部１５を備える構成としたが、音声合成装置１がテキスト加工部１５を備えず、情報処理装置２のテキスト文生成部２１において強調対象フレーズを複数回繰り返したテキスト文を生成する構成であってもよい。この構成の場合には、音声合成装置１における強調対象フレーズ特定処理およびテキスト加工処理を削減することができる。

実施の形態４．
上記実施の形態３では、テキスト文２１ｂの強調対象フレーズを繰り返した合成音声１２４ｂを生成することにより、ユーザの強調対象フレーズ聞き逃しを防止していた。本実施の形態では、これに加えて、韻律制御および波形生成処理においても強調処理を行うように構成し、繰り返し毎に、生成する合成音声の強調度合いを制御する。図１０は、この発明の実施の形態４に係る音声合成装置１の構成を示すブロック図である。図１０において図１または図７と同一または相当の部分については同一の符号を付し説明を省略する。

強調対象フレーズ特定部１４は、情報処理装置２から入力されたテキスト文２１ｂに対して強調対象フレーズを特定し、強調対象フレーズ情報１４ａとしてテキスト加工部１５へ出力すると共に、音声合成部１２の韻律制御部１２３および波形生成部１２４へも出力する。韻律制御部１２３は、言語解析部１２２から入力された中間言語１２２ａおよび強調対象フレーズ特定部１４から入力された強調対象フレーズ情報１４ａを用い、繰り返された強調対象フレーズに対応する部分に強調処理を加えた韻律パラメータ１２３ｃを生成し、中間言語１２２ａと共に波形生成部１２４へ出力する。波形生成部１２４は、韻律制御部１２３から入力された中間言語１２２ａおよび韻律パラメータ１２３ｃ、ならびに強調対象フレーズ特定部１４から入力された強調対象フレーズ情報１４ａを用い、繰り返された強調対象フレーズに対応する部分に強調処理を加えた音声波形を生成し、得られた合成音声１２４ｃをスピーカ３へ出力する。

次に、音声合成装置１の動作を説明する。図１１は、実施の形態４に係る音声合成装置１の動作を示すフローチャートである。情報処理装置２からテキスト文２１ｂが入力されると、強調対象フレーズ特定部１４が上記実施の形態３同様にテキスト文２１ｂから強調対象フレーズを特定し、強調対象フレーズ情報１４ａを強調対象フレーズ特定部１４、韻律制御部１２３および波形生成部１２４へ出力する（ステップＳＴ３１）。

続くステップＳＴ３２にてテキスト加工部１５が図８のステップＳＴ２２と同様に処理を行い、ステップＳＴ３３にて言語解析部１２２が図８のステップＳＴ２３と同様に処理を行う。

続くステップＳＴ３４において韻律制御部１２３は、言語解析部１２２から入力された中間言語１２２ａに対して所定の規則に基づいて韻律を設定し、その韻律パラメータ１２３ｃを出力する。この際、韻律制御部１２３は、入力された強調対象フレーズ情報１４ａを参照し、繰り返された強調対象フレーズに対応する部分については韻律パラメータ１２３ｃにおける強調処理を行うことで、強調対象フレーズの強調処理を行う。さらに、韻律制御部１２３は、繰り返し毎に強調対象フレーズの韻律パラメータ１２３ｃの強調度合いを制御する。例えば、１回目の発声よりも２回目の繰り返し発声の強調度合いを強くすることで、２回目の発声の聞き逃しを少なくする。なお、韻律制御部１２３における韻律処理および韻律パラメータ１２３ｃにおける強調処理は、上記実施の形態１〜３同様に公知技術を用いればよい。

続くステップＳＴ３５において波形生成部１２４は、中間言語１２２ａおよび韻律パラメータ１２３ｃを受けて波形生成を行い、合成音声１２４ｃをスピーカ３へ出力する。この際、波形生成部１２４は、入力された強調対象フレーズ情報１４ａを参照し、繰り返された強調対象フレーズに対応する部分については波形データにおける強調処理を行うことで、強調対象フレーズの強調処理を行う。さらに、波形生成部１２４は、繰り返し毎に強調対象フレーズの波形データの強調度合いを制御する。なお、波形生成部１２４における合成音声の波形生成処理には上記実施の形態１〜３同様にＰＳＯＬＡ形式の規則合成音声方式等の公知技術を用いればよい。また、波形データの強調処理にも上記実施の形態１〜３同様に公知技術を用いればよい。

以上のように、実施の形態４によれば、繰り返された強調対象フレーズに対し、繰り返し毎に強調度合いを制御するように構成した。そのため、ユーザによる強調対象フレーズの聞き逃しをさらに少なくすることができる。

１音声合成装置、２情報処理装置、３スピーカ、１１可変フレーズ特定部、１１ａ可変フレーズ情報、１２音声合成部、１３重要フレーズ検索部、１３ａ重要フレーズ情報、１４強調対象フレーズ特定部、１４ａ強調対象フレーズ情報、１５テキスト加工部、１５ａ加工テキスト文、２１テキスト文生成部、２１ａ，２１ｂテキスト文、１１１キャリアフレーズ辞書、１２１言語辞書、１２２言語解析部、１２２ａ中間言語、１２３韻律制御部、１２３ａ，１２３ｂ，１２３ｃ韻律パラメータ、１２４波形生成部、１２４ａ，１２４ｂ，１２４ｃ合成音声、１３１重要フレーズ辞書。

Claims

可変フレーズおよびキャリアフレーズからなるテキスト文に基づいて音声を合成する音声合成装置であって、
前記テキスト文中の可変フレーズを特定し、可変フレーズ情報として出力する可変フレーズ特定部と、
前記テキスト文中の、前記可変フレーズ情報に従い特定された前記可変フレーズに強調処理を加えた合成音声を生成する音声合成部とを備えることを特徴とする音声合成装置。
テキスト文中の、可変フレーズ情報に従い特定された可変フレーズの中から、所定の重要フレーズを検索して、該当する重要フレーズを重要フレーズ情報として出力する重要フレーズ検索部を備え、
音声合成部は、可変フレーズの強調処理に代えて、前記テキスト文中の、前記重要フレーズ情報に従い特定された前記重要フレーズに強調処理を加えた合成音声を生成することを特徴とする請求項１記載の音声合成装置。
テキスト文中の、可変フレーズ情報に従い特定された可変フレーズの中から、所定の重要フレーズを検索して、該当する重要フレーズを重要フレーズ情報として出力する重要フレーズ検索部を備え、
音声合成部は、前記テキスト文中の、前記可変フレーズ情報に従い特定された前記可変フレーズに強調処理を加えると共に、前記重要フレーズ情報に従い特定された前記重要フレーズに、前記可変フレーズの強調処理より強い度合いの強調処理を加えた合成音声を生成することを特徴とする請求項１記載の音声合成装置。
テキスト文中の、可変フレーズ情報に従い特定された可変フレーズまたは重要フレーズ情報に従い特定された重要フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部を備え、
音声合成部は、前記テキスト文に代えて、前記加工テキスト文中の前記可変フレーズまたは前記重要フレーズに強調処理を加えた合成音声を生成することを特徴とする請求項２または請求項３記載の音声合成装置。
テキスト文に基づいて音声を合成する音声合成装置であって、
前記テキスト文に含まれる強調対象フレーズを特定した強調対象フレーズ情報を用いて、前記テキスト文中の前記強調対象フレーズを複数回繰り返した加工テキスト文を生成するテキスト加工部と、
前記加工テキスト文に応じた合成音声を生成する音声合成部とを備えることを特徴とする音声合成装置。
音声合成部は、加工テキスト文中の可変フレーズ、重要フレーズまたは強調対象フレーズに、繰り返し毎に強調度合いを制御した強調処理を加えた合成音声を生成することを特徴とする請求項４または請求項５記載の音声合成装置。