JP2009229932A

JP2009229932A - 音声出力装置

Info

Publication number: JP2009229932A
Application number: JP2008076696A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山; Hideki Watanabe; 英樹渡辺
Original assignee: Panasonic Electric Works Co Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2008-03-24
Filing date: 2008-03-24
Publication date: 2009-10-08

Abstract

【課題】予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる音声出力装置を提供する。
【解決手段】初期音声生成部８は、テキスト入力部４で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成し、音声認識処理部１０では、初期音声から認識されるテキストを認識テキストとして出力する。差異判断部９は、前記認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する。強調手段３は、音声合成部１から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部１に与える。
【選択図】図１

Description

本発明は、入力されたテキストに対応する合成音声を出力する音声出力装置に関するものである。

従来から、ユーザによって入力されたテキスト（以下、入力テキストという）に対応する合成音声を音声合成により生成して出力することで、入力テキストを読み上げることができる音声出力装置が提供されている。この種の音声出力装置として、ユーザにとって聞き分けが容易な合成音声を出力することを目的として、入力テキストのうちユーザにとって聞き分けが困難な部分を抽出し、抽出された部分について聞き分けを容易にするための変換処理を行うものが提案されている（たとえば特許文献１参照）。

特許文献１に記載の技術によれば、ユーザにとって聞き取りにくい発音の組み合わせである発音パターン（たとえば、「車種（ｓｙａｓｙｕ）」のような「子音・拗音」と「子音・拗音」との組み合わせ）が登録されているテーブルと音声合成の対象の入力テキストとを照合することで、当該入力テキストのうち前記発音パターンを含む部分が、ユーザにとって聞き分けにくい部分として抽出される。このようにして抽出された部分について、そこに含まれる単語または複合語を他の単語または他の複合語に置換、あるいは前記複合語を構成する単語間に助詞またはポーズを挿入する変換処理が施されることで、聞き分けの容易な合成音声が生成される。
特開２０００−１７２２８９号公報

しかし、特許文献１に記載の発明では、入力テキストのうち上述したテーブルに登録されている発音パターンに該当する部分のみが、前記変換処理（聞き分けを容易にするための処理）の対象となるため、たとえユーザにとって聞き分けが困難な語句であっても、テーブルに予め登録されている発音パターンに該当しないものについては前記変換処理の対象とされることはなく、その結果、ユーザにとって聞き分けが困難な合成音声が出力されることがある。

本発明は上記事由に鑑みてなされたものであって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる音声出力装置を提供することを目的とする。

請求項１の発明では、所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、合成音声の音声信号から認識されるテキストを認識テキストとして出力する音声認識処理部と、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする。

この構成によれば、差異判断部は、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異に基づいて、ユーザにとって聞き分けが困難な語句を要強調語句として抽出し、強調手段は、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されることとなる。したがって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。

請求項２の発明は、所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、テキストに対応する音声の音響的特徴量が記憶された特徴量格納部と、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異を検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする。

この構成によれば、差異判断部は、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異に基づいて、ユーザにとって聞き分けが困難な語句を要強調語句として抽出し、強調手段は、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されることとなる。したがって、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。

請求項３の発明は、請求項１または請求項２の発明において、複数の語句を格納した語句格納部と、前記入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を所定の類比判断ルールを適用して行い、前記入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部とを備え、前記強調手段が、前記差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする。

この構成によれば、類比判断部は、入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を行い、入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出し、強調手段は、差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えるものであるから、差異判断部の判断結果のみに基づいて合成音声が強調される場合に比べて、聞き分けが困難な語句を確実に強調できるという利点がある。

請求項４の発明は、請求項１または請求項２の発明において、前記音声合成部に設けた合成音声格納部に格納されている合成音声に係る情報および前記入力テキストの内容から前記入力テキストに対応する合成音声の信頼度を語句ごとに判断し、前記入力テキストのうち信頼度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、前記強調手段が、前記差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする。

この構成によれば、信頼度判断部は、入力テキストに対応する合成音声の信頼度を判断し、強調手段は、差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成に与えるものであるから、差異判断部の判断結果のみに基づいて合成音声が強調される場合に比べて、聞き分けが困難な語句を確実に強調できるという利点がある。

請求項５の発明は、請求項１ないし請求項４のいずれかの発明において、前記強調手段が、語句ごとに前記音声合成部から合成音声として出力される頻度を検出する頻度監視部を有し、頻度監視部で検出される頻度が所定の閾値を超えた語句については前記要強調語句から除外することを特徴とする。

この構成によれば、合成音声として出力される頻度が高く当該頻度が閾値を超えた語句については強調の対象から除外されるので、同じ語句が頻繁に出力されることで当該語句について聞き間違いを生じにくくなった場合において、その後も前記語句が何度も強調されることを回避できるという利点がある。

本発明は、入力テキストのうち差異判断部において聞き分けが困難であると判断された語句については聞き分けを容易にするための処理が施されるので、予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができるという利点がある。

（実施形態１）
本実施形態の音声出力装置は、入力テキストとして与えられた所望のテキストに対応する合成音声を生成して出力するものであって、図１（ａ）に示すように、合成音声を生成・出力する音声合成部１と、入力テキストのうちユーザにとって聞き分けが困難な語句（音韻、モーラ（カナ）、形態素、単語、複合語、文節など）を要強調語句として自動的に抽出する判断手段２と、判断手段２で要強調語句が抽出された場合に、音声合成部１で生成される合成音声のうち要強調語句に対応する部分を強調するための指示を音声合成部１に与える強調手段３とを備えている。ここで、合成音声のうち強調の対象となる要強調語句の部分とは、要強調語句の全体であってもよいが、要強調語句の一部であってもよい。

本実施形態では、テキストを入力するためのインタフェースであるテキスト入力部４が設けられており、音声合成の対象となる入力テキストは、テキスト入力部４で任意のテキストが入力されることで与えられる。

音声合成部１は、テキストを合成音声に変換する音声合成処理を行う音声合成処理部５と、音声合成処理部５で合成音声を生成する際に必要となる音声波形に関するデータを持つ音声合成データベース６と、音声合成処理部５で変換された合成音声を出力する音声出力部７とを有している。ここで、音声合成処理部５は、テキストを合成音声に変換する際に、強調手段３から受け取る後述の制御パラメータを用いることで、生成される合成音声の音響的特徴を変化させることができるものである。

判断手段２は、図１（ｂ）に示すように、実際に与えられた（つまり、テキスト入力部４で入力された）入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部８と、初期音声と入力テキストとの間の差異を検出する差異判断部９とを有し、入力テキストのうち差異判断部９で差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出し、強調手段３での強調の対象とする。具体的には、音声認識処理を行うことによって合成音声の音声信号から認識される語句を認識テキストとして出力する音声認識処理部１０を判断手段２に具備しており、差異判断部９において、初期音声を音声認識処理部１０で認識させることで得られた認識テキストと入力テキストとの比較を語句ごとに行い、入力テキストのうち認識テキストとの間に言語的差異があると判断された語句を要強調語句として抽出する。

強調手段３は、判断手段２で要強調語句が抽出された場合に、音声合成部１にて生成される合成音声のうち要強調語句に対応する部分について、知覚的に強調する目的で音響的特徴量を変換するための制御パラメータを生成する制御パラメータ生成部１１を有する。つまり、制御パラメータには、合成音声のうち要強調語句に対応する部分に対して、どのような音響的特徴量の変換を行うのかを示す情報が含まれている。ここでいう音響的特徴量の変換の具体例としては、パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割などがある。しかして、判断手段２で要強調語句が抽出されると、音声合成部１で生成される合成音声のうち要強調語句に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施されることにより強調され、ユーザにとって聞き分けやすい合成音声に変換される。なお、制御パラメータにおける音響的特徴量の変換制御の内容は、複数の音響的特徴量の変換を組み合わせたものであってもよい。

以下、本実施形態の音声出力装置の動作について図２のフローチャートを参照して簡単に説明する。

テキスト入力部４で入力テキストが入力されると、判断手段２は、入力された入力テキストを語句単位で分割し（Ｓ１）、分割後の語句を入力テキストの先頭から順に読み込む（Ｓ２）。そして、差異判断部９は、読み込まれた各語句について、初期音声から得られる認識テキストと入力テキストとの間の差異に基づいて要強調語句の抽出を行い（Ｓ３）、要強調語句が抽出された場合には、入力テキストにおける要強調語句の位置を記憶する（Ｓ４）。入力テキストの全ての語句についてステップＳ３の処理が為されるまではステップＳ２、Ｓ３の処理を繰り返す（Ｓ５）。入力テキストの全ての語句について前記処理が完了すれば、制御パラメータ生成部１１が、差異判断部９の判断結果（入力テキストにおける要強調語句の位置）に基づいて制御パラメータを決定する（Ｓ６）。音声合成部１では、制御パラメータ生成部１１から受けた制御パラメータに従って入力テキストを合成音声に変換し、当該合成音声を出力する（Ｓ７）。

次に、本実施形態の音声出力装置を用いた具体例について説明する。ここでは一例として、テキスト入力部４から「カズオさんが〜」という文章が入力テキストとして入力され、この入力テキストのうち「カズオ」という語句（ここでは単語）が要強調語句として抽出されたものとする。すなわち、初期音声生成部８で入力テキストに対応する合成音声の音声信号を初期音声として生成し、この初期音声を音声認識処理部１０で認識させることで得られた認識テキストと入力テキストとの間において、「カズオ」という語句に係る部分で差異があったものとする。

制御パラメータ生成部１１は、上述のように入力テキストから要強調語句が抽出された場合、当該入力テキストの要強調語句について、たとえば表１に示すような音響的特徴量の変換（パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割など）の指示を含む制御パラメータを生成する。その結果、音声合成部１で生成される合成音声のうち要強調語句に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施され、ユーザにとって聞き分けやすい合成音声に変換されることとなる。

以上説明した構成の音声出力装置によれば、入力テキストのうち差異判断部９において聞き分けが困難であると判断された語句については強調する処理が施されるので、従来構成のように予め登録されている発音パターンに該当する部分に限定されることなく、合成音声のうちユーザにとって聞き分けが困難な部分について聞き分けを容易にするための処理を施すことができる。

ところで、本実施形態の強調手段３は、語句（ここでは単語）ごとに音声合成部１から合成音声として出力された頻度を検出する頻度監視部１２を具備している。制御パラメータ生成部１１は、判断手段２から判断結果を受け取ると、要強調語句に関して頻度監視部１２内の頻度を参照し、当該頻度が所定の閾値を超えた場合にはこの要強調語句を強調の対象から除外するように機能する。ここでいう頻度は、音声出力装置の使用開始当初からの累積回数であってもよいが、所定の期間（たとえば１日）ごとにリセットされる回数であってもよい。

これにより、合成音声として出力される頻度が高く当該頻度が閾値を超えた語句については強調の対象から除外されるので、同じ語句が頻繁に出力されることで当該語句について聞き間違いを生じにくくなった場合において、その後も前記語句が何度も強調されることを回避できる。すなわち、何度も出力されることでユーザが聞き慣れた語句について執拗に強調されるとユーザが煩わしく感じることもあるが、本実施形態の構成によればこのような煩わしさを解消できるという利点がある。

さらに本実施形態では、制御パラメータ生成部１１は要強調語句について頻度監視部１２内の頻度を参照し、当該頻度が高くなるほど要強調語句の強調の度合いを弱めるように制御パラメータを決定する。具体的に説明すると、表２に示すように要強調語句（ここでは「カズオ」）に関し、音声合成した回数が１〜９回の場合には「オ」の波形の強度（パワー）を２倍、音声合成した回数が１０〜１９回の場合には「オ」の波形の強度を１．５倍、音声合成した回数が２０〜４９回の場合には「オ」の波形の強度を１．２倍とするように、頻度が高くなるにつれて要強調語句の強調の程度を徐々に低下させる。そして、頻度が所定の閾値（ここでは４９回）を超えて５０回以上になると、この語句（ここでは「カズオ」）については強調の対象から除外し、変換処理を行わないものとする。

なお、本実施形態では、音声合成部１と初期音声生成部８とを別々に設ける例を示したが、この例に限らず、たとえば音声合成部１の音声合成処理部５を初期音声生成部８として兼用するようにしてもよい。

また、上記実施形態では、入力テキストが与えられて（つまり、テキスト入力部４で入力されて）音声合成を開始した後で、入力テキストについてユーザにとって聞き分けにくい語句（要強調語句）の有無を判断する例を示したが、音声合成の開始前に予め要強調語句であるか否かの判断をさせることも可能である。

（実施形態２）
本実施形態の音声出力装置は、判断手段２が、音声認識処理部１０に代えて、図３に示すようにテキストに対応する音声の音響的特徴量が格納された特徴量格納部１３を具備し、差異判断部９において、初期音声生成部８で生成された初期音声の音響的特徴量と特徴量格納部１３から取得された入力テキストに対応する音声の音響的特徴量との比較を波形レベルで行い、両者間の差異が許容範囲を超える語句を要強調語句として抽出するようにした点が実施形態１の音声出力装置と相違する。特徴量格納部１３には、アナウンサ等の明瞭性の高い音声を収録してなる収録音声の音響的特徴量が予め格納されている。

ここで、初期音声の音響的特徴量と特徴量格納部１３内の音響的特徴量との差異を抽出する具体的な手法としては、たとえば、スペクトルをモデル化した特徴量であるメルケプストラムについてＤＰ（動的計画法：ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングを利用した手法が用いられる。なお、音声合成の対象となる全ての入力テキストについて収録音声を特徴量格納部１３に格納しておくことは困難であるから、特徴量格納部１３には、たとえばモーラ（カナ）単位などで細かく分割した収録音声の音響的特徴量を格納し、モーラ単位で音響的特徴量の比較を行うものとする。ここでは、前記収録音声として、音声合成部１に付随の音声合成データベース６を作成するために用いた音声を利用する。

その他の構成および機能は実施形態１と同様である。

（実施形態３）
本実施形態の音声出力装置は、判断手段２が、図４に示すように複数の語句を格納した語句格納部１４と、入力テキストに含まれる語句について語句格納部１４に格納されている他の語句と発音が類似するか否かの判断を行い、入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部１５とを備える点が実施形態１の音声出力装置と相違する。

本実施形態では、音声合成の対象となる入力テキストは、語句格納部１４に登録済みの複数の語句の中から、テキスト入力部４によって任意のものが読み出されることで与えられる。ここにおいて、テキストを入力するためのインタフェースであるテキスト登録部１６が設けられており、テキスト登録部１６で入力された任意の語句が語句格納部１４に登録されることとなる。ここで例示するテキスト入力部４は、外部から与えられるトリガを受けることにより、当該トリガに応じた語句を語句格納部１４から入力テキストとして読み出すものである。すなわち、語句格納部１４には入力テキストに含まれ得る語句が予め登録されていることになる。

類比判断部１５において行う入力テキスト中の語句と語句格納部１４内の他の語句との類比判断には、たとえば表３に示すように、音韻、モーラ、単語、文節の各々を単位とした場合に誤認識を生じやすい関係にあるものをグループ化した類比判断ルールが適用される。つまり、たとえば表３に「音韻間ルール１」で表すように、「ｐ」、「ｔ」、「ｋ」等の無声破裂子音は他の無声破裂子音と誤認識されやすいものであるから、無声破裂子音のみが異なる語句は「音韻間ルール１」を適用することで互いに類似するものと判断される。

ここにおいて、強調手段３は、差異判断部９および類比判断部１５の両方の判断結果に基づいて、音声合成部１から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部１に与える。すなわち、本実施形態の強調手段３は、初期音声と入力テキストとの間に差異があるか否かという点だけでなく、語句格納部１４に発音の類似する語句が存在するか否かという点も考慮して、音声合成部１から出力される合成音声のうち要強調語句の部分を強調するものであって、差異判断部９の判断結果のみに基づいて強調する場合に比べると、聞き分けが困難な語句を確実に強調できるという利点がある。

具体的には、強調手段３は、差異判断部９で要強調語句が抽出されると、当該要強調語句を強調の対象にし、また、類比判断部１５で要強調語句が抽出されても、当該要強調語句を強調の対象にする。つまり、本実施形態における強調手段３は、差異判断部９と類比判断部１５との少なくとも一方で要強調語句が抽出されれば、当該要強調語句を強調の対象とするものである。

なお、この例に限らず、強調手段３は差異判断部９と類比判断部１５との両方で要強調語句として抽出された語句のみを強調の対象とする構成にしてもよいが、聞き分けにくい語句を確実に強調するという観点からすれば、前述したように差異判断部９と類比判断部１５との少なくとも一方で要強調語句として抽出された語句を強調の対象とすることが望ましい。

次に、本実施形態の音声出力装置を用いた具体例について説明する。ここでは、住宅等の出入口に設置され各ユーザが持つカードキーによって各人別に在室状況を監視するような入室管理装置（図示せず）が、ユーザの帰宅を検出したときにトリガをテキスト入力部４に与えるものとして説明する。

この例において、音声合成の対象となる入力テキストは、前記トリガに応じて変化する語句（以下、可変部という）と、トリガによらずに固定されている定型文（以下、固定部という）との組み合わせ（可変部＋固定部）からなる形式の文章とする。つまり、たとえば「○○（可変部）さんが、帰ってきました（固定部）」というように、可変部が帰宅した人物によって変わり、固定部が帰宅した人物によらず常に同じ内容となる。語句格納部１４には上記テキストの可変部となり得る語句のみが格納されており、固定部は図示しない定型文記憶部に記憶されている。ここでは一例として、語句格納部１４に「カズオ」、「マサヨ」、「カズヨ」という３種類の名前が格納されているものとする。

まず、入室管理装置がトリガを発生すると、テキスト入力部４はこのトリガに応じて語句格納部１４から可変部となる語句（ここでは「カズオ」の場合を例示する）を読み出すとともに、定型文記憶部から固定部を読み出す。

そして、類比判断部１５は、語句格納部１４を参照して、入力テキストに含まれる語句（可変部）について語句格納部１４内の他の語句と発音が類似（たとえばカナ構成が類似）するか否かを判断し、類似する場合には、この可変部が要強調語句であると判断する。上述のように「カズオ」を可変部とした場合、語句格納部１４内の「カズヨ」という名前が類似するから、この可変部は要強調語句であると判断される。

制御パラメータ生成部１１は、上述のように可変部が要強調語句であると判断された場合、当該可変部について、たとえば表１に示すような音響的特徴量の変換（パワーの増加、ピッチの上昇、話速の低下、ポーズの付与、モーラ単位での分割など）の指示を含む制御パラメータを生成する。その結果、音声合成部１で生成される合成音声のうち可変部に対応する部分は、制御パラメータの内容に従って音響的特徴量の変換が施され、ユーザにとって聞き分けやすい合成音声に変換されることとなる。ここでは、可変部のうち少なくとも前記他の語句との相違点となる箇所（ここでは「オ」）が強調されるようにしてある。

その他の構成および機能は実施形態１と同様である。

（実施形態４）
本実施形態の音声出力装置は、判断手段２が、入力テキストに対応する合成音声の尤度（信頼度）を語句ごとに判断し、入力テキストのうち尤度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、強調手段３が、差異判断部９と信頼度判断部との両方の判断結果に基づいて要強調語句の強調の指示を与える点が実施形態１の音声出力装置と相違する。

すなわち、強調手段３は、初期音声と入力テキストとの間に差異があるか否かという点だけでなく、入力テキストに対応する合成音声が信頼できるものか否かという点も考慮して、音声合成部１から出力される合成音声のうち要強調語句の部分を強調するものであって、差異判断部９の判断結果のみに基づいて強調する場合に比べると、聞き分けが困難な語句を確実に強調できるという利点がある。

信頼度判断部は、図５に示すように入力テキストに対応する合成音声の尤度を語句ごとに算出する尤度算出部１７と、算出された尤度を評価することで入力テキストに対応する合成音声の信頼性を語句ごとに判断する尤度評価部１８とで構成されている。

ここで、音声合成部１に付随の音声合成データベース（合成音声格納部）８はＨＭＭ（隠れマルコフモデル）音声合成方式を用いており、音声波形をそのまま蓄積しているのではなく、波形情報を数値化し、それより求めた統計モデル（以下、波形モデルという）を予め格納している。つまり、音素の音響的特徴量は前後の音素との関係などによって変化するため、このような音響的特徴量の変動要因（コンテキスト）を考慮して波形モデルを生成する必要があり、具体的には、たとえば「あ」という波形をモデル化するに当たって、予めアナウンサ等の明瞭性が高い音声を文単位で多数収録しておき、その中で「あ」と発声された部分をそれぞれ切り出す。このとき複数の「あ」の波形が得られることになるが、これらの波形を数値化し、それにより算出された統計量（正規分布の平均値・分散値）が音声合成データベース６に格納される。

尤度算出部１７では、ＨＭＭにより構成される音声合成データベース６に格納されている情報と入力テキストの内容とを用いて、ビタービアルゴリズムを使用して尤度を求める。ここで、正規分布の分散が大きすぎたり逆に小さすぎたりすると、尤度が低くなる可能性が高い。求めた尤度は尤度評価部１８において評価され、尤度が高い場合、音声合成のために利用しようとする音声合成データベース６中の波形モデルが多数の収録音声より精密にモデル化されていることを意味するから、高品質に音声合成できると考えられ、この語句は要強調語句ではないと判断される。一方、尤度が所定の閾値より低い場合は、少数の収録音声からモデル化されていることを意味するから、品質が低くなる可能性が高いと考えられ、この語句は要強調語句であると判断される。

強調手段３は、差異判断部９で要強調語句であると判断され、且つ、尤度評価部１８でも要強調語句であると判断されると、この語句を強調の対象にする。つまり、本実施形態における強調手段３は、差異判断部９と尤度評価部１８との両方で要強調語句であると判断された語句のみを強調の対象とするものである。

なお、この例に限らず、強調手段３は差異判断部９と尤度評価部１８との少なくとも一方で要強調語句であると判断された語句を強調の対象とする構成にしてもよいが、聞き分けを容易にする処理の無駄を低減するという観点からすれば、前述したように差異判断部９と尤度評価部１８との両方で要強調語句と判断された語句のみを強調の対象とすることが望ましい。

その他の構成および機能は実施形態１と同様である。

本発明の実施形態１の構成を示す概略構成図である。同上の動作を示すフローチャートである。本発明の実施形態２の判断手段を示す概略構成図である。本発明の実施形態３の構成を示す概略構成図である。本発明の実施形態４の判断手段を示す概略構成図である。

符号の説明

１音声合成部
３強調手段
４テキスト入力部
８初期音声生成部
９差異判断部
１０音声認識処理部
１２頻度監視部
１３特徴量格納部
１４語句格納部
１５類比判断部
１７尤度算出部
１８尤度評価部

Claims

所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、合成音声の音声信号から認識されるテキストを認識テキストとして出力する音声認識処理部と、初期音声から認識された認識テキストの内容と入力テキストの内容との間の言語的差異を語句ごとに検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする音声出力装置。
所望のテキストを入力するテキスト入力部と、テキストに対応する合成音声を出力する音声合成部と、テキスト入力部で入力された入力テキストに対応する合成音声の音声信号を初期音声として生成する初期音声生成部と、テキストに対応する音声の音響的特徴量が記憶された特徴量格納部と、入力テキストに対応する音声について特徴量格納部から取得される音響的特徴量と初期音声の音響的特徴量との間の差異を検出し、入力テキストのうち前記差異が所定の許容範囲を超えると判断された語句を聞き分けが困難な要強調語句として抽出する差異判断部と、音声合成部から出力される合成音声のうち前記要強調語句として抽出された部分を強調する指示を音声合成部に与える強調手段とを備えることを特徴とする音声出力装置。
複数の語句を格納した語句格納部と、前記入力テキストに含まれる語句について語句格納部に格納されている他の語句と発音が類似するか否かの判断を所定の類比判断ルールを適用して行い、前記入力テキストのうち類似すると判断された語句を聞き分けが困難な要強調語句として抽出する類比判断部とを備え、前記強調手段は、前記差異判断部および類比判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする請求項１または請求項２に記載の音声出力装置。
前記音声合成部に設けた合成音声格納部に格納されている合成音声に係る情報および前記入力テキストの内容から前記入力テキストに対応する合成音声の信頼度を語句ごとに判断し、前記入力テキストのうち信頼度が所定の閾値より低いと判断された語句を聞き分けが困難な要強調語句として抽出する信頼度判断部を有し、前記強調手段は、前記差異判断部および信頼度判断部の両方の判断結果に基づいて、音声合成部から出力される合成音声のうち要強調語句として抽出された部分を強調する指示を音声合成部に与えることを特徴とする請求項１または請求項２に記載の音声出力装置。
前記強調手段は、語句ごとに前記音声合成部から合成音声として出力される頻度を検出する頻度監視部を有し、頻度監視部で検出される頻度が所定の閾値を超えた語句については前記要強調語句から除外することを特徴とする請求項１ないし請求項４のいずれか１項に記載の音声出力装置。