JP2006126548A

JP2006126548A - 音声合成出力装置

Info

Publication number: JP2006126548A
Application number: JP2004315491A
Authority: JP
Inventors: Masaya Hanazono; 正也花園; Takashi Nishiyama; 高史西山
Original assignee: Matsushita Electric Works Ltd
Current assignee: Panasonic Electric Works Co Ltd
Priority date: 2004-10-29
Filing date: 2004-10-29
Publication date: 2006-05-18

Abstract

【課題】従来技術より一層ユーザフレンドリーな音声合成出力装置を提供する。
【解決手段】出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置１００であって、予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶部１０６と、外部から対応データを特定するための特定情報の入力を受け取り、前記特定情報に基づいて対応データを特定するデータ分析部１０３と、特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更する音声パラメータ制御部１０４と、変更後の音声パラメータに基づいて音声を合成して出力する音声合成部１０８とを備える。
【選択図】図１

Description

本発明は、音声合成出力装置に関し、特に、ユーザに対して出力する音声を最適化するための技術に関する。

従来、住宅内で使用する健康機器や家電機器などには、音声合成出力装置を備えたものが利用されている。これらの機器では、ユーザに対し、操作方法や操作指示などが音声で知らされる。
これにより、ユーザは、機器の説明書や表示画面をいちいち見ることなく、機器の操作を容易に行うことができる。

最近では、ユーザの年齢に応じて、合成出力する音声の音量や話速を制御することができる音声合成出力装置に関する技術も提案され（特許文献１参照）、高齢者等のユーザに対しても、聞き取りやすい音声でガイドするよう工夫されている。
特開平07-28920号公報

しかしながら、出力される音声がユーザにとってどのように感じられるかは、音量や話速以外のさまざまな因子、例えば、声質や音の高さ、表現方法、ユーザの嗜好、音声が出力される周囲環境やユーザとの距離、音声が出力される時間帯などによっても左右される。
上記従来技術においては、このような種々の因子が考慮されることなく、音声が制御されているため、利用環境によっては、出力される音声がユーザに不快に感じられたり、音声が聞き取りにくく感じられたりする場合が生じ、改善の余地がある。

本発明は、かかる点に鑑み、従来技術より一層ユーザフレンドリーな音声合成出力装置を提供することを目的とする。

上記課題を解決するために、本発明は、出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置であって、予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶手段と、外部から対応データを特定するための特定情報の入力を受け取る入力受取手段と、前記特定情報に基づいて対応データを特定する特定手段と、特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更するパラメータ変更手段と、変更後の音声パラメータに基づいて音声を合成して出力する音声出力手段とを備える。

本発明は、上記構成を備えることにより、特定情報を介して対応データを外部から特定することにより、音声パラメータを変更して音声を合成出力することができるので、例えば、ユーザの周囲環境を特定する特性値やユーザ毎に制御データを対応付けて制御データ対応テーブルとして記憶しておき、外部から特定情報を介してユーザや特性値を特定することにより、ユーザの嗜好や周囲環境に応じて適切な音声を合成出力することができる。

ここで、前記特定情報は、ユーザを特定するユーザ特定情報を含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルを前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データに基づいて前記音声パラメータを変更することとしてもよい。

これにより、ユーザ毎に個別に定められた制御データに基づいて音声パラメータを変更して音声を合成出力することができるので、予め当該ユーザにとって最適な音声となるように制御データを設定しておくことにより、当該ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、ユーザの音声情報を含み、前記記憶手段は、音声の特性値と制御データとの対応関係を示す音声特性値別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記音声情報に基づいてユーザの音声の特性値を特定し、前記パラメータ変更手段は、前記音声特性値別制御データ対応テーブルにおいて、特定されたユーザーの音声の特性値に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。

これにより、ユーザの音声特性に適合するように、音声パラメータを決定することができるので、ユーザに対し、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、自装置周囲の雑音情報を含み、前記記憶手段は、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、前記パラメータ変更手段は、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。

これにより、特定した自装置周囲の雑音の特性値に応じて音声パラメータを変更させることができるので、雑音の特性値毎に、当該特性値における雑音の影響が少なくなるように制御データを予め設定しておくことにより、雑音発生下においても、ユーザにとって、聞き取りやすく、快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、ユーザと自装置との間の距離を示す距離情報を含み、前記記憶手段は、距離と制御データとの対応関係を示す距離別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記距離情報に基づいてユーザと自装置との間の距離を特定し、前記パラメータ変更手段は、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。

これにより、自装置からユーザまでの距離に応じて出力音声を変更させることができるので、上記距離毎に当該距離における音声がユーザにとって最適な音声となるように制御データを予め設定しておくことにより、ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、現在時刻を示す時刻情報を含み、前記記憶手段は、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記時刻情報に基づいて現在時刻を特定し、前記パラメータ変更手段は、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。

これにより、時刻に応じて出力音声を変更させることができるので、ユーザの生活スタイルに合うように、出力音声を時間帯に応じて変更させることにより、ユーザにとっていつも快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報と自装置周囲の雑音情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。

これにより、ユーザー毎に定められた制御データだけでなく、周囲の雑音の影響をも考慮した上で、音声パラメータが最終決定されるので、雑音発生下においても、ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報とユーザと自装置との間の距離を示す距離情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、距離と制御データとの対応関係を示す距離別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記距離情報に基づいてユーザと自装置との間の距離を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。

これにより、ユーザ毎に定められた制御データだけでなく、距離の影響をも考慮した上で、音声パラメータが最終決定されるので、ユーザと自装置との間の距離に応じて、ユーザに対し、最適な音声を合成出力することができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報と現在時刻を示す時刻情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルとをそれぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記時刻情報に基づいて現在時刻を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記時刻別対応テーブルにおいて、特定された現在時刻に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。

これにより、ユーザ毎に設定された制御データだけでなく、時刻を加味して出力音声を変更させることができるので、ユーザの生活スタイルに合うように、出力音声を時間帯に応じて変更させることにより、ユーザに対し、いつも快適に感じられる音声を合成出力することができる。

以下に本発明の実施形態について図面を用いて具体的に説明する。
（実施形態１）
＜構成＞
＜全体構成＞
図１は、本実施形態１に係る音声合成出力装置１００の構成を示す機能ブロック図である。

音声合成出力装置１００は、入力部１０１、ユーザ操作部１０２、データ分析部１０３、音声パラメータ制御部１０４、テキスト入力部１０５、記憶部１０６、表示部１０７、音声合成部１０８、スピーカ１０９から構成される。
＜入力部の構成＞
入力部１０１は、マイク部１０１１、カメラ部１０１２、時刻計測部１０１３から構成される。

マイク部１０１１は、外部から入力される各種音声情報（ユーザからの音声、雑音等）をＡ／Ｄ変換して音声波形信号を生成し、データ分析部１０３に出力する。
カメラ部１０１２は、ユーザを撮像し、撮像した画像をＡ／Ｄ変換して画像データを生成し、データ分析部１０３に出力する。
時刻計測部１０１３は、現在時刻を計測し、データ分析部１０３と音声パラメータ制御部１０４に出力する。

＜ユーザ操作部＞
ユーザ操作部１０２は、ユーザからの各種指示の入力を受取り、データ分析部１０３及び音声パラメータ制御部１０４に出力する。
＜データ分析部の構成＞
データ分析部１０３は、ユーザデータ分析部１０３１を含み、ユーザデータ分析部１０３１は、音声認識処理と画像処理と音声分析処理を行う。

＜音声認識処理＞
ユーザデータ分析部１０３１は、マイク部１０１１から入力された音声波形信号からユーザ音声の特徴量を抽出し、抽出した特徴量と後述するユーザＧＭＭデータ格納部１０６１に格納されている、音声合成出力装置１００の各ユーザの音声の特徴量の混合正規分布モデル（ＧＭＭ：Gaussian Mixture Model）とのマッチングを行い、最も類似性の高い特徴量を示すユーザを音声出力対象のユーザとしてそのＩＤを特定し、音声パラメータ制御部１０４に通知し、類似性の高い特徴量を示すものがなくユーザのＩＤを特定できなかった場合には、音声パラメータ制御部１０４にその旨通知する。

ここで、音声認識の手法としては、音声波形信号から線形予測係数やメル周波数ケプトストラム係数やフーリエスペクトル係数などの特徴量を抽出し、これと音声辞書に記憶されている特徴量とのマッチングを行うパターンマッチング法や、隠れ（Hidden）マルコフ法を用いた音声認識法などの周知の手法を用いることができる。
＜画像認識処理＞
ユーザデータ分析部１０３１は、カメラ部１０１２より入力されたユーザの撮像画像の画像データと後述するユーザＰＭ（Pattern Matching）データ格納部１０６２に格納されている各ユーザの撮像画像の画像データとのマッチングを行い、最も類似性の高いものを音声出力対象のユーザとしてそのＩＤを特定し、音声パラメータ制御部１０４に通知し、類似性の高い特徴量を示すものがなく、ユーザのＩＤを特定できなかった場合には、音声パラメータ制御部１０４にその旨通知する。

又、ユーザデータ分析部１０３１は、各ユーザのＩＤと当該ユーザの不在時間帯との対応関係示す不在者特定テーブルを記憶し、時刻計測部１０１３より入力された現在時刻に基づいて、当該時刻に不在のユーザのＩＤを特定し、特定したユーザについては、上記各マッチングの対象から除外する。
＜音声分析処理＞
ユーザデータ分析部１０３１は、マイク部１０１１より入力されたユーザ音声の音声波形信号を分析し、入力されたユーザ音声の音量（以下、「発話パワー」という。）、発話の時間長（話速）を算出して、算出した発話パワー及び発話の時間長をそれぞれ音声パラメータ制御部１０４に出力する。

＜記憶部の構成＞
記憶部１０６は、ユーザＧＭＭデータ格納部１０６１、ユーザＰＭデータ格納部１０６２、音声テキスト格納部１０６３、デフォルト音声パラメータ格納部１０６４、音声パラメータ制御データ格納部１０６５から構成される。
（ユーザデータ格納部の構成）
ユーザＧＭＭデータ格納部１０６１は、音声合成出力装置１００のユーザである複数のユーザの音声の特徴量（例えば、メル周波数ケプトストラム係数やフーリエスペクトル係数など）のＧＭＭと各ユーザのＩＤとを対応付けて格納している。

ユーザＰＭデータ格納部１０６２は、音声合成出力装置１００の複数のユーザの撮像画像データと各ユーザのＩＤとを対応付けて格納している。
音声テキスト格納部１０６３は、インデックス格納部１０６３１とテキスト格納部１０６３２から構成される。
＜音声データ格納部の構成＞
インデックス格納部１０６３１は、テキスト格納部１０６３２に格納されている、合成出力する音声の内容を示す複数のテキストデータのアドレスを特定するための、インデックス番号と各テキストデータの格納先アドレスとの対応関係を示すインデックステーブルを格納している。

テキスト格納部１０６３２は、複数のテキストデータを格納している。
図２は、音声テキスト格納部１０６３に格納されている、インデックステーブルと、テキストデータの具体例を示す。
デフォルト音声パラメータ格納部１０６４は、テキストデータを構成する文字単位である音素毎に予め定められている、デフォルトの音声パラメータを格納している。

図３は、デフォルト音声パラメータ格納部１０６４に格納されているデフォルトの音声パラメータの具体例を示す。
図３において、「音声パワー」は、音素の平均音量を特定する音声パラメータを示し、「Ｆ０」は、音素の平均基本周波数を特定する音声パラメータを示し、「周波数帯域別指定増幅パターン」は、周波数帯域別の音声パワーの増減量を示す音声パラメータを示す（図２０に具体例を示す。）。
図２０において、各音声パラメータは、「増幅パターン」の番号によって示され、図２０に示す各周波数帯域毎の音量の増減量を特定している。
又、「時間長」は、音素を音声出力する時間の長さを示す音声パラメータを示し、「指定声質」は、予め音声合成部１０８に記録されている、声質の異なる複数の話者の音声波形の中から音声として出力すべき音声波形を特定する音声パラメータを示す。
又、「Ｆ０抑揚制御係数」は、一息で発声することが可能な音声区間（例えば、句読点で区切られる区間）において、当該音声区間に含まれる音素間の音声の高低差の程度を示す抑揚を制御するための係数値を指定する音声パラメータを示し、「音声パワー変化率制御係数」は、上記音声区間において、当該音声区間に含まれる音素間の音声の平均音量の変化の程度を表す音声パワー変化率を制御するための係数値を指定する音声パラメータを示す。

抑揚の制御は、以下に示す数式１(数１)に従って、上記音声区間に含まれる音素毎に、Ｆ０をデフォルト値より増減変更させることにより、行われる。
[数１] Ｆ＝Ｆav − ｐ（Ｆav − Ｆd）
数式１において、Ｆは、変更後のＦ０を表し、Ｆavは、上記音声区間に含まれる各音素のＦ０のデフォルト値の平均値を表し、Ｆｄは、各音素のＦ０のデフォルト値を表し、ｐは、Ｆ０抑揚制御係数を表す。

同様に音声パワー変化率の制御も、上記に示す数式１(数１)に従って、上記音声区間に含まれる音素毎に、音声パワーをデフォルト値より増減変更させることにより、行われる。
この場合、数式１において、Ｆは、変更後の音声パワーを表し、Ｆavは、上記音声区間に含まれる各音素の音声パワーのデフォルト値の平均値を表し、Ｆｄは、各音素の音声パワーのデフォルト値を表し、ｐは、音声パワー変化率制御係数を表す。

上記数式１（数１）より、以下の数式２（数２）を導くことができる。
[数２] ｐ＝（Ｆav − Ｆ）／（Ｆav − Ｆd）
上記数式より、ｐ＞１の場合には、平均値との差は、デフォルト値の場合の方が小さく、ｐ＜１の場合には、平均値との差は、変更後の方が小さくなり、ｐ＝１の場合には、Ｆはデフォルト値と等しくなるため、平均値との差は、いずれの場合も等しくなる。

このように、ｐ値を制御することにより、抑揚及び音声パワー変化率を制御することが可能となる。
＜パラメータ制御データ格納部の構成＞
音声パラメータ制御データ格納部１０６５は、ユーザ基本情報格納部１０６５１と発話特性別音声パラメータ格納部１０６５２とから構成される。

ユーザ基本情報格納部１０６５１は、デフォルトの音声パラメータを変更する制御データと各ユーザのＩＤとの対応関係を示すユーザ基本情報特定テーブルを格納している。
図４は、ユーザ基本情報格納部１０６５１に格納されているユーザ基本情報特定テーブルの具体例を示す。
図４において、「音声パワー制御量」は、「音声パワー」の音声パラメータを変更する制御データを示し、「Ｆ０制御量」は、「Ｆ０」の音声パラメータを変更する制御データを示す。
「周波数帯域別指定増幅パターン」は、「周波数帯域別指定増幅パターン」の音声パラメータを変更する制御データを示す。
具体的には、図２０の「増幅パターン」の番号によって変更後の音声パラメータを指定する制御データを示す。
又、「時間長制御量」は、「時間長」の音声パラメータを変更する制御データを示し、「音声テキスト指定インデックス番号」は、インデックス番号を指定するデフォルトの音声パラメータを変更する制御データを示し、「指定音質」は、「指定音質」の音声パラメータを変更する制御データを示し、「Ｆ０抑揚制御係数制御量」は、「Ｆ０抑揚制御係数」の音声パラメータを変更する制御データを示し、「音声パワー変化率制御係数制御量」は、「音声パワー変化率制御係数」の音声パラメータを変更する制御データを示す。

発話特性別音声パラメータ格納部１０６５２は、音声パワー変換テーブルと時間長変換テーブルとを格納している。
ここで、「音声パワー変換テーブル」とは、発話パワーと指定音声パワーとの対応関係を示すテーブルのことをいう。
「指定音声パワー」とは、「音声パワー」のデフォルト音声パラメータを変更するための音声パラメータのことをいう。

又、「時間長変換テーブル」とは、発話の時間長と指定時間長との対応関係を示すテーブルのことをいう。
「指定時間長」とは、「時間長」の音声パラメータを変更するための音声パラメータのことをいう。
図１２は、音声パワー変換テーブルの具体例を示し、図１３は、時間長変換テーブルの具体例を示す。

＜テキスト入力部＞
テキスト入力部１０５は、音声パラメータ制御部１０４から通知されたインデックス番号のテキストデータを音声テキスト格納部１０６３から読出し、音声パラメータ制御部１０４に出力する。
＜音声パラメータ制御処理＞
音声パラメータ制御部１０４は、ユーザデータ分析部１０３１より、ユーザＩＤの通知があった場合、ユーザ基本情報格納部１０６５１に格納されているユーザ基本情報特定テーブルより、通知されたユーザＩＤに対応する制御データを読出し、読出した「音声テキスト指定インデックス番号」の制御データに基づいて、インデックス番号を特定し、特定したインデックス番号をテキスト入力部１０５に通知する。

次に、テキスト入力部１０５より、テキストデータの入力があると、音声パラメータ制御部１０４は、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部１０６４より読出す。
ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力があった場合には、音声パラメータ制御部１０４は、発話特性別音声パラメータ格納部１０６５２に格納されている音声パワー変換テーブルと時間長変換テーブルとを参照して、入力された発話パワー、発話の時間長それぞれに対応する音声パラメータを特定し、デフォルト音声パラメータの内、該当する音声パラメータを、特定した音声パラメータにそれぞれ変更し、その他のデフォルト音声パラメータを、ユーザ基本情報特定テーブルより読出した制御データに基づいて変更し、変更後の音声パラメータを音声合成部１０８と表示部１０７に出力する。

一方、ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力がなかった場合には、音声パラメータ制御部１０４は、ユーザ基本情報特定テーブルより読出した制御データに基づいてデフォルト音声パラメータを変更し、変更後の音声パラメータを音声合成部１０８と表示部１０７に出力する。
又、音声パラメータ制御部１０４は、ユーザデータ分析部１０３１より、ユーザＩＤが特定できなかった旨の通知があった場合、予め設定されているデフォルトの音声パラメータに基づいて、インデックス番号を特定し、特定したインデックス番号をテキスト入力部１０５に通知し、テキスト入力部１０５より、当該インデックス番号に対応するテキストデータの入力があると、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部１０６４より読出し、そのまま音声合成部１０８と表示部１０７に出力する。

表示部１０７は、音声パラメータ制御部１０４より入力された変更後の音声パラメータに基づいて、音声パラメータを示す表示画像を生成して表示する。
音声合成部１０８は、音声パラメータ制御部１０４より入力された変更後の音声パラメータに基づいて、合成音声波形信号を生成し、スピーカ１０９を介して音声に変換して出力する。
＜動作＞
＜ユーザＩＤ特定処理の動作＞
次に、データ分析部１０３が、音声認識処理及び画像認識処理を介して行うユーザＩＤ特定処理の動作について説明する。

図５は、上記動作を示すフローチャートである。以下、図５を参照して上記動作について説明する。
データ分析部１０３は、ユーザ操作部１０２を介して、ユーザからの音声出力指示の入力を受け取ると（ステップＳ５０１）、時刻計測部１０１３より現在時刻を取得し（ステップＳ５０２）、不在者特定テーブルを参照し、取得した現在時刻が含まれる時間帯において、不在のユーザのＩＤを特定することにより、不在者を特定し（ステップＳ５０３）、音声出力指示の入力があった時から所定時間内にユーザからの音声がマイク部１０１１から入力されたか否かを判定する（ステップＳ５０４）。

ステップＳ５０４において、ユーザからの音声がマイク部１０１１から入力された場合（ステップＳ５０４：ＹＥＳ）、データ分析部１０３は、マイク部１０１１から入力された音声波形信号からユーザ音声の特徴量を抽出し（ステップＳ５０５）、抽出した特徴量とユーザＧＭＭデータ格納部１０６１に格納されている、特定した不在者を除く各ユーザの音声の特徴量の混合正規分布モデル（ＧＭＭ：Gaussian Mixture Model）とのマッチングを行い（ステップＳ５０６）、特徴量の類似度に基づく音声入力元ユーザのＩＤの特定を試み（ステップＳ５０７）、ユーザＩＤの特定ができた場合には（ステップＳ５１１：ＹＥＳ）、特定したユーザＩＤを音声パラメータ制御部１０４に通知し（ステップＳ５１２）、ユーザＩＤが特定できなかった場合には（ステップＳ５１１：ＮＯ）、その旨を音声パラメータ制御部１０４に通知する（ステップＳ５１３）。

ステップＳ５０４において、ユーザからの音声がマイク部１０１１から入力されなかった場合（ステップＳ５０４：ＮＯ）、データ分析部１０３は、カメラ部１０１２よりユーザの撮像画像の画像データを取得し（ステップＳ５０８）、取得した撮像画像の画像データとユーザＰＭ（Pattern Matching）データ格納部１０６２に格納されている、特定した不在者を除く各ユーザの撮像画像の画像データとのマッチングを行い（ステップＳ５０９）、画像データの類似度に基づくユーザのＩＤの特定を試み（ステップＳ５１０）、ステップＳ５１１〜ステップＳ５１３の処理を行う。

＜ユーザ別音声パラメータ制御処理の動作＞
次に、音声パラメータ制御部１０４の行うユーザ別音声パラメータ制御処理の動作について説明する。
図６は、上記動作を示すフローチャートである。以下、図６を参照して上記動作について説明する。

音声パラメータ制御部１０４は、データ分析部１０３より、ユーザＩＤの通知があった場合（ステップＳ６０１：ＹＥＳ）、ユーザ基本情報格納部１０６５１に格納されているユーザ基本情報特定テーブルより、通知されたユーザＩＤに対応する制御データを読出し（ステップＳ６０２）、読出した「音声テキスト指定インデックス番号」の制御データよりインデックス番号を取得し（ステップＳ６０３）、インデックス番号をテキスト入力部１０５に通知し、テキスト入力部１０５より、通知したインデックス番号に対応するテキストデータを取得し（ステップＳ６０４）、取得したテキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部１０６４より読出し（ステップＳ６０５）、ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力があった場合には（ステップＳ６０６：ＹＥＳ）、音声パラメータ制御部１０４は、発話特性別音声パラメータ格納部１０６５２に格納されている音声パワー変換テーブルと時間長変換テーブルとを参照して、入力された発話パワー、発話の時間長それぞれに対応する音声パラメータを特定し（ステップＳ６０７）、デフォルト音声パラメータの内、該当する音声パラメータを、特定した音声パラメータにそれぞれ変更し（ステップＳ６０８）、その他のデフォルト音声パラメータを、ユーザ基本情報特定テーブルより読出した制御データに基づいて変更し（ステップＳ６０９）、変更後の音声パラメータを音声合成部１０８と表示部１０７に出力する（ステップＳ６１４）。

ステップＳ６０６において、ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力がなかった場合には（ステップＳ６０６：ＮＯ）、音声パラメータ制御部１０４は、ステップＳ６０２において、ユーザ基本情報格納部１０６５１に格納されているユーザ基本情報特定テーブルより、読出した制御データに基づいてデフォルト音声パラメータを変更し（ステップＳ６１０）、ステップＳ６１４の処理に移行する。

音声パラメータ制御部１０４は、データ分析部１０３より、ユーザＩＤの通知がなかった場合（ユーザＩＤが特定できなかった旨の通知があった場合）（ステップＳ６０１：ＮＯ）、予め設定されているデフォルトの音声パラメータに基づいて、インデックス番号を特定し（ステップＳ６１１）、特定したインデックス番号をテキスト入力部１０５に通知し、テキスト入力部１０５より、当該インデックス番号に対応するテキストデータを取得し（ステップＳ６１２）、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部１０６４より読出し、そのまま音声合成部１０８と表示部１０７に出力する（ステップＳ６１３）。
＜効果＞
上記ステップＳ６０１〜ステップＳ６０４の処理を行うことにより、ユーザ毎に合成出力する音声の内容を変更することができるので、各ユーザの年齢、国籍、出身地に応じて音声の内容を変えて音声を合成出力することができる。

例えば、家族の中に外国人がいるような場合には、当該外国人に対しては、外国語で音声を出力し、他のユーザに対しては、日本語で音声を出力することができる。
又、ステップＳ６０６〜ステップＳ６０８の処理を行うことにより、以下の効果が得られる。
（１）ユーザの発話の音量に応じた音量で音声が合成出力されるように制御することができるので、ユーザの発話の音量とかけはなれた音量で音声が合成出力されることにより、ユーザに不快感を生じさせることなく、適正な音量で音声を合成出力することができる。
（２）ユーザの発話の速度に応じた速度で音声が合成出力されるように制御することができるので、ユーザの発話の速度より極端に早い、或いは、遅い速度で音声が合成出力されることにより、ユーザに不快感を生じさせることなく、快適な速度で音声を合成出力することができる。

又、ステップＳ６０９の処理を行うことにより、図４のユーザ基本情報特定テーブルに例を示すように、予め各ユーザにとって最適な音質となるように制御データを設定しておくことにより、当該ユーザに対し、最適な音質で音声を合成出力することができる。
具体的には、音の高さ、一息で発声することが可能な音声区画ごとの声の高低差や強弱の差、声質、周波数帯域毎の音量を、ユーザの年齢や嗜好に合うように制御データを設定しておくことにより、ユーザ固有の特性にきめ細かく対応した最適な音声をユーザ毎に合成出力することができる。

（実施形態２）
実施形態１の音声合成出力装置１００は、ユーザに起因する固有の制御データや情報に基づいて、デフォルトの音声パラメータを変更してユーザ毎に合成出力する音声を制御することを特徴としているが、実施形態２の音声合成出力装置２００は、上記制御データや情報に加え、ユーザが感じる音声の性質に影響を及ぼす外的因子の計測値をも考慮して合成出力する音声を制御することを特徴としている。

以下、実施形態１の音声合成出力装置１００との相違点を中心にして、実施形態２の音声合成出力装置２００について説明する。
＜構成＞
＜全体構成＞
図７は、本実施形態２に係る音声合成出力装置２００の構成を示す機能ブロック図である。

音声合成出力装置２００は、入力部２０１、ユーザ操作部１０２、データ分析部２０３、音声パラメータ制御部２０４、テキスト入力部１０５、記憶部２０６、表示部１０７、音声合成部１０８、スピーカ１０９から構成される。
図７の機能ブロック図において、実施形態１の音声合成出力装置１００と同一の構成要素については、同一の番号を付与している。以下、音声合成出力装置１００と相違する音声合成出力装置２００の構成要素について説明し、同一の構成要素については、実施形態１において、説明済みであるので説明を省略する。

＜入力部の構成＞
入力部２０１は、マイク部１０１１、カメラ部１０１２、時刻計測部１０１３、距離計測部１０１４から構成される。
距離計測部１０１４は、光学距離センサーを有し、音声出力対象となるユーザと自装置間の距離を計測し、計測結果をデータ分析部２０３に出力する。

＜データ分析部の構成＞
データ分析部２０３は、ユーザデータ分析部１０３１と計測データ分析部１０３２から構成される。
計測データ分析部１０３２は、マイク部１０１１から入力される音声波形信号を分析することにより、雑音成分を検出し、検出した雑音成分の音量を算出して音声パラメータ制御部２０４に出力する。

雑音成分の検出は、例えば、実時間でフーリエ変換処理した結果の音声波形信号のパワースペクトルにおいて、音声波形信号の周波数帯域以外の信号成分のパワースペクトルを検出することにより、行ってもよいし、閾値を超える音量の音声波形信号の入力が予め設定した時間以上継続した場合に、雑音成分とみなすことにより、行ってもよい。
又、計測データ分析部１０３２は、距離計測部１０１４より入力された計測結果を音声パラメータ制御部２０４に出力する。

＜記憶部の構成＞
記憶部２０６は、ユーザＧＭＭデータ格納部１０６１、ユーザＰＭデータ格納部１０６２、音声テキスト格納部１０６３、デフォルト音声パラメータ格納部１０６４、音声パラメータ制御データ格納部２０６５から構成される。
＜音声パラメータ制御データ格納部の構成＞
音声パラメータ制御データ格納部２０６５は、ユーザ基本情報格納部１０６５１、発話特性別音声パラメータ格納部１０６５２、パラメータ制御データ格納部１０６５３から構成される。

図８は、パラメータ制御データ格納部１０６５３の構成を示す機能ブロック図である。
パラメータ制御データ格納部１０６５３は、時刻別パラメータ制御データ格納部１０６５３１、距離別パラメータ制御データ格納部１０６５３２、雑音別パラメータ制御データ格納部１０６５３３から構成される。
時刻別パラメータ制御データ格納部１０６５３１は、時刻別パラメータ制御データ特定テーブルを格納している。

ここで、「時刻別パラメータ制御データ特定テーブル」とは、時刻と「指定声質」、「Ｆ０制御量」、「音声パワー制御量」、「時間長制御量」についての各制御データとの対応関係を示すテーブルのことをいう。
図９は、時刻別パラメータ制御データ特定テーブルの具体例を示す。
距離別パラメータ制御データ格納部１０６５３２は、距離別パラメータ制御データ特定テーブルを格納している。

ここで、「距離別パラメータ制御データ特定テーブル」とは、音声出力対象となるユーザと自装置間の距離と「音声パワー制御量」、「時間長制御量」についての各制御データとの対応関係を示すテーブルのことをいう。
図１０は、距離別パラメータ制御データ特定テーブルの具体例を示す。
雑音別パラメータ制御データ格納部１０６５３３は、雑音別パラメータ制御データ特定テーブルを格納している。

ここで、「雑音別パラメータ制御データ特定テーブル」とは、雑音の音量を示す雑音レベルと「音声パワー制御量」についての制御データとの対応関係を示すテーブルのことをいう。
図１１は、雑音別パラメータ制御データ特定テーブルの具体例を示すテーブルである。
＜音声パラメータ制御処理＞
音声パラメータ制御部２０４は、実施形態１における音声パラメータ制御部１０４の行う機能に加え、以下の機能を有する。

音声パラメータ制御部２０４は、時刻計測部１０１３から入力された現在時刻に対応する制御データを時刻別パラメータ制御データ格納部１０６５３１に格納されている時刻別パラメータ制御データ特定テーブルより読出し、データ分析部１０３より入力された距離の計測結果に対応する制御データを距離別パラメータ制御データ格納部１０６５３２に格納されている距離別パラメータ制御データ特定テーブルより読出し、データ分析部１０３より入力された雑音成分の音量に対応する制御データを雑音別パラメータ制御データ格納部１０６５３３に格納されている雑音別パラメータ制御データ特定テーブルより読出し、読出した制御データの中で、同一種類の音声データに対するものが複数ある場合には、予め定められた制御データ決定ルールに従って、音声合成部１０８に出力する音声パラメータの生成に用いる制御データ（以下、「最終制御データ」という。）を決定する。

具体的には、「音量パワー制御量」に関する制御データについては、制御データの示す制御量が最大値のものを最終制御データとして決定し、「Ｆ０制御量」、「時間長制御量」に関する制御データについては、制御量が各制御データの示す制御量の平均値を示す制御データを最終制御データとして決定し、「指定声質」に関する制御データについては、制御データの指定する声質が一致する場合は、その制御データを最終制御データとして決定し、一致しない場合には、デフォルト音声パラメータ（具体的には、「標準」を指定する音声パラメータ）を指定する制御データを最終制御データとして決定する。

図１９は、上記制御データ決定ルールに従って決定された最終制御データの具体例を示す。
ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力があった場合に、音声パラメータ制御部２０４は、音声パワー変換テーブルと時間長変換テーブルとから、入力された発話パワー、発話の時間長それぞれに基づいて特定された、「音声パワー」と「時間長」に関する音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データに基づいて変更し、「Ｆ０」と「声質」に関するデフォルト音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データ（ここでの最終制御データの決定プロセスには、ユーザ基本情報特定テーブルより読出した「Ｆ０」及び「声質」に関する音声パラメータについての制御データを含めるものとする。）基づいて変更し、その他のデフォルト音声パラメータを、ユーザ基本情報格納部１０６５１より読出した、通知されたユーザＩＤに対応する、当該音声パラメータについての制御データに基づいて変更し、変更後の音声パラメータを音声合成部１０８と表示部１０７に出力する。

一方、ユーザデータ分析部１０３１より、発話パワー及び発話の時間長の入力がなかった場合に、音声パラメータ制御部２０４は、「音声パワー」、「時間長」「Ｆ０」、「声質」に関するデフォルト音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データ（ここでの最終制御データの決定プロセスには、ユーザ基本情報格納部１０６５１より読出した、通知されたユーザＩＤに対応する、「音声パワー」、「時間長」、「Ｆ０」、及び「声質」に関する音声パラメータについての制御データを含めるものとする。）基づいて変更し、その他のデフォルト音声パラメータを、ユーザ基本情報格納部１０６５１より読出した、通知されたユーザＩＤに対応する、当該音声パラメータについての制御データに基づいて変更し、変更後の音声パラメータを音声合成部１０８と表示部１０７に出力する。
＜動作＞
＜ユーザ別音声パラメータ制御処理の動作＞
次に、音声パラメータ制御部２０４の行うユーザ別音声パラメータ制御処理の動作について説明する。

図１４は、上記動作を示すフローチャートである。以下、図１４を参照して上記動作について説明する。
図１４において、図６に示す音声パラメータ制御部１０４の行う処理と同一の処理に関しては、同一のステップ番号を付している。以下、同一の処理については説明を省略し、相違する処理についてのみ説明する。

音声パラメータ制御部２０４は、ステップＳ６０８の処理の後、後述する総合音声パラメータ制御処理Ｂを行い（ステップＳ１４０１）、ステップＳ６１４の処理に移行する。
又、音声パラメータ制御部２０４は、ステップＳ６０６の判定が否定的である場合（ステップＳ６０６：ＮＯ）、後述する総合音声パラメータ制御処理Ａを行い（ステップＳ１４０２）、ステップＳ６１４の処理に移行する。
（総合音声パラメータ制御処理Ａの動作）
次に音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ａの動作について説明する。

図１５及び図１６は、上記動作を示すフローチャートである。以下、図１５及び図１６を参照して上記動作について説明する。
音声パラメータ制御部２０４は、データ分析部１０３より、音声出力対象となるユーザと自装置間の距離の計測結果を取得すると（ステップＳ１５０１）、取得した距離の計測結果に対応する制御データ（具体的には、「音声パワー制御量」に関する制御データ（以下、「Ｐ０」という。）、「時間長制御量」に関する制御データ（以下、「Ｑ０」という。））を距離別パラメータ制御データ格納部１０６５３２に格納されている距離別パラメータ制御データ特定テーブルより読出し（ステップＳ１５０２）、時刻計測部１０１３より現在時刻を取得し（ステップＳ１５０３）、取得した現在時刻に対応する制御データ（具体的には、「音声パワー制御量」に関する制御データ（以下、「Ｐ１」という。）、「時間長制御量」に関する制御データ（以下、「Ｑ１」という。）、「Ｆ０制御量」に関する制御データ（以下、「Ｒ１」という。）、「指定声質」に関する制御データ（以下、「Ｓ１」という。））を時刻別パラメータ制御データ格納部１０６５３１に格納されている時刻別パラメータ制御データ特定テーブルより読出し（ステップＳ１５０４）、データ分析部１０３より、雑音成分の音量を取得し（ステップＳ１５０５）、取得した雑音成分の音量に対応する制御データ（具体的には、「音声パワー制御量」に関する制御データ（以下、「Ｐ２」という。）を雑音別パラメータ制御データ格納部１０６５３３に格納されている雑音別パラメータ制御データ特定テーブルより読出し（ステップＳ１５０６）、Ｐ０、Ｐ１、Ｐ２、及びステップＳ６０２において、ユーザ基本情報特定テーブルから読出した「音声パワー制御量」に関する制御データ（以下、「Ｐ３」という。）間の大小比較を行い（ステップＳ１５０７）、その最大値（以下、「Ｐｍａｘ」という。）を「音声パワー制御量」に関する制御データの最終制御データとして決定し（ステップＳ１５０８）、さらに、Ｑ０、Ｑ１、Ｑ２、及びステップＳ６０２において、ユーザ基本情報特定テーブルから読出した「時間長制御量」に関する制御データ（以下、「Ｑ３」という。）間の平均値（以下、「Ｑａｖ」という。）を算出し（ステップＳ１５０９）、Ｑａｖを「時間長制御量」に関する制御データの最終制御データとして決定し（ステップＳ１５１０）、さらに、Ｒ１とステップＳ６０２において、ユーザ基本情報特定テーブルから読出した「Ｆ０制御量」に関する制御データ（以下、「Ｒ３」という。）との間の平均値（以下、「Ｒａｖ」という。）を算出し（ステップＳ１５１１）、Ｒａｖを「Ｆ０制御量」に関する制御データの最終制御データとして決定する（ステップＳ１５１２）。

次に、音声パラメータ制御部２０４は、Ｓ１が、ステップＳ６０２において、ユーザ基本情報特定テーブルから読出した「指定声質」に関する制御データ（以下、「Ｓ３」という。）と一致するか否かを判定する（ステップＳ１５１３）。
Ｓ１とＳ３が一致する場合（ステップＳ１５１３：ＹＥＳ）、Ｓ１を「指定声質」に関する最終制御データとして決定し（ステップＳ１５１４）、決定した各最終制御データに基づいて対応するデフォルト音声パラメータを変更し（ステップＳ１５１５）、他のデフォルト音声パラメータを、ステップＳ６０２において、ユーザ基本情報特定テーブルから読出した制御データに基づいて変更する（ステップＳ１５１６）。

Ｓ１とＳ３が一致しない場合（ステップＳ１５１３：ＮＯ）、デフォルト音声パラメータ（具体的には、「標準」を指定する音声パラメータ）を指定する制御データを最終制御データとして決定する（ステップＳ１５１７）。
＜総合音声パラメータ制御処理Ｂの動作＞
次に音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ｂの動作について説明する。

図１７及び図１８は、上記動作を示すフローチャートである。以下、図１７及び図１８を参照して上記動作について説明する。
図１７及び図１８において、図１５及び図１６における処理と同一内容の処理については、同一のステップ番号を付している。以下、同一の処理については説明を省略し、相違する処理についてのみ説明する。

音声パラメータ制御部２０４は、ステップＳ１５０６の処理を行った後、Ｐ０、Ｐ１、Ｐ２間の大小比較を行い（ステップＳ１６０７）、ステップＳ１５０８の処理に移行する。
音声パラメータ制御部２０４は、ステップＳ１５０８の処理を行った後、Ｑ０、Ｑ１、Ｑ２間の平均値Ｑａｖを算出し（ステップＳ１６０９）、ステップＳ１５１０の処理に移行する。

音声パラメータ制御部２０４は、ステップＳ１５１４の処理を行った後、決定した「音声パワー制御量」及び「時間長制御量」に関する最終制御データに基づいて、変更後の「音声パワー」及び「時間長」に関する音声パラメータをそれぞれ変更し（ステップＳ１６１５）、さらに、決定した「Ｆ０制御量」及び「指定声質」に関する最終制御データに基づいて、対応するデフォルト音声パラメータをそれぞれ変更し（ステップＳ１６１６）、ステップＳ１５１６の処理に移行する。
＜効果＞
図１５〜図１６におけるステップＳ１５０１、ステップＳ１５０２、ステップＳ１５０７、ステップＳ１５０８の処理を行うことにより、ユーザとの距離が離れている場合には、それに応じて合成する音声の音量を、図１０の距離別パラメータ制御データ特定テーブルの例で示すように、大きくするように制御することができるので、距離が離れている場合にも、ユーザは、不都合なく出力される音声を聞き取ることができ、ユーザとの距離があまり離れていない場合には、予めユーザ毎に設定された制御データに基づいて合成出力された、より快適に感じられる音声を聞くことができる。

又、図１５〜図１８におけるステップＳ１５０１、ステップＳ１５０２の処理を行うことにより、ユーザとの距離が離れている場合には、図１０の距離別パラメータ制御データ特定テーブルの例で示すように、話速が遅くなるように制御することができるので、ユーザは、距離が離れている場合にも不都合なく、出力される音声の内容を理解することができる。

又、図１５〜図１６におけるステップＳ１５０５、ステップＳ１５０６、ステップＳ１５０７、ステップＳ１５０８の処理を行うことにより、周囲の雑音の音量が大きい場合には、図１１の雑音別パラメータ制御データ特定テーブルの例で示すように、それに応じて合成する音声の音量を大きくするように制御することができるので、周囲の雑音が大きい場合にも、ユーザは、不都合なく出力される音声を聞き取ることができ、周囲の雑音があまり大きくない場合には、予めユーザ毎に設定された制御データに基づいて合成出力された、より快適に感じられる音声を聞くことができる。

又、図１５〜図１８におけるステップＳ１５０３、ステップＳ１５０４の処理を行うことにより、出力音声の音量、発話速度、音の高さ、声質をユーザの生活スタイルに合うように制御することができるので、ユーザの生活スタイルにきめ細かく対応した最適な音量及び音質で音声を合成出力することができる。
＜補足＞
以上、本発明に係る音声合成出力装置１００及び２００について、実施形態１及び２に基づいて説明したが、本発明はこれら実施形態に限られないことは勿論である。
（１）例えば、実施形態１においては、予めユーザ毎に定められている制御データとユーザから入力された音声の発話パワーと時間長とに基づいて定められた音声パラメータとに基づいて、音声を変更して出力することとしたが、ユーザ毎に定められている制御データのみに基づいて、音声を変更して出力することとしてもよいし、ユーザから入力された音声の発話パワーと時間長とに基づいて定められた音声パラメータのみに基づいて、音声を変更して出力することとしてもよい。

例えば、図６のユーザ別音声パラメータ制御処理の動作を示すフローチャートにおいて、ステップＳ６０７、６０８、６１４の処理のみを行うことにより、音声を変更して出力することとしてもよいし、図６において、ステップＳ６０６〜６０８の処理を行わず、ステップＳ６０９において、すべてのデフォルト音声パラメータを、ユーザ基本情報テーブルより読出した制御データに基づいて変更することとしてもよい。
（２）又、実施形態２においては、予めユーザ毎に定められている制御データとユーザから入力された音声の発話パワーと時間長と時刻、距離、雑音の計測結果に基づいて定められた制御データとに基づいて、音声を変更して出力することとしたが、時刻、距離、雑音のうちの何れか１つの計測結果のみに基づいて定められた制御データに基づいて、音声を変更して出力することとしてもよい。

例えば、図１５の総合音声パラメータ制御処理Ａの動作を示すフローチャートにおいて、ステップＳ１５０１及びステップＳ１５０２の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよいし、同様に、ステップＳ１５０３、Ｓ１５０４の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよいし、ステップＳ１５０５及びＳ１５０６の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよい。
（３）又、実施形態２においては、雑音の計測は、音量のみとしたが、雑音のパワースペクトルを分析することにより、雑音の周波数帯域を特定し、特定した周波数帯域に基づいて、出力音声における周波数帯域別指定増幅パターンを、制御データを介して制御することとしてもよい。
（４）又、実施形態１及び２においては、出力音声を合成するための音声パラメータは、音声パラメータ制御部１０４及び２０４によって制御されることとしたが、ユーザ操作部１０２からの入力により、ユーザが音声パラメータを変更するための制御データや最終制御データの決定手順を変更できることとしてもよい。
（５）又、実施形態１及び２において、ユーザ基本情報特定テーブルにおけるＦ０抑揚制御係数制御量と音声パワー変化率制御係数制御量の各制御データは、増減が互いに逆になるように対応付けて、ユーザ毎に設定しておくこととしてもよい。

又、ユーザの年齢が高齢になるに従って、Ｆ０抑揚制御係数の値が１より大きい値で年齢に応じて増大するように、これに対して音声パワー変化率制御係数の値が１より小さい値で、年齢に応じて減少するように、両者の制御データを対応付けて設定しておくこととしてもよい。
これにより、高齢者に対して、不快感を与える音素間の音量の変化の度合いが大きい音声を、その度合いを緩和した状態で出力するとともに、当該音声の高低差を、高齢者にとって聞き取りやすいようにより大きくすることができるので、高齢者に対して出力する音声を最適化できるという相乗効果が得られる。
（６）又、実施形態1及び２において、音声パラメータ制御データ格納部１０６５に格納されている各制御データは、ユーザ操作部１０２からの入力により、変更できることとしてもよい。具体的には、ユーザ操作部１０２からの指示に応じて、音声パラメータ制御部１０４が音声パラメータ制御データ格納部１０６５より、指示されたテーブル（例えば、ユーザ基本情報特定テーブル）を読出し、表示部１０７にＧＵＩ表示させ、ユーザがユーザ操作部１０２を介して、該当する制御データを変更することとしてもよい。

これにより、合成出力される音声がユーザにとって、適性な音声でない場合には、制御データを変更することにより、最適な音声になるように調節することができる。
（７）又、実施形態１及び２において、データ分析部１０３、２０３よりそれぞれ出力されるデータ（例えば、ユーザＩＤ、雑音成分の音量など）を表示部１０７に表示させ、ユーザが表示を見て、ユーザ操作部１０２を介して、切替指示を入力した場合に、データ分析部１０３が切替指示に応じてそのデータの元データの入力元を切替える（例えば、データがユーザＩＤの場合には、その元データの入力元をカメラ部１０１１からマイク部１０１２へ切替える）こととしてもよい。

これにより、周囲環境の変化に応じてデータの入力元を切替えることができるので、誤ったデータ分析結果に基づいて音声が合成出力されるのを有効に防止することができる。
（８）又、実施形態１及び２において、ユーザ基本情報特定テーブルに、テキストデータの音声内容の一部が異なる複数のテキストデータ（以下、「バリエーションテキスト」という。）のうちの１つをユーザの年齢に応じて指定するためのバリエーション番号を指定する制御データを含めることとしてもよい。

具体的には、ユーザの年齢に応じて予め作成された複数のバリエーションテキストをひとつのグループとして、インデックス格納部１０６３１に格納されているインデックステーブルにおいて、インデックス番号と当該グループとを対応付け、さらに、各バリエーションテキストの格納先アドレスとバリエーション番号との対応関係を示すバリエーション番号対応テーブルをインデックス格納部１０６３１に格納し、ユーザ基本情報特定テーブルにおいて、ユーザの年齢に応じたバリエーション番号を指定しておくことにより、ユーザIDにより特定されたユーザの年齢に応じてテキストデータの内容を一部変更して（例えば、デフォルトのテキストデータの内容が「本日のお天気についてお伝えします」であり、ユーザIDにより特定されたユーザの年齢が７歳である場合、その内容を「本日のね、お天気についてお伝えしますね」と変更して）音声出力することができる。

これにより、ユーザは、自己の年齢に合った、違和感のない内容の音声を聴くことができる。
（９）又、実施形態１及び２において、ユーザIDにより特定されたユーザのテキストデータの利用回数に応じて、（８）のバリエーションテキストを選択し、選択したバリエーションテキストに基づいて特定されたユーザに対し、音声出力することとしてもよい。

具体的には、記憶部１０６にインデックス番号とユーザIDと当該インデックス番号について当該ユーザIDが通知された回数との対応関係を示す利用状況テーブルと、通知された回数と（８）のバリエーション番号との対応関係を示すバリエーション番号指定テーブルとを予め記憶部１０６に記憶しておき、ユーザからの音声出力指示の入力がある毎に音声パラメータ制御部１０４又は２０４が、テキスト入力部１０５にインデックス番号とユーザIDを通知し、テキスト入力部１０５が、通知されたインデックス番号とユーザIDとに基づいて利用状況テーブルから通知回数を特定し、さらにバリエーション番号指定テーブルを参照して通知回数に対応するバリエーション番号を特定するとともに、利用状況テーブルにおいて、対応する通知回数を更新することとすることにより、ユーザのテキストデータの利用回数に応じてテキストデータの内容を一部変更して（例えば、利用回数の多いユーザに対しては簡略化した内容のテキストデータに変更し、利用回数の少ないユーザに対しては、簡略化されていない内容のテキストデータに変更して）音声出力することができる。

これにより、利用頻度の高いユーザは、テキストデータの主要な内容のみをより短時間で聞き取ることができる。

作成中
本実施形態１に係る音声合成出力装置１００の構成を示す機能ブロック図である。音声テキスト格納部１０６３に格納されている、インデックステーブルと、テキストデータの具体例を示す。デフォルト音声パラメータ格納部１０６４に格納されているデフォルトの音声パラメータの具体例を示す。ユーザ基本情報格納部１０６５１に格納されているユーザ基本情報特定テーブルの具体例を示す。データ分析部１０３が行うユーザＩＤ特定処理の動作を示すフローチャートである。音声パラメータ制御部１０４の行うユーザ別音声パラメータ制御処理の動作を示すフローチャートである。本実施形態２に係る音声合成出力装置２００の構成を示す機能ブロック図である。パラメータ制御データ格納部１０６５３の構成を示す機能ブロック図である。時刻別パラメータ制御データ特定テーブルの具体例を示す。距離別パラメータ制御データ特定テーブルの具体例を示す。雑音別パラメータ制御データ特定テーブルの具体例を示す。音声パワー変換テーブルの具体例を示す。時間長変換テーブルの具体例を示す。音声パラメータ制御部２０４の行うユーザ別音声パラメータ制御処理の動作を示すフローチャートである。音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ａの動作の一部を示すフローチャートである。音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ａの動作の一部を示すフローチャートである。音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ｂの動作の一部を示すフローチャートである。音声パラメータ制御部２０４の行う総合音声パラメータ制御処理Ｂの動作の一部を示すフローチャートである。最終制御データの具体例を示す。「周波数帯域別指定増幅パターン」に関する音声パラメータの具体例を示す。

符号の説明

１００、２００音声合成出力装置
１０１、２０１入力部
１０２ユーザ操作部
１０３、２０３データ分析部
１０４、２０４音声パラメータ制御部
１０５テキスト入力部
１０６、２０６記憶部
１０７表示部
１０８音声合成部
１０９スピーカ
１０１１マイク部
１０１２カメラ部
１０１３時刻計測部
１０３１ユーザデータ分析部
１０６１ユーザＧＭＭデータ格納部
１０６２ユーザＰＭデータ格納部
１０６３音声テキスト格納部
１０６４デフォルト音声パラメータ格納部
１０６５、２０６５音声パラメータ制御データ格納部
１０６５１ユーザ基本情報格納部
１０６５２発話特性別音声パラメータ格納部
１０６５３パラメータ制御データ格納部

Claims

出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置であって、
予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶手段と、
外部から対応データを特定するための特定情報の入力を受け取る入力受取手段と、
前記特定情報に基づいて対応データを特定する特定手段と、
特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更するパラメータ変更手段と、
変更後の音声パラメータに基づいて音声を合成して出力する音声出力手段と
を備えることを特徴とする音声合成出力装置。
前記特定情報は、ユーザを特定するユーザ特定情報を含み、
前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルを前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、
前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成出力装置。
前記特定情報は、ユーザの音声情報を含み、
前記記憶手段は、音声の特性値と制御データとの対応関係を示す音声特性値別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記音声情報に基づいてユーザの音声の特性値を特定し、
前記パラメータ変更手段は、前記音声特性値別制御データ対応テーブルにおいて、特定されたユーザーの音声の特性値に対応する制御データに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成出力装置。
前記特定情報は、自装置周囲の雑音情報を含み、
前記記憶手段は、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、
前記パラメータ変更手段は、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成出力装置。
前記特定情報は、ユーザと自装置との間の距離を示す距離情報を含み、
前記記憶手段は、距離と制御データとの対応関係を示す距離別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記距離情報に基づいてユーザと自装置との間の距離を特定し、
前記パラメータ変更手段は、前記距離別制御データ対応テーブルにおいて、特定された、ユーザと自装置との間の距離に対応する制御データに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成出力装置。
前記特定情報は、現在時刻を示す時刻情報を含み、
前記記憶手段は、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記時刻情報に基づいて現在時刻を特定し、
前記パラメータ変更手段は、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成出力装置。
前記特定情報は、ユーザを特定するユーザ特定情報と自装置周囲の雑音情報とを含み、
前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、
前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データとに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成装置。
前記特定情報は、ユーザを特定するユーザ特定情報とユーザと自装置との間の距離を示す距離情報とを含み、
前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、距離と制御データとの対応関係を示す距離別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記距離情報に基づいてユーザと自装置との間の距離を特定し、
前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データとに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成装置。
前記特定情報は、ユーザを特定するユーザ特定情報と現在時刻を示す時刻情報とを含み、
前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルとをそれぞれ前記制御データ対応テーブルとして記憶し、
前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記時刻情報に基づいて現在時刻を特定し、
前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データとに基づいて前記音声パラメータを変更する
ことを特徴とする請求項１記載の音声合成装置。