JP2006126548A - 音声合成出力装置 - Google Patents

音声合成出力装置 Download PDF

Info

Publication number
JP2006126548A
JP2006126548A JP2004315491A JP2004315491A JP2006126548A JP 2006126548 A JP2006126548 A JP 2006126548A JP 2004315491 A JP2004315491 A JP 2004315491A JP 2004315491 A JP2004315491 A JP 2004315491A JP 2006126548 A JP2006126548 A JP 2006126548A
Authority
JP
Japan
Prior art keywords
control data
user
voice
speech
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004315491A
Other languages
English (en)
Inventor
Masaya Hanazono
正也 花園
Takashi Nishiyama
高史 西山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP2004315491A priority Critical patent/JP2006126548A/ja
Publication of JP2006126548A publication Critical patent/JP2006126548A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】従来技術より一層ユーザフレンドリーな音声合成出力装置を提供する。
【解決手段】出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置100であって、予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶部106と、外部から対応データを特定するための特定情報の入力を受け取り、前記特定情報に基づいて対応データを特定するデータ分析部103と、特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更する音声パラメータ制御部104と、変更後の音声パラメータに基づいて音声を合成して出力する音声合成部108とを備える。
【選択図】図1

Description

本発明は、音声合成出力装置に関し、特に、ユーザに対して出力する音声を最適化するための技術に関する。
従来、住宅内で使用する健康機器や家電機器などには、音声合成出力装置を備えたものが利用されている。これらの機器では、ユーザに対し、操作方法や操作指示などが音声で知らされる。
これにより、ユーザは、機器の説明書や表示画面をいちいち見ることなく、機器の操作を容易に行うことができる。
最近では、ユーザの年齢に応じて、合成出力する音声の音量や話速を制御することができる音声合成出力装置に関する技術も提案され(特許文献1参照)、高齢者等のユーザに対しても、聞き取りやすい音声でガイドするよう工夫されている。
特開平07-28920号公報
しかしながら、出力される音声がユーザにとってどのように感じられるかは、音量や話速以外のさまざまな因子、例えば、声質や音の高さ、表現方法、ユーザの嗜好、音声が出力される周囲環境やユーザとの距離、音声が出力される時間帯などによっても左右される。
上記従来技術においては、このような種々の因子が考慮されることなく、音声が制御されているため、利用環境によっては、出力される音声がユーザに不快に感じられたり、音声が聞き取りにくく感じられたりする場合が生じ、改善の余地がある。
本発明は、かかる点に鑑み、従来技術より一層ユーザフレンドリーな音声合成出力装置を提供することを目的とする。
上記課題を解決するために、本発明は、出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置であって、予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶手段と、外部から対応データを特定するための特定情報の入力を受け取る入力受取手段と、前記特定情報に基づいて対応データを特定する特定手段と、特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更するパラメータ変更手段と、変更後の音声パラメータに基づいて音声を合成して出力する音声出力手段とを備える。
本発明は、上記構成を備えることにより、特定情報を介して対応データを外部から特定することにより、音声パラメータを変更して音声を合成出力することができるので、例えば、ユーザの周囲環境を特定する特性値やユーザ毎に制御データを対応付けて制御データ対応テーブルとして記憶しておき、外部から特定情報を介してユーザや特性値を特定することにより、ユーザの嗜好や周囲環境に応じて適切な音声を合成出力することができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報を含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルを前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データに基づいて前記音声パラメータを変更することとしてもよい。
これにより、ユーザ毎に個別に定められた制御データに基づいて音声パラメータを変更して音声を合成出力することができるので、予め当該ユーザにとって最適な音声となるように制御データを設定しておくことにより、当該ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、ユーザの音声情報を含み、前記記憶手段は、音声の特性値と制御データとの対応関係を示す音声特性値別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記音声情報に基づいてユーザの音声の特性値を特定し、前記パラメータ変更手段は、前記音声特性値別制御データ対応テーブルにおいて、特定されたユーザーの音声の特性値に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。
これにより、ユーザの音声特性に適合するように、音声パラメータを決定することができるので、ユーザに対し、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、自装置周囲の雑音情報を含み、前記記憶手段は、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、前記パラメータ変更手段は、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。
これにより、特定した自装置周囲の雑音の特性値に応じて音声パラメータを変更させることができるので、雑音の特性値毎に、当該特性値における雑音の影響が少なくなるように制御データを予め設定しておくことにより、雑音発生下においても、ユーザにとって、聞き取りやすく、快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、ユーザと自装置との間の距離を示す距離情報を含み、前記記憶手段は、距離と制御データとの対応関係を示す距離別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記距離情報に基づいてユーザと自装置との間の距離を特定し、前記パラメータ変更手段は、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。
これにより、自装置からユーザまでの距離に応じて出力音声を変更させることができるので、上記距離毎に当該距離における音声がユーザにとって最適な音声となるように制御データを予め設定しておくことにより、ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、現在時刻を示す時刻情報を含み、前記記憶手段は、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、前記特定手段は、前記時刻情報に基づいて現在時刻を特定し、前記パラメータ変更手段は、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データに基づいて前記音声パラメータを変更することとしてもよい。
これにより、時刻に応じて出力音声を変更させることができるので、ユーザの生活スタイルに合うように、出力音声を時間帯に応じて変更させることにより、ユーザにとっていつも快適に感じられる音声を合成出力させることができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報と自装置周囲の雑音情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。
これにより、ユーザー毎に定められた制御データだけでなく、周囲の雑音の影響をも考慮した上で、音声パラメータが最終決定されるので、雑音発生下においても、ユーザに対し、聞き取りやすく、快適に感じられる音声を合成出力することができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報とユーザと自装置との間の距離を示す距離情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、距離と制御データとの対応関係を示す距離別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記距離情報に基づいてユーザと自装置との間の距離を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。
これにより、ユーザ毎に定められた制御データだけでなく、距離の影響をも考慮した上で、音声パラメータが最終決定されるので、ユーザと自装置との間の距離に応じて、ユーザに対し、最適な音声を合成出力することができる。
ここで、前記特定情報は、ユーザを特定するユーザ特定情報と現在時刻を示す時刻情報とを含み、前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルとをそれぞれ前記制御データ対応テーブルとして記憶し、前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記時刻情報に基づいて現在時刻を特定し、前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記時刻別対応テーブルにおいて、特定された現在時刻に対応する制御データとに基づいて前記音声パラメータを変更することとしてもよい。
これにより、ユーザ毎に設定された制御データだけでなく、時刻を加味して出力音声を変更させることができるので、ユーザの生活スタイルに合うように、出力音声を時間帯に応じて変更させることにより、ユーザに対し、いつも快適に感じられる音声を合成出力することができる。
以下に本発明の実施形態について図面を用いて具体的に説明する。
(実施形態1)
<構成>
<全体構成>
図1は、本実施形態1に係る音声合成出力装置100の構成を示す機能ブロック図である。
音声合成出力装置100は、入力部101、ユーザ操作部102、データ分析部103、音声パラメータ制御部104、テキスト入力部105、記憶部106、表示部107、音声合成部108、スピーカ109から構成される。
<入力部の構成>
入力部101は、マイク部1011、カメラ部1012、時刻計測部1013から構成される。
マイク部1011は、外部から入力される各種音声情報(ユーザからの音声、雑音等)をA/D変換して音声波形信号を生成し、データ分析部103に出力する。
カメラ部1012は、ユーザを撮像し、撮像した画像をA/D変換して画像データを生成し、データ分析部103に出力する。
時刻計測部1013は、現在時刻を計測し、データ分析部103と音声パラメータ制御部104に出力する。
<ユーザ操作部>
ユーザ操作部102は、ユーザからの各種指示の入力を受取り、データ分析部103及び音声パラメータ制御部104に出力する。
<データ分析部の構成>
データ分析部103は、ユーザデータ分析部1031を含み、ユーザデータ分析部1031は、音声認識処理と画像処理と音声分析処理を行う。
<音声認識処理>
ユーザデータ分析部1031は、マイク部1011から入力された音声波形信号からユーザ音声の特徴量を抽出し、抽出した特徴量と後述するユーザGMMデータ格納部1061に格納されている、音声合成出力装置100の各ユーザの音声の特徴量の混合正規分布モデル(GMM:Gaussian Mixture Model)とのマッチングを行い、最も類似性の高い特徴量を示すユーザを音声出力対象のユーザとしてそのIDを特定し、音声パラメータ制御部104に通知し、類似性の高い特徴量を示すものがなくユーザのIDを特定できなかった場合には、音声パラメータ制御部104にその旨通知する。
ここで、音声認識の手法としては、音声波形信号から線形予測係数やメル周波数ケプトストラム係数やフーリエスペクトル係数などの特徴量を抽出し、これと音声辞書に記憶されている特徴量とのマッチングを行うパターンマッチング法や、隠れ(Hidden)マルコフ法を用いた音声認識法などの周知の手法を用いることができる。
<画像認識処理>
ユーザデータ分析部1031は、カメラ部1012より入力されたユーザの撮像画像の画像データと後述するユーザPM(Pattern Matching)データ格納部1062に格納されている各ユーザの撮像画像の画像データとのマッチングを行い、最も類似性の高いものを音声出力対象のユーザとしてそのIDを特定し、音声パラメータ制御部104に通知し、類似性の高い特徴量を示すものがなく、ユーザのIDを特定できなかった場合には、音声パラメータ制御部104にその旨通知する。
又、ユーザデータ分析部1031は、各ユーザのIDと当該ユーザの不在時間帯との対応関係示す不在者特定テーブルを記憶し、時刻計測部1013より入力された現在時刻に基づいて、当該時刻に不在のユーザのIDを特定し、特定したユーザについては、上記各マッチングの対象から除外する。
<音声分析処理>
ユーザデータ分析部1031は、マイク部1011より入力されたユーザ音声の音声波形信号を分析し、入力されたユーザ音声の音量(以下、「発話パワー」という。)、発話の時間長(話速)を算出して、算出した発話パワー及び発話の時間長をそれぞれ音声パラメータ制御部104に出力する。
<記憶部の構成>
記憶部106は、ユーザGMMデータ格納部1061、ユーザPMデータ格納部1062、音声テキスト格納部1063、デフォルト音声パラメータ格納部1064、音声パラメータ制御データ格納部1065から構成される。
(ユーザデータ格納部の構成)
ユーザGMMデータ格納部1061は、音声合成出力装置100のユーザである複数のユーザの音声の特徴量(例えば、メル周波数ケプトストラム係数やフーリエスペクトル係数など)のGMMと各ユーザのIDとを対応付けて格納している。
ユーザPMデータ格納部1062は、音声合成出力装置100の複数のユーザの撮像画像データと各ユーザのIDとを対応付けて格納している。
音声テキスト格納部1063は、インデックス格納部10631とテキスト格納部10632から構成される。
<音声データ格納部の構成>
インデックス格納部10631は、テキスト格納部10632に格納されている、合成出力する音声の内容を示す複数のテキストデータのアドレスを特定するための、インデックス番号と各テキストデータの格納先アドレスとの対応関係を示すインデックステーブルを格納している。
テキスト格納部10632は、複数のテキストデータを格納している。
図2は、音声テキスト格納部1063に格納されている、インデックステーブルと、テキストデータの具体例を示す。
デフォルト音声パラメータ格納部1064は、テキストデータを構成する文字単位である音素毎に予め定められている、デフォルトの音声パラメータを格納している。
図3は、デフォルト音声パラメータ格納部1064に格納されているデフォルトの音声パラメータの具体例を示す。
図3において、「音声パワー」は、音素の平均音量を特定する音声パラメータを示し、「F0」は、音素の平均基本周波数を特定する音声パラメータを示し、「周波数帯域別指定増幅パターン」は、周波数帯域別の音声パワーの増減量を示す音声パラメータを示す(図20に具体例を示す。)。
図20において、各音声パラメータは、「増幅パターン」の番号によって示され、図20に示す各周波数帯域毎の音量の増減量を特定している。
又、「時間長」は、音素を音声出力する時間の長さを示す音声パラメータを示し、「指定声質」は、予め音声合成部108に記録されている、声質の異なる複数の話者の音声波形の中から音声として出力すべき音声波形を特定する音声パラメータを示す。
又、「F0抑揚制御係数」は、一息で発声することが可能な音声区間(例えば、句読点で区切られる区間)において、当該音声区間に含まれる音素間の音声の高低差の程度を示す抑揚を制御するための係数値を指定する音声パラメータを示し、「音声パワー変化率制御係数」は、上記音声区間において、当該音声区間に含まれる音素間の音声の平均音量の変化の程度を表す音声パワー変化率を制御するための係数値を指定する音声パラメータを示す。
抑揚の制御は、以下に示す数式1(数1)に従って、上記音声区間に含まれる音素毎に、F0をデフォルト値より増減変更させることにより、行われる。
[数1] F=Fav − p(Fav − Fd)
数式1において、Fは、変更後のF0を表し、Favは、上記音声区間に含まれる各音素のF0のデフォルト値の平均値を表し、Fdは、各音素のF0のデフォルト値を表し、pは、F0抑揚制御係数を表す。
同様に音声パワー変化率の制御も、上記に示す数式1(数1)に従って、上記音声区間に含まれる音素毎に、音声パワーをデフォルト値より増減変更させることにより、行われる。
この場合、数式1において、Fは、変更後の音声パワーを表し、Favは、上記音声区間に含まれる各音素の音声パワーのデフォルト値の平均値を表し、Fdは、各音素の音声パワーのデフォルト値を表し、pは、音声パワー変化率制御係数を表す。
上記数式1(数1)より、以下の数式2(数2)を導くことができる。
[数2] p=(Fav − F)/(Fav − Fd)
上記数式より、p>1の場合には、平均値との差は、デフォルト値の場合の方が小さく、p<1の場合には、平均値との差は、変更後の方が小さくなり、p=1の場合には、Fはデフォルト値と等しくなるため、平均値との差は、いずれの場合も等しくなる。
このように、p値を制御することにより、抑揚及び音声パワー変化率を制御することが可能となる。
<パラメータ制御データ格納部の構成>
音声パラメータ制御データ格納部1065は、ユーザ基本情報格納部10651と発話特性別音声パラメータ格納部10652とから構成される。
ユーザ基本情報格納部10651は、デフォルトの音声パラメータを変更する制御データと各ユーザのIDとの対応関係を示すユーザ基本情報特定テーブルを格納している。
図4は、ユーザ基本情報格納部10651に格納されているユーザ基本情報特定テーブルの具体例を示す。
図4において、「音声パワー制御量」は、「音声パワー」の音声パラメータを変更する制御データを示し、「F0制御量」は、「F0」の音声パラメータを変更する制御データを示す。
「周波数帯域別指定増幅パターン」は、「周波数帯域別指定増幅パターン」の音声パラメータを変更する制御データを示す。
具体的には、図20の「増幅パターン」の番号によって変更後の音声パラメータを指定する制御データを示す。
又、「時間長制御量」は、「時間長」の音声パラメータを変更する制御データを示し、「音声テキスト指定インデックス番号」は、インデックス番号を指定するデフォルトの音声パラメータを変更する制御データを示し、「指定音質」は、「指定音質」の音声パラメータを変更する制御データを示し、「F0抑揚制御係数制御量」は、「F0抑揚制御係数」の音声パラメータを変更する制御データを示し、「音声パワー変化率制御係数制御量」は、「音声パワー変化率制御係数」の音声パラメータを変更する制御データを示す。
発話特性別音声パラメータ格納部10652は、音声パワー変換テーブルと時間長変換テーブルとを格納している。
ここで、「音声パワー変換テーブル」とは、発話パワーと指定音声パワーとの対応関係を示すテーブルのことをいう。
「指定音声パワー」とは、「音声パワー」のデフォルト音声パラメータを変更するための音声パラメータのことをいう。
又、「時間長変換テーブル」とは、発話の時間長と指定時間長との対応関係を示すテーブルのことをいう。
「指定時間長」とは、「時間長」の音声パラメータを変更するための音声パラメータのことをいう。
図12は、音声パワー変換テーブルの具体例を示し、図13は、時間長変換テーブルの具体例を示す。
<テキスト入力部>
テキスト入力部105は、音声パラメータ制御部104から通知されたインデックス番号のテキストデータを音声テキスト格納部1063から読出し、音声パラメータ制御部104に出力する。
<音声パラメータ制御処理>
音声パラメータ制御部104は、ユーザデータ分析部1031より、ユーザIDの通知があった場合、ユーザ基本情報格納部10651に格納されているユーザ基本情報特定テーブルより、通知されたユーザIDに対応する制御データを読出し、読出した「音声テキスト指定インデックス番号」の制御データに基づいて、インデックス番号を特定し、特定したインデックス番号をテキスト入力部105に通知する。
次に、テキスト入力部105より、テキストデータの入力があると、音声パラメータ制御部104は、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部1064より読出す。
ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力があった場合には、音声パラメータ制御部104は、発話特性別音声パラメータ格納部10652に格納されている音声パワー変換テーブルと時間長変換テーブルとを参照して、入力された発話パワー、発話の時間長それぞれに対応する音声パラメータを特定し、デフォルト音声パラメータの内、該当する音声パラメータを、特定した音声パラメータにそれぞれ変更し、その他のデフォルト音声パラメータを、ユーザ基本情報特定テーブルより読出した制御データに基づいて変更し、変更後の音声パラメータを音声合成部108と表示部107に出力する。
一方、ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力がなかった場合には、音声パラメータ制御部104は、ユーザ基本情報特定テーブルより読出した制御データに基づいてデフォルト音声パラメータを変更し、変更後の音声パラメータを音声合成部108と表示部107に出力する。
又、音声パラメータ制御部104は、ユーザデータ分析部1031より、ユーザIDが特定できなかった旨の通知があった場合、予め設定されているデフォルトの音声パラメータに基づいて、インデックス番号を特定し、特定したインデックス番号をテキスト入力部105に通知し、テキスト入力部105より、当該インデックス番号に対応するテキストデータの入力があると、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部1064より読出し、そのまま音声合成部108と表示部107に出力する。
表示部107は、音声パラメータ制御部104より入力された変更後の音声パラメータに基づいて、音声パラメータを示す表示画像を生成して表示する。
音声合成部108は、音声パラメータ制御部104より入力された変更後の音声パラメータに基づいて、合成音声波形信号を生成し、スピーカ109を介して音声に変換して出力する。
<動作>
<ユーザID特定処理の動作>
次に、データ分析部103が、音声認識処理及び画像認識処理を介して行うユーザID特定処理の動作について説明する。
図5は、上記動作を示すフローチャートである。以下、図5を参照して上記動作について説明する。
データ分析部103は、ユーザ操作部102を介して、ユーザからの音声出力指示の入力を受け取ると(ステップS501)、時刻計測部1013より現在時刻を取得し(ステップS502)、不在者特定テーブルを参照し、取得した現在時刻が含まれる時間帯において、不在のユーザのIDを特定することにより、不在者を特定し(ステップS503)、音声出力指示の入力があった時から所定時間内にユーザからの音声がマイク部1011から入力されたか否かを判定する(ステップS504)。
ステップS504において、ユーザからの音声がマイク部1011から入力された場合(ステップS504:YES)、データ分析部103は、マイク部1011から入力された音声波形信号からユーザ音声の特徴量を抽出し(ステップS505)、抽出した特徴量とユーザGMMデータ格納部1061に格納されている、特定した不在者を除く各ユーザの音声の特徴量の混合正規分布モデル(GMM:Gaussian Mixture Model)とのマッチングを行い(ステップS506)、特徴量の類似度に基づく音声入力元ユーザのIDの特定を試み(ステップS507)、ユーザIDの特定ができた場合には(ステップS511:YES)、特定したユーザIDを音声パラメータ制御部104に通知し(ステップS512)、ユーザIDが特定できなかった場合には(ステップS511:NO)、その旨を音声パラメータ制御部104に通知する(ステップS513)。
ステップS504において、ユーザからの音声がマイク部1011から入力されなかった場合(ステップS504:NO)、データ分析部103は、カメラ部1012よりユーザの撮像画像の画像データを取得し(ステップS508)、取得した撮像画像の画像データとユーザPM(Pattern Matching)データ格納部1062に格納されている、特定した不在者を除く各ユーザの撮像画像の画像データとのマッチングを行い(ステップS509)、画像データの類似度に基づくユーザのIDの特定を試み(ステップS510)、ステップS511〜ステップS513の処理を行う。
<ユーザ別音声パラメータ制御処理の動作>
次に、音声パラメータ制御部104の行うユーザ別音声パラメータ制御処理の動作について説明する。
図6は、上記動作を示すフローチャートである。以下、図6を参照して上記動作について説明する。
音声パラメータ制御部104は、データ分析部103より、ユーザIDの通知があった場合(ステップS601:YES)、ユーザ基本情報格納部10651に格納されているユーザ基本情報特定テーブルより、通知されたユーザIDに対応する制御データを読出し(ステップS602)、読出した「音声テキスト指定インデックス番号」の制御データよりインデックス番号を取得し(ステップS603)、インデックス番号をテキスト入力部105に通知し、テキスト入力部105より、通知したインデックス番号に対応するテキストデータを取得し(ステップS604)、取得したテキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部1064より読出し(ステップS605)、ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力があった場合には(ステップS606:YES)、音声パラメータ制御部104は、発話特性別音声パラメータ格納部10652に格納されている音声パワー変換テーブルと時間長変換テーブルとを参照して、入力された発話パワー、発話の時間長それぞれに対応する音声パラメータを特定し(ステップS607)、デフォルト音声パラメータの内、該当する音声パラメータを、特定した音声パラメータにそれぞれ変更し(ステップS608)、その他のデフォルト音声パラメータを、ユーザ基本情報特定テーブルより読出した制御データに基づいて変更し(ステップS609)、変更後の音声パラメータを音声合成部108と表示部107に出力する(ステップS614)。
ステップS606において、ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力がなかった場合には(ステップS606:NO)、音声パラメータ制御部104は、ステップS602において、ユーザ基本情報格納部10651に格納されているユーザ基本情報特定テーブルより、読出した制御データに基づいてデフォルト音声パラメータを変更し(ステップS610)、ステップS614の処理に移行する。
音声パラメータ制御部104は、データ分析部103より、ユーザIDの通知がなかった場合(ユーザIDが特定できなかった旨の通知があった場合)(ステップS601:NO)、予め設定されているデフォルトの音声パラメータに基づいて、インデックス番号を特定し(ステップS611)、特定したインデックス番号をテキスト入力部105に通知し、テキスト入力部105より、当該インデックス番号に対応するテキストデータを取得し(ステップS612)、テキストデータを構成する音素の各デフォルト音声パラメータをデフォルト音声パラメータ格納部1064より読出し、そのまま音声合成部108と表示部107に出力する(ステップS613)。
<効果>
上記ステップS601〜ステップS604の処理を行うことにより、ユーザ毎に合成出力する音声の内容を変更することができるので、各ユーザの年齢、国籍、出身地に応じて音声の内容を変えて音声を合成出力することができる。
例えば、家族の中に外国人がいるような場合には、当該外国人に対しては、外国語で音声を出力し、他のユーザに対しては、日本語で音声を出力することができる。
又、ステップS606〜ステップS608の処理を行うことにより、以下の効果が得られる。
(1)ユーザの発話の音量に応じた音量で音声が合成出力されるように制御することができるので、ユーザの発話の音量とかけはなれた音量で音声が合成出力されることにより、ユーザに不快感を生じさせることなく、適正な音量で音声を合成出力することができる。
(2)ユーザの発話の速度に応じた速度で音声が合成出力されるように制御することができるので、ユーザの発話の速度より極端に早い、或いは、遅い速度で音声が合成出力されることにより、ユーザに不快感を生じさせることなく、快適な速度で音声を合成出力することができる。
又、ステップS609の処理を行うことにより、図4のユーザ基本情報特定テーブルに例を示すように、予め各ユーザにとって最適な音質となるように制御データを設定しておくことにより、当該ユーザに対し、最適な音質で音声を合成出力することができる。
具体的には、音の高さ、一息で発声することが可能な音声区画ごとの声の高低差や強弱の差、声質、周波数帯域毎の音量を、ユーザの年齢や嗜好に合うように制御データを設定しておくことにより、ユーザ固有の特性にきめ細かく対応した最適な音声をユーザ毎に合成出力することができる。

(実施形態2)
実施形態1の音声合成出力装置100は、ユーザに起因する固有の制御データや情報に基づいて、デフォルトの音声パラメータを変更してユーザ毎に合成出力する音声を制御することを特徴としているが、実施形態2の音声合成出力装置200は、上記制御データや情報に加え、ユーザが感じる音声の性質に影響を及ぼす外的因子の計測値をも考慮して合成出力する音声を制御することを特徴としている。
以下、実施形態1の音声合成出力装置100との相違点を中心にして、実施形態2の音声合成出力装置200について説明する。
<構成>
<全体構成>
図7は、本実施形態2に係る音声合成出力装置200の構成を示す機能ブロック図である。
音声合成出力装置200は、入力部201、ユーザ操作部102、データ分析部203、音声パラメータ制御部204、テキスト入力部105、記憶部206、表示部107、音声合成部108、スピーカ109から構成される。
図7の機能ブロック図において、実施形態1の音声合成出力装置100と同一の構成要素については、同一の番号を付与している。以下、音声合成出力装置100と相違する音声合成出力装置200の構成要素について説明し、同一の構成要素については、実施形態1において、説明済みであるので説明を省略する。
<入力部の構成>
入力部201は、マイク部1011、カメラ部1012、時刻計測部1013、距離計測部1014から構成される。
距離計測部1014は、光学距離センサーを有し、音声出力対象となるユーザと自装置間の距離を計測し、計測結果をデータ分析部203に出力する。
<データ分析部の構成>
データ分析部203は、ユーザデータ分析部1031と計測データ分析部1032から構成される。
計測データ分析部1032は、マイク部1011から入力される音声波形信号を分析することにより、雑音成分を検出し、検出した雑音成分の音量を算出して音声パラメータ制御部204に出力する。
雑音成分の検出は、例えば、実時間でフーリエ変換処理した結果の音声波形信号のパワースペクトルにおいて、音声波形信号の周波数帯域以外の信号成分のパワースペクトルを検出することにより、行ってもよいし、閾値を超える音量の音声波形信号の入力が予め設定した時間以上継続した場合に、雑音成分とみなすことにより、行ってもよい。
又、計測データ分析部1032は、距離計測部1014より入力された計測結果を音声パラメータ制御部204に出力する。
<記憶部の構成>
記憶部206は、ユーザGMMデータ格納部1061、ユーザPMデータ格納部1062、音声テキスト格納部1063、デフォルト音声パラメータ格納部1064、音声パラメータ制御データ格納部2065から構成される。
<音声パラメータ制御データ格納部の構成>
音声パラメータ制御データ格納部2065は、ユーザ基本情報格納部10651、発話特性別音声パラメータ格納部10652、パラメータ制御データ格納部10653から構成される。
図8は、パラメータ制御データ格納部10653の構成を示す機能ブロック図である。
パラメータ制御データ格納部10653は、時刻別パラメータ制御データ格納部106531、距離別パラメータ制御データ格納部106532、雑音別パラメータ制御データ格納部106533から構成される。
時刻別パラメータ制御データ格納部106531は、時刻別パラメータ制御データ特定テーブルを格納している。
ここで、「時刻別パラメータ制御データ特定テーブル」とは、時刻と「指定声質」、「F0制御量」、「音声パワー制御量」、「時間長制御量」についての各制御データとの対応関係を示すテーブルのことをいう。
図9は、時刻別パラメータ制御データ特定テーブルの具体例を示す。
距離別パラメータ制御データ格納部106532は、距離別パラメータ制御データ特定テーブルを格納している。
ここで、「距離別パラメータ制御データ特定テーブル」とは、音声出力対象となるユーザと自装置間の距離と「音声パワー制御量」、「時間長制御量」についての各制御データとの対応関係を示すテーブルのことをいう。
図10は、距離別パラメータ制御データ特定テーブルの具体例を示す。
雑音別パラメータ制御データ格納部106533は、雑音別パラメータ制御データ特定テーブルを格納している。
ここで、「雑音別パラメータ制御データ特定テーブル」とは、雑音の音量を示す雑音レベルと「音声パワー制御量」についての制御データとの対応関係を示すテーブルのことをいう。
図11は、雑音別パラメータ制御データ特定テーブルの具体例を示すテーブルである。
<音声パラメータ制御処理>
音声パラメータ制御部204は、実施形態1における音声パラメータ制御部104の行う機能に加え、以下の機能を有する。
音声パラメータ制御部204は、時刻計測部1013から入力された現在時刻に対応する制御データを時刻別パラメータ制御データ格納部106531に格納されている時刻別パラメータ制御データ特定テーブルより読出し、データ分析部103より入力された距離の計測結果に対応する制御データを距離別パラメータ制御データ格納部106532に格納されている距離別パラメータ制御データ特定テーブルより読出し、データ分析部103より入力された雑音成分の音量に対応する制御データを雑音別パラメータ制御データ格納部106533に格納されている雑音別パラメータ制御データ特定テーブルより読出し、読出した制御データの中で、同一種類の音声データに対するものが複数ある場合には、予め定められた制御データ決定ルールに従って、音声合成部108に出力する音声パラメータの生成に用いる制御データ(以下、「最終制御データ」という。)を決定する。
具体的には、「音量パワー制御量」に関する制御データについては、制御データの示す制御量が最大値のものを最終制御データとして決定し、「F0制御量」、「時間長制御量」に関する制御データについては、制御量が各制御データの示す制御量の平均値を示す制御データを最終制御データとして決定し、「指定声質」に関する制御データについては、制御データの指定する声質が一致する場合は、その制御データを最終制御データとして決定し、一致しない場合には、デフォルト音声パラメータ(具体的には、「標準」を指定する音声パラメータ)を指定する制御データを最終制御データとして決定する。
図19は、上記制御データ決定ルールに従って決定された最終制御データの具体例を示す。
ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力があった場合に、音声パラメータ制御部204は、音声パワー変換テーブルと時間長変換テーブルとから、入力された発話パワー、発話の時間長それぞれに基づいて特定された、「音声パワー」と「時間長」に関する音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データに基づいて変更し、「F0」と「声質」に関するデフォルト音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データ(ここでの最終制御データの決定プロセスには、ユーザ基本情報特定テーブルより読出した「F0」及び「声質」に関する音声パラメータについての制御データを含めるものとする。)基づいて変更し、その他のデフォルト音声パラメータを、ユーザ基本情報格納部10651より読出した、通知されたユーザIDに対応する、当該音声パラメータについての制御データに基づいて変更し、変更後の音声パラメータを音声合成部108と表示部107に出力する。
一方、ユーザデータ分析部1031より、発話パワー及び発話の時間長の入力がなかった場合に、音声パラメータ制御部204は、「音声パワー」、「時間長」「F0」、「声質」に関するデフォルト音声パラメータを、上記制御データ決定ルールに従って決定された、当該音声パラメータについての最終制御データ(ここでの最終制御データの決定プロセスには、ユーザ基本情報格納部10651より読出した、通知されたユーザIDに対応する、「音声パワー」、「時間長」、「F0」、及び「声質」に関する音声パラメータについての制御データを含めるものとする。)基づいて変更し、その他のデフォルト音声パラメータを、ユーザ基本情報格納部10651より読出した、通知されたユーザIDに対応する、当該音声パラメータについての制御データに基づいて変更し、変更後の音声パラメータを音声合成部108と表示部107に出力する。
<動作>
<ユーザ別音声パラメータ制御処理の動作>
次に、音声パラメータ制御部204の行うユーザ別音声パラメータ制御処理の動作について説明する。
図14は、上記動作を示すフローチャートである。以下、図14を参照して上記動作について説明する。
図14において、図6に示す音声パラメータ制御部104の行う処理と同一の処理に関しては、同一のステップ番号を付している。以下、同一の処理については説明を省略し、相違する処理についてのみ説明する。
音声パラメータ制御部204は、ステップS608の処理の後、後述する総合音声パラメータ制御処理Bを行い(ステップS1401)、ステップS614の処理に移行する。
又、音声パラメータ制御部204は、ステップS606の判定が否定的である場合(ステップS606:NO)、後述する総合音声パラメータ制御処理Aを行い(ステップS1402)、ステップS614の処理に移行する。
(総合音声パラメータ制御処理Aの動作)
次に音声パラメータ制御部204の行う総合音声パラメータ制御処理Aの動作について説明する。
図15及び図16は、上記動作を示すフローチャートである。以下、図15及び図16を参照して上記動作について説明する。
音声パラメータ制御部204は、データ分析部103より、音声出力対象となるユーザと自装置間の距離の計測結果を取得すると(ステップS1501)、取得した距離の計測結果に対応する制御データ(具体的には、「音声パワー制御量」に関する制御データ(以下、「P0」という。)、「時間長制御量」に関する制御データ(以下、「Q0」という。))を距離別パラメータ制御データ格納部106532に格納されている距離別パラメータ制御データ特定テーブルより読出し(ステップS1502)、時刻計測部1013より現在時刻を取得し(ステップS1503)、取得した現在時刻に対応する制御データ(具体的には、「音声パワー制御量」に関する制御データ(以下、「P1」という。)、「時間長制御量」に関する制御データ(以下、「Q1」という。)、「F0制御量」に関する制御データ(以下、「R1」という。)、「指定声質」に関する制御データ(以下、「S1」という。))を時刻別パラメータ制御データ格納部106531に格納されている時刻別パラメータ制御データ特定テーブルより読出し(ステップS1504)、データ分析部103より、雑音成分の音量を取得し(ステップS1505)、取得した雑音成分の音量に対応する制御データ(具体的には、「音声パワー制御量」に関する制御データ(以下、「P2」という。)を雑音別パラメータ制御データ格納部106533に格納されている雑音別パラメータ制御データ特定テーブルより読出し(ステップS1506)、P0、P1、P2、及びステップS602において、ユーザ基本情報特定テーブルから読出した「音声パワー制御量」に関する制御データ(以下、「P3」という。)間の大小比較を行い(ステップS1507)、その最大値(以下、「Pmax」という。)を「音声パワー制御量」に関する制御データの最終制御データとして決定し(ステップS1508)、さらに、Q0、Q1、Q2、及びステップS602において、ユーザ基本情報特定テーブルから読出した「時間長制御量」に関する制御データ(以下、「Q3」という。)間の平均値(以下、「Qav」という。)を算出し(ステップS1509)、Qavを「時間長制御量」に関する制御データの最終制御データとして決定し(ステップS1510)、さらに、R1とステップS602において、ユーザ基本情報特定テーブルから読出した「F0制御量」に関する制御データ(以下、「R3」という。)との間の平均値(以下、「Rav」という。)を算出し(ステップS1511)、Ravを「F0制御量」に関する制御データの最終制御データとして決定する(ステップS1512)。
次に、音声パラメータ制御部204は、S1が、ステップS602において、ユーザ基本情報特定テーブルから読出した「指定声質」に関する制御データ(以下、「S3」という。)と一致するか否かを判定する(ステップS1513)。
S1とS3が一致する場合(ステップS1513:YES)、S1を「指定声質」に関する最終制御データとして決定し(ステップS1514)、決定した各最終制御データに基づいて対応するデフォルト音声パラメータを変更し(ステップS1515)、他のデフォルト音声パラメータを、ステップS602において、ユーザ基本情報特定テーブルから読出した制御データに基づいて変更する(ステップS1516)。
S1とS3が一致しない場合(ステップS1513:NO)、デフォルト音声パラメータ(具体的には、「標準」を指定する音声パラメータ)を指定する制御データを最終制御データとして決定する(ステップS1517)。
<総合音声パラメータ制御処理Bの動作>
次に音声パラメータ制御部204の行う総合音声パラメータ制御処理Bの動作について説明する。
図17及び図18は、上記動作を示すフローチャートである。以下、図17及び図18を参照して上記動作について説明する。
図17及び図18において、図15及び図16における処理と同一内容の処理については、同一のステップ番号を付している。以下、同一の処理については説明を省略し、相違する処理についてのみ説明する。
音声パラメータ制御部204は、ステップS1506の処理を行った後、P0、P1、P2間の大小比較を行い(ステップS1607)、ステップS1508の処理に移行する。
音声パラメータ制御部204は、ステップS1508の処理を行った後、Q0、Q1、Q2間の平均値Qavを算出し(ステップS1609)、ステップS1510の処理に移行する。
音声パラメータ制御部204は、ステップS1514の処理を行った後、決定した「音声パワー制御量」及び「時間長制御量」に関する最終制御データに基づいて、変更後の「音声パワー」及び「時間長」に関する音声パラメータをそれぞれ変更し(ステップS1615)、さらに、決定した「F0制御量」及び「指定声質」に関する最終制御データに基づいて、対応するデフォルト音声パラメータをそれぞれ変更し(ステップS1616)、ステップS1516の処理に移行する。
<効果>
図15〜図16におけるステップS1501、ステップS1502、ステップS1507、ステップS1508の処理を行うことにより、ユーザとの距離が離れている場合には、それに応じて合成する音声の音量を、図10の距離別パラメータ制御データ特定テーブルの例で示すように、大きくするように制御することができるので、距離が離れている場合にも、ユーザは、不都合なく出力される音声を聞き取ることができ、ユーザとの距離があまり離れていない場合には、予めユーザ毎に設定された制御データに基づいて合成出力された、より快適に感じられる音声を聞くことができる。
又、図15〜図18におけるステップS1501、ステップS1502の処理を行うことにより、ユーザとの距離が離れている場合には、図10の距離別パラメータ制御データ特定テーブルの例で示すように、話速が遅くなるように制御することができるので、ユーザは、距離が離れている場合にも不都合なく、出力される音声の内容を理解することができる。
又、図15〜図16におけるステップS1505、ステップS1506、ステップS1507、ステップS1508の処理を行うことにより、周囲の雑音の音量が大きい場合には、図11の雑音別パラメータ制御データ特定テーブルの例で示すように、それに応じて合成する音声の音量を大きくするように制御することができるので、周囲の雑音が大きい場合にも、ユーザは、不都合なく出力される音声を聞き取ることができ、周囲の雑音があまり大きくない場合には、予めユーザ毎に設定された制御データに基づいて合成出力された、より快適に感じられる音声を聞くことができる。
又、図15〜図18におけるステップS1503、ステップS1504の処理を行うことにより、出力音声の音量、発話速度、音の高さ、声質をユーザの生活スタイルに合うように制御することができるので、ユーザの生活スタイルにきめ細かく対応した最適な音量及び音質で音声を合成出力することができる。
<補足>
以上、本発明に係る音声合成出力装置100及び200について、実施形態1及び2に基づいて説明したが、本発明はこれら実施形態に限られないことは勿論である。
(1)例えば、実施形態1においては、予めユーザ毎に定められている制御データとユーザから入力された音声の発話パワーと時間長とに基づいて定められた音声パラメータとに基づいて、音声を変更して出力することとしたが、ユーザ毎に定められている制御データのみに基づいて、音声を変更して出力することとしてもよいし、ユーザから入力された音声の発話パワーと時間長とに基づいて定められた音声パラメータのみに基づいて、音声を変更して出力することとしてもよい。
例えば、図6のユーザ別音声パラメータ制御処理の動作を示すフローチャートにおいて、ステップS607、608、614の処理のみを行うことにより、音声を変更して出力することとしてもよいし、図6において、ステップS606〜608の処理を行わず、ステップS609において、すべてのデフォルト音声パラメータを、ユーザ基本情報テーブルより読出した制御データに基づいて変更することとしてもよい。
(2)又、実施形態2においては、予めユーザ毎に定められている制御データとユーザから入力された音声の発話パワーと時間長と時刻、距離、雑音の計測結果に基づいて定められた制御データとに基づいて、音声を変更して出力することとしたが、時刻、距離、雑音のうちの何れか1つの計測結果のみに基づいて定められた制御データに基づいて、音声を変更して出力することとしてもよい。
例えば、図15の総合音声パラメータ制御処理Aの動作を示すフローチャートにおいて、ステップS1501及びステップS1502の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよいし、同様に、ステップS1503、S1504の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよいし、ステップS1505及びS1506の処理によって読出した制御データを最終制御データとして決定し、決定した最終制御データに基づいて、音声を変更して出力することとしてもよい。
(3)又、実施形態2においては、雑音の計測は、音量のみとしたが、雑音のパワースペクトルを分析することにより、雑音の周波数帯域を特定し、特定した周波数帯域に基づいて、出力音声における周波数帯域別指定増幅パターンを、制御データを介して制御することとしてもよい。
(4)又、実施形態1及び2においては、出力音声を合成するための音声パラメータは、音声パラメータ制御部104及び204によって制御されることとしたが、ユーザ操作部102からの入力により、ユーザが音声パラメータを変更するための制御データや最終制御データの決定手順を変更できることとしてもよい。
(5)又、実施形態1及び2において、ユーザ基本情報特定テーブルにおけるF0抑揚制御係数制御量と音声パワー変化率制御係数制御量の各制御データは、増減が互いに逆になるように対応付けて、ユーザ毎に設定しておくこととしてもよい。
又、ユーザの年齢が高齢になるに従って、F0抑揚制御係数の値が1より大きい値で年齢に応じて増大するように、これに対して音声パワー変化率制御係数の値が1より小さい値で、年齢に応じて減少するように、両者の制御データを対応付けて設定しておくこととしてもよい。
これにより、高齢者に対して、不快感を与える音素間の音量の変化の度合いが大きい音声を、その度合いを緩和した状態で出力するとともに、当該音声の高低差を、高齢者にとって聞き取りやすいようにより大きくすることができるので、高齢者に対して出力する音声を最適化できるという相乗効果が得られる。
(6)又、実施形態1及び2において、音声パラメータ制御データ格納部1065に格納されている各制御データは、ユーザ操作部102からの入力により、変更できることとしてもよい。具体的には、ユーザ操作部102からの指示に応じて、音声パラメータ制御部104が音声パラメータ制御データ格納部1065より、指示されたテーブル(例えば、ユーザ基本情報特定テーブル)を読出し、表示部107にGUI表示させ、ユーザがユーザ操作部102を介して、該当する制御データを変更することとしてもよい。
これにより、合成出力される音声がユーザにとって、適性な音声でない場合には、制御データを変更することにより、最適な音声になるように調節することができる。
(7)又、実施形態1及び2において、データ分析部103、203よりそれぞれ出力されるデータ(例えば、ユーザID、雑音成分の音量など)を表示部107に表示させ、ユーザが表示を見て、ユーザ操作部102を介して、切替指示を入力した場合に、データ分析部103が切替指示に応じてそのデータの元データの入力元を切替える(例えば、データがユーザIDの場合には、その元データの入力元をカメラ部1011からマイク部1012へ切替える)こととしてもよい。
これにより、周囲環境の変化に応じてデータの入力元を切替えることができるので、誤ったデータ分析結果に基づいて音声が合成出力されるのを有効に防止することができる。
(8)又、実施形態1及び2において、ユーザ基本情報特定テーブルに、テキストデータの音声内容の一部が異なる複数のテキストデータ(以下、「バリエーションテキスト」という。)のうちの1つをユーザの年齢に応じて指定するためのバリエーション番号を指定する制御データを含めることとしてもよい。
具体的には、ユーザの年齢に応じて予め作成された複数のバリエーションテキストをひとつのグループとして、インデックス格納部10631に格納されているインデックステーブルにおいて、インデックス番号と当該グループとを対応付け、さらに、各バリエーションテキストの格納先アドレスとバリエーション番号との対応関係を示すバリエーション番号対応テーブルをインデックス格納部10631に格納し、ユーザ基本情報特定テーブルにおいて、ユーザの年齢に応じたバリエーション番号を指定しておくことにより、ユーザIDにより特定されたユーザの年齢に応じてテキストデータの内容を一部変更して(例えば、デフォルトのテキストデータの内容が「本日のお天気についてお伝えします」であり、ユーザIDにより特定されたユーザの年齢が7歳である場合、その内容を「本日のね、お天気についてお伝えしますね」と変更して)音声出力することができる。
これにより、ユーザは、自己の年齢に合った、違和感のない内容の音声を聴くことができる。
(9)又、実施形態1及び2において、ユーザIDにより特定されたユーザのテキストデータの利用回数に応じて、(8)のバリエーションテキストを選択し、選択したバリエーションテキストに基づいて特定されたユーザに対し、音声出力することとしてもよい。
具体的には、記憶部106にインデックス番号とユーザIDと当該インデックス番号について当該ユーザIDが通知された回数との対応関係を示す利用状況テーブルと、通知された回数と(8)のバリエーション番号との対応関係を示すバリエーション番号指定テーブルとを予め記憶部106に記憶しておき、ユーザからの音声出力指示の入力がある毎に音声パラメータ制御部104又は204が、テキスト入力部105にインデックス番号とユーザIDを通知し、テキスト入力部105が、通知されたインデックス番号とユーザIDとに基づいて利用状況テーブルから通知回数を特定し、さらにバリエーション番号指定テーブルを参照して通知回数に対応するバリエーション番号を特定するとともに、利用状況テーブルにおいて、対応する通知回数を更新することとすることにより、ユーザのテキストデータの利用回数に応じてテキストデータの内容を一部変更して(例えば、利用回数の多いユーザに対しては簡略化した内容のテキストデータに変更し、利用回数の少ないユーザに対しては、簡略化されていない内容のテキストデータに変更して)音声出力することができる。
これにより、利用頻度の高いユーザは、テキストデータの主要な内容のみをより短時間で聞き取ることができる。
作成中
本実施形態1に係る音声合成出力装置100の構成を示す機能ブロック図である。 音声テキスト格納部1063に格納されている、インデックステーブルと、テキストデータの具体例を示す。 デフォルト音声パラメータ格納部1064に格納されているデフォルトの音声パラメータの具体例を示す。 ユーザ基本情報格納部10651に格納されているユーザ基本情報特定テーブルの具体例を示す。 データ分析部103が行うユーザID特定処理の動作を示すフローチャートである。 音声パラメータ制御部104の行うユーザ別音声パラメータ制御処理の動作を示すフローチャートである。 本実施形態2に係る音声合成出力装置200の構成を示す機能ブロック図である。 パラメータ制御データ格納部10653の構成を示す機能ブロック図である。 時刻別パラメータ制御データ特定テーブルの具体例を示す。 距離別パラメータ制御データ特定テーブルの具体例を示す。 雑音別パラメータ制御データ特定テーブルの具体例を示す。 音声パワー変換テーブルの具体例を示す。 時間長変換テーブルの具体例を示す。 音声パラメータ制御部204の行うユーザ別音声パラメータ制御処理の動作を示すフローチャートである。 音声パラメータ制御部204の行う総合音声パラメータ制御処理Aの動作の一部を示すフローチャートである。 音声パラメータ制御部204の行う総合音声パラメータ制御処理Aの動作の一部を示すフローチャートである。 音声パラメータ制御部204の行う総合音声パラメータ制御処理Bの動作の一部を示すフローチャートである。 音声パラメータ制御部204の行う総合音声パラメータ制御処理Bの動作の一部を示すフローチャートである。 最終制御データの具体例を示す。 「周波数帯域別指定増幅パターン」に関する音声パラメータの具体例を示す。
符号の説明
100、200 音声合成出力装置
101、201 入力部
102 ユーザ操作部
103、203 データ分析部
104、204 音声パラメータ制御部
105 テキスト入力部
106、206 記憶部
107 表示部
108 音声合成部
109 スピーカ
1011 マイク部
1012 カメラ部
1013 時刻計測部
1031 ユーザデータ分析部
1061 ユーザGMMデータ格納部
1062 ユーザPMデータ格納部
1063 音声テキスト格納部
1064 デフォルト音声パラメータ格納部
1065、2065 音声パラメータ制御データ格納部
10651 ユーザ基本情報格納部
10652 発話特性別音声パラメータ格納部
10653 パラメータ制御データ格納部

Claims (9)

  1. 出力音声を特定する音声パラメータに基づいて音声を合成して出力する音声合成出力装置であって、
    予め定められた音声パラメータを変更する制御データと、当該制御データに対応付けされている対応データとの対応関係を示す制御データ対応テーブルを記憶している記憶手段と、
    外部から対応データを特定するための特定情報の入力を受け取る入力受取手段と、
    前記特定情報に基づいて対応データを特定する特定手段と、
    特定された対応データに対応付けられている制御データに基づいて前記音声パラメータを変更するパラメータ変更手段と、
    変更後の音声パラメータに基づいて音声を合成して出力する音声出力手段と
    を備えることを特徴とする音声合成出力装置。
  2. 前記特定情報は、ユーザを特定するユーザ特定情報を含み、
    前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルを前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、
    前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成出力装置。
  3. 前記特定情報は、ユーザの音声情報を含み、
    前記記憶手段は、音声の特性値と制御データとの対応関係を示す音声特性値別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記音声情報に基づいてユーザの音声の特性値を特定し、
    前記パラメータ変更手段は、前記音声特性値別制御データ対応テーブルにおいて、特定されたユーザーの音声の特性値に対応する制御データに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成出力装置。
  4. 前記特定情報は、自装置周囲の雑音情報を含み、
    前記記憶手段は、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、
    前記パラメータ変更手段は、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成出力装置。
  5. 前記特定情報は、ユーザと自装置との間の距離を示す距離情報を含み、
    前記記憶手段は、距離と制御データとの対応関係を示す距離別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記距離情報に基づいてユーザと自装置との間の距離を特定し、
    前記パラメータ変更手段は、前記距離別制御データ対応テーブルにおいて、特定された、ユーザと自装置との間の距離に対応する制御データに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成出力装置。
  6. 前記特定情報は、現在時刻を示す時刻情報を含み、
    前記記憶手段は、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルを、前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記時刻情報に基づいて現在時刻を特定し、
    前記パラメータ変更手段は、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成出力装置。
  7. 前記特定情報は、ユーザを特定するユーザ特定情報と自装置周囲の雑音情報とを含み、
    前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、雑音の特性値と制御データとの対応関係を示す雑音別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記雑音情報に基づいて自装置周囲の雑音の特性値を特定し、
    前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記雑音別制御データ対応テーブルにおいて、特定された自装置周囲の雑音の特性値に対応する制御データとに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成装置。
  8. 前記特定情報は、ユーザを特定するユーザ特定情報とユーザと自装置との間の距離を示す距離情報とを含み、
    前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、距離と制御データとの対応関係を示す距離別制御データ対応テーブルとを、それぞれ前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記距離情報に基づいてユーザと自装置との間の距離を特定し、
    前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記距離別制御データ対応テーブルにおいて、特定されたユーザと自装置との間の距離に対応する制御データとに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成装置。
  9. 前記特定情報は、ユーザを特定するユーザ特定情報と現在時刻を示す時刻情報とを含み、
    前記記憶手段は、複数の各ユーザについて、当該ユーザと制御データとの対応関係を示すユーザ別制御データ対応テーブルと、時刻と制御データとの対応関係を示す時刻別制御データ対応テーブルとをそれぞれ前記制御データ対応テーブルとして記憶し、
    前記特定手段は、前記ユーザ特定情報に基づいてユーザを特定し、さらに、前記時刻情報に基づいて現在時刻を特定し、
    前記パラメータ変更手段は、特定されたユーザについてのユーザ別制御データ対応テーブルにおいて、当該ユーザに対応付けられている制御データと、前記時刻別制御データ対応テーブルにおいて、特定された現在時刻に対応する制御データとに基づいて前記音声パラメータを変更する
    ことを特徴とする請求項1記載の音声合成装置。
JP2004315491A 2004-10-29 2004-10-29 音声合成出力装置 Pending JP2006126548A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004315491A JP2006126548A (ja) 2004-10-29 2004-10-29 音声合成出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004315491A JP2006126548A (ja) 2004-10-29 2004-10-29 音声合成出力装置

Publications (1)

Publication Number Publication Date
JP2006126548A true JP2006126548A (ja) 2006-05-18

Family

ID=36721360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004315491A Pending JP2006126548A (ja) 2004-10-29 2004-10-29 音声合成出力装置

Country Status (1)

Country Link
JP (1) JP2006126548A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008164759A (ja) * 2006-12-27 2008-07-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置、プログラム、記録媒体
JP2008193346A (ja) * 2007-02-02 2008-08-21 Toyota Motor Corp 無線制御装置
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2017211798A (ja) * 2016-05-25 2017-11-30 シャープ株式会社 ネットワークシステム、情報処理方法、およびサーバ
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008164759A (ja) * 2006-12-27 2008-07-17 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置、プログラム、記録媒体
JP2008193346A (ja) * 2007-02-02 2008-08-21 Toyota Motor Corp 無線制御装置
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP2010210947A (ja) * 2009-03-10 2010-09-24 Panasonic Electric Works Co Ltd 話速変換装置
JP2017211798A (ja) * 2016-05-25 2017-11-30 シャープ株式会社 ネットワークシステム、情報処理方法、およびサーバ
JPWO2022215284A1 (ja) * 2021-04-09 2022-10-13
WO2022215284A1 (ja) * 2021-04-09 2022-10-13 パナソニックIpマネジメント株式会社 発話機器を制御する方法、サーバ、発話機器、およびプログラム
JP7398683B2 (ja) 2021-04-09 2023-12-15 パナソニックIpマネジメント株式会社 発話機器を制御する方法、サーバ、発話機器、およびプログラム

Similar Documents

Publication Publication Date Title
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230045237A1 (en) Wearable apparatus for active substitution
Matthies et al. Variation in anticipatory coarticulation with changes in clarity and rate
US20070112570A1 (en) Voice synthesizer, voice synthesizing method, and computer program
US10303436B2 (en) Assistive apparatus having accelerometer-based accessibility
Tasko et al. Acoustic and articulatory features of diphthong production: A speech clarity study
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP2011248025A (ja) チャネル統合方法、チャネル統合装置、プログラム
JP2009075160A (ja) コミュニケーション音声処理方法とその装置、及びそのプログラム
JP2006126548A (ja) 音声合成出力装置
JP2001268669A (ja) 移動電話端末を利用した機器制御装置、方法、及び記録媒体
JP2021117371A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2019138652A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2016206646A (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP2008092093A (ja) 楽音再生装置及びプログラム
JP2006154531A (ja) 音声速度変換装置、音声速度変換方法、および音声速度変換プログラム
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP4516943B2 (ja) カラオケ歌唱補助システム
JP2015069037A (ja) 音声合成装置およびプログラム
JP2019086801A (ja) 音声処理方法および音声処理装置
JP2007256815A (ja) 音声再生装置、音声再生方法、音声再生プログラム
WO2019026396A1 (ja) 情報処理装置、情報処理方法、およびプログラム
Heldner et al. Deep throat as a source of information
JP5381994B2 (ja) 情報処理装置