JP2002268666A

JP2002268666A - 音声合成装置

Info

Publication number: JP2002268666A
Application number: JP2001072043A
Authority: JP
Inventors: Yoshibumi Sakuramata; 義文櫻又
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2001-03-14
Filing date: 2001-03-14
Publication date: 2002-09-20

Abstract

(57)【要約】【課題】複数の音声入出力機器毎に、他の音声入出力
機器の出力合成音声と区別しやすいように、互いに異な
る音質で出力合成音声を出力する。【解決手段】入力音声を認識する音声認識部１１と、
音声認識中に得られた前記入力音声の特徴を記憶してお
く音声特徴記憶部１１ｚと、音声を出力するための出力
音声データを記憶しておく音声データ記憶部１３ｚと、
出力音声を合成する音声合成部１３とを有し、更に、前
記音声認識中に得られた前記音声の前記特徴情報を利用
して、前記出力音声データの音質を変更することができ
る音質変更部１２を有する。更に、音声特徴記憶部１１
ｚに記憶された前記特徴情報により、最終的な出力音声
データの音質の目標値を自動的に作成し、前記出力音声
データの音質が前記目標値の音質と異なる場合に、前記
目標値の音質に近づけるように、前記出力音声データの
音質を漸次変更していく音質変更部１２としても良い。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、合成音声により情
報を伝達する音声合成装置に関する。特に、本発明に係
る音声合成装置を適用した音声入出力機器から出力され
る合成音声の特徴をそれぞれ異なるように調整可能とせ
しめることにより、音声合成装置即ち音声入出力機器の
特定を容易化することを可能とする音声合成装置に関す
る。

【０００２】

【従来の技術】音声合成技術を用いるものとして、たと
えば、特開平０５−０２７７９０号公報「音声入出力装
置」においては、音声認識の技術を利用して、利用者の
性別や習熟度によって、音声メッセージの内容を変更す
ることができる技術について開示がなされている。即
ち、本公報においては、利用者の性別を判定する周波数
分析装置と、利用者の急ぎ具合を判定する音声認識装置
と、利用者の操作に対する慣れ具合を判定する応答時間
測定装置と、過去の該利用者の傾向を示すデータと判定
結果データとを比較して利用者のタイプを判断する総合
判定装置と、音声データメモリに記憶されている音声デ
ータから、総合判定された利用者のタイプに対応した応
答メッセージを合成して出力させるものである。

【０００３】また、特開平０５−１８１４９２号公報
「音声情報出力システム」においては、同じメッセージ
を、音声合成の都度、ランダムに音質を変更する技術に
ついて開示がなされている。即ち、本公報においては、
文書データベースファイルの各文書データに対応して、
複数の合成音声のうち、いずれの音質の合成音声で情報
を出力するかを決定する組み合わせ情報を、擬似乱数を
用いて、組み合わせテーブル発生器により発生させ、該
組み合わせ情報を、電話回線からの情報提供要求のアク
セスがなされる都度、自動的に、ランダムに変更させる
ことにより、合成音声の音質が変更されるものである。

【０００４】

【発明が解決しようとする課題】本発明は、比較的小さ
な空間内において、少人数の人を対象とした音声合成装
置を提供するものであり、複数の音声入出力装置がある
場合であっても、合成音声を出力した音声入出力装置を
特定することを可能にせんとするものである。人は音声
を聞いた時に、該音声の音質や話し方によって、誰の声
であるかを特定することができる。一方、最近は、音声
入出力機能を有する音声入出力機器が増えてきている。
しかしながら、合成音声の出力機能を有する音声入出力
機器における合成音声の音質は類似しており、複数の音
声入出力機器がある場合、どの音声入出力機器が合成音
声のメッセージを出力したかの特定に迷う場合がある。

【０００５】かかる場合において、複数の音声入出力機
器毎に、他の音声入出力機器の出力合成音声と区別し易
いように、更には、各音声入出力装置を利用する利用者
の発声する音声情報とも区別し易いように、各音声入出
力装置の出力合成音声の音質を変更することにより、合
成音声を出力した音声入出力機器の特定を容易にせんと
することが、本発明の目的である。更に、合成音声の特
徴（音質）の違いにより、該合成音声を出力する音声入
出力機器の特定が容易であるため、利用者からの音声メ
ッセージを音声入出力機器に伝達したい場合にも、利用
者に近い位置にある他の音声入出力機器を介して、目的
の音声入出力機器にまで、利用者からの音声メッセージ
を伝達することも可能になる。

【０００６】

【課題を解決するための手段】請求項１に記載の発明
は、入力された入力音声を認識する音声認識手段と、音
声認識中に得られた前記入力音声の特徴情報を記憶して
おく音声特徴記憶手段と、音声を出力するための出力音
声データを記憶しておく音声データ記憶手段と、前記出
力音声データに基づいて合成音声を出力する音声出力手
段とを有し、前記音声認識中に得られた前記入力音声の
前記特徴情報を利用して、前記出力音声データの音質を
変更することができる音質変更手段を備えている音声合
成装置とすることを特徴とするものである。

【０００７】請求項２に記載の発明は、請求項１に記載
の音声合成装置において、前記音声特徴記憶手段に記憶
されている前記入力音声の前記特徴情報に基づいて、最
終的な出力音声データの音質の目標値を自動的に作成す
る目標音声決定手段と、該目標音声決定手段により作成
された前記目標値を記憶しておく目標音質記憶手段とを
有し、前記出力音声データの音質が前記目標値の音質と
異なる場合に、前記目標値の音質に近づけるように、前
記出力音声データの音質を漸次変更していく音質変更手
段を備えている音声合成装置とすることを特徴とするも
のである。

【０００８】請求項３に記載の発明は、請求項２に記載
の音声合成装置において、入力された前記入力音声の特
徴情報が、前記音声特徴記憶手段に既に記憶されている
前記特徴情報と、あらかじめ定められた一定値を超えて
異なっている場合、前記出力音声データの音質の前記目
標値を更新させて、出力音声データの音質の変更機能を
更新させることを可能とする音質変更手段を備えている
音声合成装置とすることを特徴とするものである。

【０００９】請求項４に記載の発明は、請求項１に記載
の音声合成装置において、前記出力音声データに基づい
て合成音声を出力することができる複数個の音声合成装
置が存在する場合、複数個の前記音声合成装置が相互に
通信回線により接続されることにより、複数個の前記音
声合成装置が出力する前記合成音声の音質がそれぞれ異
なった音質になるように、各前記音声合成装置の前記出
力音声データの音質を調整可能とする音質変更手段を備
えている音声合成装置とすることを特徴とするものであ
る。

【００１０】請求項５に記載の発明は、請求項４に記載
の音声合成装置において、前記音声データ記憶手段に、
既に存在する複数個の前記音声合成装置がそれぞれ有し
ている前記出力音声データの音質と、前記音声合成装置
をそれぞれ使用する利用者全員が発声する音声情報の音
質とを記憶させ、かつ、前記音声合成装置が増設あるい
は減設された場合に、各前記音声合成装置の前記出力音
声データの音質を再構成させることができる音質変更手
段を備えている音声合成装置とすることを特徴とするも
のである。

【００１１】請求項６に記載の発明は、入力された入力
音声を認識する音声認識手段と、音声認識中に得られた
前記入力音声の特徴情報を記憶しておく音声特徴記憶手
段と、音声を出力するための出力音声データを記憶して
おく音声データ記憶手段と、前記出力音声データに基づ
いて合成音声を出力する音声出力手段とを有する音声合
成装置における前記出力音声データの音質を変更せしめ
ることができる音声合成方法において、前記音声認識中
に得られた前記入力音声の前記特徴情報のみに基づいて
前記出力音声データの音質を変更させたり、あるいは、
前記特徴情報から最終的な出力音声データの目標値を作
成して漸次該目標値に近接させるように前記出力音声デ
ータの音質を変更させたり、あるいは、入力された前記
入力音声の特徴情報が、前記音声特徴記憶手段に既に記
憶されている前記特徴情報と、あらかじめ定められた一
定値を超えて異なっている場合に、前記出力音声データ
の音質の前記目標値を更新せしめたり、あるいは、前記
出力音声データに基づいて合成音声を出力することがで
きる複数個の音声合成装置が存在する場合、複数個の前
記音声合成装置を相互に通信回線により接続して、前記
音声合成装置が出力する前記合成音声の音質がそれぞれ
異なった音質になるように各前記音声合成装置の前記出
力音声データを調整可能とせしめたり、あるいは、既に
存在する複数個の前記音声合成装置がそれぞれ有してい
る各前記出力音声データの音質と、前記音声合成装置を
それぞれ使用する利用者全員が発声する音声情報の音質
とを記憶させ、前記音声合成装置が増設あるいは減設さ
れた場合に、各前記音声合成装置の前記出力音声データ
の音質を再構成させることができる音声合成方法とする
ことを特徴とするものである。

【００１２】請求項７に記載の発明は、入力された入力
音声を認識する音声認識手段と、音声認識中に得られた
前記入力音声の特徴情報を記憶しておく音声特徴記憶手
段と、音声を出力するための出力音声データを記憶して
おく音声データ記憶手段と、前記出力音声データに基づ
いて合成音声を出力する音声出力手段とを有する音声合
成装置における前記出力音声データの音質を変更せしめ
ることができる音声合成方法を、コンピュータによりプ
ログラムとして実行させることができるように記録せし
めたコンピュータ読み取り可能なプログラム記録媒体に
おいて、前記音声認識中に得られた前記入力音声の前記
特徴情報のみに基づいて前記出力音声データの音質を変
更させたり、あるいは、前記特徴情報から最終的な出力
音声データの目標値を作成して漸次該目標値に近接させ
るように前記出力音声データの音質を変更させたり、あ
るいは、入力された前記入力音声の特徴情報が、前記音
声特徴記憶手段に既に記憶されている前記特徴情報と、
あらかじめ定められた一定値を超えて異なっている場合
に、前記出力音声データの音質の前記目標値を更新せし
めたり、あるいは、前記出力音声データに基づいて合成
音声を出力することができる複数個の音声合成装置が存
在する場合、複数個の前記音声合成装置を相互に通信回
線により接続して、前記音声合成装置が出力する前記合
成音声の音質がそれぞれ異なった音質になるように各前
記音声合成装置の前記出力音声データを調整可能とせし
めたり、あるいは、既に存在する複数個の前記音声合成
装置がそれぞれ有している各前記出力音声データの音質
と、前記音声合成装置をそれぞれ使用する利用者全員が
発声する音声情報の音質とを記憶させ、前記音声合成装
置が増設あるいは減設された場合に、各前記音声合成装
置の前記出力音声データの音質を再構成させることがで
きる音声合成方法を、コンピュータによりプログラムと
して実行させることができるように記録せしめたプログ
ラム記録媒体とすることを特徴とするものである。

【００１３】

【発明の実施の形態】以下に本発明に係る音声合成装置
の一実施形態について、図面を参照しながら説明する。
図１は、本発明に係る音声合成装置の構成の一例を示す
ブロック構成図である。図１に示すように、本発明に係
る音声合成装置１０は、音声を入力するマイクロホン
１、入力された入力音声を認識する音声認識部１１と、
音声認識過程において得られた入力音声の特徴を記憶し
ておく音声特徴記憶部１１ｚと、出力用の合成音声に関
する音声データを記憶しておく音声データ記憶部１３ｚ
と、音声特徴記憶部１１ｚに記憶された入力音声の特徴
に応じて、音声データ記憶部１３ｚに格納されている出
力用の音声データの音質を更新する制御を司る音質変更
部１２と、該音質変更部１２によって更新された音質の
音声データに基づいて音声合成を行なう音声合成部１３
と、音声合成部１３により合成された合成音声を出力す
るスピーカ２とを備えている。

【００１４】また、該音声合成装置１０に入力された音
声命令に従って制御される音声入出力機器２０には、該
音声命令を受信して指示された音声命令に基づいて制御
を行なうと共に、音声入出力機器２０の状態を通知する
ための合成音声の出力を、音声合成装置１０に要求する
音声入出力機器制御部２１が備えられている。

【００１５】次に、図１に示す本発明に係る音声合成装
置１０における動作について、以下に説明する。まず、
マイクロホン１から音声情報が入力されると、音声認識
部１１において、入力された音声情報が、音声入出力機
器２０の操作に関する命令を指示している音声命令であ
るかを音声認識する。入力された音声信号が、音声入出
力機器操作用の音声命令である場合、指示されている音
声入出力機器操作を実行せしめるべく、音声入出力機器
制御部２１の動作制御部に該音声命令を送出する。更
に、音声認識部１１において分析された入力音声情報の
特徴は、音声特徴記憶部１１ｚに保存される。

【００１６】また、合成音声の音質の更新制御を司る音
質変更部１２は、音声特徴記憶部１１ｚに記憶されてい
る入力音声情報の特徴と、現在、音声データ記憶部１３
ｚに記憶されている出力用合成音声の音声データの特徴
とを比較する。該比較結果に従って、両者の音声に関す
る特徴の差が大きく、または、小さくなるように出力用
合成音声の音声データの特徴（音質）を更新して、音声
データ記憶部１３ｚに格納記憶させる。一方、音声合成
部１３に対して、音声入出力機器２０の音声入出力機器
制御部２１から合成音声の出力命令が発生した場合、音
声合成部１３において、前述したごとく、特徴（音質）
が更新されて記憶されている合成音声用の音声データを
用いて、音声入出力機器制御部２１から要求された合成
音声が作成される。作成された合成音声はスピーカ２か
ら出力される。

【００１７】具体的には、たとえば、入力される入力音
声の周波数が、１２０Ｈｚと２２０Ｈｚの人間の音声で
あり、音声入出力機器２０から出力要求される合成音声
の周波数に関する最初の設定値が２００Ｈｚとしている
場合、入力される２２０Ｈｚの人の音声と該合成音声の
２００Ｈｚとは、区別がつき難いので、音声入出力機器
２０から出力要求される合成音声の周波数を、２つの入
力音声の周波数の中間である１７０Ｈｚに設定すること
により、入力音声と合成音声との区別を容易にすること
ができる。

【００１８】また、音声認識部１１において分析された
入力音声の特徴に関し、周波数分布が比較的低い成分が
強い場合であれば、合成音声の周波数成分として高い成
分を多くすることにより音質を変えることができる。

【００１９】ここで、音声認識部１１に入力される音声
は、人の音声だけでなく、他の音声入出力機器からの出
力合成音声も対象とすることができる。而して、本発明
に係る音声合成装置において、入力音声の特徴に応じ
て、出力される合成音声の特徴を更新させることができ
るので、同一室内等にある他の音声入出力機器からの出
力合成音声と異なる音質の出力合成音声を出力させるこ
とができる。

【００２０】例えば、同一室内に、二人の人間と、音声
入出力機器として、音声時計と音声案内を備えた電子レ
ンジの二つの音声入出力機器とがある場合を想定する。
該電子レンジや該音声時計からそれぞれ出力される合成
音声の音質（特徴）について、相互間のみならず、二人
の人間がそれぞれ発声する音声の音質（特徴）とのいず
れとも異なる音質（特徴）となるように、変えて設定し
ておくことにより、該同一室内において、何らかの音声
の発声があった際に、離れた位置にいる場合であって
も、二人の人間、あるいは、二つの音声入出力機器のい
ずれからの発声であるかを特定することが容易に可能と
なる。

【００２１】次に、本発明に係る音声合成装置の他の実
施形態について、説明する。図２は、本発明に係る音声
合成装置の構成に関する他の実施例を示すブロック構成
図である。本実施例は、同一室内等に、複数の音声入出
力機器が置かれているような場合、各音声入出力機器か
らの出力音声の特徴が重ならないように、自動的に変更
させるものである。図２に示すように、本実施例に係る
音声合成装置１０ａは、音声を入力するマイクロホン
１、入力された入力音声を認識する音声認識部１１ａ
と、音声認識過程において得られた入力音声の特徴を記
憶しておく音声特徴記憶部１１ｚと、出力用の合成音声
に関する音声データを記憶しておく音声データ記憶部１
３ｚと、入力音声の特徴と大きく異なる特徴を有する目
標とする合成音声を決定する目標音声決定部１４ａと、
該目標とする合成音声の特徴を記憶しておく目標音声特
徴記憶部（目標音質記憶部）１４ｚと、目標音声特徴記
憶部１４ｚに記憶された目標とする合成音声の特徴に応
じて、音声データ記憶部１３ｚに格納されている出力用
合成音声に関する音声データの音質を更新する制御を司
る音質変更部１２ａと、該音質変更部１２ａによって更
新された音質の音声データに基づいて音声合成を行なう
音声合成部１３ａと、音声合成部１３ａにより合成され
た合成音声を出力するスピーカ２とを備えている。

【００２２】また、該音声合成装置１０ａに入力された
音声命令に従って制御される音声入出力機器２０ａに
は、該音声命令を受信して指示された音声命令に基づい
て制御を行なうと共に、音声入出力機器２０ａの状態を
通知するための合成音声出力を、音声合成装置１０ａに
要求する音声入出力機器制御部２１ａと、一定時刻経過
毎に音質変更部１２ａを起動するための起動信号を生起
する時計２２ａとが備えられている。

【００２３】次に、図２に示す本発明に係る音声合成装
置１０ａにおける動作について、以下に説明する。ま
ず、マイクロホン１から音声情報が入力されると、音声
認識部１１ａにおいて、入力された音声情報が、音声入
出力機器２０ａの操作に関する命令を指示している音声
命令であるかを音声認識する。入力された音声信号が、
音声入出力機器操作用の音声命令である場合、指示され
ている音声入出力機器操作を実行せしめるべく、音声入
出力機器制御部２１ａの動作制御部に該音声命令を送出
する。更に、音声認識部１１ａにおいて分析された入力
音声情報の特徴は、音声特徴記憶部１１ｚに保存され
る。

【００２４】また、目標音声決定部１４ａにおいて、音
声特徴記憶部１１ｚに記憶保存されている入力音声の特
徴が探索されて、出力用の合成音声の特徴が、該入力音
声の特徴と大きく異なるように、目標とする出力用の合
成音声の特徴を決定する。決定された合成音声の特徴に
関する情報は、目標音声特徴記憶部１４ｚに保存記憶さ
れる。

【００２５】一方、音質変更部１２ａは、時計２２ａか
らの一定時限毎に、あるいは、音声入出力機器制御部２
１ａからの合成音声出力命令に基づいて、起動されて、
目標音声特徴記憶部１４ｚに保存記憶されている目標合
成音声の特徴と、現在、音声データ記憶部１３ｚに記憶
されている合成音声用の音声データの特徴とを比較す
る。該比較結果に従って、両者の音声に関する特徴に差
がある場合は、目標合成音声の特徴に徐々に近づけさせ
るように、出力用合成音声に関する音声データの音質を
更新して、音声データ記憶部１３ｚに格納記憶させる。
かかる音声データの更新方法も、設定により、一定の割
合で目標に近づけていくことが可能である。また、音声
入出力機器２０ａの音声入出力機器制御部２１ａから合
成音声の出力命令が発生している場合、音声合成部１３
ａにおいて、特徴が更新されて記憶されている合成音声
用の音声データを用いて、音声入出力機器制御部２１ａ
から要求された合成音声が作成される。作成された合成
音声はスピーカ２から出力される。

【００２６】本実施例における音声合成装置１０ａは、
出力用の合成音声の音質（特徴）を緩やかに変更してい
くための音声合成装置である。例えば、目標の音声の周
波数が１５０Ｈｚであり、一方、現在の音声入出力機器
２０ａから出力される合成音声の周波数が１２０Ｈｚで
あった場合、一回の合成音声が出力される都度、２Ｈｚ
ずつ、合成音声の周波数を高くしていき、最終的に、目
標とする合成音声周波数１５０Ｈｚに調整するものであ
る。また、音質（特徴）の変更は、合成音声の出力の都
度ではなく、時計２２ａからの時刻信号に基づいて、単
位時間経過毎（例えば、１時間経過毎）に、２Ｈｚずつ
変更していくこともできる。あるいは、合成音声の出力
毎と単位時間経過毎との両者を組み合わせて、合成音声
の発声が続く時は単位時間ごとに音質（特徴）を変更し
てゆき、一方、合成音声の発声がない時間（例えば夜
間）は、音質（特徴）の変更を停止することもできる。

【００２７】本実施例における音声合成装置１０ａは、
同一室内等に新しい音声入出力機器が置かれるようにな
った時に有益である。音声合成装置１０ａを適用するこ
とにより、複数の音声の特徴が重ならないように、自動
的に変更させることができる。

【００２８】例えば、同一室内に、音声時計と音声案内
付きの電子レンジとの二つの音声入出力装置があった場
合に、更に、この室内に、音声案内付きのビデオレコー
ダを設置する場合を想定する。この時、音声時計の音質
は固定であり、電子レンジとビデオレコーダが音質（特
徴）の変更が可能とする。電子レンジとビデオレコーダ
とのそれぞれの出力用合成音声は、互いの音質（特徴）
の変化を観察して異なる方向に音質を変更することがで
きる。最終的には、利用する人間の音声の特徴と前記音
声入出力機器の出力用合成音声の特徴ができるだけ離れ
た位置になるように音質を変更することもできる。

【００２９】次に、本発明に係る音声合成装置の更に他
の実施形態について、説明する。本実施例においては、
主な使用者を識別するために、入力音声の入力頻度情報
を使用するものである。図３は、本発明に係る音声合成
装置の構成に関する更に他の実施例を示すブロック構成
図である。図３に示すように、本実施例に係る音声合成
装置１０ｂは、音声を入力するマイクロホン１、入力さ
れた入力音声を認識する音声認識部１１ｂと、音声認識
過程において得られた入力音声の特徴と該特徴を有する
入力音声の入力回数とを記憶しておく音声特徴・頻度記
憶部１１ｙと、出力用の合成音声に関する音声データを
記憶しておく音声データ記憶部１３ｚと、特徴別の入力
音声の入力回数（即ち、入力頻度）に基づいて、入力頻
度が高い入力音声の特徴と大きく異なる特徴を有してい
る目標の合成音声を決定する目標音声決定部１４ｂと、
該目標とする合成音声の特徴を記憶しておく目標音声特
徴記憶部（目標音質記憶部）１４ｚと、目標音声特徴記
憶部１４ｚに記憶された目標とする合成音声の特徴に応
じて、音声データ記憶部１３ｚに格納されている出力用
音声データの音質を更新する（即ち、出力用合成音声の
音質を変更する）制御を司る音質変更部１２ｂと、該音
質変更部１２ｂによって更新された音質の音声データに
基づいて音声合成を行なう音声合成部１３と、音声合成
部１３により合成された合成音声を出力するスピーカ２
とを備えている。

【００３０】また、該音声合成装置１０ｂに入力された
音声命令に従って制御される音声入出力機器２０ｂに
は、該音声命令を受信して指示された音声命令に基づい
て制御を行なうと共に、音声入出力機器２０ｂの状態を
通知するための合成音声出力を、音声合成装置１０ｂに
要求する音声入出力機器制御部２１ｂと、一定時刻経過
毎に音質変更部１２ｂを起動するための起動信号を生起
する時計２２ｂとが備えられている。

【００３１】次に、図３に示す本発明に係る音声合成装
置１０ｂにおける動作について、以下に説明する。ま
ず、マイクロホン１から音声情報が入力されると、音声
認識部１１ｂにおいて、入力された音声情報が、音声入
出力機器２０ｂの操作に関する命令を指示している音声
命令であるかを音声認識する。入力された音声信号が、
音声入出力機器操作用の音声命令である場合、指示され
ている音声入出力機器操作を実行せしめるべく、音声入
出力機器制御部２１ｂの動作制御部に該音声命令を送出
する。更に、音声認識部１１ｂにおいて分析された入力
音声情報の特徴は、該特徴の発声頻度と共に、音声特徴
・頻度記憶部１１ｙに保存される。

【００３２】また、目標音声決定部１４ｂにおいて、音
声特徴・頻度記憶部１１ｙに記憶保存されている入力音
声の特徴の発声頻度に基づいて、入力音声の特徴の発生
頻度が高い音声の特徴に対して、出力用の合成音声の特
徴が、発声頻度が高い該入力音声の特徴と大きく異なる
ように、目標とする出力用の合成音声の特徴を決定す
る。決定された合成音声の特徴に関する情報は、目標音
声特徴記憶部１４ｚに保存記憶される。

【００３３】一方、音質変更部１２ｂは、時計２２ｂか
らの一定時限毎に、あるいは、音声入出力機器制御部２
１ｂからの合成音声出力命令に基づいて、起動されて、
目標音声特徴記憶部１４ｚに保存記憶されている目標合
成音声の特徴と、現在、音声データ記憶部１３ｚに記憶
されている合成音声用の音声データの特徴とを比較す
る。該比較結果に従って、両者の音声に関する特徴に差
がある場合は、目標合成音声の音質（特徴）に徐々に近
づけさせるように、出力用合成音声に関する音声データ
の音質を更新して、音声データ記憶部１３ｚに格納記憶
させる。かかる音声データの更新方法も、設定により、
一定の割合で目標に近づけていくことが可能である。ま
た、音声入出力機器２０ｂの音声入出力機器制御部２１
ｂから合成音声の出力命令が発生している場合、音声合
成部１３ｂにおいて、特徴が更新されて記憶されている
合成音声用の音声データを用いて、音声入出力機器制御
部２１ｂから要求された合成音声が作成される。作成さ
れた合成音声はスピーカ２から出力される。

【００３４】本実施例における音声合成装置１０ｂは、
前述のごとく、主な使用者の音声の特徴に基づいて、出
力用合成音声の音質を変更するために使用される。即
ち、例えば、来客者から、あるいは、テレビジョンなど
から発せられる音声情報によって、音声入出力機器２０
ｂの出力用合成音声が変化することを防ぐことができ
る。

【００３５】本実施例においては、主な使用者を識別す
るために、入力音声の入力頻度情報を使用する。例え
ば、頻繁に音声入出力機器を使用する人を、５人とか１
０人程度に限定して、その範囲内にある人の入力音声の
特徴を利用する。また、音声案内機能を有する音声入出
力機器も、一定の音質であるため、前記の利用者の人数
中に組み入れて、入力音声の一つとして、考慮すること
とし、出力合成音声の音質を変更する時の情報として利
用できる。また、出力用合成音声の音質（特徴）を変更
させる入力音声を識別するために、実際に入出力機器に
対する操作命令として認識できたものを選んで使用する
こともできる。

【００３６】次に、本発明に係る音声合成装置の更に他
の実施形態について、説明する。図４は、本発明に係る
音声合成装置の構成に関する更に他の実施例を示すブロ
ック構成図である。本実施例は、家庭内ネットワークや
ＳＯＨＯ（ＳｍａｌｌＯｆｆｉｃｅＨｏｍｅＯｆｆ
ｉｃｅ）などのネットワークにおいて、通信回線で相互
接続されている複数の音声入出力機器に対して有効とな
る実施例である。図４に示すように、本実施例に係る音
声合成装置１０ｃの音質変更部１２ｃは、通信制御部
（図示していない）を介して、通信回線３０と接続され
ており、該通信回線３０を介して、他の音声入出力機器
２００ａ，２００ｂの音声合成装置１００ａ，１００ｂ
を構成している音質変更部（図示していない）と相互に
情報を交換することができ、それぞれの音声合成装置１
０ｃ，１００ａ，１００ｂに備えられている音声データ
記憶部１３ｚ，１３０ａ，１３０ｂにある出力用合成音
声に関する音声データの特徴（音質）を相互に転送し合
うことが可能である。また、音声合成装置１０ｃは、音
声を入力するマイクロホン１、入力された入力音声を認
識する音声認識部１１ｃと、音声認識過程において得ら
れた入力音声の特徴を記憶しておく音声特徴記憶部１１
ｚと、出力用の合成音声に関する音声データを記憶して
おく音声データ記憶部１３ｚと、通信回線３０を介して
他の音声入出力機器２００ａ，２００ｂ…の音声合成装
置１００ａ，１００ｂ…に備えられた音声データ記憶部
１３０ａ，１３０ｂ…に格納されている出力用合成音声
に関する音声データの特徴情報（即ち、音質情報）を参
照しながら、音声特徴記憶部１１ｚに記憶された入力音
声の特徴に応じて、音声データ記憶部１３ｚに格納され
ている出力用音声データを更新する制御を司る音質変更
部１２ｃと、該音質変更部１２ｃによって更新された音
声データに基づいて音声合成を行なう音声合成部１３ｃ
と、音声合成部１３ｃにより合成された合成音声を出力
するスピーカ２とを備えている。

【００３７】また、該音声合成装置１０ｃに入力された
音声命令に従って制御される音声入出力機器２０ｃに
は、該音声命令を受信して指示された音声命令に基づい
て制御を行なうと共に、音声入出力機器２０ｃの状態を
通知するための合成音声出力を、音声合成装置１０ｃに
要求する音声入出力機器制御部２１ｃが備えられてい
る。

【００３８】次に、図４に示す本発明に係る音声合成装
置１０ｃにおける動作について、以下に説明する。ま
ず、マイクロホン１から音声情報が入力されると、音声
認識部１１ｃにおいて、入力された音声情報が、音声入
出力機器２０ｃの操作に関する命令を指示している音声
命令であるかを音声認識する。入力された音声信号が、
音声入出力機器操作用の音声命令である場合、指示され
ている音声入出力機器操作を実行せしめるべく、音声入
出力機器制御部２１ｃの動作制御部に該音声命令を送出
する。更に、音声認識部１１ｃにおいて分析された入力
音声情報の特徴は、音声特徴記憶部１１ｚに保存され
る。

【００３９】一方、音質変更部１２ｃは、音声特徴記憶
部１１ｚに記憶されている入力音声情報の特徴と、現
在、音声データ記憶部１３ｚに記憶されている合成音声
用に関する音声データの特徴とを比較する。該比較結果
に従って、両者の音声に関する特徴の差が大きく、また
は、小さくなるように合成音声の音声データの音質（特
徴）を更新して、音声データ記憶部１３ｚに格納記憶さ
せる。更に、通信回線３０を介して、他の音声合成装置
１００ａ，１００ｂ…の出力用合成音声に関する特徴情
報（即ち、音質情報）を取得して、当該音声合成装置１
０ｃの出力用合成音声に関する特徴情報と比較して、他
の音声合成装置１００ａ，１００ｂの出力用合成音声に
関する特徴情報と異なるように、当該音声合成装置１０
ｃの出力用合成音声に関する特徴情報を変更して、音声
データ記憶部１３ｚに格納記憶させる。

【００４０】更に、出力用合成音声の特徴（音質）の変
更量が大きすぎるために、自らの音声合成装置１０ｃの
みでは、出力用合成音声の特徴の変更が不可能である場
合には、通信回線３０を介して接続されている他の音声
合成装置１００ａ，１００ｂ…に備えられた音声データ
記憶部１３０ａ，１３０ｂ…に格納されている音声デー
タを読み込んで、該音声データを、自らの音声合成装置
１０ｃの出力用合成音声に関する音声データとして、音
声データ記憶部１３ｚに記憶させることもなされる。即
ち、前記図３に示す構成と同様に、目標音声決定部と目
標音声特徴記憶部とを備えさせて、入力音声の特徴（音
質）が、音声特徴記憶部１１ｚに既に登録されている音
声の特徴（音質）と、あらかじめ定められた一定値を超
えて異なっている場合、他の音声入出力機器にある音声
合成装置の音声データ記憶部に格納されている出力用合
成音声に関する音声データの特徴（音質）を、読み込ん
だりして、出力用合成音声に関する音声データの特徴
（音質）の目標値を更新させて、出力音声データの特徴
（音質）の変更機能を更新させることも可能となってい
る。

【００４１】また、音声入出力機器２０ｃの音声入出力
機器制御部２１ｃから合成音声の出力命令が発生してい
る場合、音声合成部１３ｃにおいて、特徴が更新されて
記憶されている合成音声用の音声データを用いて、音声
入出力機器制御部２１ｃから要求された合成音声が作成
される。作成された合成音声はスピーカ２から出力され
る。

【００４２】本実施例における音声合成装置１０ｃは、
前述のごとく、家庭内やＳＯＨＯなどにおいて、複数個
の音声入出力機器が、ネットワークを介して相互に接続
されている場合に有効である。複数個の音声入出力機器
を相互に接続し合うことにより、各音声入出力機器の出
力用合成音声の特徴（音質）を異ならせることが容易に
可能であり、更に、人間の音声との識別も容易にするこ
とができる。更には、ネットワークを介して、他の音声
入出力機器に備えられている音声合成装置を一時的に利
用して、他の音声メッセージを出力させることも可能に
なる。また、多くの種類の音声情報を取り扱うために、
ネットワークを経由して、多数の音源情報を蓄積してい
るサーバにアクセスして、必要な音声データを取り出す
ことにより、各音声入出力機器に必要とする出力用合成
音声の音声データ内容に入れ替えさせることもできる。

【００４３】次に、本発明に係る音声合成装置の更に他
の実施形態について、説明する。図５は、本発明に係る
音声合成装置の構成に関する更に他の実施例を示すブロ
ック構成図である。本実施例は、図４の場合と同様に、
家庭内ネットワークやＳＯＨＯ（ＳｍａｌｌＯｆｆｉ
ｃｅＨｏｍｅＯｆｆｉｃｅ）などのネットワークに
おいて、通信回線で相互接続されている複数の音声入出
力機器に対して有効となる実施例である。但し、図４の
場合とは異なり、各音声入出力機器には、音声入出力用
のマイクロホンとスピーカのみが備えられ、音声認識部
や音声合成部などの音声処理を司る各種機能は、通信回
線を介して相互接続されている音声合成装置側に集中配
備されている。

【００４４】即ち、図５に示すように、複数の各音声入
出力機器２００ｃ，２００ｄ…は、それぞれ、機器制御
部２１ｃ′，２１ｄ…と、マイクロホン１ｃ，１ｄ…
と、スピーカ２ｃ，２ｄ…とを有し、更に、通信回線３
０に、それぞれ通信制御部１５０ｃ，１５０ｄ…を介し
て接続されている。一方、本実施例に係る音声合成装置
１０ｄには、通信回線３０を介して、各音声入出力機器
２００ｃ，２００ｄ…の通信制御部１５０ｃ，１５０ｄ
…との間で、音声情報を含む各種の情報を送受信するこ
とを制御する通信制御部１５ｄが備えられており、該通
信回線３０を介して、各音声入出力機器２００ｃ，２０
０ｄ…のマイクロホン１ｃ，１ｄから入力された入力音
声信号を受信して、それぞれの入力音声の特徴情報を音
声特徴記憶部１１ｘに記憶させると共に、各音声入出力
機器２００ｃ，２００ｄ…の機器制御部２１ｃ′，２１
ｄ…からの音声出力命令を受信して、音声データ記憶部
１３ｘに記憶されているそれぞれの音声入出力機器毎の
出力用合成音声に関する音声データを取り出して送出
し、各音声入出力機器２００ｃ，２００ｄ…のスピーカ
２ｃ，２ｄ…から出力させる。

【００４５】また、音声合成装置１０ｄは、前述のよう
に、通信制御部１５ｄを介して入力された各音声入出力
機器２００ｃ，２００ｄ…毎の入力音声を認識する音声
認識部１１ｄと、音声認識過程において得られた各音声
入出力機器２００ｃ，２００ｄ…毎の入力音声の特徴
を、それぞれ記憶しておく音声特徴記憶部１１ｘと、各
音声入出力機器２００ｃ，２００ｄ…毎の出力用の合成
音声に関する音声データを記憶しておく音声データ記憶
部１３ｘと、音声特徴記憶部１１ｘに記憶された入力音
声の特徴に応じて、音声データ記憶部１３ｘに格納され
ている出力用音声データを更新する制御を司る音質変更
部１２ｄと、該音質変更部１２ｄによって更新された音
声データに基づいて音声合成を行なう音声合成部１３ｄ
と、を備えている。また、音声合成部１３ｄは、前述し
たように、通信制御部１５ｄを介して受信した音声出力
命令により起動されて、該音声出力命令を送出した音声
入出力機器２００ｃ，２００ｄ…に対応する出力用合成
音声に関する音声データを音声データ記憶部１３ｘから
取り出して、合成音声を作成し、通信制御部１５ｄを介
して、要求元の音声入出力機器２００ｃ，２００ｄ…に
返送する。

【００４６】次に、図５に示す本発明に係る音声合成装
置１０ｄにおける動作について、以下に説明する。ま
ず、通信回線３０で接続されている、たとえば、音声入
出力機器２００ｃのマイクロホン１ｃから音声情報が入
力されると、該入力音声情報は、音声入出力機器２００
ｃの識別情報ＩＤ（Ｉｄｅｎｔｉｆｉｅｒ）と共に、通
信制御部１５０ｃ及び通信回線３０を経由して、音声合
成装置１０ｄに送出される。通信回線３０を介して、前
記入力音声情報を受信した通信制御部１５ｄは、音声認
識部１１ｄに、音声入出力機器２００ｃの識別情報ＩＤ
と共に、前記入力音声情報を渡す。音声認識部１１ｄに
おいて、入力された前記入力音声情報が、音声入出力機
器２００ｃの操作に関する命令を指示している音声命令
であるかを音声認識する。入力された前記入力音声情報
が、音声入出力機器操作用の音声命令である場合、指示
されている音声入出力機器操作を実行せしめるべく、音
声認識部１１ｄは、通信制御部１５ｄ及び通信回線３０
を介して、送信元の音声入出力機器２００ｃに、認識結
果の音声命令を送出し、音声入出力機器２００ｃの音声
入出力機器制御部２１ｃ′の動作制御部に該音声命令を
送出するように指示する。更に、音声認識部１１ｄにお
いて分析された前記入力音声情報の特徴は、送信元の音
声入出力機器２００ｃの識別情報ＩＤと共に、音声特徴
記憶部１１ｘに保存される。

【００４７】一方、音質変更部１２ｄは、音声特徴記憶
部１１ｘに記憶されている各音声入出力機器毎の入力音
声情報の特徴と、現在、音声データ記憶部１３ｘに記憶
されている各音声入出力機器毎の合成音声用音声データ
の特徴とを比較する。該比較結果に従って、両者の音声
に関する特徴の差が大きく、または、小さくなるように
合成音声の音声データの特徴（音質）を更新して、音声
データ記憶部１３ｘに格納記憶させる。更に、各音声合
成装置１００ｃ，１００ｄ…の出力用合成音声に関する
特徴（音質）が重ならないように、各音声合成装置１０
０ｃ，１００ｄ…の出力用合成音声の特徴（音質）を調
整して更新し、音声データ記憶部１３ｘに格納記憶させ
る。

【００４８】また、通信回線３０で接続されている、た
とえば、音声入出力機器２００ｃの音声入出力機器制御
部２１ｃ′から合成音声の出力命令が発生している場
合、通信制御部１５０ｃ，通信回線３０及び通信制御部
１５ｄを介して、音声合成部１３ｄが起動され、音声合
成部１３ｄにおいて、特徴が更新されて記憶されている
音声入出力機器２００ｃ対応の出力用合成音声の音声デ
ータが取り出されて、要求された合成音声が作成され
る。音声合成部１３ｄにおいて作成された合成音声は、
通信制御部１５ｄ，通信回線３０及び通信制御部１５０
ｃを経由して、要求元の音声入出力機器２００ｃに返送
されてきて、スピーカ２ｃから出力される。また、設定
によっては、他の音声入出力機器のスピーカからも、同
一の音質で、該合成音声を出力させることも可能であ
る。

【００４９】本実施例における音声合成装置１０ｄは、
前述のごとく、家庭内やＳＯＨＯなどにおいて、複数の
音声入出力機器が、ネットワークを介して相互に接続さ
れている場合に有効である。この場合、各音声入出力機
器を接続する通信回線は、有線、無線のいずれであって
もよい。本実施例における音声合成装置１０ｄにおいて
は、音声認識部１１ｄや音声合成部１３ｄなどを、一つ
に集中化させて使用するので、各音声入出力機器毎に音
声認識部や音声合成部などを備えさせる必要がなく、経
済化を図ることができる。

【００５０】更に、音声による命令の対象を、入力した
音声入出力機器とは異なる他の音声入出力機器に対する
音声命令として設定することも実施し易い。即ち、たと
えば、居間にある音声入出力機器のマイクロホンを利用
して、他の部屋にある音声入出力装置（たとえば、風呂
の温度調節装置など）の操作も可能であり、操作性が向
上することになる。更には、他の音声入出力機器におけ
る音声出力部を一時的に利用して、他の音声メッセージ
を出力させることも容易に可能になる。たとえば、音声
出力要求をした音声入出力機器の周辺に、たまたま人間
がいない場合などにおいては、人間が近くにいる別の音
声入出力機器のスピーカを一時的に借りて、音声出力要
求をした音声入出力機器に対する合成音声を出力させる
ことができる。かかる場合においては、音声入出力機器
毎に出力合成音声の音質の違いがあることから、どの音
声入出力機器に関する合成音声メッセージが出力された
かの識別が容易にでき、音声入出力機器の識別理解を支
援することができる。具体的には、風呂の湯加減を管理
している音声入出力機器から入浴の準備ができた旨の音
声案内メッセージを、該音声入出力機器自らのスピーカ
から出力させると共に、居間に置かれている別の音声入
出力機器のスピーカからも出力させて、居間にいる人
に、直接伝えることも可能となる。

【００５１】次に、本発明に係る音声合成装置の更に他
の実施形態について、説明する。図６は、本発明に係る
音声合成装置の構成に関する更に他の実施例を示すブロ
ック構成図である。本実施例は、図４，図５の場合と同
様に、家庭内ネットワークやＳＯＨＯなどのネットワー
クにおいて、通信回線で相互接続されている複数の音声
入出力機器に対して有効となる実施例である。但し、図
４，図５の場合とは異なり、通信回線には、各音声入出
力機器を使用している利用者（人間）の入力音声の特徴
（音質）と出力用合成音声の特徴（音質）とを記憶され
ておくことができる音声データ記憶装置が接続されてい
て、新たな音声入出力機器が追加された際に、新たな該
音声入出力機器が出力する合成音声に関する音声データ
の特徴（音質）を、既に存在している音声入出力機器か
らの出力合成音声の特徴（音質）や、利用者全員が発声
する音声情報の特徴（音質）と重ならないように、割り
当て調整させることを可能とするものである。

【００５２】即ち、図６に示すように、複数の音声入出
力機器２０ｅ，２０ｆ…と、音声データ記憶装置１０ｍ
とが、通信回線３０を介して、相互に接続されている。
音声データ記憶装置１０ｍには、複数の該音声入出力機
器２０ｅ，２０ｆ…それぞれの利用者が発声する入力音
声の特徴と、各音声入出力機器２０ｅ，２０ｆ…それぞ
れの出力合成音声に関する音声データの特徴とが、記憶
されている各音声入出力機器２０ｅ，２０ｆ…は、全て
同様に構成からなっており、それぞれ音声合成装置１０
ｅと音声入出力機器制御部２１ｅとを有している。

【００５３】ここに、音声合成装置１０ｅは、音声を入
力するマイクロホン１、入力された入力音声を認識する
音声認識部１１ｅと、音声認識過程において得られた入
力音声の特徴を記憶しておく音声特徴記憶部１１ｖと、
出力用の合成音声に関する音声データを記憶しておく音
声データ記憶部１３ｖと、音声特徴記憶部１１ｖに記憶
された入力音声の特徴に応じて、音声データ記憶部１３
ｖに格納されている出力用の音声データの音質を更新す
る制御を司る音質変更部１２ｅと、該音質変更部１２ｅ
によって更新された音質の音声データに基づいて音声合
成を行なう音声合成部１３ｅと、音声合成部１３ｅによ
り合成された合成音声を出力するスピーカ２とを備えて
いる。

【００５４】また、音声合成装置１０ｅは、通信制御部
１５ｅを介して、音声データ記憶装置１０ｍとも相互接
続されており、音声データ記憶装置１０ｍから送信され
てくる入力音声及び出力音声それぞれに関する特徴情報
（音質情報）に基づいて、音質変更部１２ｅは、音声特
徴記憶部１１ｖに格納されている入力音声の特徴及び音
声データ記憶部１３ｖに格納されている出力用合成音声
の特徴を編集することが可能となっている。

【００５５】一方、音声データ記憶装置１０ｍには、あ
らかじめ対象となる音声入出力機器２０ｅ，２０ｆ…の
利用者が発声する音声情報および該音声入出力機器２０
ｅ，２０ｆ…が出力する合成音声に関する音声情報を入
力するためのマイクロホン１ｍと、該マイクロホン１ｍ
から入力された入力音声情報を認識し、該入力音声情報
の特徴を抽出する音声認識部１１ｍと、抽出された該入
力音声情報の特徴に基づいた音声データを記憶しておく
音声データ記憶部１３ｗと、音声データ記憶部１３ｗに
記憶されている音声データに基づいて、出力用の音声を
合成して、出力合成音声を作成する音声合成部１３ｍ
と、音声合成部１３ｍにより合成された合成音声を出力
するスピーカ２ｍとを備えている。

【００５６】更に、音声データ記憶装置１０ｍには、通
信制御部１５ｍも備えられている。ここで、音声入出力
機器２０ｅ，２０ｆ…のいずれか、たとえば、音声入出
力機器２０ｅにおいて、まだ登録されていない未登録音
声情報の入力がなされた場合、入力があった当該音声入
出力機器２０ｅの音声認識部１１ｅにて該未登録音声情
報に関する特徴情報が抽出されて、新たに音声特徴記憶
部１１ｖに登録されると同時に、音声データ記憶装置１
０ｍに向けて、通信回線３０にも送出される。通信回線
３０を介して送出されてきた該未登録音声情報に関する
特徴情報は、音声データ記憶装置１０ｍの通信制御部１
５ｍにて受信され、該未登録音声情報に関する特徴情報
は、音声データ記憶装置１０ｍ内の音声データ記憶部１
３ｗにも登録記憶される。

【００５７】更に、新しい音声入出力機器が、通信回線
３０に接続された場合、該新しい音声入出力機器の利用
者が発声する音声情報に関する入力音声の特徴を記憶登
録している音声データ記憶部１３ｗの中から、該入力音
声の特徴を抽出して、通信回線３０を介して、新しく接
続された音声入出力機器に送出することにより、新しい
該音声入出力機器内の音声特徴記憶部１１ｖに格納記憶
させる。また、音声データ記憶部１３ｗに登録されてい
る出力用合成音声に関する音声データの特徴（音質）と
は異なる特徴を有する出力用合成音声の特徴（音質）が
作成されるように、新しい音声入出力機器向けの合成音
声用の特徴（音質）を、音声データ記憶部１３ｗに格納
されている音声データの特徴（音質）に基づいて、音質
変更部１２ｍにより作成して、通信回線３０を介して、
新しく接続された音声入出力機器に送出することによ
り、新しい該音声入出力機器内の音声データ記憶部１３
ｖに格納記憶させる。

【００５８】また、新しい音声入出力機器の出力用合成
音声に関する音声データの特徴（音質）は、マイクロホ
ン１ｍを介して、音声データ記憶装置１０ｍに入力され
ることもでき、入力された出力用合成音声に関する音声
データの特徴は、音声データ記憶部１３ｗに記憶格納さ
れる。なお、使わなくなった音声入出力機器を通信回線
３０から外した場合には、該音声入出力機器に対応する
入出力音声に関する特徴情報は、音声データ記憶装置１
０ｍ内の音声データ記憶部１３ｗから削除されることに
なる。

【００５９】次に、図６に示す本発明に係る音声合成装
置１０ｅと音声データ記憶装置１０ｍとにおける動作に
ついて、以下に説明する。まず、マイクロホン１から音
声情報が入力されると、音声認識部１１ｅにおいて、入
力された入力音声情報が、音声入出力機器２０ｅの操作
に関する命令を指示している音声命令であるかを音声認
識する。入力された音声信号が、音声入出力機器操作用
の音声命令である場合、指示されている音声入出力機器
操作を実行せしめるべく、音声入出力機器制御部２１ｅ
の動作制御部に該音声命令を送出する。更に、音声認識
部１１ｅにおいて分析された入力音声情報の特徴は、音
声特徴記憶部１１ｖに保存される。

【００６０】また、合成音声の音質の更新制御を司る音
質変更部１２ｅは、音声特徴記憶部１１ｖに記憶されて
いる入力音声情報の特徴と、現在、音声データ記憶部１
３ｖに記憶されている合成音声用の音声データの特徴と
を比較する。該比較結果に従って、両者の音声に関する
特徴の差が大きく、または、小さくなるように合成音声
の音声データを更新して、音声データ記憶部１３ｖに格
納記憶させる。更に、音質変更部１２ｅは、新たな入力
音声情報の特徴が抽出されて、音声特徴記憶部１１ｖに
記憶された場合には、通信回線３０を介して、音声デー
タ記憶装置１０ｍに、該新たな入力音声情報の特徴を送
出する。逆に、音声データ記憶装置１０ｍから、通信回
線３０を介して、入力音声に関する特徴及び出力合成音
声の特徴の更新要求を受信した場合も、音質変更部１２
ｅは、音声特徴記憶部１１ｖ及び音声データ記憶部１３
ｖの記憶内容を更新する。

【００６１】一方、音声合成部１３ｅに対して、音声入
出力機器２０ｅの音声入出力機器制御部２１ｅから合成
音声の出力命令が発生した場合、音声合成部１３ｅにお
いて、前述したごとく、特徴が更新されて記憶されてい
る合成音声用の音声データを用いて、音声入出力機器制
御部２１ｅから要求されている合成音声が作成される。
作成された合成音声はスピーカ２から出力される。

【００６２】本実施例における音声合成装置１０ｅは、
前述のごとく、音声データ記憶装置１０ｍに、あらかじ
め、使用者の音声の特徴（音質）と既に接続済みの各音
声入出力機器に関する出力合成音声の特徴とを記憶させ
ておくことにより、音声入出力機器が新たに増加したよ
うな場合には、既に、使用されている使用者の音声と、
音声入出力機器の出力合成音声とのそれぞれの特徴の隙
間に入り込むようにして、新たな音声入出力機器の出力
合成音声の特徴（音質）を調整することができる。逆
に、使用しなくなって、通信回線３０から撤去された音
声入出力機器がある場合、残りの音声入出力機器の出力
用合成音声に関する音声データの特徴（音質）を調整し
直すことができる。即ち、通信回線３０に接続される音
声入出力機器即ち音声合成装置が増減設される場合にお
いては、各音声入出力装置即ち音声合成装置毎に出力す
る合成音声に関する音声データの特徴（音質）を再構成
させることができる。

【００６３】たとえば、家庭内において使用する場合、
家族全員の音声の特徴を、音声データ記憶装置１０ｍに
あらかじめ登録しておく。更には、最初から存在して通
信回線３０に接続されている音声入出力機器である電子
レンジ、風呂、冷蔵庫に関するそれぞれの出力用合成音
声の特徴も、音声データ記憶装置１０ｍにあらかじめ登
録しておく。かかる状況において、新たな音声入出力機
器として洗濯機を購入して接続する場合、家族全員の音
声の特徴（音質）と既に存在していた各音声入出力機器
の出力合成音声の特徴（音質）の中から、最も余裕のあ
る範囲にある特徴領域を抽出して、新たな音声入出力機
器である洗濯機の出力用合成音声の特徴（音質）を割り
当てることができる。

【００６４】また、オフィス内においても、既に音声入
出力機器として、コピー機、ＦＡＸがあった場合におい
て、新しい音声入出力機器としてプリンタ装置を購入し
た時には、社員全員の音声の特徴と既存の音声入出力機
器から出力される合成音声の特徴とは異なった特徴を有
する合成音声を出力するプリンタ装置に設定することも
可能である。

【００６５】

【発明の効果】電気製品が増加してきた当初において
は、単純に、電子音を用いて簡単なメッセージを伝えて
いた。しかし、それも個数が増えてくると、どれが鳴っ
ているのかが分からないという状況になってきている。
また、表現したい内容も増加してきたため、電子音に変
わって合成音声でメッセージを案内できる音声入出力機
器が増えてきている。ところが、音声入出力機器の増加
によって、電子音の場合と同様に、どの音声入出力機器
が音声メッセージを出力しているかの特定に迷う場合が
ある。全文を聞けば音声出力機器の特定や内容を把握す
ることはできるが、最初の一部分で音声出力機器の特定
ができれば、すばやく目的の音声出力機器のところに移
動でき必要な操作を早く行なうことができて便利であ
る。

【００６６】本発明に係る音声合成装置を装備する音声
入出力機器においては、各音声入出力機器毎に、異なる
特徴（音質）を有する合成音声を出力することを可能と
しており、該合成音声が出力された音声入出力機器を簡
単に特定することが可能となる。また、利用者が発声す
る入力音声を認識して、該入力音声の特徴（音質）を合
わせて抽出することにより、利用者が発声する音声の特
徴（音質）とも異なる合成音声を出力させることも実現
している。而して、同一室内に複数の音声入出力機器が
設置されていて、かつ、複数の利用者（人間）が存在し
ているような環境であっても、いずれの音声入出力機器
が出力した合成音声であるかを容易に、かつ、確実に識
別することができる。

【図面の簡単な説明】

【図１】本発明に係る音声合成装置の構成の一例を示
すブロック構成図である。

【図２】本発明に係る音声合成装置の構成に関する他
の実施例を示すブロック構成図である。

【図３】本発明に係る音声合成装置の構成に関する更
に他の実施例を示すブロック構成図である。

【図４】本発明に係る音声合成装置の構成に関する更
に他の実施例を示すブロック構成図である。

【図５】本発明に係る音声合成装置の構成に関する更
に他の実施例を示すブロック構成図である。

【図６】本発明に係る音声合成装置の構成に関する更
に他の実施例を示すブロック構成図である。

【符号の説明】

１，１ｃ，１ｄ，１ｍ…マイクロホン、２，２ｃ，２
ｄ，２ｍ…スピーカ、１０，１０ａ，１０ｂ，１０ｃ，
１０ｄ，１０ｅ…音声合成装置、１０ｍ…音声データ記
憶装置、１１，１１ａ，１１ｂ，１１ｃ，１１ｄ，１１
ｅ，１１ｍ…音声認識部、１１ｖ，１１ｘ，１１ｚ…音
声特徴記憶部、１１ｙ…音声特徴・頻度記憶部、１２，
１２ａ，１２ｂ，１２ｃ，１２ｄ，１２ｅ，１２ｍ…音
質変更部、１３，１３ａ，１３ｂ，１３ｃ，１３ｄ，１
３ｅ，１３ｍ…音声合成部、１３ｖ，１３ｗ，１３ｘ，
１３ｚ…音声データ記憶部、１４ａ，１４ｂ…目標音声
決定部、１４ｚ…目標音声特徴記憶部（目標音質記憶
部）、１５ｄ，１５ｅ，１５ｍ…通信制御部、２０，２
０ａ，２０ｂ，２０ｃ，２０ｅ，２０ｆ…音声入出力機
器、２１，２１ａ，２１ｂ，２１ｃ，２１ｃ′，２１
ｄ，２１ｅ…音声入出力機器制御部、２２ａ，２２ｂ…
時計、３０…通信回線、１００ａ，１００ｂ…音声合成
装置、１３０ａ，１３０ｂ…音声データ記憶部、１５０
ｃ，１５０ｄ…通信制御部、２００ａ，２００ｂ，２０
０ｃ，２００ｄ…音声入出力機器。

Claims

【特許請求の範囲】

【請求項１】入力された入力音声を認識する音声認識
手段と、音声認識中に得られた前記入力音声の特徴情報
を記憶しておく音声特徴記憶手段と、音声を出力するた
めの出力音声データを記憶しておく音声データ記憶手段
と、前記出力音声データに基づいて合成音声を出力する
音声出力手段とを有し、前記音声認識中に得られた前記
入力音声の前記特徴情報を利用して、前記出力音声デー
タの音質を変更することができる音質変更手段を備えて
いることを特徴とする音声合成装置。
【請求項２】請求項１に記載の音声合成装置におい
て、前記音声特徴記憶手段に記憶されている前記入力音
声の前記特徴情報に基づいて、最終的な出力音声データ
の音質の目標値を自動的に作成する目標音声決定手段
と、該目標音声決定手段により作成された前記目標値を
記憶しておく目標音質記憶手段とを有し、前記出力音声
データの音質が前記目標値の音質と異なる場合に、前記
目標値の音質に近づけるように、前記出力音声データの
音質を漸次変更していく音質変更手段を備えていること
を特徴とする音声合成装置。
【請求項３】請求項２に記載の音声合成装置におい
て、入力された前記入力音声の特徴情報が、前記音声特
徴記憶手段に既に記憶されている前記特徴情報と、あら
かじめ定められた一定値を超えて異なっている場合、前
記出力音声データの音質の前記目標値を更新させて、出
力音声データの音質の変更機能を更新させることを可能
とする音質変更手段を備えていることを特徴とする音声
合成装置。
【請求項４】請求項１に記載の音声合成装置におい
て、前記出力音声データに基づいて合成音声を出力する
ことができる複数個の音声合成装置が存在する場合、複
数個の前記音声合成装置が相互に通信回線により接続さ
れることにより、複数個の前記音声合成装置が出力する
前記合成音声の音質がそれぞれ異なった音質になるよう
に、各前記音声合成装置の前記出力音声データの音質を
調整可能とする音質変更手段を備えていることを特徴と
する音声合成装置。
【請求項５】請求項４に記載の音声合成装置におい
て、前記音声データ記憶手段に、既に存在する複数個の
前記音声合成装置がそれぞれ有している前記出力音声デ
ータの音質と、前記音声合成装置をそれぞれ使用する利
用者全員が発声する音声情報の音質とを記憶させ、か
つ、前記音声合成装置が増設あるいは減設された場合
に、各前記音声合成装置の前記出力音声データの音質を
再構成させることができる音質変更手段を備えているこ
とを特徴とする音声合成装置。
【請求項６】入力された入力音声を認識する音声認識
手段と、音声認識中に得られた前記入力音声の特徴情報
を記憶しておく音声特徴記憶手段と、音声を出力するた
めの出力音声データを記憶しておく音声データ記憶手段
と、前記出力音声データに基づいて合成音声を出力する
音声出力手段とを有する音声合成装置における前記出力
音声データの音質を変更せしめることができる音声合成
方法において、前記音声認識中に得られた前記入力音声
の前記特徴情報のみに基づいて前記出力音声データの音
質を変更させたり、あるいは、前記特徴情報から最終的
な出力音声データの目標値を作成して漸次該目標値に近
接させるように前記出力音声データの音質を変更させた
り、あるいは、入力された前記入力音声の特徴情報が、
前記音声特徴記憶手段に既に記憶されている前記特徴情
報と、あらかじめ定められた一定値を超えて異なってい
る場合に、前記出力音声データの音質の前記目標値を更
新せしめたり、あるいは、前記出力音声データに基づい
て合成音声を出力することができる複数個の音声合成装
置が存在する場合、複数個の前記音声合成装置を相互に
通信回線により接続して、前記音声合成装置が出力する
前記合成音声の音質がそれぞれ異なった音質になるよう
に各前記音声合成装置の前記出力音声データを調整可能
とせしめたり、あるいは、既に存在する複数個の前記音
声合成装置がそれぞれ有している各前記出力音声データ
の音質と、前記音声合成装置をそれぞれ使用する利用者
全員が発声する音声情報の音質とを記憶させ、前記音声
合成装置が増設あるいは減設された場合に、各前記音声
合成装置の前記出力音声データの音質を再構成させるこ
とができることを特徴とする音声合成方法。
【請求項７】入力された入力音声を認識する音声認識
手段と、音声認識中に得られた前記入力音声の特徴情報
を記憶しておく音声特徴記憶手段と、音声を出力するた
めの出力音声データを記憶しておく音声データ記憶手段
と、前記出力音声データに基づいて合成音声を出力する
音声出力手段とを有する音声合成装置における前記出力
音声データの音質を変更せしめることができる音声合成
方法を、コンピュータによりプログラムとして実行させ
ることができるように記録せしめたコンピュータ読み取
り可能なプログラム記録媒体において、前記音声認識中
に得られた前記入力音声の前記特徴情報のみに基づいて
前記出力音声データの音質を変更させたり、あるいは、
前記特徴情報から最終的な出力音声データの目標値を作
成して漸次該目標値に近接させるように前記出力音声デ
ータの音質を変更させたり、あるいは、入力された前記
入力音声の特徴情報が、前記音声特徴記憶手段に既に記
憶されている前記特徴情報と、あらかじめ定められた一
定値を超えて異なっている場合に、前記出力音声データ
の音質の前記目標値を更新せしめたり、あるいは、前記
出力音声データに基づいて合成音声を出力することがで
きる複数個の音声合成装置が存在する場合、複数個の前
記音声合成装置を相互に通信回線により接続して、前記
音声合成装置が出力する前記合成音声の音質がそれぞれ
異なった音質になるように各前記音声合成装置の前記出
力音声データを調整可能とせしめたり、あるいは、既に
存在する複数個の前記音声合成装置がそれぞれ有してい
る各前記出力音声データの音質と、前記音声合成装置を
それぞれ使用する利用者全員が発声する音声情報の音質
とを記憶させ、前記音声合成装置が増設あるいは減設さ
れた場合に、各前記音声合成装置の前記出力音声データ
の音質を再構成させることができる音声合成方法を、コ
ンピュータによりプログラムとして実行させることがで
きるように記録せしめたことを特徴とするコンピュータ
読み取り可能なプログラム記録媒体。