JP2006113546A

JP2006113546A - 情報伝達装置

Info

Publication number: JP2006113546A
Application number: JP2005206755A
Authority: JP
Inventors: Tokitomo Ariyoshi; 斗紀知有吉; Kazuhiro Nakadai; 一博中臺; Koji Tsujino; 広司辻野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2004-09-14
Filing date: 2005-07-15
Publication date: 2006-04-27
Anticipated expiration: 2025-07-15
Also published as: DE602005001142D1; DE602005001142T2; US8185395B2; ATE362632T1; US20060069559A1; EP1635327A1; JP4456537B2; EP1635327B1

Abstract

【課題】人と機械の親密なコミュニケーションを実現する。
【解決手段】音響信号を検出するマイクＭと、マイクＭが検出した音響信号に基づき、話者の話し方の特徴値を抽出する特徴抽出部１０と、特徴抽出部１０が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部３０と、音声信号生成部３０が生成した音声信号を発話する音声出力部４０と、を備えて、話者の話し方に合わせた返答をする情報伝達装置を構成する。
【選択図】図１

Description

本発明は、ロボットやコンピュータなどに実装されて、人との間で情報伝達をする情報伝達装置に関する。

従来、機械と人との間の情報伝達には、スイッチやキーボード操作、音声の入出力、および画像による表示などの手段が用いられてきた。これらの手段は、記号や言葉で表現できる情報を伝えるのには十分であったが、それ以外の情報を伝えることを想定していなかった。
一方、機械と人のコンタクトは、今後増加すると予想されており、それらの間の情報伝達は容易、正確、親密であることが求められる。そのためには、記号や言葉で表現できない感情のような情報を合わせて伝えることが大切である。
機械と人との間の情報伝達は、人から機械へ伝える手段と、機械から人への手段とが必要であるが、後者において内部状態を表現するには、合成音声に韻律などを付加したり、機械に顔を設けて表情により内部状態を伝えたり、あるいはこれらの聴覚情報と視覚情報とを併せて提示して内部状態を表現することが行われてきた。

たとえば、特許文献１に記載されているマンマシンインタフェース装置では、タスク遂行の結果やユーザから掛けられた言葉によってエージェントの感情変数が変化し、感情変数によって対応する自然言語が選択されて合成音声としてユーザに発話され、また、選択された自然言語に対応する画像が表出される。
また、特許文献２に記載の発明では、ユーザから声を掛けられたり触れられたりすることでロボットの気分値が変化し、気分値に対応した種類の鳴き声と、気分値に対応した目の色が表出される。
特許文献３に記載の発明では、感情を込めた音声を合成し、それに合わせたＬＥＤの光の組合せで自身の感情を表現している。
特開平０６−１３９０４４号公報特開２００２−６６１５５号公報特開２００３−８４８００号公報

ところで、人と機械の親密な情報伝達を行うためには、機械が人の感情を理解し、人が機械の内部状態を理解できることが重要である。しかし、前記した発明のいずれもが、機械の内部状態に注目しただけであり、相手の感情を考慮していない。
このような背景に鑑みて本発明がなされたものであって、本発明は、話者と機械の親密なコミュニケーションを可能にする情報伝達装置を提供することを課題とする。

前記した課題を解決するため、本発明は、話者の話し方を分析して、前記話者の話し方に合わせて発話する情報伝達装置であって、音響信号を検出するマイクと、前記マイクが検出した前記音響信号に基づき、前記話者の話し方の特徴値を抽出する特徴抽出部と、前記特徴抽出部が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部と、前記音声信号生成部が生成した音声信号を発話する音声出力部と、を備えることを特徴とする。

このような情報伝達装置によれば、音声出力部から発話される音声の信号は、音声信号生成部で相手（話者）の話し方の特徴値を有するように変形される。つまり、話者と同じような話し方になるため、相手の感情を理解しているかのようなコミュニケーションを実現することができる。また、お年寄りなど、ゆっくり話す相手に対してはゆっくりと話すことで聞き取りやすくでき、早口で話すせっかちな相手に対しては、早口で話すように、話す早さを特徴値とすれば、会話のテンポが崩れないなど、相手の話し方に合わせることにより、感情面以外でも親密なコミュニケーションをよりやりやすくすることができる。

前記した本発明の情報伝達装置は、前記マイクが検出した音響信号に基づき、予め記憶していた音素と音響モデルとの対応を用いて音素を認識する音声認識部をさらに有し、前記特徴抽出部は、前記音声認識部が認識した音素に基づき前記特徴値を抽出することができる。
また、前記した本発明では、前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することができる。
さらに、前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることもできる。

前記した本発明では、前記音声信号生成部は、音素と音声波形とを対応させた鋳型波形データベースを有しており、発話すべき音素列の各音素に対応する各音声波形を前記鋳型波形データベースから読み出して、前記特徴値に基づきこの読み出された音声波形を変形し、前記音声信号を生成することができる。

また、前記した本発明では、前記特徴値から、感情の推定に用いる特徴量を計算し、この特徴量に基づき前記話者の感情を推定する感情推定部と、前記音声出力部での音声出力に同期させて、前記感情推定部が推定した感情に対応した色彩を表出させる第１色彩出力部とを備えることで、相手の感情に応じた色彩を表出させ、相手に対し明確に内部状態を伝えることができる。

前記した感情の推定のためには、前記感情推定部が、特徴量と、音素または音素列と、感情の種類との対応を記憶した第１感情データベースを有し、前記音声認識部が抽出した前記音素または音素列ごとに前記特徴値から特徴量を計算するとともに、この特徴量と、前記第１感情データベース内の特徴量とを比較して、もっとも近い特徴量に対応した感情を、前記話者の感情として推定することができる。

さらには、前記感情推定部は、前記特徴量と感情の種類との対応を統計的に記憶した第２感情データベースを有し、前記特徴値から特徴量を計算し、この計算した特徴量を前記第２感情データベースを用いて統計的に処理して前記話者の感情を推定する構成とすることができる。このように、音素に基づかずに感情を推定すれば、話者が話した内容によらずに話者の感情を推定することができる。

また、前記第２感情データベースは、各感情の種類ごとに前記マイクを用いて検出した少なくとも一つの発話から前記特徴量を求め、この特徴量を訓練データとして３層パーセプトロンを学習し、特徴量と感情とを統計的に対応付けて構成することができる。

あるいは、前記話者に自己の感情を入力させる感情入力部と、前記音声出力部での音声出力に同期させて、前記感情入力部から入力された感情に対応した色彩を表出させる第２色彩出力部とを備えてもよい。
このような、情報伝達装置によれば、場合に応じて、ユーザの操作により機械の色彩を変化させて親密なコミュニケーションを図ることができる。

前記した本発明によれば、話者の話し方に合った話し方で情報伝達装置が発話できるので、話者と機械とが親密なコミュニケーションをとることができる。

次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。参照する図面において、図１は、実施形態に係る情報伝達装置の構成を示すブロック図である。
本実施形態に係る情報伝達装置１は、話者の話し方を分析して、話者の話し方に合わせて発話し、また、話者の話し方に対応する自身の内部状態を、頭部など体の色によって表出する装置である。情報伝達装置１は、ロボットや、家電製品などに搭載されて、人と対話するものである。典型的には、ＣＰＵ(Central Processing Unit)、記憶装置、マイクを含む入力装置、スピーカなどの出力装置を有する汎用のコンピュータを使用し、記憶装置に格納されたプログラムをＣＰＵに実行させることにより簡易に構成することができる。

図１に示すように、情報伝達装置１はマイクＭと、特徴抽出部１０と、音声認識部２０と、音声信号生成部３０と、音声出力部４０と、スピーカＳと、色彩作成部５０と、ＬＥＤ６０とを含んで構成される。

［マイクＭ］
マイクＭは、情報伝達装置１の周囲の音響を検出する装置であり、対話の相手（話者）の音声を音響信号として検出し、特徴抽出部１０に入力している。

［特徴抽出部１０］
特徴抽出部１０は、話者の音声（音響信号）から、特徴を抽出する部分であり、本実施形態では、特徴値として、音圧データと、ピッチデータと、音素データとを抽出している。このために、特徴抽出部１０は、音圧分析部１１と、周波数分析部１２と、ピーク抽出部１３と、調波構造抽出部１４と、ピッチ抽出部１５とを有している。

〈音圧分析部１１〉
図２は、音圧分析部を説明する図である。
音圧分析部１１は、マイクＭから入力された音響信号を一定のシフト間隔、たとえば１０［ｍｓｅｃ］ごとに信号のエネルギ値を計算し、各シフトごとに得られたエネルギ値を継続して検出された音素ごとに算術平均する。なお、音素の継続時間のデータは音声認識部２０から取得する。
たとえば、図２に示すように、最初の１０［ｍｓｅｃ］の音素が/s/で、続く５０［ｍｓｅｃ］の音素が/a/であれば、１０［ｍｓｅｃ］ごとに音圧を計算して、３０［ｄＢ］、２０［ｄＢ］、１８［ｄＢ］、１８［ｄＢ］、１８［ｄＢ］、１８［ｄＢ］であったならば、最初の１０［ｍｓｅｃ］の音素/s/の音圧が３０［ｄＢ］、その後の音素/a/の音圧が５０［ｍｓｅｃ］の間の音圧の算術平均をとって１８．４［ｄＢ］となる。
音圧データは、この音圧の値に、開始時刻ｔ_nと、継続時間とをセットにして音声信号生成部３０と、色彩作成部５０とに出力される。

〈周波数分析部１２〉
図３は、周波数分析から調波構造の抽出までを説明する模式図であり、図４は、ピッチデータを抽出するまでを説明する図である。
周波数分析部１２は、図３に示すように、マイクＭが検出した音響信号から、微小時間Δｔ、たとえば２５［ｍｓｅｃ］の時間長の信号区間（時間窓）を切り出し（図４参照）、ＦＦＴ（高速フーリエ変換）により周波数分析を行う。この分析結果は、模式的にはスペクトルＳＰのように示される。
なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。

〈ピーク抽出部１３〉
ピーク抽出部１３は、スペクトルＳＰから一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スペクトラルサブトラクション法に基づいた方法（S.F.Boll, A spectral subtraction algorithm for suppression of acoustic noise in speech, Proceedings of 1979 International conference on Acoustics, Speech, and signal Processing (ICASSP-79) 参照）で行う。後者の方法は、スペクトルからピークを抽出し、これをスペクトルから減算し、残差スペクトルを生成する。そして、その残差スペクトルからピークが見つからなくなるまでピーク抽出の処理を繰り返す。
前記スペクトルＳＰに対しピークの抽出を行うと、例えばピークスペクトルＰ１，Ｐ２，Ｐ３のように周波数ｆ１，ｆ２，ｆ３でピークを構成するサブバンドの信号のみが抽出される。
また、図４に示すように、シフト間隔ごとに調波構造の抽出（グルーピング）をすると、シフト間隔によって、調波構造（周波数の組合せ）が変化する。たとえば、図４の例では、最初の１０［ｍｓｅｃ］での周波数は２５０［Ｈｚ］と５００［Ｈｚ］であり、その後の周波数は、１００［Ｈｚ］または１１０［Ｈｚ］を基本周波数とする倍音である。この周波数の違いは、音素により周波数が変わることと、同じ音素でも、話している途中で、ピッチが揺れるためである。

〈調波構造抽出部１４〉
調波構造抽出部１４は、音源が有する調波構造に基づき、特定の調波構造を有するピークをグループにする。例えば、人の声には、多くの調波構造が含まれており、この調波構造は、基本周波数の音と、基本周波数の倍音とからなるので、この規則を有するピークごとにグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、２人の話者が同時に話していれば、２つの調波構造が抽出される。図３の例では、周波数ｆ１，ｆ２，ｆ３のうち、基本周波数がｆ１で、周波数ｆ２，ｆ３がその倍音に相当し、ピークスペクトルＰ１，Ｐ２，Ｐ３が１つの調波構造のグループとなる。仮に、周波数分析で得られたピークの周波数が１００［Ｈｚ］、２００［Ｈｚ］、３００［Ｈｚ］、３１０［Ｈｚ］、５００［Ｈｚ］、７８０［Ｈｚ］である場合、１００［Ｈｚ］、２００［Ｈｚ］、３００［Ｈｚ］、５００［Ｈｚ］をグルーピングし、３１０［Ｈｚ］と７８０［Ｈｚ］は無視する。
また、図４の例では、最初の１０［ｍｓｅｃ］が、２５０［Ｈｚ］を基本周波数とする調波構造であり、続く１０［ｍｓｅｃ］が１１０［Ｈｚ］を基本周波数とする調波構造であり、その後の４０［ｍｓｅｃ］が、１００［Ｈｚ］を基本周波数とする調波構造となっている。なお、音素の継続時間のデータは音声認識部２０から取得する。

〈ピッチ抽出部１５〉
ピッチ抽出部１５は、調波構造抽出部１４がグループにしたピーク群の最も低い周波数、つまり基本周波数を検出した音声のピッチとして選択し、それを所定の条件、たとえば８０［Ｈｚ］から３００［Ｈｚ］の間にあるかどうかを判定する。この選択したピークの周波数がこの範囲にない場合、または１つ前の時間窓のピッチとの違いが±５０％を超える場合には、１つ前の時間窓のピッチで代用する。音素の継続時間に対応するシフト数のピッチが得られたら、継続時間で算術平均し、開始時刻ｔと継続時間とをセットにして音声信号生成部３０および色彩作成部５０へ出力する（図４および図１参照）。

［音声認識部２０］
図５は、音声認識部による特徴抽出を説明する図である。
音声認識部２０は、周波数分析部１２から出力されたスペクトルに基づき、入力された音声の特徴（本発明の「特徴値」とは異なる）をシフト間隔ごとに抽出し、抽出された特徴から、音声の音素を認識する。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数ケプストラム係数（ＭＦＣＣ：Mel-Frequency Cepstrum Coefficient）や、ＬＰＣケプストラムを用いることができる。また、音素の認識は、予め記憶していた音素と音響モデルとの対応を用いて隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）により行うことができる。
音素が抽出されると、結果として、検出された音素の並びである音素列と、各音素の開始時間および継続時間を得ることができる。開始時間は、たとえば話者が話し始めた時間を０とすることができる。

［音声信号生成部３０］
音声信号生成部３０は、音声合成部３１と、鋳型波形データベース３２とを有してなり、特徴抽出部１０から入力された特徴値である音圧データ、ピッチデータ、および音素データと、予め音素と音声波形とを対応付けて記憶した鋳型波形データベース内のデータとに基づき発話すべき音声の信号を生成する部分である。

〈音声合成部３１〉
音声合成部３１は、特徴抽出部１０から入力された音素データに基づき、鋳型波形データベース３２を参照して、その音素データに対応する、鋳型となる音声波形（これを「鋳型波形」という）を読み出す。そして、特徴抽出部１０から音圧データ、ピッチデータが入力されると、その音圧、ピッチにあわせて鋳型波形を変形させる。たとえば、図６に示すような鋳型波形が入力されて、鋳型波形の平均音圧が２０［ｄＢ］であるのに対し、音圧データの音圧が１４［ｄＢ］であったならば、鋳型波形を振幅方向に０．５倍する。
同様に、鋳型波形のピッチが１００［Ｈｚ］であるのに対し、入力されたピッチデータのピッチの周波数が１２０［Ｈｚ］であったならば、鋳型波形を時間軸方向に１００／１２０倍する。この波形を音素継続時間と同じ長さだけ接続する。音素継続時間と同じ長さの音素を作成し終わったら、次の音素データが入力され、同様の処理を繰り返す。
得られた音声波形は音声出力部４０へ出力される。

［音声出力部４０］
音声出力部４０は、音声合成部３１から入力された音声波形を音声信号にしてスピーカＳへ出力する。つまり、音声波形をＤ／Ａ変換し、アンプで増幅して、適当なタイミング、たとえば話者が話し終わってから３秒後に音声信号としてスピーカＳへ出力する。

［色彩作成部５０］
色彩作成部５０は、図１に示すように感情推定部５１と、感情入力部５２と、色彩出力部５３とを有する。

〈感情推定部５１〉
感情推定部５１は、特徴抽出部１０から入力された音圧データ、ピッチデータ、および音素データと、予め記憶している第１感情データベース５１ａ内のデータとに基づき話者の感情を推定する。
第１感情データベース５１ａは、学習により生成される。図７は、学習時の色彩作成部を示す情報伝達装置のブロック図である。図７に示すように、特徴抽出部１０から出力される音圧データ、音素データ、およびピッチデータは、色彩作成部５０の学習部５１ｃに入力され、学習部５１ｃで生成された学習データが第１感情データベース５１ａに蓄積される。

学習部５１ｃは、入力された音声から抽出された特徴値から感情の推定に用いる特徴量を求め、その特徴量と感情とを対応付けたデータを生成する。一般に、話者の感情は、ピッチ、音素継続時間、音量（音圧）に表れるので、これらのデータを含む音圧データ、ピッチデータ、および音素データから話者の感情を推定しうる。
データベースの生成は以下のようにして行う。
（１）いくつかの文章、たとえば１００の文章を用意し、喜び、怒り、哀しみの各感情を込めた発話、および感情を込めない中立な発話を人により行う。
（２）各発話について、マイクＭで音響を検出し、特徴抽出部１０および音声認識部２０により、音圧データ、ピッチデータ、および音素データを取得する。
（３）学習部５１ｃにより、各音圧データ、各ピッチデータ、および各音素データから、下記の各特徴量を求める。
（４）求められた各特徴量を、発話時の感情と対応付ける。

〔特徴量〕
前記（３）で求める特徴量は以下のように求める。
ｆ_av：平均ピッチ（予め定めた区間に含まれるピッチの平均）
ｐ_av：平均音圧（予め定めた区間に含まれる音圧の平均）
ｄ：音素密度（予め定めた区間に含まれる音素の数ｎを、予め定めた区間の時間で割った値）
ｆ_dif：平均ピッチ変化率（予め定めた区間をさらに３つの小区間に分けてそれぞれのピッチの平均を求め、それらのピッチの変化率を求めた値。たとえば、各小区間のピッチの平均を時系列に並べて一次関数で近似しその傾きとして求める。）
ｐ_dif：平均音圧変化率（予め定めた区間をさらに３つの小区間に分けてそれぞれの音圧の平均を求め、それから音量の変化率を求めた値。たとえば、各小区間の音圧の平均を時系列に並べて一次関数で近似し、その傾きとして求める。）
ｆ_av／Ｆ_av：ピッチ指数（予め定めた区間のｆ_avのＦ_avに対する割合）
ｐ_av／Ｐ_av：音圧指数（予め定めた区間のｐ_avのＰ_avに対する割合）
ｎ／Ｎ：音素指数（予め定めた区間のｎのＮに対する割合）
但し、Ｆ_avは、発話に含まれる全ピッチデータの平均である平均ピッチ、Ｐ_avは、全音圧データの平均である平均パワー、Ｎは、全音素データの音素数の平均である。

なお、第１感情データベース５１ａは、特定話者の発話により作成したものと、不特定話者の発話により作成したものとを用意する。不特定話者用のデータベースは、複数の人の発話により得られた特徴量を平均して作成する。

第１感情データベース５１ａは、図８に示すように前記した８種類の特徴量のうち少なくとも１つの特徴量を、全文章について全感情（喜、怒、哀、中立）の発話について抽出し、各特徴量と感情と音素列とを対応付けたデータを含む。たとえば、文章が「サビオラがモナコへ期限付きの移籍をした」の場合、この文章をそれぞれの感情で発話し、各発話を予め定めた区間、たとえば３つの等しい時間区間に分ける。あるいは、発話全体でみたピッチの流れの変曲点は、等しい音素数で区間を分けてもよい。８つの特徴量のうち、少なくとも１つを各区間について求める。図８は、８つの特徴量のうち、音素密度ｄと平均ピッチ変化率ｆ_difを特徴量として、この特徴量と、「喜」「怒」「哀」「中立」の感情と、音素とを区間ごとに関連づけてある。

感情データベースとしては、前記した第１感情データベース５１ａに限らず、たとえば次のような第２感情データベースであってもよい。
第２感情データベースは、前記した８種類の特徴量のうち、少なくとも１つの特徴量と感情とを対応付けたデータを含み音素情報は含まない。
第２感情データベースは、図８に示した特徴量データをすべての文章について求め、それらを感情ごとにグループ分けして、その対応関係を統計的に学習する。たとえば、文章の数が１００個であるとすると、「喜」にグループ分けされた特徴量が１００個得られるので、これを訓練データとして、３層パーセプトロンを学習する（入力層は特徴量の数に対応させ、中間層は任意とする）。「怒」「哀」「中立」にグループ分けされた特徴量についても同様に学習する。
このようにして、特徴量と感情とを対応づけたニューラルネットワークが得られる（図９参照）。ニューラルネットワークの代わりに、ＳＶＭ(Support Vector Machine)や他の統計的手法を用いることもできる。

推定部５１ｂは、入力された音圧データ、音素データ、およびピッチデータから、学習時と同様にして、一連の発話音声を３つの等しい時間区間に分け、第１感情データベース５１ａに適用された特徴量、つまり図８の例では音素密度ｄと平均ピッチ変化率ｆ_difを計算し、これらの特徴量が第１感情データベース５１ａの「喜」「怒」「哀」「中立」のいずれに近いかを計算する。この計算は、たとえば、求められた音素密度ｄ₁，ｄ₂，ｄ₃と、平均ピッチ変化率ｆ_dif1，ｆ_dif2，ｆ_dif3と、音素列の各音素（つまり、一発話の一連の音素のそれぞれが要素となる）とを要素とする一つのベクトルを作り、一方で、第１感情データベース５１ａの各音素密度ｄ₁喜，ｄ₂喜，ｄ₃喜と、平均ピッチ変化率ｆ_dif1喜，ｆ_dif2喜，ｆ_dif3喜と、音素列の各音素（つまり、図８の例では、savio…shitaの各音素がそれぞれ要素となる）とを要素とするもう一つのベクトルを作り、この二つのベクトルのユークリッド距離を計算することで求められる。

また、前記した第２感情データベースを用いる場合には、入力された音圧データ、音素データ、およびピッチデータから、第１感情データベース５１ａの学習時と同様にして、一連の発話音声を３つの等しい時間区間に分け、第２感情データベースに適用された特徴量、たとえば音素密度ｄ₁，ｄ₂，ｄ₃と平均ピッチ変化率ｆ_dif1，ｆ_dif2，ｆ_dif3を計算する。そして、得られた特徴量をニューラルネットワークあるいはＳＶＭかその他の統計手法など、特徴と感情の関係を学習したものに入力し、出力結果で対応する感情を推定する。
このように第２感情データベースを用いて感情を推定すれば、音素によらずに話者の感情を推定できるので、いままで聞いたことがない言葉を話者が話した場合でも、感情の推定が可能になる。一方で、しばしば話される言葉については、音素に依存する第１感情データベース５１ａを用いた方が推定の精度が高いので、第１感情データベース５１ａと第２感情データベースを両方備えて、話者の話した言葉に応じて使い分けることで、柔軟かつ高精度な感情の推定が可能になる。

〈感情入力部５２〉
感情入力部５２は、話者などのユーザの操作により感情を入力する部分であり、マウスやキーボード、専用のボタンなどを設けて「喜」「怒」「哀」などの感情の種類を入力できるように構成してある。なお、感情入力部５２は任意的に設ければよい。また、感情の種類に加えて、表出する感情などの内部状態の強さを入力できるように構成してもよい。この場合、たとえば感情の強さを０〜１の間の数値で入力する。

〈色彩出力部５３〉
色彩出力部５３（第１色彩出力部、第２色彩出力部）は、感情推定部５１または感情入力部５２から入力された感情を表現する部分であり、色彩選択部５３ａ、色彩強度変調部５３ｂ、および色彩調整部５３ｃを有する。

色彩選択部５３ａは、入力された感情に応じて色彩を選択する部分である。感情と色彩との対応は、シャイエの色彩心理学など色彩心理の研究に基づいて決め、たとえば「喜」の感情には「黄」、「怒」の感情には「赤」、「哀」の感情には「青」をそれぞれ対応付けて予め記憶している。推定された感情が「中立」であった場合には、色彩を変えないため色彩に関する処理をここで終了する。

色彩強度変調部５３ｂは、音素データごとに表出させる色彩の強度、つまり光の強度を求める。本実施形態では、光の強度を０から１で表し、音素データが入力されたら（つまり、発話するとき）１、音素データの入力が終了したら（発話が終了したら）０を出力する。
なお、ユーザの操作により感情の強度を入力された場合には、この入力された強度を出力する。

色彩調整部５３ｃは、色彩選択部５３ａから入力された色彩と、色彩強度変調部５３ｂから入力された色彩強度から、表出器であるＬＥＤ６０への出力を調整する。この調整は、ＬＥＤ６０が、図１０（ａ）に示すようなロボットＲの頭部ＲＨである場合、感情の種類として頭部ＲＨに複数配置された「黄」「赤」「青」のＬＥＤ６０の色の種類を選択し、強度として発光させるＬＥＤ６０の個数を調整する。
なお、情報伝達装置１がディスプレイを有する場合には、色彩の表出をディスプレイで行ってもよい。たとえば、図１０（ｂ）に示すように、ディスプレイＤ内にロボットＲの頭部ＲＨを表示させ、ロボットＲの顔部ＲＦと頭部ＲＨの境界Ｂ部分を感情などの内部状態表出領域として「黄」「赤」「青」などの色を表示することができる。

以上のように構成された情報伝達装置１の動作について、図１１のフローチャートを参照しながら説明する。
まず、マイクＭで検出された音響信号は、周波数分析部１２により２５［ｍｓｅｃ］などの時間窓ごとに周波数分析され（Ｓ１）、音声認識部２０で音素と音響モデルとの対応関係に基づき音声認識がなされ、音素が抽出される（Ｓ２）。抽出された音素は、その継続時間とともに音圧分析部１１、ピッチ抽出部１５、および音声信号生成部３０へ出力される。

次に、音圧分析部１１で音圧が計算され（Ｓ３）、音圧データとして、音声信号生成部３０および色彩作成部５０へ出力される。この際、音声認識部２０から、音素の継続時間が入力されているので、音素ごとに音圧が計算される。

そして、ピッチの抽出のため、ピーク抽出部１３では、周波数分析部１２の結果からピークを検出し（Ｓ４）、検出したピークの周波数配列から調波構造を抽出する（Ｓ５）。さらに、調波構造の最も低い周波数のピークを選択し、このピークの周波数が８０［Ｈｚ］から３００［Ｈｚ］の間にある場合には、このピークをピッチとし、無い場合には、この条件を満たす他のピークの周波数をピッチとして選択する（Ｓ６）。

次に、色彩作成部５０の感情推定部５１で、入力された音圧データ、音素データ、およびピッチデータから、特徴量（ｄ₁，ｆ_dif）を求め、第１感情データベース５１ａの感情ごとの特徴量と比較して、「喜」「怒」「哀」「中立」のうち最も近い特徴量を有する感情を推定された感情とする（Ｓ７）。

次に、色彩作成部５０で推定された感情に基づいて、色彩出力部５３において、予め記憶していた色彩と感情の対応にしたがって色彩を選択し、感情の強度から表出すべき内部状態（光）の強さ（ＬＥＤ６０の個数）を調整する（Ｓ８）。

一方、音声信号生成部３０では、話者の話し方に合った、言い換えれば、同じ特徴値を有する音声信号を作成する（Ｓ９〜Ｓ１６）。
まず、音声合成部３１に、ピッチデータ、音素データ、および音圧データが入力される（Ｓ９）。
また、各音素について音素継続時間が読み込まれる（Ｓ１０）。そして、鋳型波形データベース３２を参照して、音素データと同じ鋳型波形を選択する（Ｓ１１）。その後、音圧データの音圧に合わせて鋳型波形を振幅軸方向に伸縮させ（Ｓ１２）、ピッチデータのピッチに合わせて鋳型波形を時間軸方向に伸縮させる（Ｓ１３）。この操作により、情報伝達装置１が発話すべき音声信号は、話者の話し方の声の大きさおよび声の高さが話者に一致する。
次に、変形した鋳型波形を、既に変形して生成した鋳型波形と接続する（Ｓ１４）。
既に接続された鋳型波形の継続時間が、現在処理中の音素の継続時間よりも小さければ（Ｓ１５、Ｎｏ）、変形した鋳型波形の接続を繰り返し（Ｓ１４）、大きければ（Ｓ１５、Ｙｅｓ）、その音素の波形はできあがったということなので、次の処理へ進む。そして、次の音素データがあれば（Ｓ１６、Ｙｅｓ）、ステップＳ９〜Ｓ１６を繰り返して、その音素の音声信号を作成し、次の音素データがなければ（Ｓ１６、Ｎｏ）、色彩の出力と同時に合成音声が出力される（Ｓ１７）。

以上のようにして、本実施形態の情報伝達装置１によれば、相手の話し方に合わせて音声信号を作成して、情報の伝達を行うことができる。すなわち、機械が話者と同じような話し方をしてくれることから、話者（人）は、機械と感情面で共感でき、また、情報の伝達もスムーズとなる。
また、話者の感情を推定して、その感情に合わせた色彩を、発話と同時に表出するので、話者から見ると、自分の気持ちが分かってくれたように感じられ、親密なコミュニケーションが可能となり、ディジタルデバイドの解消に役立つ。

以上、本発明の実施形態について説明したが、本発明は前記した実施形態に限定されず、適宜変更して実施することが可能である。
たとえば、実施形態においては、音圧とピッチについて話者の特徴をまねして発話させるようにしたが、話者が話す早さをまねるように構成してもよい。話者が話す早さをまねるには、話者が話した言葉の音素ごとの音素継続時間を平均するなどして、話者が話す早さを特定し、その話す早さに合わせて発話すべき音素の音素継続時間を変更して、話者の話す早さに合わせた発話をすることが可能である。このように構成すれば、お年寄りがゆっくり情報伝達装置１に話しかければ、情報伝達装置１はゆっくりと話すので、お年寄りは聞き取りが容易になる。逆にせっかちな人が情報伝達装置１に対し早口で話しかければ、情報伝達装置１も早口で返答するので、せっかちな人をいらいらさせることもない。このように、話す早さを合わせることで、円滑なコミュニケーションが可能になる。

本発明は、典型的には、ＣＰＵ、記憶装置などを有するコンピュータに、予め組まれたプログラムを実行させて、入力された音声データに基づき演算、解析するのが簡便であるが、必ずしも汎用的なコンピュータによらず、専用の回路を組んだ装置により構成することも可能である。

また、鋳型波形データベース３２には、１つの音素に対して１つの鋳型波形を対応させるのではなく、複数種類の鋳型波形を対応させ、この複数種類の鋳型波形の中から適当なものを選択して繋ぎ合わせることで音声波形を作成してもよい。たとえば、鋳型波形データベースは、各音素に対して、ピッチや時間長、音圧の違う複数種類（たとえば２５００種類）の鋳型波形を備えることができる。この場合、音声合成部３１は、発話すべき全ての音素について、ピッチデータ、音圧データ、および音素継続時間が最も近い鋳型波形を選択し、それらのピッチ、音圧、音素継続時間を、入力音声により近づくように微調整し、接続して音声を作成するとよい。

また、話者の感情に応じて色彩を変更するのは、頭部に限られず、外部から認識可能ないずれかの部分や、全体を変更してもよい。

実施形態に係る情報伝達装置の構成を示すブロック図である。音圧分析部を説明する図である。周波数分析から調波構造の抽出までを説明する模式図である。ピッチデータを抽出するまでを説明する図である。音声認識部による特徴抽出を説明する図である。鋳型波形の一例を示す図である。学習時の色彩作成部を示す情報伝達装置のブロック図である。第１感情データベースの一例を示す図である。第２感情データベースとして得られるニューラルネットワークの概念図である。（ａ）は、ロボットの頭部が光る例、（ｂ）は、ディスプレイ内に表示したロボットで内部状態を表出する例を示す。情報伝達装置の動作を説明するフローチャートである。

符号の説明

１情報伝達装置
１０特徴抽出部
１１音圧分析部
１２周波数分析部
１３ピーク抽出部
１４調波構造抽出部
１５ピッチ抽出部
２０音声認識部
３０音声信号生成部
３１音声合成部
３２鋳型波形データベース
４０音声出力部
５０色彩作成部
５１感情推定部
５１ａ第１感情データベース
５２感情入力部
５３色彩出力部
６０ＬＥＤ
Ｄディスプレイ
Ｍマイク

Claims

話者の話し方を分析して、前記話者の話し方に合わせて発話する情報伝達装置であって、
音響信号を検出するマイクと、
前記マイクが検出した前記音響信号に基づき、前記話者の話し方の特徴値を抽出する特徴抽出部と、
前記特徴抽出部が抽出した前記特徴値に基づき、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部と、
前記音声信号生成部が生成した音声信号を発話する音声出力部と、を備えることを特徴とする情報伝達装置。
前記マイクが検出した音響信号に基づき、予め記憶していた音素と音響モデルとの対応を用いて音素を認識する音声認識部をさらに有し、
前記特徴抽出部は、前記音声認識部が認識した音素に基づき前記特徴値を抽出することを特徴とする請求項１に記載の情報伝達装置。
前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することを特徴とする請求項１または請求項２に記載の情報伝達装置。
前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることを特徴とする請求項１または請求項２に記載の情報伝達装置。
前記音声信号生成部は、音素と音声波形とを対応させた鋳型波形データベースを有しており、発話すべき音素列の各音素に対応する各音声波形を前記鋳型波形データベースから読み出して、前記特徴値に基づきこの読み出された音声波形を変形し、前記音声信号を生成することを特徴とする請求項２から請求項４のいずれか１項に記載の情報伝達装置。
前記特徴値から、感情の推定に用いる特徴量を計算し、この特徴量に基づき前記話者の感情を推定する感情推定部と、
前記音声出力部での音声出力に同期させて、前記感情推定部が推定した感情に対応した色彩を表出させる第１色彩出力部とを備えることを特徴とする請求項２から請求項５のいずれか１項に記載の情報伝達装置。
前記感情推定部は、特徴量と、音素または音素列と、感情の種類との対応を記憶した第１感情データベースを有し、前記音声認識部が抽出した前記音素または音素列ごとに前記特徴値から特徴量を計算するとともに、この特徴量と、前記第１感情データベース内の特徴量とを比較して、もっとも近い特徴量に対応した感情を、前記話者の感情として推定することを特徴とする請求項６に記載の情報伝達装置。
前記感情推定部は、前記特徴量と感情の種類との対応を統計的に記憶した第２感情データベースを有し、前記特徴値から特徴量を計算し、この計算した特徴量を前記第２感情データベースを用いて統計的に処理して前記話者の感情を推定することを特徴とする請求項６または請求項７に記載の情報伝達装置。
前記第２感情データベースは、各感情の種類ごとに前記マイクを用いて検出した少なくとも一つの発話から前記特徴量を求め、この特徴量を訓練データとして３層パーセプトロンを学習し、特徴量と感情とを統計的に対応付けてなることを特徴とする請求項８に記載の情報伝達装置。
前記話者に自己の感情を入力させる感情入力部と、
前記音声出力部での音声出力に同期させて、前記感情入力部から入力された感情に対応した色彩を表出させる第２色彩出力部とを備えることを特徴とする請求項１から請求項９のいずれか１項に記載の情報伝達装置。