JP2006113546A - 情報伝達装置 - Google Patents
情報伝達装置 Download PDFInfo
- Publication number
- JP2006113546A JP2006113546A JP2005206755A JP2005206755A JP2006113546A JP 2006113546 A JP2006113546 A JP 2006113546A JP 2005206755 A JP2005206755 A JP 2005206755A JP 2005206755 A JP2005206755 A JP 2005206755A JP 2006113546 A JP2006113546 A JP 2006113546A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- unit
- feature
- phoneme
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
Abstract
【解決手段】 音響信号を検出するマイクMと、マイクMが検出した音響信号に基づき、話者の話し方の特徴値を抽出する特徴抽出部10と、特徴抽出部10が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部30と、音声信号生成部30が生成した音声信号を発話する音声出力部40と、を備えて、話者の話し方に合わせた返答をする情報伝達装置を構成する。
【選択図】 図1
Description
一方、機械と人のコンタクトは、今後増加すると予想されており、それらの間の情報伝達は容易、正確、親密であることが求められる。そのためには、記号や言葉で表現できない感情のような情報を合わせて伝えることが大切である。
機械と人との間の情報伝達は、人から機械へ伝える手段と、機械から人への手段とが必要であるが、後者において内部状態を表現するには、合成音声に韻律などを付加したり、機械に顔を設けて表情により内部状態を伝えたり、あるいはこれらの聴覚情報と視覚情報とを併せて提示して内部状態を表現することが行われてきた。
また、特許文献2に記載の発明では、ユーザから声を掛けられたり触れられたりすることでロボットの気分値が変化し、気分値に対応した種類の鳴き声と、気分値に対応した目の色が表出される。
特許文献3に記載の発明では、感情を込めた音声を合成し、それに合わせたLEDの光の組合せで自身の感情を表現している。
このような背景に鑑みて本発明がなされたものであって、本発明は、話者と機械の親密なコミュニケーションを可能にする情報伝達装置を提供することを課題とする。
また、前記した本発明では、前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することができる。
さらに、前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることもできる。
このような、情報伝達装置によれば、場合に応じて、ユーザの操作により機械の色彩を変化させて親密なコミュニケーションを図ることができる。
本実施形態に係る情報伝達装置1は、話者の話し方を分析して、話者の話し方に合わせて発話し、また、話者の話し方に対応する自身の内部状態を、頭部など体の色によって表出する装置である。情報伝達装置1は、ロボットや、家電製品などに搭載されて、人と対話するものである。典型的には、CPU(Central Processing Unit)、記憶装置、マイクを含む入力装置、スピーカなどの出力装置を有する汎用のコンピュータを使用し、記憶装置に格納されたプログラムをCPUに実行させることにより簡易に構成することができる。
マイクMは、情報伝達装置1の周囲の音響を検出する装置であり、対話の相手(話者)の音声を音響信号として検出し、特徴抽出部10に入力している。
特徴抽出部10は、話者の音声(音響信号)から、特徴を抽出する部分であり、本実施形態では、特徴値として、音圧データと、ピッチデータと、音素データとを抽出している。このために、特徴抽出部10は、音圧分析部11と、周波数分析部12と、ピーク抽出部13と、調波構造抽出部14と、ピッチ抽出部15とを有している。
図2は、音圧分析部を説明する図である。
音圧分析部11は、マイクMから入力された音響信号を一定のシフト間隔、たとえば10[msec]ごとに信号のエネルギ値を計算し、各シフトごとに得られたエネルギ値を継続して検出された音素ごとに算術平均する。なお、音素の継続時間のデータは音声認識部20から取得する。
たとえば、図2に示すように、最初の10[msec]の音素が/s/で、続く50[msec]の音素が/a/であれば、10[msec]ごとに音圧を計算して、30[dB]、20[dB]、18[dB]、18[dB]、18[dB]、18[dB]であったならば、最初の10[msec]の音素/s/の音圧が30[dB]、その後の音素/a/の音圧が50[msec]の間の音圧の算術平均をとって18.4[dB]となる。
音圧データは、この音圧の値に、開始時刻tnと、継続時間とをセットにして音声信号生成部30と、色彩作成部50とに出力される。
図3は、周波数分析から調波構造の抽出までを説明する模式図であり、図4は、ピッチデータを抽出するまでを説明する図である。
周波数分析部12は、図3に示すように、マイクMが検出した音響信号から、微小時間Δt、たとえば25[msec]の時間長の信号区間(時間窓)を切り出し(図4参照)、FFT(高速フーリエ変換)により周波数分析を行う。この分析結果は、模式的にはスペクトルSPのように示される。
なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。
ピーク抽出部13は、スペクトルSPから一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スペクトラルサブトラクション法に基づいた方法(S.F.Boll, A spectral subtraction algorithm for suppression of acoustic noise in speech, Proceedings of 1979 International conference on Acoustics, Speech, and signal Processing (ICASSP-79) 参照)で行う。後者の方法は、スペクトルからピークを抽出し、これをスペクトルから減算し、残差スペクトルを生成する。そして、その残差スペクトルからピークが見つからなくなるまでピーク抽出の処理を繰り返す。
前記スペクトルSPに対しピークの抽出を行うと、例えばピークスペクトルP1,P2,P3のように周波数f1,f2,f3でピークを構成するサブバンドの信号のみが抽出される。
また、図4に示すように、シフト間隔ごとに調波構造の抽出(グルーピング)をすると、シフト間隔によって、調波構造(周波数の組合せ)が変化する。たとえば、図4の例では、最初の10[msec]での周波数は250[Hz]と500[Hz]であり、その後の周波数は、100[Hz]または110[Hz]を基本周波数とする倍音である。この周波数の違いは、音素により周波数が変わることと、同じ音素でも、話している途中で、ピッチが揺れるためである。
調波構造抽出部14は、音源が有する調波構造に基づき、特定の調波構造を有するピークをグループにする。例えば、人の声には、多くの調波構造が含まれており、この調波構造は、基本周波数の音と、基本周波数の倍音とからなるので、この規則を有するピークごとにグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、2人の話者が同時に話していれば、2つの調波構造が抽出される。図3の例では、周波数f1,f2,f3のうち、基本周波数がf1で、周波数f2,f3がその倍音に相当し、ピークスペクトルP1,P2,P3が1つの調波構造のグループとなる。仮に、周波数分析で得られたピークの周波数が100[Hz]、200[Hz]、300[Hz]、310[Hz]、500[Hz]、780[Hz]である場合、100[Hz]、200[Hz]、300[Hz]、500[Hz]をグルーピングし、310[Hz]と780[Hz]は無視する。
また、図4の例では、最初の10[msec]が、250[Hz]を基本周波数とする調波構造であり、続く10[msec]が110[Hz]を基本周波数とする調波構造であり、その後の40[msec]が、100[Hz]を基本周波数とする調波構造となっている。なお、音素の継続時間のデータは音声認識部20から取得する。
ピッチ抽出部15は、調波構造抽出部14がグループにしたピーク群の最も低い周波数、つまり基本周波数を検出した音声のピッチとして選択し、それを所定の条件、たとえば80[Hz]から300[Hz]の間にあるかどうかを判定する。この選択したピークの周波数がこの範囲にない場合、または1つ前の時間窓のピッチとの違いが±50%を超える場合には、1つ前の時間窓のピッチで代用する。音素の継続時間に対応するシフト数のピッチが得られたら、継続時間で算術平均し、開始時刻tと継続時間とをセットにして音声信号生成部30および色彩作成部50へ出力する(図4および図1参照)。
図5は、音声認識部による特徴抽出を説明する図である。
音声認識部20は、周波数分析部12から出力されたスペクトルに基づき、入力された音声の特徴(本発明の「特徴値」とは異なる)をシフト間隔ごとに抽出し、抽出された特徴から、音声の音素を認識する。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)や、LPCケプストラムを用いることができる。また、音素の認識は、予め記憶していた音素と音響モデルとの対応を用いて隠れマルコフモデル(HMM:Hidden Markov Model)により行うことができる。
音素が抽出されると、結果として、検出された音素の並びである音素列と、各音素の開始時間および継続時間を得ることができる。開始時間は、たとえば話者が話し始めた時間を0とすることができる。
音声信号生成部30は、音声合成部31と、鋳型波形データベース32とを有してなり、特徴抽出部10から入力された特徴値である音圧データ、ピッチデータ、および音素データと、予め音素と音声波形とを対応付けて記憶した鋳型波形データベース内のデータとに基づき発話すべき音声の信号を生成する部分である。
音声合成部31は、特徴抽出部10から入力された音素データに基づき、鋳型波形データベース32を参照して、その音素データに対応する、鋳型となる音声波形(これを「鋳型波形」という)を読み出す。そして、特徴抽出部10から音圧データ、ピッチデータが入力されると、その音圧、ピッチにあわせて鋳型波形を変形させる。たとえば、図6に示すような鋳型波形が入力されて、鋳型波形の平均音圧が20[dB]であるのに対し、音圧データの音圧が14[dB]であったならば、鋳型波形を振幅方向に0.5倍する。
同様に、鋳型波形のピッチが100[Hz]であるのに対し、入力されたピッチデータのピッチの周波数が120[Hz]であったならば、鋳型波形を時間軸方向に100/120倍する。この波形を音素継続時間と同じ長さだけ接続する。音素継続時間と同じ長さの音素を作成し終わったら、次の音素データが入力され、同様の処理を繰り返す。
得られた音声波形は音声出力部40へ出力される。
音声出力部40は、音声合成部31から入力された音声波形を音声信号にしてスピーカSへ出力する。つまり、音声波形をD/A変換し、アンプで増幅して、適当なタイミング、たとえば話者が話し終わってから3秒後に音声信号としてスピーカSへ出力する。
色彩作成部50は、図1に示すように感情推定部51と、感情入力部52と、色彩出力部53とを有する。
感情推定部51は、特徴抽出部10から入力された音圧データ、ピッチデータ、および音素データと、予め記憶している第1感情データベース51a内のデータとに基づき話者の感情を推定する。
第1感情データベース51aは、学習により生成される。図7は、学習時の色彩作成部を示す情報伝達装置のブロック図である。図7に示すように、特徴抽出部10から出力される音圧データ、音素データ、およびピッチデータは、色彩作成部50の学習部51cに入力され、学習部51cで生成された学習データが第1感情データベース51aに蓄積される。
データベースの生成は以下のようにして行う。
(1)いくつかの文章、たとえば100の文章を用意し、喜び、怒り、哀しみの各感情を込めた発話、および感情を込めない中立な発話を人により行う。
(2)各発話について、マイクMで音響を検出し、特徴抽出部10および音声認識部20により、音圧データ、ピッチデータ、および音素データを取得する。
(3)学習部51cにより、各音圧データ、各ピッチデータ、および各音素データから、下記の各特徴量を求める。
(4)求められた各特徴量を、発話時の感情と対応付ける。
前記(3)で求める特徴量は以下のように求める。
fav :平均ピッチ(予め定めた区間に含まれるピッチの平均)
pav :平均音圧(予め定めた区間に含まれる音圧の平均)
d :音素密度(予め定めた区間に含まれる音素の数nを、予め定めた区間の時間で割った値)
fdif :平均ピッチ変化率(予め定めた区間をさらに3つの小区間に分けてそれぞれのピッチの平均を求め、それらのピッチの変化率を求めた値。たとえば、各小区間のピッチの平均を時系列に並べて一次関数で近似しその傾きとして求める。)
pdif :平均音圧変化率(予め定めた区間をさらに3つの小区間に分けてそれぞれの音圧の平均を求め、それから音量の変化率を求めた値。たとえば、各小区間の音圧の平均を時系列に並べて一次関数で近似し、その傾きとして求める。)
fav/Fav:ピッチ指数(予め定めた区間のfavのFavに対する割合)
pav/Pav:音圧指数(予め定めた区間のpavのPavに対する割合)
n/N:音素指数(予め定めた区間のnのNに対する割合)
但し、Favは、発話に含まれる全ピッチデータの平均である平均ピッチ、Pavは、全音圧データの平均である平均パワー、Nは、全音素データの音素数の平均である。
第2感情データベースは、前記した8種類の特徴量のうち、少なくとも1つの特徴量と感情とを対応付けたデータを含み音素情報は含まない。
第2感情データベースは、図8に示した特徴量データをすべての文章について求め、それらを感情ごとにグループ分けして、その対応関係を統計的に学習する。たとえば、文章の数が100個であるとすると、「喜」にグループ分けされた特徴量が100個得られるので、これを訓練データとして、3層パーセプトロンを学習する(入力層は特徴量の数に対応させ、中間層は任意とする)。「怒」「哀」「中立」にグループ分けされた特徴量についても同様に学習する。
このようにして、特徴量と感情とを対応づけたニューラルネットワークが得られる(図9参照)。ニューラルネットワークの代わりに、SVM(Support Vector Machine)や他の統計的手法を用いることもできる。
このように第2感情データベースを用いて感情を推定すれば、音素によらずに話者の感情を推定できるので、いままで聞いたことがない言葉を話者が話した場合でも、感情の推定が可能になる。一方で、しばしば話される言葉については、音素に依存する第1感情データベース51aを用いた方が推定の精度が高いので、第1感情データベース51aと第2感情データベースを両方備えて、話者の話した言葉に応じて使い分けることで、柔軟かつ高精度な感情の推定が可能になる。
感情入力部52は、話者などのユーザの操作により感情を入力する部分であり、マウスやキーボード、専用のボタンなどを設けて「喜」「怒」「哀」などの感情の種類を入力できるように構成してある。なお、感情入力部52は任意的に設ければよい。また、感情の種類に加えて、表出する感情などの内部状態の強さを入力できるように構成してもよい。この場合、たとえば感情の強さを0〜1の間の数値で入力する。
色彩出力部53(第1色彩出力部、第2色彩出力部)は、感情推定部51または感情入力部52から入力された感情を表現する部分であり、色彩選択部53a、色彩強度変調部53b、および色彩調整部53cを有する。
なお、ユーザの操作により感情の強度を入力された場合には、この入力された強度を出力する。
なお、情報伝達装置1がディスプレイを有する場合には、色彩の表出をディスプレイで行ってもよい。たとえば、図10(b)に示すように、ディスプレイD内にロボットRの頭部RHを表示させ、ロボットRの顔部RFと頭部RHの境界B部分を感情などの内部状態表出領域として「黄」「赤」「青」などの色を表示することができる。
まず、マイクMで検出された音響信号は、周波数分析部12により25[msec]などの時間窓ごとに周波数分析され(S1)、音声認識部20で音素と音響モデルとの対応関係に基づき音声認識がなされ、音素が抽出される(S2)。抽出された音素は、その継続時間とともに音圧分析部11、ピッチ抽出部15、および音声信号生成部30へ出力される。
まず、音声合成部31に、ピッチデータ、音素データ、および音圧データが入力される(S9)。
また、各音素について音素継続時間が読み込まれる(S10)。そして、鋳型波形データベース32を参照して、音素データと同じ鋳型波形を選択する(S11)。その後、音圧データの音圧に合わせて鋳型波形を振幅軸方向に伸縮させ(S12)、ピッチデータのピッチに合わせて鋳型波形を時間軸方向に伸縮させる(S13)。この操作により、情報伝達装置1が発話すべき音声信号は、話者の話し方の声の大きさおよび声の高さが話者に一致する。
次に、変形した鋳型波形を、既に変形して生成した鋳型波形と接続する(S14)。
既に接続された鋳型波形の継続時間が、現在処理中の音素の継続時間よりも小さければ(S15、No)、変形した鋳型波形の接続を繰り返し(S14)、大きければ(S15、Yes)、その音素の波形はできあがったということなので、次の処理へ進む。そして、次の音素データがあれば(S16、Yes)、ステップS9〜S16を繰り返して、その音素の音声信号を作成し、次の音素データがなければ(S16、No)、色彩の出力と同時に合成音声が出力される(S17)。
また、話者の感情を推定して、その感情に合わせた色彩を、発話と同時に表出するので、話者から見ると、自分の気持ちが分かってくれたように感じられ、親密なコミュニケーションが可能となり、ディジタルデバイドの解消に役立つ。
たとえば、実施形態においては、音圧とピッチについて話者の特徴をまねして発話させるようにしたが、話者が話す早さをまねるように構成してもよい。話者が話す早さをまねるには、話者が話した言葉の音素ごとの音素継続時間を平均するなどして、話者が話す早さを特定し、その話す早さに合わせて発話すべき音素の音素継続時間を変更して、話者の話す早さに合わせた発話をすることが可能である。このように構成すれば、お年寄りがゆっくり情報伝達装置1に話しかければ、情報伝達装置1はゆっくりと話すので、お年寄りは聞き取りが容易になる。逆にせっかちな人が情報伝達装置1に対し早口で話しかければ、情報伝達装置1も早口で返答するので、せっかちな人をいらいらさせることもない。このように、話す早さを合わせることで、円滑なコミュニケーションが可能になる。
10 特徴抽出部
11 音圧分析部
12 周波数分析部
13 ピーク抽出部
14 調波構造抽出部
15 ピッチ抽出部
20 音声認識部
30 音声信号生成部
31 音声合成部
32 鋳型波形データベース
40 音声出力部
50 色彩作成部
51 感情推定部
51a 第1感情データベース
52 感情入力部
53 色彩出力部
60 LED
D ディスプレイ
M マイク
Claims (10)
- 話者の話し方を分析して、前記話者の話し方に合わせて発話する情報伝達装置であって、
音響信号を検出するマイクと、
前記マイクが検出した前記音響信号に基づき、前記話者の話し方の特徴値を抽出する特徴抽出部と、
前記特徴抽出部が抽出した前記特徴値に基づき、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部と、
前記音声信号生成部が生成した音声信号を発話する音声出力部と、を備えることを特徴とする情報伝達装置。 - 前記マイクが検出した音響信号に基づき、予め記憶していた音素と音響モデルとの対応を用いて音素を認識する音声認識部をさらに有し、
前記特徴抽出部は、前記音声認識部が認識した音素に基づき前記特徴値を抽出することを特徴とする請求項1に記載の情報伝達装置。 - 前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することを特徴とする請求項1または請求項2に記載の情報伝達装置。
- 前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることを特徴とする請求項1または請求項2に記載の情報伝達装置。
- 前記音声信号生成部は、音素と音声波形とを対応させた鋳型波形データベースを有しており、発話すべき音素列の各音素に対応する各音声波形を前記鋳型波形データベースから読み出して、前記特徴値に基づきこの読み出された音声波形を変形し、前記音声信号を生成することを特徴とする請求項2から請求項4のいずれか1項に記載の情報伝達装置。
- 前記特徴値から、感情の推定に用いる特徴量を計算し、この特徴量に基づき前記話者の感情を推定する感情推定部と、
前記音声出力部での音声出力に同期させて、前記感情推定部が推定した感情に対応した色彩を表出させる第1色彩出力部とを備えることを特徴とする請求項2から請求項5のいずれか1項に記載の情報伝達装置。 - 前記感情推定部は、特徴量と、音素または音素列と、感情の種類との対応を記憶した第1感情データベースを有し、前記音声認識部が抽出した前記音素または音素列ごとに前記特徴値から特徴量を計算するとともに、この特徴量と、前記第1感情データベース内の特徴量とを比較して、もっとも近い特徴量に対応した感情を、前記話者の感情として推定することを特徴とする請求項6に記載の情報伝達装置。
- 前記感情推定部は、前記特徴量と感情の種類との対応を統計的に記憶した第2感情データベースを有し、前記特徴値から特徴量を計算し、この計算した特徴量を前記第2感情データベースを用いて統計的に処理して前記話者の感情を推定することを特徴とする請求項6または請求項7に記載の情報伝達装置。
- 前記第2感情データベースは、各感情の種類ごとに前記マイクを用いて検出した少なくとも一つの発話から前記特徴量を求め、この特徴量を訓練データとして3層パーセプトロンを学習し、特徴量と感情とを統計的に対応付けてなることを特徴とする請求項8に記載の情報伝達装置。
- 前記話者に自己の感情を入力させる感情入力部と、
前記音声出力部での音声出力に同期させて、前記感情入力部から入力された感情に対応した色彩を表出させる第2色彩出力部とを備えることを特徴とする請求項1から請求項9のいずれか1項に記載の情報伝達装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005206755A JP4456537B2 (ja) | 2004-09-14 | 2005-07-15 | 情報伝達装置 |
US11/225,943 US8185395B2 (en) | 2004-09-14 | 2005-09-13 | Information transmission device |
DE602005001142T DE602005001142T2 (de) | 2004-09-14 | 2005-09-14 | Nachrichtenübertragungsgerät |
AT05020010T ATE362632T1 (de) | 2004-09-14 | 2005-09-14 | Nachrichtenübertragungsgerät |
EP05020010A EP1635327B1 (en) | 2004-09-14 | 2005-09-14 | Information transmission device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004267378 | 2004-09-14 | ||
JP2005206755A JP4456537B2 (ja) | 2004-09-14 | 2005-07-15 | 情報伝達装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006113546A true JP2006113546A (ja) | 2006-04-27 |
JP4456537B2 JP4456537B2 (ja) | 2010-04-28 |
Family
ID=35197928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005206755A Expired - Fee Related JP4456537B2 (ja) | 2004-09-14 | 2005-07-15 | 情報伝達装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8185395B2 (ja) |
EP (1) | EP1635327B1 (ja) |
JP (1) | JP4456537B2 (ja) |
AT (1) | ATE362632T1 (ja) |
DE (1) | DE602005001142T2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250761A (ja) * | 2009-04-20 | 2010-11-04 | Nippon Telegr & Teleph Corp <Ntt> | アバタ生成装置、方法およびプログラム |
JP2011076047A (ja) * | 2009-10-01 | 2011-04-14 | Nobuyoshi Yamagishi | 音響分析技術と心理学を用いた疑似コミュニケーション装置 |
JP2012137680A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
JP2013174750A (ja) * | 2012-02-27 | 2013-09-05 | Hiroshima City Univ | 心的状態識別装置及び識別方法 |
JP2014219594A (ja) * | 2013-05-09 | 2014-11-20 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
WO2016136062A1 (ja) * | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017111760A (ja) * | 2015-12-18 | 2017-06-22 | カシオ計算機株式会社 | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム |
WO2018168369A1 (ja) * | 2017-03-14 | 2018-09-20 | 株式会社Seltech | 機械学習装置および機械学習プログラム |
KR20200032935A (ko) * | 2018-09-19 | 2020-03-27 | 주식회사 공훈 | 음성인식장치 및 음성인식방법 |
US11538491B2 (en) | 2019-10-28 | 2022-12-27 | Hitachi, Ltd. | Interaction system, non-transitory computer readable storage medium, and method for controlling interaction system |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100713366B1 (ko) * | 2005-07-11 | 2007-05-04 | 삼성전자주식회사 | 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치 |
JP4085130B2 (ja) * | 2006-06-23 | 2008-05-14 | 松下電器産業株式会社 | 感情認識装置 |
US20080243492A1 (en) * | 2006-09-07 | 2008-10-02 | Yamaha Corporation | Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor |
GB2444539A (en) * | 2006-12-07 | 2008-06-11 | Cereproc Ltd | Altering text attributes in a text-to-speech converter to change the output speech characteristics |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
EP2141696A1 (en) * | 2008-07-03 | 2010-01-06 | Deutsche Thomson OHG | Method for time scaling of a sequence of input signal values |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US9763617B2 (en) | 2011-08-02 | 2017-09-19 | Massachusetts Institute Of Technology | Phonologically-based biomarkers for major depressive disorder |
JP5772448B2 (ja) * | 2011-09-27 | 2015-09-02 | 富士ゼロックス株式会社 | 音声解析システムおよび音声解析装置 |
US10561361B2 (en) | 2013-10-20 | 2020-02-18 | Massachusetts Institute Of Technology | Using correlation structure of speech dynamics to detect neurological changes |
US11289077B2 (en) * | 2014-07-15 | 2022-03-29 | Avaya Inc. | Systems and methods for speech analytics and phrase spotting using phoneme sequences |
US10255487B2 (en) * | 2015-12-24 | 2019-04-09 | Casio Computer Co., Ltd. | Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium |
JP6866715B2 (ja) * | 2017-03-22 | 2021-04-28 | カシオ計算機株式会社 | 情報処理装置、感情認識方法、及び、プログラム |
JP6724932B2 (ja) * | 2018-01-11 | 2020-07-15 | ヤマハ株式会社 | 音声合成方法、音声合成システムおよびプログラム |
CN111192568B (zh) * | 2018-11-15 | 2022-12-13 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6337552B1 (en) * | 1999-01-20 | 2002-01-08 | Sony Corporation | Robot apparatus |
JPS58105295A (ja) * | 1981-12-18 | 1983-06-23 | 株式会社日立製作所 | 音声標準パタン作成方法 |
US4783805A (en) * | 1984-12-05 | 1988-11-08 | Victor Company Of Japan, Ltd. | System for converting a voice signal to a pitch signal |
JPH06139044A (ja) | 1992-10-28 | 1994-05-20 | Sony Corp | インターフェース方法及び装置 |
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US5860064A (en) | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JPH08335091A (ja) * | 1995-06-09 | 1996-12-17 | Sony Corp | 音声認識装置、および音声合成装置、並びに音声認識合成装置 |
US5933805A (en) | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6182044B1 (en) * | 1998-09-01 | 2001-01-30 | International Business Machines Corporation | System and methods for analyzing and critiquing a vocal performance |
EP1011094B1 (en) * | 1998-12-17 | 2005-03-02 | Sony International (Europe) GmbH | Semi-supervised speaker adaption |
JP3624733B2 (ja) * | 1999-01-22 | 2005-03-02 | 株式会社日立製作所 | 手話メール装置及び手話情報処理装置 |
US6151571A (en) * | 1999-08-31 | 2000-11-21 | Andersen Consulting | System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters |
US6836761B1 (en) * | 1999-10-21 | 2004-12-28 | Yamaha Corporation | Voice converter for assimilation by frame synthesis with temporal alignment |
JP2001215993A (ja) | 2000-01-31 | 2001-08-10 | Sony Corp | 対話処理装置および対話処理方法、並びに記録媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
GB0013241D0 (en) * | 2000-05-30 | 2000-07-19 | 20 20 Speech Limited | Voice synthesis |
JP2002066155A (ja) | 2000-08-28 | 2002-03-05 | Sente Creations:Kk | 感情表現動作玩具 |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US7076433B2 (en) * | 2001-01-24 | 2006-07-11 | Honda Giken Kogyo Kabushiki Kaisha | Apparatus and program for separating a desired sound from a mixed input sound |
US7062437B2 (en) * | 2001-02-13 | 2006-06-13 | International Business Machines Corporation | Audio renderings for expressing non-audio nuances |
JP3843743B2 (ja) | 2001-03-09 | 2006-11-08 | 独立行政法人科学技術振興機構 | ロボット視聴覚システム |
US20030093280A1 (en) | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
US6721699B2 (en) * | 2001-11-12 | 2004-04-13 | Intel Corporation | Method and system of Chinese speech pitch extraction |
JP2003150194A (ja) | 2001-11-14 | 2003-05-23 | Seiko Epson Corp | 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム |
JP3945356B2 (ja) | 2002-09-17 | 2007-07-18 | 株式会社デンソー | 音声対話装置及びプログラム |
JP2004061666A (ja) | 2002-07-25 | 2004-02-26 | Photon:Kk | 情報信号コンバートシステム |
US8768701B2 (en) | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
-
2005
- 2005-07-15 JP JP2005206755A patent/JP4456537B2/ja not_active Expired - Fee Related
- 2005-09-13 US US11/225,943 patent/US8185395B2/en not_active Expired - Fee Related
- 2005-09-14 DE DE602005001142T patent/DE602005001142T2/de active Active
- 2005-09-14 AT AT05020010T patent/ATE362632T1/de not_active IP Right Cessation
- 2005-09-14 EP EP05020010A patent/EP1635327B1/en not_active Not-in-force
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010250761A (ja) * | 2009-04-20 | 2010-11-04 | Nippon Telegr & Teleph Corp <Ntt> | アバタ生成装置、方法およびプログラム |
JP2011076047A (ja) * | 2009-10-01 | 2011-04-14 | Nobuyoshi Yamagishi | 音響分析技術と心理学を用いた疑似コミュニケーション装置 |
JP2012137680A (ja) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | 状態検出装置、状態検出方法および状態検出のためのプログラム |
JP2013174750A (ja) * | 2012-02-27 | 2013-09-05 | Hiroshima City Univ | 心的状態識別装置及び識別方法 |
JP2014219594A (ja) * | 2013-05-09 | 2014-11-20 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
JPWO2016136062A1 (ja) * | 2015-02-27 | 2017-12-07 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2016136062A1 (ja) * | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017111760A (ja) * | 2015-12-18 | 2017-06-22 | カシオ計算機株式会社 | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム |
WO2018168369A1 (ja) * | 2017-03-14 | 2018-09-20 | 株式会社Seltech | 機械学習装置および機械学習プログラム |
JPWO2018168369A1 (ja) * | 2017-03-14 | 2020-01-30 | 積水ハウス株式会社 | 機械学習装置および機械学習プログラム |
JP7082444B2 (ja) | 2017-03-14 | 2022-06-08 | 積水ハウス株式会社 | 機械学習装置および機械学習プログラム |
KR20200032935A (ko) * | 2018-09-19 | 2020-03-27 | 주식회사 공훈 | 음성인식장치 및 음성인식방법 |
KR102098956B1 (ko) * | 2018-09-19 | 2020-04-09 | 주식회사 공훈 | 음성인식장치 및 음성인식방법 |
US11538491B2 (en) | 2019-10-28 | 2022-12-27 | Hitachi, Ltd. | Interaction system, non-transitory computer readable storage medium, and method for controlling interaction system |
Also Published As
Publication number | Publication date |
---|---|
DE602005001142D1 (de) | 2007-06-28 |
DE602005001142T2 (de) | 2008-01-17 |
US8185395B2 (en) | 2012-05-22 |
ATE362632T1 (de) | 2007-06-15 |
US20060069559A1 (en) | 2006-03-30 |
EP1635327A1 (en) | 2006-03-15 |
JP4456537B2 (ja) | 2010-04-28 |
EP1635327B1 (en) | 2007-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4456537B2 (ja) | 情報伝達装置 | |
US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
US8898055B2 (en) | Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech | |
CN101627427A (zh) | 声音强调装置及声音强调方法 | |
JP2006267465A (ja) | 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体 | |
Chakraborty et al. | Issues and limitations of HMM in speech processing: a survey | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
JP3673507B2 (ja) | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム | |
JP6270661B2 (ja) | 音声対話方法、及び音声対話システム | |
JP5382780B2 (ja) | 発話意図情報検出装置及びコンピュータプログラム | |
WO2008018653A1 (en) | Voice color conversion system using glottal waveform | |
Razak et al. | Emotion pitch variation analysis in Malay and English voice samples | |
Xue et al. | Emotional speech synthesis system based on a three-layered model using a dimensional approach | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
JP2007101813A (ja) | 認識システム | |
Xue et al. | Voice conversion to emotional speech based on three-layered model in dimensional approach and parameterization of dynamic features in prosody | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JP2004279436A (ja) | 音声合成装置及びコンピュータプログラム | |
JP2017106989A (ja) | 音声対話装置およびプログラム | |
JP2017106988A (ja) | 音声対話装置およびプログラム | |
JP2017106990A (ja) | 音声対話装置およびプログラム | |
Přibilová et al. | Spectrum modification for emotional speech synthesis | |
JP2655903B2 (ja) | 音声認識装置 | |
Sairanen | Deep learning text-to-speech synthesis with Flowtron and WaveGlow | |
Medhi et al. | Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4456537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130212 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140212 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |