JP2006113546A - 情報伝達装置 - Google Patents

情報伝達装置 Download PDF

Info

Publication number
JP2006113546A
JP2006113546A JP2005206755A JP2005206755A JP2006113546A JP 2006113546 A JP2006113546 A JP 2006113546A JP 2005206755 A JP2005206755 A JP 2005206755A JP 2005206755 A JP2005206755 A JP 2005206755A JP 2006113546 A JP2006113546 A JP 2006113546A
Authority
JP
Japan
Prior art keywords
emotion
unit
feature
phoneme
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005206755A
Other languages
English (en)
Other versions
JP4456537B2 (ja
Inventor
Tokitomo Ariyoshi
斗紀知 有吉
Kazuhiro Nakadai
一博 中臺
Koji Tsujino
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2005206755A priority Critical patent/JP4456537B2/ja
Priority to US11/225,943 priority patent/US8185395B2/en
Priority to DE602005001142T priority patent/DE602005001142T2/de
Priority to AT05020010T priority patent/ATE362632T1/de
Priority to EP05020010A priority patent/EP1635327B1/en
Publication of JP2006113546A publication Critical patent/JP2006113546A/ja
Application granted granted Critical
Publication of JP4456537B2 publication Critical patent/JP4456537B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Abstract

【課題】 人と機械の親密なコミュニケーションを実現する。
【解決手段】 音響信号を検出するマイクMと、マイクMが検出した音響信号に基づき、話者の話し方の特徴値を抽出する特徴抽出部10と、特徴抽出部10が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部30と、音声信号生成部30が生成した音声信号を発話する音声出力部40と、を備えて、話者の話し方に合わせた返答をする情報伝達装置を構成する。
【選択図】 図1

Description

本発明は、ロボットやコンピュータなどに実装されて、人との間で情報伝達をする情報伝達装置に関する。
従来、機械と人との間の情報伝達には、スイッチやキーボード操作、音声の入出力、および画像による表示などの手段が用いられてきた。これらの手段は、記号や言葉で表現できる情報を伝えるのには十分であったが、それ以外の情報を伝えることを想定していなかった。
一方、機械と人のコンタクトは、今後増加すると予想されており、それらの間の情報伝達は容易、正確、親密であることが求められる。そのためには、記号や言葉で表現できない感情のような情報を合わせて伝えることが大切である。
機械と人との間の情報伝達は、人から機械へ伝える手段と、機械から人への手段とが必要であるが、後者において内部状態を表現するには、合成音声に韻律などを付加したり、機械に顔を設けて表情により内部状態を伝えたり、あるいはこれらの聴覚情報と視覚情報とを併せて提示して内部状態を表現することが行われてきた。
たとえば、特許文献1に記載されているマンマシンインタフェース装置では、タスク遂行の結果やユーザから掛けられた言葉によってエージェントの感情変数が変化し、感情変数によって対応する自然言語が選択されて合成音声としてユーザに発話され、また、選択された自然言語に対応する画像が表出される。
また、特許文献2に記載の発明では、ユーザから声を掛けられたり触れられたりすることでロボットの気分値が変化し、気分値に対応した種類の鳴き声と、気分値に対応した目の色が表出される。
特許文献3に記載の発明では、感情を込めた音声を合成し、それに合わせたLEDの光の組合せで自身の感情を表現している。
特開平06−139044号公報 特開2002−66155号公報 特開2003−84800号公報
ところで、人と機械の親密な情報伝達を行うためには、機械が人の感情を理解し、人が機械の内部状態を理解できることが重要である。しかし、前記した発明のいずれもが、機械の内部状態に注目しただけであり、相手の感情を考慮していない。
このような背景に鑑みて本発明がなされたものであって、本発明は、話者と機械の親密なコミュニケーションを可能にする情報伝達装置を提供することを課題とする。
前記した課題を解決するため、本発明は、話者の話し方を分析して、前記話者の話し方に合わせて発話する情報伝達装置であって、音響信号を検出するマイクと、前記マイクが検出した前記音響信号に基づき、前記話者の話し方の特徴値を抽出する特徴抽出部と、前記特徴抽出部が抽出した特徴値に基づいて、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部と、前記音声信号生成部が生成した音声信号を発話する音声出力部と、を備えることを特徴とする。
このような情報伝達装置によれば、音声出力部から発話される音声の信号は、音声信号生成部で相手(話者)の話し方の特徴値を有するように変形される。つまり、話者と同じような話し方になるため、相手の感情を理解しているかのようなコミュニケーションを実現することができる。また、お年寄りなど、ゆっくり話す相手に対してはゆっくりと話すことで聞き取りやすくでき、早口で話すせっかちな相手に対しては、早口で話すように、話す早さを特徴値とすれば、会話のテンポが崩れないなど、相手の話し方に合わせることにより、感情面以外でも親密なコミュニケーションをよりやりやすくすることができる。
前記した本発明の情報伝達装置は、前記マイクが検出した音響信号に基づき、予め記憶していた音素と音響モデルとの対応を用いて音素を認識する音声認識部をさらに有し、前記特徴抽出部は、前記音声認識部が認識した音素に基づき前記特徴値を抽出することができる。
また、前記した本発明では、前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することができる。
さらに、前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることもできる。
前記した本発明では、前記音声信号生成部は、音素と音声波形とを対応させた鋳型波形データベースを有しており、発話すべき音素列の各音素に対応する各音声波形を前記鋳型波形データベースから読み出して、前記特徴値に基づきこの読み出された音声波形を変形し、前記音声信号を生成することができる。
また、前記した本発明では、前記特徴値から、感情の推定に用いる特徴量を計算し、この特徴量に基づき前記話者の感情を推定する感情推定部と、前記音声出力部での音声出力に同期させて、前記感情推定部が推定した感情に対応した色彩を表出させる第1色彩出力部とを備えることで、相手の感情に応じた色彩を表出させ、相手に対し明確に内部状態を伝えることができる。
前記した感情の推定のためには、前記感情推定部が、特徴量と、音素または音素列と、感情の種類との対応を記憶した第1感情データベースを有し、前記音声認識部が抽出した前記音素または音素列ごとに前記特徴値から特徴量を計算するとともに、この特徴量と、前記第1感情データベース内の特徴量とを比較して、もっとも近い特徴量に対応した感情を、前記話者の感情として推定することができる。
さらには、前記感情推定部は、前記特徴量と感情の種類との対応を統計的に記憶した第2感情データベースを有し、前記特徴値から特徴量を計算し、この計算した特徴量を前記第2感情データベースを用いて統計的に処理して前記話者の感情を推定する構成とすることができる。このように、音素に基づかずに感情を推定すれば、話者が話した内容によらずに話者の感情を推定することができる。
また、前記第2感情データベースは、各感情の種類ごとに前記マイクを用いて検出した少なくとも一つの発話から前記特徴量を求め、この特徴量を訓練データとして3層パーセプトロンを学習し、特徴量と感情とを統計的に対応付けて構成することができる。
あるいは、前記話者に自己の感情を入力させる感情入力部と、前記音声出力部での音声出力に同期させて、前記感情入力部から入力された感情に対応した色彩を表出させる第2色彩出力部とを備えてもよい。
このような、情報伝達装置によれば、場合に応じて、ユーザの操作により機械の色彩を変化させて親密なコミュニケーションを図ることができる。
前記した本発明によれば、話者の話し方に合った話し方で情報伝達装置が発話できるので、話者と機械とが親密なコミュニケーションをとることができる。
次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。参照する図面において、図1は、実施形態に係る情報伝達装置の構成を示すブロック図である。
本実施形態に係る情報伝達装置1は、話者の話し方を分析して、話者の話し方に合わせて発話し、また、話者の話し方に対応する自身の内部状態を、頭部など体の色によって表出する装置である。情報伝達装置1は、ロボットや、家電製品などに搭載されて、人と対話するものである。典型的には、CPU(Central Processing Unit)、記憶装置、マイクを含む入力装置、スピーカなどの出力装置を有する汎用のコンピュータを使用し、記憶装置に格納されたプログラムをCPUに実行させることにより簡易に構成することができる。
図1に示すように、情報伝達装置1はマイクMと、特徴抽出部10と、音声認識部20と、音声信号生成部30と、音声出力部40と、スピーカSと、色彩作成部50と、LED60とを含んで構成される。
[マイクM]
マイクMは、情報伝達装置1の周囲の音響を検出する装置であり、対話の相手(話者)の音声を音響信号として検出し、特徴抽出部10に入力している。
[特徴抽出部10]
特徴抽出部10は、話者の音声(音響信号)から、特徴を抽出する部分であり、本実施形態では、特徴値として、音圧データと、ピッチデータと、音素データとを抽出している。このために、特徴抽出部10は、音圧分析部11と、周波数分析部12と、ピーク抽出部13と、調波構造抽出部14と、ピッチ抽出部15とを有している。
〈音圧分析部11〉
図2は、音圧分析部を説明する図である。
音圧分析部11は、マイクMから入力された音響信号を一定のシフト間隔、たとえば10[msec]ごとに信号のエネルギ値を計算し、各シフトごとに得られたエネルギ値を継続して検出された音素ごとに算術平均する。なお、音素の継続時間のデータは音声認識部20から取得する。
たとえば、図2に示すように、最初の10[msec]の音素が/s/で、続く50[msec]の音素が/a/であれば、10[msec]ごとに音圧を計算して、30[dB]、20[dB]、18[dB]、18[dB]、18[dB]、18[dB]であったならば、最初の10[msec]の音素/s/の音圧が30[dB]、その後の音素/a/の音圧が50[msec]の間の音圧の算術平均をとって18.4[dB]となる。
音圧データは、この音圧の値に、開始時刻tnと、継続時間とをセットにして音声信号生成部30と、色彩作成部50とに出力される。
〈周波数分析部12〉
図3は、周波数分析から調波構造の抽出までを説明する模式図であり、図4は、ピッチデータを抽出するまでを説明する図である。
周波数分析部12は、図3に示すように、マイクMが検出した音響信号から、微小時間Δt、たとえば25[msec]の時間長の信号区間(時間窓)を切り出し(図4参照)、FFT(高速フーリエ変換)により周波数分析を行う。この分析結果は、模式的にはスペクトルSPのように示される。
なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。
〈ピーク抽出部13〉
ピーク抽出部13は、スペクトルSPから一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スペクトラルサブトラクション法に基づいた方法(S.F.Boll, A spectral subtraction algorithm for suppression of acoustic noise in speech, Proceedings of 1979 International conference on Acoustics, Speech, and signal Processing (ICASSP-79) 参照)で行う。後者の方法は、スペクトルからピークを抽出し、これをスペクトルから減算し、残差スペクトルを生成する。そして、その残差スペクトルからピークが見つからなくなるまでピーク抽出の処理を繰り返す。
前記スペクトルSPに対しピークの抽出を行うと、例えばピークスペクトルP1,P2,P3のように周波数f1,f2,f3でピークを構成するサブバンドの信号のみが抽出される。
また、図4に示すように、シフト間隔ごとに調波構造の抽出(グルーピング)をすると、シフト間隔によって、調波構造(周波数の組合せ)が変化する。たとえば、図4の例では、最初の10[msec]での周波数は250[Hz]と500[Hz]であり、その後の周波数は、100[Hz]または110[Hz]を基本周波数とする倍音である。この周波数の違いは、音素により周波数が変わることと、同じ音素でも、話している途中で、ピッチが揺れるためである。
〈調波構造抽出部14〉
調波構造抽出部14は、音源が有する調波構造に基づき、特定の調波構造を有するピークをグループにする。例えば、人の声には、多くの調波構造が含まれており、この調波構造は、基本周波数の音と、基本周波数の倍音とからなるので、この規則を有するピークごとにグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、2人の話者が同時に話していれば、2つの調波構造が抽出される。図3の例では、周波数f1,f2,f3のうち、基本周波数がf1で、周波数f2,f3がその倍音に相当し、ピークスペクトルP1,P2,P3が1つの調波構造のグループとなる。仮に、周波数分析で得られたピークの周波数が100[Hz]、200[Hz]、300[Hz]、310[Hz]、500[Hz]、780[Hz]である場合、100[Hz]、200[Hz]、300[Hz]、500[Hz]をグルーピングし、310[Hz]と780[Hz]は無視する。
また、図4の例では、最初の10[msec]が、250[Hz]を基本周波数とする調波構造であり、続く10[msec]が110[Hz]を基本周波数とする調波構造であり、その後の40[msec]が、100[Hz]を基本周波数とする調波構造となっている。なお、音素の継続時間のデータは音声認識部20から取得する。
〈ピッチ抽出部15〉
ピッチ抽出部15は、調波構造抽出部14がグループにしたピーク群の最も低い周波数、つまり基本周波数を検出した音声のピッチとして選択し、それを所定の条件、たとえば80[Hz]から300[Hz]の間にあるかどうかを判定する。この選択したピークの周波数がこの範囲にない場合、または1つ前の時間窓のピッチとの違いが±50%を超える場合には、1つ前の時間窓のピッチで代用する。音素の継続時間に対応するシフト数のピッチが得られたら、継続時間で算術平均し、開始時刻tと継続時間とをセットにして音声信号生成部30および色彩作成部50へ出力する(図4および図1参照)。
[音声認識部20]
図5は、音声認識部による特徴抽出を説明する図である。
音声認識部20は、周波数分析部12から出力されたスペクトルに基づき、入力された音声の特徴(本発明の「特徴値」とは異なる)をシフト間隔ごとに抽出し、抽出された特徴から、音声の音素を認識する。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数ケプストラム係数(MFCC:Mel-Frequency Cepstrum Coefficient)や、LPCケプストラムを用いることができる。また、音素の認識は、予め記憶していた音素と音響モデルとの対応を用いて隠れマルコフモデル(HMM:Hidden Markov Model)により行うことができる。
音素が抽出されると、結果として、検出された音素の並びである音素列と、各音素の開始時間および継続時間を得ることができる。開始時間は、たとえば話者が話し始めた時間を0とすることができる。
[音声信号生成部30]
音声信号生成部30は、音声合成部31と、鋳型波形データベース32とを有してなり、特徴抽出部10から入力された特徴値である音圧データ、ピッチデータ、および音素データと、予め音素と音声波形とを対応付けて記憶した鋳型波形データベース内のデータとに基づき発話すべき音声の信号を生成する部分である。
〈音声合成部31〉
音声合成部31は、特徴抽出部10から入力された音素データに基づき、鋳型波形データベース32を参照して、その音素データに対応する、鋳型となる音声波形(これを「鋳型波形」という)を読み出す。そして、特徴抽出部10から音圧データ、ピッチデータが入力されると、その音圧、ピッチにあわせて鋳型波形を変形させる。たとえば、図6に示すような鋳型波形が入力されて、鋳型波形の平均音圧が20[dB]であるのに対し、音圧データの音圧が14[dB]であったならば、鋳型波形を振幅方向に0.5倍する。
同様に、鋳型波形のピッチが100[Hz]であるのに対し、入力されたピッチデータのピッチの周波数が120[Hz]であったならば、鋳型波形を時間軸方向に100/120倍する。この波形を音素継続時間と同じ長さだけ接続する。音素継続時間と同じ長さの音素を作成し終わったら、次の音素データが入力され、同様の処理を繰り返す。
得られた音声波形は音声出力部40へ出力される。
[音声出力部40]
音声出力部40は、音声合成部31から入力された音声波形を音声信号にしてスピーカSへ出力する。つまり、音声波形をD/A変換し、アンプで増幅して、適当なタイミング、たとえば話者が話し終わってから3秒後に音声信号としてスピーカSへ出力する。
[色彩作成部50]
色彩作成部50は、図1に示すように感情推定部51と、感情入力部52と、色彩出力部53とを有する。
〈感情推定部51〉
感情推定部51は、特徴抽出部10から入力された音圧データ、ピッチデータ、および音素データと、予め記憶している第1感情データベース51a内のデータとに基づき話者の感情を推定する。
第1感情データベース51aは、学習により生成される。図7は、学習時の色彩作成部を示す情報伝達装置のブロック図である。図7に示すように、特徴抽出部10から出力される音圧データ、音素データ、およびピッチデータは、色彩作成部50の学習部51cに入力され、学習部51cで生成された学習データが第1感情データベース51aに蓄積される。
学習部51cは、入力された音声から抽出された特徴値から感情の推定に用いる特徴量を求め、その特徴量と感情とを対応付けたデータを生成する。一般に、話者の感情は、ピッチ、音素継続時間、音量(音圧)に表れるので、これらのデータを含む音圧データ、ピッチデータ、および音素データから話者の感情を推定しうる。
データベースの生成は以下のようにして行う。
(1)いくつかの文章、たとえば100の文章を用意し、喜び、怒り、哀しみの各感情を込めた発話、および感情を込めない中立な発話を人により行う。
(2)各発話について、マイクMで音響を検出し、特徴抽出部10および音声認識部20により、音圧データ、ピッチデータ、および音素データを取得する。
(3)学習部51cにより、各音圧データ、各ピッチデータ、および各音素データから、下記の各特徴量を求める。
(4)求められた各特徴量を、発話時の感情と対応付ける。
〔特徴量〕
前記(3)で求める特徴量は以下のように求める。
av :平均ピッチ(予め定めた区間に含まれるピッチの平均)
av :平均音圧(予め定めた区間に含まれる音圧の平均)
d :音素密度(予め定めた区間に含まれる音素の数nを、予め定めた区間の時間で割った値)
dif :平均ピッチ変化率(予め定めた区間をさらに3つの小区間に分けてそれぞれのピッチの平均を求め、それらのピッチの変化率を求めた値。たとえば、各小区間のピッチの平均を時系列に並べて一次関数で近似しその傾きとして求める。)
dif :平均音圧変化率(予め定めた区間をさらに3つの小区間に分けてそれぞれの音圧の平均を求め、それから音量の変化率を求めた値。たとえば、各小区間の音圧の平均を時系列に並べて一次関数で近似し、その傾きとして求める。)
av/Fav:ピッチ指数(予め定めた区間のfavのFavに対する割合)
av/Pav:音圧指数(予め定めた区間のpavのPavに対する割合)
n/N:音素指数(予め定めた区間のnのNに対する割合)
但し、Favは、発話に含まれる全ピッチデータの平均である平均ピッチ、Pavは、全音圧データの平均である平均パワー、Nは、全音素データの音素数の平均である。
なお、第1感情データベース51aは、特定話者の発話により作成したものと、不特定話者の発話により作成したものとを用意する。不特定話者用のデータベースは、複数の人の発話により得られた特徴量を平均して作成する。
第1感情データベース51aは、図8に示すように前記した8種類の特徴量のうち少なくとも1つの特徴量を、全文章について全感情(喜、怒、哀、中立)の発話について抽出し、各特徴量と感情と音素列とを対応付けたデータを含む。たとえば、文章が「サビオラがモナコへ期限付きの移籍をした」の場合、この文章をそれぞれの感情で発話し、各発話を予め定めた区間、たとえば3つの等しい時間区間に分ける。あるいは、発話全体でみたピッチの流れの変曲点は、等しい音素数で区間を分けてもよい。8つの特徴量のうち、少なくとも1つを各区間について求める。図8は、8つの特徴量のうち、音素密度dと平均ピッチ変化率fdifを特徴量として、この特徴量と、「喜」「怒」「哀」「中立」の感情と、音素とを区間ごとに関連づけてある。
感情データベースとしては、前記した第1感情データベース51aに限らず、たとえば次のような第2感情データベースであってもよい。
第2感情データベースは、前記した8種類の特徴量のうち、少なくとも1つの特徴量と感情とを対応付けたデータを含み音素情報は含まない。
第2感情データベースは、図8に示した特徴量データをすべての文章について求め、それらを感情ごとにグループ分けして、その対応関係を統計的に学習する。たとえば、文章の数が100個であるとすると、「喜」にグループ分けされた特徴量が100個得られるので、これを訓練データとして、3層パーセプトロンを学習する(入力層は特徴量の数に対応させ、中間層は任意とする)。「怒」「哀」「中立」にグループ分けされた特徴量についても同様に学習する。
このようにして、特徴量と感情とを対応づけたニューラルネットワークが得られる(図9参照)。ニューラルネットワークの代わりに、SVM(Support Vector Machine)や他の統計的手法を用いることもできる。
推定部51bは、入力された音圧データ、音素データ、およびピッチデータから、学習時と同様にして、一連の発話音声を3つの等しい時間区間に分け、第1感情データベース51aに適用された特徴量、つまり図8の例では音素密度dと平均ピッチ変化率fdifを計算し、これらの特徴量が第1感情データベース51aの「喜」「怒」「哀」「中立」のいずれに近いかを計算する。この計算は、たとえば、求められた音素密度d1,d2,d3と、平均ピッチ変化率fdif1,fdif2,fdif3と、音素列の各音素(つまり、一発話の一連の音素のそれぞれが要素となる)とを要素とする一つのベクトルを作り、一方で、第1感情データベース51aの各音素密度d1喜,d2喜,d3喜と、平均ピッチ変化率fdif1喜,fdif2喜,fdif3喜と、音素列の各音素(つまり、図8の例では、savio…shitaの各音素がそれぞれ要素となる)とを要素とするもう一つのベクトルを作り、この二つのベクトルのユークリッド距離を計算することで求められる。
また、前記した第2感情データベースを用いる場合には、入力された音圧データ、音素データ、およびピッチデータから、第1感情データベース51aの学習時と同様にして、一連の発話音声を3つの等しい時間区間に分け、第2感情データベースに適用された特徴量、たとえば音素密度d1,d2,d3と平均ピッチ変化率fdif1,fdif2,fdif3を計算する。そして、得られた特徴量をニューラルネットワークあるいはSVMかその他の統計手法など、特徴と感情の関係を学習したものに入力し、出力結果で対応する感情を推定する。
このように第2感情データベースを用いて感情を推定すれば、音素によらずに話者の感情を推定できるので、いままで聞いたことがない言葉を話者が話した場合でも、感情の推定が可能になる。一方で、しばしば話される言葉については、音素に依存する第1感情データベース51aを用いた方が推定の精度が高いので、第1感情データベース51aと第2感情データベースを両方備えて、話者の話した言葉に応じて使い分けることで、柔軟かつ高精度な感情の推定が可能になる。
〈感情入力部52〉
感情入力部52は、話者などのユーザの操作により感情を入力する部分であり、マウスやキーボード、専用のボタンなどを設けて「喜」「怒」「哀」などの感情の種類を入力できるように構成してある。なお、感情入力部52は任意的に設ければよい。また、感情の種類に加えて、表出する感情などの内部状態の強さを入力できるように構成してもよい。この場合、たとえば感情の強さを0〜1の間の数値で入力する。
〈色彩出力部53〉
色彩出力部53(第1色彩出力部、第2色彩出力部)は、感情推定部51または感情入力部52から入力された感情を表現する部分であり、色彩選択部53a、色彩強度変調部53b、および色彩調整部53cを有する。
色彩選択部53aは、入力された感情に応じて色彩を選択する部分である。感情と色彩との対応は、シャイエの色彩心理学など色彩心理の研究に基づいて決め、たとえば「喜」の感情には「黄」、「怒」の感情には「赤」、「哀」の感情には「青」をそれぞれ対応付けて予め記憶している。推定された感情が「中立」であった場合には、色彩を変えないため色彩に関する処理をここで終了する。
色彩強度変調部53bは、音素データごとに表出させる色彩の強度、つまり光の強度を求める。本実施形態では、光の強度を0から1で表し、音素データが入力されたら(つまり、発話するとき)1、音素データの入力が終了したら(発話が終了したら)0を出力する。
なお、ユーザの操作により感情の強度を入力された場合には、この入力された強度を出力する。
色彩調整部53cは、色彩選択部53aから入力された色彩と、色彩強度変調部53bから入力された色彩強度から、表出器であるLED60への出力を調整する。この調整は、LED60が、図10(a)に示すようなロボットRの頭部RHである場合、感情の種類として頭部RHに複数配置された「黄」「赤」「青」のLED60の色の種類を選択し、強度として発光させるLED60の個数を調整する。
なお、情報伝達装置1がディスプレイを有する場合には、色彩の表出をディスプレイで行ってもよい。たとえば、図10(b)に示すように、ディスプレイD内にロボットRの頭部RHを表示させ、ロボットRの顔部RFと頭部RHの境界B部分を感情などの内部状態表出領域として「黄」「赤」「青」などの色を表示することができる。
以上のように構成された情報伝達装置1の動作について、図11のフローチャートを参照しながら説明する。
まず、マイクMで検出された音響信号は、周波数分析部12により25[msec]などの時間窓ごとに周波数分析され(S1)、音声認識部20で音素と音響モデルとの対応関係に基づき音声認識がなされ、音素が抽出される(S2)。抽出された音素は、その継続時間とともに音圧分析部11、ピッチ抽出部15、および音声信号生成部30へ出力される。
次に、音圧分析部11で音圧が計算され(S3)、音圧データとして、音声信号生成部30および色彩作成部50へ出力される。この際、音声認識部20から、音素の継続時間が入力されているので、音素ごとに音圧が計算される。
そして、ピッチの抽出のため、ピーク抽出部13では、周波数分析部12の結果からピークを検出し(S4)、検出したピークの周波数配列から調波構造を抽出する(S5)。さらに、調波構造の最も低い周波数のピークを選択し、このピークの周波数が80[Hz]から300[Hz]の間にある場合には、このピークをピッチとし、無い場合には、この条件を満たす他のピークの周波数をピッチとして選択する(S6)。
次に、色彩作成部50の感情推定部51で、入力された音圧データ、音素データ、およびピッチデータから、特徴量(d1,fdif)を求め、第1感情データベース51aの感情ごとの特徴量と比較して、「喜」「怒」「哀」「中立」のうち最も近い特徴量を有する感情を推定された感情とする(S7)。
次に、色彩作成部50で推定された感情に基づいて、色彩出力部53において、予め記憶していた色彩と感情の対応にしたがって色彩を選択し、感情の強度から表出すべき内部状態(光)の強さ(LED60の個数)を調整する(S8)。
一方、音声信号生成部30では、話者の話し方に合った、言い換えれば、同じ特徴値を有する音声信号を作成する(S9〜S16)。
まず、音声合成部31に、ピッチデータ、音素データ、および音圧データが入力される(S9)。
また、各音素について音素継続時間が読み込まれる(S10)。そして、鋳型波形データベース32を参照して、音素データと同じ鋳型波形を選択する(S11)。その後、音圧データの音圧に合わせて鋳型波形を振幅軸方向に伸縮させ(S12)、ピッチデータのピッチに合わせて鋳型波形を時間軸方向に伸縮させる(S13)。この操作により、情報伝達装置1が発話すべき音声信号は、話者の話し方の声の大きさおよび声の高さが話者に一致する。
次に、変形した鋳型波形を、既に変形して生成した鋳型波形と接続する(S14)。
既に接続された鋳型波形の継続時間が、現在処理中の音素の継続時間よりも小さければ(S15、No)、変形した鋳型波形の接続を繰り返し(S14)、大きければ(S15、Yes)、その音素の波形はできあがったということなので、次の処理へ進む。そして、次の音素データがあれば(S16、Yes)、ステップS9〜S16を繰り返して、その音素の音声信号を作成し、次の音素データがなければ(S16、No)、色彩の出力と同時に合成音声が出力される(S17)。
以上のようにして、本実施形態の情報伝達装置1によれば、相手の話し方に合わせて音声信号を作成して、情報の伝達を行うことができる。すなわち、機械が話者と同じような話し方をしてくれることから、話者(人)は、機械と感情面で共感でき、また、情報の伝達もスムーズとなる。
また、話者の感情を推定して、その感情に合わせた色彩を、発話と同時に表出するので、話者から見ると、自分の気持ちが分かってくれたように感じられ、親密なコミュニケーションが可能となり、ディジタルデバイドの解消に役立つ。
以上、本発明の実施形態について説明したが、本発明は前記した実施形態に限定されず、適宜変更して実施することが可能である。
たとえば、実施形態においては、音圧とピッチについて話者の特徴をまねして発話させるようにしたが、話者が話す早さをまねるように構成してもよい。話者が話す早さをまねるには、話者が話した言葉の音素ごとの音素継続時間を平均するなどして、話者が話す早さを特定し、その話す早さに合わせて発話すべき音素の音素継続時間を変更して、話者の話す早さに合わせた発話をすることが可能である。このように構成すれば、お年寄りがゆっくり情報伝達装置1に話しかければ、情報伝達装置1はゆっくりと話すので、お年寄りは聞き取りが容易になる。逆にせっかちな人が情報伝達装置1に対し早口で話しかければ、情報伝達装置1も早口で返答するので、せっかちな人をいらいらさせることもない。このように、話す早さを合わせることで、円滑なコミュニケーションが可能になる。
本発明は、典型的には、CPU、記憶装置などを有するコンピュータに、予め組まれたプログラムを実行させて、入力された音声データに基づき演算、解析するのが簡便であるが、必ずしも汎用的なコンピュータによらず、専用の回路を組んだ装置により構成することも可能である。
また、鋳型波形データベース32には、1つの音素に対して1つの鋳型波形を対応させるのではなく、複数種類の鋳型波形を対応させ、この複数種類の鋳型波形の中から適当なものを選択して繋ぎ合わせることで音声波形を作成してもよい。たとえば、鋳型波形データベースは、各音素に対して、ピッチや時間長、音圧の違う複数種類(たとえば2500種類)の鋳型波形を備えることができる。この場合、音声合成部31は、発話すべき全ての音素について、ピッチデータ、音圧データ、および音素継続時間が最も近い鋳型波形を選択し、それらのピッチ、音圧、音素継続時間を、入力音声により近づくように微調整し、接続して音声を作成するとよい。
また、話者の感情に応じて色彩を変更するのは、頭部に限られず、外部から認識可能ないずれかの部分や、全体を変更してもよい。
実施形態に係る情報伝達装置の構成を示すブロック図である。 音圧分析部を説明する図である。 周波数分析から調波構造の抽出までを説明する模式図である。 ピッチデータを抽出するまでを説明する図である。 音声認識部による特徴抽出を説明する図である。 鋳型波形の一例を示す図である。 学習時の色彩作成部を示す情報伝達装置のブロック図である。 第1感情データベースの一例を示す図である。 第2感情データベースとして得られるニューラルネットワークの概念図である。 (a)は、ロボットの頭部が光る例、(b)は、ディスプレイ内に表示したロボットで内部状態を表出する例を示す。 情報伝達装置の動作を説明するフローチャートである。
符号の説明
1 情報伝達装置
10 特徴抽出部
11 音圧分析部
12 周波数分析部
13 ピーク抽出部
14 調波構造抽出部
15 ピッチ抽出部
20 音声認識部
30 音声信号生成部
31 音声合成部
32 鋳型波形データベース
40 音声出力部
50 色彩作成部
51 感情推定部
51a 第1感情データベース
52 感情入力部
53 色彩出力部
60 LED
D ディスプレイ
M マイク

Claims (10)

  1. 話者の話し方を分析して、前記話者の話し方に合わせて発話する情報伝達装置であって、
    音響信号を検出するマイクと、
    前記マイクが検出した前記音響信号に基づき、前記話者の話し方の特徴値を抽出する特徴抽出部と、
    前記特徴抽出部が抽出した前記特徴値に基づき、同じ特徴値を有するように発話すべき音声信号を生成する音声信号生成部と、
    前記音声信号生成部が生成した音声信号を発話する音声出力部と、を備えることを特徴とする情報伝達装置。
  2. 前記マイクが検出した音響信号に基づき、予め記憶していた音素と音響モデルとの対応を用いて音素を認識する音声認識部をさらに有し、
    前記特徴抽出部は、前記音声認識部が認識した音素に基づき前記特徴値を抽出することを特徴とする請求項1に記載の情報伝達装置。
  3. 前記特徴抽出部は、前記音響信号の音圧およびピッチの少なくともいずれか一方を前記特徴値として抽出することを特徴とする請求項1または請求項2に記載の情報伝達装置。
  4. 前記特徴抽出部は、前記音響信号を周波数分析した後、調波構造を抽出し、この調波構造のピッチを前記特徴値とすることを特徴とする請求項1または請求項2に記載の情報伝達装置。
  5. 前記音声信号生成部は、音素と音声波形とを対応させた鋳型波形データベースを有しており、発話すべき音素列の各音素に対応する各音声波形を前記鋳型波形データベースから読み出して、前記特徴値に基づきこの読み出された音声波形を変形し、前記音声信号を生成することを特徴とする請求項2から請求項4のいずれか1項に記載の情報伝達装置。
  6. 前記特徴値から、感情の推定に用いる特徴量を計算し、この特徴量に基づき前記話者の感情を推定する感情推定部と、
    前記音声出力部での音声出力に同期させて、前記感情推定部が推定した感情に対応した色彩を表出させる第1色彩出力部とを備えることを特徴とする請求項2から請求項5のいずれか1項に記載の情報伝達装置。
  7. 前記感情推定部は、特徴量と、音素または音素列と、感情の種類との対応を記憶した第1感情データベースを有し、前記音声認識部が抽出した前記音素または音素列ごとに前記特徴値から特徴量を計算するとともに、この特徴量と、前記第1感情データベース内の特徴量とを比較して、もっとも近い特徴量に対応した感情を、前記話者の感情として推定することを特徴とする請求項6に記載の情報伝達装置。
  8. 前記感情推定部は、前記特徴量と感情の種類との対応を統計的に記憶した第2感情データベースを有し、前記特徴値から特徴量を計算し、この計算した特徴量を前記第2感情データベースを用いて統計的に処理して前記話者の感情を推定することを特徴とする請求項6または請求項7に記載の情報伝達装置。
  9. 前記第2感情データベースは、各感情の種類ごとに前記マイクを用いて検出した少なくとも一つの発話から前記特徴量を求め、この特徴量を訓練データとして3層パーセプトロンを学習し、特徴量と感情とを統計的に対応付けてなることを特徴とする請求項8に記載の情報伝達装置。
  10. 前記話者に自己の感情を入力させる感情入力部と、
    前記音声出力部での音声出力に同期させて、前記感情入力部から入力された感情に対応した色彩を表出させる第2色彩出力部とを備えることを特徴とする請求項1から請求項9のいずれか1項に記載の情報伝達装置。
JP2005206755A 2004-09-14 2005-07-15 情報伝達装置 Expired - Fee Related JP4456537B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005206755A JP4456537B2 (ja) 2004-09-14 2005-07-15 情報伝達装置
US11/225,943 US8185395B2 (en) 2004-09-14 2005-09-13 Information transmission device
DE602005001142T DE602005001142T2 (de) 2004-09-14 2005-09-14 Nachrichtenübertragungsgerät
AT05020010T ATE362632T1 (de) 2004-09-14 2005-09-14 Nachrichtenübertragungsgerät
EP05020010A EP1635327B1 (en) 2004-09-14 2005-09-14 Information transmission device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004267378 2004-09-14
JP2005206755A JP4456537B2 (ja) 2004-09-14 2005-07-15 情報伝達装置

Publications (2)

Publication Number Publication Date
JP2006113546A true JP2006113546A (ja) 2006-04-27
JP4456537B2 JP4456537B2 (ja) 2010-04-28

Family

ID=35197928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005206755A Expired - Fee Related JP4456537B2 (ja) 2004-09-14 2005-07-15 情報伝達装置

Country Status (5)

Country Link
US (1) US8185395B2 (ja)
EP (1) EP1635327B1 (ja)
JP (1) JP4456537B2 (ja)
AT (1) ATE362632T1 (ja)
DE (1) DE602005001142T2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250761A (ja) * 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム
JP2011076047A (ja) * 2009-10-01 2011-04-14 Nobuyoshi Yamagishi 音響分析技術と心理学を用いた疑似コミュニケーション装置
JP2012137680A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2013174750A (ja) * 2012-02-27 2013-09-05 Hiroshima City Univ 心的状態識別装置及び識別方法
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017111760A (ja) * 2015-12-18 2017-06-22 カシオ計算機株式会社 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
WO2018168369A1 (ja) * 2017-03-14 2018-09-20 株式会社Seltech 機械学習装置および機械学習プログラム
KR20200032935A (ko) * 2018-09-19 2020-03-27 주식회사 공훈 음성인식장치 및 음성인식방법
US11538491B2 (en) 2019-10-28 2022-12-27 Hitachi, Ltd. Interaction system, non-transitory computer readable storage medium, and method for controlling interaction system

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
JP4085130B2 (ja) * 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US20080243492A1 (en) * 2006-09-07 2008-10-02 Yamaha Corporation Voice-scrambling-signal creation method and apparatus, and computer-readable storage medium therefor
GB2444539A (en) * 2006-12-07 2008-06-11 Cereproc Ltd Altering text attributes in a text-to-speech converter to change the output speech characteristics
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
EP2141696A1 (en) * 2008-07-03 2010-01-06 Deutsche Thomson OHG Method for time scaling of a sequence of input signal values
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8731932B2 (en) 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US9763617B2 (en) 2011-08-02 2017-09-19 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
US10561361B2 (en) 2013-10-20 2020-02-18 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
US11289077B2 (en) * 2014-07-15 2022-03-29 Avaya Inc. Systems and methods for speech analytics and phrase spotting using phoneme sequences
US10255487B2 (en) * 2015-12-24 2019-04-09 Casio Computer Co., Ltd. Emotion estimation apparatus using facial images of target individual, emotion estimation method, and non-transitory computer readable medium
JP6866715B2 (ja) * 2017-03-22 2021-04-28 カシオ計算機株式会社 情報処理装置、感情認識方法、及び、プログラム
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6337552B1 (en) * 1999-01-20 2002-01-08 Sony Corporation Robot apparatus
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
US4783805A (en) * 1984-12-05 1988-11-08 Victor Company Of Japan, Ltd. System for converting a voice signal to a pitch signal
JPH06139044A (ja) 1992-10-28 1994-05-20 Sony Corp インターフェース方法及び装置
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5860064A (en) 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JPH08335091A (ja) * 1995-06-09 1996-12-17 Sony Corp 音声認識装置、および音声合成装置、並びに音声認識合成装置
US5933805A (en) 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6182044B1 (en) * 1998-09-01 2001-01-30 International Business Machines Corporation System and methods for analyzing and critiquing a vocal performance
EP1011094B1 (en) * 1998-12-17 2005-03-02 Sony International (Europe) GmbH Semi-supervised speaker adaption
JP3624733B2 (ja) * 1999-01-22 2005-03-02 株式会社日立製作所 手話メール装置及び手話情報処理装置
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP2001215993A (ja) 2000-01-31 2001-08-10 Sony Corp 対話処理装置および対話処理方法、並びに記録媒体
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6865533B2 (en) * 2000-04-21 2005-03-08 Lessac Technology Inc. Text to speech
GB0013241D0 (en) * 2000-05-30 2000-07-19 20 20 Speech Limited Voice synthesis
JP2002066155A (ja) 2000-08-28 2002-03-05 Sente Creations:Kk 感情表現動作玩具
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7076433B2 (en) * 2001-01-24 2006-07-11 Honda Giken Kogyo Kabushiki Kaisha Apparatus and program for separating a desired sound from a mixed input sound
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
JP3843743B2 (ja) 2001-03-09 2006-11-08 独立行政法人科学技術振興機構 ロボット視聴覚システム
US20030093280A1 (en) 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
US6721699B2 (en) * 2001-11-12 2004-04-13 Intel Corporation Method and system of Chinese speech pitch extraction
JP2003150194A (ja) 2001-11-14 2003-05-23 Seiko Epson Corp 音声対話装置および音声対話装置における入力音声最適化方法ならびに音声対話装置における入力音声最適化処理プログラム
JP3945356B2 (ja) 2002-09-17 2007-07-18 株式会社デンソー 音声対話装置及びプログラム
JP2004061666A (ja) 2002-07-25 2004-02-26 Photon:Kk 情報信号コンバートシステム
US8768701B2 (en) 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250761A (ja) * 2009-04-20 2010-11-04 Nippon Telegr & Teleph Corp <Ntt> アバタ生成装置、方法およびプログラム
JP2011076047A (ja) * 2009-10-01 2011-04-14 Nobuyoshi Yamagishi 音響分析技術と心理学を用いた疑似コミュニケーション装置
JP2012137680A (ja) * 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2013174750A (ja) * 2012-02-27 2013-09-05 Hiroshima City Univ 心的状態識別装置及び識別方法
JP2014219594A (ja) * 2013-05-09 2014-11-20 ソフトバンクモバイル株式会社 会話処理システム及びプログラム
JPWO2016136062A1 (ja) * 2015-02-27 2017-12-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
WO2016136062A1 (ja) * 2015-02-27 2016-09-01 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017111760A (ja) * 2015-12-18 2017-06-22 カシオ計算機株式会社 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム
WO2018168369A1 (ja) * 2017-03-14 2018-09-20 株式会社Seltech 機械学習装置および機械学習プログラム
JPWO2018168369A1 (ja) * 2017-03-14 2020-01-30 積水ハウス株式会社 機械学習装置および機械学習プログラム
JP7082444B2 (ja) 2017-03-14 2022-06-08 積水ハウス株式会社 機械学習装置および機械学習プログラム
KR20200032935A (ko) * 2018-09-19 2020-03-27 주식회사 공훈 음성인식장치 및 음성인식방법
KR102098956B1 (ko) * 2018-09-19 2020-04-09 주식회사 공훈 음성인식장치 및 음성인식방법
US11538491B2 (en) 2019-10-28 2022-12-27 Hitachi, Ltd. Interaction system, non-transitory computer readable storage medium, and method for controlling interaction system

Also Published As

Publication number Publication date
DE602005001142D1 (de) 2007-06-28
DE602005001142T2 (de) 2008-01-17
US8185395B2 (en) 2012-05-22
ATE362632T1 (de) 2007-06-15
US20060069559A1 (en) 2006-03-30
EP1635327A1 (en) 2006-03-15
JP4456537B2 (ja) 2010-04-28
EP1635327B1 (en) 2007-05-16

Similar Documents

Publication Publication Date Title
JP4456537B2 (ja) 情報伝達装置
US8898062B2 (en) Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
CN101627427A (zh) 声音强调装置及声音强调方法
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
JP6270661B2 (ja) 音声対話方法、及び音声対話システム
JP5382780B2 (ja) 発話意図情報検出装置及びコンピュータプログラム
WO2008018653A1 (en) Voice color conversion system using glottal waveform
Razak et al. Emotion pitch variation analysis in Malay and English voice samples
Xue et al. Emotional speech synthesis system based on a three-layered model using a dimensional approach
JP4839970B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP2007101813A (ja) 認識システム
Xue et al. Voice conversion to emotional speech based on three-layered model in dimensional approach and parameterization of dynamic features in prosody
JP6569588B2 (ja) 音声対話装置およびプログラム
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP2017106989A (ja) 音声対話装置およびプログラム
JP2017106988A (ja) 音声対話装置およびプログラム
JP2017106990A (ja) 音声対話装置およびプログラム
Přibilová et al. Spectrum modification for emotional speech synthesis
JP2655903B2 (ja) 音声認識装置
Sairanen Deep learning text-to-speech synthesis with Flowtron and WaveGlow
Medhi et al. Different acoustic feature parameters ZCR, STE, LPC and MFCC analysis of Assamese vowel phonemes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4456537

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140212

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees