JP5381994B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP5381994B2
JP5381994B2 JP2010534659A JP2010534659A JP5381994B2 JP 5381994 B2 JP5381994 B2 JP 5381994B2 JP 2010534659 A JP2010534659 A JP 2010534659A JP 2010534659 A JP2010534659 A JP 2010534659A JP 5381994 B2 JP5381994 B2 JP 5381994B2
Authority
JP
Japan
Prior art keywords
information
speech
voice
feature amount
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010534659A
Other languages
English (en)
Other versions
JPWO2010047027A1 (ja
Inventor
玲史 近藤
正徳 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010534659A priority Critical patent/JP5381994B2/ja
Publication of JPWO2010047027A1 publication Critical patent/JPWO2010047027A1/ja
Application granted granted Critical
Publication of JP5381994B2 publication Critical patent/JP5381994B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、音声情報に基づいて、音声と異なる態様にてユーザに情報を伝達するための非音声情報を生成する情報処理装置に関する。
ユーザにより入力された音声情報を受け付け、受け付けた音声情報が表す音声の特徴を表す音声特徴量を抽出し、抽出した音声特徴量に基づいて、画像を表す画像情報を音韻毎に選択する情報処理装置が知られている。そして、この情報処理装置は、選択した画像情報が表す画像を、受け付けた音声情報が表す音声と同期させて出力する。
これによれば、情報処理装置は、音声情報を入力したユーザが有する感情を反映した画像を出力することができる。従って、音声情報を入力したユーザ以外のユーザは、その音声情報が表す音声とともに、その音声情報を入力したユーザが有する感情を反映した画像を見ることができる。
特開2003−248837号公報
ところで、上記音声情報を入力したユーザが、情報処理装置によって選択された画像情報を編集し、その後、上記入力した音声情報のうちの、この編集した画像情報に対応する部分を変更した音声情報を入力する場合を想定する。この場合、上記情報処理装置は、変更後の音声情報に基づいて再び画像情報を選択し直す。従って、ユーザが画像情報に対して行った編集の結果は、情報処理装置が新たに選択した画像情報に反映されなくなってしまう。
即ち、ユーザが、既に画像情報に対して行っていた編集と同様の編集を、音声情報を変更する毎に行う必要が生じる場合があるという問題があった。このような問題は、画像情報以外の情報であって音声と異なる態様にてユーザに情報を伝達するための非音声情報を、音声情報に基づいて生成する情報処理装置においても同様に生じる。
即ち、上記情報処理装置においては、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間が煩雑であるという問題があった。
このため、本発明の目的は、上述した課題である「音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間が煩雑であること」を解決することが可能な情報処理装置を提供することにある。
かかる目的を達成するため本発明の一形態である情報処理装置は、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を記憶する非音声情報記憶手段と、
第2の音声の特徴を表す第2の音声特徴量を受け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴量と、上記受け付けられた第2の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、
上記算出された特徴量差と、上記記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する非音声情報生成手段と、
を備える。
また、本発明の他の形態である情報処理方法は、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報が記憶装置に記憶させれている場合に、
第2の音声の特徴を表す第2の音声特徴量を受け付け、
上記第1の音声の特徴を表す第1の音声特徴量と、上記受け付けられた第2の音声特徴量と、の差である特徴量差を算出し、
上記算出された特徴量差と、上記記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する、方法である。
また、本発明の他の形態であるプログラムは、
記憶装置を備える情報処理装置に、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を上記記憶装置に記憶させる非音声情報記憶処理手段と、
第2の音声の特徴を表す第2の音声特徴量を受け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴量と、上記受け付けられた第2の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、
上記算出された特徴量差と、上記記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する非音声情報生成手段と、
を実現させるためのプログラムである。
本発明は、以上のように構成されることにより、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間を軽減することができる。
本発明の第1実施形態に係る情報処理装置の概略構成を表す図である。 図1に示した情報処理装置の機能の概略を表すブロック図である。 第1の非音声情報及び第2の非音声情報のそれぞれの時間に対する変化を概念的に示した図である。 第1の音声特徴量、第2の音声特徴量、及び、特徴量差を示したテーブルと、情報変更条件情報を示したテーブルと、である。 音韻系列同一区間を概念的に示した図である。 第1の情報変更規則〜第4の情報変更規則を示したテーブルである。 第2の情報変更条件情報〜第4の情報変更条件情報を示したテーブルである。 本発明の第2実施形態に係る、第1の音声特徴量、第2の音声特徴量、及び、特徴量差を示したテーブルである。 本発明の第3実施形態に係る情報処理装置の機能の概略を表すブロック図である。 本発明の第4実施形態に係る情報処理装置の機能の概略を表すブロック図である。
以下、本発明に係る、情報処理装置、情報処理方法、及び、プログラム、の各実施形態について図1〜図10を参照しながら説明する。
<第1実施形態>
図1に示したように、第1実施形態に係る情報処理装置1は、バスBSを介して互いに接続された中央処理装置(CPU;Central Processing Unit)10と、記憶装置(メモリ及びハードディスク駆動装置(HDD))20と、入出力インタフェース部30と、を備える。なお、記憶装置20は、着脱可能な記録媒体(例えば、磁気ディスク、半導体メモリ又は光ディスク等)に情報を記憶するように構成されていてもよい。
情報処理装置1は、記憶装置20に記憶されているプログラムをCPU10が実行することにより、後述する機能を実現するように構成されている。
入出力インタフェース部30には、入力装置40と、出力装置50と、が接続されている。
入力装置40は、キーボード及びマウスを含む。入出力インタフェース部30は、ユーザが入力装置40を操作することにより入力装置40に入力された情報を受け付けるように構成されている。
出力装置50は、ディスプレイ及びスピーカを含む。入出力インタフェース部30は、CPU10により生成された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示(出力)するように構成されている。また、入出力インタフェース部30は、CPU10により生成された音声情報に基づいて、音声をスピーカから出力させるように構成されている。
図2は、上記のように構成された情報処理装置1の機能を表すブロック図である。この機能は、情報処理装置1のCPU10が記憶装置20に記憶されているプログラムを実行することにより、実現される。
この情報処理装置1の機能は、非音声情報記憶部(非音声情報記憶手段、非音声情報記憶処理工程、非音声情報記憶処理手段)61と、音声特徴量受付部(音声特徴量受付手段、音声特徴量受付工程)62と、特徴量差算出部(特徴量差算出手段、特徴量差算出工程)63と、非音声情報生成部(非音声情報生成手段、非音声情報生成工程)64と、音声合成部65と、出力情報生成部66と、を含む。
非音声情報記憶部61は、第1の音声(本例では、「これわてすとです」という音声)と対応づけられた非音声情報である第1の非音声情報を、その第1の音声の特徴を表す第1の音声特徴量と対応付けて予め記憶装置20に記憶させている。非音声情報は、音声と異なる態様にてユーザに情報を伝達するための情報である。本例では、非音声情報は、顔を含む画像を複数含む映像を表す映像情報である。第1の非音声情報は、図3の(A)に示した映像を表す映像情報である。
また、第1の音声特徴量は、図4の(A)に示したように、第1の音声を構成する音声素片毎に抽出された、ピッチ周波数、時間長、及び、パワーを含む。ピッチ周波数は、音の高さを表す情報である。時間長は、音の長さを表す情報である。パワーは、音の大きさを表す情報である。
音声特徴量受付部62は、第2の音声の特徴を表す第2の音声特徴量を受け付ける。第2の音声特徴量は、図4の(A)に示したように、第2の音声を構成する音声素片毎に抽出された、ピッチ周波数、時間長、及び、パワーを含む。本例では、音声特徴量受付部62は、ユーザが入力装置40を介して入力した第2の音声特徴量を受け付ける。
なお、本例では、音声素片は音節である。なお、音声素片は、ダイフォン(二単音)であってもよい。二単音は、例えば、子音及び母音からなる音(例えば、/ka/(カ))、及び、母音及び母音からなる音(例えば、/ai/(アイ))である。
特徴量差算出部63は、非音声情報記憶部61により記憶されている第1の音声特徴量と、音声特徴量受付部62により受け付けられた第2の音声特徴量と、の差である特徴量差を算出する。具体的には、特徴量差算出部63は、音声素片毎に、第2の音声特徴量から第1の音声特徴量を減じた値を特徴量差として算出する。特徴量差は、ピッチ周波数、時間長、及び、パワーのそれぞれに対して算出される(図4の(A)を参照)。
非音声情報生成部64は、特徴量差算出部63により算出された特徴量差と、非音声情報記憶部61により記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する。
具体的には、非音声情報生成部64は、第2の音声の音声素片毎に、特徴量差算出部63により算出された特徴量差が、予め設定された情報変更条件を満足するか否かを判定する。非音声情報生成部64は、情報変更条件を表す情報変更条件情報を、図4の(B)に示したように、記憶装置20に記憶させている。
情報変更条件情報は、ピッチ周波数、時間長、及び、パワーのそれぞれの閾値を含む情報である。
本例では、情報変更条件は、ピッチ周波数が10Hz以上増加し、且つ、パワーが3dB以上増加する、という条件である。
そして、非音声情報生成部64は、算出された特徴量差が上記情報変更条件を満足する場合に、非音声情報記憶部61により記憶させられている第1の非音声情報を、その情報変更条件に対応付けられた情報変更規則に従って変更することにより第2の非音声情報を生成する。本例では、情報変更規則は、顔を傾ける旨を定めた規則である。
一方、音声合成部65は、音声特徴量受付部62により受け付けられた第2の音声特徴量と、予め記憶装置20に記憶され且つ音声素片を表す音声素片情報と、に基づいて第2の音声を表す第2の音声情報を生成する(即ち、音声合成処理を行う)。
出力情報生成部66は、非音声情報生成部64により生成された第2の非音声情報と、音声合成部65により生成された第2の音声情報と、を、第2の音声の音声素片毎に同期させて合成した出力情報(音声及び映像からなる動画を表す動画情報)を生成する。
これにより、出力装置50は、出力情報生成部66により生成された出力情報が表す音声をスピーカから出力するとともに、その出力情報が表す映像をディスプレイに表示させる。
次に、上記のように構成された情報処理装置1の作動について説明する。
先ず、非音声情報記憶部61が、「これわてすとです」という第1の音声の特徴を表す第1の音声特徴量(図4の(A)を参照)と、第1の音声と対応付けられた第1の非音声情報(図3の(A)を参照)と、を対応付けて記憶装置20に記憶させている場合を想定する。
更に、ユーザが、第2の音声特徴量を、入力装置40を介して入力した場合を想定する。この第2の音声特徴量は、第1の音声特徴量のうちの、音韻「わ」に対応する部分の、ピッチ周波数を20Hzだけ高くし且つ時間長を30msecだけ長くし且つパワーを5dBだけ大きくした音声特徴量である。更に、この第2の音声特徴量は、第1の音声特徴量のうちの、音韻「で」に対応する部分の、ピッチ周波数を20Hzだけ低くした音声特徴量である。加えて、この第2の音声特徴量は、第1の音声特徴量のうちの、末尾の音韻「す」に対応する部分の、ピッチ周波数を30Hzだけ低くし且つパワーを10dBだけ大きくした音声特徴量である。
この場合、音声特徴量受付部62は、入力された第2の音声特徴量を受け付ける(音声特徴量受付工程)。そして、特徴量差算出部63は、図4の(A)に示したように、特徴量差を算出する(特徴量差算出工程)。この結果、音韻「わ」に対応する特徴量差のみが上記情報変更条件を満足している。従って、非音声情報生成部64は、第1の非音声情報が表す映像のうちの音韻「わ」に対応する部分における映像内の顔を傾けさせるように映像を変更する処理を行う。そして、非音声情報生成部64は、処理後の非音声情報を第2の非音声情報として取得(生成)する(非音声情報生成工程)。
このようにして、図3の(B)に示したように、第1の非音声情報が表す映像が、音韻「わ」に対応する部分にて、顔が傾けられるように変更された映像が、第2の音声と同期させられながら出力装置50により出力される。
以上、説明したように、本発明による情報処理装置の第1実施形態によれば、情報処理装置1は、算出された特徴量差と、第1の非音声情報と、に基づいて第2の非音声情報を生成する。これにより、例えば、情報処理装置1が、ユーザによって編集された非音声情報を第1の非音声情報として記憶していた場合、情報処理装置1は、その第1の非音声情報を特徴量差に応じて変化させた情報を第2の非音声情報として生成することができる。従って、第1の非音声情報を第2の非音声情報に反映させることができる。
この結果、ユーザが第1の非音声情報を編集するために既に入力した情報と同様の情報を、第2の非音声情報を生成するために、ユーザが再び入力する手間を省くことができる。即ち、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間を軽減することができ、ユーザの利便性を向上させることができる。
また、第1の非音声情報に基づくことなく第2の非音声情報を生成する場合と比較して、情報処理装置1の処理負荷を軽減することができる。
更に、第1実施形態は、音声特徴量(第1の音声特徴量及び第2の音声特徴量)が、音声素片毎に抽出された特徴量を含むように構成されている。これにより、情報処理装置1は、音声素片毎に変化する第2の非音声情報を生成することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
なお、上記第1実施形態の変形例は、第2の音声のうちの、第1の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた第2の非音声情報を生成するように構成されることが好適である。即ち、この変形例において、特徴量差算出部63は、共通する(同一の)音韻列を有する部分の特徴量差のみを算出するとともに、非音声情報生成部64は、その部分と対応づけられた第2の非音声情報のみを生成する。
具体的には、図5に示したように、第1の音声が「これわてすとですよね」であり且つ第2の音声が「これわてすとですといわれました」である場合、情報処理装置1は、「これわてすとです」の部分(音韻系列同一区間SR)の特徴量差のみを算出し、その部分と対応づけられた第2の非音声情報のみを生成する。
これによれば、特徴量差に基づいて、第2の音声に対応する感情を表す行動を正確に特定することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
また、上記第1実施形態においては、情報変更規則は、顔を傾ける旨を定めた規則であったが、顔を横に向ける旨を定めた規則であってもよく、頬の色をより赤くする旨を定めた規則であってもよく、目の開度を小さくする(目をつぶる)旨を定めた規則であってもよい。
更に、上記第1実施形態においては、非音声情報は、顔を含む画像を複数含む映像を表す映像情報であったが、人間及び/又は動物の上半身又は全身の画像を複数含む映像を表す映像情報であってもよい。また、非音声情報は、ロボットの動作を制御する制御信号であってもよい。
<第2実施形態>
次に、本発明の第2実施形態に係る情報処理装置1について説明する。第2実施形態に係る情報処理装置1は、上記第1実施形態に係る情報処理装置1に対して、特徴量差が複数の情報変更条件のいずれかを満足する場合に、その満足された情報変更条件に対応付けられた情報変更規則に従って第1の非音声情報を変更する点において相違している。従って、以下、かかる相違点を中心として説明する。
複数の情報変更条件は、第1の情報変更条件〜第4の情報変更条件からなる。
非音声情報生成部64は、第1の情報変更条件〜第4の情報変更条件のそれぞれを表す第1の情報変更条件情報〜第4の情報変更条件情報を、図4の(B)及び図7に示したように、記憶装置20に記憶させている。更に、非音声情報生成部64は、図6に示したように、第1の情報変更条件〜第4の情報変更条件のそれぞれと対応付けて第1の情報変更規則〜第4の情報変更規則を記憶装置20に記憶させている。
第1の情報変更条件は、上記第1実施形態に係る情報変更条件と同一の条件である。即ち、第1の情報変更条件は、図4の(B)に示したように、ピッチ周波数が10Hz以上増加し、且つ、パワーが3dB以上増加する、という条件である。更に、第1の情報変更条件に対応付けられた第1の情報変更規則は、図6に示したように、顔を左右方向に傾ける(首を傾げる)旨を定めた規則である。なお、本例では、首を傾げることは、疑問を有する旨を表す感情を表した行動である。
また、第2の情報変更条件は、図7の(A)に示したように、ピッチ周波数が5Hz以上増加し、且つ、時間長が10msec以上増加する、という条件である。更に、第2の情報変更条件に対応付けられた第2の情報変更規則は、図6に示したように、口を大きく開く(口の開度を大きくする)旨を定めた規則である。なお、本例では、口を大きく開くことは、嬉しさを表す感情を表した行動である。
また、第3の情報変更条件は、図7の(B)に示したように、ピッチ周波数が10Hz以上減少し、且つ、パワーが3dB以上増加する、という条件である。更に、第3の情報変更条件に対応付けられた第3の情報変更規則は、図6に示したように、目を大きく開く(目の開度を大きくする)旨を定めた規則である。なお、本例では、目を大きく開くことは、怒りを表す感情を表した行動である。
また、第4の情報変更条件は、図7の(C)に示したように、ピッチ周波数が5Hz以上減少し、且つ、時間長が10msec以上減少し、且つ、パワーが3dB以上減少する、という条件である。更に、第4の情報変更条件に対応付けられた第4の情報変更規則は、図6に示したように、顔を下に向ける(顔をうつむける)旨を定めた規則である。なお、本例では、顔を下に向けることは、恥ずかしさを表す感情を表した行動である。
非音声情報生成部64は、第2の音声の音声素片毎に、特徴量差算出部63により算出された特徴量差が、上記第1の情報変更条件〜第4の情報変更条件の少なくとも1つを満足するか否かを判定する。
そして、非音声情報生成部64は、算出された特徴量差が上記第1の情報変更条件〜第4の情報変更条件の少なくとも1つを満足する場合に、非音声情報記憶部61により記憶させられている第1の非音声情報を、当該満足された情報変更条件の1つに対応付けられた情報変更規則(例えば、特徴量差が第1の情報変更条件を満足する場合には、第1の情報変更規則)に従って変更することにより第2の非音声情報を生成する。
次に、上記のように構成された情報処理装置1の作動について説明する。
先ず、非音声情報記憶部61が、「これわてすとです」という第1の音声の特徴を表す第1の音声特徴量(図8を参照)と、第1の音声と対応付けられた第1の非音声情報と、を対応付けて記憶装置20に記憶させている場合を想定する。
更に、ユーザが、第2の音声特徴量を、入力装置40を介して入力した場合を想定する。この第2の音声特徴量は、第1の音声特徴量のうちの、音韻「わ」に対応する部分の、ピッチ周波数を20Hzだけ高くし且つ時間長を30msecだけ長くし且つパワーを5dBだけ大きくした音声特徴量である。更に、この第2の音声特徴量は、第1の音声特徴量のうちの、音韻「で」に対応する部分の、ピッチ周波数を20Hzだけ低くした音声特徴量である。加えて、この第2の音声特徴量は、第1の音声特徴量のうちの、末尾の音韻「す」に対応する部分の、ピッチ周波数を30Hzだけ低くし且つパワーを10dBだけ大きくした音声特徴量である。
この場合、音声特徴量受付部62は、入力された第2の音声特徴量を受け付ける(音声特徴量受付工程)。そして、特徴量差算出部63は、図8に示したように、特徴量差を算出する(特徴量差算出工程)。この結果、音韻「わ」に対応する特徴量差が上記第1の情報変更条件及び上記第2の情報変更条件を満足している。従って、非音声情報生成部64は、予め設定された優先順位に従って、第1の情報変更規則を選択する。
次いで、非音声情報生成部64は、選択した第1の情報変更規則に従って、第1の非音声情報を変更することにより第2の非音声情報を生成する。具体的には、非音声情報生成部64は、第1の非音声情報が表す映像のうちの音韻「わ」に対応する部分における映像内の顔を傾けさせるように映像を変更する処理を行う。
更に、上記仮定に従えば、末尾の音韻「す」に対応する特徴量差が上記第3の情報変更条件を満足している。従って、非音声情報生成部64は、第3の情報変更規則に従って、第1の非音声情報を変更することにより第2の非音声情報を生成する。具体的には、非音声情報生成部64は、第1の非音声情報が表す映像のうちの末尾の音韻「す」に対応する部分における映像内の顔の目を大きく開かせるように映像を変更する処理を行う。
そして、非音声情報生成部64は、処理後の非音声情報を第2の非音声情報として取得(生成)する(非音声情報生成工程)。
このようにして、第1の非音声情報が表す映像が、音韻「わ」に対応する部分にて、顔が傾けられるように変更され、且つ、末尾の音韻「す」に対応する部分にて、目が大きく開かれるように変更された映像が、第2の音声と同期させられながら出力装置50により出力される。
以上、説明したように、本発明による情報処理装置の第2実施形態によれば、第1実施形態に係る情報処理装置1と同様の作用及び効果を奏することができる。更に、上記第2実施形態によれば、複数の感情のそれぞれを表す行動(例えば、表情、及び、動作等)を表す情報を、第2の非音声情報によってユーザに伝達される情報に含ませることができる。これにより、ユーザに、人間の実際の行動に近い行動を表す情報を伝達することができる。
なお、上記第2実施形態の変形例において、非音声情報生成部64は、特徴量差算出部63により算出された特徴量差の大きさが大きくなるほど、第1の非音声情報を変更する程度を大きくするように構成されていてもよい。
例えば、非音声情報生成部64は、第1の情報変更規則に従って第1の非音声情報を変更する場合に、第1の音声特徴量と第2の音声特徴量との差の大きさが大きくなるほど、顔を大きく傾けるように映像を変更する処理を行う。同様に、非音声情報生成部64は、第2の情報変更規則に従って第1の非音声情報を変更する場合に、第1の音声特徴量と第2の音声特徴量との差の大きさが大きくなるほど、口をより大きく開くように映像を変更する処理を行う。
同様に、非音声情報生成部64は、第3の情報変更規則に従って第1の非音声情報を変更する場合に、第1の音声特徴量と第2の音声特徴量との差の大きさが大きくなるほど、目をより大きく開くように映像を変更する処理を行う。同様に、非音声情報生成部64は、第4の情報変更規則に従って第1の非音声情報を変更する場合に、第1の音声特徴量と第2の音声特徴量との差の大きさが大きくなるほど、顔を大きく下に向けるように映像を変更する処理を行う。
ところで、特徴量差の大きさが大きくなるほど、第2の音声に対応する感情の強さ(激しさ)を表す程度(例えば、首を傾げる角度、及び、目を見開く大きさ等)が大きくなる。従って、この変形例によれば、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
また、上記第2実施形態において、非音声情報生成部64は、特徴量差が第1の情報変更条件及び第2の情報変更条件の両方を満足する場合、予め設定された優先順位に従って、情報変更規則を選択し、選択した情報変更規則に従って第1の非音声情報を変更するように構成されていた。
ところで、上記第2実施形態の他の変形例において、非音声情報生成部64は、特徴量差算出部63により算出された特徴量差が、第1の情報変更条件及び第2の情報変更条件の両方を満足する場合に、第1の情報変更規則及び第2の情報変更規則の一方を無作為に選択するように構成されていてもよい。この場合、非音声情報生成部64は、選択した情報変更規則に従って、第1の非音声情報を変更するように構成される。
これによれば、第2の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
また、非音声情報生成部64は、特徴量差算出部63により算出された特徴量差が、3つ以上の情報変更条件を満足する場合に、満足されている情報変更条件に対応付けられた情報変更規則の1つを無作為に選択し、選択した情報変更規則に従って第1の非音声情報を変更するように構成されていてもよい。
なお、上記第2実施形態の他の変形例において、非音声情報生成部64は、算出された特徴量差が、第1の情報変更条件を満足する場合において、予め設定された入替条件が成立しているとき、第1の非音声情報を、第2の情報変更規則に従って変更するように構成されていてもよい。例えば、入替条件は、算出された特徴量差がいずれかの情報変更条件を満足した回数が予め設定された閾値回数となった場合に成立する条件である。
人間は、哀しいときに笑うこともある。即ち、実際の人間の行動は、意外性を有している。従って、この変形例によれば、第2の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
<第3実施形態>
次に、本発明の第3実施形態に係る情報処理装置1について説明する。第3実施形態に係る情報処理装置1は、上記第1実施形態に係る情報処理装置1に対して、第1の音声特徴量を編集するための編集情報を受け付け、受け付けた編集情報と第1の音声特徴量とに基づいて第2の音声特徴量を生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
情報処理装置1の機能は、図9に示したように、編集情報受付部(編集情報受付手段)67を含む。
編集情報受付部67は、第1の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける。
音声特徴量受付部62は、上記第1の音声特徴量と、編集情報受付部67により受け付けられた編集情報と、に基づいて第2の音声特徴量を生成する。音声特徴量受付部62は、その生成した第2の音声特徴量を受け付ける。
この第3実施形態によっても、第1実施形態に係る情報処理装置1と同様の作用及び効果を奏することができる。
<第4実施形態>
次に、本発明の第4実施形態に係る情報処理装置について図10を参照しながら説明する。
第4実施形態に係る情報処理装置1の機能は、非音声情報記憶部61と、音声特徴量受付部62と、特徴量差算出部63と、非音声情報生成部64と、を含む。
非音声情報記憶部61は、音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を記憶装置20に記憶させる。
音声特徴量受付部62は、第2の音声の特徴を表す第2の音声特徴量を受け付ける。
特徴量差算出部63は、第1の音声の特徴を表す第1の音声特徴量と、音声特徴量受付部62により受け付けられた第2の音声特徴量と、の差である特徴量差を算出する。
非音声情報生成部64は、特徴量差算出部63により算出された特徴量差と、非音声情報記憶部61により記憶されている第1の非音声情報と、に基づいて、第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する。
これによれば、情報処理装置1は、算出された特徴量差と、第1の非音声情報と、に基づいて第2の非音声情報を生成する。これにより、例えば、情報処理装置1が、ユーザによって編集された非音声情報を第1の非音声情報として記憶していた場合、情報処理装置1は、その第1の非音声情報を特徴量差に応じて変化させた情報を第2の非音声情報として生成することができる。従って、第1の非音声情報を第2の非音声情報に反映させることができる。
この結果、ユーザが第1の非音声情報を編集するために既に入力した情報と同様の情報を、第2の非音声情報を生成するために、ユーザが再び入力する手間を省くことができる。即ち、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間を軽減することができ、ユーザの利便性を向上させることができる。
また、第1の非音声情報に基づくことなく第2の非音声情報を生成する場合と比較して、情報処理装置1の処理負荷を軽減することができる。
この場合、
上記非音声情報生成手段は、上記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより上記第2の非音声情報を生成するように構成されることが好適である。
この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、予め設定された情報変更条件を満足する場合に、上記記憶されている第1の非音声情報を、その情報変更条件に対応付けられた上記情報変更規則に従って変更することにより上記第2の非音声情報を生成するように構成されることが好適である。
この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記情報変更条件としての第1の情報変更条件を満足する場合に、上記記憶されている第1の非音声情報を、上記情報変更規則としての第1の情報変更規則に従って変更し、一方、上記情報変更条件としての第2の情報変更条件を満足する場合に、上記記憶されている第1の非音声情報を、上記情報変更規則としての第2の情報変更規則に従って変更するように構成されることが好適である。
これによれば、複数の感情のそれぞれを表す行動(例えば、表情、及び、動作等)を表す情報を、第2の非音声情報によってユーザに伝達される情報に含ませることができる。これにより、ユーザに、人間の実際の行動に近い行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記第1の情報変更条件及び上記第2の情報変更条件の両方を満足する場合に、上記第1の情報変更規則及び上記第2の情報変更規則の一方を無作為に選択し、当該選択した情報変更規則に従って、上記記憶されている第1の非音声情報を変更するように構成されることが好適である。
これによれば、第2の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記第1の情報変更条件を満足する場合において、予め設定された入替条件が成立しているとき、上記記憶されている第1の非音声情報を、上記第2の情報変更規則に従って変更するように構成されることが好適である。
人間は、哀しいときに笑うこともある。即ち、実際の人間の行動は、意外性を有している。従って、上記のように構成することにより、第2の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
この場合、
上記情報処理装置は、
上記第1の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける編集情報受付手段を備え、
上記音声特徴量受付手段は、上記第1の音声特徴量と、上記受け付けられた編集情報と、に基づいて上記第2の音声特徴量を生成し、当該生成した第2の音声特徴量を受け付けるように構成されることが好適である。
この場合、
上記第1の音声特徴量は、上記第1の音声を構成する音声素片毎に抽出された特徴量を含み、
上記第2の音声特徴量は、上記第2の音声を構成する音声素片毎に抽出された特徴量を含むことが好適である。
人間の感情を表す行動は、音声素片毎に変化し得る。従って、上記構成のように、音声特徴量に、音声素片毎に抽出された特徴量を含ませることにより、情報処理装置は、音声素片毎に変化する第2の非音声情報を生成することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記第2の音声のうちの、上記第1の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた上記第2の非音声情報を生成するように構成されることが好適である。
これによれば、特徴量差に基づいて、第2の音声に対応する感情を表す行動を正確に特定することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出された特徴量差の大きさが大きくなるほど、上記第1の非音声情報を変更する程度を大きくするように構成されることが好適である。
特徴量差の大きさが大きくなるほど、第2の音声に対応する感情の強さ(激しさ)を表す程度(例えば、首を傾げる角度、及び、目を見開く大きさ等)が大きくなる。従って、上記のように構成することにより、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。
この場合、
上記情報処理装置は、
上記第1の音声特徴量及び上記第2の音声特徴量のそれぞれは、音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワー、の少なくとも1つを含むことが好適である。
この場合、
上記非音声情報は、画像を表す画像情報、複数の画像を含む映像を表す映像情報、及び、外部の装置の動作を制御する制御信号、の少なくとも1つを含むことが好適である。
また、本発明の他の形態である情報処理方法は、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報が記憶装置に記憶させれている場合に、
第2の音声の特徴を表す第2の音声特徴量を受け付け、
上記第1の音声の特徴を表す第1の音声特徴量と、上記受け付けられた第2の音声特徴量と、の差である特徴量差を算出し、
上記算出された特徴量差と、上記記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する、方法である。
この場合、上記情報処理方法は、上記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより上記第2の非音声情報を生成するように構成されることが好適である。
また、本発明の他の形態であるプログラムは、
記憶装置を備える情報処理装置に、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を上記記憶装置に記憶させる非音声情報記憶処理手段と、
第2の音声の特徴を表す第2の音声特徴量を受け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴量と、上記受け付けられた第2の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、
上記算出された特徴量差と、上記記憶されている第1の非音声情報と、に基づいて、上記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する非音声情報生成手段と、
を実現させるためのプログラムである。
この場合、
上記非音声情報生成手段は、上記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより上記第2の非音声情報を生成するように構成されることが好適である。
上述した構成を有する、情報処理方法、又は、プログラム、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、上記各実施形態においては、非音声情報は、視覚を介してユーザに情報を伝達するための情報であったが、視覚以外の感覚(例えば、触覚又は嗅覚等)を介してユーザに情報を伝達するための情報であってもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記各実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
なお、本発明は、日本国にて2008年10月21日に出願された特願2008−270407の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、音声情報に基づいて、その音声情報と同期させて出力するための画像情報、映像情報、又は、制御信号等を生成する情報処理装置等に適用可能である。
1 情報処理装置
10 CPU
20 記憶装置
30 入出力インタフェース部
40 入力装置
50 出力装置
61 非音声情報記憶部
62 音声特徴量受付部
63 特徴量差算出部
64 非音声情報生成部
65 音声合成部
66 出力情報生成部
67 編集情報受付部
BS バス
SR 音韻系列同一区間

Claims (10)

  1. 第1の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第1の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第1の音声特徴量と対応づけられた非音声情報である第1の非音声情報を記憶する非音声情報記憶手段と、
    第2の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第2の音声特徴量を受け付ける音声特徴量受付手段と、
    前記第1の音声の音声素片毎の前記第1の音声特徴量と、前記受け付けられた音声素片毎の前記第2の音声特徴量と、に含まれる特徴量毎の差である特徴量差を算出する特徴量差算出手段と、
    前記算出された特徴量差のうち少なくとも2つの各特徴量差が、予め設定された少なくとも2つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第1の非音声情報を変更させる規則である情報変更規則に従って、前記第1の音声特徴量に対応付けられて記憶されている前記第1の非音声情報を変更して、当該変更した情報を前記第2の音声と対応づけられた非音声情報である第2の非音声情報として生成する非音声情報生成手段と、
    を備える情報処理装置。
  2. 請求項に記載の情報処理装置であって、
    前記非音声情報生成手段は、前記算出された特徴量差が、前記情報変更条件である第1の情報変更条件を満足する場合に、前記記憶されている第1の非音声情報を、前記第1の情報変更条件に対応付けられた前記情報変更規則である第1の情報変更規則に従って変更し、一方、前記第1の情報変更条件とは異なる前記情報変更条件である第2の情報変更条件を満足する場合に、前記記憶されている第1の非音声情報を、前記第2の情報変更条件に対応付けられた前記情報変更規則である第2の情報変更規則に従って変更するように構成された情報処理装置。
  3. 請求項に記載の情報処理装置であって、
    前記非音声情報生成手段は、前記算出された特徴量差が、前記第1の情報変更条件及び前記第2の情報変更条件の両方を満足する場合に、前記第1の情報変更規則及び前記第2の情報変更規則の一方を無作為に選択し、当該選択した情報変更規則に従って、前記記憶されている第1の非音声情報を変更するように構成された情報処理装置。
  4. 請求項又は請求項に記載の情報処理装置であって、
    前記非音声情報生成手段は、前記算出された特徴量差が、前記第1の情報変更条件を満足する場合において、前記算出された特徴量差が前記情報変更条件を満足した回数が予め設定された閾値回数となったときに、前記記憶されている第1の非音声情報を、前記第2の情報変更規則に従って変更するように構成された情報処理装置。
  5. 請求項1乃至請求項のいずれか一項に記載の情報処理装置であって、
    前記第1の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける編集情報受付手段を備え、
    前記音声特徴量受付手段は、前記第1の音声特徴量と、前記受け付けられた編集情報と、に基づいて前記第2の音声特徴量を生成し、当該生成した第2の音声特徴量を受け付けるように構成された情報処理装置。
  6. 請求項1乃至請求項5のいずれか一項に記載の情報処理装置であって、
    前記非音声情報生成手段は、前記第2の音声のうちの、前記第1の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた前記第2の非音声情報を生成するように構成された情報処理装置。
  7. 請求項乃至請求項のいずれか一項に記載の情報処理装置であって、
    前記非音声情報生成手段は、前記算出された特徴量差の大きさが大きくなるほど、前記第1の非音声情報を変更する程度を大きくするように構成された情報処理装置。
  8. 請求項1乃至請求項7のいずれか一項に記載の情報処理装置であって、
    前記非音声情報は、画像を表す画像情報、複数の画像を含む映像を表す映像情報、及び、外部の装置の動作を制御する制御信号、の少なくとも1つを含む情報処理装置。
  9. 第1の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第1の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第1の音声特徴量と対応づけられた非音声情報である第1の非音声情報が記憶装置に記憶されている場合に、
    第2の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第2の音声特徴量を受け付け、
    前記第1の音声の音声素片毎の前記第1の音声特徴量と、前記受け付けられた音声素片毎の前記第2の音声特徴量と、に含まれる特徴量毎の差である特徴量差を算出し、
    前記算出された特徴量差のうち少なくとも2つの各特徴量差が、予め設定された少なくとも2つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第1の非音声情報を変更させる規則である情報変更規則に従って、前記第1の音声特徴量に対応付けられて記憶されている前記第1の非音声情報を変更して、当該変更した情報を前記第2の音声と対応づけられた非音声情報である第2の非音声情報として生成する、情報処理方法。
  10. 記憶装置を備える情報処理装置に、
    第1の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第1の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第1の音声特徴量と対応づけられた非音声情報である第1の非音声情報を前記記憶装置に記憶させる非音声情報記憶処理手段と、
    第2の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第2の音声特徴量を受け付ける音声特徴量受付手段と、
    前記第1の音声の音声素片毎の前記第1の音声特徴量と、前記受け付けられた音声素片毎の前記第2の音声特徴量と、に含まれる特徴量毎の差である特徴量差を算出する特徴量差算出手段と、
    前記算出された特徴量差のうち少なくとも2つの各特徴量差が、予め設定された少なくとも2つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第1の非音声情報を変更させる規則である情報変更規則に従って、前記第1の音声特徴量に対応付けられて記憶されている前記第1の非音声情報を変更して、当該変更した情報を前記第2の音声と対応づけられた非音声情報である第2の非音声情報として生成する非音声情報生成手段と、
    を実現させるためのプログラム。
JP2010534659A 2008-10-21 2009-08-21 情報処理装置 Active JP5381994B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010534659A JP5381994B2 (ja) 2008-10-21 2009-08-21 情報処理装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008270407 2008-10-21
JP2008270407 2008-10-21
PCT/JP2009/004003 WO2010047027A1 (ja) 2008-10-21 2009-08-21 情報処理装置
JP2010534659A JP5381994B2 (ja) 2008-10-21 2009-08-21 情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2010047027A1 JPWO2010047027A1 (ja) 2012-03-15
JP5381994B2 true JP5381994B2 (ja) 2014-01-08

Family

ID=42119084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010534659A Active JP5381994B2 (ja) 2008-10-21 2009-08-21 情報処理装置

Country Status (2)

Country Link
JP (1) JP5381994B2 (ja)
WO (1) WO2010047027A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109050471A (zh) * 2018-07-27 2018-12-21 吉利汽车研究院(宁波)有限公司 一种智能穿戴设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6419427A (en) * 1987-07-15 1989-01-23 Hitachi Ltd Voice input computer graphics processor
JP2001029649A (ja) * 1999-07-21 2001-02-06 Taito Corp 音声認識により音声視覚表示を行うゲーム機
JP2002136764A (ja) * 2000-10-30 2002-05-14 Sony Computer Entertainment Inc 入力音声をキャラクタの動作に反映させるエンタテインメント装置、方法および記憶媒体
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法
JP2005316077A (ja) * 2004-04-28 2005-11-10 Techno Face:Kk 情報処理装置およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP4691327B2 (ja) * 2004-06-11 2011-06-01 日本電信電話株式会社 情報処理装置および情報処理プログラム
JP2006178063A (ja) * 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6419427A (en) * 1987-07-15 1989-01-23 Hitachi Ltd Voice input computer graphics processor
JP2001029649A (ja) * 1999-07-21 2001-02-06 Taito Corp 音声認識により音声視覚表示を行うゲーム機
JP2002136764A (ja) * 2000-10-30 2002-05-14 Sony Computer Entertainment Inc 入力音声をキャラクタの動作に反映させるエンタテインメント装置、方法および記憶媒体
JP2002351489A (ja) * 2001-05-29 2002-12-06 Namco Ltd ゲーム情報、情報記憶媒体、及びゲーム装置
JP2003248837A (ja) * 2001-11-12 2003-09-05 Mega Chips Corp 画像作成装置、画像作成システム、音声生成装置、音声生成システム、画像作成用サーバ、プログラム、および記録媒体
JP2004349851A (ja) * 2003-05-20 2004-12-09 Ntt Docomo Inc 携帯端末、画像通信プログラム、及び画像通信方法
JP2005316077A (ja) * 2004-04-28 2005-11-10 Techno Face:Kk 情報処理装置およびプログラム

Also Published As

Publication number Publication date
WO2010047027A1 (ja) 2010-04-29
JPWO2010047027A1 (ja) 2012-03-15

Similar Documents

Publication Publication Date Title
JP4355772B2 (ja) 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム
WO2005071664A1 (ja) 音声合成装置
JP4523257B2 (ja) 音声データ処理方法、プログラム及び音声信号処理システム
JP2016080944A (ja) 音声合成装置およびプログラム
US7080015B2 (en) Synchronization control apparatus and method, and recording medium
JP2006227589A (ja) 音声合成装置および音声合成方法
JP5381994B2 (ja) 情報処理装置
WO2010050103A1 (ja) 音声合成装置
JP7225642B2 (ja) コミュニケーションロボット、制御方法及び制御プログラム
JP3513071B2 (ja) 音声合成方法及び音声合成装置
JP5531654B2 (ja) 制御情報生成装置および形状制御装置
JP2014038208A (ja) 音声合成装置、方法及びプログラム
JP6569588B2 (ja) 音声対話装置およびプログラム
JP5935545B2 (ja) 音声合成装置
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP2017106989A (ja) 音声対話装置およびプログラム
JP2011209423A (ja) 話者の個性や感情を表現する音声合成装置
JP3070136B2 (ja) 音声信号に基づく画像の変形方法
JP2006126548A (ja) 音声合成出力装置
JP2018149629A (ja) ヒューマノイドロボットの驚き動作生成装置
JP2536896B2 (ja) 音声合成装置
JPH06266382A (ja) 音声制御方式
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP3351987B2 (ja) Cg俳優像生成装置
JP2003296753A (ja) 聴覚障害者用対話システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120705

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130430

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130916

R150 Certificate of patent or registration of utility model

Ref document number: 5381994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150