JP5381994B2

JP5381994B2 - 情報処理装置

Info

Publication number: JP5381994B2
Application number: JP2010534659A
Authority: JP
Inventors: 玲史近藤; 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-10-21
Filing date: 2009-08-21
Publication date: 2014-01-08
Anticipated expiration: 2029-08-21
Also published as: WO2010047027A1; JPWO2010047027A1

Description

本発明は、音声情報に基づいて、音声と異なる態様にてユーザに情報を伝達するための非音声情報を生成する情報処理装置に関する。

ユーザにより入力された音声情報を受け付け、受け付けた音声情報が表す音声の特徴を表す音声特徴量を抽出し、抽出した音声特徴量に基づいて、画像を表す画像情報を音韻毎に選択する情報処理装置が知られている。そして、この情報処理装置は、選択した画像情報が表す画像を、受け付けた音声情報が表す音声と同期させて出力する。

これによれば、情報処理装置は、音声情報を入力したユーザが有する感情を反映した画像を出力することができる。従って、音声情報を入力したユーザ以外のユーザは、その音声情報が表す音声とともに、その音声情報を入力したユーザが有する感情を反映した画像を見ることができる。

特開２００３−２４８８３７号公報

ところで、上記音声情報を入力したユーザが、情報処理装置によって選択された画像情報を編集し、その後、上記入力した音声情報のうちの、この編集した画像情報に対応する部分を変更した音声情報を入力する場合を想定する。この場合、上記情報処理装置は、変更後の音声情報に基づいて再び画像情報を選択し直す。従って、ユーザが画像情報に対して行った編集の結果は、情報処理装置が新たに選択した画像情報に反映されなくなってしまう。

即ち、ユーザが、既に画像情報に対して行っていた編集と同様の編集を、音声情報を変更する毎に行う必要が生じる場合があるという問題があった。このような問題は、画像情報以外の情報であって音声と異なる態様にてユーザに情報を伝達するための非音声情報を、音声情報に基づいて生成する情報処理装置においても同様に生じる。
即ち、上記情報処理装置においては、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間が煩雑であるという問題があった。

このため、本発明の目的は、上述した課題である「音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間が煩雑であること」を解決することが可能な情報処理装置を提供することにある。

かかる目的を達成するため本発明の一形態である情報処理装置は、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第１の音声と対応づけられた非音声情報である第１の非音声情報を記憶する非音声情報記憶手段と、
第２の音声の特徴を表す第２の音声特徴量を受け付ける音声特徴量受付手段と、
上記第１の音声の特徴を表す第１の音声特徴量と、上記受け付けられた第２の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、
上記算出された特徴量差と、上記記憶されている第１の非音声情報と、に基づいて、上記第２の音声と対応づけられた非音声情報である第２の非音声情報を生成する非音声情報生成手段と、
を備える。

また、本発明の他の形態である情報処理方法は、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第１の音声と対応づけられた非音声情報である第１の非音声情報が記憶装置に記憶させれている場合に、
第２の音声の特徴を表す第２の音声特徴量を受け付け、
上記第１の音声の特徴を表す第１の音声特徴量と、上記受け付けられた第２の音声特徴量と、の差である特徴量差を算出し、
上記算出された特徴量差と、上記記憶されている第１の非音声情報と、に基づいて、上記第２の音声と対応づけられた非音声情報である第２の非音声情報を生成する、方法である。

また、本発明の他の形態であるプログラムは、
記憶装置を備える情報処理装置に、
音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第１の音声と対応づけられた非音声情報である第１の非音声情報を上記記憶装置に記憶させる非音声情報記憶処理手段と、
第２の音声の特徴を表す第２の音声特徴量を受け付ける音声特徴量受付手段と、
上記第１の音声の特徴を表す第１の音声特徴量と、上記受け付けられた第２の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、
上記算出された特徴量差と、上記記憶されている第１の非音声情報と、に基づいて、上記第２の音声と対応づけられた非音声情報である第２の非音声情報を生成する非音声情報生成手段と、
を実現させるためのプログラムである。

本発明は、以上のように構成されることにより、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間を軽減することができる。

本発明の第１実施形態に係る情報処理装置の概略構成を表す図である。図１に示した情報処理装置の機能の概略を表すブロック図である。第１の非音声情報及び第２の非音声情報のそれぞれの時間に対する変化を概念的に示した図である。第１の音声特徴量、第２の音声特徴量、及び、特徴量差を示したテーブルと、情報変更条件情報を示したテーブルと、である。音韻系列同一区間を概念的に示した図である。第１の情報変更規則〜第４の情報変更規則を示したテーブルである。第２の情報変更条件情報〜第４の情報変更条件情報を示したテーブルである。本発明の第２実施形態に係る、第１の音声特徴量、第２の音声特徴量、及び、特徴量差を示したテーブルである。本発明の第３実施形態に係る情報処理装置の機能の概略を表すブロック図である。本発明の第４実施形態に係る情報処理装置の機能の概略を表すブロック図である。

以下、本発明に係る、情報処理装置、情報処理方法、及び、プログラム、の各実施形態について図１〜図１０を参照しながら説明する。

＜第１実施形態＞
図１に示したように、第１実施形態に係る情報処理装置１は、バスＢＳを介して互いに接続された中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０と、記憶装置（メモリ及びハードディスク駆動装置（ＨＤＤ））２０と、入出力インタフェース部３０と、を備える。なお、記憶装置２０は、着脱可能な記録媒体（例えば、磁気ディスク、半導体メモリ又は光ディスク等）に情報を記憶するように構成されていてもよい。

情報処理装置１は、記憶装置２０に記憶されているプログラムをＣＰＵ１０が実行することにより、後述する機能を実現するように構成されている。

入出力インタフェース部３０には、入力装置４０と、出力装置５０と、が接続されている。
入力装置４０は、キーボード及びマウスを含む。入出力インタフェース部３０は、ユーザが入力装置４０を操作することにより入力装置４０に入力された情報を受け付けるように構成されている。

出力装置５０は、ディスプレイ及びスピーカを含む。入出力インタフェース部３０は、ＣＰＵ１０により生成された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示（出力）するように構成されている。また、入出力インタフェース部３０は、ＣＰＵ１０により生成された音声情報に基づいて、音声をスピーカから出力させるように構成されている。

図２は、上記のように構成された情報処理装置１の機能を表すブロック図である。この機能は、情報処理装置１のＣＰＵ１０が記憶装置２０に記憶されているプログラムを実行することにより、実現される。

この情報処理装置１の機能は、非音声情報記憶部（非音声情報記憶手段、非音声情報記憶処理工程、非音声情報記憶処理手段）６１と、音声特徴量受付部（音声特徴量受付手段、音声特徴量受付工程）６２と、特徴量差算出部（特徴量差算出手段、特徴量差算出工程）６３と、非音声情報生成部（非音声情報生成手段、非音声情報生成工程）６４と、音声合成部６５と、出力情報生成部６６と、を含む。

非音声情報記憶部６１は、第１の音声（本例では、「これわてすとです」という音声）と対応づけられた非音声情報である第１の非音声情報を、その第１の音声の特徴を表す第１の音声特徴量と対応付けて予め記憶装置２０に記憶させている。非音声情報は、音声と異なる態様にてユーザに情報を伝達するための情報である。本例では、非音声情報は、顔を含む画像を複数含む映像を表す映像情報である。第１の非音声情報は、図３の（Ａ）に示した映像を表す映像情報である。

また、第１の音声特徴量は、図４の（Ａ）に示したように、第１の音声を構成する音声素片毎に抽出された、ピッチ周波数、時間長、及び、パワーを含む。ピッチ周波数は、音の高さを表す情報である。時間長は、音の長さを表す情報である。パワーは、音の大きさを表す情報である。

音声特徴量受付部６２は、第２の音声の特徴を表す第２の音声特徴量を受け付ける。第２の音声特徴量は、図４の（Ａ）に示したように、第２の音声を構成する音声素片毎に抽出された、ピッチ周波数、時間長、及び、パワーを含む。本例では、音声特徴量受付部６２は、ユーザが入力装置４０を介して入力した第２の音声特徴量を受け付ける。

なお、本例では、音声素片は音節である。なお、音声素片は、ダイフォン（二単音）であってもよい。二単音は、例えば、子音及び母音からなる音（例えば、／ｋａ／（カ））、及び、母音及び母音からなる音（例えば、／ａｉ／（アイ））である。

特徴量差算出部６３は、非音声情報記憶部６１により記憶されている第１の音声特徴量と、音声特徴量受付部６２により受け付けられた第２の音声特徴量と、の差である特徴量差を算出する。具体的には、特徴量差算出部６３は、音声素片毎に、第２の音声特徴量から第１の音声特徴量を減じた値を特徴量差として算出する。特徴量差は、ピッチ周波数、時間長、及び、パワーのそれぞれに対して算出される（図４の（Ａ）を参照）。

非音声情報生成部６４は、特徴量差算出部６３により算出された特徴量差と、非音声情報記憶部６１により記憶されている第１の非音声情報と、に基づいて、上記第２の音声と対応づけられた非音声情報である第２の非音声情報を生成する。

具体的には、非音声情報生成部６４は、第２の音声の音声素片毎に、特徴量差算出部６３により算出された特徴量差が、予め設定された情報変更条件を満足するか否かを判定する。非音声情報生成部６４は、情報変更条件を表す情報変更条件情報を、図４の（Ｂ）に示したように、記憶装置２０に記憶させている。

情報変更条件情報は、ピッチ周波数、時間長、及び、パワーのそれぞれの閾値を含む情報である。
本例では、情報変更条件は、ピッチ周波数が１０Ｈｚ以上増加し、且つ、パワーが３ｄＢ以上増加する、という条件である。

そして、非音声情報生成部６４は、算出された特徴量差が上記情報変更条件を満足する場合に、非音声情報記憶部６１により記憶させられている第１の非音声情報を、その情報変更条件に対応付けられた情報変更規則に従って変更することにより第２の非音声情報を生成する。本例では、情報変更規則は、顔を傾ける旨を定めた規則である。

一方、音声合成部６５は、音声特徴量受付部６２により受け付けられた第２の音声特徴量と、予め記憶装置２０に記憶され且つ音声素片を表す音声素片情報と、に基づいて第２の音声を表す第２の音声情報を生成する（即ち、音声合成処理を行う）。

出力情報生成部６６は、非音声情報生成部６４により生成された第２の非音声情報と、音声合成部６５により生成された第２の音声情報と、を、第２の音声の音声素片毎に同期させて合成した出力情報（音声及び映像からなる動画を表す動画情報）を生成する。

これにより、出力装置５０は、出力情報生成部６６により生成された出力情報が表す音声をスピーカから出力するとともに、その出力情報が表す映像をディスプレイに表示させる。

次に、上記のように構成された情報処理装置１の作動について説明する。
先ず、非音声情報記憶部６１が、「これわてすとです」という第１の音声の特徴を表す第１の音声特徴量（図４の（Ａ）を参照）と、第１の音声と対応付けられた第１の非音声情報（図３の（Ａ）を参照）と、を対応付けて記憶装置２０に記憶させている場合を想定する。

更に、ユーザが、第２の音声特徴量を、入力装置４０を介して入力した場合を想定する。この第２の音声特徴量は、第１の音声特徴量のうちの、音韻「わ」に対応する部分の、ピッチ周波数を２０Ｈｚだけ高くし且つ時間長を３０ｍｓｅｃだけ長くし且つパワーを５ｄＢだけ大きくした音声特徴量である。更に、この第２の音声特徴量は、第１の音声特徴量のうちの、音韻「で」に対応する部分の、ピッチ周波数を２０Ｈｚだけ低くした音声特徴量である。加えて、この第２の音声特徴量は、第１の音声特徴量のうちの、末尾の音韻「す」に対応する部分の、ピッチ周波数を３０Ｈｚだけ低くし且つパワーを１０ｄＢだけ大きくした音声特徴量である。

この場合、音声特徴量受付部６２は、入力された第２の音声特徴量を受け付ける（音声特徴量受付工程）。そして、特徴量差算出部６３は、図４の（Ａ）に示したように、特徴量差を算出する（特徴量差算出工程）。この結果、音韻「わ」に対応する特徴量差のみが上記情報変更条件を満足している。従って、非音声情報生成部６４は、第１の非音声情報が表す映像のうちの音韻「わ」に対応する部分における映像内の顔を傾けさせるように映像を変更する処理を行う。そして、非音声情報生成部６４は、処理後の非音声情報を第２の非音声情報として取得（生成）する（非音声情報生成工程）。

このようにして、図３の（Ｂ）に示したように、第１の非音声情報が表す映像が、音韻「わ」に対応する部分にて、顔が傾けられるように変更された映像が、第２の音声と同期させられながら出力装置５０により出力される。

以上、説明したように、本発明による情報処理装置の第１実施形態によれば、情報処理装置１は、算出された特徴量差と、第１の非音声情報と、に基づいて第２の非音声情報を生成する。これにより、例えば、情報処理装置１が、ユーザによって編集された非音声情報を第１の非音声情報として記憶していた場合、情報処理装置１は、その第１の非音声情報を特徴量差に応じて変化させた情報を第２の非音声情報として生成することができる。従って、第１の非音声情報を第２の非音声情報に反映させることができる。

この結果、ユーザが第１の非音声情報を編集するために既に入力した情報と同様の情報を、第２の非音声情報を生成するために、ユーザが再び入力する手間を省くことができる。即ち、音声情報を変更した場合に、ユーザが非音声情報を編集するための情報を入力する手間を軽減することができ、ユーザの利便性を向上させることができる。

また、第１の非音声情報に基づくことなく第２の非音声情報を生成する場合と比較して、情報処理装置１の処理負荷を軽減することができる。

更に、第１実施形態は、音声特徴量（第１の音声特徴量及び第２の音声特徴量）が、音声素片毎に抽出された特徴量を含むように構成されている。これにより、情報処理装置１は、音声素片毎に変化する第２の非音声情報を生成することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

なお、上記第１実施形態の変形例は、第２の音声のうちの、第１の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた第２の非音声情報を生成するように構成されることが好適である。即ち、この変形例において、特徴量差算出部６３は、共通する（同一の）音韻列を有する部分の特徴量差のみを算出するとともに、非音声情報生成部６４は、その部分と対応づけられた第２の非音声情報のみを生成する。

具体的には、図５に示したように、第１の音声が「これわてすとですよね」であり且つ第２の音声が「これわてすとですといわれました」である場合、情報処理装置１は、「これわてすとです」の部分（音韻系列同一区間ＳＲ）の特徴量差のみを算出し、その部分と対応づけられた第２の非音声情報のみを生成する。

これによれば、特徴量差に基づいて、第２の音声に対応する感情を表す行動を正確に特定することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

また、上記第１実施形態においては、情報変更規則は、顔を傾ける旨を定めた規則であったが、顔を横に向ける旨を定めた規則であってもよく、頬の色をより赤くする旨を定めた規則であってもよく、目の開度を小さくする（目をつぶる）旨を定めた規則であってもよい。

更に、上記第１実施形態においては、非音声情報は、顔を含む画像を複数含む映像を表す映像情報であったが、人間及び／又は動物の上半身又は全身の画像を複数含む映像を表す映像情報であってもよい。また、非音声情報は、ロボットの動作を制御する制御信号であってもよい。

＜第２実施形態＞
次に、本発明の第２実施形態に係る情報処理装置１について説明する。第２実施形態に係る情報処理装置１は、上記第１実施形態に係る情報処理装置１に対して、特徴量差が複数の情報変更条件のいずれかを満足する場合に、その満足された情報変更条件に対応付けられた情報変更規則に従って第１の非音声情報を変更する点において相違している。従って、以下、かかる相違点を中心として説明する。

複数の情報変更条件は、第１の情報変更条件〜第４の情報変更条件からなる。
非音声情報生成部６４は、第１の情報変更条件〜第４の情報変更条件のそれぞれを表す第１の情報変更条件情報〜第４の情報変更条件情報を、図４の（Ｂ）及び図７に示したように、記憶装置２０に記憶させている。更に、非音声情報生成部６４は、図６に示したように、第１の情報変更条件〜第４の情報変更条件のそれぞれと対応付けて第１の情報変更規則〜第４の情報変更規則を記憶装置２０に記憶させている。

第１の情報変更条件は、上記第１実施形態に係る情報変更条件と同一の条件である。即ち、第１の情報変更条件は、図４の（Ｂ）に示したように、ピッチ周波数が１０Ｈｚ以上増加し、且つ、パワーが３ｄＢ以上増加する、という条件である。更に、第１の情報変更条件に対応付けられた第１の情報変更規則は、図６に示したように、顔を左右方向に傾ける（首を傾げる）旨を定めた規則である。なお、本例では、首を傾げることは、疑問を有する旨を表す感情を表した行動である。

また、第２の情報変更条件は、図７の（Ａ）に示したように、ピッチ周波数が５Ｈｚ以上増加し、且つ、時間長が１０ｍｓｅｃ以上増加する、という条件である。更に、第２の情報変更条件に対応付けられた第２の情報変更規則は、図６に示したように、口を大きく開く（口の開度を大きくする）旨を定めた規則である。なお、本例では、口を大きく開くことは、嬉しさを表す感情を表した行動である。

また、第３の情報変更条件は、図７の（Ｂ）に示したように、ピッチ周波数が１０Ｈｚ以上減少し、且つ、パワーが３ｄＢ以上増加する、という条件である。更に、第３の情報変更条件に対応付けられた第３の情報変更規則は、図６に示したように、目を大きく開く（目の開度を大きくする）旨を定めた規則である。なお、本例では、目を大きく開くことは、怒りを表す感情を表した行動である。

また、第４の情報変更条件は、図７の（Ｃ）に示したように、ピッチ周波数が５Ｈｚ以上減少し、且つ、時間長が１０ｍｓｅｃ以上減少し、且つ、パワーが３ｄＢ以上減少する、という条件である。更に、第４の情報変更条件に対応付けられた第４の情報変更規則は、図６に示したように、顔を下に向ける（顔をうつむける）旨を定めた規則である。なお、本例では、顔を下に向けることは、恥ずかしさを表す感情を表した行動である。

非音声情報生成部６４は、第２の音声の音声素片毎に、特徴量差算出部６３により算出された特徴量差が、上記第１の情報変更条件〜第４の情報変更条件の少なくとも１つを満足するか否かを判定する。

そして、非音声情報生成部６４は、算出された特徴量差が上記第１の情報変更条件〜第４の情報変更条件の少なくとも１つを満足する場合に、非音声情報記憶部６１により記憶させられている第１の非音声情報を、当該満足された情報変更条件の１つに対応付けられた情報変更規則（例えば、特徴量差が第１の情報変更条件を満足する場合には、第１の情報変更規則）に従って変更することにより第２の非音声情報を生成する。

次に、上記のように構成された情報処理装置１の作動について説明する。
先ず、非音声情報記憶部６１が、「これわてすとです」という第１の音声の特徴を表す第１の音声特徴量（図８を参照）と、第１の音声と対応付けられた第１の非音声情報と、を対応付けて記憶装置２０に記憶させている場合を想定する。

この場合、音声特徴量受付部６２は、入力された第２の音声特徴量を受け付ける（音声特徴量受付工程）。そして、特徴量差算出部６３は、図８に示したように、特徴量差を算出する（特徴量差算出工程）。この結果、音韻「わ」に対応する特徴量差が上記第１の情報変更条件及び上記第２の情報変更条件を満足している。従って、非音声情報生成部６４は、予め設定された優先順位に従って、第１の情報変更規則を選択する。

次いで、非音声情報生成部６４は、選択した第１の情報変更規則に従って、第１の非音声情報を変更することにより第２の非音声情報を生成する。具体的には、非音声情報生成部６４は、第１の非音声情報が表す映像のうちの音韻「わ」に対応する部分における映像内の顔を傾けさせるように映像を変更する処理を行う。

更に、上記仮定に従えば、末尾の音韻「す」に対応する特徴量差が上記第３の情報変更条件を満足している。従って、非音声情報生成部６４は、第３の情報変更規則に従って、第１の非音声情報を変更することにより第２の非音声情報を生成する。具体的には、非音声情報生成部６４は、第１の非音声情報が表す映像のうちの末尾の音韻「す」に対応する部分における映像内の顔の目を大きく開かせるように映像を変更する処理を行う。

そして、非音声情報生成部６４は、処理後の非音声情報を第２の非音声情報として取得（生成）する（非音声情報生成工程）。

このようにして、第１の非音声情報が表す映像が、音韻「わ」に対応する部分にて、顔が傾けられるように変更され、且つ、末尾の音韻「す」に対応する部分にて、目が大きく開かれるように変更された映像が、第２の音声と同期させられながら出力装置５０により出力される。

以上、説明したように、本発明による情報処理装置の第２実施形態によれば、第１実施形態に係る情報処理装置１と同様の作用及び効果を奏することができる。更に、上記第２実施形態によれば、複数の感情のそれぞれを表す行動（例えば、表情、及び、動作等）を表す情報を、第２の非音声情報によってユーザに伝達される情報に含ませることができる。これにより、ユーザに、人間の実際の行動に近い行動を表す情報を伝達することができる。

なお、上記第２実施形態の変形例において、非音声情報生成部６４は、特徴量差算出部６３により算出された特徴量差の大きさが大きくなるほど、第１の非音声情報を変更する程度を大きくするように構成されていてもよい。

例えば、非音声情報生成部６４は、第１の情報変更規則に従って第１の非音声情報を変更する場合に、第１の音声特徴量と第２の音声特徴量との差の大きさが大きくなるほど、顔を大きく傾けるように映像を変更する処理を行う。同様に、非音声情報生成部６４は、第２の情報変更規則に従って第１の非音声情報を変更する場合に、第１の音声特徴量と第２の音声特徴量との差の大きさが大きくなるほど、口をより大きく開くように映像を変更する処理を行う。

同様に、非音声情報生成部６４は、第３の情報変更規則に従って第１の非音声情報を変更する場合に、第１の音声特徴量と第２の音声特徴量との差の大きさが大きくなるほど、目をより大きく開くように映像を変更する処理を行う。同様に、非音声情報生成部６４は、第４の情報変更規則に従って第１の非音声情報を変更する場合に、第１の音声特徴量と第２の音声特徴量との差の大きさが大きくなるほど、顔を大きく下に向けるように映像を変更する処理を行う。

ところで、特徴量差の大きさが大きくなるほど、第２の音声に対応する感情の強さ（激しさ）を表す程度（例えば、首を傾げる角度、及び、目を見開く大きさ等）が大きくなる。従って、この変形例によれば、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

また、上記第２実施形態において、非音声情報生成部６４は、特徴量差が第１の情報変更条件及び第２の情報変更条件の両方を満足する場合、予め設定された優先順位に従って、情報変更規則を選択し、選択した情報変更規則に従って第１の非音声情報を変更するように構成されていた。

ところで、上記第２実施形態の他の変形例において、非音声情報生成部６４は、特徴量差算出部６３により算出された特徴量差が、第１の情報変更条件及び第２の情報変更条件の両方を満足する場合に、第１の情報変更規則及び第２の情報変更規則の一方を無作為に選択するように構成されていてもよい。この場合、非音声情報生成部６４は、選択した情報変更規則に従って、第１の非音声情報を変更するように構成される。
これによれば、第２の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

また、非音声情報生成部６４は、特徴量差算出部６３により算出された特徴量差が、３つ以上の情報変更条件を満足する場合に、満足されている情報変更条件に対応付けられた情報変更規則の１つを無作為に選択し、選択した情報変更規則に従って第１の非音声情報を変更するように構成されていてもよい。

なお、上記第２実施形態の他の変形例において、非音声情報生成部６４は、算出された特徴量差が、第１の情報変更条件を満足する場合において、予め設定された入替条件が成立しているとき、第１の非音声情報を、第２の情報変更規則に従って変更するように構成されていてもよい。例えば、入替条件は、算出された特徴量差がいずれかの情報変更条件を満足した回数が予め設定された閾値回数となった場合に成立する条件である。

人間は、哀しいときに笑うこともある。即ち、実際の人間の行動は、意外性を有している。従って、この変形例によれば、第２の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

＜第３実施形態＞
次に、本発明の第３実施形態に係る情報処理装置１について説明する。第３実施形態に係る情報処理装置１は、上記第１実施形態に係る情報処理装置１に対して、第１の音声特徴量を編集するための編集情報を受け付け、受け付けた編集情報と第１の音声特徴量とに基づいて第２の音声特徴量を生成する点において相違している。従って、以下、かかる相違点を中心として説明する。

情報処理装置１の機能は、図９に示したように、編集情報受付部（編集情報受付手段）６７を含む。
編集情報受付部６７は、第１の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける。
音声特徴量受付部６２は、上記第１の音声特徴量と、編集情報受付部６７により受け付けられた編集情報と、に基づいて第２の音声特徴量を生成する。音声特徴量受付部６２は、その生成した第２の音声特徴量を受け付ける。

この第３実施形態によっても、第１実施形態に係る情報処理装置１と同様の作用及び効果を奏することができる。

＜第４実施形態＞
次に、本発明の第４実施形態に係る情報処理装置について図１０を参照しながら説明する。
第４実施形態に係る情報処理装置１の機能は、非音声情報記憶部６１と、音声特徴量受付部６２と、特徴量差算出部６３と、非音声情報生成部６４と、を含む。

非音声情報記憶部６１は、音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第１の音声と対応づけられた非音声情報である第１の非音声情報を記憶装置２０に記憶させる。

音声特徴量受付部６２は、第２の音声の特徴を表す第２の音声特徴量を受け付ける。
特徴量差算出部６３は、第１の音声の特徴を表す第１の音声特徴量と、音声特徴量受付部６２により受け付けられた第２の音声特徴量と、の差である特徴量差を算出する。
非音声情報生成部６４は、特徴量差算出部６３により算出された特徴量差と、非音声情報記憶部６１により記憶されている第１の非音声情報と、に基づいて、第２の音声と対応づけられた非音声情報である第２の非音声情報を生成する。

これによれば、情報処理装置１は、算出された特徴量差と、第１の非音声情報と、に基づいて第２の非音声情報を生成する。これにより、例えば、情報処理装置１が、ユーザによって編集された非音声情報を第１の非音声情報として記憶していた場合、情報処理装置１は、その第１の非音声情報を特徴量差に応じて変化させた情報を第２の非音声情報として生成することができる。従って、第１の非音声情報を第２の非音声情報に反映させることができる。

この場合、
上記非音声情報生成手段は、上記記憶されている第１の非音声情報を、予め定められた情報変更規則に従って変更することにより上記第２の非音声情報を生成するように構成されることが好適である。

この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、予め設定された情報変更条件を満足する場合に、上記記憶されている第１の非音声情報を、その情報変更条件に対応付けられた上記情報変更規則に従って変更することにより上記第２の非音声情報を生成するように構成されることが好適である。

この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記情報変更条件としての第１の情報変更条件を満足する場合に、上記記憶されている第１の非音声情報を、上記情報変更規則としての第１の情報変更規則に従って変更し、一方、上記情報変更条件としての第２の情報変更条件を満足する場合に、上記記憶されている第１の非音声情報を、上記情報変更規則としての第２の情報変更規則に従って変更するように構成されることが好適である。

これによれば、複数の感情のそれぞれを表す行動（例えば、表情、及び、動作等）を表す情報を、第２の非音声情報によってユーザに伝達される情報に含ませることができる。これにより、ユーザに、人間の実際の行動に近い行動を表す情報を伝達することができる。

この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記第１の情報変更条件及び上記第２の情報変更条件の両方を満足する場合に、上記第１の情報変更規則及び上記第２の情報変更規則の一方を無作為に選択し、当該選択した情報変更規則に従って、上記記憶されている第１の非音声情報を変更するように構成されることが好適である。

これによれば、第２の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

この場合、
上記非音声情報生成手段は、上記算出された特徴量差が、上記第１の情報変更条件を満足する場合において、予め設定された入替条件が成立しているとき、上記記憶されている第１の非音声情報を、上記第２の情報変更規則に従って変更するように構成されることが好適である。

人間は、哀しいときに笑うこともある。即ち、実際の人間の行動は、意外性を有している。従って、上記のように構成することにより、第２の非音声情報によって、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

この場合、
上記情報処理装置は、
上記第１の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける編集情報受付手段を備え、
上記音声特徴量受付手段は、上記第１の音声特徴量と、上記受け付けられた編集情報と、に基づいて上記第２の音声特徴量を生成し、当該生成した第２の音声特徴量を受け付けるように構成されることが好適である。

この場合、
上記第１の音声特徴量は、上記第１の音声を構成する音声素片毎に抽出された特徴量を含み、
上記第２の音声特徴量は、上記第２の音声を構成する音声素片毎に抽出された特徴量を含むことが好適である。

人間の感情を表す行動は、音声素片毎に変化し得る。従って、上記構成のように、音声特徴量に、音声素片毎に抽出された特徴量を含ませることにより、情報処理装置は、音声素片毎に変化する第２の非音声情報を生成することができる。この結果、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

この場合、
上記非音声情報生成手段は、上記第２の音声のうちの、上記第１の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた上記第２の非音声情報を生成するように構成されることが好適である。

この場合、
上記非音声情報生成手段は、上記算出された特徴量差の大きさが大きくなるほど、上記第１の非音声情報を変更する程度を大きくするように構成されることが好適である。

特徴量差の大きさが大きくなるほど、第２の音声に対応する感情の強さ（激しさ）を表す程度（例えば、首を傾げる角度、及び、目を見開く大きさ等）が大きくなる。従って、上記のように構成することにより、ユーザに、人間の実際の行動により一層近い行動を表す情報を伝達することができる。

この場合、
上記情報処理装置は、
上記第１の音声特徴量及び上記第２の音声特徴量のそれぞれは、音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワー、の少なくとも１つを含むことが好適である。

この場合、
上記非音声情報は、画像を表す画像情報、複数の画像を含む映像を表す映像情報、及び、外部の装置の動作を制御する制御信号、の少なくとも１つを含むことが好適である。

この場合、上記情報処理方法は、上記記憶されている第１の非音声情報を、予め定められた情報変更規則に従って変更することにより上記第２の非音声情報を生成するように構成されることが好適である。

上述した構成を有する、情報処理方法、又は、プログラム、の発明であっても、上記情報処理装置と同様の作用を有するために、上述した本発明の目的を達成することができる。

以上、上記各実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。

例えば、上記各実施形態においては、非音声情報は、視覚を介してユーザに情報を伝達するための情報であったが、視覚以外の感覚（例えば、触覚又は嗅覚等）を介してユーザに情報を伝達するための情報であってもよい。

また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

また、上記各実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。

なお、本発明は、日本国にて２００８年１０月２１日に出願された特願２００８−２７０４０７の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。

本発明は、音声情報に基づいて、その音声情報と同期させて出力するための画像情報、映像情報、又は、制御信号等を生成する情報処理装置等に適用可能である。

１情報処理装置
１０ＣＰＵ
２０記憶装置
３０入出力インタフェース部
４０入力装置
５０出力装置
６１非音声情報記憶部
６２音声特徴量受付部
６３特徴量差算出部
６４非音声情報生成部
６５音声合成部
６６出力情報生成部
６７編集情報受付部
ＢＳバス
ＳＲ音韻系列同一区間

Claims

第１の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第１の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第１の音声特徴量と対応づけられた非音声情報である第１の非音声情報を記憶する非音声情報記憶手段と、
第２の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第２の音声特徴量を受け付ける音声特徴量受付手段と、
前記第１の音声の音声素片毎の前記第１の音声特徴量と、前記受け付けられた音声素片毎の前記第２の音声特徴量と、に含まれる特徴量毎の差である各特徴量差を算出する特徴量差算出手段と、
前記算出された各特徴量差のうち少なくとも２つの各特徴量差が、予め設定された少なくとも２つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第１の非音声情報を変更させる規則である情報変更規則に従って、前記第１の音声特徴量に対応付けられて記憶されている前記第１の非音声情報を変更して、当該変更した情報を前記第２の音声と対応づけられた非音声情報である第２の非音声情報として生成する非音声情報生成手段と、
を備える情報処理装置。
請求項１に記載の情報処理装置であって、
前記非音声情報生成手段は、前記算出された特徴量差が、前記情報変更条件である第１の情報変更条件を満足する場合に、前記記憶されている第１の非音声情報を、前記第１の情報変更条件に対応付けられた前記情報変更規則である第１の情報変更規則に従って変更し、一方、前記第１の情報変更条件とは異なる前記情報変更条件である第２の情報変更条件を満足する場合に、前記記憶されている第１の非音声情報を、前記第２の情報変更条件に対応付けられた前記情報変更規則である第２の情報変更規則に従って変更するように構成された情報処理装置。
請求項２に記載の情報処理装置であって、
前記非音声情報生成手段は、前記算出された特徴量差が、前記第１の情報変更条件及び前記第２の情報変更条件の両方を満足する場合に、前記第１の情報変更規則及び前記第２の情報変更規則の一方を無作為に選択し、当該選択した情報変更規則に従って、前記記憶されている第１の非音声情報を変更するように構成された情報処理装置。
請求項２又は請求項３に記載の情報処理装置であって、
前記非音声情報生成手段は、前記算出された特徴量差が、前記第１の情報変更条件を満足する場合において、前記算出された特徴量差が前記情報変更条件を満足した回数が予め設定された閾値回数となったときに、前記記憶されている第１の非音声情報を、前記第２の情報変更規則に従って変更するように構成された情報処理装置。
請求項１乃至請求項４のいずれか一項に記載の情報処理装置であって、
前記第１の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける編集情報受付手段を備え、
前記音声特徴量受付手段は、前記第１の音声特徴量と、前記受け付けられた編集情報と、に基づいて前記第２の音声特徴量を生成し、当該生成した第２の音声特徴量を受け付けるように構成された情報処理装置。
請求項１乃至請求項５のいずれか一項に記載の情報処理装置であって、
前記非音声情報生成手段は、前記第２の音声のうちの、前記第１の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた前記第２の非音声情報を生成するように構成された情報処理装置。
請求項１乃至請求項６のいずれか一項に記載の情報処理装置であって、
前記非音声情報生成手段は、前記算出された特徴量差の大きさが大きくなるほど、前記第１の非音声情報を変更する程度を大きくするように構成された情報処理装置。
請求項１乃至請求項７のいずれか一項に記載の情報処理装置であって、
前記非音声情報は、画像を表す画像情報、複数の画像を含む映像を表す映像情報、及び、外部の装置の動作を制御する制御信号、の少なくとも１つを含む情報処理装置。
第１の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第１の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第１の音声特徴量と対応づけられた非音声情報である第１の非音声情報が記憶装置に記憶されている場合に、
第２の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第２の音声特徴量を受け付け、
前記第１の音声の音声素片毎の前記第１の音声特徴量と、前記受け付けられた音声素片毎の前記第２の音声特徴量と、に含まれる特徴量毎の差である各特徴量差を算出し、
前記算出された各特徴量差のうち少なくとも２つの各特徴量差が、予め設定された少なくとも２つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第１の非音声情報を変更させる規則である情報変更規則に従って、前記第１の音声特徴量に対応付けられて記憶されている前記第１の非音声情報を変更して、当該変更した情報を前記第２の音声と対応づけられた非音声情報である第２の非音声情報として生成する、情報処理方法。
記憶装置を備える情報処理装置に、
第１の音声と対応付けられ当該音声と異なる態様にてユーザに情報を伝達するための非音声情報であって、第１の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第１の音声特徴量と対応づけられた非音声情報である第１の非音声情報を前記記憶装置に記憶させる非音声情報記憶処理手段と、
第２の音声を構成する音声素片毎に抽出された特徴量である音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワーを含む第２の音声特徴量を受け付ける音声特徴量受付手段と、
前記第１の音声の音声素片毎の前記第１の音声特徴量と、前記受け付けられた音声素片毎の前記第２の音声特徴量と、に含まれる特徴量毎の差である各特徴量差を算出する特徴量差算出手段と、
前記算出された各特徴量差のうち少なくとも２つの各特徴量差が、予め設定された少なくとも２つの前記各特徴量差の閾値を含む情報変更条件を満足する場合に、当該情報変更条件に対応付けられた前記第１の非音声情報を変更させる規則である情報変更規則に従って、前記第１の音声特徴量に対応付けられて記憶されている前記第１の非音声情報を変更して、当該変更した情報を前記第２の音声と対応づけられた非音声情報である第２の非音声情報として生成する非音声情報生成手段と、
を実現させるためのプログラム。