JP3973434B2

JP3973434B2 - 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体

Info

Publication number: JP3973434B2
Application number: JP2002024823A
Authority: JP
Inventors: 里絵門地; 昌和浅野; 広和源野
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2002-01-31
Filing date: 2002-01-31
Publication date: 2007-09-12
Anticipated expiration: 2022-01-31
Also published as: JP2003228391A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声に付随する情報を前記音声から抽出した音響学的特徴に基づいて推定する情報処理方法、情報処理システム、情報処理装置、前記情報処理システム及び情報処理装置を実現するためのコンピュータプログラム、並びに該コンピュータプログラムが記録されている記録媒体に関する。
【０００２】
【従来の技術】
パーソナルコンピュータ、音声処理装置等の情報処理装置を利用して、入力された音声を解析し、その音声に伴う感情を推定する方法が知られている。主として、以下で説明する２つの方法が従来から知られている。
１つは、入力された音声に対して音声認識を行うことにより、その音声に対応した文字列を特定し、文字列の内容に基づいて感情を推定する方法である。この方法による場合、感情を示す語彙として予め用意しておいた語彙情報と特定した文字列の内容とが一致するか否かを判断することにより、喜び、怒り、哀しみ、驚き、楽しみなど１０種類程度に分類された感情から１つの感情を特定することが行われる。
【０００３】
もう１つは、入力された音声に対してその音声波形を解析して、音声の強弱（音圧レベル）、ピッチ周波数、継続時間等の特徴量を抽出し、感情の程度（抑揚）を推定する方法である。この方法による場合、まず、感情の推定を行う前の準備段階として、音圧レベル、ピッチ周波数、継続時間等の特徴量の基準値を設定する。基準値としては、例えば、成人男性、成人女性、子供などの母集団における各特徴量の平均値をとる。感情の推定を行う場合、被験者から新たに音声を収集し、その音声の波形を解析して特徴量を抽出する。そして、抽出した特徴量と被験者が属する母集団の基準値とを比較し、比較した結果に基づいて被験者の感情の程度を推定する。
【０００４】
【発明が解決しようとする課題】
しかしながら、特定した文字列の内容に基づいて感情を推定する方法では、感情の程度まで推定することができず、一方、音声の特徴量（音圧レベル、ピッチ周波数、継続時間）から感情の程度を推定する方法では、推定した感情の程度がどのような感情に対応しているのかということまで推測することは困難である。
また、各特徴量の基準値として、成人男性、成人女性、子供の平均値をとった場合、被験者の個別性を反映させることができないという問題点がある。更に、音声は、加齢及び被験者の体調によっても変化することが一般的であり、また、音声を採取した時期によっても変化することが多い。したがって、加齢、被験者の体調、及び音声を採取した時期を反映させて適切に感情を推定することができることが望ましい。
【０００５】
本発明は斯かる事情に鑑みてなされたものであり、互いに相関を有する２つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することにより、被験者から発せられた音声から、その音声に付随する情報の意味内容及び程度を容易に推定することができる情報処理方法、情報処理システム、情報処理装置、前記情報処理システム及び情報処理装置を実現するコンピュータプログラム、並びに該コンピュータプログラムが記録されている記録媒体を提供することを目的とする。
【０００６】
本発明の他の目的は、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報であることにより、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【０００７】
本発明の更に他の目的は、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定することにより、音声を採取した時期を反映させて適切に情報を推定することができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【０００８】
本発明の更に他の目的は、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定することにより、複数の特徴情報を推定に反映させることができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【０００９】
【課題を解決するための手段】
第１発明に係る情報処理方法は、質問情報の記憶手段及び出力手段と、音声の受付手段とを備える情報処理システムにより、前記記憶手段に記憶してある質問情報を出力し、出力した質問情報に対する回答を音声にて受付け、受付けた音声に係る音響学的特徴を抽出し、抽出した音響学的特徴に基づき、前記音声に付随する情報を推定する情報処理方法において、前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を前記出力手段により出力し、出力された第１及び第２質問情報に対する回答を夫々音声にて受付け、受付けた第１質問情報の回答に係る音声から文字列情報を抽出し、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出し、抽出した文字列情報と特徴情報とを関連付けて記憶し、記憶してある文字列情報と特徴情報とから両者の相関関係を設定し、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することを特徴とする。
【００１０】
第２発明に係る情報処理方法は、第１発明において、前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする。
【００１１】
第３発明に係る情報処理方法は、第１発明又は第２発明において、第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定することを特徴とする。
【００１２】
第４発明に係る情報処理方法は、第１発明乃至第３発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定することを特徴とする。
【００１３】
第５発明に係る情報処理システムは、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声を受付ける手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理システムにおいて、前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第１質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【００１４】
第６発明に係る情報処理システムは、通信ネットワークを介して接続された第１情報処理装置と第２情報処理装置とを備え、前記第１情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を送信する送信手段とを備え、前記第２情報処理装置は、前記通信ネットワークを通じて送信された質問情報を受信する手段と、受信した質問情報に対する回答を音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第１情報処理装置は、前記通信ネットワークを通じて受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理システムにおいて、前記第２情報処理装置は、前記第１情報処理装置の前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を前記ネットワークを通じて受信する手段と、受信した第１及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第１情報処理装置は、受信した第１質問情報の回答に係る音声情報から文字列情報を抽出する文字列情報抽出手段と、受信した第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第２質問情報の回答に係る音声情報を前記第２情報処理装置から新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【００１５】
第７発明に係る情報処理方法は、第５発明又は第６発明において、前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする。
【００１６】
第８発明に係る情報処理システムは、第５発明乃至第７発明の何れかにおいて、第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする。
【００１７】
第９発明に係る情報処理システムは、第５発明乃至第８発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする。
【００１８】
第１０発明に係る情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声の受付手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理装置において、前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第１質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【００１９】
第１１発明に係る情報処理装置は、通信ネットワークに接続可能になしてあり、音声情報を受信する手段を備え、受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理装置において、互いに相関を有する第１質問情報及び第２質問情報に対する回答を前記通信ネットワークを通じて夫々音声情報にて受信する手段と、受信した第１質問情報の回答に係る音声情報から該音声情報が含む文字列情報を抽出する文字列情報抽出手段と、受信した第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第２質問情報の回答に係る音声情報を新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【００２０】
第１２発明に係る情報処理装置は、第１０発明又は第１１発明において、前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする。
【００２１】
第１３発明に係る情報処理装置は、第１０発明乃至第１２発明の何れかにおいて、第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする。
【００２２】
第１４発明に係る情報処理装置は、第１０発明乃至第１３発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする。
【００２３】
第１５発明に係る情報処理装置は、第１０発明乃至第１４発明の何れかにおいて、前記特徴情報抽出手段は、入力された音声情報の音圧を検出する検出手段、ピッチ周波数を検出する検出手段、継続時間を検出する検出手段、又はジッタを検出する検出手段のうち少なくとも一の検出手段を備えることを特徴とする。
【００２４】
第１６発明に係る情報処理装置は、第１０発明乃至第１５発明の何れかにおいて、前記文字列情報抽出手段が抽出した文字列情報から前記第１質問情報の回答の中心になる部分を抽出するようにしてあることを特徴とする。
【００２５】
第１７発明に係るコンピュータプログラムは、コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムにおいて、コンピュータに、互いに相関を有する第１質問情報及び第２質問情報を出力させるステップと、コンピュータに、出力された第１及び第２質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第１質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第２質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有することを特徴とする。
【００２６】
第１８発明に係るコンピュータでの読取りが可能な記録媒体は、コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムが記録されているコンピュータでの読取りが可能な記録媒体において、コンピュータに、互いに相関を有する第１質問情報及び第２質問情報を出力させるステップと、コンピュータに、出力された第１及び第２質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第１質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第２質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有するコンピュータプログラムが記録されていることを特徴とする。
【００２７】
本発明にあっては、互いに相関を有する２つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、抽出した文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定する。したがって、例えば、一方の質問情報を被験者の感情に関する質問情報とし、他方の質問情報を被験者の体調に係る質問とした場合、体調に係る質問を被験者に答えてもらうことによって、その被験者の感情を推定することが可能である。特に、感情に関する質問で、被験者自身に特定の感情に対する評価を答えてもらい、その評価と体調に係る質問の回答から抽出した音響学的特徴との間に相関関係を設定することによって、体調に係る質問の音声による回答のみから、感情の種類、及び感情の程度（抑揚）を定量的に推測することが可能である。
【００２８】
また、本発明にあっては、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報である。したがって、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる。
【００２９】
更に本発明にあっては、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定するようにしている。したがって、本発明の情報処理システムの利用開始時に、前述の相関関係を設定するために音声情報を収集する期間（例えば、一週間程度）を設けることができる。また、加齢、被験者の体調等を適切に考慮して感情の推定を行うために、例えば、一ヶ月ごとに前記相関関係を最新の状態に更新することができる。その為、長期的に感情推定を行うことが可能であり、推定誤差を縮小することが可能である。
【００３０】
更に本発明にあっては、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定するようにしている。したがって、複数の特徴量を利用して感情の推定を行うことができるため、特定の音響学的特徴に被験者の体調等の影響があった場合であっても、その影響を必要最小限に抑えることが可能である。
【００３１】
【発明の実施の形態】
以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
実施の形態１．
図１は、本発明の情報処理装置を具体化した感情推定装置の内部構成を示すブロック図である。本実施の形態に係る感情推定装置は、例えば、マイクロホンのような音声入力部１１を備える「ネコ型」の介護ロボットであり、体調及び心理状態を問う質問を呈示し、これらの質問に対する回答を音声入力部１１により受付け、受付けた音声の波形を解析することにより、音声に伴う感情を推定すべくなしてある。
【００３２】
図中１はＣＰＵであり、バス２を介して後述する各ハードウェア各部に接続されていて、ＲＯＭ３に格納された制御プログラムに従って、それらを制御する。ＲＡＭ４は、ＳＲＡＭ又はフラッシュメモリ等で構成され、ＲＯＭ３に格納された制御プログラムの実行時に発生するデータを記憶する。
【００３３】
表示部５は、体調及び心理状態に関する質問情報を表示させるための液晶ディスプレイ等の表示装置である。これらの質問情報は、内部記憶装置９が有する質問情報データベース（質問情報ＤＢ）９ｂに記憶されている。質問情報が音声データとして質問情報データベース９ｂに記憶されている場合には、スピーカのような音声出力部１２により質問情報を出力してもよい。入力部６は、感情推定装置の動作を制御するための各種ボタンスイッチを備えている。
【００３４】
音声波形解析部１３は、音声入力部１１により電気信号に変換された音声波形を解析し、音圧、ピッチ周波数、継続時間等の音響学的特徴に係る特徴量を算出する。
【００３５】
音声認識部１４は、音声入力部１１により入力された音声情報の音声認識を行い、音声情報を文字列情報に変換する。変換された文字列情報は、後述するように評価され、評価された値が解析データベース９ａ（解析ＤＢ）に記憶される。
【００３６】
内部記憶装置９は、ハードディスクのような記憶装置からなり、記憶領域の一部は前述の質問情報データベース９ｂ、音声波形解析部１３によって解析された結果を記憶する解析データベース９ａとして用いられており、必要に応じて各種データベースにアクセスし、情報の記憶及び読取り処理が行われる。
【００３７】
外部記憶装置８は、本発明のコンピュータプログラム及び質問情報等のデータを記録したメモリカード等の可搬型の記録媒体１０からコンピュータプログラム及びデータを読取る読取装置からなり、読取られたコンピュータプログラム及びデータは、内部記憶装置９に記憶される。
内部記憶装置９に記憶されているコンピュータプログラムは、ＲＡＭ４に読込まれ、ＣＰＵ１が実行することで感情推定装置として動作する。
【００３８】
図２は、音声入力部１１から入力された音声情報の波形、及び音声波形解析部１３によって抽出された特徴量の時間変化の一例を示すグラフである。
図２（ａ）に示した例では、被験者が質問に対する回答として「いいえ」と答えた場合の音声情報の波形を示している。音声入力部１１から入力された音声情報の波形は音声波形解析部１３によって解析され、図２（ｂ）のグラフに示したような音圧レベルの時間変化、図２（ｃ）のグラフに示したようなピッチ周波数の時間変化を得る。
【００３９】
音圧レベル及びピッチ周波数は、図２（ｂ）及び（ｃ）に示したように時間とともに変化する関数であるが、これらを特徴付ける特徴量としては、音声の継続時間（図２ではｔ₁ −ｔ₀ ）における最大値、平均値、中央値等を採用する。例えば、音圧レベルの特徴量としては、音声の継続時間における平均値をとり、ピッチ周波数の特徴量としては、音声の継続時間における最大値を採用する。このように、音圧レベル、ピッチ周波数等の音響学的特徴に対する特徴量として、最大値、平均値、中央値等の何れを採用するかは予め定めておく。
【００４０】
音声波形解析部１３では、前述した音圧レベルの時間変化、ピッチ周波数の時間変化だけでなく、ピッチ周波数の時間変動、音声の継続時間、音声のかすれに対応するジッタを解析することができ、解析して算出された特徴量は、解析した日付と関連付けて解析データベース９ａに記憶される。
【００４１】
前述した音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタ等は、一般に、被験者の感情に左右されることが知られている。被験者が元気であり、感情が良い状態にある場合、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動は増加する。音声の継続時間、ジッタについては、個々の被験者によって異なることが多いが、一般に、感情が良い状態にある場合は減少することが知られている。逆に、被験者が不機嫌であり、感情が悪い状態にある場合、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動は減少し、音声の継続時間、ジッタは増加することが知られている。
【００４２】
このように、音声の音響学的特徴は被験者の感情と密接な関係があることが知られているが、本発明では、加齢及び被験者の体調といった個別性、及び感情の推定を行う時期を推定結果に反映させるため、前述した音響学的特徴に関する特徴量にのみに基づいて感情の推定を行うのではなく、まず、一定の期間（例えば一週間）、体調を問う体調問診と感情について問うメンタル問診とを行って音声情報の予備データを収集した後、体調問診の回答から算出した特徴量とメンタル問診の回答内容との間の対応付けを行い、前記期間（以下、データ収集期間という）の終了後に行った体調問診の回答から感情を推定するようにしている。また、例えば、月始めの一週間程度は、音声情報の予備データを収集するデータ収集期間を設け、体調問診の回答から算出した特徴量とメンタル問診の回答内容との間の対応付けを行うようにしている。
【００４３】
図３は、各データベースの一例を示す概念図である。
図３（ａ）は、解析データベース９ａの一例を示す概念図であり、予備データを収集する際に、体調問診を行った場合、音声情報の解析を行った日付、並びに音圧レベル（音圧）、ピッチ周波数、ピッチ周波数の変動（ピッチ変動）、継続時間、及びジッタに関する特徴量を互いに関連付けて記憶する。また、メンタル問診からは、感情得点なるものを算出して前記特徴量と関連付けて記憶する。ここで、感情得点とは、感情、心情、気分の善し悪しを得点化したものであり、最も良い感情（心情、気分）を１００点、最も悪い感情（心情、気分）を０点に定めている。更に、予備データを収集した後、感情推定のために体調問診を行った場合、各特徴量と推定した感情得点の推定値とを互いに関連付けて記憶する。
【００４４】
図３（ｂ）は、質問情報データベース９ｂの一例を示す概念図であり、質問情報を識別する質問ＩＤと質問情報の内容とを互いに関連付けて記憶している。図３（ｂ）に示した例では、質問ＩＤ「Ｍ０１」には、メンタル問診として「今日の気分は、１００点満点中何点ですか？」といった内容の質問情報が対応付けられて記憶されており、質問ＩＤ「Ｆ０１」、「Ｆ０２」、…には、体調問診として夫々「おなかがすいて我慢ができないですか？」、「頭痛がしますか？」、…といった内容の質問情報が対応付けられて記憶されている。
【００４５】
これらの質問情報は、予備データの収集する場合、又は感情を推定する場合に出力される。質問情報を出力する場合、感情推定装置の表示部５から文字情報として出力してもよく、また、音声出力部１２から音声情報として出力してもよい。質問情報に対する回答は音声入力部１１により音声情報として入力される。メンタル問診の回答は、音声認識処理により文字列に変換され、回答の中心になる部分、すなわち、前述の質問内容では被験者自身が付けた点数が抽出される。解析データベース９ａには、抽出した点数を感情得点として記憶させる。体調問診では、回答に係る音声情報がＡＤコンバータ等によりデジタル化され、デジタル化された音声波形が一時的にＲＡＭ４に記憶される。そして、記憶された音声波形から回答の中心になる部分、すなわち、「はい」、「いいえ」に該当する部分の波形のみが抽出され、波形の解析が行われる。解析によって得られた音響学的特徴に係る特徴量は、解析データベース９ａの適宜の記憶領域に記憶される。
【００４６】
なお、音声情報の波形の解析、及び音声認識を容易にするために、各質問情報は、回答がある程度予測できるものが望ましく、前述の例のようにメンタル問診の質問は、気分を得点で答えさせる内容とし、体調問診の質問は、「はい」又は「いいえ」で答えることができる内容にしている。特に、体調問診では、体調不良・重篤を問う質問内容に統一した場合、「いいえ」で返答され確率が高くなるため、更に音声情報の波形の解析が容易になる。
【００４７】
図４は、音響学的特徴から算出された特徴量に対する感情得点の得点分布の一例を示したグラフである。
ここでは、図４（ａ）は音圧レベルに対する感情得点の得点分布を示すグラフであり、図４（ｂ）はピッチ周波数に対する感情得点の得点分布を示すグラフである。前述したように、被験者の感情が良い状態にある場合、音圧レベルは大きくなる傾向があり、また、被験者は自身の感情得点を高く付けるはずであるから、図４（ａ）に示したように音圧レベルが大きくなるに従い、感情得点が高くなる傾向の得点分布を示す。ピッチ周波数についても同様であり、被験者の感情が良い状態にある場合、ピッチ周波数は高くなる傾向があり、また、被験者は自身の感情得点を高く付けるはずであるから、図４（ｂ）に示したようピッチ周波数が高くなるに従い、感情得点が高くなる傾向の得点分布を示す。
また、図には示していないが、ピッチ周波数の時間変動、音声の継続時間、及びジッタの各音響学的指標と感情得点との間にも何らかの傾向があり、得点分布をグラフにして示すことが可能である。
【００４８】
これらの得点分布を表す数式モデルを設定することによって、各特徴量から感情得点を容易に推定することが可能である。前述の数式モデルの最も簡単なモデルは、感情得点を１種類の特徴量により表した回帰直線であって、最小二乗法を利用して求めることができる。
音声情報を収集するあたって、例えば、空気が乾燥している時期と湿気を多く含んでいる時期とでは、音声が伝わる速度が変化する。したがって、外気の変化は、音声の持続時間、ピッチ周波数に大きな影響を与えやすいと考えられる。一方、任意の時刻での絶対量である音圧レベルは、外気の影響を受ける程度が低いと考えられる。また、被験者が体調を崩して、風邪を引いている場合は、ピッチ周波数、ジッタに特にその影響が及ぶ。したがって、１種類の特徴量から数式モデルを設定して、感情を推定する場合、必ずしも精度良く感情を推定することができるとは限らない。
【００４９】
そこで、本実施の形態では、外気の影響、被験者の体調等による影響を最小限に抑えるために、前述した５種類全ての特徴量を用いて、得点分布を表す数式モデルを多変量解析によって設定する。
【００５０】
以下では、多変量解析の一つである重回帰分析を利用し、感情得点の得点分布を表す数式モデルを設定する場合について説明する。
重回帰分析では、目的変数ｙと説明変数ｘ₁ ，ｘ₂ ，ｘ₃ ，…との間の関係を重回帰分析によって定める。本実施の形態では、メンタル問診の回答から算出された感情得点を目的変数ｙにとり、体調問診の回答の音響学的特徴から算出された５つの各特徴量を説明変数ｘ₁ ，ｘ₂ ，…，ｘ₅ にとる。ここで、各説明変数ｘ₁ ，ｘ₂ ，…，ｘ₅ は、それぞれ、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタに該当する。
【００５１】
メンタル問診による質問と体調問診による質問とを夫々ｎ回行った場合、ｎ個の目的変数（ｙ₁ ，ｙ₂ ，…ｙ_n ）と、各特徴量につきｎ個の説明変数（ｘ₁₁，ｘ₁₂，…，ｘ_n5）とが得られる。それらの関係を次の５つの線形方程式によって表す。
【００５２】
【数１】

【００５３】
ここで、αは定数であり、β_i （ｉ＝１，…，５）は重回帰係数である。
α，β_i （ｉ＝１，…，５）の最小二乗推定値を、ａ，ｂ_i （ｉ＝１，…，５）で表した場合、これらの係数を用いてｙのｘ₁ ，ｘ₂ ，…，ｘ₅ に対する重回帰式
【００５４】
【数２】

【００５５】
が得られる。
重回帰式を求める手法は既によく知られており、観測値ｙ_j （ｊ＝１，…，ｎ）と推定値Ｙ_j （ｊ＝１，…，ｎ）との差（残差）の二乗和が最小となるようなａ，ｂ_i を算出することによって、重回帰式を求めることができる。ここで、観測値ｙ_j とは、数式１におけるｙ₁ ，…，ｙ_n のことであり、推定値Ｙ_j は、５×ｎ個の特徴量ｘ₁₁，ｘ₁₂，…，ｘ_n5を数式（２）に代入した値である。
算出した定数ａ，重回帰係数ｂ_i （ｉ＝１，…，５）を数式２に代入した重回帰式が求めるべき数式モデルであって、新たに取得した特徴量をｘ₁ ，ｘ₂ ，…，ｘ₅ に代入することによって、感情得点の推定値Ｙが得られる。
【００５６】
本実施の形態では、重回帰分析を利用して得点分布の数式モデルを設定することとしたが、重回帰分析の他に判別分析、数量化ＩＩＩ類分析などを利用することも可能である。
【００５７】
図５は、感情推定装置の処理手順を示すフローチャートである。
感情推定装置は、まず、体調問診に関する質問情報を表示部５に表示する（ステップＳ１）。表示する質問情報は、質問情報データベース９ｂからランダムに選択したものでもよく、また、質問ＩＤの順に選択したものでもよい。また、質問情報は、音声出力部１２から音声によって出力される形態であってもよい。
【００５８】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する（ステップＳ２）。回答を受付けていない場合（Ｓ２：ＮＯ）、回答を受付けるまで待機する。回答を受付けた場合（Ｓ２：ＹＥＳ）、回答を音声情報として記憶する（ステップＳ３）。
【００５９】
次いで、音声波形解析部１３は、ステップＳ３にて記憶した音声情報の波形の解析を行い、音響学的特徴を抽出する（ステップＳ４）。そして、波形の解析によって得られた音圧レベル、ピッチ周波数等の特徴量を解析データベース９ａに記憶する（ステップＳ５）。
【００６０】
次いで、全ての質問に対する回答を受付けたか否かを判断することによって、体調問診が終了したか否かを判断する（ステップＳ６）。体調問診が終了していない場合（Ｓ６：ＮＯ）、処理をステップＳ１に戻す。体調問診が終了した場合（Ｓ６：ＹＥＳ）、データ収集期間であるか否かを判断する（ステップＳ７）。
【００６１】
データ収集期間である場合（Ｓ７：ＹＥＳ）、メンタル問診に関する質問情報を表示部５に表示する（ステップＳ８）。質問情報を表示部５に表示せずに、音声出力部１２から音声によって出力する形態であってもよい。
【００６２】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する（ステップＳ９）。回答を受付けていない場合（Ｓ９：ＮＯ）、回答を受付けるまで待機する。回答を受付けた場合（Ｓ９：ＹＥＳ）、回答を音声情報として記憶する（ステップＳ１０）。
【００６３】
次いで、音声認識部１３は、ステップＳ１０にて記憶した音声情報の音声認識を行い、音声情報を文字列に変換する（ステップＳ１１）。変換した文字列から回答の中心となる部分を抽出して、回答を評価する（ステップＳ１２）。メンタル問診では、前述したように「今日の気分は、１００点満点中何点ですか？」という質問がされる。したがって、被験者自身が質問に対して付けた点数を回答の評価とすることができる。そして、回答の評価を感情得点として、解析データベース９ａに記憶させる（ステップＳ１３）。
【００６４】
ステップＳ７でデータ収集期間でないと判断した場合（Ｓ７：ＮＯ）、重回帰式を設定する（ステップＳ１４）。重回帰式を設定する際、解析データベース９ａに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を利用する。そして、ステップＳ４にて新たに抽出した特徴量を設定した重回帰式に代入し（ステップＳ１５）、感情得点の推定値を得ることによって、感情の推定を行う（ステップＳ１６）。感情得点の推定値は、解析データベース９ａに記憶される（ステップＳ１７）。
【００６５】
本実施の形態では、メンタル問診の際、被験者自身に感情を評価した得点を付けさせ、それを感情得点としているが、体調問診と同様に「はい」又は「いいえ」で答えることができる質問を幾つか用意しておき、「はい」と答えた数、又は「いいえ」と答えた数に応じて感情得点を算出する形態であってもよい。
【００６６】
本実施の形態では、感情推定装置の例として「ネコ型」の介護ロボットについて説明したが、介護ロボットに限らず、マイクロホンのような音声入力部を内蔵しているか、又は外部入力装置として接続できるようになっているパーソナルコンピュータ、ワークステーション等を利用することができることは勿論のことである。
【００６７】
実施の形態２．
本実施の形態では、メンタル問診の回答から求めた感情得点と重回帰分析によって推定した感情得点との間に差が生じている場合に、感情得点の推定値を補正する方法について説明する。
【００６８】
感情推定装置の構成は実施の形態１と同様であるため説明を省略する。図６及び図７は、本実施の形態に係る感情推定装置の処理手順を示すフローチャートである。
感情推定装置は、まず、体調問診に関する質問情報を表示部５に表示する（ステップＳ２１）。表示する質問情報は、質問情報データベース９ｂからランダムに選択したものでもよく、また、質問ＩＤの順に選択したものでもよい。また、質問情報は、音声出力部１２から音声によって出力される形態であってもよい。
【００６９】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する（ステップＳ２２）。回答を受付けていない場合（Ｓ２２：ＮＯ）、回答を受付けるまで待機する。回答を受付けた場合（Ｓ２２：ＹＥＳ）、回答を音声情報として記憶する（ステップＳ２３）。
【００７０】
次いで、音声波形解析部１３は、ステップＳ２３にて記憶した音声情報の波形の解析を行い、音響学的特徴を抽出する（ステップＳ２４）。そして、波形の解析によって得られた音圧レベル、ピッチ周波数等の特徴量を解析データベース９ａに記憶する（ステップＳ２５）。
【００７１】
次いで、全ての質問情報に対する回答を受付けたか否かを判断することによって、体調問診が終了したか否かを判断する（ステップＳ２６）。体調問診が終了していない場合（Ｓ２６：ＮＯ）、処理をステップＳ２１に戻す。
【００７２】
体調問診が終了した場合（Ｓ２６：ＹＥＳ）、メンタル問診に関する質問情報を表示部５に表示する（ステップＳ２７）。質問情報を表示部５に表示せずに、音声出力部１２から音声によって出力する形態であってもよい。
【００７３】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する（ステップＳ２８）。回答を受付けていない場合（Ｓ２８：ＮＯ）、回答を受付けるまで待機する。回答を受付けた場合（Ｓ２８：ＹＥＳ）、回答を音声情報として記憶する（ステップＳ２９）。
【００７４】
次いで、音声認識部１４は、ステップＳ２９にて記憶した音声情報の音声認識を行い、音声情報を文字列に変換する（ステップＳ３０）。変換した文字列から回答の中心となる部分を抽出して、回答を評価する（ステップＳ３１）。メンタル問診では、前述したように「今日の気分は、１００点満点中何点ですか？」という質問がされる。したがって、被験者自身が質問に対して付けた点数を回答の評価とすることができる。そして、回答の評価を感情得点として、解析データベース９ａに記憶させる（ステップＳ３２）。
【００７５】
次いで、データ収集期間であるか否かを判断する（ステップＳ３３）。データ収集期間であると判断した場合（Ｓ３３：ＹＥＳ）、処理を終了する。
【００７６】
ステップＳ３３でデータ収集期間でないと判断した場合（Ｓ３３：ＮＯ）、重回帰式を設定する（ステップＳ３４）。重回帰式を設定する際、解析データベース９ａに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を行う。そして、ステップＳ２４にて新たに抽出した特徴量を設定した重回帰式に代入し（ステップＳ３５）、感情得点の推定値を得ることによって、感情の推定を行う（ステップＳ３６）。
【００７７】
次いで、後述する手法により、推定した感情得点とメンタル問診の回答の評価から得られた感情得点との間の重み係数を算出する（ステップＳ３７）。そして、算出した重み係数を用いて感情得点を補正し（ステップＳ３８）、補正した感情得点の値を解析データベース９ａに記憶する（ステップＳ３９）。
【００７８】
図８は、重み係数の算出処理を示したフローチャートである。
まず、メンタル問診の回答を音声認識することによって得られた感情得点Ｐ₁ を読込む（ステップＳ４１）。次いで、重回帰式を用いて推定された感情得点Ｐ₂ を読込む（ステップＳ４２）。
【００７９】
次いで、２つの感情得点の差の割合ΔＰ（＝１００×｜Ｐ₁ −Ｐ₂ ｜／Ｐ₁ ）を算出する（ステップＳ４３）。
【００８０】
そして、差の割合ΔＰが８０％以上であるか否かを判断する（ステップＳ４４）。差の割合ΔＰが８０％以上である場合（Ｓ４４：ＹＥＳ）、Ｐ₁ に乗じる重み係数ｗ₁ を０．８とし、Ｐ₂ に乗じる重み係数ｗ₂ を０．２とする（ステップＳ４５）。
【００８１】
差の割合ΔＰが８０％より小さい場合（Ｓ４４：ＮＯ）、差の割合ΔＰが８０％より小さく、かつ２０％より大きいか否かを判断する（ステップＳ４６）。差の割合ΔＰが８０％より小さく、かつ２０％より大きい場合（Ｓ４６：ＹＥＳ）、Ｐ₁ に乗じる重み係数ｗ₁ を０．６とし、Ｐ₂ に乗じる重み係数ｗ₂ を０．４とする（ステップＳ４７）。
【００８２】
差の割合ΔＰが８０％以上であるか、又は２０％以下である場合（Ｓ４６：ＮＯ）、差の割合ΔＰが２０％以下であるか否かを判断する（ステップＳ４８）。差の割合ΔＰが２０％以下である場合（Ｓ４８：ＹＥＳ）、Ｐ₁ に乗じる重み係数ｗ₁ を０．５とし、Ｐ₂ に乗じる重み係数ｗ₂ を０．５とする（ステップＳ４９）。
差の割合ΔＰが２０％以下でない場合（Ｓ４８：ＮＯ）、処理をステップＳ４１に戻す。
【００８３】
実施の形態３．
前述の実施の形態では、感情得点の推定値を解析データベース９ａに記憶させる形態であったが、感情得点に基づき感情を評価する場合、被験者毎に基準値を設定する必要がある。被験者によっては、感情の得点を常に高く付ける人、常に低く付ける人がいるため、基準値を一律に設けることが出来ないためである。
【００８４】
図９は、被験者毎に感情評価の基準値を設定する場合の処理手順を示すフローチャートである。
まず、感情認識装置は、ある特定の被験者が付けた感情得点Ｐ₁ を解析データベース９ａから読込み（ステップＳ５１）、読込んだ感情得点Ｐ₁ の平均値Ｍと標準偏差σとを算出する（ステップＳ５２）。次いで、前述と同様にして重回帰式により感情得点Ｐ₂ を算出する（ステップＳ５３）。
【００８５】
次いで、感情得点Ｐ₂ がＭ−１．０σよりも小さいか否かを判断し（ステップＳ５４）、感情得点Ｐ₂ がＭ−１．０σよりも小さい場合（Ｓ５４：ＹＥＳ）、感情の評価を「悪い」とする（ステップＳ５５）。
【００８６】
感情得点Ｐ₂ がＭ−１．０σ以上である場合（Ｓ５４：ＮＯ）、感情得点Ｐ₂ が、Ｍ−１．０σ以上であり、かつＭ−０．５σ以下であるか否かを判断する（ステップＳ５６）。感情得点Ｐ₂ が、Ｍ−１．０σ以上であり、かつＭ−０．５σ以下である場合（Ｓ５６：ＹＥＳ）、感情の評価を「やや悪い」とする（ステップＳ５７）。
【００８７】
感情得点Ｐ₂ が、Ｍ−１．０σより小さいか、又はＭ−０．５σより大きい場合（Ｓ５６：ＮＯ）、感情得点Ｐ₂ が、Ｍ−０．５σより大きく、かつＭ＋０．５σより小さいか否かを判断する（ステップＳ５８）。感情得点Ｐ₂ が、Ｍ−０．５σより大きく、かつＭ＋０．５σより小さい場合（Ｓ５８：ＹＥＳ）、感情の評価を「ふつう」にする（ステップＳ５９）。
【００８８】
感情得点Ｐ₂ が、Ｍ−０．５σ以下であるか、又はＭ＋０．５σ以上である場合（Ｓ５８：ＮＯ）、感情得点Ｐ₂ が、Ｍ＋０．５σ以上であり、かつＭ＋１．０σ以下であるか否かを判断する（ステップＳ６０）。感情得点Ｐ₂ が、Ｍ＋０．５σ以上であり、かつＭ＋１．０σ以下である場合（Ｓ６０：ＹＥＳ）、感情の評価を「やや良い」にする（ステップＳ６１）。
【００８９】
感情得点Ｐ₂ が、Ｍ＋０．５σより小さいか、又はＭ＋１．０σより大きい場合（Ｓ６０：ＮＯ）、感情得点Ｐ₂ が、Ｍ＋１．０σより大きいか否かを判断する（ステップＳ６２）。感情得点Ｐ₂ が、Ｍ＋１．０σよりも大きい場合（Ｓ６２：ＹＥＳ）、感情の評価を「良い」にする（ステップＳ６３）。感情得点Ｐ₂ が、Ｍ＋１．０σ以下である場合（Ｓ６２：ＮＯ）、処理をステップＳ５１に戻す。
【００９０】
そして、評価した感情を感情推定装置の表示部５に表示させる等により出力する（ステップＳ６４）。
【００９１】
実施の形態４．
本実施の形態では、被験者からの音声データをインターネット等の通信ネットワークを通じて受信し、感情の推定を行う感情推定システムについて説明する。
【００９２】
図１０は、本実施の形態の感情推定システムの構成を示す模式図である。
感情推定システムは、被験者から音声データを受信して、感情の推定を行う解析サーバ１００と被験者が利用する情報処理装置２００，２００，２００，…とから構成される。
解析サーバ１００は、被験者の情報処理装置２００，２００，２００，…にウェブページを送信することによって、感情推定のためのアプリケーションを提供する。感情推定を行う際、被験者の情報処理装置２００，２００，２００，…から音声データを送信する必要があるため、解析サーバ１００と被験者の情報処理装置２００，２００，２００，…との間には、ストリーミング配信用のプロトコルＲＴＰ（Real-time transport protocol）が設定される。解析サーバ１００にて、音声データを受信した場合、前述と同様にして音声データの波形解析及び音声認識を行い、感情の推定を行う。
【００９３】
図１１は、解析サーバ１００の内部構成を示すブロック図である。
図中１０１はＣＰＵであり、バス１０２を介して後述する各ハードウェア各部に接続されていて、ＲＯＭ１０３に格納された制御プログラムに従って、それらを制御する。ＲＡＭ１０４は、ＳＲＡＭ又はフラッシュメモリ等で構成され、ＲＯＭ１０３に格納された制御プログラムの実行時に発生するデータを記憶する。
【００９４】
表示部１０５は、ＣＲＴ、液晶ディスプレイ等の表示装置であり、入力部１０６は、キーボード、マウス等の入力装置である。
通信部１０７は、モデム等の回線終端装置を備えている。被験者の情報処理装置２００からの要求に応じて、インターネット等の通信ネットワークＮを通じて、ウェブページ等を送信することによって、所要の情報を情報処理装置２００へ送信するとともに、被験者の情報処理装置２００から音声データを受信する。通信部１０７は、これらの情報の送受信の制御を行っている。
【００９５】
音声波形解析部１１３は、情報処理装置２００から送信された音声データの音声波形を解析し、音圧、ピッチ周波数、継続時間等の音響学的特徴に係る特徴量を算出する。
【００９６】
音声認識部１１４は、情報処理装置２００から送信された音声データの音声認識を行い、音声情報を文字列情報に変換する。変換された文字列情報は、後述するように評価され、評価された値が解析データベース１０９ａ（解析ＤＢ）に記憶される。
【００９７】
内部記憶装置１０９は、ハードディスクのような記憶装置からなり、記憶領域の一部は、被験者の情報処理装置２００から受信した音声データの波形を解析して、抽出され音響学的特徴に係る特徴量を記憶する解析データベース１０９ａ、被験者の情報処理装置２００に送信する質問情報が記憶されている質問情報データベース１０９ｂとして用いられており、必要に応じて各種データベースにアクセスし、情報の記憶及び読取り処理が行われる。
なお、本実施の形態では、解析サーバ１００の内部記憶装置１０９に各種データベースを備えているが、これらのデータベースは必ずしも解析サーバ１００の内部にある必要はなく、解析サーバ１００に接続したデータベースサーバを用意して、このデータベースサーバの内部に備える構成であってもよい。
【００９８】
外部記憶装置１０８は、本発明のコンピュータプログラム及びデータを記録したＣＤ−ＲＯＭ等の記録媒体１１０からコンピュータプログラム及びデータを読取るＣＤ−ＲＯＭドライブ等からなり、読取られたコンピュータプログラム及びデータは、内部記憶装置１０９に記憶される。
内部記憶装置１０９に記憶されているコンピュータプログラム及びデータは、ＲＡＭ１０４に読込まれ、ＣＰＵ１０１が実行することで音声データを解析して、感情の推定を行う解析サーバ１００として動作する。
【００９９】
図１２は、被験者の情報処理装置２００の内部構成を示すブロック図である。
情報処理装置２００は、具体的にはパーソナルコンピュータであり、ＣＰＵ２０１を備えている。該ＣＰＵ２０１は、バス２０２を介して、ＲＯＭ２０３、ＲＡＭ２０４、表示部２０５、入力部２０６、通信部２０７、外部記憶装置２０８、及び内部記憶装置２０９に接続されており、ＲＯＭ２０３に格納された制御プログラムを実行することで表示部２０５、入力部２０６等の各ハードウェアを制御する。
【０１００】
通信部２０７は、モデム等の回線終端装置を備えている。通信部２０７は、通信ネットワークＮを介して、解析サーバ１００へ接続し、解析サーバ１００からの要求を受信し、音声データ等の必要な情報を送信する。
【０１０１】
外部記憶装置２０８は、ＣＤ−ＲＯＭドライブのような記憶装置からなり、内部記憶装置２０９は、ハードディスクのような記憶装置からなる。内部記憶装置２０９には、例えば、解析サーバ１００から送信されるウェブページを閲覧するウェブ・ブラウザ等がインストールされている。
【０１０２】
また、音声入力部２１１は、解析サーバ１００から送信されてきた質問情報に対する回答を音声で入力するために、マイクロホン等の入力装置を備えている。音声出力部２１２は、解析サーバ１００から送信されてきた質問情報を音声で出力するために、スピーカ等の出力装置を備えている。
【０１０３】
図１３〜図１５は、本実施の形態の感情推定システムの動作手順を示すフローチャートである。
まず、被験者は音声データを送信するにあたって、ＵＲＬの入力、又は他のウェブページからの選択操作によって、解析サーバ１００にアクセス要求を行う（ステップＳ７１）。アクセス要求を受信した解析サーバ１００は、ユーザＩＤ及びパスワードを入力させるためのウェブページを情報処理装置２００に送信する（ステップＳ７２）。
【０１０４】
ウェブページを受信した情報処理装置２００は、ユーザＩＤ及びパスワードの入力を受付け（ステップＳ７３）、入力されたユーザＩＤ及びパスワードを解析サーバ１００に送信する（ステップＳ７４）。解析サーバ１００は、送信されたユーザＩＤ及びパスワードを受信し（ステップＳ７５）、それが登録ユーザのものであるか否かを判断する（ステップＳ７６）。
登録ユーザのものでない場合（Ｓ７６：ＮＯ）、処理をステップＳ７２に戻し、登録ユーザのものである場合（Ｓ７６：ＹＥＳ）、ストリーミング配信等で利用されるプロトコル（ＲＴＰ）を設定する（ステップＳ７７）。
【０１０５】
そして、解析サーバ１００は、体調問診に係る質問情報を送信する（ステップＳ７８）。質問情報は、文字データとして送信してもよく、また、音声データとして送信してもよい。質問情報を受信した被験者の情報処理装置２００では、回答情報の受付けを行う（ステップＳ７９）。回答情報の受付けは音声で行い、音声入力部２１１によって入力された回答に係る音声データを解析サーバ１００に送信する（ステップＳ８０）。
【０１０６】
解析サーバ１００は、被験者の情報処理装置２００から送信された音声データを受信し（ステップＳ８１）、受信した音声データの音響学的特徴を抽出する（ステップＳ８２）。そして、抽出した音響学的特徴から特徴量を算出して、解析データベース１０９ａに記憶させる（ステップＳ８３）。
次いで、体調問診に係る質問情報をすべて送信したか否かを判断することによって、体調問診が終了したか否かを判断する（ステップＳ８４）。体調問診が終了していない場合（Ｓ８４：ＮＯ）、処理をステップＳ７８に戻す。
【０１０７】
全ての質問情報を送信して、体調問診が終了した場合（Ｓ８４：ＹＥＳ）、データ収集期間であるか否かを判断する（ステップＳ８５）。
データ収集期間である場合（Ｓ８５：ＹＥＳ）、メンタル問診に係る質問情報を被験者の情報処理装置２００に送信する（ステップＳ８６）。質問情報は、文字データとして送信してもよく、また、音声データとして送信してもよい。質問情報を受信した被験者の情報処理装置２００では、回答情報の受付けを行う（ステップＳ８７）。回答情報の受付けは音声で行い、音声入力部２１１によって入力された回答に係る音声データを解析サーバ１００に送信する（ステップＳ８８）。
【０１０８】
解析サーバ１００は、被験者の情報処理装置２００から送信された音声データを受信し（ステップＳ８９）、受信した音声データの音声認識を行う（ステップＳ９０）。そして、音声認識により抽出された文字列を評価することによって、感情得点を算出し、算出した感情得点を解析データベース１０９ａに記憶させる（ステップＳ９１）。
【０１０９】
ステップＳ８５で、データ収集期間でないと判断した場合（Ｓ８５：ＮＯ）、重回帰式を設定する（ステップＳ９２）。重回帰式を設定する際、解析データベース１０９ａに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を行う。そして、ステップＳ８２にて新たに抽出した特徴量を設定した重回帰式に代入し（ステップＳ９３）、感情得点の推定値を得ることによって、感情の推定を行う（ステップＳ９４）。感情得点の推定値は、解析データベース１０９ａに記憶される（ステップＳ９５）。
【０１１０】
以上のように、音声データによる回答をインターネット等の通信ネットワークＮを通じて解析サーバ１００に送信する構成としているため、音声データは一般に圧縮した後に送信されることになるが、本実施の形態では、５つの音響学的特徴を利用して推定を行っているため、圧縮による音声データの劣化から生じる感情推定の誤差を縮小することができる。
【０１１１】
本実施の形態でも、メンタル問診の回答から求めた感情得点と重回帰分析によって推定した感情得点との間に差が生じている場合に、感情得点の推定値の補正を行ってもよい。また、感情得点に基づき感情を評価する場合、前述したように被験者毎に基準値を設定して感情を評価してもよい。
【０１１２】
【発明の効果】
以上、詳述したように、本発明による場合は、互いに相関を有する２つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、抽出した文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定する。したがって、例えば、一方の質問情報を被験者の感情に関する質問情報とし、他方の質問情報を被験者の体調に係る質問とした場合、体調に係る質問を被験者に答えてもらうことによって、その被験者の感情を推定することが可能である。特に、感情に関する質問で、被験者自身に特定の感情に対する評価を答えてもらい、その評価と体調に係る質問の回答から抽出した音響学的特徴との間に相関関係を設定することによって、体調に係る質問の回答のみから、感情の種類、及び感情の程度（抑揚）を定量的に推測することが可能である。
【０１１３】
また、本発明による場合は、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報である。したがって、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる。
【０１１４】
更に本発明による場合は、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定するようにしている。したがって、本発明の情報処理システムの利用開始時に、前述の相関関係を設定するために音声情報を収集する期間（例えば、一週間程度）を設けることができる。また、加齢、被験者の体調等を適切に考慮して感情の推定を行うために、例えば、一ヶ月ごとに前記相関関係を最新の状態に更新することができる。その為、長期的に感情推定を行うことが可能であり、推定誤差を縮小することが可能である。
【０１１５】
更に本発明による場合は、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定するようにしている。したがって、複数の特徴量を利用して感情の推定を行うことができるため、特定の音響学的特徴に被験者の体調等の影響があった場合であっても、その影響を必要最小限に抑えることが可能である等、本発明は優れた効果を奏する。
【図面の簡単な説明】
【図１】本発明の情報処理装置を具体化した感情推定装置の内部構成を示すブロック図である。
【図２】音声入力部から入力された音声情報の波形、及び音声波形解析部によって抽出された特徴量の時間変化の一例を示すグラフである。
【図３】各データベースの一例を示す概念図である。
【図４】音響学的特徴から算出された特徴量に対する感情得点の得点分布の一例を示したグラフである。
【図５】感情推定装置の処理手順を示すフローチャートである。
【図６】感情推定装置の処理手順を示すフローチャートである。
【図７】本実施の形態に係る感情推定装置の処理手順を示すフローチャートである。
【図８】重み係数の算出処理を示したフローチャートである。
【図９】被験者毎に感情評価の基準値を設定する場合の処理手順を示すフローチャートである。
【図１０】本実施の形態の感情推定システムの構成を示す模式図である。
【図１１】解析サーバの内部構成を示すブロック図である。
【図１２】被験者の情報処理装置の内部構成を示すブロック図である。
【図１３】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【図１４】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【図１５】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【符号の説明】
１ＣＰＵ
２バス
３ＲＯＭ
４ＲＡＭ
５表示部
６入力部
８外部記憶装置
９内部記憶装置
９ａ解析データベース
９ｂ質問情報データベース
１０記録媒体
１００解析サーバ
２００情報処理装置
Ｎ通信ネットワーク

Claims

質問情報の記憶手段及び出力手段と、音声の受付手段とを備える情報処理システムにより、前記記憶手段に記憶してある質問情報を出力し、出力した質問情報に対する回答を音声にて受付け、受付けた音声に係る音響学的特徴を抽出し、抽出した音響学的特徴に基づき、前記音声に付随する情報を推定する情報処理方法において、
前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を前記出力手段により出力し、出力された第１及び第２質問情報に対する回答を夫々音声にて受付け、受付けた第１質問情報の回答に係る音声から文字列情報を抽出し、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出し、抽出した文字列情報と特徴情報とを関連付けて記憶し、記憶してある文字列情報と特徴情報とから両者の相関関係を設定し、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することを特徴とする情報処理方法。
前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする請求項１に記載の情報処理方法。
第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定することを特徴とする請求項１又は請求項２に記載の情報処理方法。
記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定することを特徴とする請求項１乃至請求項３の何れかに記載の情報処理方法。
質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声を受付ける手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理システムにおいて、
前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第１質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理システム。
通信ネットワークを介して接続された第１情報処理装置と第２情報処理装置とを備え、前記第１情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を送信する送信手段とを備え、前記第２情報処理装置は、前記通信ネットワークを通じて送信された質問情報を受信する手段と、受信した質問情報に対する回答を音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第１情報処理装置は、前記通信ネットワークを通じて受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理システムにおいて、
前記第２情報処理装置は、前記第１情報処理装置の前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を前記ネットワークを通じて受信する手段と、受信した第１及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第１情報処理装置は、受信した第１質問情報の回答に係る音声情報から文字列情報を抽出する文字列情報抽出手段と、受信した第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第２質問情報の回答に係る音声情報を前記第２情報処理装置から新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理システム。
前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする請求項５又は請求項６に記載の情報処理システム。
第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする請求項５乃至請求項７の何れかに記載の情報処理システム。
記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする請求項５乃至請求項８の何れかに記載の情報処理システム。
質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声の受付手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理装置において、
前記記憶手段に予め記憶されており、互いに相関を有する第１質問情報及び第２質問情報を出力する手段と、出力された第１及び第２質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第１質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第２質問情報の回答に係る音声から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第２質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理装置。
通信ネットワークに接続可能になしてあり、音声情報を受信する手段を備え、受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理装置において、
互いに相関を有する第１質問情報及び第２質問情報に対する回答を前記通信ネットワークを通じて夫々音声情報にて受信する手段と、受信した第１質問情報の回答に係る音声情報から該音声情報が含む文字列情報を抽出する文字列情報抽出手段と、受信した第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第２質問情報の回答に係る音声情報を新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理装置。
前記第１質問情報は、心理状態に関する質問情報であり、前記第２質問情報は、体調に関する質問情報であることを特徴とする請求項１０又は請求項１１に記載の情報処理装置。
第１質問情報又は第２質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする請求項１０乃至請求項１２の何れかに記載の情報処理装置。
記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする請求項１０乃至請求項１３の何れかに記載の情報処理装置。
前記特徴情報抽出手段は、入力された音声情報の音圧を検出する検出手段、ピッチ周波数を検出する検出手段、継続時間を検出する検出手段、又はジッタを検出する検出手段のうち少なくとも一の検出手段を備えることを特徴とする請求項１０乃至請求項１４の何れかに記載の情報処理装置。
前記文字列情報抽出手段が抽出した文字列情報から前記第１質問情報の回答の中心になる部分を抽出するようにしてあることを特徴とする請求項１０乃至請求項１５の何れかに記載の情報処理装置。
コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムにおいて、
コンピュータに、互いに相関を有する第１質問情報及び第２質問情報を出力させるステップと、コンピュータに、出力された第１及び第２質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第１質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第２質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有することを特徴とするコンピュータプログラム。
コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムが記録されているコンピュータでの読取りが可能な記録媒体において、
コンピュータに、互いに相関を有する第１質問情報及び第２質問情報を出力させるステップと、コンピュータに、出力された第１及び第２質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第１質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第２質問情報の回答に係る音声情報から音響学的特徴に係る１又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第２質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る１又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有するコンピュータプログラムが記録されていることを特徴とするコンピュータでの読取りが可能な記録媒体。