JP3973434B2 - 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 - Google Patents
情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP3973434B2 JP3973434B2 JP2002024823A JP2002024823A JP3973434B2 JP 3973434 B2 JP3973434 B2 JP 3973434B2 JP 2002024823 A JP2002024823 A JP 2002024823A JP 2002024823 A JP2002024823 A JP 2002024823A JP 3973434 B2 JP3973434 B2 JP 3973434B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- question
- feature
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声に付随する情報を前記音声から抽出した音響学的特徴に基づいて推定する情報処理方法、情報処理システム、情報処理装置、前記情報処理システム及び情報処理装置を実現するためのコンピュータプログラム、並びに該コンピュータプログラムが記録されている記録媒体に関する。
【0002】
【従来の技術】
パーソナルコンピュータ、音声処理装置等の情報処理装置を利用して、入力された音声を解析し、その音声に伴う感情を推定する方法が知られている。主として、以下で説明する2つの方法が従来から知られている。
1つは、入力された音声に対して音声認識を行うことにより、その音声に対応した文字列を特定し、文字列の内容に基づいて感情を推定する方法である。この方法による場合、感情を示す語彙として予め用意しておいた語彙情報と特定した文字列の内容とが一致するか否かを判断することにより、喜び、怒り、哀しみ、驚き、楽しみなど10種類程度に分類された感情から1つの感情を特定することが行われる。
【0003】
もう1つは、入力された音声に対してその音声波形を解析して、音声の強弱(音圧レベル)、ピッチ周波数、継続時間等の特徴量を抽出し、感情の程度(抑揚)を推定する方法である。この方法による場合、まず、感情の推定を行う前の準備段階として、音圧レベル、ピッチ周波数、継続時間等の特徴量の基準値を設定する。基準値としては、例えば、成人男性、成人女性、子供などの母集団における各特徴量の平均値をとる。感情の推定を行う場合、被験者から新たに音声を収集し、その音声の波形を解析して特徴量を抽出する。そして、抽出した特徴量と被験者が属する母集団の基準値とを比較し、比較した結果に基づいて被験者の感情の程度を推定する。
【0004】
【発明が解決しようとする課題】
しかしながら、特定した文字列の内容に基づいて感情を推定する方法では、感情の程度まで推定することができず、一方、音声の特徴量(音圧レベル、ピッチ周波数、継続時間)から感情の程度を推定する方法では、推定した感情の程度がどのような感情に対応しているのかということまで推測することは困難である。
また、各特徴量の基準値として、成人男性、成人女性、子供の平均値をとった場合、被験者の個別性を反映させることができないという問題点がある。更に、音声は、加齢及び被験者の体調によっても変化することが一般的であり、また、音声を採取した時期によっても変化することが多い。したがって、加齢、被験者の体調、及び音声を採取した時期を反映させて適切に感情を推定することができることが望ましい。
【0005】
本発明は斯かる事情に鑑みてなされたものであり、互いに相関を有する2つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することにより、被験者から発せられた音声から、その音声に付随する情報の意味内容及び程度を容易に推定することができる情報処理方法、情報処理システム、情報処理装置、前記情報処理システム及び情報処理装置を実現するコンピュータプログラム、並びに該コンピュータプログラムが記録されている記録媒体を提供することを目的とする。
【0006】
本発明の他の目的は、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報であることにより、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【0007】
本発明の更に他の目的は、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定することにより、音声を採取した時期を反映させて適切に情報を推定することができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【0008】
本発明の更に他の目的は、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定することにより、複数の特徴情報を推定に反映させることができる情報処理方法、情報処理システム、及び情報処理装置を提供することにある。
【0009】
【課題を解決するための手段】
第1発明に係る情報処理方法は、質問情報の記憶手段及び出力手段と、音声の受付手段とを備える情報処理システムにより、前記記憶手段に記憶してある質問情報を出力し、出力した質問情報に対する回答を音声にて受付け、受付けた音声に係る音響学的特徴を抽出し、抽出した音響学的特徴に基づき、前記音声に付随する情報を推定する情報処理方法において、前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を前記出力手段により出力し、出力された第1及び第2質問情報に対する回答を夫々音声にて受付け、受付けた第1質問情報の回答に係る音声から文字列情報を抽出し、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出し、抽出した文字列情報と特徴情報とを関連付けて記憶し、記憶してある文字列情報と特徴情報とから両者の相関関係を設定し、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することを特徴とする。
【0010】
第2発明に係る情報処理方法は、第1発明において、前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする。
【0011】
第3発明に係る情報処理方法は、第1発明又は第2発明において、第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定することを特徴とする。
【0012】
第4発明に係る情報処理方法は、第1発明乃至第3発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定することを特徴とする。
【0013】
第5発明に係る情報処理システムは、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声を受付ける手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理システムにおいて、前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第1質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【0014】
第6発明に係る情報処理システムは、通信ネットワークを介して接続された第1情報処理装置と第2情報処理装置とを備え、前記第1情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を送信する送信手段とを備え、前記第2情報処理装置は、前記通信ネットワークを通じて送信された質問情報を受信する手段と、受信した質問情報に対する回答を音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第1情報処理装置は、前記通信ネットワークを通じて受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理システムにおいて、前記第2情報処理装置は、前記第1情報処理装置の前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を前記ネットワークを通じて受信する手段と、受信した第1及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第1情報処理装置は、受信した第1質問情報の回答に係る音声情報から文字列情報を抽出する文字列情報抽出手段と、受信した第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第2質問情報の回答に係る音声情報を前記第2情報処理装置から新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【0015】
第7発明に係る情報処理方法は、第5発明又は第6発明において、前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする。
【0016】
第8発明に係る情報処理システムは、第5発明乃至第7発明の何れかにおいて、第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする。
【0017】
第9発明に係る情報処理システムは、第5発明乃至第8発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする。
【0018】
第10発明に係る情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声の受付手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理装置において、前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第1質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【0019】
第11発明に係る情報処理装置は、通信ネットワークに接続可能になしてあり、音声情報を受信する手段を備え、受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理装置において、互いに相関を有する第1質問情報及び第2質問情報に対する回答を前記通信ネットワークを通じて夫々音声情報にて受信する手段と、受信した第1質問情報の回答に係る音声情報から該音声情報が含む文字列情報を抽出する文字列情報抽出手段と、受信した第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第2質問情報の回答に係る音声情報を新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする。
【0020】
第12発明に係る情報処理装置は、第10発明又は第11発明において、前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする。
【0021】
第13発明に係る情報処理装置は、第10発明乃至第12発明の何れかにおいて、第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする。
【0022】
第14発明に係る情報処理装置は、第10発明乃至第13発明の何れかにおいて、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする。
【0023】
第15発明に係る情報処理装置は、第10発明乃至第14発明の何れかにおいて、前記特徴情報抽出手段は、入力された音声情報の音圧を検出する検出手段、ピッチ周波数を検出する検出手段、継続時間を検出する検出手段、又はジッタを検出する検出手段のうち少なくとも一の検出手段を備えることを特徴とする。
【0024】
第16発明に係る情報処理装置は、第10発明乃至第15発明の何れかにおいて、前記文字列情報抽出手段が抽出した文字列情報から前記第1質問情報の回答の中心になる部分を抽出するようにしてあることを特徴とする。
【0025】
第17発明に係るコンピュータプログラムは、コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムにおいて、コンピュータに、互いに相関を有する第1質問情報及び第2質問情報を出力させるステップと、コンピュータに、出力された第1及び第2質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第1質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第2質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有することを特徴とする。
【0026】
第18発明に係るコンピュータでの読取りが可能な記録媒体は、コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムが記録されているコンピュータでの読取りが可能な記録媒体において、コンピュータに、互いに相関を有する第1質問情報及び第2質問情報を出力させるステップと、コンピュータに、出力された第1及び第2質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第1質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第2質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有するコンピュータプログラムが記録されていることを特徴とする。
【0027】
本発明にあっては、互いに相関を有する2つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、抽出した文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定する。したがって、例えば、一方の質問情報を被験者の感情に関する質問情報とし、他方の質問情報を被験者の体調に係る質問とした場合、体調に係る質問を被験者に答えてもらうことによって、その被験者の感情を推定することが可能である。特に、感情に関する質問で、被験者自身に特定の感情に対する評価を答えてもらい、その評価と体調に係る質問の回答から抽出した音響学的特徴との間に相関関係を設定することによって、体調に係る質問の音声による回答のみから、感情の種類、及び感情の程度(抑揚)を定量的に推測することが可能である。
【0028】
また、本発明にあっては、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報である。したがって、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる。
【0029】
更に本発明にあっては、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定するようにしている。したがって、本発明の情報処理システムの利用開始時に、前述の相関関係を設定するために音声情報を収集する期間(例えば、一週間程度)を設けることができる。また、加齢、被験者の体調等を適切に考慮して感情の推定を行うために、例えば、一ヶ月ごとに前記相関関係を最新の状態に更新することができる。その為、長期的に感情推定を行うことが可能であり、推定誤差を縮小することが可能である。
【0030】
更に本発明にあっては、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定するようにしている。したがって、複数の特徴量を利用して感情の推定を行うことができるため、特定の音響学的特徴に被験者の体調等の影響があった場合であっても、その影響を必要最小限に抑えることが可能である。
【0031】
【発明の実施の形態】
以下、本発明をその実施の形態を示す図面に基づいて具体的に説明する。
実施の形態1.
図1は、本発明の情報処理装置を具体化した感情推定装置の内部構成を示すブロック図である。本実施の形態に係る感情推定装置は、例えば、マイクロホンのような音声入力部11を備える「ネコ型」の介護ロボットであり、体調及び心理状態を問う質問を呈示し、これらの質問に対する回答を音声入力部11により受付け、受付けた音声の波形を解析することにより、音声に伴う感情を推定すべくなしてある。
【0032】
図中1はCPUであり、バス2を介して後述する各ハードウェア各部に接続されていて、ROM3に格納された制御プログラムに従って、それらを制御する。RAM4は、SRAM又はフラッシュメモリ等で構成され、ROM3に格納された制御プログラムの実行時に発生するデータを記憶する。
【0033】
表示部5は、体調及び心理状態に関する質問情報を表示させるための液晶ディスプレイ等の表示装置である。これらの質問情報は、内部記憶装置9が有する質問情報データベース(質問情報DB)9bに記憶されている。質問情報が音声データとして質問情報データベース9bに記憶されている場合には、スピーカのような音声出力部12により質問情報を出力してもよい。入力部6は、感情推定装置の動作を制御するための各種ボタンスイッチを備えている。
【0034】
音声波形解析部13は、音声入力部11により電気信号に変換された音声波形を解析し、音圧、ピッチ周波数、継続時間等の音響学的特徴に係る特徴量を算出する。
【0035】
音声認識部14は、音声入力部11により入力された音声情報の音声認識を行い、音声情報を文字列情報に変換する。変換された文字列情報は、後述するように評価され、評価された値が解析データベース9a(解析DB)に記憶される。
【0036】
内部記憶装置9は、ハードディスクのような記憶装置からなり、記憶領域の一部は前述の質問情報データベース9b、音声波形解析部13によって解析された結果を記憶する解析データベース9aとして用いられており、必要に応じて各種データベースにアクセスし、情報の記憶及び読取り処理が行われる。
【0037】
外部記憶装置8は、本発明のコンピュータプログラム及び質問情報等のデータを記録したメモリカード等の可搬型の記録媒体10からコンピュータプログラム及びデータを読取る読取装置からなり、読取られたコンピュータプログラム及びデータは、内部記憶装置9に記憶される。
内部記憶装置9に記憶されているコンピュータプログラムは、RAM4に読込まれ、CPU1が実行することで感情推定装置として動作する。
【0038】
図2は、音声入力部11から入力された音声情報の波形、及び音声波形解析部13によって抽出された特徴量の時間変化の一例を示すグラフである。
図2(a)に示した例では、被験者が質問に対する回答として「いいえ」と答えた場合の音声情報の波形を示している。音声入力部11から入力された音声情報の波形は音声波形解析部13によって解析され、図2(b)のグラフに示したような音圧レベルの時間変化、図2(c)のグラフに示したようなピッチ周波数の時間変化を得る。
【0039】
音圧レベル及びピッチ周波数は、図2(b)及び(c)に示したように時間とともに変化する関数であるが、これらを特徴付ける特徴量としては、音声の継続時間(図2ではt1 −t0 )における最大値、平均値、中央値等を採用する。例えば、音圧レベルの特徴量としては、音声の継続時間における平均値をとり、ピッチ周波数の特徴量としては、音声の継続時間における最大値を採用する。このように、音圧レベル、ピッチ周波数等の音響学的特徴に対する特徴量として、最大値、平均値、中央値等の何れを採用するかは予め定めておく。
【0040】
音声波形解析部13では、前述した音圧レベルの時間変化、ピッチ周波数の時間変化だけでなく、ピッチ周波数の時間変動、音声の継続時間、音声のかすれに対応するジッタを解析することができ、解析して算出された特徴量は、解析した日付と関連付けて解析データベース9aに記憶される。
【0041】
前述した音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタ等は、一般に、被験者の感情に左右されることが知られている。被験者が元気であり、感情が良い状態にある場合、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動は増加する。音声の継続時間、ジッタについては、個々の被験者によって異なることが多いが、一般に、感情が良い状態にある場合は減少することが知られている。逆に、被験者が不機嫌であり、感情が悪い状態にある場合、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動は減少し、音声の継続時間、ジッタは増加することが知られている。
【0042】
このように、音声の音響学的特徴は被験者の感情と密接な関係があることが知られているが、本発明では、加齢及び被験者の体調といった個別性、及び感情の推定を行う時期を推定結果に反映させるため、前述した音響学的特徴に関する特徴量にのみに基づいて感情の推定を行うのではなく、まず、一定の期間(例えば一週間)、体調を問う体調問診と感情について問うメンタル問診とを行って音声情報の予備データを収集した後、体調問診の回答から算出した特徴量とメンタル問診の回答内容との間の対応付けを行い、前記期間(以下、データ収集期間という)の終了後に行った体調問診の回答から感情を推定するようにしている。また、例えば、月始めの一週間程度は、音声情報の予備データを収集するデータ収集期間を設け、体調問診の回答から算出した特徴量とメンタル問診の回答内容との間の対応付けを行うようにしている。
【0043】
図3は、各データベースの一例を示す概念図である。
図3(a)は、解析データベース9aの一例を示す概念図であり、予備データを収集する際に、体調問診を行った場合、音声情報の解析を行った日付、並びに音圧レベル(音圧)、ピッチ周波数、ピッチ周波数の変動(ピッチ変動)、継続時間、及びジッタに関する特徴量を互いに関連付けて記憶する。また、メンタル問診からは、感情得点なるものを算出して前記特徴量と関連付けて記憶する。ここで、感情得点とは、感情、心情、気分の善し悪しを得点化したものであり、最も良い感情(心情、気分)を100点、最も悪い感情(心情、気分)を0点に定めている。更に、予備データを収集した後、感情推定のために体調問診を行った場合、各特徴量と推定した感情得点の推定値とを互いに関連付けて記憶する。
【0044】
図3(b)は、質問情報データベース9bの一例を示す概念図であり、質問情報を識別する質問IDと質問情報の内容とを互いに関連付けて記憶している。図3(b)に示した例では、質問ID「M01」には、メンタル問診として「今日の気分は、100点満点中何点ですか?」といった内容の質問情報が対応付けられて記憶されており、質問ID「F01」、「F02」、…には、体調問診として夫々「おなかがすいて我慢ができないですか?」、「頭痛がしますか?」、…といった内容の質問情報が対応付けられて記憶されている。
【0045】
これらの質問情報は、予備データの収集する場合、又は感情を推定する場合に出力される。質問情報を出力する場合、感情推定装置の表示部5から文字情報として出力してもよく、また、音声出力部12から音声情報として出力してもよい。質問情報に対する回答は音声入力部11により音声情報として入力される。メンタル問診の回答は、音声認識処理により文字列に変換され、回答の中心になる部分、すなわち、前述の質問内容では被験者自身が付けた点数が抽出される。解析データベース9aには、抽出した点数を感情得点として記憶させる。体調問診では、回答に係る音声情報がADコンバータ等によりデジタル化され、デジタル化された音声波形が一時的にRAM4に記憶される。そして、記憶された音声波形から回答の中心になる部分、すなわち、「はい」、「いいえ」に該当する部分の波形のみが抽出され、波形の解析が行われる。解析によって得られた音響学的特徴に係る特徴量は、解析データベース9aの適宜の記憶領域に記憶される。
【0046】
なお、音声情報の波形の解析、及び音声認識を容易にするために、各質問情報は、回答がある程度予測できるものが望ましく、前述の例のようにメンタル問診の質問は、気分を得点で答えさせる内容とし、体調問診の質問は、「はい」又は「いいえ」で答えることができる内容にしている。特に、体調問診では、体調不良・重篤を問う質問内容に統一した場合、「いいえ」で返答され確率が高くなるため、更に音声情報の波形の解析が容易になる。
【0047】
図4は、音響学的特徴から算出された特徴量に対する感情得点の得点分布の一例を示したグラフである。
ここでは、図4(a)は音圧レベルに対する感情得点の得点分布を示すグラフであり、図4(b)はピッチ周波数に対する感情得点の得点分布を示すグラフである。前述したように、被験者の感情が良い状態にある場合、音圧レベルは大きくなる傾向があり、また、被験者は自身の感情得点を高く付けるはずであるから、図4(a)に示したように音圧レベルが大きくなるに従い、感情得点が高くなる傾向の得点分布を示す。ピッチ周波数についても同様であり、被験者の感情が良い状態にある場合、ピッチ周波数は高くなる傾向があり、また、被験者は自身の感情得点を高く付けるはずであるから、図4(b)に示したようピッチ周波数が高くなるに従い、感情得点が高くなる傾向の得点分布を示す。
また、図には示していないが、ピッチ周波数の時間変動、音声の継続時間、及びジッタの各音響学的指標と感情得点との間にも何らかの傾向があり、得点分布をグラフにして示すことが可能である。
【0048】
これらの得点分布を表す数式モデルを設定することによって、各特徴量から感情得点を容易に推定することが可能である。前述の数式モデルの最も簡単なモデルは、感情得点を1種類の特徴量により表した回帰直線であって、最小二乗法を利用して求めることができる。
音声情報を収集するあたって、例えば、空気が乾燥している時期と湿気を多く含んでいる時期とでは、音声が伝わる速度が変化する。したがって、外気の変化は、音声の持続時間、ピッチ周波数に大きな影響を与えやすいと考えられる。一方、任意の時刻での絶対量である音圧レベルは、外気の影響を受ける程度が低いと考えられる。また、被験者が体調を崩して、風邪を引いている場合は、ピッチ周波数、ジッタに特にその影響が及ぶ。したがって、1種類の特徴量から数式モデルを設定して、感情を推定する場合、必ずしも精度良く感情を推定することができるとは限らない。
【0049】
そこで、本実施の形態では、外気の影響、被験者の体調等による影響を最小限に抑えるために、前述した5種類全ての特徴量を用いて、得点分布を表す数式モデルを多変量解析によって設定する。
【0050】
以下では、多変量解析の一つである重回帰分析を利用し、感情得点の得点分布を表す数式モデルを設定する場合について説明する。
重回帰分析では、目的変数yと説明変数x1 ,x2 ,x3 ,…との間の関係を重回帰分析によって定める。本実施の形態では、メンタル問診の回答から算出された感情得点を目的変数yにとり、体調問診の回答の音響学的特徴から算出された5つの各特徴量を説明変数x1 ,x2 ,…,x5 にとる。ここで、各説明変数x1 ,x2 ,…,x5 は、それぞれ、音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタに該当する。
【0051】
メンタル問診による質問と体調問診による質問とを夫々n回行った場合、n個の目的変数(y1 ,y2 ,…yn )と、各特徴量につきn個の説明変数(x11,x12,…,xn5)とが得られる。それらの関係を次の5つの線形方程式によって表す。
【0052】
【数1】
【0053】
ここで、αは定数であり、βi (i=1,…,5)は重回帰係数である。
α,βi (i=1,…,5)の最小二乗推定値を、a,bi (i=1,…,5)で表した場合、これらの係数を用いてyのx1 ,x2 ,…,x5 に対する重回帰式
【0054】
【数2】
【0055】
が得られる。
重回帰式を求める手法は既によく知られており、観測値yj (j=1,…,n)と推定値Yj (j=1,…,n)との差(残差)の二乗和が最小となるようなa,bi を算出することによって、重回帰式を求めることができる。ここで、観測値yj とは、数式1におけるy1 ,…,yn のことであり、推定値Yj は、5×n個の特徴量x11,x12,…,xn5を数式(2)に代入した値である。
算出した定数a,重回帰係数bi (i=1,…,5)を数式2に代入した重回帰式が求めるべき数式モデルであって、新たに取得した特徴量をx1 ,x2 ,…,x5 に代入することによって、感情得点の推定値Yが得られる。
【0056】
本実施の形態では、重回帰分析を利用して得点分布の数式モデルを設定することとしたが、重回帰分析の他に判別分析、数量化III類分析などを利用することも可能である。
【0057】
図5は、感情推定装置の処理手順を示すフローチャートである。
感情推定装置は、まず、体調問診に関する質問情報を表示部5に表示する(ステップS1)。表示する質問情報は、質問情報データベース9bからランダムに選択したものでもよく、また、質問IDの順に選択したものでもよい。また、質問情報は、音声出力部12から音声によって出力される形態であってもよい。
【0058】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する(ステップS2)。回答を受付けていない場合(S2:NO)、回答を受付けるまで待機する。回答を受付けた場合(S2:YES)、回答を音声情報として記憶する(ステップS3)。
【0059】
次いで、音声波形解析部13は、ステップS3にて記憶した音声情報の波形の解析を行い、音響学的特徴を抽出する(ステップS4)。そして、波形の解析によって得られた音圧レベル、ピッチ周波数等の特徴量を解析データベース9aに記憶する(ステップS5)。
【0060】
次いで、全ての質問に対する回答を受付けたか否かを判断することによって、体調問診が終了したか否かを判断する(ステップS6)。体調問診が終了していない場合(S6:NO)、処理をステップS1に戻す。体調問診が終了した場合(S6:YES)、データ収集期間であるか否かを判断する(ステップS7)。
【0061】
データ収集期間である場合(S7:YES)、メンタル問診に関する質問情報を表示部5に表示する(ステップS8)。質問情報を表示部5に表示せずに、音声出力部12から音声によって出力する形態であってもよい。
【0062】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する(ステップS9)。回答を受付けていない場合(S9:NO)、回答を受付けるまで待機する。回答を受付けた場合(S9:YES)、回答を音声情報として記憶する(ステップS10)。
【0063】
次いで、音声認識部13は、ステップS10にて記憶した音声情報の音声認識を行い、音声情報を文字列に変換する(ステップS11)。変換した文字列から回答の中心となる部分を抽出して、回答を評価する(ステップS12)。メンタル問診では、前述したように「今日の気分は、100点満点中何点ですか?」という質問がされる。したがって、被験者自身が質問に対して付けた点数を回答の評価とすることができる。そして、回答の評価を感情得点として、解析データベース9aに記憶させる(ステップS13)。
【0064】
ステップS7でデータ収集期間でないと判断した場合(S7:NO)、重回帰式を設定する(ステップS14)。重回帰式を設定する際、解析データベース9aに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を利用する。そして、ステップS4にて新たに抽出した特徴量を設定した重回帰式に代入し(ステップS15)、感情得点の推定値を得ることによって、感情の推定を行う(ステップS16)。感情得点の推定値は、解析データベース9aに記憶される(ステップS17)。
【0065】
本実施の形態では、メンタル問診の際、被験者自身に感情を評価した得点を付けさせ、それを感情得点としているが、体調問診と同様に「はい」又は「いいえ」で答えることができる質問を幾つか用意しておき、「はい」と答えた数、又は「いいえ」と答えた数に応じて感情得点を算出する形態であってもよい。
【0066】
本実施の形態では、感情推定装置の例として「ネコ型」の介護ロボットについて説明したが、介護ロボットに限らず、マイクロホンのような音声入力部を内蔵しているか、又は外部入力装置として接続できるようになっているパーソナルコンピュータ、ワークステーション等を利用することができることは勿論のことである。
【0067】
実施の形態2.
本実施の形態では、メンタル問診の回答から求めた感情得点と重回帰分析によって推定した感情得点との間に差が生じている場合に、感情得点の推定値を補正する方法について説明する。
【0068】
感情推定装置の構成は実施の形態1と同様であるため説明を省略する。図6及び図7は、本実施の形態に係る感情推定装置の処理手順を示すフローチャートである。
感情推定装置は、まず、体調問診に関する質問情報を表示部5に表示する(ステップS21)。表示する質問情報は、質問情報データベース9bからランダムに選択したものでもよく、また、質問IDの順に選択したものでもよい。また、質問情報は、音声出力部12から音声によって出力される形態であってもよい。
【0069】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する(ステップS22)。回答を受付けていない場合(S22:NO)、回答を受付けるまで待機する。回答を受付けた場合(S22:YES)、回答を音声情報として記憶する(ステップS23)。
【0070】
次いで、音声波形解析部13は、ステップS23にて記憶した音声情報の波形の解析を行い、音響学的特徴を抽出する(ステップS24)。そして、波形の解析によって得られた音圧レベル、ピッチ周波数等の特徴量を解析データベース9aに記憶する(ステップS25)。
【0071】
次いで、全ての質問情報に対する回答を受付けたか否かを判断することによって、体調問診が終了したか否かを判断する(ステップS26)。体調問診が終了していない場合(S26:NO)、処理をステップS21に戻す。
【0072】
体調問診が終了した場合(S26:YES)、メンタル問診に関する質問情報を表示部5に表示する(ステップS27)。質問情報を表示部5に表示せずに、音声出力部12から音声によって出力する形態であってもよい。
【0073】
そして、表示された質問情報に対して音声による回答を受付けたか否かを判断する(ステップS28)。回答を受付けていない場合(S28:NO)、回答を受付けるまで待機する。回答を受付けた場合(S28:YES)、回答を音声情報として記憶する(ステップS29)。
【0074】
次いで、音声認識部14は、ステップS29にて記憶した音声情報の音声認識を行い、音声情報を文字列に変換する(ステップS30)。変換した文字列から回答の中心となる部分を抽出して、回答を評価する(ステップS31)。メンタル問診では、前述したように「今日の気分は、100点満点中何点ですか?」という質問がされる。したがって、被験者自身が質問に対して付けた点数を回答の評価とすることができる。そして、回答の評価を感情得点として、解析データベース9aに記憶させる(ステップS32)。
【0075】
次いで、データ収集期間であるか否かを判断する(ステップS33)。データ収集期間であると判断した場合(S33:YES)、処理を終了する。
【0076】
ステップS33でデータ収集期間でないと判断した場合(S33:NO)、重回帰式を設定する(ステップS34)。重回帰式を設定する際、解析データベース9aに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を行う。そして、ステップS24にて新たに抽出した特徴量を設定した重回帰式に代入し(ステップS35)、感情得点の推定値を得ることによって、感情の推定を行う(ステップS36)。
【0077】
次いで、後述する手法により、推定した感情得点とメンタル問診の回答の評価から得られた感情得点との間の重み係数を算出する(ステップS37)。そして、算出した重み係数を用いて感情得点を補正し(ステップS38)、補正した感情得点の値を解析データベース9aに記憶する(ステップS39)。
【0078】
図8は、重み係数の算出処理を示したフローチャートである。
まず、メンタル問診の回答を音声認識することによって得られた感情得点P1 を読込む(ステップS41)。次いで、重回帰式を用いて推定された感情得点P2 を読込む(ステップS42)。
【0079】
次いで、2つの感情得点の差の割合ΔP(=100×|P1 −P2 |/P1 )を算出する(ステップS43)。
【0080】
そして、差の割合ΔPが80%以上であるか否かを判断する(ステップS44)。差の割合ΔPが80%以上である場合(S44:YES)、P1 に乗じる重み係数w1 を0.8とし、P2 に乗じる重み係数w2 を0.2とする(ステップS45)。
【0081】
差の割合ΔPが80%より小さい場合(S44:NO)、差の割合ΔPが80%より小さく、かつ20%より大きいか否かを判断する(ステップS46)。差の割合ΔPが80%より小さく、かつ20%より大きい場合(S46:YES)、P1 に乗じる重み係数w1 を0.6とし、P2 に乗じる重み係数w2 を0.4とする(ステップS47)。
【0082】
差の割合ΔPが80%以上であるか、又は20%以下である場合(S46:NO)、差の割合ΔPが20%以下であるか否かを判断する(ステップS48)。差の割合ΔPが20%以下である場合(S48:YES)、P1 に乗じる重み係数w1 を0.5とし、P2 に乗じる重み係数w2 を0.5とする(ステップS49)。
差の割合ΔPが20%以下でない場合(S48:NO)、処理をステップS41に戻す。
【0083】
実施の形態3.
前述の実施の形態では、感情得点の推定値を解析データベース9aに記憶させる形態であったが、感情得点に基づき感情を評価する場合、被験者毎に基準値を設定する必要がある。被験者によっては、感情の得点を常に高く付ける人、常に低く付ける人がいるため、基準値を一律に設けることが出来ないためである。
【0084】
図9は、被験者毎に感情評価の基準値を設定する場合の処理手順を示すフローチャートである。
まず、感情認識装置は、ある特定の被験者が付けた感情得点P1 を解析データベース9aから読込み(ステップS51)、読込んだ感情得点P1 の平均値Mと標準偏差σとを算出する(ステップS52)。次いで、前述と同様にして重回帰式により感情得点P2 を算出する(ステップS53)。
【0085】
次いで、感情得点P2 がM−1.0σよりも小さいか否かを判断し(ステップS54)、感情得点P2 がM−1.0σよりも小さい場合(S54:YES)、感情の評価を「悪い」とする(ステップS55)。
【0086】
感情得点P2 がM−1.0σ以上である場合(S54:NO)、感情得点P2 が、M−1.0σ以上であり、かつM−0.5σ以下であるか否かを判断する(ステップS56)。感情得点P2 が、M−1.0σ以上であり、かつM−0.5σ以下である場合(S56:YES)、感情の評価を「やや悪い」とする(ステップS57)。
【0087】
感情得点P2 が、M−1.0σより小さいか、又はM−0.5σより大きい場合(S56:NO)、感情得点P2 が、M−0.5σより大きく、かつM+0.5σより小さいか否かを判断する(ステップS58)。感情得点P2 が、M−0.5σより大きく、かつM+0.5σより小さい場合(S58:YES)、感情の評価を「ふつう」にする(ステップS59)。
【0088】
感情得点P2 が、M−0.5σ以下であるか、又はM+0.5σ以上である場合(S58:NO)、感情得点P2 が、M+0.5σ以上であり、かつM+1.0σ以下であるか否かを判断する(ステップS60)。感情得点P2 が、M+0.5σ以上であり、かつM+1.0σ以下である場合(S60:YES)、感情の評価を「やや良い」にする(ステップS61)。
【0089】
感情得点P2 が、M+0.5σより小さいか、又はM+1.0σより大きい場合(S60:NO)、感情得点P2 が、M+1.0σより大きいか否かを判断する(ステップS62)。感情得点P2 が、M+1.0σよりも大きい場合(S62:YES)、感情の評価を「良い」にする(ステップS63)。感情得点P2 が、M+1.0σ以下である場合(S62:NO)、処理をステップS51に戻す。
【0090】
そして、評価した感情を感情推定装置の表示部5に表示させる等により出力する(ステップS64)。
【0091】
実施の形態4.
本実施の形態では、被験者からの音声データをインターネット等の通信ネットワークを通じて受信し、感情の推定を行う感情推定システムについて説明する。
【0092】
図10は、本実施の形態の感情推定システムの構成を示す模式図である。
感情推定システムは、被験者から音声データを受信して、感情の推定を行う解析サーバ100と被験者が利用する情報処理装置200,200,200,…とから構成される。
解析サーバ100は、被験者の情報処理装置200,200,200,…にウェブページを送信することによって、感情推定のためのアプリケーションを提供する。感情推定を行う際、被験者の情報処理装置200,200,200,…から音声データを送信する必要があるため、解析サーバ100と被験者の情報処理装置200,200,200,…との間には、ストリーミング配信用のプロトコルRTP(Real-time transport protocol)が設定される。解析サーバ100にて、音声データを受信した場合、前述と同様にして音声データの波形解析及び音声認識を行い、感情の推定を行う。
【0093】
図11は、解析サーバ100の内部構成を示すブロック図である。
図中101はCPUであり、バス102を介して後述する各ハードウェア各部に接続されていて、ROM103に格納された制御プログラムに従って、それらを制御する。RAM104は、SRAM又はフラッシュメモリ等で構成され、ROM103に格納された制御プログラムの実行時に発生するデータを記憶する。
【0094】
表示部105は、CRT、液晶ディスプレイ等の表示装置であり、入力部106は、キーボード、マウス等の入力装置である。
通信部107は、モデム等の回線終端装置を備えている。被験者の情報処理装置200からの要求に応じて、インターネット等の通信ネットワークNを通じて、ウェブページ等を送信することによって、所要の情報を情報処理装置200へ送信するとともに、被験者の情報処理装置200から音声データを受信する。通信部107は、これらの情報の送受信の制御を行っている。
【0095】
音声波形解析部113は、情報処理装置200から送信された音声データの音声波形を解析し、音圧、ピッチ周波数、継続時間等の音響学的特徴に係る特徴量を算出する。
【0096】
音声認識部114は、情報処理装置200から送信された音声データの音声認識を行い、音声情報を文字列情報に変換する。変換された文字列情報は、後述するように評価され、評価された値が解析データベース109a(解析DB)に記憶される。
【0097】
内部記憶装置109は、ハードディスクのような記憶装置からなり、記憶領域の一部は、被験者の情報処理装置200から受信した音声データの波形を解析して、抽出され音響学的特徴に係る特徴量を記憶する解析データベース109a、被験者の情報処理装置200に送信する質問情報が記憶されている質問情報データベース109bとして用いられており、必要に応じて各種データベースにアクセスし、情報の記憶及び読取り処理が行われる。
なお、本実施の形態では、解析サーバ100の内部記憶装置109に各種データベースを備えているが、これらのデータベースは必ずしも解析サーバ100の内部にある必要はなく、解析サーバ100に接続したデータベースサーバを用意して、このデータベースサーバの内部に備える構成であってもよい。
【0098】
外部記憶装置108は、本発明のコンピュータプログラム及びデータを記録したCD−ROM等の記録媒体110からコンピュータプログラム及びデータを読取るCD−ROMドライブ等からなり、読取られたコンピュータプログラム及びデータは、内部記憶装置109に記憶される。
内部記憶装置109に記憶されているコンピュータプログラム及びデータは、RAM104に読込まれ、CPU101が実行することで音声データを解析して、感情の推定を行う解析サーバ100として動作する。
【0099】
図12は、被験者の情報処理装置200の内部構成を示すブロック図である。
情報処理装置200は、具体的にはパーソナルコンピュータであり、CPU201を備えている。該CPU201は、バス202を介して、ROM203、RAM204、表示部205、入力部206、通信部207、外部記憶装置208、及び内部記憶装置209に接続されており、ROM203に格納された制御プログラムを実行することで表示部205、入力部206等の各ハードウェアを制御する。
【0100】
通信部207は、モデム等の回線終端装置を備えている。通信部207は、通信ネットワークNを介して、解析サーバ100へ接続し、解析サーバ100からの要求を受信し、音声データ等の必要な情報を送信する。
【0101】
外部記憶装置208は、CD−ROMドライブのような記憶装置からなり、内部記憶装置209は、ハードディスクのような記憶装置からなる。内部記憶装置209には、例えば、解析サーバ100から送信されるウェブページを閲覧するウェブ・ブラウザ等がインストールされている。
【0102】
また、音声入力部211は、解析サーバ100から送信されてきた質問情報に対する回答を音声で入力するために、マイクロホン等の入力装置を備えている。音声出力部212は、解析サーバ100から送信されてきた質問情報を音声で出力するために、スピーカ等の出力装置を備えている。
【0103】
図13〜図15は、本実施の形態の感情推定システムの動作手順を示すフローチャートである。
まず、被験者は音声データを送信するにあたって、URLの入力、又は他のウェブページからの選択操作によって、解析サーバ100にアクセス要求を行う(ステップS71)。アクセス要求を受信した解析サーバ100は、ユーザID及びパスワードを入力させるためのウェブページを情報処理装置200に送信する(ステップS72)。
【0104】
ウェブページを受信した情報処理装置200は、ユーザID及びパスワードの入力を受付け(ステップS73)、入力されたユーザID及びパスワードを解析サーバ100に送信する(ステップS74)。解析サーバ100は、送信されたユーザID及びパスワードを受信し(ステップS75)、それが登録ユーザのものであるか否かを判断する(ステップS76)。
登録ユーザのものでない場合(S76:NO)、処理をステップS72に戻し、登録ユーザのものである場合(S76:YES)、ストリーミング配信等で利用されるプロトコル(RTP)を設定する(ステップS77)。
【0105】
そして、解析サーバ100は、体調問診に係る質問情報を送信する(ステップS78)。質問情報は、文字データとして送信してもよく、また、音声データとして送信してもよい。質問情報を受信した被験者の情報処理装置200では、回答情報の受付けを行う(ステップS79)。回答情報の受付けは音声で行い、音声入力部211によって入力された回答に係る音声データを解析サーバ100に送信する(ステップS80)。
【0106】
解析サーバ100は、被験者の情報処理装置200から送信された音声データを受信し(ステップS81)、受信した音声データの音響学的特徴を抽出する(ステップS82)。そして、抽出した音響学的特徴から特徴量を算出して、解析データベース109aに記憶させる(ステップS83)。
次いで、体調問診に係る質問情報をすべて送信したか否かを判断することによって、体調問診が終了したか否かを判断する(ステップS84)。体調問診が終了していない場合(S84:NO)、処理をステップS78に戻す。
【0107】
全ての質問情報を送信して、体調問診が終了した場合(S84:YES)、データ収集期間であるか否かを判断する(ステップS85)。
データ収集期間である場合(S85:YES)、メンタル問診に係る質問情報を被験者の情報処理装置200に送信する(ステップS86)。質問情報は、文字データとして送信してもよく、また、音声データとして送信してもよい。質問情報を受信した被験者の情報処理装置200では、回答情報の受付けを行う(ステップS87)。回答情報の受付けは音声で行い、音声入力部211によって入力された回答に係る音声データを解析サーバ100に送信する(ステップS88)。
【0108】
解析サーバ100は、被験者の情報処理装置200から送信された音声データを受信し(ステップS89)、受信した音声データの音声認識を行う(ステップS90)。そして、音声認識により抽出された文字列を評価することによって、感情得点を算出し、算出した感情得点を解析データベース109aに記憶させる(ステップS91)。
【0109】
ステップS85で、データ収集期間でないと判断した場合(S85:NO)、重回帰式を設定する(ステップS92)。重回帰式を設定する際、解析データベース109aに既に記憶してある音圧レベル、ピッチ周波数、ピッチ周波数の時間変動、音声の継続時間、及びジッタを説明変数、感情得点を目的変数として重回帰分析を行う。そして、ステップS82にて新たに抽出した特徴量を設定した重回帰式に代入し(ステップS93)、感情得点の推定値を得ることによって、感情の推定を行う(ステップS94)。感情得点の推定値は、解析データベース109aに記憶される(ステップS95)。
【0110】
以上のように、音声データによる回答をインターネット等の通信ネットワークNを通じて解析サーバ100に送信する構成としているため、音声データは一般に圧縮した後に送信されることになるが、本実施の形態では、5つの音響学的特徴を利用して推定を行っているため、圧縮による音声データの劣化から生じる感情推定の誤差を縮小することができる。
【0111】
本実施の形態でも、メンタル問診の回答から求めた感情得点と重回帰分析によって推定した感情得点との間に差が生じている場合に、感情得点の推定値の補正を行ってもよい。また、感情得点に基づき感情を評価する場合、前述したように被験者毎に基準値を設定して感情を評価してもよい。
【0112】
【発明の効果】
以上、詳述したように、本発明による場合は、互いに相関を有する2つの質問情報を出力し、出力された質問情報に対する回答を夫々音声にて受付け、一方の回答に係る音声から文字列情報を抽出し、他方の回答に係る音声から音響学的特徴に係る特徴情報を抽出し、抽出した文字列情報と特徴情報とから両者の相関関係を設定し、質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定する。したがって、例えば、一方の質問情報を被験者の感情に関する質問情報とし、他方の質問情報を被験者の体調に係る質問とした場合、体調に係る質問を被験者に答えてもらうことによって、その被験者の感情を推定することが可能である。特に、感情に関する質問で、被験者自身に特定の感情に対する評価を答えてもらい、その評価と体調に係る質問の回答から抽出した音響学的特徴との間に相関関係を設定することによって、体調に係る質問の回答のみから、感情の種類、及び感情の程度(抑揚)を定量的に推測することが可能である。
【0113】
また、本発明による場合は、質問情報の一方が心理状態に関する質問情報であり、他方が体調に関する質問情報である。したがって、被験者から発せられた音声に基づき、感情の意味内容、感情の程度を容易に推定することができる。
【0114】
更に本発明による場合は、質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報との間の相関関係を設定するようにしている。したがって、本発明の情報処理システムの利用開始時に、前述の相関関係を設定するために音声情報を収集する期間(例えば、一週間程度)を設けることができる。また、加齢、被験者の体調等を適切に考慮して感情の推定を行うために、例えば、一ヶ月ごとに前記相関関係を最新の状態に更新することができる。その為、長期的に感情推定を行うことが可能であり、推定誤差を縮小することが可能である。
【0115】
更に本発明による場合は、記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により文字列情報と特徴情報との相関関係を設定するようにしている。したがって、複数の特徴量を利用して感情の推定を行うことができるため、特定の音響学的特徴に被験者の体調等の影響があった場合であっても、その影響を必要最小限に抑えることが可能である等、本発明は優れた効果を奏する。
【図面の簡単な説明】
【図1】本発明の情報処理装置を具体化した感情推定装置の内部構成を示すブロック図である。
【図2】音声入力部から入力された音声情報の波形、及び音声波形解析部によって抽出された特徴量の時間変化の一例を示すグラフである。
【図3】各データベースの一例を示す概念図である。
【図4】音響学的特徴から算出された特徴量に対する感情得点の得点分布の一例を示したグラフである。
【図5】感情推定装置の処理手順を示すフローチャートである。
【図6】感情推定装置の処理手順を示すフローチャートである。
【図7】本実施の形態に係る感情推定装置の処理手順を示すフローチャートである。
【図8】重み係数の算出処理を示したフローチャートである。
【図9】被験者毎に感情評価の基準値を設定する場合の処理手順を示すフローチャートである。
【図10】本実施の形態の感情推定システムの構成を示す模式図である。
【図11】解析サーバの内部構成を示すブロック図である。
【図12】被験者の情報処理装置の内部構成を示すブロック図である。
【図13】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【図14】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【図15】本実施の形態の感情推定システムの動作手順を示すフローチャートである。
【符号の説明】
1 CPU
2 バス
3 ROM
4 RAM
5 表示部
6 入力部
8 外部記憶装置
9 内部記憶装置
9a 解析データベース
9b 質問情報データベース
10 記録媒体
100 解析サーバ
200 情報処理装置
N 通信ネットワーク
Claims (18)
- 質問情報の記憶手段及び出力手段と、音声の受付手段とを備える情報処理システムにより、前記記憶手段に記憶してある質問情報を出力し、出力した質問情報に対する回答を音声にて受付け、受付けた音声に係る音響学的特徴を抽出し、抽出した音響学的特徴に基づき、前記音声に付随する情報を推定する情報処理方法において、
前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を前記出力手段により出力し、出力された第1及び第2質問情報に対する回答を夫々音声にて受付け、受付けた第1質問情報の回答に係る音声から文字列情報を抽出し、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出し、抽出した文字列情報と特徴情報とを関連付けて記憶し、記憶してある文字列情報と特徴情報とから両者の相関関係を設定し、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定することを特徴とする情報処理方法。 - 前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする請求項1に記載の情報処理方法。
- 第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断し、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定することを特徴とする請求項1又は請求項2に記載の情報処理方法。
- 記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定することを特徴とする請求項1乃至請求項3の何れかに記載の情報処理方法。
- 質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声を受付ける手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理システムにおいて、
前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第1質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理システム。 - 通信ネットワークを介して接続された第1情報処理装置と第2情報処理装置とを備え、前記第1情報処理装置は、質問情報の記憶手段と、該記憶手段に記憶されている質問情報を送信する送信手段とを備え、前記第2情報処理装置は、前記通信ネットワークを通じて送信された質問情報を受信する手段と、受信した質問情報に対する回答を音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第1情報処理装置は、前記通信ネットワークを通じて受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理システムにおいて、
前記第2情報処理装置は、前記第1情報処理装置の前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を前記ネットワークを通じて受信する手段と、受信した第1及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた音声に係る音声情報を送信する手段とを備え、前記第1情報処理装置は、受信した第1質問情報の回答に係る音声情報から文字列情報を抽出する文字列情報抽出手段と、受信した第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第2質問情報の回答に係る音声情報を前記第2情報処理装置から新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理システム。 - 前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする請求項5又は請求項6に記載の情報処理システム。
- 第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする請求項5乃至請求項7の何れかに記載の情報処理システム。
- 記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする請求項5乃至請求項8の何れかに記載の情報処理システム。
- 質問情報の記憶手段と、該記憶手段に記憶されている質問情報を出力する出力手段と、音声の受付手段とを備え、前記出力手段から出力された質問情報に対する回答を音声にて受付け、受付けた音声から抽出した音響学的特徴に基づき、前記音声に付随する情報を推定すべくなしてある情報処理装置において、
前記記憶手段に予め記憶されており、互いに相関を有する第1質問情報及び第2質問情報を出力する手段と、出力された第1及び第2質問情報に対する回答を夫々音声にて受付ける手段と、受付けた第1質問情報の回答に係る音声から文字列情報を抽出する文字列情報抽出手段と、受付けた第2質問情報の回答に係る音声から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、前記受付手段により第2質問情報の回答に係る音声を新たに受付けた場合、受付けた音声から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理装置。 - 通信ネットワークに接続可能になしてあり、音声情報を受信する手段を備え、受信した音声情報から抽出した音響学的特徴に基づき、前記音声情報に付随する情報を推定すべくなしてある情報処理装置において、
互いに相関を有する第1質問情報及び第2質問情報に対する回答を前記通信ネットワークを通じて夫々音声情報にて受信する手段と、受信した第1質問情報の回答に係る音声情報から該音声情報が含む文字列情報を抽出する文字列情報抽出手段と、受信した第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出する特徴情報抽出手段と、抽出した文字列情報及び特徴情報を関連付けて記憶する手段と、記憶してある文字列情報と特徴情報とから両者の相関関係を設定する手段とを備え、第2質問情報の回答に係る音声情報を新たに受信した場合、受信した音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定した相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定すべくなしてあることを特徴とする情報処理装置。 - 前記第1質問情報は、心理状態に関する質問情報であり、前記第2質問情報は、体調に関する質問情報であることを特徴とする請求項10又は請求項11に記載の情報処理装置。
- 第1質問情報又は第2質問情報に対する回答を音声にて受付ける際、所定の期間であるか否かを判断する手段を備え、所定の期間である場合にのみ、記憶してある文字列情報と特徴情報とから両者の相関関係を設定すべくなしてあることを特徴とする請求項10乃至請求項12の何れかに記載の情報処理装置。
- 記憶してある文字列情報及び特徴情報から夫々を特徴づける特徴量を算出し、算出した特徴量を用いた多変量解析により前記相関関係を設定すべくなしてあることを特徴とする請求項10乃至請求項13の何れかに記載の情報処理装置。
- 前記特徴情報抽出手段は、入力された音声情報の音圧を検出する検出手段、ピッチ周波数を検出する検出手段、継続時間を検出する検出手段、又はジッタを検出する検出手段のうち少なくとも一の検出手段を備えることを特徴とする請求項10乃至請求項14の何れかに記載の情報処理装置。
- 前記文字列情報抽出手段が抽出した文字列情報から前記第1質問情報の回答の中心になる部分を抽出するようにしてあることを特徴とする請求項10乃至請求項15の何れかに記載の情報処理装置。
- コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムにおいて、
コンピュータに、互いに相関を有する第1質問情報及び第2質問情報を出力させるステップと、コンピュータに、出力された第1及び第2質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第1質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第2質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有することを特徴とするコンピュータプログラム。 - コンピュータに、入力された音声情報に係る音響学的特徴を抽出させ、抽出させた音響学的特徴に基づき、前記音声情報に付随する情報を推定させるステップを有するコンピュータプログラムが記録されているコンピュータでの読取りが可能な記録媒体において、
コンピュータに、互いに相関を有する第1質問情報及び第2質問情報を出力させるステップと、コンピュータに、出力された第1及び第2質問情報に対する回答を夫々音声情報にて入力させるステップと、コンピュータに、入力された第1質問情報の回答に係る音声情報から文字列情報を抽出させるステップと、コンピュータに、受付けた第2質問情報の回答に係る音声情報から音響学的特徴に係る1又は複数の特徴情報を抽出させるステップと、コンピュータに、抽出させた文字列情報及び特徴情報を関連付けて記憶させるステップと、コンピュータに、記憶してある文字列情報と特徴情報とから両者の相関関係を設定させるステップと、コンピュータに、第2質問情報に対する回答に係る音声情報を新たに受付けた場合、受付けた音声情報から抽出した音響学的特徴に係る1又は複数の特徴情報と設定させた相関関係とに基づき、前記特徴情報と相関がある文字列情報を特定させるステップとを有するコンピュータプログラムが記録されていることを特徴とするコンピュータでの読取りが可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002024823A JP3973434B2 (ja) | 2002-01-31 | 2002-01-31 | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 |
US10/356,331 US7315821B2 (en) | 2002-01-31 | 2003-01-31 | System and method for health care information processing based on acoustic features |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002024823A JP3973434B2 (ja) | 2002-01-31 | 2002-01-31 | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003228391A JP2003228391A (ja) | 2003-08-15 |
JP3973434B2 true JP3973434B2 (ja) | 2007-09-12 |
Family
ID=27747152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002024823A Expired - Fee Related JP3973434B2 (ja) | 2002-01-31 | 2002-01-31 | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3973434B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4587854B2 (ja) * | 2005-03-23 | 2010-11-24 | 東京電力株式会社 | 感情解析装置、感情解析プログラム、プログラム格納媒体 |
JP2015184563A (ja) | 2014-03-25 | 2015-10-22 | シャープ株式会社 | 対話型家電システム、サーバ装置、対話型家電機器、家電システムが対話を行なうための方法、当該方法をコンピュータに実現させるためのプログラム |
JP6306071B2 (ja) * | 2016-02-09 | 2018-04-04 | Pst株式会社 | 推定装置、推定プログラム、推定装置の作動方法および推定システム |
JP6559079B2 (ja) * | 2016-02-12 | 2019-08-14 | シャープ株式会社 | 対話型家電システム、および発話者との対話に基づいてメッセージを出力するためにコンピュータが実行する方法 |
JP2017220807A (ja) * | 2016-06-08 | 2017-12-14 | 株式会社日立システムズ | 音声データ収集システム |
-
2002
- 2002-01-31 JP JP2002024823A patent/JP3973434B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2003228391A (ja) | 2003-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7315821B2 (en) | System and method for health care information processing based on acoustic features | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US8696566B2 (en) | Method for analyzing stress based on multi-measured bio-signals | |
JP4965322B2 (ja) | ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム | |
JP2019084249A (ja) | 認知症診断装置、認知症診断方法、及び認知症診断プログラム | |
JP5039045B2 (ja) | 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体 | |
US20190130910A1 (en) | Information processing apparatus | |
JP5299965B2 (ja) | 指導支援システム及び指導支援情報表示装置 | |
JP4495907B2 (ja) | 音声の分析の方法及び装置 | |
Wambaugh et al. | Interrater reliability and concurrent validity for the Apraxia of Speech Rating Scale 3.0: Application with persons with acquired apraxia of speech and aphasia | |
CN110782962A (zh) | 听力语言康复装置、方法、电子设备及存储介质 | |
JP2004240394A (ja) | 話者音声解析システムおよびこれに用いるサーバ装置、話者音声の解析を利用した健康診断方法、話者音声解析プログラム | |
Maryn et al. | Intersegmenter Variability in High‐Speed Laryngoscopy‐Based Glottal Area Waveform Measures | |
WO2022257630A1 (zh) | 基于多模态隐匿信息测试的风险检测方法及装置 | |
KR20190112962A (ko) | 인지재활훈련 시스템 | |
CN112347239A (zh) | 一种基于大数据的图书匹配方法、系统、服务器及存储介质 | |
JP3973434B2 (ja) | 情報処理方法、情報処理システム、情報処理装置、コンピュータプログラム、及び記録媒体 | |
US11361754B2 (en) | Method and system for speech effectiveness evaluation and enhancement | |
CN110728983A (zh) | 一种信息显示方法、装置、设备及可读存储介质 | |
CN115862868A (zh) | 心理测评系统、平台、电子设备及存储介质 | |
KR20170084790A (ko) | 음성 인식 기반의 건강 관리 앱을 실행하는 이동통신 단말기 및 그 동작 방법 | |
CN111046293A (zh) | 一种根据测评结果推荐内容的方法及其系统 | |
CN110858234A (zh) | 一种根据人物情感进行信息推送的方法及装置 | |
JP7307507B2 (ja) | 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム | |
Tan et al. | Establishing the reliability and validity of web-based singing research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070612 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |