JP2005091463A

JP2005091463A - 情報処理装置

Info

Publication number: JP2005091463A
Application number: JP2003321460A
Authority: JP
Inventors: Satoshi Arai; 智荒井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07

Abstract

【課題】本発明の目的は、話者の表情と共にその感情をも表示させる情報処理装置を提供することである。
【解決手段】話者の表情を表示する表示部（２４０）と、話者の音声情報から感情を解析する解析部（１１０，２２０）と、前記解析結果も前記表示部に表示するように指示する制御部（１１０）とを備える情報処理装置。
【選択図】図１

Description

本発明は、情報処理装置に関し、特に、話者の表情と共にその感情を表示させる情報処理装置に関する。

発話の情景の実写映像を表示する映像表示装置がＴＶ電話やＴＶ会議などのシステムで用いられている。ここで、複数の人物の映像を表示する場合、常に全ての人物の顔が十分な大きさで映像に現れるとは限らない。例えば、多人数の会議の中継では出席者の中にはカメラに背を向けてしまう人もいると考えられる。このように顔が映像に現れなかったり、現れても小さかったりする場合がある。すなわち、映像を見る人が映像の中のどの人物が何を話しているのかを視覚によって認識することができない場合がある。

このため、従来の映像表示装置では、まず、ＴＶ会議の状況を映す主映像を表示する。この他に、二次元等の顔モデルを変形させることによって人物の発話状況を表現するアニメーション映像を生成し、主映像の補助情報（誰が話をしているか）として表示している。（例えば特許文献１参照）。
特開２００２−１５０３１７号公報（第２〜４頁、図２）

しかし、現在だれが話しているかわかっても、ＴＶ画面からでは話者の感情などを読み取るのは難しい。これは話者の表情が映される画面が小さければなおさらである。

本発明の目的は、話者と共にその感情をも表示させる情報処理装置を提供することである。

第１の発明は、話者の表情を表示する表示部と、話者の音声情報から感情を解析する解析部と、前記解析結果も前記表示部に表示するように指示する制御部とを備える情報処理装置である。

第２の発明は、前記解析部は、前記音声情報の周波数の変化から感情を解析することを特徴とする第１の発明記載の情報処理装置である。

第３の発明は、前記解析部は、前記音声情報の音量の変化から感情を解析することを特徴とする第１の発明記載の情報処理装置である。

第４の発明は、前記解析部は、前記音声情報の会話の間隔の変化から感情を解析することを特徴とする第１の発明記載の情報処理装置である。

第５の発明は、前記解析結果は、前記話者の感情を示すマークであることを特徴とする第１の発明記載の情報処理装置である。

本発明によれば、話者の表情と共にその感情をも表示させる情報処理装置を提供することができる。

以下、本発明の実施の形態について図面を参照しながら説明する。

図１は、本発明の実施形態に係る情報処理装置の概略ブロック図である。ＭＰＵ１１０はＲＯＭ２１０からＴＶ電話システム用のアプリケーションソフトを起動させる。そしてＮｅｔｗｏｒｋ接続部１２０からＴＶ電話の話し相手（話者）からの情報を取得する。この情報には相手の表情及び音声の情報の他に、現在話している人が誰なのかを特定するためにＩＰアドレスの情報が含まれている。

相手の表情は主映像としてＲＡＭ１３０、画像出力部２３０を経由してディスプレイ２４０に表示される。また、相手の音声はデコードされてＲＡＭ１３０、音響出力部２５０を経由してスピーカ２６０から出力される。

一方、ユーザの表情はカメラ１４０、画像入力部１５０を、音声はマイク１６０、音声入力部１７０を、さらにキーボード１８０やマウス１９０などの入力装置からの情報はＩ／Ｏ制御部２００をそれぞれ経由してエンコードされてＮｅｔｗｏｒｋ接続部１２０から相手側の情報処理装置へ出力される。以上のようにして通常のＴＶ電話システムは動作する。

本実施形態では、さらにＮｅｔｗｏｒｋ接続部１２０から取得した相手の音声をＲＡＭ１３０に一時保存し、相手の感情を推定する感情推定ソフトをＲＯＭ２１０から起動してＭＰＵ１１０が実行する。そして相手の感情をＨＤＤなどのディスク２２０に記録された感情データベースから推定する。推定した感情に基づく補助映像（文字、記号、画像などのマーク）を相手の映像（表情）と共にディスプレイ２４０に表示するようにＭＰＵ１１０が指示する。これによって、ユーザはディスプレイに映し出される相手の表情からでは判断しにくい感情を補助映像によってビジュアル化でき、理解し易くなる。これは特に、ディスプレイが小さく、話し相手の表情から感情を判断することが難しい場合に有効である。

図２は、話し手の感情変化を推定するフローチャートである。まず、ネットワーク経由で送信されてきた話し手の音声データを音声認識システムでデコードする（Ｓ１１０）。次に複数の話し相手と会話している場合にはＩＰアドレス情報から話し手を特定する（Ｓ１２０）。そして以下の３つの解析方法で話し手の感情が変化しているかを推定する。

第１の解析方法は音声の周波数を用いる。音声周波数を解析して、音声周波数分布を作成する（Ｓ１３０）。次に過去１０秒間の音声周波数分布と秒単位で比較する（Ｓ１４０）。そして音声周波数分布が変化していれば（Ｓ１５０）、話し手の感情が変化していると推定する（Ｓ１６０）。一方、変化していなければ、現状の感情に変化なしと推定する（Ｓ１７０）。

第２の解析方法は音量レベルで行う。まず過去１０秒間の音量レベルと秒単位で比較し（Ｓ１８０）、音量レベルに変化がある場合（Ｓ１９０のＹｅｓ）は感情が変化していると推定し、音量レベルに変化がない場合（Ｓ１９０のＮｏ）は感情の変化なしと推定する。

第３の解析方法は自分のエンコードと相手の話のデコード要求の間隔を用いる。この間隔の過去１０秒間のデータ傾向を調べる（Ｓ２００）。間隔が減少または拡大傾向にある場合（Ｓ２１０のＹｅｓ）は感情が変化していると推定し、このような傾向がない場合（Ｓ２１０のＮｏ）は感情の変化なしと推定する。すなわち、通常の会話では自分が話した後すぐに相手は返答するので、自分の声をエンコードした後に相手の話のデコード要求が起きる。しかし、相手が怒っている場合、自分が話している最中に相手は自分の話を否定しようとして話を開始する。つまり、自分の声をデコードしている最中に相手の話のデコード要求が起きる。一方、相手が悲しんでいる場合、自分が話した後、悲しみのため返答が遅れる。つまり、自分の声をデコードした後しばらくしてから相手の話のデコード要求が起きる。

図３は、本実施形態に係る話し手の感情を推定するフローチャートである。一例として、話し手の感情が「怒り・興奮」または「悲しみ」に該当するか否かを推定する場合を説明する。

まず、音声周波数分布が高音域に変化している場合（Ｓ３１０のＹｅｓ）について説明する。この場合、話し手の感情が「怒り・興奮」に該当することがある。音量レベルが増加傾向であり（Ｓ３２０のＹｅｓ）、会話の間隔が減少傾向にある（Ｓ３３０のＹｅｓ）と判断すると、音声認識システムによりデコードされた言葉と感情データベースに記録されている「怒り・興奮」と比較する（Ｓ３４０）。そして、適合する言葉使いが存在する場合（Ｓ３５０のＹｅｓ）、現在の話し手の感情は「怒り・興奮」の状態にあっていると判定できる。「怒り・興奮」にあう画像表示と記号を選択し、文字表示フォントと表示色を「怒り・興奮」をイメージできるものに変更する（Ｓ３６０）。なお、適合する言葉がない場合にはデータベースに追加語句として記録する（Ｓ３７０）。

一方、音量レベルが増加していない場合（Ｓ３２０のＮｏ）、または、話の間隔が減少していない場合（Ｓ３３０のＮｏ）は感情を判断しないで終了する。

次に、音声周波数分布が高音域に変化していない場合（Ｓ３１０のＮｏ）について説明する。この場合、話し手の感情が「悲しみ」に該当することがある。

会話開始の音声周波数分布と音量レベルとを比較する（Ｓ３８０）。そして低音域に変化し（Ｓ３９０のＹｅｓ）、音量レベルが減少傾向にあり（Ｓ４００のＹｅｓ）、しかも、話の間隔が増加傾向にあると判断すると（Ｓ４１０のＹｅｓ）、音声認識システムによりデコードされた言葉と感情データベースに記録されている「悲しみ」と比較する（Ｓ４２０）。そして、適合する言葉使いが存在する場合（Ｓ４３０のＹｅｓ）、現在の話し手の感情は「悲しみ」の状態にあっていると判定できる。「悲しみ」にあう画像表示と記号を選択し、文字表示フォントと表示色を「悲しみ」をイメージできるものに変更する（Ｓ４４０）。なお、適合する言葉がない場合にはデータベースに追加語句として記録する（Ｓ４５０）。

一方、低音域に変化していない場合（Ｓ３８０のＮｏ）、音量レベルが減少していない場合（Ｓ３９０のＮｏ）、話の間隔が増加していない場合（Ｓ４００のＮｏ）は感情を判断しないで終了する。

図４は、ディスク２２０に記録される感情データベースの概要を説明するための図である。感情データベースは「喜び」、「悲しみ」、「怒り」、「驚き」を基本とするデータベースである。ここでは、感情解析に使用するデータベースの一例として「怒り」の場合を説明する。感情解析と音声認識結果に基づいて感情データベースから該当するものがある場合には表示候補として準備される。例えば、音声認識デコードの結果「なに」となると、「なにぃぃぃ！」と赤字で表示する。

図５〜７は、感情解析を行った結果の画像表示例である。ここでは、怒りの感情を解析すると、使用するユーザが予め選択した背景などが表示される場合を示す。図５は、背景を変更する場合であり、「炎がめらめらとたぎっている背景」に変化させている。図６、７は、カメラで撮影した人物の画像上に感情を示す画像を追加している場合である。図６は額に「怒りを表すマーク」を付加し、図７は頭上に「沸騰しているやかん」を付加している。

図８は、複数人で会話を行った場合のディスプレイ画像表示例を示す図である。解析した音声を文字表示部に表している。このようにすれば、１対１のＴＶ電話のみならず、３人以上のＴＶチャットの場合にも、本実施形態が適用できる。

上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組合わせ及び変更することができることはいうまでもない。

例えば、相手の感情を解析して自分のディスプレイに相手の感情を表示させるという受信側の場合だけでない。すなわち、自分の感情を解析させて、この解析結果を自分の映像に付加して、ネットワーク経由で相手側のディスプレイに表示させるという送信側の場合も適用できる。これによって、ＴＶ画面上の表情からではわかりにくい微妙な感情の変化を相手に伝えることができる。したがって、耳の不自由な方も話し相手の感情を従来のＴＶ電話よりも理解しやすくなる。

また、言語機能に支障のある方はキーボードで人工音声に変換してもらいたい言葉を入力し、さらにキーボードのファンクションキーに感情を割り当てることにより、本実施形態の感情データベースを用いた解析の逆の解析を行うことによって、感情のこもった人口音声を話し相手側に送信できる。話し相手は、感情のこもった人口音声の他に、本実施形態の感情データベースを用いた解析を行うことによって、話し手の表情に感情を表すマークを付加できるので、人工音声だけの場合よりも豊かに感情を表現することができる。

本発明の実施形態に係る情報処理装置の概略ブロック図。本実施形態に係る話し手の感情変化を推定するフローチャート。本実施形態に係る話し手の感情が「怒り・興奮」または「悲しみ」であるかを推定するフローチャート。本実施形態に係る感情データベースの概要を説明するための図。感情解析を行った結果の画像表示例を示す図。感情解析を行った結果の画像表示例を示す図。感情解析を行った結果の画像表示例を示す図。複数人で会話を行った場合のディスプレイ画像表示例を示す図。

符号の説明

１１０ＭＰＵ
１２０Ｎｅｔｗｏｒｋ接続部（Ｅｔｈｅｒ接続部）
１３０ＲＡＭ
１４０カメラ
１５０画像入力部（ＵＳＢ等）
１６０マイク
１７０音声入力部
１８０キーボード
１９０マウス
２００Ｉ／Ｏ制御部
２１０ＲＯＭ
２２０ディスク
２３０画像出力部
２４０ディスプレイ
２５０音響出力部
２６０スピーカ

Claims

話者の表情を表示する表示部と、
話者の音声情報から感情を解析する解析部と、
前記解析結果も前記表示部に表示するように指示する制御部と
を備える情報処理装置。
前記解析部は、前記音声情報の周波数の変化から感情を解析することを特徴とする請求項１記載の情報処理装置。
前記解析部は、前記音声情報の音量の変化から感情を解析することを特徴とする請求項１記載の情報処理装置。
前記解析部は、前記音声情報の会話の間隔の変化から感情を解析することを特徴とする請求項１記載の情報処理装置。
前記解析結果は、前記話者の感情を示すマークであることを特徴とする請求項１記載の情報処理装置。