JP2005091463A - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP2005091463A JP2005091463A JP2003321460A JP2003321460A JP2005091463A JP 2005091463 A JP2005091463 A JP 2005091463A JP 2003321460 A JP2003321460 A JP 2003321460A JP 2003321460 A JP2003321460 A JP 2003321460A JP 2005091463 A JP2005091463 A JP 2005091463A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- speaker
- information processing
- display
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
Abstract
【課題】 本発明の目的は、話者の表情と共にその感情をも表示させる情報処理装置を提供することである。
【解決手段】 話者の表情を表示する表示部(240)と、話者の音声情報から感情を解析する解析部(110,220)と、前記解析結果も前記表示部に表示するように指示する制御部(110)とを備える情報処理装置。
【選択図】 図1
【解決手段】 話者の表情を表示する表示部(240)と、話者の音声情報から感情を解析する解析部(110,220)と、前記解析結果も前記表示部に表示するように指示する制御部(110)とを備える情報処理装置。
【選択図】 図1
Description
本発明は、情報処理装置に関し、特に、話者の表情と共にその感情を表示させる情報処理装置に関する。
発話の情景の実写映像を表示する映像表示装置がTV電話やTV会議などのシステムで用いられている。ここで、複数の人物の映像を表示する場合、常に全ての人物の顔が十分な大きさで映像に現れるとは限らない。例えば、多人数の会議の中継では出席者の中にはカメラに背を向けてしまう人もいると考えられる。このように顔が映像に現れなかったり、現れても小さかったりする場合がある。すなわち、映像を見る人が映像の中のどの人物が何を話しているのかを視覚によって認識することができない場合がある。
このため、従来の映像表示装置では、まず、TV会議の状況を映す主映像を表示する。この他に、二次元等の顔モデルを変形させることによって人物の発話状況を表現するアニメーション映像を生成し、主映像の補助情報(誰が話をしているか)として表示している。(例えば特許文献1参照)。
特開2002−150317号公報(第2〜4頁、図2)
しかし、現在だれが話しているかわかっても、TV画面からでは話者の感情などを読み取るのは難しい。これは話者の表情が映される画面が小さければなおさらである。
本発明の目的は、話者と共にその感情をも表示させる情報処理装置を提供することである。
第1の発明は、話者の表情を表示する表示部と、話者の音声情報から感情を解析する解析部と、前記解析結果も前記表示部に表示するように指示する制御部とを備える情報処理装置である。
第2の発明は、前記解析部は、前記音声情報の周波数の変化から感情を解析することを特徴とする第1の発明記載の情報処理装置である。
第3の発明は、前記解析部は、前記音声情報の音量の変化から感情を解析することを特徴とする第1の発明記載の情報処理装置である。
第4の発明は、前記解析部は、前記音声情報の会話の間隔の変化から感情を解析することを特徴とする第1の発明記載の情報処理装置である。
第5の発明は、前記解析結果は、前記話者の感情を示すマークであることを特徴とする第1の発明記載の情報処理装置である。
本発明によれば、話者の表情と共にその感情をも表示させる情報処理装置を提供することができる。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本発明の実施形態に係る情報処理装置の概略ブロック図である。MPU110はROM210からTV電話システム用のアプリケーションソフトを起動させる。そしてNetwork接続部120からTV電話の話し相手(話者)からの情報を取得する。この情報には相手の表情及び音声の情報の他に、現在話している人が誰なのかを特定するためにIPアドレスの情報が含まれている。
相手の表情は主映像としてRAM130、画像出力部230を経由してディスプレイ240に表示される。また、相手の音声はデコードされてRAM130、音響出力部250を経由してスピーカ260から出力される。
一方、ユーザの表情はカメラ140、画像入力部150を、音声はマイク160、音声入力部170を、さらにキーボード180やマウス190などの入力装置からの情報はI/O制御部200をそれぞれ経由してエンコードされてNetwork接続部120から相手側の情報処理装置へ出力される。以上のようにして通常のTV電話システムは動作する。
本実施形態では、さらにNetwork接続部120から取得した相手の音声をRAM130に一時保存し、相手の感情を推定する感情推定ソフトをROM210から起動してMPU110が実行する。そして相手の感情をHDDなどのディスク220に記録された感情データベースから推定する。推定した感情に基づく補助映像(文字、記号、画像などのマーク)を相手の映像(表情)と共にディスプレイ240に表示するようにMPU110が指示する。これによって、ユーザはディスプレイに映し出される相手の表情からでは判断しにくい感情を補助映像によってビジュアル化でき、理解し易くなる。これは特に、ディスプレイが小さく、話し相手の表情から感情を判断することが難しい場合に有効である。
図2は、話し手の感情変化を推定するフローチャートである。まず、ネットワーク経由で送信されてきた話し手の音声データを音声認識システムでデコードする(S110)。次に複数の話し相手と会話している場合にはIPアドレス情報から話し手を特定する(S120)。そして以下の3つの解析方法で話し手の感情が変化しているかを推定する。
第1の解析方法は音声の周波数を用いる。音声周波数を解析して、音声周波数分布を作成する(S130)。次に過去10秒間の音声周波数分布と秒単位で比較する(S140)。そして音声周波数分布が変化していれば(S150)、話し手の感情が変化していると推定する(S160)。一方、変化していなければ、現状の感情に変化なしと推定する(S170)。
第2の解析方法は音量レベルで行う。まず過去10秒間の音量レベルと秒単位で比較し(S180)、音量レベルに変化がある場合(S190のYes)は感情が変化していると推定し、音量レベルに変化がない場合(S190のNo)は感情の変化なしと推定する。
第3の解析方法は自分のエンコードと相手の話のデコード要求の間隔を用いる。この間隔の過去10秒間のデータ傾向を調べる(S200)。間隔が減少または拡大傾向にある場合(S210のYes)は感情が変化していると推定し、このような傾向がない場合(S210のNo)は感情の変化なしと推定する。すなわち、通常の会話では自分が話した後すぐに相手は返答するので、自分の声をエンコードした後に相手の話のデコード要求が起きる。しかし、相手が怒っている場合、自分が話している最中に相手は自分の話を否定しようとして話を開始する。つまり、自分の声をデコードしている最中に相手の話のデコード要求が起きる。一方、相手が悲しんでいる場合、自分が話した後、悲しみのため返答が遅れる。つまり、自分の声をデコードした後しばらくしてから相手の話のデコード要求が起きる。
図3は、本実施形態に係る話し手の感情を推定するフローチャートである。一例として、話し手の感情が「怒り・興奮」または「悲しみ」に該当するか否かを推定する場合を説明する。
まず、音声周波数分布が高音域に変化している場合(S310のYes)について説明する。この場合、話し手の感情が「怒り・興奮」に該当することがある。音量レベルが増加傾向であり(S320のYes)、会話の間隔が減少傾向にある(S330のYes)と判断すると、音声認識システムによりデコードされた言葉と感情データベースに記録されている「怒り・興奮」と比較する(S340)。そして、適合する言葉使いが存在する場合(S350のYes)、現在の話し手の感情は「怒り・興奮」の状態にあっていると判定できる。「怒り・興奮」にあう画像表示と記号を選択し、文字表示フォントと表示色を「怒り・興奮」をイメージできるものに変更する(S360)。なお、適合する言葉がない場合にはデータベースに追加語句として記録する(S370)。
一方、音量レベルが増加していない場合(S320のNo)、または、話の間隔が減少していない場合(S330のNo)は感情を判断しないで終了する。
次に、音声周波数分布が高音域に変化していない場合(S310のNo)について説明する。この場合、話し手の感情が「悲しみ」に該当することがある。
会話開始の音声周波数分布と音量レベルとを比較する(S380)。そして低音域に変化し(S390のYes)、音量レベルが減少傾向にあり(S400のYes)、しかも、話の間隔が増加傾向にあると判断すると(S410のYes)、音声認識システムによりデコードされた言葉と感情データベースに記録されている「悲しみ」と比較する(S420)。そして、適合する言葉使いが存在する場合(S430のYes)、現在の話し手の感情は「悲しみ」の状態にあっていると判定できる。「悲しみ」にあう画像表示と記号を選択し、文字表示フォントと表示色を「悲しみ」をイメージできるものに変更する(S440)。なお、適合する言葉がない場合にはデータベースに追加語句として記録する(S450)。
一方、低音域に変化していない場合(S380のNo)、音量レベルが減少していない場合(S390のNo)、話の間隔が増加していない場合(S400のNo)は感情を判断しないで終了する。
図4は、ディスク220に記録される感情データベースの概要を説明するための図である。感情データベースは「喜び」、「悲しみ」、「怒り」、「驚き」を基本とするデータベースである。ここでは、感情解析に使用するデータベースの一例として「怒り」の場合を説明する。感情解析と音声認識結果に基づいて感情データベースから該当するものがある場合には表示候補として準備される。例えば、音声認識デコードの結果「なに」となると、「なにぃぃぃ!」と赤字で表示する。
図5〜7は、感情解析を行った結果の画像表示例である。ここでは、怒りの感情を解析すると、使用するユーザが予め選択した背景などが表示される場合を示す。図5は、背景を変更する場合であり、「炎がめらめらとたぎっている背景」に変化させている。図6、7は、カメラで撮影した人物の画像上に感情を示す画像を追加している場合である。図6は額に「怒りを表すマーク」を付加し、図7は頭上に「沸騰しているやかん」を付加している。
図8は、複数人で会話を行った場合のディスプレイ画像表示例を示す図である。解析した音声を文字表示部に表している。このようにすれば、1対1のTV電話のみならず、3人以上のTVチャットの場合にも、本実施形態が適用できる。
上述した実施の形態は、本発明の好適な具体例であるから、技術的に好ましい種々の限定が付されているが、本発明の趣旨を逸脱しない範囲であれば、適宜組合わせ及び変更することができることはいうまでもない。
例えば、相手の感情を解析して自分のディスプレイに相手の感情を表示させるという受信側の場合だけでない。すなわち、自分の感情を解析させて、この解析結果を自分の映像に付加して、ネットワーク経由で相手側のディスプレイに表示させるという送信側の場合も適用できる。これによって、TV画面上の表情からではわかりにくい微妙な感情の変化を相手に伝えることができる。したがって、耳の不自由な方も話し相手の感情を従来のTV電話よりも理解しやすくなる。
また、言語機能に支障のある方はキーボードで人工音声に変換してもらいたい言葉を入力し、さらにキーボードのファンクションキーに感情を割り当てることにより、本実施形態の感情データベースを用いた解析の逆の解析を行うことによって、感情のこもった人口音声を話し相手側に送信できる。話し相手は、感情のこもった人口音声の他に、本実施形態の感情データベースを用いた解析を行うことによって、話し手の表情に感情を表すマークを付加できるので、人工音声だけの場合よりも豊かに感情を表現することができる。
110 MPU
120 Network接続部(Ether接続部)
130 RAM
140 カメラ
150 画像入力部(USB等)
160 マイク
170 音声入力部
180 キーボード
190 マウス
200 I/O制御部
210 ROM
220 ディスク
230 画像出力部
240 ディスプレイ
250 音響出力部
260 スピーカ
120 Network接続部(Ether接続部)
130 RAM
140 カメラ
150 画像入力部(USB等)
160 マイク
170 音声入力部
180 キーボード
190 マウス
200 I/O制御部
210 ROM
220 ディスク
230 画像出力部
240 ディスプレイ
250 音響出力部
260 スピーカ
Claims (5)
- 話者の表情を表示する表示部と、
話者の音声情報から感情を解析する解析部と、
前記解析結果も前記表示部に表示するように指示する制御部と
を備える情報処理装置。 - 前記解析部は、前記音声情報の周波数の変化から感情を解析することを特徴とする請求項1記載の情報処理装置。
- 前記解析部は、前記音声情報の音量の変化から感情を解析することを特徴とする請求項1記載の情報処理装置。
- 前記解析部は、前記音声情報の会話の間隔の変化から感情を解析することを特徴とする請求項1記載の情報処理装置。
- 前記解析結果は、前記話者の感情を示すマークであることを特徴とする請求項1記載の情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321460A JP2005091463A (ja) | 2003-09-12 | 2003-09-12 | 情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321460A JP2005091463A (ja) | 2003-09-12 | 2003-09-12 | 情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005091463A true JP2005091463A (ja) | 2005-04-07 |
Family
ID=34453143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321460A Pending JP2005091463A (ja) | 2003-09-12 | 2003-09-12 | 情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005091463A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176224A (ja) * | 2009-01-27 | 2010-08-12 | Nikon Corp | 画像処理装置およびデジタルカメラ |
JP2014075008A (ja) * | 2012-10-03 | 2014-04-24 | Toyota Motor Corp | 運転支援装置および運転支援方法 |
JP2015103992A (ja) * | 2013-11-26 | 2015-06-04 | 株式会社ナカヨ | アイコンを介して会話する通信装置 |
JP2020187262A (ja) * | 2019-05-15 | 2020-11-19 | 株式会社Nttドコモ | 感情推定装置、感情推定システム、及び感情推定方法 |
WO2024116378A1 (ja) * | 2022-12-01 | 2024-06-06 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、及びプログラム |
-
2003
- 2003-09-12 JP JP2003321460A patent/JP2005091463A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176224A (ja) * | 2009-01-27 | 2010-08-12 | Nikon Corp | 画像処理装置およびデジタルカメラ |
JP2014075008A (ja) * | 2012-10-03 | 2014-04-24 | Toyota Motor Corp | 運転支援装置および運転支援方法 |
JP2015103992A (ja) * | 2013-11-26 | 2015-06-04 | 株式会社ナカヨ | アイコンを介して会話する通信装置 |
JP2020187262A (ja) * | 2019-05-15 | 2020-11-19 | 株式会社Nttドコモ | 感情推定装置、感情推定システム、及び感情推定方法 |
WO2024116378A1 (ja) * | 2022-12-01 | 2024-06-06 | 日本電信電話株式会社 | 情報提示装置、情報提示方法、及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6042015B1 (ja) | オンライン面接評価装置、方法およびプログラム | |
US8243116B2 (en) | Method and system for modifying non-verbal behavior for social appropriateness in video conferencing and other computer mediated communications | |
Bruce | The role of the face in communication: Implications for videophone design | |
Jain et al. | Towards accessible conversations in a mobile context for people who are deaf and hard of hearing | |
US8515728B2 (en) | Language translation of visual and audio input | |
JP7269286B2 (ja) | 字幕生成方法および字幕生成装置 | |
US20190171760A1 (en) | System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information | |
WO2018061173A1 (ja) | Tv会議システム、tv会議方法、およびプログラム | |
JP2011065467A (ja) | 会議中継装置及びコンピュータプログラム | |
JP2006302047A (ja) | 会議支援プログラム、会議支援装置、および会議支援方法 | |
JP2016046705A (ja) | 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム | |
JP2019208138A (ja) | 発話認識装置、及びコンピュータプログラム | |
US11699043B2 (en) | Determination of transcription accuracy | |
JP2007101945A (ja) | 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム | |
CN113194203A (zh) | 一种用于听障人士的沟通系统、接听拨打方法及通讯系统 | |
JP4077656B2 (ja) | 発言者特定映像装置 | |
KR101981091B1 (ko) | 감정시각화자막 생성장치 | |
JP2005091463A (ja) | 情報処理装置 | |
KR20200050707A (ko) | 그래픽 객체를 이용한 자막 생성 시스템 | |
JP2010176544A (ja) | 会議支援装置 | |
JP2004015478A (ja) | 音声通信端末装置 | |
CN109714248B (zh) | 一种数据处理方法及装置 | |
JP2008021058A (ja) | 翻訳機能付き携帯電話装置、音声データ翻訳方法、音声データ翻訳プログラムおよびプログラム記録媒体 | |
JP7052335B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
JP2011118632A (ja) | 発話の予備動作検出及び伝達方法及び装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |