JP2017117161A - コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム - Google Patents

コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム Download PDF

Info

Publication number
JP2017117161A
JP2017117161A JP2015251203A JP2015251203A JP2017117161A JP 2017117161 A JP2017117161 A JP 2017117161A JP 2015251203 A JP2015251203 A JP 2015251203A JP 2015251203 A JP2015251203 A JP 2015251203A JP 2017117161 A JP2017117161 A JP 2017117161A
Authority
JP
Japan
Prior art keywords
utterance
participant
conversation
probability
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015251203A
Other languages
English (en)
Other versions
JP6383349B2 (ja
Inventor
亮 石井
Akira Ishii
亮 石井
和弘 大塚
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015251203A priority Critical patent/JP6383349B2/ja
Publication of JP2017117161A publication Critical patent/JP2017117161A/ja
Application granted granted Critical
Publication of JP6383349B2 publication Critical patent/JP6383349B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】会話中の発言が適切なタイミングで行われたかを確認可能とする。【解決手段】コミュニケーションスキル評価システム1において、撮影装置4は会話中の参加者を撮影し、音声入力装置2は会話中の参加者の音声データを入力し、計測装置3は参加者の会話中の非言語行動を計測する。発話区間検出部53は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。次話者推定部54は、計測装置3による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。評価部55は、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を、発話が開始されたときの次話者確率に基づいて参加者別に算出する。再生制御部58は、映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、参加者の発話毎のスキル判別パラメータを表示する。【選択図】図1

Description

本発明は、コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムに関する。
会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、必ずしも誰もが適切なタイミングで発話を行えるわけではない。
一方、会話中のユーザの状態を自動的にモニタリングする技術がある(例えば、特許文献1参照)。この技術では、会話の参加者の頷き、笑い、合いの手などを検出し、時系列にモニタリングする。
特開2014−120793号公報
会話の流れの中で発話に適切なタイミングであるか否かを判断できるようなコミュニケーションスキルを習得することは容易ではない。そこで、会話の参加者が適切なタイミングで発話できていたかを後から確認できれば、コミュニケーションスキルの習得に有用であると考えられる。しかし、特許文献1の技術では、会話中に参加者が適切なタイミングで発話できていたかどうかを確認するためのものではない。
上記事情に鑑み、本発明は、会話中の発言が適切なタイミングで行われたかを確認することができるコミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムを提供することを目的としている。
本発明の一態様は、会話中の参加者を撮影する撮影部と、前記参加者の会話中の音声データを入力する音声入力部と、前記参加者の会話中の非言語行動を計測する計測部と、前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、前記撮影部による撮影により得られた映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、を備えるコミュニケーションスキル評価システムである。
また、本発明の一態様は、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、を備えるコミュニケーションスキル評価装置である。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、前記映像データの再生箇所の発話について算出された前記スキル判別パラメータを、他の発話について算出された前記スキル判別パラメータと異なる態様で表示する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、表示中の発話毎の前記スキル判別パラメータに基づいて選択された発話に対応した前記映像データの部分を再生する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、各発話の発話内容を記憶する記憶部をさらに備え、前記再生制御部は、前記映像データを再生して映像の表示及び音声の出力を行うとともに、発話毎に、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者と、前記スキル判別パラメータとを表示する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する前記発話のうち後の発話についての各参加者の前記次話者確率とを並べて表示する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、前記時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の前記次話者確率とに加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する。
また、本発明の一態様は、コンピュータに、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出ステップと、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者確率推定ステップと、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価ステップと、会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御ステップと、を実行させるためのコミュニケーションスキル評価プログラムである。
本発明により、会話中の発言が適切なタイミングで行われたかを確認することが可能となる。
本発明の一実施形態によるコミュニケーションスキル評価システムの構成を示す機能ブロック図である。 同実施形態による発話情報記憶部に記憶される発話情報の例を示す図である。 同実施形態による次話者確率記憶部に記憶される情報の例を示す図である。 同実施形態による評価結果記憶部に記憶される評価結果情報の例を示す図である。 同実施形態によるコミュニケーションスキル評価システムの評価処理の動作を示すフロー図である。 同実施形態による再生画面の画面表示イメージを示す図である。 同実施形態によるコミュニケーションスキル評価装置の映像再生処理の動作を示すフロー図である。 同実施形態による評価表示画面の画面表示イメージを示す図である。 同実施形態によるタイミング表示画面の画面表示イメージを示す図である。 息の吸い込み区間の例を示す図である。 注視対象遷移パターンを例示した図である。 時間構造情報を例示した図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
従来からある次話者及び発話開始タイミングの予測技術は、会話の参加者の視線、呼吸、頭部動作などの非言語情報と、話者交替の状況の一般的なルールをモデル化したものである。従って、次話者及び発話開始タイミングの予測結果が、実際の次話者や発話開始タイミングと合致しないということは、一般的なルールを逸脱した状況が発生したことを意味する。よって、予測結果に反して発話を行った人物や、発話を行えなかった人物は、一般的な会話のルールに乗っ取って発話を行えないことから、コミュニケーションスキル(以下、「スキル」とも記載する。)が低いと考えられる。
そこで、本実施形態のコミュニケーションスキル評価システムは、従来技術による予測器を用いて、会話中の各発話が終了したところで、各参加者の次話者確率を予測する。次話者確率は、参加者が次の話者となる確率である。コミュニケーションスキル評価システムは、参加者が、自分の次話者確率が高い時に発話を行ったとき、あるいは、自分の次話者確率が低い時に発話を行わなかったときに、その参加者のコミュニケーションスキルが高いと判定する。具体的には、コミュニケーションスキルを判定するために、コミュニケーションスキル評価システムは、以下の第1パラメータS及び第2パラメータSの2つのスキル判別パラメータを算出する。
第1パラメータS:第1パラメータSは、参加者が発話した際に、コミュニケーションスキルを判別する値である。ある参加者が発話した際に、予測器が出力したその参加者の次話者確率が高ければ、第1パラメータSの値が大きく、逆に予測器が出力した次話者確率が低ければ、第1パラメータSの値が小さくなる。つまり、第1パラメータSの値が大きいほど、高いコミュニケーションスキルを有すると判定される。
第2パラメータS:第2パラメータSは、参加者が発話しなかった際に、コミュニケーションスキルを判別する値である。ある参加者が発話しなかった際に、予測器が出力したその参加者の次話者確率が低ければ、第2パラメータSの値が大きく、逆に予測器が出力した確率が高ければ、第2パラメータSの値が小さくなる。つまり、第2パラメータSの値が大きいほど、高いコミュニケーションスキルを有すると判定される。
本発明の実施形態によるコミュニケーションスキル評価システムは、会話中の参加者の映像を記録しておく。一方、コミュニケーションスキル評価システムは、会話の参加者のコミュニケーションスキルを、適切なタイミングで発話を行えたかを判別可能な定量的な値により表す上記の2つのスキル判別パラメータにより判定する。コミュニケーションスキル評価システムは、会話終了後に、算出したスキル判別パラメータに基づいて、発話が適切なタイミングで行えていたシーン、あるいは、行えていなかったシーンを自動分類し、そのシーンの映像を再生する。
なお、本実施形態で取り扱う会話は、参加者が対面して行う会話でもよく、テレビ電話やビデオチャットなど映像を用いた会話でもよい。また、対面で会話する参加者と映像を用いて会話する参加者とが存在してもよい。
図1は、本発明の一実施形態によるコミュニケーションスキル評価システム1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コミュニケーションスキル評価システム1は、音声入力装置2(音声入力部)、計測装置3(計測部)、撮影装置4(撮影部)、及び、コミュニケーションスキル評価装置5を備えて構成される。
音声入力装置2は、例えばマイクロホンであり、各参加者の音声を入力する。計測装置3は、各参加者の非言語行動を計測する。計測する非言語行動は、視線、頭部の動き、及び、呼吸のうち1以上を含む。音声入力装置2及び計測装置3はそれぞれ、複数台であってもよい。例えば、各参加者に音声入力装置2及び計測装置3が装着され得る。
撮影装置4は、例えば、ビデオカメラであり、会話中の参加者を撮影する。撮影により得られた映像データには、音声や撮影された時刻の情報も含まれる。撮影装置4は、複数台であってもよい。撮影装置4は、テレビ電話やビデオチャットのための映像を撮影するビデオカメラを兼ねてもよい。
コミュニケーションスキル評価装置5は、例えば、コンピュータ装置により実現される。コミュニケーションスキル評価装置5は、受信部51、記憶部52、発話区間検出部53、次話者推定部54、評価部55、音声認識部56、入力部57、再生制御部58、及び、出力部59を備える。
受信部51は、音声入力装置2から会話中の参加者の音声データを受信し、参加者の識別情報と、その参加者の音声データとを対応付けた音声情報を、記憶部52の音声情報記憶部521に書き込む。音声データには、音声が得られた時刻の情報が含まれる。また、受信部51は、計測装置3から会話中の各参加者の非言語行動に関する計測結果を示すデータを受信し、参加者の識別情報と、その参加者の時系列の非言語行動の計測結果のデータとを対応付けた計測情報を、記憶部52の計測情報記憶部522に書き込む。さらに、受信部51は、撮影装置4が撮影した会話中の参加者の映像データを受信し、記憶部52の映像記憶部523に書き込む。
記憶部52は、各種データを記憶する。記憶部52は、音声情報記憶部521、計測情報記憶部522、映像記憶部523、発話情報記憶部524、次話者確率記憶部525、及び、評価結果記憶部526を備える。音声情報記憶部521は、各参加者の音声情報を記憶する。計測情報記憶部522は、各参加者の計測情報を記憶する。映像記憶部523は、会話中の参加者を撮影した映像データを記憶する。発話情報記憶部524は、会話中の各発話の発話区間、発話者、及び、発話内容を対応付けた発話情報を記憶する。次話者確率記憶部525は、各参加者の次話者確率を記憶する。評価結果記憶部526は、各参加者のコミュニケーションスキルの評価結果を記憶する。
発話区間検出部53は、既存の任意の技術により、各参加者の音声データから得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。会話中のn回目の発話をIPUとする(nは1以上N+1以下の整数、N+1は会話中の発話の総数)。発話区間検出部53は、発話IPUの発話区間及び発話者を設定した発話情報を記憶部52の発話情報記憶部524に書き込む。発話区間は、発話開始時刻及び発話終了時刻により示される。
次話者推定部54は、既存の任意の技術により、会話中の各参加者の次話者確率を算出する予測器である。会話の参加者の数をL人(Lは2以上の整数)、i番目の参加者(iは1以上L以下の整数)を参加者Uとする。次話者推定部54は、発話IPUの発話末に、会話中の各参加者の非言語行動の計測値に基づいて、各参加者Uが時刻tに次の発話IPUn+1の発話者になる確率である次話者確率P n+1(t)を算出する。次話者推定部54は、各参加者の識別情報と、その参加者の次話者確率を対応付けて記憶部52の次話者確率記憶部525に書き込む。
評価部55は、第1パラメータ算出部551、第2パラメータ算出部552、及び、評価結果出力部553を備える。
第1パラメータ算出部551は、各参加者の第1パラメータSを算出する。参加者Uが発話者であるm番目(mはN+1以下の整数)の発話IPUについての第1パラメータSを第1パラメータS (m)とする。第1パラメータS (m)は、以下の式(1)のように算出される。式(1)において、t は、参加者Uが発話者である発話IPUの発話開始時刻である。第1パラメータS (m)は、参加者Uが発話IPUを開始した時刻t の次話者確率P (t)がどれくらい高かったかを示す。1/Lは、次話者確率の期待値である。第1パラメータS (m)の値が大きいほど、参加者Uのコミュニケーションスキルが高いことを表す。
Figure 2017117161
第2パラメータ算出部552は、各参加者の第2パラメータSを算出する。参加者Uが発話者ではないo番目(oはN+1以下の整数)の発話IPUについての第2パラメータSを第2パラメータS (o)と記載する。第2パラメータS (o)は、以下の式(2)のように算出される。式(2)において、t は、参加者U以外が発話者である発話IPUの発話開始時刻である。第2パラメータS (o)は、参加者U以外の参加者が発話IPUを開始した時刻t の参加者Uの次話者確率P (t)がどれくらい低かったかを示す。第2パラメータS (o)の値が大きいほど、参加者Uのコミュニケーションスキルが高いことを表す。
Figure 2017117161
評価結果出力部553は、各参加者について算出された第1パラメータ及び第2パラメータを、コミュニケーションスキルの評価結果として記憶部52の評価結果記憶部526に書き込む。
音声認識部56は、発話情報記憶部524から発話区間検出部53が書き込んだ発話情報を読み出し、各発話の発話区間(発話開始時刻及び発話終了時刻)及び発話者を読み出す。音声認識部56は、各発話の発話者の発話区間における音声データを音声情報記憶部521から読み出し、音声認識する。音声認識部56は、各発話の音声認識結果の情報を、発話情報記憶部524に記憶される発話情報に書き込む。
入力部57は、ユーザの操作を入力する。入力部57は、例えば、キーボード、マウス、ボタンなどの入力装置である。
再生制御部58は、記憶部52の映像記憶部523に記憶されている映像データを再生し、出力部59に映像の表示と音声の出力を行う。再生制御部58は、映像データの出力に合わせて、映像データの再生箇所における各参加者のコミュニケーションスキルの評価結果や、次話者確率などを出力部59に表示する。また、再生制御部58は、コミュニケーションスキルの評価結果を出力部59に表示し、その表示の中から入力部57により選択された評価結果が得られた発話のシーンの映像データを再生し、出力部59に映像及び音声を出力する。
出力部59は、各種データを出力する。出力部59は、例えば、画像を表示するディスプレイ及び音声を出力するスピーカーである。
なお、コミュニケーションスキル評価装置5は、1台のコンピュータ装置により実現してもよく、ネットワークにより接続される複数のコンピュータ装置により実現してもよい。コミュニケーションスキル評価装置5を複数のコンピュータ装置により実現する場合、各機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。
図2は、発話情報記憶部524に記憶される発話情報の例を示す図である。同図に示すように、発話情報は、各発話IPU、IPU、…の発話区間(発話開始時刻及び発話終了時刻)と、発話者と、発話内容を示すテキストデータとを対応付けた情報である。
図3は、次話者確率記憶部525に記憶される情報の例を示す図である。同図に示すように、次話者確率記憶部525は、次話者推定部54が推定した参加者U〜Uそれぞれの各発話の次話者確率を記憶する。
図4は、評価結果記憶部526に記憶される評価結果情報の例を示す図である。同図に示すように、評価結果情報は、評価部55により算出された各話者U〜Uそれの第1パラメータ及び第2パラメータを示す。
図5は、コミュニケーションスキル評価システム1の評価処理の動作を示すフロー図である。
コミュニケーションスキル評価システム1は、会話中の各参加者の音声のデータ及び非言語行動のデータと、会話中の映像データを収集する(ステップS105)。すなわち、音声入力装置2は、会話中の各参加者の音声のデータを送信し、計測装置3は、会話中に計測した各参加者の非言語行動のデータを送信する。受信部51は、音声入力装置2から受信した参加者の音声のデータに基づいて音声情報を音声情報記憶部521に書き込み、計測装置3から受信した各参加者の非言語行動の計測結果を示すデータに基づいて計測情報を計測情報記憶部522に書き込む。また、撮影装置4は、会話中の参加者を撮影し、撮影により得られた映像データを送信する。受信部51は、撮影装置4から受信した映像データを映像記憶部523に書き込む。
会話終了後、発話区間検出部53は、音声情報記憶部521に記憶されている各参加者の音声のデータに基づいて、参加者が発話を行った区間を検出する(ステップS110)。例えば、発話区間検出部53は、1つの発話の区間を、2つの所定時間連続した無音区間で囲まれた、同一の参加者の発話成分が存在する少なくとも1つの区間を含む時間区間とする。すなわち、発話区間検出部53は、いずれの話者も発話していない無音区間が所定時間経過した場合に、その無音区間の開始を発話末と判断する。発話区間検出部53は、全ての参加者の発話の区間を時刻順に並べて発話IPU、IPU、…、IPUN+1とする。なお、発話区間の検出には、例えば、特開平5−323996号公報に記載の技術などを用いもよい。発話区間検出部53は、発話IPU、IPU、…、IPUN+1それぞれの発話区間の情報と、発話IPU、IPU、…、IPUN+1それぞれの発話者が参加者U〜Uのいずれの人物であるかの情報とを対応付けた発話情報を発話情報記憶部524に書き込む。
次話者推定部54は、発話情報記憶部524から発話情報を読み出す。次話者推定部54は、各発話IPU(nは1以上N以下の整数)の終了時点において、又は、その終了時点以降に、計測情報記憶部522に記憶される計測情報に基づいて、各参加者U(iは1以上L以下の整数)の次話者確率P n+1(t)を算出する(ステップS115)。次話者確率P n+1(t)は、発話IPU終了後の時刻tにおいて参加者Uが次話者となる確率である。次話者推定部54は、各参加者について算出した次話者確率を、次話者確率記憶部525に書き込む。
評価部55は、参加者U〜Uのうち、評価対象の参加者Uを選択する。評価対象の参加者Uは、全ての参加者であるが、評価対象としてユーザが入力部57により入力した参加者でもよい(ステップS120)。
評価部55の第1パラメータ算出部551は、発話情報記憶部524に記憶される発話情報に基づき、発話IPU、…、IPUN+1のうち、評価対象の参加者Uが発話者である発話IPUを選択する(ステップS125)。第1パラメータ算出部551は、選択した発話IPUそれぞれについて、上述した式(1)により、参加者Uの第1パラメータS (m)を算出する(ステップS130)。なお、第1パラメータ算出部551は、発話IPUの発話開始時刻t を発話情報から取得し、次話者確率P (t )を次話者確率記憶部525から読み出す。
続いて、第2パラメータ算出部552は、発話情報記憶部524に記憶される発話情報に基づき、発話IPU、…、IPUN+1のうち、評価対象の参加者Uが発話者ではない発話IPUを選択する(ステップS135)。第2パラメータ算出部552は、選択した発話IPUそれぞれについて、上述した式(2)により、参加者Uの第2パラメータS (o)を算出する(ステップS140)。なお、第2パラメータ算出部552は、発話IPUの発話開始時刻t を発話情報から取得し、次話者確率P (t )を次話者確率記憶部525から読み出す。
評価部55は、評価対象の全ての参加者を選択したか否かを判断する(ステップS145)。未選択の評価対象の参加者がいると判断した場合(ステップS145:NO)、ステップS120からの処理を繰り返す。そして、評価部55が、評価対象の全ての参加者を選択したと判断した場合(ステップS145:YES)、評価結果出力部553は、ステップS150の処理を行う。すなわち、評価結果出力部553は、評価対象の各参加者について算出した第1パラメータと第2パラメータの値を評価結果として評価結果記憶部526に書き込む(ステップS150)。
音声認識部56は、各発話IPU、IPU、…、IPUN+1の音声データを音声認識し、発話情報記憶部524に書き込む(ステップS155)。具体的には、音声情報記憶部521に記憶される発話区間情報から、各発話IPU、IPU、…、IPUN+1の発話区間及び発話者を読み出す。音声認識部56は、各発話について、発話者の発話区間における音声データを音声情報記憶部521から読み出して音声認識し、発話内容のテキストデータを得る。なお、音声認識の対象は、映像記憶部523から読み出した映像データに含まれる音声データであってもよい。音声認識部56は、発話情報記憶部524に記憶される発話情報に、各発話区間について得られた発話内容のテキストデータである発話内容データを書き込む。なお、コミュニケーションスキル評価装置5は、入力部57により入力された各発話の発話内容データを発話情報記憶部524に書き込んでもよい。
図6は、コミュニケーションスキル評価装置5が表示する再生画面70の画面表示イメージを示す図である。コミュニケーションスキル評価装置5の再生制御部58は、同図に示す再生画面70を出力部59に表示する。再生画面70は、映像表示領域71、タイムライン72、操作ボタン73、及び、評価結果表示領域74を有する。
映像表示領域71は、撮影装置4により撮影された映像データの再生映像を表示する。
タイムライン72は、映像表示領域71に現在表示されている映像の再生時刻が、映像の開始時刻から終了時刻までの間のどの時点であるかを表示する。ユーザが、タイムライン72をマウス(入力部57)によりクリックすると、再生制御部58は、そのクリックされた箇所に対応した再生時刻の映像を映像表示領域71に表示する。
操作ボタン73は、ユーザが再生、一時停止、停止、フレーム戻りなどの再生制御を指定するためのボタンである。ユーザが、操作ボタン73をクリックすると、再生制御部58は、クリックされたボタンに応じて、映像データの再生開始、再生の一時停止、再生の停止、再生時刻を遡って再生、などを行う。
評価結果表示領域74は、評価確認対象として選択された参加者Uの第1パラメータS 、第2パラメータS の一覧を表示する。具体的には、評価結果表示領域74の左側には、選択された参加者Uが発話者である各発話の発話開始時刻、発話内容、前の発話者、次の発話者、及び、第1パラメータS を対応付けた情報が列ごとに表示される。さらに、評価結果表示領域74の右側には、選択された参加者U以外が発話者である各発話の発話開始時刻、発話内容、前の発話者、次の発話者、及び、第2パラメータS を対応付けた情報が列ごとに表示される。なお、再生制御部58は、ユーザが選択した項目の内容により、列をソートして評価結果表示領域74に表示する。
また、再生制御部58は、ユーザが評価結果表示領域74に表示されている中から選択した列に対応した発話の前後を含む任意の再生区間の映像データを映像表示領域71に表示する。例えば、再生制御部58は、選択された列の発話又はその発話よりもa個前の発話(aは1以上の整数)の発話開始時刻−b秒(bは0以上)を再生区間の開始時刻とする。また、例えば、再生制御部58は、選択された列の発話よりもc個後の発話(cは1以上の整数)の発話開始時刻+d秒(dは0以上)を再生区間の終了時刻とする。また、再生区間の終了時刻を設定せず、再生制御部58は、停止指示が入力されるか映像データの最後まで再生を継続してもよい。
例えば、ユーザがソート対象として第1パラメータを入力した場合、再生制御部58は、評価結果表示領域74に表示されている列を、第1パラメータが大きい順、あるいは、小さい順にソートし、列を並べ替えて表示する。これにより、発話開始のタイミングが適切であった順、あるいは、適切ではなかった順に、発話が表示される。ユーザが、ソートされた結果から列を選択することにより、再生制御部58は、その列に対応した会話のシーンの映像データを再生する。これにより、ユーザは、適切なタイミングで発話したシーンや、適切ではないタイミングで発話したシーンを確認することができる。
同様に、ユーザがソート対象として第2パラメータを入力した場合、再生制御部58は、評価結果表示領域74に表示されている列を、第2パラメータが大きい順、あるいは、小さい順にソートし、列を並べ替えて表示する。これにより、発話しなかったことが適切であった順、あるいは、適切ではなかった順に、発話が表示される。ユーザが、ソートされた結果から列を選択することにより、再生制御部58は、その列に対応した会話のシーンの映像データを再生する。これにより、ユーザは、発話しなかったことが適切であったシーンや、適切ではなかったシーンを確認することができる。
これにより、参加者は、自身のコミュニケーションスキルが高かった発話のシーンや、低かった発話のシーンを映像や音声で確認し、自身の会話中の行動を見直すことができる。また、コミュニケーションスキルが高かった他の参加者の発話のシーンを確認し、参考にすることもできる。
図7は、コミュニケーションスキル評価装置5の映像再生処理の動作を示すフロー図である。
入力部57により、映像再生指示と、再生開始時刻と、評価確認対象の参加者Uとが入力される(ステップS205)。なお、再生開始時刻の入力は省略可能である。再生制御部58は、映像データを映像記憶部523から読み出す(ステップS210)。さらに、再生制御部58は、発話情報記憶部524に記憶されている各発話の発話情報を読み出し、参加者Uが発話者である発話IPUの発話情報と、参加者U以外が発話者である発話IPUの発話情報とに分類する。再生制御部58は、評価結果記憶部526から各発話IPUの第1パラメータS (m)と、各発話IPUの第2パラメータS (o)を読み出す。再生制御部58は、各発話IPUごとに、発話IPUの発話情報から読み出した発話開始時刻及び発話内容、直前の発話の発話情報から読み出した発話者、次の発話の発話情報から読み出した発話者、発話IPUのときの第1パラメータS (m)の値を対応付けて列毎に時系列で表示する第1の評価表示データを生成する。さらに、再生制御部58は、各発話IPUごとに、発話IPUの発話情報から読み出した発話開始時刻及び発話内容、直前の発話の発話情報から読み出した発話者、次の発話の発話情報から読み出した発話者、発話IPUの第2パラメータS (o)の値を対応付けて列毎に時系列で表示する第2の評価表示データを生成する(ステップS215)。
再生制御部58は、再生開始時刻からの映像データを映像表示領域71に表示し、第1の評価表示データ及び第2の評価表示データを評価結果表示領域74に表示する再生画面70を生成する(ステップS220)。再生開始時刻が入力されなかった場合、再生制御部58は、映像データの先頭を再生開始時刻とする。再生制御部58は、出力部59に、生成した再生画面70を表示し、再生箇所の映像データの音声を出力する(ステップS225)。再生時刻が進むにつれて、再生制御部58は、タイムライン72上の再生箇所を示す部分を更新して表示する。また、再生制御部58は、再生時刻を発話区間に含む発話に対応した第1の評価表示データ又は第2の評価表示データの列を、表示色を変える、背景色を変える、太字により表示する、枠を表示するなど、他の列と態様を変えて表示する。
再生制御部58は、入力部57により再生時刻の変更が入力されたか否かを判断する(ステップS230)。再生制御部58は、再生時刻の変更が入力されないと判断した場合(ステップS230:NO)、後述するステップS240の処理を行う。再生制御部58は、入力部57により再生時刻の変更が入力されたと判断した場合(ステップS230:YES)、変更された再生時刻から映像データを再生して映像表示領域71に映像を表示し、再生箇所の映像データの音声を出力する(ステップS235)。再生時刻の変更の入力は、タイムライン72をクリックするほか、第1の評価表示データ又は第2の評価表示データの列をクリックすることにより指定することができる。第1の評価表示データ又は第2の評価表示データの列がクリックされた場合、再生制御部58は、クリックされた列の発話の前後のシーンを含むように再生区間を決定し、再生区間の先頭を変更後の再生時刻とする。再生制御部58は、タイムライン72上の再生箇所を示す部分を、現在の再生時刻を表すように更新して表示する。また、再生制御部58は、現在の再生時刻を発話区間に含む発話に対応した第1の評価表示データ又は第2の評価表示データの列を、他の列と態様を変えて表示する。
再生制御部58は、ステップS230においてNOと判断した後、あるいは、ステップS235の処理の後、入力部57によりソート条件が入力されたか否かを判断する(ステップS240)。再生制御部58は、ソート条件が入力されないと判断した場合(ステップS240:NO)、後述するステップS250の処理を行う。再生制御部58は、ソート条件が入力されたと判断した場合(ステップS240:YES)、第1の評価表示データ又は第2の評価表示データの列を入力されたソート条件に応じて並べ替え、評価結果表示領域74に表示する(ステップS245)。
再生制御部58は、ステップS240においてNOと判断した後、あるいは、ステップS245の処理の後、再生終了か否かを判断する(ステップS250)。再生制御部58は、再生終了ではないと判断した場合(ステップS250:NO)、ステップS230からの処理を繰り返す。再生制御部58は、入力部57により再生終了が入力された、映像データを全て再生した、再生区間の再生が終了した場合などに、再生終了と判断し(ステップS250:YES)、本フローを終了する。
なお、コミュニケーションスキル評価装置5は、ステップS230〜ステップS235の処理と、ステップS240〜ステップS245の処理とを入れ替えて行ってもよく、並行に独立して行ってもよい。
また、上記においては、第1又は第2の評価表示データの列がクリックされたときに、再生制御部58が、クリックされた列に対応した発話の前後のシーンを含むように再生区間を決定して映像データを再生している。しかし、再生制御部58は、予め発話情報に登録された再生区間の情報、または、再生区間の映像データを読み出してもよい。この場合、発話区間検出部53は、図5のステップS110において発話情報記憶部524に書き込む発話情報を生成する際に、各発話の発話区間及び発話者の情報に加え、再生区間の情報、または、再生区間の映像データをさらに発話情報に設定する。
図8は、コミュニケーションスキル評価装置5が表示する評価表示画面80の画面表示イメージを示す図である。コミュニケーションスキル評価装置5の再生制御部58は、入力部57により評価表示画面の表示指示の入力を受けた場合、同図に示す評価表示画面80を出力部59に表示する。評価表示画面80には、ある発話IPU(発話1)の発話開始時刻(開始時刻)、発話終了時刻(終了時刻)、発話者、及び、発話内容と、その次の発話IPUn+1(発話2)の発話開始時刻(開始時刻)、発話終了時刻(終了時刻)、発話者、及び、発話内容と、発話IPUn+1における各参加者U〜Uのコミュニケーションスキルの評価結果が列単位で表示される。評価結果として、参加者が発話IPUn+1の発話者である場合は第1パラメータが、参加者が発話IPUn+1の発話者ではない場合は第2パラメータが表示される。
なお、ユーザが、入力部57により、図6の評価結果表示領域74に表示されている第1の評価結果データ又は第2の評価結果データの列を選択することによって、評価表示画面80を表示において発話IPUとすべき発話を選択することもできる。
また、再生制御部58は、図6に示す評価結果表示領域74に、評価表示画面80の表示内容を表示してもよい。この場合、再生制御部58は、映像データの現在の再生時刻を発話区間に含む発話IPUの列を、他の列と態様を変えて表示する。そして、ユーザが入力部57により列を選択することによって、再生制御部58は、選択された列の発話に応じた再生区間の映像データを再生する。また、再生制御部58は、ユーザが選択した項目の内容により、列をソートして表示する。例えば、入力部57によって参加者Uが選択された場合、再生制御部58は、参加者Uの評価結果が高い順、又は、低い順に列をソートして表示する。
図9は、コミュニケーションスキル評価装置5が表示するタイミング表示画面90の画面表示イメージを示す図である。
タイミング表示画面90には、時間を横軸として、連続した2つの発話IPU及び発話IPUn+1の発話区間及び発話内容が表示される。発話区間及び発話内容は、発話した参加者に対応付けて表示される。さらに、タイミング表示画面90には、各参加者U(i=1〜L)の次話者確率P n+1(t)が表示される。再生制御部58は、タイミング表示画面90の表示と同時に映像データを再生して出力部59に出力している場合、タイミング表示画面90に、映像データの現在の再生箇所の時刻を表すライン91を表示する。また、再生制御部58は、次話者確率が最も高い時刻を表すライン92を表示する。ライン92は、次話者が発話を開始する理想的なタイミングを表す。
タイミング表示画面90を表示するために、ユーザは、連続した2つの発話IPU又は発話IPUn+1のうち一方を特定する情報(例えば、発話の番号、発話の時刻など)を入力部57に入力する。再生制御部58は、発話IPUを特定する情報が入力された場合、その情報により特定される発話IPUの発話情報と、発話IPUの1つ後の発話IPUn+1の発話情報を発話情報記憶部524から読み出す。再生制御部58は、発話IPUn+1を特定する情報が入力された場合、その情報により特定される発話IPUn+1の発話情報と、発話IPUn+1の1つ前の発話IPUの発話情報を発話情報記憶部524から読み出す。再生制御部58は、次話者確率記憶部525から、各参加者の次話者確率Pn+1(t)を読み出す。再生制御部58は、発話IPUの発話情報及び発話IPUn+1の発話情報から読み出した発話開始時刻、発話終了時刻、発話者、発話内容と、各参加者の次話者確率Pn+1(t)とを用いてタイミング表示画面90を生成し、出力部59に表示する。再生制御部58は、再生中の映像データの再生時刻を表すように、ライン91を移動させてタイミング表示画面90に表示する。これにより、ユーザは、会話中の映像や音声と同時に、次話者確率や、最適な発話タイミングを観察することが可能となる。
なお、再生制御部58は、映像データの現在の再生時刻が発話区間に含まれる発話を、連続した2つの発話IPU及び発話IPUn+1のうち発話IPUとして用いて上記処理を行ってもよい。これにより、再生制御部58は、ユーザによる指定がなくとも、映像データの再生に伴って、タイミング表示画面90を表示させることができる。
なお、ユーザが、入力部57により、図6の再生画面70の評価結果表示領域74に表示されている第1の評価結果データ又は第2の評価結果データの列を選択することによって、タイミング表示画面90において発話IPUとすべき発話を選択することもできる。これにより、再生画面70に、選択された第1の評価結果データ又は第2の評価結果データの列に対応した再生区間の映像データが再生されるのに併せて、タイミング表示画面90が表示される。
また、再生制御部58は、映像データの再生中に、発話IPUn+1の音声の再生開始時刻を、ライン92が示す次話者確率Pn+1(t)が最も高い再生時刻にずらして出力部59に出力してもよい。これにより、ユーザは、最も良い発話のタイミングを確認することができる。
上述したように本実施形態のコミュニケーションスキル評価システムは、撮影装置により、会話中の参加者を撮影する。同時に、コミュニケーションスキル評価システムは、音声入力装置により、会話中の参加者の音声データを入力し、計測装置により複数の参加者それぞれの会話中の非言語行動を計測する。コミュニケーションスキル評価システムが備えるコミュニケーションスキル評価装置は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。続いて、コミュニケーションスキル評価装置は、計測装置による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。コミュニケーションスキル評価装置は、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を、発話が開始されたときの次話者確率に基づいて参加者別に算出する。コミュニケーションスキル評価装置は、映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、参加者の発話毎のスキル判別パラメータを表示する。
このとき、コミュニケーションスキル評価装置は、映像データの再生箇所の発話について算出されたスキル判別パラメータを、他の発話について算出されたスキル判別パラメータと異なる態様で表示する。また、コミュニケーションスキル評価装置は、各発話のスキル判別パラメータに加え、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者を表示する。また、コミュニケーションスキル評価装置は、表示中の発話毎のスキル判別パラメータに基づいて、ユーザが選択した発話に対応した映像データの部分を再生する。
さらに、コミュニケーションスキル評価装置は、図9に示すように、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する発話のうち後の発話についての各参加者の次話者確率とを並べて表示する。このとき、コミュニケーションスキル評価装置は、時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の次話者確率に加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する。
上述した実施形態によれば、会話中の発言が適切なタイミングで行われたかどうかを確認することができる。また、ユーザが、適切なタイミングの発話、あるいは、適切ではないタイミングの発話を指定することにより、その発話のシーンを選んで確認することができる。また、ユーザは、発話に最も良いタイミングを確認することもできる。
なお、コミュニケーションスキル評価システム1における次話者推定技術には、例えば、以下の参考文献1、2の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献1、2では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。
(参考文献1)特開2014−238525公報
(参考文献2)石井亮,外4名,“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”,人工知能学会研究会資料,SIG-SLUD-B301-06, pp.27-34, 2013.
以下に、本実施形態に適用可能な参考文献1,2以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A、A≧2)には呼吸動作計測装置および音声情報取得装置が装着される。呼吸動作計測装置は、参加者Pの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、推定装置に出力する。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化する。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置は、正規化されたRSP値を呼吸情報Ba,tとして推定装置に送る。
さらに、音声情報取得装置は、参加者Pの音声を取得し、各離散時刻tでの参加者Pの音声を表す音声情報Va,tを得て、推定装置に出力する。推定装置は、入力された音声情報Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。本次話者推定技術では、1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。これにより、推定装置は、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得る。
推定装置は、各参加者Pの呼吸情報Ba,tを用いて、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。
図10は、息の吸い込み区間の例を示す図である。図10を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図10に例示するように、例えば、
Figure 2017117161
が成り立つとき、離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに
Figure 2017117161
が成り立つとき、離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。
推定装置は、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
推定装置は、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
推定装置は、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、推定装置が発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。
推定装置は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。
推定装置は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
推定装置による次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
次発話者推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。推定装置は、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。
推定装置は、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが次話者になる確率を、P1とする。
発話タイミング推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。推定装置は、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。
推定装置は、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。推定装置は、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが時刻tに発話を開始する確率(時刻tが参加者Pの発話タイミングである確率)を、P2(t)とする。
上述した実施形態のコミュニケーションスキル評価装置5の次話者推定部54が推定する参加者Uの次話者確率P n+1(t)は、参加者Uが本次話者推定技術における参加者Pである場合、確率P1×確率P2(t)により算出される。
上述の推定装置は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者P(ただし、a=1,…,A)には注視対象検出装置がさらに装着される。注視対象検出装置は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を推定装置に送る。推定装置は、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
推定装置は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図11に注視対象ラベルの具体例を示す。図11はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図11の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図11の例では、V=6である。
推定装置は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図11の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
推定装置は、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図11の例を考えると、参加者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。
注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
推定装置は、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図11の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図12を用いて具体的に示す。図12は、話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示したものである。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図12の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
推定装置は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。
以上、本発明の実施形態を説明したが、上述のコミュニケーションスキル評価装置5の機能をコンピュータで実現するようにしてもよい。その場合、コミュニケーションスキル評価装置5の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
複数の参加者が会話を行う場合に適用可能である。
1 コミュニケーションスキル評価システム
2 音声入力装置
3 計測装置
5 コミュニケーションスキル評価装置
51 受信部
52 記憶部
53 発話区間検出部
54 次話者推定部
55 評価部
56 音声認識部
57 入力部
58 再生制御部
59 出力部
521 音声情報記憶部
522 計測情報記憶部
523 映像記憶部
524 発話情報記憶部
525 次話者確率記憶部
526 評価結果記憶部
551 第1パラメータ算出部
552 第2パラメータ算出部
553 評価結果出力部

Claims (8)

  1. 会話中の参加者を撮影する撮影部と、
    前記参加者の会話中の音声データを入力する音声入力部と、
    前記参加者の会話中の非言語行動を計測する計測部と、
    前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
    前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
    発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、
    前記撮影部による撮影により得られた映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、
    を備えることを特徴とするコミュニケーションスキル評価システム。
  2. 会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
    前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
    発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、
    会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、
    を備えることを特徴とするコミュニケーションスキル評価装置。
  3. 前記再生制御部は、前記映像データの再生箇所の発話について算出された前記スキル判別パラメータを、他の発話について算出された前記スキル判別パラメータと異なる態様で表示する、
    ことを特徴とする請求項2に記載のコミュニケーションスキル評価装置。
  4. 前記再生制御部は、表示中の発話毎の前記スキル判別パラメータに基づいて選択された発話に対応した前記映像データの部分を再生する、
    ことを特徴とする請求項2又は請求項3に記載のコミュニケーションスキル評価装置。
  5. 各発話の発話内容を記憶する記憶部をさらに備え、
    前記再生制御部は、前記映像データを再生して映像の表示及び音声の出力を行うとともに、発話毎に、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者と、前記スキル判別パラメータとを表示する、
    ことを特徴とする請求項2から請求項4のいずれか一項に記載のコミュニケーションスキル評価装置。
  6. 前記再生制御部は、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する前記発話のうち後の発話についての各参加者の前記次話者確率とを並べて表示する、
    ことを特徴とする請求項2から請求項5のいずれか一項に記載のコミュニケーションスキル評価装置。
  7. 前記再生制御部は、前記時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の前記次話者確率とに加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する、
    ことを特徴とする請求項6に記載のコミュニケーションスキル評価装置。
  8. コンピュータに、
    会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出ステップと、
    前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者確率推定ステップと、
    発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価ステップと、
    会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御ステップと、
    を実行させるためのコミュニケーションスキル評価プログラム。
JP2015251203A 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム Active JP6383349B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015251203A JP6383349B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015251203A JP6383349B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Publications (2)

Publication Number Publication Date
JP2017117161A true JP2017117161A (ja) 2017-06-29
JP6383349B2 JP6383349B2 (ja) 2018-08-29

Family

ID=59234425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015251203A Active JP6383349B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Country Status (1)

Country Link
JP (1) JP6383349B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
WO2022024778A1 (ja) * 2020-07-27 2022-02-03 株式会社 東芝 コミュニケーションシステム及び評価方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
JP2011118632A (ja) * 2009-12-02 2011-06-16 Nippon Telegr & Teleph Corp <Ntt> 発話の予備動作検出及び伝達方法及び装置及びプログラム
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
JPWO2019093392A1 (ja) * 2017-11-10 2020-10-22 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
US12027062B2 (en) 2017-11-10 2024-07-02 Nippon Telegraph And Telephone Corporation Communication skill evaluation system, communication skill evaluation device and communication skill evaluation method
WO2022024778A1 (ja) * 2020-07-27 2022-02-03 株式会社 東芝 コミュニケーションシステム及び評価方法
JP7536279B2 (ja) 2020-07-27 2024-08-20 ボイット株式会社 コミュニケーションシステム及び評価方法

Also Published As

Publication number Publication date
JP6383349B2 (ja) 2018-08-29

Similar Documents

Publication Publication Date Title
US10987596B2 (en) Spectator audio analysis in online gaming environments
CN111415677B (zh) 用于生成视频的方法、装置、设备和介质
US8396708B2 (en) Facial expression representation apparatus
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
Ishii et al. Analysis of respiration for prediction of" who will be next speaker and when?" in multi-party meetings
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
Ishii et al. Using respiration to predict who will speak next and when in multiparty meetings
JP2011186521A (ja) 感情推定装置および感情推定方法
JP6775387B2 (ja) 推定方法及び推定システム
US20170213076A1 (en) Facial capture analysis and training system
Włodarczak et al. Respiratory turn-taking cues
JP2006338529A (ja) 会話構造推定方法
JP2016012216A (ja) 会議分析装置、方法及びプログラム
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
JP6363986B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP4775961B2 (ja) 映像を用いた発音の推定方法
JP2016042345A (ja) 推定装置、その方法およびプログラム
JP6762973B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023084715A1 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180803

R150 Certificate of patent or registration of utility model

Ref document number: 6383349

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150