JP6383349B2

JP6383349B2 - コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Info

Publication number: JP6383349B2
Application number: JP2015251203A
Authority: JP
Inventors: 石井　亮; 亮石井; 大塚　和弘; 和弘大塚; 史朗熊野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2018-08-29
Anticipated expiration: 2035-12-24
Also published as: JP2017117161A

Description

本発明は、コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムに関する。

会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、必ずしも誰もが適切なタイミングで発話を行えるわけではない。
一方、会話中のユーザの状態を自動的にモニタリングする技術がある（例えば、特許文献１参照）。この技術では、会話の参加者の頷き、笑い、合いの手などを検出し、時系列にモニタリングする。

特開２０１４−１２０７９３号公報

会話の流れの中で発話に適切なタイミングであるか否かを判断できるようなコミュニケーションスキルを習得することは容易ではない。そこで、会話の参加者が適切なタイミングで発話できていたかを後から確認できれば、コミュニケーションスキルの習得に有用であると考えられる。しかし、特許文献１の技術では、会話中に参加者が適切なタイミングで発話できていたかどうかを確認するためのものではない。

上記事情に鑑み、本発明は、会話中の発言が適切なタイミングで行われたかを確認することができるコミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムを提供することを目的としている。

本発明の一態様は、会話中の参加者を撮影する撮影部と、前記参加者の会話中の音声データを入力する音声入力部と、前記参加者の会話中の非言語行動を計測する計測部と、前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、前記撮影部による撮影により得られた映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、を備えるコミュニケーションスキル評価システムである。

また、本発明の一態様は、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、を備えるコミュニケーションスキル評価装置である。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、前記映像データの再生箇所の発話について算出された前記スキル判別パラメータを、他の発話について算出された前記スキル判別パラメータと異なる態様で表示する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、表示中の発話毎の前記スキル判別パラメータに基づいて選択された発話に対応した前記映像データの部分を再生する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、各発話の発話内容を記憶する記憶部をさらに備え、前記再生制御部は、前記映像データを再生して映像の表示及び音声の出力を行うとともに、発話毎に、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者と、前記スキル判別パラメータとを表示する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する前記発話のうち後の発話についての各参加者の前記次話者確率とを並べて表示する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記再生制御部は、前記時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の前記次話者確率とに加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する。

また、本発明の一態様は、コンピュータに、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出ステップと、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者確率推定ステップと、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価ステップと、会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御ステップと、を実行させるためのコミュニケーションスキル評価プログラムである。

本発明により、会話中の発言が適切なタイミングで行われたかを確認することが可能となる。

本発明の一実施形態によるコミュニケーションスキル評価システムの構成を示す機能ブロック図である。同実施形態による発話情報記憶部に記憶される発話情報の例を示す図である。同実施形態による次話者確率記憶部に記憶される情報の例を示す図である。同実施形態による評価結果記憶部に記憶される評価結果情報の例を示す図である。同実施形態によるコミュニケーションスキル評価システムの評価処理の動作を示すフロー図である。同実施形態による再生画面の画面表示イメージを示す図である。同実施形態によるコミュニケーションスキル評価装置の映像再生処理の動作を示すフロー図である。同実施形態による評価表示画面の画面表示イメージを示す図である。同実施形態によるタイミング表示画面の画面表示イメージを示す図である。息の吸い込み区間の例を示す図である。注視対象遷移パターンを例示した図である。時間構造情報を例示した図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
従来からある次話者及び発話開始タイミングの予測技術は、会話の参加者の視線、呼吸、頭部動作などの非言語情報と、話者交替の状況の一般的なルールをモデル化したものである。従って、次話者及び発話開始タイミングの予測結果が、実際の次話者や発話開始タイミングと合致しないということは、一般的なルールを逸脱した状況が発生したことを意味する。よって、予測結果に反して発話を行った人物や、発話を行えなかった人物は、一般的な会話のルールに乗っ取って発話を行えないことから、コミュニケーションスキル（以下、「スキル」とも記載する。）が低いと考えられる。

そこで、本実施形態のコミュニケーションスキル評価システムは、従来技術による予測器を用いて、会話中の各発話が終了したところで、各参加者の次話者確率を予測する。次話者確率は、参加者が次の話者となる確率である。コミュニケーションスキル評価システムは、参加者が、自分の次話者確率が高い時に発話を行ったとき、あるいは、自分の次話者確率が低い時に発話を行わなかったときに、その参加者のコミュニケーションスキルが高いと判定する。具体的には、コミュニケーションスキルを判定するために、コミュニケーションスキル評価システムは、以下の第１パラメータＳ^１及び第２パラメータＳ^２の２つのスキル判別パラメータを算出する。

第１パラメータＳ^１：第１パラメータＳ^１は、参加者が発話した際に、コミュニケーションスキルを判別する値である。ある参加者が発話した際に、予測器が出力したその参加者の次話者確率が高ければ、第１パラメータＳ^１の値が大きく、逆に予測器が出力した次話者確率が低ければ、第１パラメータＳ^１の値が小さくなる。つまり、第１パラメータＳ^１の値が大きいほど、高いコミュニケーションスキルを有すると判定される。

第２パラメータＳ^２：第２パラメータＳ^２は、参加者が発話しなかった際に、コミュニケーションスキルを判別する値である。ある参加者が発話しなかった際に、予測器が出力したその参加者の次話者確率が低ければ、第２パラメータＳ^２の値が大きく、逆に予測器が出力した確率が高ければ、第２パラメータＳ^２の値が小さくなる。つまり、第２パラメータＳ^２の値が大きいほど、高いコミュニケーションスキルを有すると判定される。

本発明の実施形態によるコミュニケーションスキル評価システムは、会話中の参加者の映像を記録しておく。一方、コミュニケーションスキル評価システムは、会話の参加者のコミュニケーションスキルを、適切なタイミングで発話を行えたかを判別可能な定量的な値により表す上記の２つのスキル判別パラメータにより判定する。コミュニケーションスキル評価システムは、会話終了後に、算出したスキル判別パラメータに基づいて、発話が適切なタイミングで行えていたシーン、あるいは、行えていなかったシーンを自動分類し、そのシーンの映像を再生する。

なお、本実施形態で取り扱う会話は、参加者が対面して行う会話でもよく、テレビ電話やビデオチャットなど映像を用いた会話でもよい。また、対面で会話する参加者と映像を用いて会話する参加者とが存在してもよい。

図１は、本発明の一実施形態によるコミュニケーションスキル評価システム１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コミュニケーションスキル評価システム１は、音声入力装置２（音声入力部）、計測装置３（計測部）、撮影装置４（撮影部）、及び、コミュニケーションスキル評価装置５を備えて構成される。

音声入力装置２は、例えばマイクロホンであり、各参加者の音声を入力する。計測装置３は、各参加者の非言語行動を計測する。計測する非言語行動は、視線、頭部の動き、及び、呼吸のうち１以上を含む。音声入力装置２及び計測装置３はそれぞれ、複数台であってもよい。例えば、各参加者に音声入力装置２及び計測装置３が装着され得る。

撮影装置４は、例えば、ビデオカメラであり、会話中の参加者を撮影する。撮影により得られた映像データには、音声や撮影された時刻の情報も含まれる。撮影装置４は、複数台であってもよい。撮影装置４は、テレビ電話やビデオチャットのための映像を撮影するビデオカメラを兼ねてもよい。

コミュニケーションスキル評価装置５は、例えば、コンピュータ装置により実現される。コミュニケーションスキル評価装置５は、受信部５１、記憶部５２、発話区間検出部５３、次話者推定部５４、評価部５５、音声認識部５６、入力部５７、再生制御部５８、及び、出力部５９を備える。

受信部５１は、音声入力装置２から会話中の参加者の音声データを受信し、参加者の識別情報と、その参加者の音声データとを対応付けた音声情報を、記憶部５２の音声情報記憶部５２１に書き込む。音声データには、音声が得られた時刻の情報が含まれる。また、受信部５１は、計測装置３から会話中の各参加者の非言語行動に関する計測結果を示すデータを受信し、参加者の識別情報と、その参加者の時系列の非言語行動の計測結果のデータとを対応付けた計測情報を、記憶部５２の計測情報記憶部５２２に書き込む。さらに、受信部５１は、撮影装置４が撮影した会話中の参加者の映像データを受信し、記憶部５２の映像記憶部５２３に書き込む。

記憶部５２は、各種データを記憶する。記憶部５２は、音声情報記憶部５２１、計測情報記憶部５２２、映像記憶部５２３、発話情報記憶部５２４、次話者確率記憶部５２５、及び、評価結果記憶部５２６を備える。音声情報記憶部５２１は、各参加者の音声情報を記憶する。計測情報記憶部５２２は、各参加者の計測情報を記憶する。映像記憶部５２３は、会話中の参加者を撮影した映像データを記憶する。発話情報記憶部５２４は、会話中の各発話の発話区間、発話者、及び、発話内容を対応付けた発話情報を記憶する。次話者確率記憶部５２５は、各参加者の次話者確率を記憶する。評価結果記憶部５２６は、各参加者のコミュニケーションスキルの評価結果を記憶する。

発話区間検出部５３は、既存の任意の技術により、各参加者の音声データから得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。会話中のｎ回目の発話をＩＰＵ^ｎとする（ｎは１以上Ｎ＋１以下の整数、Ｎ＋１は会話中の発話の総数）。発話区間検出部５３は、発話ＩＰＵ^ｎの発話区間及び発話者を設定した発話情報を記憶部５２の発話情報記憶部５２４に書き込む。発話区間は、発話開始時刻及び発話終了時刻により示される。

次話者推定部５４は、既存の任意の技術により、会話中の各参加者の次話者確率を算出する予測器である。会話の参加者の数をＬ人（Ｌは２以上の整数）、ｉ番目の参加者（ｉは１以上Ｌ以下の整数）を参加者Ｕ_ｉとする。次話者推定部５４は、発話ＩＰＵ^ｎの発話末に、会話中の各参加者の非言語行動の計測値に基づいて、各参加者Ｕ_ｉが時刻ｔに次の発話ＩＰＵ^ｎ＋１の発話者になる確率である次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）を算出する。次話者推定部５４は、各参加者の識別情報と、その参加者の次話者確率を対応付けて記憶部５２の次話者確率記憶部５２５に書き込む。

評価部５５は、第１パラメータ算出部５５１、第２パラメータ算出部５５２、及び、評価結果出力部５５３を備える。
第１パラメータ算出部５５１は、各参加者の第１パラメータＳ^１を算出する。参加者Ｕ_ｉが発話者であるｍ番目（ｍはＮ＋１以下の整数）の発話ＩＰＵ^ｍについての第１パラメータＳ^１を第１パラメータＳ_ｉ ^１（ｍ）とする。第１パラメータＳ_ｉ ^１（ｍ）は、以下の式（１）のように算出される。式（１）において、ｔ_ｉ ^ｍは、参加者Ｕ_ｉが発話者である発話ＩＰＵ^ｍの発話開始時刻である。第１パラメータＳ_ｉ ^１（ｍ）は、参加者Ｕ_ｉが発話ＩＰＵ^ｍを開始した時刻ｔ_ｉ ^ｍの次話者確率Ｐ_ｉ ^ｍ（ｔ）がどれくらい高かったかを示す。１／Ｌは、次話者確率の期待値である。第１パラメータＳ_ｉ ^１（ｍ）の値が大きいほど、参加者Ｕ_ｉのコミュニケーションスキルが高いことを表す。

第２パラメータ算出部５５２は、各参加者の第２パラメータＳ^２を算出する。参加者Ｕ_ｉが発話者ではないｏ番目（ｏはＮ＋１以下の整数）の発話ＩＰＵ^ｏについての第２パラメータＳ^２を第２パラメータＳ_ｉ ^２（ｏ）と記載する。第２パラメータＳ_ｉ ^２（ｏ）は、以下の式（２）のように算出される。式（２）において、ｔ_ｉ ^ｏは、参加者Ｕ_ｉ以外が発話者である発話ＩＰＵ^ｏの発話開始時刻である。第２パラメータＳ_ｉ ^２（ｏ）は、参加者Ｕ_ｉ以外の参加者が発話ＩＰＵ^ｏを開始した時刻ｔ_ｉ ^ｏの参加者Ｕ_ｉの次話者確率Ｐ_ｉ ^ｏ（ｔ）がどれくらい低かったかを示す。第２パラメータＳ_ｉ ^２（ｏ）の値が大きいほど、参加者Ｕ_ｉのコミュニケーションスキルが高いことを表す。

評価結果出力部５５３は、各参加者について算出された第１パラメータ及び第２パラメータを、コミュニケーションスキルの評価結果として記憶部５２の評価結果記憶部５２６に書き込む。

音声認識部５６は、発話情報記憶部５２４から発話区間検出部５３が書き込んだ発話情報を読み出し、各発話の発話区間（発話開始時刻及び発話終了時刻）及び発話者を読み出す。音声認識部５６は、各発話の発話者の発話区間における音声データを音声情報記憶部５２１から読み出し、音声認識する。音声認識部５６は、各発話の音声認識結果の情報を、発話情報記憶部５２４に記憶される発話情報に書き込む。

入力部５７は、ユーザの操作を入力する。入力部５７は、例えば、キーボード、マウス、ボタンなどの入力装置である。
再生制御部５８は、記憶部５２の映像記憶部５２３に記憶されている映像データを再生し、出力部５９に映像の表示と音声の出力を行う。再生制御部５８は、映像データの出力に合わせて、映像データの再生箇所における各参加者のコミュニケーションスキルの評価結果や、次話者確率などを出力部５９に表示する。また、再生制御部５８は、コミュニケーションスキルの評価結果を出力部５９に表示し、その表示の中から入力部５７により選択された評価結果が得られた発話のシーンの映像データを再生し、出力部５９に映像及び音声を出力する。
出力部５９は、各種データを出力する。出力部５９は、例えば、画像を表示するディスプレイ及び音声を出力するスピーカーである。

なお、コミュニケーションスキル評価装置５は、１台のコンピュータ装置により実現してもよく、ネットワークにより接続される複数のコンピュータ装置により実現してもよい。コミュニケーションスキル評価装置５を複数のコンピュータ装置により実現する場合、各機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。

図２は、発話情報記憶部５２４に記憶される発話情報の例を示す図である。同図に示すように、発話情報は、各発話ＩＰＵ^１、ＩＰＵ^２、…の発話区間（発話開始時刻及び発話終了時刻）と、発話者と、発話内容を示すテキストデータとを対応付けた情報である。

図３は、次話者確率記憶部５２５に記憶される情報の例を示す図である。同図に示すように、次話者確率記憶部５２５は、次話者推定部５４が推定した参加者Ｕ_１〜Ｕ_Ｌそれぞれの各発話の次話者確率を記憶する。

図４は、評価結果記憶部５２６に記憶される評価結果情報の例を示す図である。同図に示すように、評価結果情報は、評価部５５により算出された各話者Ｕ_１〜Ｕ_Ｌそれの第１パラメータ及び第２パラメータを示す。

図５は、コミュニケーションスキル評価システム１の評価処理の動作を示すフロー図である。
コミュニケーションスキル評価システム１は、会話中の各参加者の音声のデータ及び非言語行動のデータと、会話中の映像データを収集する（ステップＳ１０５）。すなわち、音声入力装置２は、会話中の各参加者の音声のデータを送信し、計測装置３は、会話中に計測した各参加者の非言語行動のデータを送信する。受信部５１は、音声入力装置２から受信した参加者の音声のデータに基づいて音声情報を音声情報記憶部５２１に書き込み、計測装置３から受信した各参加者の非言語行動の計測結果を示すデータに基づいて計測情報を計測情報記憶部５２２に書き込む。また、撮影装置４は、会話中の参加者を撮影し、撮影により得られた映像データを送信する。受信部５１は、撮影装置４から受信した映像データを映像記憶部５２３に書き込む。

会話終了後、発話区間検出部５３は、音声情報記憶部５２１に記憶されている各参加者の音声のデータに基づいて、参加者が発話を行った区間を検出する（ステップＳ１１０）。例えば、発話区間検出部５３は、１つの発話の区間を、２つの所定時間連続した無音区間で囲まれた、同一の参加者の発話成分が存在する少なくとも１つの区間を含む時間区間とする。すなわち、発話区間検出部５３は、いずれの話者も発話していない無音区間が所定時間経過した場合に、その無音区間の開始を発話末と判断する。発話区間検出部５３は、全ての参加者の発話の区間を時刻順に並べて発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１とする。なお、発話区間の検出には、例えば、特開平５−３２３９９６号公報に記載の技術などを用いもよい。発話区間検出部５３は、発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１それぞれの発話区間の情報と、発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１それぞれの発話者が参加者Ｕ_１〜Ｕ_Ｌのいずれの人物であるかの情報とを対応付けた発話情報を発話情報記憶部５２４に書き込む。

次話者推定部５４は、発話情報記憶部５２４から発話情報を読み出す。次話者推定部５４は、各発話ＩＰＵ^ｎ（ｎは１以上Ｎ以下の整数）の終了時点において、又は、その終了時点以降に、計測情報記憶部５２２に記憶される計測情報に基づいて、各参加者Ｕ_ｉ（ｉは１以上Ｌ以下の整数）の次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）を算出する（ステップＳ１１５）。次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）は、発話ＩＰＵ^ｎ終了後の時刻ｔにおいて参加者Ｕ_ｉが次話者となる確率である。次話者推定部５４は、各参加者について算出した次話者確率を、次話者確率記憶部５２５に書き込む。

評価部５５は、参加者Ｕ_１〜Ｕ_Ｌのうち、評価対象の参加者Ｕ_ｉを選択する。評価対象の参加者Ｕ_ｉは、全ての参加者であるが、評価対象としてユーザが入力部５７により入力した参加者でもよい（ステップＳ１２０）。

評価部５５の第１パラメータ算出部５５１は、発話情報記憶部５２４に記憶される発話情報に基づき、発話ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１のうち、評価対象の参加者Ｕ_ｉが発話者である発話ＩＰＵ^ｍを選択する（ステップＳ１２５）。第１パラメータ算出部５５１は、選択した発話ＩＰＵ^ｍそれぞれについて、上述した式（１）により、参加者Ｕ_ｉの第１パラメータＳ_ｉ ^１（ｍ）を算出する（ステップＳ１３０）。なお、第１パラメータ算出部５５１は、発話ＩＰＵ^ｍの発話開始時刻ｔ_ｉ ^ｍを発話情報から取得し、次話者確率Ｐ_ｉ ^ｍ（ｔ_ｉ ^ｍ）を次話者確率記憶部５２５から読み出す。

続いて、第２パラメータ算出部５５２は、発話情報記憶部５２４に記憶される発話情報に基づき、発話ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１のうち、評価対象の参加者Ｕ_ｉが発話者ではない発話ＩＰＵ^ｏを選択する（ステップＳ１３５）。第２パラメータ算出部５５２は、選択した発話ＩＰＵ^ｏそれぞれについて、上述した式（２）により、参加者Ｕ_ｉの第２パラメータＳ_ｉ ^２（ｏ）を算出する（ステップＳ１４０）。なお、第２パラメータ算出部５５２は、発話ＩＰＵ^ｏの発話開始時刻ｔ_ｉ ^ｏを発話情報から取得し、次話者確率Ｐ_ｉ ^ｏ（ｔ_ｉ ^ｏ）を次話者確率記憶部５２５から読み出す。

評価部５５は、評価対象の全ての参加者を選択したか否かを判断する（ステップＳ１４５）。未選択の評価対象の参加者がいると判断した場合（ステップＳ１４５：ＮＯ）、ステップＳ１２０からの処理を繰り返す。そして、評価部５５が、評価対象の全ての参加者を選択したと判断した場合（ステップＳ１４５：ＹＥＳ）、評価結果出力部５５３は、ステップＳ１５０の処理を行う。すなわち、評価結果出力部５５３は、評価対象の各参加者について算出した第１パラメータと第２パラメータの値を評価結果として評価結果記憶部５２６に書き込む（ステップＳ１５０）。

音声認識部５６は、各発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１の音声データを音声認識し、発話情報記憶部５２４に書き込む（ステップＳ１５５）。具体的には、音声情報記憶部５２１に記憶される発話区間情報から、各発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１の発話区間及び発話者を読み出す。音声認識部５６は、各発話について、発話者の発話区間における音声データを音声情報記憶部５２１から読み出して音声認識し、発話内容のテキストデータを得る。なお、音声認識の対象は、映像記憶部５２３から読み出した映像データに含まれる音声データであってもよい。音声認識部５６は、発話情報記憶部５２４に記憶される発話情報に、各発話区間について得られた発話内容のテキストデータである発話内容データを書き込む。なお、コミュニケーションスキル評価装置５は、入力部５７により入力された各発話の発話内容データを発話情報記憶部５２４に書き込んでもよい。

図６は、コミュニケーションスキル評価装置５が表示する再生画面７０の画面表示イメージを示す図である。コミュニケーションスキル評価装置５の再生制御部５８は、同図に示す再生画面７０を出力部５９に表示する。再生画面７０は、映像表示領域７１、タイムライン７２、操作ボタン７３、及び、評価結果表示領域７４を有する。

映像表示領域７１は、撮影装置４により撮影された映像データの再生映像を表示する。
タイムライン７２は、映像表示領域７１に現在表示されている映像の再生時刻が、映像の開始時刻から終了時刻までの間のどの時点であるかを表示する。ユーザが、タイムライン７２をマウス（入力部５７）によりクリックすると、再生制御部５８は、そのクリックされた箇所に対応した再生時刻の映像を映像表示領域７１に表示する。
操作ボタン７３は、ユーザが再生、一時停止、停止、フレーム戻りなどの再生制御を指定するためのボタンである。ユーザが、操作ボタン７３をクリックすると、再生制御部５８は、クリックされたボタンに応じて、映像データの再生開始、再生の一時停止、再生の停止、再生時刻を遡って再生、などを行う。

評価結果表示領域７４は、評価確認対象として選択された参加者Ｕ_ｉの第１パラメータＳ_ｉ ^１、第２パラメータＳ_ｉ ^２の一覧を表示する。具体的には、評価結果表示領域７４の左側には、選択された参加者Ｕ_ｉが発話者である各発話の発話開始時刻、発話内容、前の発話者、次の発話者、及び、第１パラメータＳ_ｉ ^１を対応付けた情報が列ごとに表示される。さらに、評価結果表示領域７４の右側には、選択された参加者Ｕ_ｉ以外が発話者である各発話の発話開始時刻、発話内容、前の発話者、次の発話者、及び、第２パラメータＳ_ｉ ^２を対応付けた情報が列ごとに表示される。なお、再生制御部５８は、ユーザが選択した項目の内容により、列をソートして評価結果表示領域７４に表示する。

また、再生制御部５８は、ユーザが評価結果表示領域７４に表示されている中から選択した列に対応した発話の前後を含む任意の再生区間の映像データを映像表示領域７１に表示する。例えば、再生制御部５８は、選択された列の発話又はその発話よりもａ個前の発話（ａは１以上の整数）の発話開始時刻−ｂ秒（ｂは０以上）を再生区間の開始時刻とする。また、例えば、再生制御部５８は、選択された列の発話よりもｃ個後の発話（ｃは１以上の整数）の発話開始時刻＋ｄ秒（ｄは０以上）を再生区間の終了時刻とする。また、再生区間の終了時刻を設定せず、再生制御部５８は、停止指示が入力されるか映像データの最後まで再生を継続してもよい。

例えば、ユーザがソート対象として第１パラメータを入力した場合、再生制御部５８は、評価結果表示領域７４に表示されている列を、第１パラメータが大きい順、あるいは、小さい順にソートし、列を並べ替えて表示する。これにより、発話開始のタイミングが適切であった順、あるいは、適切ではなかった順に、発話が表示される。ユーザが、ソートされた結果から列を選択することにより、再生制御部５８は、その列に対応した会話のシーンの映像データを再生する。これにより、ユーザは、適切なタイミングで発話したシーンや、適切ではないタイミングで発話したシーンを確認することができる。

同様に、ユーザがソート対象として第２パラメータを入力した場合、再生制御部５８は、評価結果表示領域７４に表示されている列を、第２パラメータが大きい順、あるいは、小さい順にソートし、列を並べ替えて表示する。これにより、発話しなかったことが適切であった順、あるいは、適切ではなかった順に、発話が表示される。ユーザが、ソートされた結果から列を選択することにより、再生制御部５８は、その列に対応した会話のシーンの映像データを再生する。これにより、ユーザは、発話しなかったことが適切であったシーンや、適切ではなかったシーンを確認することができる。
これにより、参加者は、自身のコミュニケーションスキルが高かった発話のシーンや、低かった発話のシーンを映像や音声で確認し、自身の会話中の行動を見直すことができる。また、コミュニケーションスキルが高かった他の参加者の発話のシーンを確認し、参考にすることもできる。

図７は、コミュニケーションスキル評価装置５の映像再生処理の動作を示すフロー図である。
入力部５７により、映像再生指示と、再生開始時刻と、評価確認対象の参加者Ｕ_ｉとが入力される（ステップＳ２０５）。なお、再生開始時刻の入力は省略可能である。再生制御部５８は、映像データを映像記憶部５２３から読み出す（ステップＳ２１０）。さらに、再生制御部５８は、発話情報記憶部５２４に記憶されている各発話の発話情報を読み出し、参加者Ｕ_ｉが発話者である発話ＩＰＵ^ｍの発話情報と、参加者Ｕ_ｉ以外が発話者である発話ＩＰＵ^ｏの発話情報とに分類する。再生制御部５８は、評価結果記憶部５２６から各発話ＩＰＵ^ｍの第１パラメータＳ_ｉ ^１（ｍ）と、各発話ＩＰＵ^ｏの第２パラメータＳ_ｉ ^２（ｏ）を読み出す。再生制御部５８は、各発話ＩＰＵ^ｍごとに、発話ＩＰＵ^ｍの発話情報から読み出した発話開始時刻及び発話内容、直前の発話の発話情報から読み出した発話者、次の発話の発話情報から読み出した発話者、発話ＩＰＵ^ｍのときの第１パラメータＳ_ｉ ^１（ｍ）の値を対応付けて列毎に時系列で表示する第１の評価表示データを生成する。さらに、再生制御部５８は、各発話ＩＰＵ^ｏごとに、発話ＩＰＵ^ｏの発話情報から読み出した発話開始時刻及び発話内容、直前の発話の発話情報から読み出した発話者、次の発話の発話情報から読み出した発話者、発話ＩＰＵ^ｏの第２パラメータＳ_ｉ ^２（ｏ）の値を対応付けて列毎に時系列で表示する第２の評価表示データを生成する（ステップＳ２１５）。

再生制御部５８は、再生開始時刻からの映像データを映像表示領域７１に表示し、第１の評価表示データ及び第２の評価表示データを評価結果表示領域７４に表示する再生画面７０を生成する（ステップＳ２２０）。再生開始時刻が入力されなかった場合、再生制御部５８は、映像データの先頭を再生開始時刻とする。再生制御部５８は、出力部５９に、生成した再生画面７０を表示し、再生箇所の映像データの音声を出力する（ステップＳ２２５）。再生時刻が進むにつれて、再生制御部５８は、タイムライン７２上の再生箇所を示す部分を更新して表示する。また、再生制御部５８は、再生時刻を発話区間に含む発話に対応した第１の評価表示データ又は第２の評価表示データの列を、表示色を変える、背景色を変える、太字により表示する、枠を表示するなど、他の列と態様を変えて表示する。

再生制御部５８は、入力部５７により再生時刻の変更が入力されたか否かを判断する（ステップＳ２３０）。再生制御部５８は、再生時刻の変更が入力されないと判断した場合（ステップＳ２３０：ＮＯ）、後述するステップＳ２４０の処理を行う。再生制御部５８は、入力部５７により再生時刻の変更が入力されたと判断した場合（ステップＳ２３０：ＹＥＳ）、変更された再生時刻から映像データを再生して映像表示領域７１に映像を表示し、再生箇所の映像データの音声を出力する（ステップＳ２３５）。再生時刻の変更の入力は、タイムライン７２をクリックするほか、第１の評価表示データ又は第２の評価表示データの列をクリックすることにより指定することができる。第１の評価表示データ又は第２の評価表示データの列がクリックされた場合、再生制御部５８は、クリックされた列の発話の前後のシーンを含むように再生区間を決定し、再生区間の先頭を変更後の再生時刻とする。再生制御部５８は、タイムライン７２上の再生箇所を示す部分を、現在の再生時刻を表すように更新して表示する。また、再生制御部５８は、現在の再生時刻を発話区間に含む発話に対応した第１の評価表示データ又は第２の評価表示データの列を、他の列と態様を変えて表示する。

再生制御部５８は、ステップＳ２３０においてＮＯと判断した後、あるいは、ステップＳ２３５の処理の後、入力部５７によりソート条件が入力されたか否かを判断する（ステップＳ２４０）。再生制御部５８は、ソート条件が入力されないと判断した場合（ステップＳ２４０：ＮＯ）、後述するステップＳ２５０の処理を行う。再生制御部５８は、ソート条件が入力されたと判断した場合（ステップＳ２４０：ＹＥＳ）、第１の評価表示データ又は第２の評価表示データの列を入力されたソート条件に応じて並べ替え、評価結果表示領域７４に表示する（ステップＳ２４５）。

再生制御部５８は、ステップＳ２４０においてＮＯと判断した後、あるいは、ステップＳ２４５の処理の後、再生終了か否かを判断する（ステップＳ２５０）。再生制御部５８は、再生終了ではないと判断した場合（ステップＳ２５０：ＮＯ）、ステップＳ２３０からの処理を繰り返す。再生制御部５８は、入力部５７により再生終了が入力された、映像データを全て再生した、再生区間の再生が終了した場合などに、再生終了と判断し（ステップＳ２５０：ＹＥＳ）、本フローを終了する。

なお、コミュニケーションスキル評価装置５は、ステップＳ２３０〜ステップＳ２３５の処理と、ステップＳ２４０〜ステップＳ２４５の処理とを入れ替えて行ってもよく、並行に独立して行ってもよい。
また、上記においては、第１又は第２の評価表示データの列がクリックされたときに、再生制御部５８が、クリックされた列に対応した発話の前後のシーンを含むように再生区間を決定して映像データを再生している。しかし、再生制御部５８は、予め発話情報に登録された再生区間の情報、または、再生区間の映像データを読み出してもよい。この場合、発話区間検出部５３は、図５のステップＳ１１０において発話情報記憶部５２４に書き込む発話情報を生成する際に、各発話の発話区間及び発話者の情報に加え、再生区間の情報、または、再生区間の映像データをさらに発話情報に設定する。

図８は、コミュニケーションスキル評価装置５が表示する評価表示画面８０の画面表示イメージを示す図である。コミュニケーションスキル評価装置５の再生制御部５８は、入力部５７により評価表示画面の表示指示の入力を受けた場合、同図に示す評価表示画面８０を出力部５９に表示する。評価表示画面８０には、ある発話ＩＰＵ^ｎ（発話１）の発話開始時刻（開始時刻）、発話終了時刻（終了時刻）、発話者、及び、発話内容と、その次の発話ＩＰＵ^ｎ＋１（発話２）の発話開始時刻（開始時刻）、発話終了時刻（終了時刻）、発話者、及び、発話内容と、発話ＩＰＵ^ｎ＋１における各参加者Ｕ_１〜Ｕ_Ｌのコミュニケーションスキルの評価結果が列単位で表示される。評価結果として、参加者が発話ＩＰＵ^ｎ＋１の発話者である場合は第１パラメータが、参加者が発話ＩＰＵ^ｎ＋１の発話者ではない場合は第２パラメータが表示される。

なお、ユーザが、入力部５７により、図６の評価結果表示領域７４に表示されている第１の評価結果データ又は第２の評価結果データの列を選択することによって、評価表示画面８０を表示において発話ＩＰＵ^ｎとすべき発話を選択することもできる。

また、再生制御部５８は、図６に示す評価結果表示領域７４に、評価表示画面８０の表示内容を表示してもよい。この場合、再生制御部５８は、映像データの現在の再生時刻を発話区間に含む発話ＩＰＵ^ｎの列を、他の列と態様を変えて表示する。そして、ユーザが入力部５７により列を選択することによって、再生制御部５８は、選択された列の発話に応じた再生区間の映像データを再生する。また、再生制御部５８は、ユーザが選択した項目の内容により、列をソートして表示する。例えば、入力部５７によって参加者Ｕ_１が選択された場合、再生制御部５８は、参加者Ｕ_１の評価結果が高い順、又は、低い順に列をソートして表示する。

図９は、コミュニケーションスキル評価装置５が表示するタイミング表示画面９０の画面表示イメージを示す図である。
タイミング表示画面９０には、時間を横軸として、連続した２つの発話ＩＰＵ^ｎ及び発話ＩＰＵ^ｎ＋１の発話区間及び発話内容が表示される。発話区間及び発話内容は、発話した参加者に対応付けて表示される。さらに、タイミング表示画面９０には、各参加者Ｕ_ｉ（ｉ＝１〜Ｌ）の次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）が表示される。再生制御部５８は、タイミング表示画面９０の表示と同時に映像データを再生して出力部５９に出力している場合、タイミング表示画面９０に、映像データの現在の再生箇所の時刻を表すライン９１を表示する。また、再生制御部５８は、次話者確率が最も高い時刻を表すライン９２を表示する。ライン９２は、次話者が発話を開始する理想的なタイミングを表す。

タイミング表示画面９０を表示するために、ユーザは、連続した２つの発話ＩＰＵ^ｎ又は発話ＩＰＵ^ｎ＋１のうち一方を特定する情報（例えば、発話の番号、発話の時刻など）を入力部５７に入力する。再生制御部５８は、発話ＩＰＵ^ｎを特定する情報が入力された場合、その情報により特定される発話ＩＰＵ^ｎの発話情報と、発話ＩＰＵ^ｎの１つ後の発話ＩＰＵ^ｎ＋１の発話情報を発話情報記憶部５２４から読み出す。再生制御部５８は、発話ＩＰＵ^ｎ＋１を特定する情報が入力された場合、その情報により特定される発話ＩＰＵ^ｎ＋１の発話情報と、発話ＩＰＵ^ｎ＋１の１つ前の発話ＩＰＵ^ｎの発話情報を発話情報記憶部５２４から読み出す。再生制御部５８は、次話者確率記憶部５２５から、各参加者の次話者確率Ｐ^ｎ＋１（ｔ）を読み出す。再生制御部５８は、発話ＩＰＵ^ｎの発話情報及び発話ＩＰＵ^ｎ＋１の発話情報から読み出した発話開始時刻、発話終了時刻、発話者、発話内容と、各参加者の次話者確率Ｐ^ｎ＋１（ｔ）とを用いてタイミング表示画面９０を生成し、出力部５９に表示する。再生制御部５８は、再生中の映像データの再生時刻を表すように、ライン９１を移動させてタイミング表示画面９０に表示する。これにより、ユーザは、会話中の映像や音声と同時に、次話者確率や、最適な発話タイミングを観察することが可能となる。

なお、再生制御部５８は、映像データの現在の再生時刻が発話区間に含まれる発話を、連続した２つの発話ＩＰＵ^ｎ及び発話ＩＰＵ^ｎ＋１のうち発話ＩＰＵ^ｎとして用いて上記処理を行ってもよい。これにより、再生制御部５８は、ユーザによる指定がなくとも、映像データの再生に伴って、タイミング表示画面９０を表示させることができる。

なお、ユーザが、入力部５７により、図６の再生画面７０の評価結果表示領域７４に表示されている第１の評価結果データ又は第２の評価結果データの列を選択することによって、タイミング表示画面９０において発話ＩＰＵ^ｎとすべき発話を選択することもできる。これにより、再生画面７０に、選択された第１の評価結果データ又は第２の評価結果データの列に対応した再生区間の映像データが再生されるのに併せて、タイミング表示画面９０が表示される。

また、再生制御部５８は、映像データの再生中に、発話ＩＰＵ^ｎ＋１の音声の再生開始時刻を、ライン９２が示す次話者確率Ｐ^ｎ＋１（ｔ）が最も高い再生時刻にずらして出力部５９に出力してもよい。これにより、ユーザは、最も良い発話のタイミングを確認することができる。

上述したように本実施形態のコミュニケーションスキル評価システムは、撮影装置により、会話中の参加者を撮影する。同時に、コミュニケーションスキル評価システムは、音声入力装置により、会話中の参加者の音声データを入力し、計測装置により複数の参加者それぞれの会話中の非言語行動を計測する。コミュニケーションスキル評価システムが備えるコミュニケーションスキル評価装置は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。続いて、コミュニケーションスキル評価装置は、計測装置による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。コミュニケーションスキル評価装置は、発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を、発話が開始されたときの次話者確率に基づいて参加者別に算出する。コミュニケーションスキル評価装置は、映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、参加者の発話毎のスキル判別パラメータを表示する。
このとき、コミュニケーションスキル評価装置は、映像データの再生箇所の発話について算出されたスキル判別パラメータを、他の発話について算出されたスキル判別パラメータと異なる態様で表示する。また、コミュニケーションスキル評価装置は、各発話のスキル判別パラメータに加え、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者を表示する。また、コミュニケーションスキル評価装置は、表示中の発話毎のスキル判別パラメータに基づいて、ユーザが選択した発話に対応した映像データの部分を再生する。
さらに、コミュニケーションスキル評価装置は、図９に示すように、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する発話のうち後の発話についての各参加者の次話者確率とを並べて表示する。このとき、コミュニケーションスキル評価装置は、時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の次話者確率に加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する。

上述した実施形態によれば、会話中の発言が適切なタイミングで行われたかどうかを確認することができる。また、ユーザが、適切なタイミングの発話、あるいは、適切ではないタイミングの発話を指定することにより、その発話のシーンを選んで確認することができる。また、ユーザは、発話に最も良いタイミングを確認することもできる。

なお、コミュニケーションスキル評価システム１における次話者推定技術には、例えば、以下の参考文献１、２の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献１、２では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。

（参考文献１）特開２０１４−２３８５２５公報
（参考文献２）石井亮，外４名，“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”，人工知能学会研究会資料，SIG-SLUD-B301-06, pp.27-34, 2013．

以下に、本実施形態に適用可能な参考文献１，２以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置および音声情報取得装置が装着される。呼吸動作計測装置は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、推定装置に出力する。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして推定装置に送る。

さらに、音声情報取得装置は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声情報Ｖ_ａ，ｔを得て、推定装置に出力する。推定装置は、入力された音声情報Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。本次話者推定技術では、１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、推定装置は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

推定装置は、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図１０は、息の吸い込み区間の例を示す図である。図１０を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図１０に例示するように、例えば、

が成り立つとき、離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに

が成り立つとき、離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

推定装置は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

推定装置は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

推定装置は、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、推定装置が発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

推定装置による次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。

推定装置は、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

推定装置は、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。推定装置は、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態のコミュニケーションスキル評価装置５の次話者推定部５４が推定する参加者Ｕ_ｉの次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）は、参加者Ｕ_ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

上述の推定装置は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置がさらに装着される。注視対象検出装置は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を推定装置に送る。推定装置は、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

推定装置は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図１１に注視対象ラベルの具体例を示す。図１１はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図１１の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図１１の例では、Ｖ＝６である。

推定装置は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図１１の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

推定装置は、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図１１の例を考えると、参加者Ｐ１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンＥ_ａ，ｋが、パラメータλａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

推定装置は、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図１１の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図１２を用いて具体的に示す。図１２は、話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示したものである。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図１２の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θ_ｖ，ｋが、パラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

推定装置は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。

以上、本発明の実施形態を説明したが、上述のコミュニケーションスキル評価装置５の機能をコンピュータで実現するようにしてもよい。その場合、コミュニケーションスキル評価装置５の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

複数の参加者が会話を行う場合に適用可能である。

１コミュニケーションスキル評価システム
２音声入力装置
３計測装置
５コミュニケーションスキル評価装置
５１受信部
５２記憶部
５３発話区間検出部
５４次話者推定部
５５評価部
５６音声認識部
５７入力部
５８再生制御部
５９出力部
５２１音声情報記憶部
５２２計測情報記憶部
５２３映像記憶部
５２４発話情報記憶部
５２５次話者確率記憶部
５２６評価結果記憶部
５５１第１パラメータ算出部
５５２第２パラメータ算出部
５５３評価結果出力部

Claims

会話中の参加者を撮影する撮影部と、
前記参加者の会話中の音声データを入力する音声入力部と、
前記参加者の会話中の非言語行動を計測する計測部と、
前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、
前記撮影部による撮影により得られた映像データを再生して会話中の参加者の映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、
を備えることを特徴とするコミュニケーションスキル評価システム。
会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価部と、
会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御部と、
を備えることを特徴とするコミュニケーションスキル評価装置。
前記再生制御部は、前記映像データの再生箇所の発話について算出された前記スキル判別パラメータを、他の発話について算出された前記スキル判別パラメータと異なる態様で表示する、
ことを特徴とする請求項２に記載のコミュニケーションスキル評価装置。
前記再生制御部は、表示中の発話毎の前記スキル判別パラメータに基づいて選択された発話に対応した前記映像データの部分を再生する、
ことを特徴とする請求項２又は請求項３に記載のコミュニケーションスキル評価装置。
各発話の発話内容を記憶する記憶部をさらに備え、
前記再生制御部は、前記映像データを再生して映像の表示及び音声の出力を行うとともに、発話毎に、発話内容及び発話者と、直前又は次の発話の発話内容及び発話者と、前記スキル判別パラメータとを表示する、
ことを特徴とする請求項２から請求項４のいずれか一項に記載のコミュニケーションスキル評価装置。
前記再生制御部は、時間軸に沿って、連続する発話それぞれの開始から終了までの区間及び発話内容と、連続する前記発話のうち後の発話についての各参加者の前記次話者確率とを並べて表示する、
ことを特徴とする請求項２から請求項５のいずれか一項に記載のコミュニケーションスキル評価装置。
前記再生制御部は、前記時間軸に沿って並べて表示された連続する発話の区間及び発話内容と、各参加者の前記次話者確率とに加えて、映像データの現在の再生箇所の時刻を表す情報と、最も次話者確率が高い時刻を表す情報とを表示する、
ことを特徴とする請求項６に記載のコミュニケーションスキル評価装置。
コンピュータに、
会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出ステップと、
前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者確率推定ステップと、
発話毎に、コミュニケーションスキルを定量的に表すスキル判別パラメータの値を前記発話が開始されたときの前記次話者確率に基づいて参加者別に算出する評価ステップと、
会話中の参加者を撮影した映像データを再生して映像の表示及び音声の出力を行うとともに、前記参加者の発話毎の前記スキル判別パラメータを表示する再生制御ステップと、
を実行させるためのコミュニケーションスキル評価プログラム。