JP2017116716A

JP2017116716A - コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Info

Publication number: JP2017116716A
Application number: JP2015251546A
Authority: JP
Inventors: 亮石井; Akira Ishii; 和弘大塚; Kazuhiro Otsuka; 史朗熊野; Shiro Kumano
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2017-06-29
Anticipated expiration: 2035-12-24
Also published as: JP6363986B2

Abstract

【課題】会話中の発言が適切なタイミングで行われたかを評価する。【解決手段】コミュニケーションスキル評価システム１の音声入力装置２は、会話中の参加者の音声データを入力し、計測装置３は、参加者の会話中の非言語行動を計測する。コミュニケーションスキル評価装置５の発話区間検出部５３は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。次話者推定部５４は、計測装置３による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。評価部５５は、参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に当該参加者が発話したとき又は当該参加者が発話しなかったときの当該参加者の次話者確率に基づいて算出する。【選択図】図１

Description

本発明は、コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムに関する。

会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、必ずしも誰もが適切なタイミングで発話を行えるわけではない。

一方、様々な行動チャネルと行動の時間差および一致性に基づく対話二者間の共感解釈を精度よく推定する技術がある（例えば、特許文献１参照）。また、実際の模擬的な対話練習のように音声及び映像で行われる対話型であって、質問に対する利用者の返答内容及び返答時間等を評価する技術がある（例えば、特許文献２参照）。

特開２０１４−１０２６０６号公報特開２００４−３０９６３１号公報

会話の流れにおいて発話に適切なタイミングであるか否かを判断できるようなコミュニケーションスキルを習得することは容易ではない。そこで、会話の参加者が適切なタイミングで発話できているかを評価することができれば、コミュニケーションスキルの習得に有用であると考えられる。しかし、特許文献１の技術のように、会話の参加者の共感状態や、参加者の感情・態度といった内部状態を推定するものはあるが、これらは、会話の参加者が適切なタイミングで発話できているかを評価するものではない。また、特許文献２の技術は、対話システムの質問に対する応答から、その応答の良し悪しを評価するものであるが、やはり、会話における話者交替時の発話行動が適切であるかを評価するものではない。

上記事情に鑑み、本発明は、会話中の発言が適切なタイミングで行われたかを評価することができるコミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムを提供することを目的としている。

本発明の一態様は、会話中の参加者の音声データを入力する音声入力部と、会話中の前記参加者の非言語行動を計測する計測部と、前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、を備えるコミュニケーションスキル評価システムである。

また、本発明の一態様は、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、を備えるコミュニケーションスキル評価装置である。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する。

また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する。

また、本発明の一態様は、コンピュータに、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話者とを検出する発話区間検出ステップと、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定ステップと、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価ステップと、を実行させるためのコミュニケーションスキル評価プログラムである。

本発明により、会話中の発言が適切なタイミングで行われたかを評価することが可能となる。

本発明の一実施形態によるコミュニケーションスキル評価システムの構成を示す機能ブロック図である。同実施形態によるコミュニケーションスキル評価システムの動作を示すフロー図である。息の吸い込み区間の例を示す図である。注視対象遷移パターンを例示した図である。時間構造情報を例示した図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
従来からある次話者及び発話開始タイミングの予測技術は、会話の参加者の視線、呼吸、頭部動作などの非言語情報と、話者交替の状況の一般的なルールをモデル化したものである。従って、次話者及び発話開始タイミングの予測結果が、実際の次話者や発話開始タイミングと合致しないということは、一般的なルールを逸脱した状況が発生したことを意味する。よって、予測結果に反して発話を行った人物や、発話を行えなかった人物は、一般的な会話のルールに乗っ取って発話を行えないことから、コミュニケーションスキル（以下、「スキル」とも記載する。）が低いと考えられる。

そこで、本実施形態のコミュニケーションスキル評価システムは、従来技術による予測器を用いて、会話中の各発話が終了したところで、各参加者の次話者確率を予測する。次話者確率は、参加者が次の話者となる確率である。コミュニケーションスキル評価システムは、参加者が、自分の次話者確率が高い時に発話を行ったとき、あるいは、自分の次話者確率が低い時に発話を行わなかったときに、その参加者のコミュニケーションスキルが高いと判定する。具体的には、コミュニケーションスキルを判定するために、コミュニケーションスキル評価システムは、以下の第１パラメータＳ^１及び第２パラメータＳ^２の２つのスキル判別パラメータを算出する。

第１パラメータＳ^１：第１パラメータＳ^１は、参加者が発話した際に、コミュニケーションスキルを判別する値である。ある参加者が発話した際に、予測器が出力したその参加者の次話者確率が高ければ、第１パラメータＳ^１の値が大きく、逆に予測器が出力した次話者確率が低ければ、第１パラメータＳ^１の値が小さくなる。つまり、第１パラメータＳ^１の値が大きいほど、高いコミュニケーションスキルを有すると判定される。

第２パラメータＳ^２：第２パラメータＳ^２は、参加者が発話しなかった際に、コミュニケーションスキルを判別する値である。ある参加者が発話しなかった際に、予測器が出力したその参加者の次話者確率が低ければ、第２パラメータＳ^２の値が大きく、逆に予測器が出力した確率が高ければ、第２パラメータＳ^２の値が小さくなる。つまり、第２パラメータＳ^２の値が大きいほど、高いコミュニケーションスキルを有すると判定される。

本発明の実施形態によるコミュニケーションスキル評価システムは、会話の参加者のコミュニケーションスキルを、適切なタイミングで発話を行えたかを判別可能な定量的な値により表す上記の２つのスキル判別パラメータにより判定する。

なお、本実施形態で取り扱う会話は、参加者が対面して行う会話でもよく、テレビ電話やビデオチャットなど映像を用いた会話でもよい。また、対面で会話する参加者と映像を用いて会話する参加者とが存在してもよい。

図１は、本発明の一実施形態によるコミュニケーションスキル評価システム１の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コミュニケーションスキル評価システム１は、音声入力装置２（音声入力部）、計測装置３（計測部）、及び、コミュニケーションスキル評価装置５を備えて構成される。

音声入力装置２は、例えばマイクロホンであり、各参加者の音声を入力する。計測装置３は、各参加者の非言語行動を計測する。計測する非言語行動は、視線、頭部の動き、及び、呼吸のうち１以上を含む。音声入力装置２及び計測装置３はそれぞれ、複数台であってもよい。例えば、各参加者に音声入力装置２及び計測装置３が装着され得る。

コミュニケーションスキル評価装置５は、例えば、コンピュータ装置により実現される。コミュニケーションスキル評価装置５は、受信部５１、記憶部５２、発話区間検出部５３、次話者推定部５４、及び、評価部５５を備える。
受信部５１は、音声入力装置２から会話中の参加者の音声データを受信し、参加者の識別情報と、その参加者の音声データとを対応付けた音声情報を記憶部５２に書き込む。音声データには、音声が得られた時刻の情報が含まれる。また、受信部５１は、計測装置３から会話中の各参加者の非言語行動に関する計測結果を示すデータを受信し、参加者の識別情報と、その参加者の時系列の非言語行動の計測結果のデータとを対応付けた計測情報を記憶部５２に書き込む。

発話区間検出部５３は、既存の任意の技術により、各参加者の音声データから得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。会話中のｎ回目の発話をＩＰＵ^ｎとする（ｎは１以上Ｎ＋１以下の整数、Ｎ＋１は会話中の発話の総数）。発話区間検出部５３は、発話ＩＰＵ^ｎの発話終了時刻と、次の発話ＩＰＵ^ｎ＋１の発話者ｉ^ｎ＋１と、発話ＩＰＵ^ｎ＋１の発話開始時刻ｔ_ｉ ^ｎ＋１を出力する。

次話者推定部５４は、既存の任意の技術により、会話中の各参加者の次話者確率を算出する予測器である。会話の参加者の数をＬ人（Ｌは２以上の整数）、ｉ番目の参加者（ｉは１以上Ｌ以下の整数）を参加者Ｕ_ｉとする。次話者推定部５４は、発話ＩＰＵ^ｎの発話末に、会話中の各参加者の非言語行動の計測値に基づいて、各参加者Ｕ_ｉが時刻ｔに次の発話ＩＰＵ^ｎ＋１の発話者になる確率である次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）を算出する。

評価部５５は、第１パラメータ算出部５５１、第２パラメータ算出部５５２、及び、評価結果出力部５５３を備える。
第１パラメータ算出部５５１は、各参加者の第１パラメータＳ^１を算出する。参加者Ｕ_ｉの第１パラメータＳ^１を第１パラメータＳ_ｉ ^１と記載する。第１パラメータＳ_ｉ ^１は、参加者Ｕ_ｉが発話した際に、次話者推定部５４が推定したその発話時刻における次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）がどれくらい高かったかを示す。第１パラメータＳ_ｉ ^１は、参加者Ｕ_ｉが発話者である発話ＩＰＵ_ｉ ^２〜ＩＰＵ_ｉ ^ｍ＋１（ｍはＮ以下の整数）を利用すると、以下の式（１）のように算出される。式（１）において、ｔ_ｉ ^ｊ＋１は、参加者Ｕ_ｉが発話者である発話ＩＰＵ_ｉ ^ｊ＋１の発話開始時刻である。右辺のΣの中の式は、参加者Ｕ_ｉが発話ＩＰＵ^ｊ＋１を開始した時刻ｔ_ｉ ^ｊ＋１の次話者確率Ｐ_ｉ ^ｊ＋１（ｔ）がどれくらい高かったかを示す。１／Ｌは、次話者確率の期待値である。なお、以下の式（１）の右辺の算出結果を発話数ｍにより除算した値を、第１パラメータＳ_ｉ ^１として用いてもよい。第１パラメータＳ_ｉ ^１の値が大きいほど、参加者Ｕ_ｉのコミュニケーションスキルが高いことを表す。

第２パラメータ算出部５５２は、各参加者の第２パラメータＳ^２を算出する。参加者Ｕ_ｉの第２パラメータＳ^２を第２パラメータＳ_ｉ ^２と記載する。第２パラメータＳ_ｉ ^２は、参加者Ｕ_ｉが発話をせず、他の参加者が発話をした際に、次話者推定部５４が算出したその発話時刻における次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）がどれくらい低かったかを示す。第２パラメータＳ_ｉ ^２は、参加者Ｕ_ｉ以外が発話者である発話ＩＰＵ_ｉ ^２〜ＩＰＵ_ｉ ^ｏ＋１（ｏはＮ以下の整数）を利用すると、以下の式（２）のように算出される。式（２）において、ｔ_ｉ ^ｊ＋１は、参加者Ｕ_ｉ以外が発話者である発話ＩＰＵ_ｉ ^ｊ＋１の発話開始時刻である。右辺のΣの中の式は、参加者Ｕ_ｉ以外の参加者が発話ＩＰＵ^ｊ＋１を開始した時刻ｔ_ｉ ^ｊ＋１の次話者確率Ｐ_ｉ ^ｊ＋１（ｔ）がどれくらい低かったかを示す。なお、以下の式（２）の右辺の算出結果を発話数ｏにより除算した値を、第２パラメータＳ_ｉ ^２として用いてもよい。第２パラメータＳ_ｉ ^２の値が大きいほど、参加者Ｕ_ｉのコミュニケーションスキルが高いことを表す。

評価結果出力部５５３は、各参加者の第１パラメータと第２パラメータに基づく評価結果を出力する。

なお、コミュニケーションスキル評価装置５は、１台のコンピュータ装置により実現してもよく、ネットワークにより接続される複数のコンピュータ装置により実現してもよい。コミュニケーションスキル評価装置５を複数のコンピュータ装置により実現する場合、各機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、１つの機能部を、複数台のコンピュータ装置により実現してもよい。

図２は、コミュニケーションスキル評価システム１の動作を示すフロー図である。
コミュニケーションスキル評価システム１は、会話中の各参加者の音声のデータ及び非言語行動のデータと、会話中の映像データを収集する（ステップＳ１０５）。すなわち、音声入力装置２は、会話中の各参加者の音声のデータを送信し、計測装置３は、会話中に計測した各参加者の非言語行動のデータを送信する。受信部５１は、音声入力装置２から受信した参加者の音声のデータに基づいて音声情報を記憶部５２に書き込む。さらに、受信部５１は、計測装置３から受信した各参加者の非言語行動の計測結果を示すデータに基づいて計測情報を記憶部５２に書き込む。

発話区間検出部５３は、記憶部５２に記憶されている各参加者の音声のデータに基づいて、参加者が発話を行った区間を検出する（ステップＳ１１０）。例えば、発話区間検出部５３は、１つの発話の区間を、２つの所定時間連続した無音区間で囲まれた、同一の参加者の発話成分が存在する少なくとも１つの区間を含む時間区間とする。すなわち、発話区間検出部５３は、いずれの話者も発話していない無音区間が所定時間経過した場合に、その無音区間の開始を発話末と判断する。発話区間検出部５３は、全ての参加者の発話の区間を時刻順に並べて発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１とする。なお、発話区間の検出には、例えば、特開平５−３２３９９６号公報に記載の技術などを用いもよい。発話区間検出部５３は、発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１それぞれの発話区間の情報と、発話ＩＰＵ^１、ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１それぞれの発話者が参加者Ｕ_１〜Ｕ_Ｌのいずれの人物であるかの情報とを対応付けた発話情報を生成する。発話区間検出部５３は、生成した発話情報を評価部５５に出力する。

次話者推定部５４は、各発話ＩＰＵ^ｎ（ｎは１以上Ｎ以下の整数）の終了時点において、又は、その終了時点以降に、記憶部５２に記憶される計測情報に基づいて、各参加者Ｕ_ｉ（ｉは１以上Ｌ以下の整数）の次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）を算出する（ステップＳ１１５）。次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）は、発話ＩＰＵ^ｎ終了後の時刻ｔにおいて参加者Ｕ_ｉが次話者となる確率である。次話者推定部５４は、各参加者について算出した次話者確率を評価部５５に出力する。

評価部５５は、参加者Ｕ_１〜Ｕ_Ｌのうち、評価対象の参加者Ｕ_ｉを選択する。評価対象の参加者Ｕ_ｉは、全ての参加者でもよく、ユーザが評価対象としてコミュニケーションスキル評価装置５に入力した参加者でもよい（ステップＳ１２０）。

評価部５５の第１パラメータ算出部５５１は、発話情報に基づき、発話ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１のうち、評価対象の参加者Ｕ_ｉが発話者である発話ＩＰＵ_ｉを選択する（ステップＳ１２５）。選択された発話ＩＰＵ_ｉを発話ＩＰＵ_ｉ ^２、ＩＰＵ_ｉ ^３、…、ＩＰＵ_ｉ ^ｍ＋１とする。第１パラメータ算出部５５１は、選択した発話ＩＰＵ_ｉ ^２〜ＩＰＵ_ｉ ^ｍ＋１を用いて、上述した式（１）により、参加者Ｕ_ｉの第１パラメータＳ_ｉ ^１を算出する（ステップＳ１３０）。なお、第１パラメータ算出部５５１は、選択した発話ＩＰＵ_ｉ ^ｊ＋１（ｊは１以上ｍ以下の整数）それぞれの発話開始時刻ｔ_ｉ ^ｊ＋１を発話情報から取得する。

続いて、第２パラメータ算出部５５２は、発話情報に基づき、発話ＩＰＵ^２、…、ＩＰＵ^Ｎ＋１のうち、評価対象の参加者Ｕ_ｉが発話者ではない発話ＩＰＵ_ｉを選択する（ステップＳ１３５）。選択された発話ＩＰＵ_ｉを発話ＩＰＵ_ｉ ^２、ＩＰＵ_ｉ ^３、…、ＩＰＵ_ｉ ^ｏ＋１とする。第２パラメータ算出部５５２は、選択した発話ＩＰＵ_ｉ ^２〜ＩＰＵ_ｉ ^ｏ＋１を用いて、上述した式（２）により、参加者Ｕ_ｉの第２パラメータＳ_ｉ ^２を算出する（ステップＳ１４０）。なお、第２パラメータ算出部５５２は、選択した発話ＩＰＵ_ｉ ^ｊ＋１（ｊは１以上ｏ以下の整数）それぞれの発話開始時刻ｔ_ｉ ^ｊ＋１を発話情報から取得する。

評価部５５は、評価対象の全ての参加者を選択したか否かを判断する（ステップＳ１４５）。未選択の評価対象の参加者がいると判断した場合（ステップＳ１４５：ＮＯ）、ステップＳ１２０からの処理を繰り返す。そして、評価部５５が、評価対象の全ての参加者を選択したと判断した場合（ステップＳ１４５：ＹＥＳ）、評価結果出力部５５３は、ステップＳ１５０の処理を行う。すなわち、評価結果出力部５５３は、評価対象の各参加者について算出した第１パラメータと第２パラメータの値を評価結果として出力する（ステップＳ１５０）。例えば、評価結果出力部５５３は、評価結果を、コミュニケーションスキル評価装置５が備える図示しないディスプレイに表示してもよく、記録媒体に書き込んでもよく、コミュニケーションスキル評価装置５とネットワークを介して接続されるコンピュータ装置などに送信してもよい。

なお、評価結果出力部５５３は、第１パラメータと第２パラメータのいずれかのみを評価結果として出力してもよく、第１パラメータと第２パラメータの平均を評価結果として出力してもよく、第１パラメータと第２パラメータのそれぞれに所定の重み付けを行ったのちに加算した結果を出力してもよい。また、評価結果出力部５５３は第１パラメータの値や第２パラメータの値に応じたアドバイスなどを記憶部５２から読み出し、評価結果に含めて出力してもよい。

なお、コミュニケーションスキル評価システム１は、会話中に、それまでの会話で収集した音声データ及び計測データを用いて、図２に示す処理フローをリアルタイムに実行してもよい。この場合、コミュニケーションスキル評価装置５は、ステップＳ１１５において、すでに算出済みの次話者確率については算出しなくてもよい。

上述したように本実施形態のコミュニケーションスキル評価システムは、音声入力装置により、会話中の参加者の音声データを入力し、計測装置により複数の参加者それぞれの会話中の非言語行動を計測する。コミュニケーションスキル評価システムが備えるコミュニケーションスキル評価装置は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。さらに、コミュニケーションスキル評価装置は、計測装置による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。コミュニケーションスキル評価装置は、参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に当該参加者が発話したとき又は当該参加者が発話しなかったときの当該参加者の次話者確率に基づいて算出する。
また、コミュニケーションスキル評価装置は、参加者が発話したときの当該参加者の次話者確率と、次話者確率の期待値との乖離に基づき、参加者が発話したときの当該参加者の次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者のスキル判別パラメータの値を算出する。
また、コミュニケーションスキル評価装置は、参加者が発話しなかったときの当該参加者の次話者確率と、次話者確率の期待値との乖離に基づいて、参加者が発話しなかったときの当該参加者の次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者のスキル判別パラメータの値を算出する。

上述した実施形態によれば、会話の参加者が適切なタイミングで発話を行えたかによってコミュニケーションスキルを評価するための定量的な値を出力できる。

なお、コミュニケーションスキル評価システム１における次話者推定技術には、例えば、以下の参考文献１、２の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献１、２では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。

（参考文献１）特開２０１４−２３８５２５公報
（参考文献２）石井亮，外４名，“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”，人工知能学会研究会資料，SIG-SLUD-B301-06, pp.27-34, 2013．

以下に、本実施形態に適用可能な参考文献１，２以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ、Ａ≧２）には呼吸動作計測装置および音声情報取得装置が装着される。呼吸動作計測装置は、参加者Ｐ_ａの呼吸動作を計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て、推定装置に出力する。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化する。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置は、正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして推定装置に送る。

さらに、音声情報取得装置は、参加者Ｐ_ａの音声を取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声情報Ｖ_ａ，ｔを得て、推定装置に出力する。推定装置は、入力された音声情報Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。本次話者推定技術では、１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。これにより、推定装置は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得る。

推定装置は、各参加者Ｐ_ａの呼吸情報Ｂ_ａ，ｔを用いて、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。

図３は、息の吸い込み区間の例を示す図である。図３を用いて、息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図３に例示するように、例えば、

が成り立つとき、離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに

が成り立つとき、離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。

推定装置は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕｅ（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

推定装置は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

推定装置は、例えば発話区間Ｕ_ｋ＋１を表す情報が得られ、さらに、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに記録する。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持され、推定装置が発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。

推定装置は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

推定装置による次発話者／発話タイミング推定処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

次発話者推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。

推定装置は、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部とする。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが次話者になる確率を、Ｐ１_ａとする。

発話タイミング推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報を読み出す。推定装置は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。

推定装置は、発話者Ｐ_ｕｋ、パラメータλ’_ａ，ｋの少なくとも一部、および次発話者推定モデルにより推定された次発話者Ｐ_ｕｋ＋１が得られると、パラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用する。推定装置は、特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用して推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Ｐ_ａが時刻ｔに発話を開始する確率（時刻ｔが参加者Ｐ_ａの発話タイミングである確率）を、Ｐ２_ａ（ｔ）とする。
上述した実施形態のコミュニケーションスキル評価装置５の次話者推定部５４が推定する参加者Ｕ_ｉの次話者確率Ｐ_ｉ ^ｎ＋１（ｔ）は、参加者Ｕ_ｉが本次話者推定技術における参加者Ｐ_ａである場合、確率Ｐ１_ａ×確率Ｐ２_ａ（ｔ）により算出される。

上述の推定装置は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には注視対象検出装置がさらに装着される。注視対象検出装置は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を推定装置に送る。推定装置は、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

推定装置は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図４に注視対象ラベルの具体例を示す。図４はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図４の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図４の例では、Ｖ＝６である。

推定装置は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図４の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

推定装置は、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図４の例を考えると、参加者Ｐ１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンＥ_ａ，ｋが、パラメータλａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

推定装置は、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図４の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図５を用いて具体的に示す。図５は、話者である参加者Ｐ１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示したものである。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図５の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θ_ｖ，ｋが、パラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベースに保持される。

推定装置は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。

以上、本発明の実施形態を説明したが、上述のコミュニケーションスキル評価装置５の機能をコンピュータで実現するようにしてもよい。その場合、コミュニケーションスキル評価装置５の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

複数の参加者が会話を行う場合に適用可能である。

１コミュニケーションスキル評価システム
２音声入力装置
３計測装置
５コミュニケーションスキル評価装置
５１受信部
５２記憶部
５３発話区間検出部
５４次話者推定部
５５評価部
５５１第１パラメータ算出部
５５２第２パラメータ算出部
５５３評価結果出力部

Claims

会話中の参加者の音声データを入力する音声入力部と、
会話中の前記参加者の非言語行動を計測する計測部と、
前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、
を備えることを特徴とするコミュニケーションスキル評価システム。
会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、
を備えることを特徴とするコミュニケーションスキル評価装置。
前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する、
ことを特徴とする請求項２に記載のコミュニケーションスキル評価装置。
前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する、
ことを特徴とする請求項３に記載のコミュニケーションスキル評価装置。
前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する、
ことを特徴とする請求項２から請求項４のいずれか一項に記載のコミュニケーションスキル評価装置。
前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する、
ことを特徴とする請求項５に記載のコミュニケーションスキル評価装置。
コンピュータに、
会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話者とを検出する発話区間検出ステップと、
前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定ステップと、
前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価ステップと、
を実行させるためのコミュニケーションスキル評価プログラム。