JP2017116716A - コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム - Google Patents

コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム Download PDF

Info

Publication number
JP2017116716A
JP2017116716A JP2015251546A JP2015251546A JP2017116716A JP 2017116716 A JP2017116716 A JP 2017116716A JP 2015251546 A JP2015251546 A JP 2015251546A JP 2015251546 A JP2015251546 A JP 2015251546A JP 2017116716 A JP2017116716 A JP 2017116716A
Authority
JP
Japan
Prior art keywords
participant
utterance
probability
conversation
next speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015251546A
Other languages
English (en)
Other versions
JP6363986B2 (ja
Inventor
亮 石井
Akira Ishii
亮 石井
和弘 大塚
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015251546A priority Critical patent/JP6363986B2/ja
Publication of JP2017116716A publication Critical patent/JP2017116716A/ja
Application granted granted Critical
Publication of JP6363986B2 publication Critical patent/JP6363986B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】会話中の発言が適切なタイミングで行われたかを評価する。【解決手段】コミュニケーションスキル評価システム1の音声入力装置2は、会話中の参加者の音声データを入力し、計測装置3は、参加者の会話中の非言語行動を計測する。コミュニケーションスキル評価装置5の発話区間検出部53は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。次話者推定部54は、計測装置3による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。評価部55は、参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に当該参加者が発話したとき又は当該参加者が発話しなかったときの当該参加者の次話者確率に基づいて算出する。【選択図】図1

Description

本発明は、コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムに関する。
会話の参加者が適切なタイミングで発話すると、良い雰囲気で会話が進行する。会話の目的は様々であるが、良い雰囲気の会話はその目的の達成に効果的であり、参加者の満足度も高い。しかしながら、会話中に適切なタイミングで発話することは、高度なコミュニケーションスキルを要する。そのため、必ずしも誰もが適切なタイミングで発話を行えるわけではない。
一方、様々な行動チャネルと行動の時間差および一致性に基づく対話二者間の共感解釈を精度よく推定する技術がある(例えば、特許文献1参照)。また、実際の模擬的な対話練習のように音声及び映像で行われる対話型であって、質問に対する利用者の返答内容及び返答時間等を評価する技術がある(例えば、特許文献2参照)。
特開2014−102606号公報 特開2004−309631号公報
会話の流れにおいて発話に適切なタイミングであるか否かを判断できるようなコミュニケーションスキルを習得することは容易ではない。そこで、会話の参加者が適切なタイミングで発話できているかを評価することができれば、コミュニケーションスキルの習得に有用であると考えられる。しかし、特許文献1の技術のように、会話の参加者の共感状態や、参加者の感情・態度といった内部状態を推定するものはあるが、これらは、会話の参加者が適切なタイミングで発話できているかを評価するものではない。また、特許文献2の技術は、対話システムの質問に対する応答から、その応答の良し悪しを評価するものであるが、やはり、会話における話者交替時の発話行動が適切であるかを評価するものではない。
上記事情に鑑み、本発明は、会話中の発言が適切なタイミングで行われたかを評価することができるコミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラムを提供することを目的としている。
本発明の一態様は、会話中の参加者の音声データを入力する音声入力部と、会話中の前記参加者の非言語行動を計測する計測部と、前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、を備えるコミュニケーションスキル評価システムである。
また、本発明の一態様は、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、を備えるコミュニケーションスキル評価装置である。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する。
また、本発明の一態様は、上述のコミュニケーションスキル評価装置であって、前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する。
また、本発明の一態様は、コンピュータに、会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話者とを検出する発話区間検出ステップと、前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定ステップと、前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価ステップと、を実行させるためのコミュニケーションスキル評価プログラムである。
本発明により、会話中の発言が適切なタイミングで行われたかを評価することが可能となる。
本発明の一実施形態によるコミュニケーションスキル評価システムの構成を示す機能ブロック図である。 同実施形態によるコミュニケーションスキル評価システムの動作を示すフロー図である。 息の吸い込み区間の例を示す図である。 注視対象遷移パターンを例示した図である。 時間構造情報を例示した図である。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
従来からある次話者及び発話開始タイミングの予測技術は、会話の参加者の視線、呼吸、頭部動作などの非言語情報と、話者交替の状況の一般的なルールをモデル化したものである。従って、次話者及び発話開始タイミングの予測結果が、実際の次話者や発話開始タイミングと合致しないということは、一般的なルールを逸脱した状況が発生したことを意味する。よって、予測結果に反して発話を行った人物や、発話を行えなかった人物は、一般的な会話のルールに乗っ取って発話を行えないことから、コミュニケーションスキル(以下、「スキル」とも記載する。)が低いと考えられる。
そこで、本実施形態のコミュニケーションスキル評価システムは、従来技術による予測器を用いて、会話中の各発話が終了したところで、各参加者の次話者確率を予測する。次話者確率は、参加者が次の話者となる確率である。コミュニケーションスキル評価システムは、参加者が、自分の次話者確率が高い時に発話を行ったとき、あるいは、自分の次話者確率が低い時に発話を行わなかったときに、その参加者のコミュニケーションスキルが高いと判定する。具体的には、コミュニケーションスキルを判定するために、コミュニケーションスキル評価システムは、以下の第1パラメータS及び第2パラメータSの2つのスキル判別パラメータを算出する。
第1パラメータS:第1パラメータSは、参加者が発話した際に、コミュニケーションスキルを判別する値である。ある参加者が発話した際に、予測器が出力したその参加者の次話者確率が高ければ、第1パラメータSの値が大きく、逆に予測器が出力した次話者確率が低ければ、第1パラメータSの値が小さくなる。つまり、第1パラメータSの値が大きいほど、高いコミュニケーションスキルを有すると判定される。
第2パラメータS:第2パラメータSは、参加者が発話しなかった際に、コミュニケーションスキルを判別する値である。ある参加者が発話しなかった際に、予測器が出力したその参加者の次話者確率が低ければ、第2パラメータSの値が大きく、逆に予測器が出力した確率が高ければ、第2パラメータSの値が小さくなる。つまり、第2パラメータSの値が大きいほど、高いコミュニケーションスキルを有すると判定される。
本発明の実施形態によるコミュニケーションスキル評価システムは、会話の参加者のコミュニケーションスキルを、適切なタイミングで発話を行えたかを判別可能な定量的な値により表す上記の2つのスキル判別パラメータにより判定する。
なお、本実施形態で取り扱う会話は、参加者が対面して行う会話でもよく、テレビ電話やビデオチャットなど映像を用いた会話でもよい。また、対面で会話する参加者と映像を用いて会話する参加者とが存在してもよい。
図1は、本発明の一実施形態によるコミュニケーションスキル評価システム1の構成を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図に示すように、コミュニケーションスキル評価システム1は、音声入力装置2(音声入力部)、計測装置3(計測部)、及び、コミュニケーションスキル評価装置5を備えて構成される。
音声入力装置2は、例えばマイクロホンであり、各参加者の音声を入力する。計測装置3は、各参加者の非言語行動を計測する。計測する非言語行動は、視線、頭部の動き、及び、呼吸のうち1以上を含む。音声入力装置2及び計測装置3はそれぞれ、複数台であってもよい。例えば、各参加者に音声入力装置2及び計測装置3が装着され得る。
コミュニケーションスキル評価装置5は、例えば、コンピュータ装置により実現される。コミュニケーションスキル評価装置5は、受信部51、記憶部52、発話区間検出部53、次話者推定部54、及び、評価部55を備える。
受信部51は、音声入力装置2から会話中の参加者の音声データを受信し、参加者の識別情報と、その参加者の音声データとを対応付けた音声情報を記憶部52に書き込む。音声データには、音声が得られた時刻の情報が含まれる。また、受信部51は、計測装置3から会話中の各参加者の非言語行動に関する計測結果を示すデータを受信し、参加者の識別情報と、その参加者の時系列の非言語行動の計測結果のデータとを対応付けた計測情報を記憶部52に書き込む。
発話区間検出部53は、既存の任意の技術により、各参加者の音声データから得られる音声特徴量に基づいて、各参加者が発話を行った区間を検出する。会話中のn回目の発話をIPUとする(nは1以上N+1以下の整数、N+1は会話中の発話の総数)。発話区間検出部53は、発話IPUの発話終了時刻と、次の発話IPUn+1の発話者in+1と、発話IPUn+1の発話開始時刻t n+1を出力する。
次話者推定部54は、既存の任意の技術により、会話中の各参加者の次話者確率を算出する予測器である。会話の参加者の数をL人(Lは2以上の整数)、i番目の参加者(iは1以上L以下の整数)を参加者Uとする。次話者推定部54は、発話IPUの発話末に、会話中の各参加者の非言語行動の計測値に基づいて、各参加者Uが時刻tに次の発話IPUn+1の発話者になる確率である次話者確率P n+1(t)を算出する。
評価部55は、第1パラメータ算出部551、第2パラメータ算出部552、及び、評価結果出力部553を備える。
第1パラメータ算出部551は、各参加者の第1パラメータSを算出する。参加者Uの第1パラメータSを第1パラメータS と記載する。第1パラメータS は、参加者Uが発話した際に、次話者推定部54が推定したその発話時刻における次話者確率P n+1(t)がどれくらい高かったかを示す。第1パラメータS は、参加者Uが発話者である発話IPU 〜IPU m+1(mはN以下の整数)を利用すると、以下の式(1)のように算出される。式(1)において、t j+1は、参加者Uが発話者である発話IPU j+1の発話開始時刻である。右辺のΣの中の式は、参加者Uが発話IPUj+1を開始した時刻t j+1の次話者確率P j+1(t)がどれくらい高かったかを示す。1/Lは、次話者確率の期待値である。なお、以下の式(1)の右辺の算出結果を発話数mにより除算した値を、第1パラメータS として用いてもよい。第1パラメータS の値が大きいほど、参加者Uのコミュニケーションスキルが高いことを表す。
Figure 2017116716
第2パラメータ算出部552は、各参加者の第2パラメータSを算出する。参加者Uの第2パラメータSを第2パラメータS と記載する。第2パラメータS は、参加者Uが発話をせず、他の参加者が発話をした際に、次話者推定部54が算出したその発話時刻における次話者確率P n+1(t)がどれくらい低かったかを示す。第2パラメータS は、参加者U以外が発話者である発話IPU 〜IPU o+1(oはN以下の整数)を利用すると、以下の式(2)のように算出される。式(2)において、t j+1は、参加者U以外が発話者である発話IPU j+1の発話開始時刻である。右辺のΣの中の式は、参加者U以外の参加者が発話IPUj+1を開始した時刻t j+1の次話者確率P j+1(t)がどれくらい低かったかを示す。なお、以下の式(2)の右辺の算出結果を発話数oにより除算した値を、第2パラメータS として用いてもよい。第2パラメータS の値が大きいほど、参加者Uのコミュニケーションスキルが高いことを表す。
Figure 2017116716
評価結果出力部553は、各参加者の第1パラメータと第2パラメータに基づく評価結果を出力する。
なお、コミュニケーションスキル評価装置5は、1台のコンピュータ装置により実現してもよく、ネットワークにより接続される複数のコンピュータ装置により実現してもよい。コミュニケーションスキル評価装置5を複数のコンピュータ装置により実現する場合、各機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。また、1つの機能部を、複数台のコンピュータ装置により実現してもよい。
図2は、コミュニケーションスキル評価システム1の動作を示すフロー図である。
コミュニケーションスキル評価システム1は、会話中の各参加者の音声のデータ及び非言語行動のデータと、会話中の映像データを収集する(ステップS105)。すなわち、音声入力装置2は、会話中の各参加者の音声のデータを送信し、計測装置3は、会話中に計測した各参加者の非言語行動のデータを送信する。受信部51は、音声入力装置2から受信した参加者の音声のデータに基づいて音声情報を記憶部52に書き込む。さらに、受信部51は、計測装置3から受信した各参加者の非言語行動の計測結果を示すデータに基づいて計測情報を記憶部52に書き込む。
発話区間検出部53は、記憶部52に記憶されている各参加者の音声のデータに基づいて、参加者が発話を行った区間を検出する(ステップS110)。例えば、発話区間検出部53は、1つの発話の区間を、2つの所定時間連続した無音区間で囲まれた、同一の参加者の発話成分が存在する少なくとも1つの区間を含む時間区間とする。すなわち、発話区間検出部53は、いずれの話者も発話していない無音区間が所定時間経過した場合に、その無音区間の開始を発話末と判断する。発話区間検出部53は、全ての参加者の発話の区間を時刻順に並べて発話IPU、IPU、…、IPUN+1とする。なお、発話区間の検出には、例えば、特開平5−323996号公報に記載の技術などを用いもよい。発話区間検出部53は、発話IPU、IPU、…、IPUN+1それぞれの発話区間の情報と、発話IPU、IPU、…、IPUN+1それぞれの発話者が参加者U〜Uのいずれの人物であるかの情報とを対応付けた発話情報を生成する。発話区間検出部53は、生成した発話情報を評価部55に出力する。
次話者推定部54は、各発話IPU(nは1以上N以下の整数)の終了時点において、又は、その終了時点以降に、記憶部52に記憶される計測情報に基づいて、各参加者U(iは1以上L以下の整数)の次話者確率P n+1(t)を算出する(ステップS115)。次話者確率P n+1(t)は、発話IPU終了後の時刻tにおいて参加者Uが次話者となる確率である。次話者推定部54は、各参加者について算出した次話者確率を評価部55に出力する。
評価部55は、参加者U〜Uのうち、評価対象の参加者Uを選択する。評価対象の参加者Uは、全ての参加者でもよく、ユーザが評価対象としてコミュニケーションスキル評価装置5に入力した参加者でもよい(ステップS120)。
評価部55の第1パラメータ算出部551は、発話情報に基づき、発話IPU、…、IPUN+1のうち、評価対象の参加者Uが発話者である発話IPUを選択する(ステップS125)。選択された発話IPUを発話IPU 、IPU 、…、IPU m+1とする。第1パラメータ算出部551は、選択した発話IPU 〜IPU m+1を用いて、上述した式(1)により、参加者Uの第1パラメータS を算出する(ステップS130)。なお、第1パラメータ算出部551は、選択した発話IPU j+1(jは1以上m以下の整数)それぞれの発話開始時刻t j+1を発話情報から取得する。
続いて、第2パラメータ算出部552は、発話情報に基づき、発話IPU、…、IPUN+1のうち、評価対象の参加者Uが発話者ではない発話IPUを選択する(ステップS135)。選択された発話IPUを発話IPU 、IPU 、…、IPU o+1とする。第2パラメータ算出部552は、選択した発話IPU 〜IPU o+1を用いて、上述した式(2)により、参加者Uの第2パラメータS を算出する(ステップS140)。なお、第2パラメータ算出部552は、選択した発話IPU j+1(jは1以上o以下の整数)それぞれの発話開始時刻t j+1を発話情報から取得する。
評価部55は、評価対象の全ての参加者を選択したか否かを判断する(ステップS145)。未選択の評価対象の参加者がいると判断した場合(ステップS145:NO)、ステップS120からの処理を繰り返す。そして、評価部55が、評価対象の全ての参加者を選択したと判断した場合(ステップS145:YES)、評価結果出力部553は、ステップS150の処理を行う。すなわち、評価結果出力部553は、評価対象の各参加者について算出した第1パラメータと第2パラメータの値を評価結果として出力する(ステップS150)。例えば、評価結果出力部553は、評価結果を、コミュニケーションスキル評価装置5が備える図示しないディスプレイに表示してもよく、記録媒体に書き込んでもよく、コミュニケーションスキル評価装置5とネットワークを介して接続されるコンピュータ装置などに送信してもよい。
なお、評価結果出力部553は、第1パラメータと第2パラメータのいずれかのみを評価結果として出力してもよく、第1パラメータと第2パラメータの平均を評価結果として出力してもよく、第1パラメータと第2パラメータのそれぞれに所定の重み付けを行ったのちに加算した結果を出力してもよい。また、評価結果出力部553は第1パラメータの値や第2パラメータの値に応じたアドバイスなどを記憶部52から読み出し、評価結果に含めて出力してもよい。
なお、コミュニケーションスキル評価システム1は、会話中に、それまでの会話で収集した音声データ及び計測データを用いて、図2に示す処理フローをリアルタイムに実行してもよい。この場合、コミュニケーションスキル評価装置5は、ステップS115において、すでに算出済みの次話者確率については算出しなくてもよい。
上述したように本実施形態のコミュニケーションスキル評価システムは、音声入力装置により、会話中の参加者の音声データを入力し、計測装置により複数の参加者それぞれの会話中の非言語行動を計測する。コミュニケーションスキル評価システムが備えるコミュニケーションスキル評価装置は、音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する。さらに、コミュニケーションスキル評価装置は、計測装置による計測結果に基づいて、会話中の各発話の終了後に参加者それぞれが次に発話を行う確率である次話者確率を推定する。コミュニケーションスキル評価装置は、参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に当該参加者が発話したとき又は当該参加者が発話しなかったときの当該参加者の次話者確率に基づいて算出する。
また、コミュニケーションスキル評価装置は、参加者が発話したときの当該参加者の次話者確率と、次話者確率の期待値との乖離に基づき、参加者が発話したときの当該参加者の次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者のスキル判別パラメータの値を算出する。
また、コミュニケーションスキル評価装置は、参加者が発話しなかったときの当該参加者の次話者確率と、次話者確率の期待値との乖離に基づいて、参加者が発話しなかったときの当該参加者の次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者のスキル判別パラメータの値を算出する。
上述した実施形態によれば、会話の参加者が適切なタイミングで発話を行えたかによってコミュニケーションスキルを評価するための定量的な値を出力できる。
なお、コミュニケーションスキル評価システム1における次話者推定技術には、例えば、以下の参考文献1、2の技術などを適用することができるが、任意の既存の技術を利用してもよい。参考文献1、2では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。
(参考文献1)特開2014−238525公報
(参考文献2)石井亮,外4名,“複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測”,人工知能学会研究会資料,SIG-SLUD-B301-06, pp.27-34, 2013.
以下に、本実施形態に適用可能な参考文献1,2以外の次話者推定技術の例を示す。
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本次話者推定技術では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。
以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A、A≧2)には呼吸動作計測装置および音声情報取得装置が装着される。呼吸動作計測装置は、参加者Pの呼吸動作を計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て、推定装置に出力する。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化する。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。各呼吸動作計測装置は、正規化されたRSP値を呼吸情報Ba,tとして推定装置に送る。
さらに、音声情報取得装置は、参加者Pの音声を取得し、各離散時刻tでの参加者Pの音声を表す音声情報Va,tを得て、推定装置に出力する。推定装置は、入力された音声情報Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。本次話者推定技術では、1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。これにより、推定装置は、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得る。
推定装置は、各参加者Pの呼吸情報Ba,tを用いて、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得する。息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す。
図3は、息の吸い込み区間の例を示す図である。図3を用いて、息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図3に例示するように、例えば、
Figure 2017116716
が成り立つとき、離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに
Figure 2017116716
が成り立つとき、離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。
推定装置は、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
推定装置は、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
推定装置は、例えば発話区間Uk+1を表す情報が得られ、さらに、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベースに記録する。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持され、推定装置が発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。
推定装置は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得る。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。
推定装置は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、このモデルを用いて特徴量に対する推定情報を得る。特徴量fa,kは、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
推定装置による次発話者/発話タイミング推定処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
次発話者推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報を読み出す。推定装置は、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。
推定装置は、パラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部とする。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが次話者になる確率を、P1とする。
発話タイミング推定モデルを学習する場合、推定装置は、学習データとして、データベースから過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報を読み出す。推定装置は、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。
推定装置は、発話者Puk、パラメータλ’a,kの少なくとも一部、および次発話者推定モデルにより推定された次発話者Puk+1が得られると、パラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用する。推定装置は、特徴量F2a,kを発話タイミング推定モデルに適用して推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。参加者Pが時刻tに発話を開始する確率(時刻tが参加者Pの発話タイミングである確率)を、P2(t)とする。
上述した実施形態のコミュニケーションスキル評価装置5の次話者推定部54が推定する参加者Uの次話者確率P n+1(t)は、参加者Uが本次話者推定技術における参加者Pである場合、確率P1×確率P2(t)により算出される。
上述の推定装置は、呼吸動作の観測値に基づいて次に発話を開始する参加者およびタイミングを推定しているが、さらに、視線の観測値を用いてもよい。
視線行動をさらに利用する場合、各参加者P(ただし、a=1,…,A)には注視対象検出装置がさらに装着される。注視対象検出装置は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を推定装置に送る。推定装置は、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。ここでは、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
推定装置は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図4に注視対象ラベルの具体例を示す。図4はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図4の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図4の例では、V=6である。
推定装置は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図4の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
推定装置は、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図4の例を考えると、参加者P1の注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。
注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、注視対象遷移パターンEa,kが、パラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
推定装置は、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図4の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図5を用いて具体的に示す。図5は、話者である参加者P1(R=S)の注視対象ラベルL1についての時間構造情報を示したものである。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者P2の注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図5の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベースに送られる。データベースでは、時間構造情報Θv,kが、パラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベースに保持される。
推定装置は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。
以上、本発明の実施形態を説明したが、上述のコミュニケーションスキル評価装置5の機能をコンピュータで実現するようにしてもよい。その場合、コミュニケーションスキル評価装置5の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
複数の参加者が会話を行う場合に適用可能である。
1 コミュニケーションスキル評価システム
2 音声入力装置
3 計測装置
5 コミュニケーションスキル評価装置
51 受信部
52 記憶部
53 発話区間検出部
54 次話者推定部
55 評価部
551 第1パラメータ算出部
552 第2パラメータ算出部
553 評価結果出力部

Claims (7)

  1. 会話中の参加者の音声データを入力する音声入力部と、
    会話中の前記参加者の非言語行動を計測する計測部と、
    前記音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
    前記計測部による計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
    前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、
    を備えることを特徴とするコミュニケーションスキル評価システム。
  2. 会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話した参加者とを検出する発話区間検出部と、
    前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定部と、
    前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価部と、
    を備えることを特徴とするコミュニケーションスキル評価装置。
  3. 前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率が高いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する、
    ことを特徴とする請求項2に記載のコミュニケーションスキル評価装置。
  4. 前記評価部は、前記参加者が発話したときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する、
    ことを特徴とする請求項3に記載のコミュニケーションスキル評価装置。
  5. 前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率が低いほど、コミュニケーションスキルが高いことを表す値となるように当該参加者の前記スキル判別パラメータの値を算出する、
    ことを特徴とする請求項2から請求項4のいずれか一項に記載のコミュニケーションスキル評価装置。
  6. 前記評価部は、前記参加者が発話しなかったときの当該参加者の前記次話者確率と、次話者確率の期待値との乖離に基づいて当該参加者の前記スキル判別パラメータの値を算出する、
    ことを特徴とする請求項5に記載のコミュニケーションスキル評価装置。
  7. コンピュータに、
    会話中の参加者の音声データに基づいて各発話の開始及び終了の時刻と発話者とを検出する発話区間検出ステップと、
    前記参加者の会話中の非言語行動の計測結果に基づいて、会話中の各発話の終了後に前記参加者それぞれが次に発話を行う確率である次話者確率を推定する次話者推定ステップと、
    前記参加者のコミュニケーションスキルを定量的に表すスキル判別パラメータの値を、会話中に前記参加者が発話したとき又は前記参加者が発話しなかったときの前記参加者の前記次話者確率に基づいて算出する評価ステップと、
    を実行させるためのコミュニケーションスキル評価プログラム。
JP2015251546A 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム Active JP6363986B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015251546A JP6363986B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015251546A JP6363986B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Publications (2)

Publication Number Publication Date
JP2017116716A true JP2017116716A (ja) 2017-06-29
JP6363986B2 JP6363986B2 (ja) 2018-07-25

Family

ID=59234724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015251546A Active JP6363986B2 (ja) 2015-12-24 2015-12-24 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム

Country Status (1)

Country Link
JP (1) JP6363986B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010536053A (ja) * 2007-07-06 2010-11-25 ゼロ・トゥ・ワン・テクノロジー 電子的に会話を解析する方法および対応するシステム
US20140297277A1 (en) * 2013-03-28 2014-10-02 Educational Testing Service Systems and Methods for Automated Scoring of Spoken Language in Multiparty Conversations
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010536053A (ja) * 2007-07-06 2010-11-25 ゼロ・トゥ・ワン・テクノロジー 電子的に会話を解析する方法および対応するシステム
US20140297277A1 (en) * 2013-03-28 2014-10-02 Educational Testing Service Systems and Methods for Automated Scoring of Spoken Language in Multiparty Conversations
JP2014238525A (ja) * 2013-06-10 2014-12-18 日本電信電話株式会社 推定装置、推定方法、およびプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019093392A1 (ja) * 2017-11-10 2019-05-16 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム
JPWO2019093392A1 (ja) * 2017-11-10 2020-10-22 日本電信電話株式会社 コミュニケーションスキル評価システム、装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP6363986B2 (ja) 2018-07-25

Similar Documents

Publication Publication Date Title
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
Pentland Social signal processing [exploratory DSP]
Ishii et al. Analysis of respiration for prediction of" who will be next speaker and when?" in multi-party meetings
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
US9876901B1 (en) Conversational call quality evaluator
JP6397250B2 (ja) 集中度推定装置、方法及びプログラム
WO2020148920A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
Włodarczak et al. Respiratory turn-taking cues
JP2018077791A (ja) 推定方法及び推定システム
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
Byun et al. Honest signals in video conferencing
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP6363986B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP2016042345A (ja) 推定装置、その方法およびプログラム
JP7364348B2 (ja) サービス提供装置、サービス提供システム、および、サービス提供方法
JP6335157B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
Tahir et al. Real-time sociometrics from audio-visual features for two-person dialogs
Lu et al. Prediction of head motion from speech waveforms with a canonical-correlation-constrained autoencoder
Chen et al. Inference of conversation partners by cooperative acoustic sensing in smartphone networks
Brueckner et al. Spotting social signals in conversational speech over IP: A deep learning perspective

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180629

R150 Certificate of patent or registration of utility model

Ref document number: 6363986

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150