JP2020046479A - 出力装置及び出力方法 - Google Patents

出力装置及び出力方法 Download PDF

Info

Publication number
JP2020046479A
JP2020046479A JP2018172893A JP2018172893A JP2020046479A JP 2020046479 A JP2020046479 A JP 2020046479A JP 2018172893 A JP2018172893 A JP 2018172893A JP 2018172893 A JP2018172893 A JP 2018172893A JP 2020046479 A JP2020046479 A JP 2020046479A
Authority
JP
Japan
Prior art keywords
utterance
movement
line
statistic
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018172893A
Other languages
English (en)
Other versions
JP6966404B2 (ja
Inventor
一郎 馬田
Ichiro Umada
一郎 馬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018172893A priority Critical patent/JP6966404B2/ja
Publication of JP2020046479A publication Critical patent/JP2020046479A/ja
Application granted granted Critical
Publication of JP6966404B2 publication Critical patent/JP6966404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】説明発話の能力を推定する精度を向上させる。【解決手段】出力装置1は、インタラクションにおける話者の発話を含む音声データから、話者が発話した期間である複数の発話期間を特定する発話期間特定部121と、話者の視線に関する視線データから、複数の発話期間それぞれにおける話者の視線移動の回数を特定する移動回数特定部123と、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第1統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第2統計量とを算出する算出部124と、第1統計量と第2統計量とに対応する指標を出力する出力部128と、を有する。【選択図】図2

Description

本発明は、説明発話の能力に関する情報を出力する出力装置及び出力方法に関する。
従来、プレゼンテーションスキルを向上させるための情報を提供する装置が知られている。特許文献1には、発声された音声を解析することによって算出した説明の適切度に基づいてアドバイスを行う技術が記載されている。
特開平02−223983号公報
特許文献1のような技術によって解析された説明の適切度を用いることにより、話者のプレゼンテーションスキルを推定することができるようにも思える。しかしながら、プレゼンテーションをはじめとする説明発話においては、話し手である話者と聞き手である参加者との相互作用が生じる。例えば、話者は、説明発話の内容が伝わっているかを参加者の反応を確認しながら発話することが考えられる。このような点に鑑みると、話者の説明発話の能力を推定するためには、従来の技術のように話者の音声のみを解析処理するだけでは不十分である。
そこで、本発明はこれらの点に鑑みてなされたものであり、説明発話の能力を推定する精度を向上させることができる出力装置及び出力方法を提供することを目的とする。
本発明の第1の態様に係る出力装置は、インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定する発話期間特定部と、前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定する移動回数特定部と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第1統計量と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動のばらつきを示す第2統計量とを算出する算出部と、前記第1統計量と前記第2統計量とに対応する指標を出力する出力部と、を有する。
前記移動回数特定部は、前記話者の視線の移り変わりに基づいて定められた複数の前記視線移動の種類それぞれの回数を特定してもよいし、前記算出部は、前記発話期間ごとに、前記インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、前記視線移動の回数に重み付けしてもよい。
前記移動回数特定部は、前記複数の視線移動の種類として、前記インタラクションに参加した1人の参加者がいる方向から他の前記参加者がいる方向への前記視線移動である第1視線移動と、1人の前記参加者がいる方向から前記参加者がいない方向への前記視線移動である第2視線移動と、前記参加者がいない方向から1人の前記参加者がいる方向への前記視線移動である第3視線移動と、前記参加者がいない方向から前記参加者がいない他の方向への前記視線移動である第4視線移動と、のそれぞれの回数を特定してもよい。
前記算出部は、前記インタラクションの内容に応じて定められる、前記インタラクションに参加した参加者と前記参加者以外の物体とを含む対象物の重要度に基づいて、前記対象物を含む前記視線移動の回数に重み付けしてもよい。
前記発話期間特定部は、前記インタラクションにおける複数の前記話者それぞれの発話を含む前記音声データから、前記話者ごとに前記複数の発話期間を特定してもよいし、前記算出部は、前記話者ごとに、前記第1統計量と前記第2統計量とを算出してもよいし、前記出力部は、複数の前記第1統計量及び複数の前記第2統計量それぞれに対応する複数の前記指標を、前記複数の話者それぞれに関連付けて出力してもよい。
前記発話期間特定部は、前記話者が発話を開始した時点より所定時間前の時点を前記発話期間の開始時点として、前記複数の発話期間を特定してもよい。
前記算出部は、前記発話期間ごとに、時間の経過とともに前記視線移動の回数の重み付けが低くなる減衰関数を用いて、前記視線移動の回数に重み付けしてもよい。
前記出力装置は、前記発話期間特定部が特定した前記複数の発話期間のうち、前記発話期間の長さが所定の閾値を超える一部の前記発話期間を選択する選択部をさらに有してもよいし、前記算出部は、前記インタラクションの期間における前記一部の発話期間中の前記視線移動の回数の多少を示す前記第1統計量と、前記インタラクションの期間における前記一部の発話期間中の前記視線移動のばらつきを示す前記第2統計量とを算出してもよい。
前記算出部は、前記複数の視線移動それぞれにおける、前記話者の視線が一の方向から他の方向に向くまでの前記視線移動の期間の長短を示す第3統計量を算出してもよいし、前記出力部は、前記第1統計量と第3統計量とがそれぞれ所定の閾値以内である場合に、前記指標を出力してもよい。
本発明の第2の態様に係る出力方法は、コンピュータが実行する、インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定するステップと、前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定するステップと、前記インタラクションの期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第1統計量と、前記インタラクションの期間における前記複数の発話期間中の前記視線移動のばらつきを示す第2統計量とを算出するステップと、前記第1統計量と前記第2統計量とに対応する指標を出力するステップと、を有する出力方法。
本発明によれば、説明発話の能力を推定する精度を向上させることができるという効果を奏する。
出力装置の概要を説明するための図である。 出力装置の構成を示す図である。 インタラクション全体の期間における話者の視線移動を模式的に表した図である。 係数管理データベースの構成の一例を示す図である。 出力部が出力した出力画面の一例を示す図である。 出力装置の処理の流れを示すフローチャートである。
[出力装置1の概要]
本願の発明者は、様々なブレインストーミングを観察して話者の言動を分析したところ、説明発話の能力が高い話者においては、発話の切れ目又は単語単位等にとらわれることなく視線が動き、説明発話の能力が低い話者においては、発話の切れ目又は単語単位等に関連して視線が動くことが多くなることを見出した。この現象は、説明発話の能力が低い話者が、聞き手に対する注視行動よりも発話行動に意識が向いているためであることが考えられる。そこで、本実施の形態では、上記の現象を利用して、発話中の話者の視線移動を解析することによって推定した説明発話の能力に関する情報を提供する。
図1は、出力装置1の概要を説明するための図である。出力装置1は、インタラクションにおける話者の説明発話の能力に関する情報を出力する装置であり、例えばコンピュータである。本実施の形態におけるインタラクションは、人と人との相互作用と、人と物との相互作用とを含む。図1に示す例において、人は、話し手である話者(ユーザA)、及び聞き手である参加者(ユーザB及びユーザC)であり、物は、話者がいる部屋等の空間にある物体(テーブルに置かれた資料、及び部屋の隅に置かれている植物)である。
出力装置1には、インタラクションにおける話者の発話を含む音声データと、話者の視線に関する視線データとが予め記憶されている。音声データは、例えば、話者が着用する衣服に取り付けられた不図示のピンマイクから録音されたデータである。視線データは、例えば、不図示の視線センサを介して検出した話者の視線の向きと、話者がいる空間(部屋)に存在する物体(人を含む)の位置を示す空間情報に基づいて特定される話者の視線先に含まれる物体とを関連付けたデータである。
出力装置1は、例えば、赤外光を用いたプルキニエ検出による手法を用いて話者の視線の向きを検出してもよいし、画像処理による黒眼領域及び白眼領域の検出を用いた手法を用いて話者の視線の向きを検出してもよい。また、出力装置1は、話者の頭部の向きに基づいて視線の向きを推定してもよい。この場合、出力装置1は、モーションキャプチャー装置、赤外線センサ、又は加速度センサ等を用いて頭部の動作を検出してもよい。出力装置1は、音声データと視線データとを、不図示の通信部を介してリアルタイムに取得してもよい。
まず、出力装置1は、音声データから、ユーザAが発話した期間である複数の発話期間(例えば、第1の発話期間、第2の発話期間)を特定する(図1の(1))。出力装置1は、複数の発話期間を特定すると、視線データから、複数の発話期間それぞれにおけるユーザAの視線移動の回数(例えば、第1の発話期間における視線移動の回数「1回」、第2の発話期間における視線移動の回数「3回」)を特定する(図1の(2))。
出力装置1は、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第1統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第2統計量とを算出する(図1の(3))。第1統計量は、例えば、視線移動の平均回数又は最頻値である。第2統計量は、例えば、視線移動の回数の標準偏差や平均偏差である。
例えば、発話中の視線移動が少ない(第1統計量及び第2統計量それぞれが示す数値が低い)話者においては、発話行動に意識が向いているため、説明発話の能力が低いと推定される。一方、発話中の視線移動が多い(第1統計量及び第2統計量それぞれが示す数値が高い)話者においては、参加者に対する注視行動に意識が向いているため、説明発話の能力が高いと推定される。
そして、出力装置1は、算出した第1統計量と第2統計量とに対応する指標を出力する(図1の(4))。出力装置1は、例えば、第1統計量が示す数値が高い場合、発話中の話者の意識が参加者に対する注視行動に向いているため、説明発話の能力が高いと推定する。一方、出力装置1は、例えば、第1統計量が示す数値が低い場合、発話中の話者の意識が発話行動のみに向いているため、説明発話の能力が低いと推定する。また、出力装置1は、第2統計量に基づいて、説明発話の能力の安定性を推定する。
このように、出力装置1は、発話中の話者の視線移動を解析することにより、話者が発話中にどこに意識が向いているかを推定することができる。その結果、出力装置1は、説明発話の能力を推定する精度を向上させることができる。
以下、出力装置1の構成について説明する。
[出力装置1の構成]
図2は、出力装置1の構成を示す図である。出力装置1は、記憶部11と、制御部12とを有する。記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体である。記憶部11は、制御部12が実行するプログラムを記憶している。また、記憶部11は、音声データ及び視線データを記憶している。
制御部12は、例えばCPU(Central Processing Unit)である。制御部12は、記憶部11に記憶されたプログラムを実行することにより、発話期間特定部121、選択部122、移動回数特定部123、算出部124、判定部127、及び出力部128として機能する。
発話期間特定部121は、音声データから、話者が発話した期間である複数の発話期間を特定する。例えば、発話期間特定部121は、まず、音声データにおいて、話者の発話が終了してから次の発話が開始されるまでの期間が所定の閾値以上(例えば300ミリ秒以上)である空白期間を特定する。そして、発話期間特定部121は、特定した複数の空白期間で音声データを区切ることにより、複数の発話期間を特定する。
また、発話期間特定部121は、例えば、音量又はケプストラム等の音響特性を解析するように学習された機械学習モデル(例えば、SVM(Support Vector Machine)、HMM(Hidden Markov Model)、又はDNN(Deep Neural Network)等)を用いて、複数の発話期間を特定してもよい。また、発話期間特定部121は、例えば、形態素を解析するように学習された機械学習モデルを用いて、単語又はフレーズの境界で区切ることにより、複数の発話期間を特定してもよい。
説明発話の能力が高い話者は、発話期間において発話する内容を考える思考期間においても、参加者又は物体に視線を向けていることが多いということを本願の発明者は見出した。そこで、発話期間特定部121は、話者が発話を開始した時点より所定時間前(例えば300ミリ秒前)の時点を発話期間の開始時点として、複数の発話期間を特定してもよい。このように、発話期間特定部121は、思考期間を発話期間に含めることにより、説明発話の能力を推定する精度を向上させることができる。
発話期間特定部121は、インタラクションにおける複数の話者それぞれの発話を含む音声データから、話者ごとに複数の発話期間を特定してもよい。発話期間特定部121は、1つの音声データから、会議に参加した複数の参加者それぞれを特定し、特定した参加者に関連付けて複数の発話期間を特定してもよい。また、発話期間特定部121は、会議等に参加した複数の参加者それぞれに対応する複数の音声データから、参加者それぞれに対応する複数の発話期間を特定してもよい。発話期間特定部121は、特定した複数の発話期間を示す情報を選択部122に入力する。
ブレインストーミングにおいては、ある参加者が発話した内容に、他の参加者が相槌する場合がある。相槌は、他の話者の発話に対する同意等を示すものであるため、相槌した発話期間を説明発話の能力を推定するために用いるのは適切ではないことが考えられる。選択部122は、発話期間特定部121が特定した複数の発話期間から相槌した発話期間を除外する。具体的には、選択部122は、まず、発話期間特定部121が特定した複数の発話期間のうち、発話期間の長さが所定の閾値(例えば400ミリ秒)を超える一部の発話期間を選択する。そして、選択部122は、選択した一部の発話期間を示す情報を移動回数特定部123に入力する。
選択部122は、発話期間特定部121が特定した複数の発話期間それぞれに対して、発話内容を解析するように学習された機械学習モデルを用いて、相槌発話である発話期間を除去してもよい。このように、選択部122は、相槌した発話期間を除外することにより、説明発話の能力を推定する精度を向上させることができる。
移動回数特定部123は、視線データから、発話期間特定部121が特定した複数の発話期間それぞれにおける話者の視線移動の回数を特定する。移動回数特定部123は、視線データから、選択部122が選択した一部の発話期間それぞれにおける話者の視線移動の回数を特定してもよい。
具体的には、移動回数特定部123は、話者の視線の移り変わりに基づいて定められた複数の視線移動の種類それぞれの回数を特定する。より具体的には、移動回数特定部123は、複数の視線移動の種類として、第1視線移動と、第2視線移動と、第3視線移動と、第4視線移動と、のそれぞれの回数を特定する。
第1視線移動は、インタラクションに参加した1人の参加者がいる方向から他の参加者がいる方向への視線移動である。第2視線移動は、1人の参加者がいる方向から参加者がいない方向への視線移動である。第3視線移動は、参加者がいない方向から1人の参加者がいる方向への視線移動である。第4視線移動は、参加者がいない方向から参加者がいない他の方向への視線移動である。
「参加者がいる方向」は、図1に示す例において、ユーザB及びユーザCのうちのいずれかがいる方向である。「参加者がいない方向」は、図1に示す例において、話者がいる環境にある物体である、テーブルに置かれた資料、及び部屋の隅に置かれている植物のうちのいずれかがある方向である。
「参加者がいない方向」は、例えば、話者が宙(天井)を見上げた方向等の参加者がいない方向及び物体が無い方向であってもよい。また、「参加者がいない方向」は、話者自身の身体(例えば、手、足、又は腹等)への方向、複数の参加者を含む領域への方向(例えば、基調講演において聴衆がいる方向)、又は複数の参加者を含む領域以外への方向(例えば、基調講演において聴衆がいない方向)、参加者が書き込んでいる図面への方向、又は参加者が見ている対象物と同じ対象物がある方向等であってもよい。
図3は、インタラクション全体の期間における話者(図1に示すユーザA)の視線移動を模式的に表した図である。図3に示す縦方向への破線の矢印は、発話期間内での視線移動を示す。図3に示す視線移動M1、M6、M7は、第1視線移動に属する。図3に示す視線移動M2は、第2視線移動に属する。図3に示す視線移動M4、M5は、第3視線移動に属する。図3に示す視線移動M3は、第4視線移動に属する。図3に示すように、発話期間特定部121が、インタラクション全体の期間において、発話期間T1、T2、T3、T4を特定したとする。
この場合において、移動回数特定部123は、発話期間T1において、第1視線移動(M1)を1回と特定する。また、移動回数特定部123は、発話期間T2において、第2視線移動(M2)、第3視線移動(M4)、第4視線移動(M3)を、それぞれ1回と特定する。また、移動回数特定部123は、発話期間T3において、第1視線移動(M6、M7)を2回と特定し、第3視線移動(M5)を1回と特定する。移動回数特定部123は、発話期間T4においては、当該期間中の視線移動が無いので視線移動の回数の特定を行わない。図2に戻り、移動回数特定部123は、発話期間と、特定した視線移動の回数とを関連付けて算出部124に入力する。
算出部124は、重み付け部125と、統計量算出部126とを有する。重み付け部125は、発話期間ごとに、インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、視線移動の回数に重み付けする。視線移動の種類ごとの重要度は、重要度が示す修正係数を管理する係数管理データベースに予め記憶されている。
図4は、係数管理データベースの構成の一例を示す図である。図4に示すように、係数管理データベースは、重要度が示す修正係数を、視線移動の種類ごとに関連付けて記憶している。重み付け部125は、発話期間ごとに、視線移動の種類ごとに関連付けて係数管理データベースに記憶されている重要度が示す修正係数を、第1視線移動、第2視線移動、第3視線移動、及び第4視線移動それぞれの回数に乗じることにより重み付けする。
具体的には、重み付け部125は、まず、発話期間ごとに、各種類の視線移動(第1視線移動、第2視線移動、第3視線移動、及び第4視線移動)の回数を、発話期間の時間長で正規化する。そして、重み付け部125は、発話期間ごとに、視線移動の種類ごとに関連付けて係数管理データベースに記憶されている重要度が示す修正係数を、正規化した各種類の視線移動の回数に乗じることにより重み付けする。
図3に示す例において、発話期間T1は5秒であり、発話期間特定部121が特定した複数の発話期間のうち最も期間が長い発話期間T2は15秒であるとする。この場合において、重み付け部125は、まず、最も期間が発話期間T2(15秒)を発話期間T1(5秒)で割って得られた数値「3」を、移動回数特定部123が発話期間T1において特定した第1視線移動(M1)の回数「1回」に乗じることにより、発話期間T1の時間長で正規化する。
そして、重み付け部125は、第1視線移動に関連付けて図4に示す係数管理データベースに記憶されている重要度が示す修正係数「1.5」を、正規化した第1視線移動の回数「3回」に乗じることにより、重み付けした第1視線移動の回数「4.5回」を算出する。重み付け部125は、このような重み付けの処理を発話期間ごとに行う。
重み付け部125は、インタラクションの内容に応じて定められる、インタラクションに参加した参加者と参加者以外の物体とを含む対象物の重要度に基づいて、対象物を含む視線移動の回数に重み付けしてもよい。具体的には、重み付け部125は、発話期間ごとに、対象物の重要度が示す修正係数を、対象物を含む視線移動の回数に乗じることにより重み付けする。対象物の重要度は、予め出力装置1に設定されている。
また、重み付け部125は、ある参加者による対象物への視線の量に基づいて、対象物の重要度を決定してもよい。また、重み付け部125は、話者が発話を開始する直前に見た対象物の重要度を高く決定してもよい。
図3に示す例において、対象物の重要度が示す修正係数として、参加者であるユーザBには「1.5」が設定されているとする。この場合において、重み付け部125は、まず、ユーザBに設定された重要度が示す修正係数「1.5」を、ユーザBがいる方向を含む視線移動M1を1回として乗じて、重み付けした視線移動M1の回数「1.5」を算出する。そして、重み付け部125は、重み付けした後の視線移動M1の回数「1.5」に重み付けする前の視線移動M1の回数「1.0」を差し引いた回数「0.5」を、視線移動M1を含む発話期間T1に加算する。
重み付け部125は、このような重み付けの処理を発話期間ごとに行う。このように、重み付け部125は、話者が、インラタクションにおける対象物の役割(重要性)を意識して説明発話を行えているか否かを考慮することにより、説明発話の能力を推定する精度を向上させることができる。
重み付け部125は、発話期間特定部121が発話内容に含まれるフレーズを発話期間として特定した場合に、フレーズの内容が内容語か機能語かに応じて、当該フレーズに対応する発話期間に含まれる視線移動の回数に重み付けしてもよい。
ところで、一般的に、発話に伴う認知的負荷は、発話直前に最大となり、時間の経過とともに減少する。そのため、発話に伴う認知的負荷が高い状態と、発話に伴う認知的負荷が低い状態とでは、視線移動の重みが異なることが考えられる。そこで、重み付け部125は、発話期間ごとに、時間の経過とともに視線移動の回数の重み付けが低くなる減衰関数を用いて、視線移動の回数に重み付けしてもよい。
重み付け部125は、例えば、発話期間ごとに、発話期間の中間時点が半減期となるように減衰関数を用いて算出した修正係数を、経過した時間に応じて視線移動の回数に乗じることにより重み付けする。
ここで、話者(ユーザA)をaとし、視線移動の回数をiとした場合において、第1視線移動をgp(a、i)とし、第2視線移動をgpo(a、i)とし、第3視線移動をgop(a、i)とし、第4視線移動をgo(a、i)としたとする。また、発話期間の時間長をt(a、i)とし、発話期間内においてj番目の視線移動(1≦j≦m)が起こった時間を、第1視線移動から第4視線移動の順にtp(a、i)、tpo(a、i)、top(a、i)、to(a、i)とする。また、初期値をNoとし、自然対数の底をeとし、崩壊定数λ(0<λ)を、第1視線移動から第4視線移動の順にλp(a、i)、λpo(a、i)、λop(a、i)、λo(a、i)とする。
この場合において、重み付け部125は、減衰関数を用いて重み付けした各種類の視線移動の回数を、以下の式(1)、(2)、(3)、(4)を用いて算出することができる。
Figure 2020046479
このように、重み付け部125は、減衰関数を用いて視線移動の回数に重み付けすることにより、説明発話の能力を推定する精度を向上させることができる。重み付け部125は、重み付けした視線移動の回数を統計量算出部126に入力する。
統計量算出部126は、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第1統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第2統計量とを算出する。統計量算出部126は、インタラクションの期間における、選択部122が相槌発話を除去した一部の発話期間中の視線移動の回数の多少を示す第1統計量と、インタラクションの期間における、選択部122が相槌した発話期間を除去した一部の発話期間中の視線移動のばらつきを示す第2統計量とを算出してもよい。
具体的には、統計量算出部126は、第1統計量として、移動回数特定部123が発話期間ごとに特定した視線移動の平均回数を算出する。また、統計量算出部126は、第2統計量として、移動回数特定部123が発話期間ごとに特定した視線移動の回数の標準偏差を算出する。
より具体的には、統計量算出部126は、第1統計量として、重み付け部125が発話期間ごとに重み付けした視線移動の平均回数を算出する。また、統計量算出部126は、第2統計量として、重み付け部125が発話期間ごとに重み付けした視線移動の回数の標準偏差を算出する。例えば、視線移動の平均回数が高い話者においては、説明発話の能力が高いと推定される。また、例えば、視線移動の回数の標準偏差が低い話者においては、安定した説明発話の能力を発揮すると推定される。
ここで、話者(ユーザA)をaとし、発話期間特定部121が特定した発話期間の数をnとし、重み付け部125が発話期間ごとに正規化した各種類の視線移動の回数を、第1視線移動から第4視線移動の順にgsp(a、i)、gspo(a、i)、gsop(a、i)、gso(a、i)とし、視線移動の種類ごとの重要度が示す修正係数を、第1視線移動から第4視線移動の順にW、Wpo、Wop、Wとしたとする。
この場合において、統計量算出部126は、話者(ユーザA)の第1統計量AvGを、以下の式(5)、(6)を用いて算出することができる。
Figure 2020046479
また、統計量算出部126は、話者(ユーザA)の第2統計量SDGを、以下の式(7)を用いて算出することができる。
Figure 2020046479
統計量算出部126は、話者ごとに、第1統計量と第2統計量とを算出してもよい。具体的には、統計量算出部126は、発話期間特定部121が話者ごとに特定した複数の発話期間に基づく第1統計量と、発話期間特定部121が話者ごとに特定した複数の発話期間に基づく第2統計量とを、話者ごとに算出してもよい。統計量算出部126は、算出した第1統計量及び第2統計量を出力部128に入力する。
出力部128は、統計量算出部126が算出した第1統計量と第2統計量とに対応する指標を出力する。指標は、第1統計量及び第2統計量に基づいて推定される話者の能力を示す発話能力情報である。出力装置1には、例えば、複数の段階に分類された説明発話の能力の各段階に対応する発話能力情報が記憶されている。
図5は、出力部128が出力した出力画面の一例を示す図である。図5に示すグラフは、4つの段階に分類された説明発話の能力において、推定された話者の説明発話の能力の位置を示す。図5に示すグラフの縦軸(能力)は第1統計量に対応し、横軸(安定性)は第2統計量に対応する。図5に示すように、出力部128は、出力画面のグラフにおいて、統計量算出部126が算出した第1統計量及び第2統計量それぞれの数値に基づく位置を示すとともに、当該グラフの位置に対応する発話能力情報を吹き出しに表示する。
出力部128は、統計量算出部126が算出した第1統計量及び第2統計量を、指標として出力してもよい。出力部128は、統計量算出部126が話者ごとに算出した複数の第1統計量及び複数の第2統計量それぞれに対応する複数の指標を、複数の話者それぞれに関連付けて出力してもよい。
出力部128は、注意散漫な話者以外の話者に対する指標を出力してもよい。具体的には、まず、統計量算出部126は、複数の視線移動それぞれにおける、話者の視線が一の方向から他の方向に向くまでの視線移動の期間の長短を示す第3統計量を算出する。統計量算出部126は、例えば、第3統計量として、インタラクション全体の期間における視線移動の平均期間を算出する。
判定部127は、統計量算出部126が算出した第1統計量及び第3統計量それぞれが所定の閾値以内か否かを判定する。所定の閾値は、例えば、第1統計量が示す視線移動の平均回数が多く、第3統計量が示す視線移動の平均時間が短いことを示す数値である。
そして、出力部128は、判定部127が第1統計量と第3統計量とがそれぞれ所定の閾値以内であると判定した場合に、指標を出力する。一方、出力部128は、判定部127が第1統計量と第3統計量とがそれぞれ所定の閾値を超えると判定した場合に、指標の出力を行わない。視線移動の平均回数が極端に多く、視線移動の平均時間が極端に短い話者は、落ち着きがなく注意散漫である可能性が高く、説明発話の能力を推定する対象として適していないことが考えられる。このようにすることで、出力部128は、注意散漫な話者の説明発話の能力が高く評価されてしまう事態を抑止することができる。
[出力装置1の処理の流れ]
続いて、出力装置1の処理の流れについて説明する。図6は、出力装置1の処理の流れを示すフローチャートである。本フローチャートは、例えば、出力装置1を利用する利用者が、記憶部11に音声データ及び視線データを格納し、説明発話の能力の推定処理を実行する操作を行ったことを契機として開始する。
発話期間特定部121は、音声データから、複数の発話期間を特定する(S1)。発話期間特定部121は、特定した複数の発話期間を示す情報を移動回数特定部123に入力する。移動回数特定部123は、複数の視線移動の種類として、第1視線移動と、第2視線移動と、第3視線移動と、第4視線移動と、のそれぞれの回数を特定する(S2)。移動回数特定部123は、発話期間を示す情報と、特定した視線移動の回数とを関連付けて算出部124に入力する。
重み付け部125は、発話期間ごとに、インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、視線移動の回数に重み付けする(S3)。具体的には、重み付け部125は、まず、発話期間ごとに、各種類の視線移動(第1視線移動、第2視線移動、第3視線移動、及び第4視線移動)の回数を、発話期間の時間長で正規化する。そして、重み付け部125は、発話期間ごとに、視線移動の種類ごとの重要度が示す修正係数を、正規化した各種類の視線移動の回数に乗じることにより重み付けする。重み付け部125は、重み付けした視線移動の回数を統計量算出部126に入力する。
統計量算出部126は、第1統計量と第2統計量とを算出する(S4)。具体的には、統計量算出部126は、第1統計量として、インタラクション全体の期間における、重み付け部125が発話期間ごとに重み付けした視線移動の平均回数を算出する。また、統計量算出部126は、第2統計量として、インタラクション全体の期間における、重み付け部125が発話期間ごとに重み付けした視線移動の回数の標準偏差を算出する。
統計量算出部126は、算出した第1統計量及び第2統計量を出力部128に入力する。そして、出力部128は、統計量算出部126が算出した第1統計量と第2統計量とに対応する指標を出力する(S5)。
[本実施の形態における効果]
以上説明したとおり、出力装置1は、音声データから複数の発話期間を特定し、視線データから複数の発話期間それぞれにおける話者の視線移動の回数を特定する。そして、出力装置1は、特定した複数の発話期間と、特定した視線移動の回数とに基づいて算出した第1統計量と第2統計量とに対応する指標を出力する。このように、出力装置1は、発話中の話者の視線移動を解析することにより、話者が発話中にどこに意識が向いているかを推定することができる。その結果、出力装置1は、説明発話の能力を推定する精度を向上させることができる。出力装置1が出力した指標においては、例えば、人事採用などにおける評価指標、インタラクションで中心的役割を担う人物の推定、ミーティングに最適なチーム構成を行うための支援、及びスキルの低い参加者に発言の機会を割り当てるための支援等に用いることができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
1 出力装置
11 記憶部
12 制御部
121 発話期間特定部
122 選択部
123 移動回数特定部
124 算出部
125 重み付け部
126 統計量算出部
127 判定部
128 出力部

Claims (10)

  1. インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定する発話期間特定部と、
    前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定する移動回数特定部と、
    前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第1統計量と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動のばらつきを示す第2統計量とを算出する算出部と、
    前記第1統計量と前記第2統計量とに対応する指標を出力する出力部と、
    を有する出力装置。
  2. 前記移動回数特定部は、前記話者の視線の移り変わりに基づいて定められた複数の前記視線移動の種類それぞれの回数を特定し、
    前記算出部は、前記発話期間ごとに、前記インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、前記視線移動の回数に重み付けする、
    請求項1に記載の出力装置。
  3. 前記移動回数特定部は、前記複数の視線移動の種類として、前記インタラクションに参加した1人の参加者がいる方向から他の前記参加者がいる方向への前記視線移動である第1視線移動と、1人の前記参加者がいる方向から前記参加者がいない方向への前記視線移動である第2視線移動と、前記参加者がいない方向から1人の前記参加者がいる方向への前記視線移動である第3視線移動と、前記参加者がいない方向から前記参加者がいない他の方向への前記視線移動である第4視線移動と、のそれぞれの回数を特定する、
    請求項2に記載の出力装置。
  4. 前記算出部は、前記インタラクションの内容に応じて定められる、前記インタラクションに参加した参加者と前記参加者以外の物体とを含む対象物の重要度に基づいて、前記対象物を含む前記視線移動の回数に重み付けする、
    請求項1から3のいずれか一項に記載の出力装置。
  5. 前記発話期間特定部は、前記インタラクションにおける複数の前記話者それぞれの発話を含む前記音声データから、前記話者ごとに前記複数の発話期間を特定し、
    前記算出部は、前記話者ごとに、前記第1統計量と前記第2統計量とを算出し、
    前記出力部は、複数の前記第1統計量及び複数の前記第2統計量それぞれに対応する複数の前記指標を、前記複数の話者それぞれに関連付けて出力する、
    請求項1から4のいずれか一項に記載の出力装置。
  6. 前記発話期間特定部は、前記話者が発話を開始した時点より所定時間前の時点を前記発話期間の開始時点として、前記複数の発話期間を特定する、
    請求項1から5のいずれか一項に記載の出力装置。
  7. 前記算出部は、前記発話期間ごとに、時間の経過とともに前記視線移動の回数の重み付けが低くなる減衰関数を用いて、前記視線移動の回数に重み付けする、
    請求項1から6のいずれか一項に記載の出力装置。
  8. 前記発話期間特定部が特定した前記複数の発話期間のうち、前記発話期間の長さが所定の閾値を超える一部の前記発話期間を選択する選択部をさらに有し、
    前記算出部は、前記インタラクションの期間における前記一部の発話期間中の前記視線移動の回数の多少を示す前記第1統計量と、前記インタラクションの期間における前記一部の発話期間中の前記視線移動のばらつきを示す前記第2統計量とを算出する、
    請求項1から7のいずれか一項に記載の出力装置。
  9. 前記算出部は、前記複数の視線移動それぞれにおける、前記話者の視線が一の方向から他の方向に向くまでの前記視線移動の期間の長短を示す第3統計量を算出し、
    前記出力部は、前記第1統計量と第3統計量とがそれぞれ所定の閾値以内である場合に、前記指標を出力する、
    請求項1から8のいずれか一項に記載の出力装置。
  10. コンピュータが実行する、
    インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定するステップと、
    前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定するステップと、
    前記インタラクションの期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第1統計量と、前記インタラクションの期間における前記複数の発話期間中の前記視線移動のばらつきを示す第2統計量とを算出するステップと、
    前記第1統計量と前記第2統計量とに対応する指標を出力するステップと、
    を有する出力方法。
JP2018172893A 2018-09-14 2018-09-14 出力装置及び出力方法 Active JP6966404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018172893A JP6966404B2 (ja) 2018-09-14 2018-09-14 出力装置及び出力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018172893A JP6966404B2 (ja) 2018-09-14 2018-09-14 出力装置及び出力方法

Publications (2)

Publication Number Publication Date
JP2020046479A true JP2020046479A (ja) 2020-03-26
JP6966404B2 JP6966404B2 (ja) 2021-11-17

Family

ID=69901202

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018172893A Active JP6966404B2 (ja) 2018-09-14 2018-09-14 出力装置及び出力方法

Country Status (1)

Country Link
JP (1) JP6966404B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272533A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
JP2008139762A (ja) * 2006-12-05 2008-06-19 Univ Of Tokyo プレゼンテーション支援装置および方法並びにプログラム
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272533A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International インタラクション情報出力装置、インタラクション情報出力方法、及びプログラム
JP2008139762A (ja) * 2006-12-05 2008-06-19 Univ Of Tokyo プレゼンテーション支援装置および方法並びにプログラム
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback

Also Published As

Publication number Publication date
JP6966404B2 (ja) 2021-11-17

Similar Documents

Publication Publication Date Title
US11455985B2 (en) Information processing apparatus
EP3282447B1 (en) PROGRESSIVE UTTERANCE ANALYSIS FOR SUCCESSIVELY DISPLAYING EARLY SUGGESTIONS BASED ON PARTIAL SEMANTIC PARSES FOR VOICE CONTROL. 
REAL TIME PROGRESSIVE SEMANTIC UTTERANCE ANALYSIS FOR VISUALIZATION AND ACTIONS CONTROL.
JP2017009826A (ja) グループ状態判定装置およびグループ状態判定方法
US20150194147A1 (en) Non-Scorable Response Filters for Speech Scoring Systems
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
US11355099B2 (en) Word extraction device, related conference extraction system, and word extraction method
WO2012134997A2 (en) Non-scorable response filters for speech scoring systems
RU2720359C1 (ru) Способ и оборудование распознавания эмоций в речи
US10755704B2 (en) Information processing apparatus
Astolfi et al. Duration of voicing and silence periods of continuous speech in different acoustic environments
US10836044B2 (en) Robot control device and robot control method
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
JP2019158975A (ja) 発話システム
US20220114348A1 (en) Utterance analysis device, utterance analysis method, and computer program
JP2018036536A (ja) 参加レベル算出システム、装置、プログラム、および方法
JP6629172B2 (ja) 対話制御装置、その方法及びプログラム
JP6966404B2 (ja) 出力装置及び出力方法
KR20230043080A (ko) 대화기반 정신장애선별방법 및 그 장치
US11386918B2 (en) Method and system for assessing reading quality
JP6627625B2 (ja) 応対支援装置、応対支援方法、応対支援プログラム、応対評価装置、応対評価方法、及び応対評価プログラム
JP6936198B2 (ja) 出力装置及び出力方法
JP7186207B2 (ja) 情報処理装置、情報処理プログラム及び情報処理システム
US11398234B2 (en) Utterance support apparatus, utterance support method, and recording medium
US20230397868A1 (en) Control Method, Conference System, and Non-Transitory Recording Medium
EP4020352A1 (en) System and methods for evaluation of interpersonal interactions to predict real world performance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211021

R150 Certificate of patent or registration of utility model

Ref document number: 6966404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150