JP2020046479A

JP2020046479A - 出力装置及び出力方法

Info

Publication number: JP2020046479A
Application number: JP2018172893A
Authority: JP
Inventors: 一郎馬田; Ichiro Umada
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2020-03-26
Anticipated expiration: 2038-09-14
Also published as: JP6966404B2

Abstract

【課題】説明発話の能力を推定する精度を向上させる。【解決手段】出力装置１は、インタラクションにおける話者の発話を含む音声データから、話者が発話した期間である複数の発話期間を特定する発話期間特定部１２１と、話者の視線に関する視線データから、複数の発話期間それぞれにおける話者の視線移動の回数を特定する移動回数特定部１２３と、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第１統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第２統計量とを算出する算出部１２４と、第１統計量と第２統計量とに対応する指標を出力する出力部１２８と、を有する。【選択図】図２

Description

本発明は、説明発話の能力に関する情報を出力する出力装置及び出力方法に関する。

従来、プレゼンテーションスキルを向上させるための情報を提供する装置が知られている。特許文献１には、発声された音声を解析することによって算出した説明の適切度に基づいてアドバイスを行う技術が記載されている。

特開平０２−２２３９８３号公報

特許文献１のような技術によって解析された説明の適切度を用いることにより、話者のプレゼンテーションスキルを推定することができるようにも思える。しかしながら、プレゼンテーションをはじめとする説明発話においては、話し手である話者と聞き手である参加者との相互作用が生じる。例えば、話者は、説明発話の内容が伝わっているかを参加者の反応を確認しながら発話することが考えられる。このような点に鑑みると、話者の説明発話の能力を推定するためには、従来の技術のように話者の音声のみを解析処理するだけでは不十分である。

そこで、本発明はこれらの点に鑑みてなされたものであり、説明発話の能力を推定する精度を向上させることができる出力装置及び出力方法を提供することを目的とする。

本発明の第１の態様に係る出力装置は、インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定する発話期間特定部と、前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定する移動回数特定部と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第１統計量と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動のばらつきを示す第２統計量とを算出する算出部と、前記第１統計量と前記第２統計量とに対応する指標を出力する出力部と、を有する。

前記移動回数特定部は、前記話者の視線の移り変わりに基づいて定められた複数の前記視線移動の種類それぞれの回数を特定してもよいし、前記算出部は、前記発話期間ごとに、前記インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、前記視線移動の回数に重み付けしてもよい。

前記移動回数特定部は、前記複数の視線移動の種類として、前記インタラクションに参加した１人の参加者がいる方向から他の前記参加者がいる方向への前記視線移動である第１視線移動と、１人の前記参加者がいる方向から前記参加者がいない方向への前記視線移動である第２視線移動と、前記参加者がいない方向から１人の前記参加者がいる方向への前記視線移動である第３視線移動と、前記参加者がいない方向から前記参加者がいない他の方向への前記視線移動である第４視線移動と、のそれぞれの回数を特定してもよい。

前記算出部は、前記インタラクションの内容に応じて定められる、前記インタラクションに参加した参加者と前記参加者以外の物体とを含む対象物の重要度に基づいて、前記対象物を含む前記視線移動の回数に重み付けしてもよい。

前記発話期間特定部は、前記インタラクションにおける複数の前記話者それぞれの発話を含む前記音声データから、前記話者ごとに前記複数の発話期間を特定してもよいし、前記算出部は、前記話者ごとに、前記第１統計量と前記第２統計量とを算出してもよいし、前記出力部は、複数の前記第１統計量及び複数の前記第２統計量それぞれに対応する複数の前記指標を、前記複数の話者それぞれに関連付けて出力してもよい。

前記発話期間特定部は、前記話者が発話を開始した時点より所定時間前の時点を前記発話期間の開始時点として、前記複数の発話期間を特定してもよい。
前記算出部は、前記発話期間ごとに、時間の経過とともに前記視線移動の回数の重み付けが低くなる減衰関数を用いて、前記視線移動の回数に重み付けしてもよい。

前記出力装置は、前記発話期間特定部が特定した前記複数の発話期間のうち、前記発話期間の長さが所定の閾値を超える一部の前記発話期間を選択する選択部をさらに有してもよいし、前記算出部は、前記インタラクションの期間における前記一部の発話期間中の前記視線移動の回数の多少を示す前記第１統計量と、前記インタラクションの期間における前記一部の発話期間中の前記視線移動のばらつきを示す前記第２統計量とを算出してもよい。

前記算出部は、前記複数の視線移動それぞれにおける、前記話者の視線が一の方向から他の方向に向くまでの前記視線移動の期間の長短を示す第３統計量を算出してもよいし、前記出力部は、前記第１統計量と第３統計量とがそれぞれ所定の閾値以内である場合に、前記指標を出力してもよい。

本発明の第２の態様に係る出力方法は、コンピュータが実行する、インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定するステップと、前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定するステップと、前記インタラクションの期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第１統計量と、前記インタラクションの期間における前記複数の発話期間中の前記視線移動のばらつきを示す第２統計量とを算出するステップと、前記第１統計量と前記第２統計量とに対応する指標を出力するステップと、を有する出力方法。

本発明によれば、説明発話の能力を推定する精度を向上させることができるという効果を奏する。

出力装置の概要を説明するための図である。出力装置の構成を示す図である。インタラクション全体の期間における話者の視線移動を模式的に表した図である。係数管理データベースの構成の一例を示す図である。出力部が出力した出力画面の一例を示す図である。出力装置の処理の流れを示すフローチャートである。

［出力装置１の概要］
本願の発明者は、様々なブレインストーミングを観察して話者の言動を分析したところ、説明発話の能力が高い話者においては、発話の切れ目又は単語単位等にとらわれることなく視線が動き、説明発話の能力が低い話者においては、発話の切れ目又は単語単位等に関連して視線が動くことが多くなることを見出した。この現象は、説明発話の能力が低い話者が、聞き手に対する注視行動よりも発話行動に意識が向いているためであることが考えられる。そこで、本実施の形態では、上記の現象を利用して、発話中の話者の視線移動を解析することによって推定した説明発話の能力に関する情報を提供する。

図１は、出力装置１の概要を説明するための図である。出力装置１は、インタラクションにおける話者の説明発話の能力に関する情報を出力する装置であり、例えばコンピュータである。本実施の形態におけるインタラクションは、人と人との相互作用と、人と物との相互作用とを含む。図１に示す例において、人は、話し手である話者（ユーザＡ）、及び聞き手である参加者（ユーザＢ及びユーザＣ）であり、物は、話者がいる部屋等の空間にある物体（テーブルに置かれた資料、及び部屋の隅に置かれている植物）である。

出力装置１には、インタラクションにおける話者の発話を含む音声データと、話者の視線に関する視線データとが予め記憶されている。音声データは、例えば、話者が着用する衣服に取り付けられた不図示のピンマイクから録音されたデータである。視線データは、例えば、不図示の視線センサを介して検出した話者の視線の向きと、話者がいる空間（部屋）に存在する物体（人を含む）の位置を示す空間情報に基づいて特定される話者の視線先に含まれる物体とを関連付けたデータである。

出力装置１は、例えば、赤外光を用いたプルキニエ検出による手法を用いて話者の視線の向きを検出してもよいし、画像処理による黒眼領域及び白眼領域の検出を用いた手法を用いて話者の視線の向きを検出してもよい。また、出力装置１は、話者の頭部の向きに基づいて視線の向きを推定してもよい。この場合、出力装置１は、モーションキャプチャー装置、赤外線センサ、又は加速度センサ等を用いて頭部の動作を検出してもよい。出力装置１は、音声データと視線データとを、不図示の通信部を介してリアルタイムに取得してもよい。

まず、出力装置１は、音声データから、ユーザＡが発話した期間である複数の発話期間（例えば、第１の発話期間、第２の発話期間）を特定する（図１の（１））。出力装置１は、複数の発話期間を特定すると、視線データから、複数の発話期間それぞれにおけるユーザＡの視線移動の回数（例えば、第１の発話期間における視線移動の回数「１回」、第２の発話期間における視線移動の回数「３回」）を特定する（図１の（２））。

出力装置１は、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第１統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第２統計量とを算出する（図１の（３））。第１統計量は、例えば、視線移動の平均回数又は最頻値である。第２統計量は、例えば、視線移動の回数の標準偏差や平均偏差である。

例えば、発話中の視線移動が少ない（第１統計量及び第２統計量それぞれが示す数値が低い）話者においては、発話行動に意識が向いているため、説明発話の能力が低いと推定される。一方、発話中の視線移動が多い（第１統計量及び第２統計量それぞれが示す数値が高い）話者においては、参加者に対する注視行動に意識が向いているため、説明発話の能力が高いと推定される。

そして、出力装置１は、算出した第１統計量と第２統計量とに対応する指標を出力する（図１の（４））。出力装置１は、例えば、第１統計量が示す数値が高い場合、発話中の話者の意識が参加者に対する注視行動に向いているため、説明発話の能力が高いと推定する。一方、出力装置１は、例えば、第１統計量が示す数値が低い場合、発話中の話者の意識が発話行動のみに向いているため、説明発話の能力が低いと推定する。また、出力装置１は、第２統計量に基づいて、説明発話の能力の安定性を推定する。

このように、出力装置１は、発話中の話者の視線移動を解析することにより、話者が発話中にどこに意識が向いているかを推定することができる。その結果、出力装置１は、説明発話の能力を推定する精度を向上させることができる。
以下、出力装置１の構成について説明する。

［出力装置１の構成］
図２は、出力装置１の構成を示す図である。出力装置１は、記憶部１１と、制御部１２とを有する。記憶部１１は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びハードディスク等の記憶媒体である。記憶部１１は、制御部１２が実行するプログラムを記憶している。また、記憶部１１は、音声データ及び視線データを記憶している。

制御部１２は、例えばＣＰＵ（Central Processing Unit）である。制御部１２は、記憶部１１に記憶されたプログラムを実行することにより、発話期間特定部１２１、選択部１２２、移動回数特定部１２３、算出部１２４、判定部１２７、及び出力部１２８として機能する。

発話期間特定部１２１は、音声データから、話者が発話した期間である複数の発話期間を特定する。例えば、発話期間特定部１２１は、まず、音声データにおいて、話者の発話が終了してから次の発話が開始されるまでの期間が所定の閾値以上（例えば３００ミリ秒以上）である空白期間を特定する。そして、発話期間特定部１２１は、特定した複数の空白期間で音声データを区切ることにより、複数の発話期間を特定する。

また、発話期間特定部１２１は、例えば、音量又はケプストラム等の音響特性を解析するように学習された機械学習モデル（例えば、ＳＶＭ（Support Vector Machine）、ＨＭＭ（Hidden Markov Model）、又はＤＮＮ（Deep Neural Network）等）を用いて、複数の発話期間を特定してもよい。また、発話期間特定部１２１は、例えば、形態素を解析するように学習された機械学習モデルを用いて、単語又はフレーズの境界で区切ることにより、複数の発話期間を特定してもよい。

説明発話の能力が高い話者は、発話期間において発話する内容を考える思考期間においても、参加者又は物体に視線を向けていることが多いということを本願の発明者は見出した。そこで、発話期間特定部１２１は、話者が発話を開始した時点より所定時間前（例えば３００ミリ秒前）の時点を発話期間の開始時点として、複数の発話期間を特定してもよい。このように、発話期間特定部１２１は、思考期間を発話期間に含めることにより、説明発話の能力を推定する精度を向上させることができる。

発話期間特定部１２１は、インタラクションにおける複数の話者それぞれの発話を含む音声データから、話者ごとに複数の発話期間を特定してもよい。発話期間特定部１２１は、１つの音声データから、会議に参加した複数の参加者それぞれを特定し、特定した参加者に関連付けて複数の発話期間を特定してもよい。また、発話期間特定部１２１は、会議等に参加した複数の参加者それぞれに対応する複数の音声データから、参加者それぞれに対応する複数の発話期間を特定してもよい。発話期間特定部１２１は、特定した複数の発話期間を示す情報を選択部１２２に入力する。

ブレインストーミングにおいては、ある参加者が発話した内容に、他の参加者が相槌する場合がある。相槌は、他の話者の発話に対する同意等を示すものであるため、相槌した発話期間を説明発話の能力を推定するために用いるのは適切ではないことが考えられる。選択部１２２は、発話期間特定部１２１が特定した複数の発話期間から相槌した発話期間を除外する。具体的には、選択部１２２は、まず、発話期間特定部１２１が特定した複数の発話期間のうち、発話期間の長さが所定の閾値（例えば４００ミリ秒）を超える一部の発話期間を選択する。そして、選択部１２２は、選択した一部の発話期間を示す情報を移動回数特定部１２３に入力する。

選択部１２２は、発話期間特定部１２１が特定した複数の発話期間それぞれに対して、発話内容を解析するように学習された機械学習モデルを用いて、相槌発話である発話期間を除去してもよい。このように、選択部１２２は、相槌した発話期間を除外することにより、説明発話の能力を推定する精度を向上させることができる。

移動回数特定部１２３は、視線データから、発話期間特定部１２１が特定した複数の発話期間それぞれにおける話者の視線移動の回数を特定する。移動回数特定部１２３は、視線データから、選択部１２２が選択した一部の発話期間それぞれにおける話者の視線移動の回数を特定してもよい。

具体的には、移動回数特定部１２３は、話者の視線の移り変わりに基づいて定められた複数の視線移動の種類それぞれの回数を特定する。より具体的には、移動回数特定部１２３は、複数の視線移動の種類として、第１視線移動と、第２視線移動と、第３視線移動と、第４視線移動と、のそれぞれの回数を特定する。

第１視線移動は、インタラクションに参加した１人の参加者がいる方向から他の参加者がいる方向への視線移動である。第２視線移動は、１人の参加者がいる方向から参加者がいない方向への視線移動である。第３視線移動は、参加者がいない方向から１人の参加者がいる方向への視線移動である。第４視線移動は、参加者がいない方向から参加者がいない他の方向への視線移動である。

「参加者がいる方向」は、図１に示す例において、ユーザＢ及びユーザＣのうちのいずれかがいる方向である。「参加者がいない方向」は、図１に示す例において、話者がいる環境にある物体である、テーブルに置かれた資料、及び部屋の隅に置かれている植物のうちのいずれかがある方向である。

「参加者がいない方向」は、例えば、話者が宙（天井）を見上げた方向等の参加者がいない方向及び物体が無い方向であってもよい。また、「参加者がいない方向」は、話者自身の身体（例えば、手、足、又は腹等）への方向、複数の参加者を含む領域への方向（例えば、基調講演において聴衆がいる方向）、又は複数の参加者を含む領域以外への方向（例えば、基調講演において聴衆がいない方向）、参加者が書き込んでいる図面への方向、又は参加者が見ている対象物と同じ対象物がある方向等であってもよい。

図３は、インタラクション全体の期間における話者（図１に示すユーザＡ）の視線移動を模式的に表した図である。図３に示す縦方向への破線の矢印は、発話期間内での視線移動を示す。図３に示す視線移動Ｍ１、Ｍ６、Ｍ７は、第１視線移動に属する。図３に示す視線移動Ｍ２は、第２視線移動に属する。図３に示す視線移動Ｍ４、Ｍ５は、第３視線移動に属する。図３に示す視線移動Ｍ３は、第４視線移動に属する。図３に示すように、発話期間特定部１２１が、インタラクション全体の期間において、発話期間Ｔ１、Ｔ２、Ｔ３、Ｔ４を特定したとする。

この場合において、移動回数特定部１２３は、発話期間Ｔ１において、第１視線移動（Ｍ１）を１回と特定する。また、移動回数特定部１２３は、発話期間Ｔ２において、第２視線移動（Ｍ２）、第３視線移動（Ｍ４）、第４視線移動（Ｍ３）を、それぞれ１回と特定する。また、移動回数特定部１２３は、発話期間Ｔ３において、第１視線移動（Ｍ６、Ｍ７）を２回と特定し、第３視線移動（Ｍ５）を１回と特定する。移動回数特定部１２３は、発話期間Ｔ４においては、当該期間中の視線移動が無いので視線移動の回数の特定を行わない。図２に戻り、移動回数特定部１２３は、発話期間と、特定した視線移動の回数とを関連付けて算出部１２４に入力する。

算出部１２４は、重み付け部１２５と、統計量算出部１２６とを有する。重み付け部１２５は、発話期間ごとに、インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、視線移動の回数に重み付けする。視線移動の種類ごとの重要度は、重要度が示す修正係数を管理する係数管理データベースに予め記憶されている。

図４は、係数管理データベースの構成の一例を示す図である。図４に示すように、係数管理データベースは、重要度が示す修正係数を、視線移動の種類ごとに関連付けて記憶している。重み付け部１２５は、発話期間ごとに、視線移動の種類ごとに関連付けて係数管理データベースに記憶されている重要度が示す修正係数を、第１視線移動、第２視線移動、第３視線移動、及び第４視線移動それぞれの回数に乗じることにより重み付けする。

具体的には、重み付け部１２５は、まず、発話期間ごとに、各種類の視線移動（第１視線移動、第２視線移動、第３視線移動、及び第４視線移動）の回数を、発話期間の時間長で正規化する。そして、重み付け部１２５は、発話期間ごとに、視線移動の種類ごとに関連付けて係数管理データベースに記憶されている重要度が示す修正係数を、正規化した各種類の視線移動の回数に乗じることにより重み付けする。

図３に示す例において、発話期間Ｔ１は５秒であり、発話期間特定部１２１が特定した複数の発話期間のうち最も期間が長い発話期間Ｔ２は１５秒であるとする。この場合において、重み付け部１２５は、まず、最も期間が発話期間Ｔ２（１５秒）を発話期間Ｔ１（５秒）で割って得られた数値「３」を、移動回数特定部１２３が発話期間Ｔ１において特定した第１視線移動（Ｍ１）の回数「１回」に乗じることにより、発話期間Ｔ１の時間長で正規化する。

そして、重み付け部１２５は、第１視線移動に関連付けて図４に示す係数管理データベースに記憶されている重要度が示す修正係数「１．５」を、正規化した第１視線移動の回数「３回」に乗じることにより、重み付けした第１視線移動の回数「４．５回」を算出する。重み付け部１２５は、このような重み付けの処理を発話期間ごとに行う。

重み付け部１２５は、インタラクションの内容に応じて定められる、インタラクションに参加した参加者と参加者以外の物体とを含む対象物の重要度に基づいて、対象物を含む視線移動の回数に重み付けしてもよい。具体的には、重み付け部１２５は、発話期間ごとに、対象物の重要度が示す修正係数を、対象物を含む視線移動の回数に乗じることにより重み付けする。対象物の重要度は、予め出力装置１に設定されている。

また、重み付け部１２５は、ある参加者による対象物への視線の量に基づいて、対象物の重要度を決定してもよい。また、重み付け部１２５は、話者が発話を開始する直前に見た対象物の重要度を高く決定してもよい。

図３に示す例において、対象物の重要度が示す修正係数として、参加者であるユーザＢには「１．５」が設定されているとする。この場合において、重み付け部１２５は、まず、ユーザＢに設定された重要度が示す修正係数「１．５」を、ユーザＢがいる方向を含む視線移動Ｍ１を１回として乗じて、重み付けした視線移動Ｍ１の回数「１．５」を算出する。そして、重み付け部１２５は、重み付けした後の視線移動Ｍ１の回数「１．５」に重み付けする前の視線移動Ｍ１の回数「１．０」を差し引いた回数「０．５」を、視線移動Ｍ１を含む発話期間Ｔ１に加算する。

重み付け部１２５は、このような重み付けの処理を発話期間ごとに行う。このように、重み付け部１２５は、話者が、インラタクションにおける対象物の役割（重要性）を意識して説明発話を行えているか否かを考慮することにより、説明発話の能力を推定する精度を向上させることができる。

重み付け部１２５は、発話期間特定部１２１が発話内容に含まれるフレーズを発話期間として特定した場合に、フレーズの内容が内容語か機能語かに応じて、当該フレーズに対応する発話期間に含まれる視線移動の回数に重み付けしてもよい。

ところで、一般的に、発話に伴う認知的負荷は、発話直前に最大となり、時間の経過とともに減少する。そのため、発話に伴う認知的負荷が高い状態と、発話に伴う認知的負荷が低い状態とでは、視線移動の重みが異なることが考えられる。そこで、重み付け部１２５は、発話期間ごとに、時間の経過とともに視線移動の回数の重み付けが低くなる減衰関数を用いて、視線移動の回数に重み付けしてもよい。

重み付け部１２５は、例えば、発話期間ごとに、発話期間の中間時点が半減期となるように減衰関数を用いて算出した修正係数を、経過した時間に応じて視線移動の回数に乗じることにより重み付けする。

ここで、話者（ユーザＡ）をａとし、視線移動の回数をｉとした場合において、第１視線移動をｇ_{ｐ（ａ、ｉ）}とし、第２視線移動をｇ_{ｐｏ（ａ、ｉ）}とし、第３視線移動をｇ_{ｏｐ（ａ、ｉ）}とし、第４視線移動をｇ_{ｏ（ａ、ｉ）}としたとする。また、発話期間の時間長をｔ（ａ、ｉ）とし、発話期間内においてｊ番目の視線移動（１≦ｊ≦ｍ）が起こった時間を、第１視線移動から第４視線移動の順にｔ_{ｐ（ａ、ｉ）}、ｔ_{ｐｏ（ａ、ｉ）}、ｔ_{ｏｐ（ａ、ｉ）}、ｔ_{ｏ（ａ、ｉ）}とする。また、初期値をＮｏとし、自然対数の底をｅとし、崩壊定数λ（０＜λ）を、第１視線移動から第４視線移動の順にλ_{ｐ（ａ、ｉ）}、λ_{ｐｏ（ａ、ｉ）}、λ_{ｏｐ（ａ、ｉ）}、λ_{ｏ（ａ、ｉ）}とする。

この場合において、重み付け部１２５は、減衰関数を用いて重み付けした各種類の視線移動の回数を、以下の式（１）、（２）、（３）、（４）を用いて算出することができる。

このように、重み付け部１２５は、減衰関数を用いて視線移動の回数に重み付けすることにより、説明発話の能力を推定する精度を向上させることができる。重み付け部１２５は、重み付けした視線移動の回数を統計量算出部１２６に入力する。

統計量算出部１２６は、インタラクション全体の期間における複数の発話期間中の視線移動の回数の多少を示す第１統計量と、インタラクション全体の期間における複数の発話期間中の視線移動のばらつきを示す第２統計量とを算出する。統計量算出部１２６は、インタラクションの期間における、選択部１２２が相槌発話を除去した一部の発話期間中の視線移動の回数の多少を示す第１統計量と、インタラクションの期間における、選択部１２２が相槌した発話期間を除去した一部の発話期間中の視線移動のばらつきを示す第２統計量とを算出してもよい。

具体的には、統計量算出部１２６は、第１統計量として、移動回数特定部１２３が発話期間ごとに特定した視線移動の平均回数を算出する。また、統計量算出部１２６は、第２統計量として、移動回数特定部１２３が発話期間ごとに特定した視線移動の回数の標準偏差を算出する。

より具体的には、統計量算出部１２６は、第１統計量として、重み付け部１２５が発話期間ごとに重み付けした視線移動の平均回数を算出する。また、統計量算出部１２６は、第２統計量として、重み付け部１２５が発話期間ごとに重み付けした視線移動の回数の標準偏差を算出する。例えば、視線移動の平均回数が高い話者においては、説明発話の能力が高いと推定される。また、例えば、視線移動の回数の標準偏差が低い話者においては、安定した説明発話の能力を発揮すると推定される。

ここで、話者（ユーザＡ）をａとし、発話期間特定部１２１が特定した発話期間の数をｎとし、重み付け部１２５が発話期間ごとに正規化した各種類の視線移動の回数を、第１視線移動から第４視線移動の順にｇｓ_{ｐ（ａ、ｉ）}、ｇｓ_{ｐｏ（ａ、ｉ）}、ｇｓ_{ｏｐ（ａ、ｉ）}、ｇｓ_{ｏ（ａ、ｉ）}とし、視線移動の種類ごとの重要度が示す修正係数を、第１視線移動から第４視線移動の順にＷ_ｐ、Ｗ_ｐｏ、Ｗ_ｏｐ、Ｗ_ｏとしたとする。

この場合において、統計量算出部１２６は、話者（ユーザＡ）の第１統計量ＡｖＧ_ａを、以下の式（５）、（６）を用いて算出することができる。

また、統計量算出部１２６は、話者（ユーザＡ）の第２統計量ＳＤＧ_ａを、以下の式（７）を用いて算出することができる。

統計量算出部１２６は、話者ごとに、第１統計量と第２統計量とを算出してもよい。具体的には、統計量算出部１２６は、発話期間特定部１２１が話者ごとに特定した複数の発話期間に基づく第１統計量と、発話期間特定部１２１が話者ごとに特定した複数の発話期間に基づく第２統計量とを、話者ごとに算出してもよい。統計量算出部１２６は、算出した第１統計量及び第２統計量を出力部１２８に入力する。

出力部１２８は、統計量算出部１２６が算出した第１統計量と第２統計量とに対応する指標を出力する。指標は、第１統計量及び第２統計量に基づいて推定される話者の能力を示す発話能力情報である。出力装置１には、例えば、複数の段階に分類された説明発話の能力の各段階に対応する発話能力情報が記憶されている。

図５は、出力部１２８が出力した出力画面の一例を示す図である。図５に示すグラフは、４つの段階に分類された説明発話の能力において、推定された話者の説明発話の能力の位置を示す。図５に示すグラフの縦軸（能力）は第１統計量に対応し、横軸（安定性）は第２統計量に対応する。図５に示すように、出力部１２８は、出力画面のグラフにおいて、統計量算出部１２６が算出した第１統計量及び第２統計量それぞれの数値に基づく位置を示すとともに、当該グラフの位置に対応する発話能力情報を吹き出しに表示する。

出力部１２８は、統計量算出部１２６が算出した第１統計量及び第２統計量を、指標として出力してもよい。出力部１２８は、統計量算出部１２６が話者ごとに算出した複数の第１統計量及び複数の第２統計量それぞれに対応する複数の指標を、複数の話者それぞれに関連付けて出力してもよい。

出力部１２８は、注意散漫な話者以外の話者に対する指標を出力してもよい。具体的には、まず、統計量算出部１２６は、複数の視線移動それぞれにおける、話者の視線が一の方向から他の方向に向くまでの視線移動の期間の長短を示す第３統計量を算出する。統計量算出部１２６は、例えば、第３統計量として、インタラクション全体の期間における視線移動の平均期間を算出する。

判定部１２７は、統計量算出部１２６が算出した第１統計量及び第３統計量それぞれが所定の閾値以内か否かを判定する。所定の閾値は、例えば、第１統計量が示す視線移動の平均回数が多く、第３統計量が示す視線移動の平均時間が短いことを示す数値である。

そして、出力部１２８は、判定部１２７が第１統計量と第３統計量とがそれぞれ所定の閾値以内であると判定した場合に、指標を出力する。一方、出力部１２８は、判定部１２７が第１統計量と第３統計量とがそれぞれ所定の閾値を超えると判定した場合に、指標の出力を行わない。視線移動の平均回数が極端に多く、視線移動の平均時間が極端に短い話者は、落ち着きがなく注意散漫である可能性が高く、説明発話の能力を推定する対象として適していないことが考えられる。このようにすることで、出力部１２８は、注意散漫な話者の説明発話の能力が高く評価されてしまう事態を抑止することができる。

［出力装置１の処理の流れ］
続いて、出力装置１の処理の流れについて説明する。図６は、出力装置１の処理の流れを示すフローチャートである。本フローチャートは、例えば、出力装置１を利用する利用者が、記憶部１１に音声データ及び視線データを格納し、説明発話の能力の推定処理を実行する操作を行ったことを契機として開始する。

発話期間特定部１２１は、音声データから、複数の発話期間を特定する（Ｓ１）。発話期間特定部１２１は、特定した複数の発話期間を示す情報を移動回数特定部１２３に入力する。移動回数特定部１２３は、複数の視線移動の種類として、第１視線移動と、第２視線移動と、第３視線移動と、第４視線移動と、のそれぞれの回数を特定する（Ｓ２）。移動回数特定部１２３は、発話期間を示す情報と、特定した視線移動の回数とを関連付けて算出部１２４に入力する。

重み付け部１２５は、発話期間ごとに、インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、視線移動の回数に重み付けする（Ｓ３）。具体的には、重み付け部１２５は、まず、発話期間ごとに、各種類の視線移動（第１視線移動、第２視線移動、第３視線移動、及び第４視線移動）の回数を、発話期間の時間長で正規化する。そして、重み付け部１２５は、発話期間ごとに、視線移動の種類ごとの重要度が示す修正係数を、正規化した各種類の視線移動の回数に乗じることにより重み付けする。重み付け部１２５は、重み付けした視線移動の回数を統計量算出部１２６に入力する。

統計量算出部１２６は、第１統計量と第２統計量とを算出する（Ｓ４）。具体的には、統計量算出部１２６は、第１統計量として、インタラクション全体の期間における、重み付け部１２５が発話期間ごとに重み付けした視線移動の平均回数を算出する。また、統計量算出部１２６は、第２統計量として、インタラクション全体の期間における、重み付け部１２５が発話期間ごとに重み付けした視線移動の回数の標準偏差を算出する。

統計量算出部１２６は、算出した第１統計量及び第２統計量を出力部１２８に入力する。そして、出力部１２８は、統計量算出部１２６が算出した第１統計量と第２統計量とに対応する指標を出力する（Ｓ５）。

［本実施の形態における効果］
以上説明したとおり、出力装置１は、音声データから複数の発話期間を特定し、視線データから複数の発話期間それぞれにおける話者の視線移動の回数を特定する。そして、出力装置１は、特定した複数の発話期間と、特定した視線移動の回数とに基づいて算出した第１統計量と第２統計量とに対応する指標を出力する。このように、出力装置１は、発話中の話者の視線移動を解析することにより、話者が発話中にどこに意識が向いているかを推定することができる。その結果、出力装置１は、説明発話の能力を推定する精度を向上させることができる。出力装置１が出力した指標においては、例えば、人事採用などにおける評価指標、インタラクションで中心的役割を担う人物の推定、ミーティングに最適なチーム構成を行うための支援、及びスキルの低い参加者に発言の機会を割り当てるための支援等に用いることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

１出力装置
１１記憶部
１２制御部
１２１発話期間特定部
１２２選択部
１２３移動回数特定部
１２４算出部
１２５重み付け部
１２６統計量算出部
１２７判定部
１２８出力部

Claims

インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定する発話期間特定部と、
前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定する移動回数特定部と、
前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第１統計量と、前記インタラクション全体の期間における前記複数の発話期間中の前記視線移動のばらつきを示す第２統計量とを算出する算出部と、
前記第１統計量と前記第２統計量とに対応する指標を出力する出力部と、
を有する出力装置。
前記移動回数特定部は、前記話者の視線の移り変わりに基づいて定められた複数の前記視線移動の種類それぞれの回数を特定し、
前記算出部は、前記発話期間ごとに、前記インタラクションの内容に応じて定められる視線移動の種類ごとの重要度に基づいて、前記視線移動の回数に重み付けする、
請求項１に記載の出力装置。
前記移動回数特定部は、前記複数の視線移動の種類として、前記インタラクションに参加した１人の参加者がいる方向から他の前記参加者がいる方向への前記視線移動である第１視線移動と、１人の前記参加者がいる方向から前記参加者がいない方向への前記視線移動である第２視線移動と、前記参加者がいない方向から１人の前記参加者がいる方向への前記視線移動である第３視線移動と、前記参加者がいない方向から前記参加者がいない他の方向への前記視線移動である第４視線移動と、のそれぞれの回数を特定する、
請求項２に記載の出力装置。
前記算出部は、前記インタラクションの内容に応じて定められる、前記インタラクションに参加した参加者と前記参加者以外の物体とを含む対象物の重要度に基づいて、前記対象物を含む前記視線移動の回数に重み付けする、
請求項１から３のいずれか一項に記載の出力装置。
前記発話期間特定部は、前記インタラクションにおける複数の前記話者それぞれの発話を含む前記音声データから、前記話者ごとに前記複数の発話期間を特定し、
前記算出部は、前記話者ごとに、前記第１統計量と前記第２統計量とを算出し、
前記出力部は、複数の前記第１統計量及び複数の前記第２統計量それぞれに対応する複数の前記指標を、前記複数の話者それぞれに関連付けて出力する、
請求項１から４のいずれか一項に記載の出力装置。
前記発話期間特定部は、前記話者が発話を開始した時点より所定時間前の時点を前記発話期間の開始時点として、前記複数の発話期間を特定する、
請求項１から５のいずれか一項に記載の出力装置。
前記算出部は、前記発話期間ごとに、時間の経過とともに前記視線移動の回数の重み付けが低くなる減衰関数を用いて、前記視線移動の回数に重み付けする、
請求項１から６のいずれか一項に記載の出力装置。
前記発話期間特定部が特定した前記複数の発話期間のうち、前記発話期間の長さが所定の閾値を超える一部の前記発話期間を選択する選択部をさらに有し、
前記算出部は、前記インタラクションの期間における前記一部の発話期間中の前記視線移動の回数の多少を示す前記第１統計量と、前記インタラクションの期間における前記一部の発話期間中の前記視線移動のばらつきを示す前記第２統計量とを算出する、
請求項１から７のいずれか一項に記載の出力装置。
前記算出部は、前記複数の視線移動それぞれにおける、前記話者の視線が一の方向から他の方向に向くまでの前記視線移動の期間の長短を示す第３統計量を算出し、
前記出力部は、前記第１統計量と第３統計量とがそれぞれ所定の閾値以内である場合に、前記指標を出力する、
請求項１から８のいずれか一項に記載の出力装置。
コンピュータが実行する、
インタラクションにおける話者の発話を含む音声データから、前記話者が発話した期間である複数の発話期間を特定するステップと、
前記話者の視線に関する視線データから、前記複数の発話期間それぞれにおける前記話者の視線移動の回数を特定するステップと、
前記インタラクションの期間における前記複数の発話期間中の前記視線移動の回数の多少を示す第１統計量と、前記インタラクションの期間における前記複数の発話期間中の前記視線移動のばらつきを示す第２統計量とを算出するステップと、
前記第１統計量と前記第２統計量とに対応する指標を出力するステップと、
を有する出力方法。