JP2020190579A

JP2020190579A - プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置

Info

Publication number: JP2020190579A
Application number: JP2019094014A
Authority: JP
Inventors: 翔太塩原; Shota Shiobara; 聡太杉村; Sota Sugimura; 将吾岡田; Shiyougo Okada; 悠太朗八木; Yutaro Yagi
Original assignee: Japan Advanced Institute of Science and Technology; SoftBank Corp
Current assignee: Japan Advanced Institute of Science and Technology; SoftBank Corp
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-11-26
Anticipated expiration: 2039-05-17
Also published as: JP7123856B2

Abstract

【課題】対象者がプレゼンテーションを行っているときの言語特徴と韻律特徴と動作特徴とを考慮したプレゼンテーションの総合的な定量評価を出力することができるシステムを提供する。【解決手段】システムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得し、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出し、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定し、前記解析結果を出力する。【選択図】図２

Description

本発明は、プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、並びに、プレゼンテーションの評価に用いる情報処理装置及び端末装置に関するものである。

従来、発表者が行うプレゼンテーションを評価する評価装置が知られている。例えば、特許文献１には、パーソナルコンピュータ上の画面を発表資料であるスライドとして聴講者向けの画面に表示して行うプレゼンテーションにおいて、どの程度の割合で聴講者の方向に視線を送っていたかを視線方向検知装置で検知して判断し、その視線の判断結果と、発表資料の各アジェンダページに割り当てられた時間と発表者が現実に各ページに費やした時間との比較結果とに基づいて、プレゼンテーションを評価するプレゼンテーション評価装置が開示されている。このプレゼンテーション評価装置によれば、発表用資料に対してどの程度の時間講演を費やしたかを記録し、その記録された値に対してどの程度の評価を与えることができるかを数値化し、且つ発表者がどの程度聴講者を見てコンタクトをとりながら発表を行っているかを客観的な評価値として取得できる、とされている。

特開２００７−２１９１６１号公報

上記従来の評価装置による評価は、プレゼンテーションに費やした時間の程度や聴講者を見たアイコンタクトの程度といった限定的な評価であり、プレゼンテーションを評価する観点が限定的である。本来、プレゼンテーションとは、プレゼンタの声、発話内容、表情、ジェスチャなどを統合して行うはずのものであるが、上記従来の評価装置では、そのようなプレゼンテーションの評価を実現することができない。また、上記従来の評価装置は、発表者の視線を検知する特別なハードウェア（視線方向検知装置）を必要とするため、ユーザが使用する端末装置等に実装するときのハードルが高い。

本発明の一態様に係るシステムは、プレゼンテーションを評価するシステムである。このシステムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記解析結果を出力する解析結果出力部と、を備える。

前記システムにおいて、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いないようにしてもよい。
ここで、前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画の撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質であってもよい。
また、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えてもよい。

前記システムにおいて、前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いてもよい。
前記推論部において、前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルであってもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用してもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用してもよい。
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルであってもよい。

前記システムにおいて、前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含んでもよい。また、前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含んでもよい。また、前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含んでもよい。

前記システムにおいて、前記評価項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含んでもよい。

前記システムにおいて、前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記評価値と前記評価値を推定したときの決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めてもよい。

前記システムにおいて、通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有してもよい。

本発明の他の態様に係る学習済みモデルは、プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデルである。この学習済みモデルは、複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を出力する。

本発明の更に他の態様に係るプレゼンテーションを評価する方法は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定することと、前記解析結果を出力することと、を含む。

本発明の更に他の態様に係る端末装置は、通信網を介して情報処理装置と通信可能な端末装置である。この端末装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、前記解析結果を出力する解析結果出力部と、を備える。

本発明の更に他の態様に係る情報処理装置は、通信網を介して端末装置と通信可能な情報処理装置である。この情報処理装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を備える。

本発明の更に他の態様に係るプログラムは、通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、前記解析結果を出力するためのプログラムコードと、を含む。

本発明の更に他の態様に係るプログラムは、通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、前記端末装置に前記解析結果を送信するためのプログラムコードと、を含む。

前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記韻律特徴量は、前記プレゼンテーションを行っている対象者の声の特徴量を含み、前記言語特徴量は、前記プレゼンテーションを行っている対象者の発話内容の特徴量を含み、前記動作特徴量は、前記プレゼンテーションを行っている対象者のジェスチャの特徴量を含んでもよい。
また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記取得するデータは、前記プレゼンテーションを行っている対象者について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含み、前記解析に用いる特徴量は、前記検知データから抽出した体温、心拍数などを含んでもよい。また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記出力又は前記送信の対象には、過去の評価値を含む解析結果と最新の評価値を含む解析結果を同時に含んでもよいし、過去の評価値を含む解析結果と最新の評価値の差分を含んでもよい。

本発明によれば、プレゼンテーションのマルチモーダル情報からプレゼンテーションの多角的な視点からの定量評価が可能であり、また、実装するときのハードルが低い、という効果を奏する。

実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図。実施形態に係るプレゼンテーション評価の手順の一例を示す説明図。実施形態に係るシステムにおける端末装置及び情報処理装置の概略構成の一例を示すブロック図。実施形態に係る情報処理装置の特徴量抽出部の要部構成の一例を示すブロック図。図。（ａ）は、実施形態に係る特徴量抽出部による発表者の各部の動作量の抽出処理に用いる骨格検出像の一例を示す説明図。（ｂ）は、発表者の頭部の検出点の位置の時間変化（軌跡）の一例を示す説明図。実施形態に係る端末装置における解析結果の表示画面の一例を示す説明図。

以下、図面を参照して本発明の実施形態について説明する。
図１は、本実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図である。本実施形態のプレゼンテーション評価は、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量から、当該プレゼンテーションの多角的な視点からの定量的な評価値の算出など行うものである。本実施形態のシステムは、プレゼンテーション評価システムとして用いてもよいし、プレゼンテーション能力推定システムとして用いてもよい。

評価対象のプレゼンテーションは、視覚的及び聴覚的な手段を用いて、計画、企画案、見積り、講義内容、自己アピールなどを、会議、ミーティング、講義、打ち合わせ、面接などにおいて、評価対象者である発表者が他の出席者等に向けて発表したり提示したりするものである。

図１のプレゼンテーション評価の例では、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量が、説明変数の値として、解析モデルとしての機械学習済みモデルに入力される。機械学習済みモデルは、入力されたマルチモーダルな特徴量を所定のアルゴリズムに従って解析し、プレゼンテーションの所定の評価項目について定量的に評価したプレゼンテーション評価値を、目的変数の値として出力する。

プレゼンテーション評価値は、目的網羅性、内容ロジック（内容の論理性）、ビジュアル及びボーカル（見え方及び聞こえ方）、並びに、効果的演出要素の大項目それぞれに関する複数の評価項目の値である。例えば、目的網羅性の評価項目は、例えば、「誰に」、「何を」、「どうしてほしい」という目的に関する３つの内容が網羅されているかを評価する項目である。内容ロジックの評価項目は、例えば、「結論」、その「根拠」及び「相手の利益」に関する３つの内容が含まれているかを評価する項目である。ビジュアル及びボーカルの評価項目は、例えば、抑揚、声量、アイコンタクト及びジェスチャといった見え方及び聞こえ方に関する評価項目である。効果的演出要素は、例えば、強調、繰り返し、具体表現及び双方向性といった効果的演出に関する評価項目である。

プレゼンテーション評価に用いる解析モデルは、例えば、複数のプレゼンテーションそれぞれについて、プレゼンテーションの様子を撮像した音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量と、各プレゼンテーションに対して機械ではなく人間の評価者が上記評価項目のそれぞれについて付与した正解データとしての評価値とを関連付けた複数の教師あり学習データを用いて予め機械学習することにより、モデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。

複数種類の機械学習済みモデルは、評価対象者である発表者（プレゼンター）１０の個性又はユーザ４０の個性に応じて作成されたものであってもよい。機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。また、発表者１０の属性（例えば、年齢層、性別、プレゼンテーションの経験度）が互いに異なる複数種類の対象者グループそれぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。また、複数のプレゼンテーションの種類それぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。機械学習済みモデルの選択は、ユーザが手動で行ってもよいし、発表者の属性、プレゼンテーションの種類、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて行ってもよい。また、複数種類の機械学習済みモデルそれぞれについてキャリブレーションを行い、そのキャリブレーションの情報をもとに選択してもよい。ここで、「キャリブレーション」とは、学習済みモデルによって算出された予測確率を本来の確率に近づける処理である。また、複数種類の機械学習済みモデルをすべて用いて解析を行い最も精度が高かった機械学習済みモデルを選択し、その後の解析に用いるようにしてもよい。

また、プレゼンテーションの評価に用いる解析モデル（機械学習済みモデル）は、韻律特徴量、言語特徴量及び動作特徴量それぞれに含まれる複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量やパターン化が困難な特徴量（例えば、後述のフィラー数）を入力として用いない解析モデルであってもよい。ここで、前記抽出する処理に所定の時間以上を要する特徴量や前記パターン化が困難な特徴量には、例えば、パターンが多様であるため既存サービスを使った特徴量化では解析に十分な水準が得られない特徴量、水準を満たそうとすると人手による作業などが必要になりリアルタイムの処理ができなくなる特徴量などが含まれる。

図２は、本実施形態に係るプレゼンテーション評価の手順の一例を示す説明図である。図２において、実施形態に係るプレゼンテーション評価システムを利用する場合、ユーザが端末装置２０を操作して、端末装置２０に予め組み込まれているプレゼンテーション評価のアプリケーションのプログラムを起動する。ユーザがデータ取得開始操作を行うと、端末装置２０のマイク及びカメラにより、対象者である発表者１０が行っているプレゼンテーションの音声入力及び動画の撮像が行われ、当該プレゼンテーションの音声データ及び動画データが取得される（ステップＳ１）。なお、取得するデータは、プレゼンテーションを行っている発表者１０について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含んでもよい。

次に、プレゼンテーションが終わってユーザがデータ取得終了操作を行うと、当該プレゼンテーションの音声データ及び動画データが端末装置２０から移動通信網を介して、通信網上に構築された情報処理装置（クラウドサービスプラットフォーム）３０に送信される（ステップＳ２）。

情報処理装置（クラウドサービスプラットフォーム）３０は、端末装置２０から受信した音声データをテキストデータに変換する文字起こし処理を行って言語特徴量を抽出し、音声データからプレゼンテーションの韻律特徴量を抽出し、端末装置２０から受信したから前記プレゼンテーションを行っているときの対象者である発表者１０の動作特徴量を抽出する（ステップＳ３）。更に、情報処理装置３０は、前記抽出した言語特徴量、韻律特徴量、動作特徴量を解析して、前述の目的網羅性、内容ロジック（内容の論理性）、ビジュアル及びボーカル（見え方及び聞こえ方）、並びに効果的演出要素のそれぞれの評価項目について定量的に評価した評価値を含む解析結果を推定し（ステップＳ４）、その解析結果を、移動通信網を介して端末装置２０に送信する（ステップＳ５）。なお、韻律特徴量は、プレゼンテーションを行っている発表者１０の声の特徴量を含み、言語特徴量は、プレゼンテーションを行っている発表者１０の発話内容の特徴量を含み、動作特徴量は、プレゼンテーションを行っている発表者１０のジェスチャの特徴量を含んでもよい。また、解析に用いる特徴量は、前記各種センサの検知データから抽出した体温、心拍数などを含んでもよい。

端末装置２０は、情報処理装置３０から、プレゼンテーションの解析結果を受信すると、その解析結果を自装置の画面上に表示する（ステップＳ６）。

図３は、本実施形態に係るシステムにおける端末装置２０及び情報処理装置３０の概略構成の一例を示すブロック図である。なお、図３及び前述の図２の例では、情報処理装置３０が通信網上に構築されたクラウドプラットフォームであるが、情報処理装置３０は、一又は複数のコンピュータ装置からなるサーバであってもよい。また、図３の例では、本システムの端末装置２０のユーザがプレゼンテーションの発表者自身である場合の例であるが、端末装置２０のユーザは、プレゼンテーションの発表者以外の者であってもよい。

図３において、端末装置２０は、データ取得部２０１とデータ確認部２０２とデータ取得助言表示部（データ取得助言出力部）２０３とデータ送信部２０４と解析結果受信部２０５と解析結果表示部（解析結果出力部）２０６とを備える。端末装置２０の各部におけるデータ処理及び信号処理の機能は、例えば、端末装置２０に設けられたコンピュータ又はプロセッサにおいて所定のアプリケーションプログラムが実行されることで実現される。

データ取得部２０１は、プレゼンテーションを行っている発表者１０の様子をカメラで撮像して動画データにするとともに、発表者１０の音声をマイクで取得して音声データにする。動画データ及び音声データをメモリに一時的に保存してもよい。

データ確認部２０２は、データ取得部２０１で取得した動画データ及び音声データの品質が後段の解析を行うにあたって問題ないか否かを確認する。例えば、データ確認部２０２は、音声データに関し、音声の音圧の値が指定の範囲内にあるか、及び，周囲の雑音の大きさが所定の閾値以内であるかを確認し、動画データに関し、動作特徴量の抽出のための座標を取得する発表者１０の身体部がすべて画像中に含まれているか、及び、発表者１０の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、を確認する。ここで、所定の角度範囲は、後段の処理で動作特徴量の抽出が可能な角度範囲（例えば、±３０度の角度範囲）である。また、データ確認部２０２は、発表者１０に特定の文章を読み上げてもらい、その音声を文字起こしした際に正しく認識されていれば、音声データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。また、データ確認部２０２は、発表者１０に特定の動作をしてもらい、特定の骨格情報が認識されれば、動画データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。例えば、肘を伸ばして両手を真上にあげる動作をしてもらい、その真上に上げた両手が認識されれば、動画データが「解析可能な品質」を有すると判定してもよい。

データ確認部２０２は、動画データ及び音声データの品質に問題がある場合（図中のＮＧ（否定的な結果）の場合）、その情報をデータ取得助言表示部２０３に送る。データ取得助言表示部２０３は、データ確認部２０２から受けた情報に基づいて、声を大きくする、プレゼンテーションを行っている位置を変化させる等の助言メッセージを、端末装置２０のディスプレイ上に表示する。なお、助言メッセージは、表示に加えて又は代えて、音声で出力してもよい。

一方、当該品質に問題がない場合（図中のＯＫ（肯定的な結果）の場合）、データ確認部２０２は、動画データ及び音声データをデータ送信部２０４に送る。データ送信部２０４は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを情報処理装置（クラウドサービスプラットフォーム）３０に送信する。

なお、データ送信部２０４は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を情報処理装置３０に送信してもよい。また、データ送信部２０４は、動画データ及び音声データともに、それらのデータを識別するためのデータ群ＩＤ、又は、それらのデータに対応するプレゼンテーションを識別するためのプレゼンテーションＩＤを送信してもよい。

解析結果受信部２０５は、例えば無線通信装置等により、移動通信網などの通信網を介して、プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を情報処理装置３０から受信する。

解析結果表示部２０６は、情報処理装置３０から受信したプレゼンテーションの解析結果を端末装置２０のディスプレイ上に表示する。プレゼンテーションの解析結果は、例えば図６に例示するように、なお、解析結果は、表示に加えて又は代えて、音声で出力してもよい。

情報処理装置（クラウドサービスプラットフォーム）３０は、データ受信部３０１と特徴量抽出部３０２と解析モデル判定部３０３と推論部３０４と解析モデルデータベース（ＤＢ）３０５と解析結果送信部３０６とを備える。情報処理装置３０の各部におけるデータ処理及び信号処理の機能は、例えば、情報処理装置３０に設けられた一又は複数のコンピュータ又はプロセッサにおいて所定のプログラムが実行されることで実現される。

データ受信部３０１は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを端末装置２０から受信する。なお、データ受信部３０１は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を端末装置２０から受信してもよい。

特徴量抽出部３０２は、端末装置２０から受信した動画データ及び音声データから、後述の解析モデル（機械学習済みモデル）に説明変数として入力する各種特徴量を抽出する。例えば、図４に例示する特徴量抽出部３０２は、音声解析部３２１と言語解析部３２２と動作解析部３２３とを備える。音声解析部３２１の文字起こし部３２１１は、端末装置２０から受信した音声データを音声認識によりテキストデータに変換する文字起こし処理を行う。

言語解析部３２２は、文字起こし部３２１１で得られたテキストデータから、表１に例示するプレゼンテーションの言語特徴量を抽出する。表１中のフィラーは、「えー」、「あのー」、「はいっ」、「えーっと」等の言葉と言葉の隙間を埋めるために使う言葉又は音である。また、動詞繰り返し数は、プレゼンテーション中で繰り返された同一動詞の繰り返し数の最大値であり、名詞繰り返し数は、プレゼンテーション中で繰り返された同一名詞の繰り返し数の最大値である。

また、図４に例示する音声解析部３２１の韻律解析部３２１２は、音声データから、表２に例示するプレゼンテーションの韻律特徴量を抽出する。表２中のピッチは音声の高さ（周波数）である。インテンシティは音声の物理的な強さであり、例えば単位面積を通して伝わる音響パワー［Ｗ／ｍ^２］である。また、合計発話長はプレゼンテーション全体における発話時間の合計値であり、合計発話長（１秒以上）は１秒以上の発話時間の合計値である。また、合計無音長は、プレゼンテーション全体における無音時間の合計値であり、合計無音長（１秒以上）は、１秒以上の無音時間の合計値である。また、発話比は、プレゼンテーション全体の時間に対する発話時間の合計値の比率であり、発話比（１秒以上）は、プレゼンテーション全体の時間に対する１秒以上の発話時間の合計値の比率である。

また、図４に例示する動作解析部３２３は、動画データを解析することにより、表３に例示する動作特徴量を抽出する。表３中の身体各部の動作量は、例えば次のように計算する。図５（ａ）に示すように発表者１０を撮像した動画中の骨格検出像１００の検出点（関節点）１０１〜１１９について、例えば図５（ｂ）に示すように動画のフレームごとの２次元的な位置座標（Ｘ，Ｚ）の時間変化量（軌跡）を計算する。そのすべての検出点１０１〜１１９におけるフレーム単位の位置座標の変化量である動作量の平均及び標準偏差が、表３中の身体各部の動作量の平均及び標準偏差である。また、表３中の発話中の身体各部の動作量の平均及び標準偏差は、発表者が発話している時間帯について計算した、発表者の骨格検出像１００の検出点１０１〜１１９における動作量の平均及び標準偏差である。

なお、動作特徴量としては、上記動作量の平均及び標準偏差の加えて又は代えて、発表者の骨格検出像１００の検出点１０１〜１１９の速度、加速度又はその両者の平均及び標準変化を用いてもよい。

解析モデル判定部３０３は、特徴量抽出部３０２で抽出した韻律特徴量、言語特徴量及び動作特徴量に基づいて、それらの特徴量を解析してプレゼンテーションの評価項目の定量的な評価に使用する解析モデルを判定する。例えば、解析モデル判定部３０３は、韻律特徴量、言語特徴量及び動作特徴量に基づいて、評価対象のプレゼンテーションの種類及び発表者の種類を判定し、当該プレゼンテーションの評価項目の定量的な評価に適する解析モデルを、予め登録した複数種類の解析モデルから選択して決定し、その決定した解析モデルを識別する解析モデルＩＤを特徴量抽出部３０２に出力する。また、解析モデル判定部３０３は、予め登録した複数種類の解析モデルをすべて選択して決定し、その決定した複数種類の解析モデルそれぞれを識別する複数の解析モデルＩＤを特徴量抽出部３０２に出力してもよい。

なお、解析モデルの選択・決定には、端末装置２０から受信した発表者（プレゼンター）の属性（例えば、年齢層、性別、プレゼンテーションの経験度）の情報、及び、プレゼンテーションの種類の情報の少なくとも一方の情報を用いてもよい。

推論部３０４は、特徴量抽出部３０２から受信した一又は複数の解析モデルＩＤに基づいて、解析モデルＤＢ３０５に保存されている複数の解析モデルから、当該プレゼンテーションの評価項目の定量的な評価に使用する解析モデル（推定プログラム及びそれに用いる学習済みのパラメータ値）を選択する。

解析モデルは、前述のように複数の教師あり学習データを用いて予め機械学習することによりモデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。推論部３０４で用いる機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。

本実施形態の機械学習済みモデルに用いるアルゴリズムは特定のアルゴリズムに限定されない。例えば、教師あり学習データを用いて学習する機械学習済みモデルのアルゴリズムとしては、数値データを学習して数値を予測する「回帰（Regression）」に分類されるＳＶＲ（サポートベクター回帰）を用いることができる。このＳＶＲの代わりに、線形回帰（Linear (Ordinary) Regression）、ベイズ線形回帰（Bayesian Linear Regression）、ランダムフォレスト（Randam (Decision) Forest）、ブースト決定木（Boosed decision tree）、高速フォレスト分布（Fast forest quantile）、ニューラルネットワーク（Neural network）、ポアソン回帰（Poisson Regression）、サポートベクトル序数回帰（Ordinal Regression）、リッジ回帰（Ridge Regression）、ラッソ回帰（Lasso Regression）などを用いてもよい。

推論部３０４は、解析モデルＩＤに基づいて選択した一又は複数の解析モデル（推定プログラム及びそれに用いる学習済みのパラメータ値を含む機械学習済みモデル）に、特徴量抽出部３０２から受信した言語特徴量、韻律特徴量及び動作特徴量が入力されることにより、所定の評価項目について定量的に評価した評価値を出力する。例えば、推論部３０４は、表４に例示する１４種類の評価項目それぞれについて３段階（１〜３）の定量的な評価値を出力する。

推論部３０４が出力する解析結果は、発表者にフィードバック（ＦＢ）する定性的な評価として、例えば次の（１）〜（４）に例示するような、プレゼンテーション全体に対する一言コメント（フィードバックコメント）を含んでもよい。
（１）特に「強調」は充分に発揮できています。
（２）特に「強調」は意識して臨んでください。
（３）視線が宙に浮いているためアイコンタクトは無し。時折ジェスチュアは自然に出ているが、左右に揺れる癖がある。笑顔は終始出ている。
（４）声量があって聞こえやすい。時折抑揚はついているが、間が無い。ジェスチュアは自然に出ているが、話しの中身と合わないジェスチュアが時折出る。

前記一言コメント（フィードバックコメント）は、例えば表５に例示するように、前述のＳＶＭ等の解析モデルによって推定する評価項目の評価値と決定係数とに基づいて生成することができる。ここで、決定係数は、ＳＶＭ等の解析モデルによる評価値の推定の精度を示す値であり、−１から＋１の値をとる。例えば、この決定係数の絶対値が０．２よりも小さいときは、評価値の推定の精度が低く、決定係数の絶対値が０．２以上１以下ときは、評価値の推定の精度が十分に高いと判断することができる。

表５は、前述の効果的演出要素の「強調」の評価値及び決定係数に基づいて一言コメント（フィードバックコメント）を生成する場合の例である。例えば、表５中の評価項目「強調」の評価値が１であり、決定係数の絶対値が０．２以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は充分に発揮できています。』という一言コメントを生成する。また、評価項目「強調」の評価値が０であり、決定係数の絶対値が０．２以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は意識して臨んでください。』という一言コメントを生成する。決定係数の絶対値が０．２よりも小さく推定精度が低いと判断した場合は、一言コメントを生成しない。

ここで、推論部３０４は、一言コメントの候補として、『特に「評価項目名」は充分に発揮できています。』及び『特に「評価項目名」は意識して臨んでください。』を記憶しておき、「」内の部分に、「強調」、「繰り返し」などの評価項目名を入れて一言コメントを生成してもよい。

解析モデルデータベース（ＤＢ）３０５は、前述のように互いに異なる解析モデルＩＤを付与して複数種類の解析モデルを保存している。解析モデルは、推定プログラム及びそれに用いる学習済みのパラメータ値からなる機械学習済みモデルである。例えば、複数種類の機械学習済みモデルはそれぞれ、入力及び出力の形式が共通であり、複数種類のプレゼンテーションと複数種類の発表者との複数の組み合わせについて予め作成されたプレゼンテーションの評価項目の定量的な評価に適する解析モデルである。複数種類の機械学習済みモデルは、発表者１０の個性又はユーザ４０の個性に応じて作成されたものであってもよい。また、機械学習済みモデルは、前述のように、複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。

解析結果送信部３０６は、推論部３０４から出力された評価値を含む解析結果を、移動通信網などの通信網を介して端末装置２０に送信する。解析結果送信部３０６は、解析結果とともに、その解析結果に対応する前述のデータ群ＩＤ又はプレゼンテーションＩＤを送信してもよい。

図６は、本実施形態に係る端末装置２０における解析結果の表示画面２１の一例を示す説明図である。図６に例示する端末装置２０の表示画面２１は、定量的評価表示部２１１と定性的評価表示部２１２とを有する。定量的評価表示部２１１には、前述の表４の１４種類の評価項目それぞれの定量的な評価値が数字及びグラフで表示される。定性的評価表示部２１２には、前述の情報処理装置３０からフィードバック（ＦＢ）された一言コメントが表示される。表示画面２１には、評価値を含む解析結果の根拠となった韻律特徴量、言語特徴量及び動作特徴量のデータや解析モデル（機械学習済みモデル）の情報を表示してもよい。

以上、本実施形態によれば、プレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を解析してプレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定して出力できるため、プレゼンテーションの多角的な視点からの定量評価が可能である。しかも、そのプレゼンテーションの評価に用いる言語特徴量、韻律特徴量及び動作特徴量は、音声データ及び動画データから抽出することができ、視点方向検知装置のような特別なハードウェアを必要としないため、ユーザが使用する端末装置等に実装するときのハードルが低い。

また、本実施形態によれば、所定の品質を有する音声データ及び動画データのみを言語特徴量、韻律特徴量及び動作特徴量の抽出に用いることにより、各特徴量の抽出精度を高めることができる。特に、所定の音圧を有し雑音が所定以下の音声データを言語特徴量及び韻律特徴量の抽出に用いることにより言語特徴量及び韻律特徴量の抽出精度を高め、動作特徴量の抽出に用いる座標を取得する対象者の身体部が含まれ所定の角度範囲内の画角を有する動画データを動作特徴量の抽出に用いることにより、動作特徴量の抽出精度を高めることができる。音声データ及び動画データが所定の品質を有していないときに音声データ及び動画データの取得に関する助言メッセージを表示（出力）することにより、本システムによる評価が可能なプレゼンテーション又はその評価に適したプレゼンテーションを行うように発表者に注意して促すことができる。

また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量を含む入力を所定のアルゴリズムで処理することにより定量的な評価値を含む解析結果を出力する解析モデルを用いることにより、言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を統合して推定した評価値を含む解析結果を推定できる。

また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量それぞれが複数種類の特徴量を含むので、プレゼンテーションのより多角的な評価が可能になる。また、複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を入力として用いない解析モデルを用いることにより、プレゼンテーションの定量的な評価値を含む解析結果の情報処理装置３０から端末装置２０へのリアルタイムフィードバックが可能になる。

また、本実施形態によれば、アルゴリズムが互いに異なる複数種類の解析モデルから選択した解析モデルを、韻律特徴量、言語特徴量及び動作特徴量の解析に使用することにより、各種の条件に応じて、プレゼンテーションの精度の高い評価が可能になる。特に、言語特徴量、韻律特徴量及び動作特徴量の少なくとも一つに基づいて選択した解析モデルを用いることにより、特徴量に応じた高い精度の評価が可能になる。また、プレゼンテーションの発表者（対象者）の属性及びプレゼンテーションの種類の少なくとも一方に基づいて選択した解析モデルを用いることにより、発表者の属性及びプレゼンテーションの種類に応じた高い精度の評価が可能になる。また、複数のプレゼンテーションについて予め取得した言語特徴量、韻律特徴量及び動作特徴量と評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルを用いることにより、評価対象のプレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量を入力してプレゼンテーションの多角的な視点からの定量評価が出力可能になる。

特に、本実施形態によれば、プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する言語特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する韻律特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの全体における発表者の身体各部の動作量及び発話中における発表者の身体各部の動作量の少なくとも一つに関する動作特徴量の観点から評価した評価値を出力することができる。

また、本実施形態によれば、プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む多角的な評価を出力できる。

また、本実施形態によれば、評価値及びその評価値を推定したときの決定係数に基づいて生成した一言コメントを解析結果に含めることにより、プレゼンテーションの発表者又は端末装置２０のユーザに直感的でわかりやすい評価を伝えることができる。

また、本実施形態によれば、対象者である発表者１０が行っているプレゼンテーションの音声データ及び動画データを端末装置２０で取得するという簡易な操作で、プレゼンテーションの多角的な視点からの定量的な評価値を含む解析結果を端末装置２０に出力することができる。

なお、本明細書で説明された処理工程並びにプレゼンテーション評価を行うシステム、端末装置、情報処理装置の構成要素は、様々な手段によって実装することができる。例えば、これらの工程及び構成要素は、ハードウェア、ファームウェア、ソフトウェア、又は、それらの組み合わせで実装されてもよい。

ハードウェア実装については、実体（例えば、コンピュータ装置、サーバ、クラウドサービスプラットフォーム（クラウドコンピュータシステム）、各種無線通信装置、ＮｏｄｅＢ、端末、ハードディスクドライブ装置、又は、光ディスクドライブ装置）において上記工程及び構成要素を実現するために用いられる処理ユニット等の手段は、１つ又は複数の、特定用途向けＩＣ（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブル・ロジック・デバイス（ＰＬＤ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明された機能を実行するようにデザインされた他の電子ユニット、コンピュータ、又は、それらの組み合わせの中に実装されてもよい。

また、ファームウェア及び／又はソフトウェア実装については、上記構成要素を実現するために用いられる処理ユニット等の手段は、本明細書で説明された機能を実行するプログラム（例えば、プロシージャ、関数、モジュール、インストラクション、などのコード）で実装されてもよい。一般に、ファームウェア及び／又はソフトウェアのコードを明確に具体化する任意のコンピュータ／プロセッサ読み取り可能な媒体が、本明細書で説明された上記工程及び構成要素を実現するために用いられる処理ユニット等の手段の実装に利用されてもよい。例えば、ファームウェア及び／又はソフトウェアコードは、例えば制御装置において、メモリに記憶され、コンピュータやプロセッサにより実行されてもよい。そのメモリは、コンピュータやプロセッサの内部に実装されてもよいし、又は、プロセッサの外部に実装されてもよい。また、ファームウェア及び／又はソフトウェアコードは、例えば、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラマブルリードオンリーメモリ（ＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、ＦＬＡＳＨメモリ、フロッピー（登録商標）ディスク、コンパクトディスク（ＣＤ）、デジタルバーサタイルディスク（ＤＶＤ）、磁気又は光データ記憶装置、などのような、コンピュータやプロセッサで読み取り可能な媒体に記憶されてもよい。そのコードは、１又は複数のコンピュータやプロセッサにより実行されてもよく、また、コンピュータやプロセッサに、本明細書で説明された機能性のある態様を実行させてもよい。

また、前記媒体は非一時的な記録媒体であってもよい。また、前記プログラムのコードは、コンピュータ、プロセッサ、又は他のデバイス若しくは装置機械で読み込んで実行可能であれよく、その形式は特定の形式に限定されない。例えば、前記プログラムのコードは、ソースコード、オブジェクトコード及びバイナリコードのいずれでもよく、また、それらのコードの２以上が混在したものであってもよい。

また、本明細書で開示された実施形態の説明は、当業者が本開示を製造又は使用するのを可能にするために提供される。本開示に対するさまざまな修正は当業者には容易に明白になり、本明細書で定義される一般的原理は、本開示の趣旨又は範囲から逸脱することなく、他のバリエーションに適用可能である。それゆえ、本開示は、本明細書で説明される例及びデザインに限定されるものではなく、本明細書で開示された原理及び新規な特徴に合致する最も広い範囲に認められるべきである。

１０：発表者
２０：端末装置
２１：表示画面
３０：情報処理装置
４０：ユーザ
１００：骨格検出像
１０１〜１１９：検出点
２０１：データ取得部
２０２：データ確認部
２０３：データ取得助言表示部
２０４：データ送信部
２０５：解析結果受信部
２０６：解析結果表示部
２１１：定量的評価表示部
２１２：定性的評価表示部
３０１：データ受信部
３０２：特徴量抽出部
３０３：解析モデル判定部
３０４：推論部
３０５：解析モデルＤＢ
３０６：解析結果送信部
３２１：音声解析部
３２２：言語解析部
３２３：動作解析部
３２１１：文字起こし部
３２１２：韻律解析部

Claims

プレゼンテーションを評価するシステムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、
前記解析結果を出力する解析結果出力部と、を備えることを特徴とするシステム。
請求項１のシステムにおいて、
前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、
前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いない、ことを特徴とするシステム。
請求項２のシステムにおいて、
前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質である、ことを特徴とするシステム。
請求項２又は３のシステムにおいて、
前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えることを特徴とするシステム。
請求項１乃至４のいずれかのシステムにおいて、
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いる、ことを特徴とするシステム。
請求項５のシステムにおいて、
前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、
前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルである、ことを特徴とするシステム。
請求項５又は６のシステムにおいて、
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用することを特徴とするシステム。
請求項５又は６のシステムにおいて、
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用する、ことを特徴とするシステム。
請求項８のシステムにおいて、
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
請求項８又は９のシステムにおいて、
前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
請求項５乃至１０のいずれかのシステムにおいて、
前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルである、ことを特徴とするシステム。
請求項１乃至１１のいずれかのシステムにおいて、
前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含み、
前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含み、
前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含む、ことを特徴とするシステム。
請求項１乃至１２のいずれかのシステムにおいて、
前記評価項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む、ことを特徴とするシステム。
請求項１乃至１３のいずれかのシステムにおいて、
前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記評価値と前記評価値を推定したときの決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含める、ことを特徴とするシステム。
請求項１乃至１４のいずれかのシステムにおいて、
通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、
前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、
前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有することを特徴とするシステム。
プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデルであって、
複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、
評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を出力する、ことを特徴とする学習済みモデル。
プレゼンテーションを評価する方法であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定することと、
前記解析結果を出力することと、を含むことを特徴とする方法。
通信網を介して情報処理装置と通信可能な端末装置であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、
前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、
前記解析結果を出力する解析結果出力部と、を備えることを特徴とする端末装置。
通信網を介して端末装置と通信可能な情報処理装置であって、
プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、
前記端末装置に前記解析結果を送信する解析結果送信部と、を備えることを特徴とする情報処理装置。
通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、
前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、
前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、
前記解析結果を出力するためのプログラムコードと、を含むことを特徴とするプログラム。
通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、
前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、
前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、
前記端末装置に前記解析結果を送信するためのプログラムコードと、を含むことを特徴とするプログラム。