JP2020190579A - プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置 - Google Patents

プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置 Download PDF

Info

Publication number
JP2020190579A
JP2020190579A JP2019094014A JP2019094014A JP2020190579A JP 2020190579 A JP2020190579 A JP 2020190579A JP 2019094014 A JP2019094014 A JP 2019094014A JP 2019094014 A JP2019094014 A JP 2019094014A JP 2020190579 A JP2020190579 A JP 2020190579A
Authority
JP
Japan
Prior art keywords
feature amount
presentation
data
analysis
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019094014A
Other languages
English (en)
Other versions
JP7123856B2 (ja
Inventor
翔太 塩原
Shota Shiobara
翔太 塩原
聡太 杉村
Sota Sugimura
聡太 杉村
将吾 岡田
Shiyougo Okada
将吾 岡田
悠太朗 八木
Yutaro Yagi
悠太朗 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Advanced Institute of Science and Technology
SoftBank Corp
Original Assignee
Japan Advanced Institute of Science and Technology
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Advanced Institute of Science and Technology, SoftBank Corp filed Critical Japan Advanced Institute of Science and Technology
Priority to JP2019094014A priority Critical patent/JP7123856B2/ja
Publication of JP2020190579A publication Critical patent/JP2020190579A/ja
Application granted granted Critical
Publication of JP7123856B2 publication Critical patent/JP7123856B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】対象者がプレゼンテーションを行っているときの言語特徴と韻律特徴と動作特徴とを考慮したプレゼンテーションの総合的な定量評価を出力することができるシステムを提供する。【解決手段】システムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得し、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出し、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定し、前記解析結果を出力する。【選択図】図2

Description

本発明は、プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、並びに、プレゼンテーションの評価に用いる情報処理装置及び端末装置に関するものである。
従来、発表者が行うプレゼンテーションを評価する評価装置が知られている。例えば、特許文献1には、パーソナルコンピュータ上の画面を発表資料であるスライドとして聴講者向けの画面に表示して行うプレゼンテーションにおいて、どの程度の割合で聴講者の方向に視線を送っていたかを視線方向検知装置で検知して判断し、その視線の判断結果と、発表資料の各アジェンダページに割り当てられた時間と発表者が現実に各ページに費やした時間との比較結果とに基づいて、プレゼンテーションを評価するプレゼンテーション評価装置が開示されている。このプレゼンテーション評価装置によれば、発表用資料に対してどの程度の時間講演を費やしたかを記録し、その記録された値に対してどの程度の評価を与えることができるかを数値化し、且つ発表者がどの程度聴講者を見てコンタクトをとりながら発表を行っているかを客観的な評価値として取得できる、とされている。
特開2007−219161号公報
上記従来の評価装置による評価は、プレゼンテーションに費やした時間の程度や聴講者を見たアイコンタクトの程度といった限定的な評価であり、プレゼンテーションを評価する観点が限定的である。本来、プレゼンテーションとは、プレゼンタの声、発話内容、表情、ジェスチャなどを統合して行うはずのものであるが、上記従来の評価装置では、そのようなプレゼンテーションの評価を実現することができない。また、上記従来の評価装置は、発表者の視線を検知する特別なハードウェア(視線方向検知装置)を必要とするため、ユーザが使用する端末装置等に実装するときのハードルが高い。
本発明の一態様に係るシステムは、プレゼンテーションを評価するシステムである。このシステムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記解析結果を出力する解析結果出力部と、を備える。
前記システムにおいて、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いないようにしてもよい。
ここで、前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画の撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質であってもよい。
また、前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えてもよい。
前記システムにおいて、前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いてもよい。
前記推論部において、前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルであってもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用してもよい。
前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用してもよい。
前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択してもよい。
前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルであってもよい。
前記システムにおいて、前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含んでもよい。また、前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含んでもよい。また、前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含んでもよい。
前記システムにおいて、前記評価項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含んでもよい。
前記システムにおいて、前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記評価値と前記評価値を推定したときの決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含めてもよい。
前記システムにおいて、通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有してもよい。
本発明の他の態様に係る学習済みモデルは、プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデルである。この学習済みモデルは、複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を出力する。
本発明の更に他の態様に係るプレゼンテーションを評価する方法は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定することと、前記解析結果を出力することと、を含む。
本発明の更に他の態様に係る端末装置は、通信網を介して情報処理装置と通信可能な端末装置である。この端末装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、前記解析結果を出力する解析結果出力部と、を備える。
本発明の更に他の態様に係る情報処理装置は、通信網を介して端末装置と通信可能な情報処理装置である。この情報処理装置は、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を備える。
本発明の更に他の態様に係るプログラムは、通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、前記解析結果を出力するためのプログラムコードと、を含む。
本発明の更に他の態様に係るプログラムは、通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムである。このプログラムは、プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、前記端末装置に前記解析結果を送信するためのプログラムコードと、を含む。
前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記韻律特徴量は、前記プレゼンテーションを行っている対象者の声の特徴量を含み、前記言語特徴量は、前記プレゼンテーションを行っている対象者の発話内容の特徴量を含み、前記動作特徴量は、前記プレゼンテーションを行っている対象者のジェスチャの特徴量を含んでもよい。
また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記取得するデータは、前記プレゼンテーションを行っている対象者について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含み、前記解析に用いる特徴量は、前記検知データから抽出した体温、心拍数などを含んでもよい。 また、前記システム、前記学習済みモデル、前記方法、前記端末装置、前記情報処理装置及び前記プログラムにおいて、前記出力又は前記送信の対象には、過去の評価値を含む解析結果と最新の評価値を含む解析結果を同時に含んでもよいし、過去の評価値を含む解析結果と最新の評価値の差分を含んでもよい。
本発明によれば、プレゼンテーションのマルチモーダル情報からプレゼンテーションの多角的な視点からの定量評価が可能であり、また、実装するときのハードルが低い、という効果を奏する。
実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図。 実施形態に係るプレゼンテーション評価の手順の一例を示す説明図。 実施形態に係るシステムにおける端末装置及び情報処理装置の概略構成の一例を示すブロック図。 実施形態に係る情報処理装置の特徴量抽出部の要部構成の一例を示すブロック図。図。 (a)は、実施形態に係る特徴量抽出部による発表者の各部の動作量の抽出処理に用いる骨格検出像の一例を示す説明図。(b)は、発表者の頭部の検出点の位置の時間変化(軌跡)の一例を示す説明図。 実施形態に係る端末装置における解析結果の表示画面の一例を示す説明図。
以下、図面を参照して本発明の実施形態について説明する。
図1は、本実施形態に係るシステムにおけるプレゼンテーション評価の概要の一例を示す説明図である。本実施形態のプレゼンテーション評価は、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量から、当該プレゼンテーションの多角的な視点からの定量的な評価値の算出など行うものである。本実施形態のシステムは、プレゼンテーション評価システムとして用いてもよいし、プレゼンテーション能力推定システムとして用いてもよい。
評価対象のプレゼンテーションは、視覚的及び聴覚的な手段を用いて、計画、企画案、見積り、講義内容、自己アピールなどを、会議、ミーティング、講義、打ち合わせ、面接などにおいて、評価対象者である発表者が他の出席者等に向けて発表したり提示したりするものである。
図1のプレゼンテーション評価の例では、評価対象者がプレゼンテーションを行っているときの音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量を含むマルチモーダルな特徴量が、説明変数の値として、解析モデルとしての機械学習済みモデルに入力される。機械学習済みモデルは、入力されたマルチモーダルな特徴量を所定のアルゴリズムに従って解析し、プレゼンテーションの所定の評価項目について定量的に評価したプレゼンテーション評価値を、目的変数の値として出力する。
プレゼンテーション評価値は、目的網羅性、内容ロジック(内容の論理性)、ビジュアル及びボーカル(見え方及び聞こえ方)、並びに、効果的演出要素の大項目それぞれに関する複数の評価項目の値である。例えば、目的網羅性の評価項目は、例えば、「誰に」、「何を」、「どうしてほしい」という目的に関する3つの内容が網羅されているかを評価する項目である。内容ロジックの評価項目は、例えば、「結論」、その「根拠」及び「相手の利益」に関する3つの内容が含まれているかを評価する項目である。ビジュアル及びボーカルの評価項目は、例えば、抑揚、声量、アイコンタクト及びジェスチャといった見え方及び聞こえ方に関する評価項目である。効果的演出要素は、例えば、強調、繰り返し、具体表現及び双方向性といった効果的演出に関する評価項目である。
プレゼンテーション評価に用いる解析モデルは、例えば、複数のプレゼンテーションそれぞれについて、プレゼンテーションの様子を撮像した音声及び動画のデータから抽出した韻律特徴量、言語特徴量及び動作特徴量と、各プレゼンテーションに対して機械ではなく人間の評価者が上記評価項目のそれぞれについて付与した正解データとしての評価値とを関連付けた複数の教師あり学習データを用いて予め機械学習することにより、モデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。
複数種類の機械学習済みモデルは、評価対象者である発表者(プレゼンター)10の個性又はユーザ40の個性に応じて作成されたものであってもよい。機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。また、発表者10の属性(例えば、年齢層、性別、プレゼンテーションの経験度)が互いに異なる複数種類の対象者グループそれぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。また、複数のプレゼンテーションの種類それぞれに対応するように複数種類の機械学習済みモデルを予め作成しておき、それらの複数種類の機械学習済みモデルをすべて用いるようにしてもよいし、それらの複数種類の機械学習済みモデルから選択して用いるようにしてもよい。機械学習済みモデルの選択は、ユーザが手動で行ってもよいし、発表者の属性、プレゼンテーションの種類、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて行ってもよい。また、複数種類の機械学習済みモデルそれぞれについてキャリブレーションを行い、そのキャリブレーションの情報をもとに選択してもよい。ここで、「キャリブレーション」とは、学習済みモデルによって算出された予測確率を本来の確率に近づける処理である。また、複数種類の機械学習済みモデルをすべて用いて解析を行い最も精度が高かった機械学習済みモデルを選択し、その後の解析に用いるようにしてもよい。
また、プレゼンテーションの評価に用いる解析モデル(機械学習済みモデル)は、韻律特徴量、言語特徴量及び動作特徴量それぞれに含まれる複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量やパターン化が困難な特徴量(例えば、後述のフィラー数)を入力として用いない解析モデルであってもよい。ここで、前記抽出する処理に所定の時間以上を要する特徴量や前記パターン化が困難な特徴量には、例えば、パターンが多様であるため既存サービスを使った特徴量化では解析に十分な水準が得られない特徴量、水準を満たそうとすると人手による作業などが必要になりリアルタイムの処理ができなくなる特徴量などが含まれる。
図2は、本実施形態に係るプレゼンテーション評価の手順の一例を示す説明図である。図2において、実施形態に係るプレゼンテーション評価システムを利用する場合、ユーザが端末装置20を操作して、端末装置20に予め組み込まれているプレゼンテーション評価のアプリケーションのプログラムを起動する。ユーザがデータ取得開始操作を行うと、端末装置20のマイク及びカメラにより、対象者である発表者10が行っているプレゼンテーションの音声入力及び動画の撮像が行われ、当該プレゼンテーションの音声データ及び動画データが取得される(ステップS1)。なお、取得するデータは、プレゼンテーションを行っている発表者10について測定した赤外線センサ、心拍センサ等の各種センサで検知した検知データを含んでもよい。
次に、プレゼンテーションが終わってユーザがデータ取得終了操作を行うと、当該プレゼンテーションの音声データ及び動画データが端末装置20から移動通信網を介して、通信網上に構築された情報処理装置(クラウドサービスプラットフォーム)30に送信される(ステップS2)。
情報処理装置(クラウドサービスプラットフォーム)30は、端末装置20から受信した音声データをテキストデータに変換する文字起こし処理を行って言語特徴量を抽出し、音声データからプレゼンテーションの韻律特徴量を抽出し、端末装置20から受信したから前記プレゼンテーションを行っているときの対象者である発表者10の動作特徴量を抽出する(ステップS3)。更に、情報処理装置30は、前記抽出した言語特徴量、韻律特徴量、動作特徴量を解析して、前述の目的網羅性、内容ロジック(内容の論理性)、ビジュアル及びボーカル(見え方及び聞こえ方)、並びに効果的演出要素のそれぞれの評価項目について定量的に評価した評価値を含む解析結果を推定し(ステップS4)、その解析結果を、移動通信網を介して端末装置20に送信する(ステップS5)。なお、韻律特徴量は、プレゼンテーションを行っている発表者10の声の特徴量を含み、言語特徴量は、プレゼンテーションを行っている発表者10の発話内容の特徴量を含み、動作特徴量は、プレゼンテーションを行っている発表者10のジェスチャの特徴量を含んでもよい。また、解析に用いる特徴量は、前記各種センサの検知データから抽出した体温、心拍数などを含んでもよい。
端末装置20は、情報処理装置30から、プレゼンテーションの解析結果を受信すると、その解析結果を自装置の画面上に表示する(ステップS6)。
図3は、本実施形態に係るシステムにおける端末装置20及び情報処理装置30の概略構成の一例を示すブロック図である。なお、図3及び前述の図2の例では、情報処理装置30が通信網上に構築されたクラウドプラットフォームであるが、情報処理装置30は、一又は複数のコンピュータ装置からなるサーバであってもよい。また、図3の例では、本システムの端末装置20のユーザがプレゼンテーションの発表者自身である場合の例であるが、端末装置20のユーザは、プレゼンテーションの発表者以外の者であってもよい。
図3において、端末装置20は、データ取得部201とデータ確認部202とデータ取得助言表示部(データ取得助言出力部)203とデータ送信部204と解析結果受信部205と解析結果表示部(解析結果出力部)206とを備える。端末装置20の各部におけるデータ処理及び信号処理の機能は、例えば、端末装置20に設けられたコンピュータ又はプロセッサにおいて所定のアプリケーションプログラムが実行されることで実現される。
データ取得部201は、プレゼンテーションを行っている発表者10の様子をカメラで撮像して動画データにするとともに、発表者10の音声をマイクで取得して音声データにする。動画データ及び音声データをメモリに一時的に保存してもよい。
データ確認部202は、データ取得部201で取得した動画データ及び音声データの品質が後段の解析を行うにあたって問題ないか否かを確認する。例えば、データ確認部202は、音声データに関し、音声の音圧の値が指定の範囲内にあるか、及び,周囲の雑音の大きさが所定の閾値以内であるかを確認し、動画データに関し、動作特徴量の抽出のための座標を取得する発表者10の身体部がすべて画像中に含まれているか、及び、発表者10の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、を確認する。ここで、所定の角度範囲は、後段の処理で動作特徴量の抽出が可能な角度範囲(例えば、±30度の角度範囲)である。また、データ確認部202は、発表者10に特定の文章を読み上げてもらい、その音声を文字起こしした際に正しく認識されていれば、音声データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。また、データ確認部202は、発表者10に特定の動作をしてもらい、特定の骨格情報が認識されれば、動画データが後段の解析を行うにあたって問題ない「解析可能な品質」を有すると判定してもよい。例えば、肘を伸ばして両手を真上にあげる動作をしてもらい、その真上に上げた両手が認識されれば、動画データが「解析可能な品質」を有すると判定してもよい。
データ確認部202は、動画データ及び音声データの品質に問題がある場合(図中のNG(否定的な結果)の場合)、その情報をデータ取得助言表示部203に送る。データ取得助言表示部203は、データ確認部202から受けた情報に基づいて、声を大きくする、プレゼンテーションを行っている位置を変化させる等の助言メッセージを、端末装置20のディスプレイ上に表示する。なお、助言メッセージは、表示に加えて又は代えて、音声で出力してもよい。
一方、当該品質に問題がない場合(図中のOK(肯定的な結果)の場合)、データ確認部202は、動画データ及び音声データをデータ送信部204に送る。データ送信部204は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを情報処理装置(クラウドサービスプラットフォーム)30に送信する。
なお、データ送信部204は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を情報処理装置30に送信してもよい。また、データ送信部204は、動画データ及び音声データともに、それらのデータを識別するためのデータ群ID、又は、それらのデータに対応するプレゼンテーションを識別するためのプレゼンテーションIDを送信してもよい。
解析結果受信部205は、例えば無線通信装置等により、移動通信網などの通信網を介して、プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を情報処理装置30から受信する。
解析結果表示部206は、情報処理装置30から受信したプレゼンテーションの解析結果を端末装置20のディスプレイ上に表示する。プレゼンテーションの解析結果は、例えば図6に例示するように、なお、解析結果は、表示に加えて又は代えて、音声で出力してもよい。
情報処理装置(クラウドサービスプラットフォーム)30は、データ受信部301と特徴量抽出部302と解析モデル判定部303と推論部304と解析モデルデータベース(DB)305と解析結果送信部306とを備える。情報処理装置30の各部におけるデータ処理及び信号処理の機能は、例えば、情報処理装置30に設けられた一又は複数のコンピュータ又はプロセッサにおいて所定のプログラムが実行されることで実現される。
データ受信部301は、例えば無線通信装置等により、移動通信網などの通信網を介して、動画データ及び音声データを端末装置20から受信する。なお、データ受信部301は、動画データ及び音声データとともに、対応するプレゼンテーションの種類に関する情報や発表者の属性に関する情報を端末装置20から受信してもよい。
特徴量抽出部302は、端末装置20から受信した動画データ及び音声データから、後述の解析モデル(機械学習済みモデル)に説明変数として入力する各種特徴量を抽出する。例えば、図4に例示する特徴量抽出部302は、音声解析部321と言語解析部322と動作解析部323とを備える。音声解析部321の文字起こし部3211は、端末装置20から受信した音声データを音声認識によりテキストデータに変換する文字起こし処理を行う。
言語解析部322は、文字起こし部3211で得られたテキストデータから、表1に例示するプレゼンテーションの言語特徴量を抽出する。表1中のフィラーは、「えー」、「あのー」、「はいっ」、「えーっと」等の言葉と言葉の隙間を埋めるために使う言葉又は音である。また、動詞繰り返し数は、プレゼンテーション中で繰り返された同一動詞の繰り返し数の最大値であり、名詞繰り返し数は、プレゼンテーション中で繰り返された同一名詞の繰り返し数の最大値である。

また、図4に例示する音声解析部321の韻律解析部3212は、音声データから、表2に例示するプレゼンテーションの韻律特徴量を抽出する。表2中のピッチは音声の高さ(周波数)である。インテンシティは音声の物理的な強さであり、例えば単位面積を通して伝わる音響パワー[W/m]である。また、合計発話長はプレゼンテーション全体における発話時間の合計値であり、合計発話長(1秒以上)は1秒以上の発話時間の合計値である。また、合計無音長は、プレゼンテーション全体における無音時間の合計値であり、合計無音長(1秒以上)は、1秒以上の無音時間の合計値である。また、発話比は、プレゼンテーション全体の時間に対する発話時間の合計値の比率であり、発話比(1秒以上)は、プレゼンテーション全体の時間に対する1秒以上の発話時間の合計値の比率である。
また、図4に例示する動作解析部323は、動画データを解析することにより、表3に例示する動作特徴量を抽出する。表3中の身体各部の動作量は、例えば次のように計算する。図5(a)に示すように発表者10を撮像した動画中の骨格検出像100の検出点(関節点)101〜119について、例えば図5(b)に示すように動画のフレームごとの2次元的な位置座標(X,Z)の時間変化量(軌跡)を計算する。そのすべての検出点101〜119におけるフレーム単位の位置座標の変化量である動作量の平均及び標準偏差が、表3中の身体各部の動作量の平均及び標準偏差である。また、表3中の発話中の身体各部の動作量の平均及び標準偏差は、発表者が発話している時間帯について計算した、発表者の骨格検出像100の検出点101〜119における動作量の平均及び標準偏差である。
なお、動作特徴量としては、上記動作量の平均及び標準偏差の加えて又は代えて、発表者の骨格検出像100の検出点101〜119の速度、加速度又はその両者の平均及び標準変化を用いてもよい。
解析モデル判定部303は、特徴量抽出部302で抽出した韻律特徴量、言語特徴量及び動作特徴量に基づいて、それらの特徴量を解析してプレゼンテーションの評価項目の定量的な評価に使用する解析モデルを判定する。例えば、解析モデル判定部303は、韻律特徴量、言語特徴量及び動作特徴量に基づいて、評価対象のプレゼンテーションの種類及び発表者の種類を判定し、当該プレゼンテーションの評価項目の定量的な評価に適する解析モデルを、予め登録した複数種類の解析モデルから選択して決定し、その決定した解析モデルを識別する解析モデルIDを特徴量抽出部302に出力する。また、解析モデル判定部303は、予め登録した複数種類の解析モデルをすべて選択して決定し、その決定した複数種類の解析モデルそれぞれを識別する複数の解析モデルIDを特徴量抽出部302に出力してもよい。
なお、解析モデルの選択・決定には、端末装置20から受信した発表者(プレゼンター)の属性(例えば、年齢層、性別、プレゼンテーションの経験度)の情報、及び、プレゼンテーションの種類の情報の少なくとも一方の情報を用いてもよい。
推論部304は、特徴量抽出部302から受信した一又は複数の解析モデルIDに基づいて、解析モデルDB305に保存されている複数の解析モデルから、当該プレゼンテーションの評価項目の定量的な評価に使用する解析モデル(推定プログラム及びそれに用いる学習済みのパラメータ値)を選択する。
解析モデルは、前述のように複数の教師あり学習データを用いて予め機械学習することによりモデルにおける各特徴量に対する重み等のパラメータの値を決定して作成した機械学習済みモデルである。推論部304で用いる機械学習済みモデルは、前記複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。
本実施形態の機械学習済みモデルに用いるアルゴリズムは特定のアルゴリズムに限定されない。例えば、教師あり学習データを用いて学習する機械学習済みモデルのアルゴリズムとしては、数値データを学習して数値を予測する「回帰(Regression)」に分類されるSVR(サポートベクター回帰)を用いることができる。このSVRの代わりに、線形回帰(Linear (Ordinary) Regression)、ベイズ線形回帰(Bayesian Linear Regression)、ランダムフォレスト(Randam (Decision) Forest)、ブースト決定木(Boosed decision tree)、高速フォレスト分布(Fast forest quantile)、ニューラルネットワーク(Neural network)、ポアソン回帰(Poisson Regression)、サポートベクトル序数回帰(Ordinal Regression)、リッジ回帰(Ridge Regression)、ラッソ回帰(Lasso Regression)などを用いてもよい。
推論部304は、解析モデルIDに基づいて選択した一又は複数の解析モデル(推定プログラム及びそれに用いる学習済みのパラメータ値を含む機械学習済みモデル)に、特徴量抽出部302から受信した言語特徴量、韻律特徴量及び動作特徴量が入力されることにより、所定の評価項目について定量的に評価した評価値を出力する。例えば、推論部304は、表4に例示する14種類の評価項目それぞれについて3段階(1〜3)の定量的な評価値を出力する。
推論部304が出力する解析結果は、発表者にフィードバック(FB)する定性的な評価として、例えば次の(1)〜(4)に例示するような、プレゼンテーション全体に対する一言コメント(フィードバックコメント)を含んでもよい。
(1)特に「強調」は充分に発揮できています。
(2)特に「強調」は意識して臨んでください。
(3)視線が宙に浮いているためアイコンタクトは無し。時折ジェスチュアは自然に出ているが、左右に揺れる癖がある。笑顔は終始出ている。
(4)声量があって聞こえやすい。時折抑揚はついているが、間が無い。ジェスチュアは自然に出ているが、話しの中身と合わないジェスチュアが時折出る。
前記一言コメント(フィードバックコメント)は、例えば表5に例示するように、前述のSVM等の解析モデルによって推定する評価項目の評価値と決定係数とに基づいて生成することができる。ここで、決定係数は、SVM等の解析モデルによる評価値の推定の精度を示す値であり、−1から+1の値をとる。例えば、この決定係数の絶対値が0.2よりも小さいときは、評価値の推定の精度が低く、決定係数の絶対値が0.2以上1以下ときは、評価値の推定の精度が十分に高いと判断することができる。
表5は、前述の効果的演出要素の「強調」の評価値及び決定係数に基づいて一言コメント(フィードバックコメント)を生成する場合の例である。例えば、表5中の評価項目「強調」の評価値が1であり、決定係数の絶対値が0.2以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は充分に発揮できています。』という一言コメントを生成する。また、評価項目「強調」の評価値が0であり、決定係数の絶対値が0.2以上であって推定精度が充分に高いと判断した場合は、『特に「強調」は意識して臨んでください。』という一言コメントを生成する。決定係数の絶対値が0.2よりも小さく推定精度が低いと判断した場合は、一言コメントを生成しない。
ここで、推論部304は、一言コメントの候補として、『特に「評価項目名」は充分に発揮できています。』及び『特に「評価項目名」は意識して臨んでください。』を記憶しておき、「」内の部分に、「強調」、「繰り返し」などの評価項目名を入れて一言コメントを生成してもよい。
解析モデルデータベース(DB)305は、前述のように互いに異なる解析モデルIDを付与して複数種類の解析モデルを保存している。解析モデルは、推定プログラム及びそれに用いる学習済みのパラメータ値からなる機械学習済みモデルである。例えば、複数種類の機械学習済みモデルはそれぞれ、入力及び出力の形式が共通であり、複数種類のプレゼンテーションと複数種類の発表者との複数の組み合わせについて予め作成されたプレゼンテーションの評価項目の定量的な評価に適する解析モデルである。複数種類の機械学習済みモデルは、発表者10の個性又はユーザ40の個性に応じて作成されたものであってもよい。また、機械学習済みモデルは、前述のように、複数の評価項目を一括して出力するものであってもよいし、複数の評価項目それぞれについて出力する評価値の精度を高めるために評価項目ごとに設けてもよい。
解析結果送信部306は、推論部304から出力された評価値を含む解析結果を、移動通信網などの通信網を介して端末装置20に送信する。解析結果送信部306は、解析結果とともに、その解析結果に対応する前述のデータ群ID又はプレゼンテーションIDを送信してもよい。
図6は、本実施形態に係る端末装置20における解析結果の表示画面21の一例を示す説明図である。図6に例示する端末装置20の表示画面21は、定量的評価表示部211と定性的評価表示部212とを有する。定量的評価表示部211には、前述の表4の14種類の評価項目それぞれの定量的な評価値が数字及びグラフで表示される。定性的評価表示部212には、前述の情報処理装置30からフィードバック(FB)された一言コメントが表示される。表示画面21には、評価値を含む解析結果の根拠となった韻律特徴量、言語特徴量及び動作特徴量のデータや解析モデル(機械学習済みモデル)の情報を表示してもよい。
以上、本実施形態によれば、プレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を解析してプレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定して出力できるため、プレゼンテーションの多角的な視点からの定量評価が可能である。しかも、そのプレゼンテーションの評価に用いる言語特徴量、韻律特徴量及び動作特徴量は、音声データ及び動画データから抽出することができ、視点方向検知装置のような特別なハードウェアを必要としないため、ユーザが使用する端末装置等に実装するときのハードルが低い。
また、本実施形態によれば、所定の品質を有する音声データ及び動画データのみを言語特徴量、韻律特徴量及び動作特徴量の抽出に用いることにより、各特徴量の抽出精度を高めることができる。特に、所定の音圧を有し雑音が所定以下の音声データを言語特徴量及び韻律特徴量の抽出に用いることにより言語特徴量及び韻律特徴量の抽出精度を高め、動作特徴量の抽出に用いる座標を取得する対象者の身体部が含まれ所定の角度範囲内の画角を有する動画データを動作特徴量の抽出に用いることにより、動作特徴量の抽出精度を高めることができる。音声データ及び動画データが所定の品質を有していないときに音声データ及び動画データの取得に関する助言メッセージを表示(出力)することにより、本システムによる評価が可能なプレゼンテーション又はその評価に適したプレゼンテーションを行うように発表者に注意して促すことができる。
また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量を含む入力を所定のアルゴリズムで処理することにより定量的な評価値を含む解析結果を出力する解析モデルを用いることにより、言語特徴量、韻律特徴量及び動作特徴量といったマルチモーダルな特徴量を統合して推定した評価値を含む解析結果を推定できる。
また、本実施形態によれば、言語特徴量、韻律特徴量及び動作特徴量それぞれが複数種類の特徴量を含むので、プレゼンテーションのより多角的な評価が可能になる。また、複数種類の特徴量のうち音声データ及び動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を入力として用いない解析モデルを用いることにより、プレゼンテーションの定量的な評価値を含む解析結果の情報処理装置30から端末装置20へのリアルタイムフィードバックが可能になる。
また、本実施形態によれば、アルゴリズムが互いに異なる複数種類の解析モデルから選択した解析モデルを、韻律特徴量、言語特徴量及び動作特徴量の解析に使用することにより、各種の条件に応じて、プレゼンテーションの精度の高い評価が可能になる。特に、言語特徴量、韻律特徴量及び動作特徴量の少なくとも一つに基づいて選択した解析モデルを用いることにより、特徴量に応じた高い精度の評価が可能になる。また、プレゼンテーションの発表者(対象者)の属性及びプレゼンテーションの種類の少なくとも一方に基づいて選択した解析モデルを用いることにより、発表者の属性及びプレゼンテーションの種類に応じた高い精度の評価が可能になる。また、複数のプレゼンテーションについて予め取得した言語特徴量、韻律特徴量及び動作特徴量と評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルを用いることにより、評価対象のプレゼンテーションの言語特徴量、韻律特徴量及び動作特徴量を入力してプレゼンテーションの多角的な視点からの定量評価が出力可能になる。
特に、本実施形態によれば、プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する言語特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する韻律特徴量の観点から評価した評価値を出力することができる。また、プレゼンテーションの全体における発表者の身体各部の動作量及び発話中における発表者の身体各部の動作量の少なくとも一つに関する動作特徴量の観点から評価した評価値を出力することができる。
また、本実施形態によれば、プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む多角的な評価を出力できる。
また、本実施形態によれば、評価値及びその評価値を推定したときの決定係数に基づいて生成した一言コメントを解析結果に含めることにより、プレゼンテーションの発表者又は端末装置20のユーザに直感的でわかりやすい評価を伝えることができる。
また、本実施形態によれば、対象者である発表者10が行っているプレゼンテーションの音声データ及び動画データを端末装置20で取得するという簡易な操作で、プレゼンテーションの多角的な視点からの定量的な評価値を含む解析結果を端末装置20に出力することができる。
なお、本明細書で説明された処理工程並びにプレゼンテーション評価を行うシステム、端末装置、情報処理装置の構成要素は、様々な手段によって実装することができる。例えば、これらの工程及び構成要素は、ハードウェア、ファームウェア、ソフトウェア、又は、それらの組み合わせで実装されてもよい。
ハードウェア実装については、実体(例えば、コンピュータ装置、サーバ、クラウドサービスプラットフォーム(クラウドコンピュータシステム)、各種無線通信装置、Node B、端末、ハードディスクドライブ装置、又は、光ディスクドライブ装置)において上記工程及び構成要素を実現するために用いられる処理ユニット等の手段は、1つ又は複数の、特定用途向けIC(ASIC)、デジタルシグナルプロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブル・ロジック・デバイス(PLD)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明された機能を実行するようにデザインされた他の電子ユニット、コンピュータ、又は、それらの組み合わせの中に実装されてもよい。
また、ファームウェア及び/又はソフトウェア実装については、上記構成要素を実現するために用いられる処理ユニット等の手段は、本明細書で説明された機能を実行するプログラム(例えば、プロシージャ、関数、モジュール、インストラクション、などのコード)で実装されてもよい。一般に、ファームウェア及び/又はソフトウェアのコードを明確に具体化する任意のコンピュータ/プロセッサ読み取り可能な媒体が、本明細書で説明された上記工程及び構成要素を実現するために用いられる処理ユニット等の手段の実装に利用されてもよい。例えば、ファームウェア及び/又はソフトウェアコードは、例えば制御装置において、メモリに記憶され、コンピュータやプロセッサにより実行されてもよい。そのメモリは、コンピュータやプロセッサの内部に実装されてもよいし、又は、プロセッサの外部に実装されてもよい。また、ファームウェア及び/又はソフトウェアコードは、例えば、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブルリードオンリーメモリ(PROM)、電気的消去可能PROM(EEPROM)、FLASHメモリ、フロッピー(登録商標)ディスク、コンパクトディスク(CD)、デジタルバーサタイルディスク(DVD)、磁気又は光データ記憶装置、などのような、コンピュータやプロセッサで読み取り可能な媒体に記憶されてもよい。そのコードは、1又は複数のコンピュータやプロセッサにより実行されてもよく、また、コンピュータやプロセッサに、本明細書で説明された機能性のある態様を実行させてもよい。
また、前記媒体は非一時的な記録媒体であってもよい。また、前記プログラムのコードは、コンピュータ、プロセッサ、又は他のデバイス若しくは装置機械で読み込んで実行可能であれよく、その形式は特定の形式に限定されない。例えば、前記プログラムのコードは、ソースコード、オブジェクトコード及びバイナリコードのいずれでもよく、また、それらのコードの2以上が混在したものであってもよい。
また、本明細書で開示された実施形態の説明は、当業者が本開示を製造又は使用するのを可能にするために提供される。本開示に対するさまざまな修正は当業者には容易に明白になり、本明細書で定義される一般的原理は、本開示の趣旨又は範囲から逸脱することなく、他のバリエーションに適用可能である。それゆえ、本開示は、本明細書で説明される例及びデザインに限定されるものではなく、本明細書で開示された原理及び新規な特徴に合致する最も広い範囲に認められるべきである。
10 :発表者
20 :端末装置
21 :表示画面
30 :情報処理装置
40 :ユーザ
100 :骨格検出像
101〜119 :検出点
201 :データ取得部
202 :データ確認部
203 :データ取得助言表示部
204 :データ送信部
205 :解析結果受信部
206 :解析結果表示部
211 :定量的評価表示部
212 :定性的評価表示部
301 :データ受信部
302 :特徴量抽出部
303 :解析モデル判定部
304 :推論部
305 :解析モデルDB
306 :解析結果送信部
321 :音声解析部
322 :言語解析部
323 :動作解析部
3211 :文字起こし部
3212 :韻律解析部

Claims (21)

  1. プレゼンテーションを評価するシステムであって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
    前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
    前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、
    前記解析結果を出力する解析結果出力部と、を備えることを特徴とするシステム。
  2. 請求項1のシステムにおいて、
    前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有しているか否かを確認するデータ確認部を更に備え、
    前記所定の品質を有する音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用い、前記所定の品質を有しない音声データ及び動画データを、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の抽出に用いない、ことを特徴とするシステム。
  3. 請求項2のシステムにおいて、
    前記確認する品質は、前記音声データの音圧が所定の範囲にあること、前記音声データにおける雑音の大きさが閾値以下であること、前記動画データにおける画像に前記動作特徴量の抽出に用いる座標を取得する前記対象者の身体部が含まれていること、及び、前記対象者の正面方向に対する動画撮像方向の画角が所定の角度範囲内にあること、の少なくとも一つについての品質である、ことを特徴とするシステム。
  4. 請求項2又は3のシステムにおいて、
    前記データ取得部で取得した前記音声データ及び前記動画データが所定の品質を有していないとき、前記音声データ及び前記動画データの取得に関する助言メッセージを出力するデータ取得助言出力部を更に備えることを特徴とするシステム。
  5. 請求項1乃至4のいずれかのシステムにおいて、
    前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量を含む入力を所定のアルゴリズムで処理することにより前記定量的な評価値を含む解析結果を出力する解析モデルを用いる、ことを特徴とするシステム。
  6. 請求項5のシステムにおいて、
    前記言語特徴量、前記韻律特徴量及び前記動作特徴量はそれぞれ複数種類の特徴量を含み、
    前記推論部で用いる前記解析モデルは、前記複数種類の特徴量のうち前記音声データ及び前記動画データからパターン化して抽出する処理に所定の時間以上を要する特徴量を前記入力として用いない解析モデルである、ことを特徴とするシステム。
  7. 請求項5又は6のシステムにおいて、
    前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを前記解析に使用することを特徴とするシステム。
  8. 請求項5又は6のシステムにおいて、
    前記推論部は、前記アルゴリズムが互いに異なる複数種類の解析モデルを有し、前記複数種類の解析モデルから選択した解析モデルを前記解析に使用する、ことを特徴とするシステム。
  9. 請求項8のシステムにおいて、
    前記推論部は、前記言語特徴量、前記韻律特徴量及び前記動作特徴量の少なくとも一つに基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
  10. 請求項8又は9のシステムにおいて、
    前記推論部は、前記プレゼンテーションの対象者の属性及び前記プレゼンテーションの種類の少なくとも一方に基づいて、前記複数種類の解析モデルから前記解析に使用する解析モデルを選択する、ことを特徴とするシステム。
  11. 請求項5乃至10のいずれかのシステムにおいて、
    前記解析モデルは、複数のプレゼンテーションについて取得した前記言語特徴量、前記韻律特徴量及び前記動作特徴量と前記評価値の正解データとを含む教師あり学習データを用いて機械学習して作成された学習済みモデルである、ことを特徴とするシステム。
  12. 請求項1乃至11のいずれかのシステムにおいて、
    前記言語特徴量は、前記プレゼンテーションの全文におけるフィラー数、名詞数、動詞数、感動詞、動詞繰り返し数及び名詞繰り返し数の少なくとも一つに関する特徴量を含み、
    前記韻律特徴量は、前記プレゼンテーションの音声におけるピッチ、インテンシティ、音圧、抑揚、話速、発話長、無音長及び発話比の少なくとも一つに関する特徴量を含み、
    前記動作特徴量は、前記プレゼンテーションの全体における前記対象者の身体各部の動作量及び発話中における前記対象者の身体各部の動作量の少なくとも一つに関する特徴量を含む、ことを特徴とするシステム。
  13. 請求項1乃至12のいずれかのシステムにおいて、
    前記評価項目は、前記プレゼンテーションの目的網羅性、内容の論理性、見え方及び聞こえ方、並びに、効果的演出要素を含む、ことを特徴とするシステム。
  14. 請求項1乃至13のいずれかのシステムにおいて、
    前記推論部は、前記プレゼンテーションに対するコメントの候補となる複数のコメントデータを記憶し、前記評価値と前記評価値を推定したときの決定係数とに基づいて、前記複数のコメントデータから一または複数のコメントデータを選択し、前記選択したコメントデータを用いて生成したコメントを前記解析結果に含める、ことを特徴とするシステム。
  15. 請求項1乃至14のいずれかのシステムにおいて、
    通信網を介して互いに通信可能な端末装置と情報処理装置とを備え、
    前記端末装置は、前記データ取得部と、前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、前記情報処理装置から前記解析結果を受信する解析結果受信部と、前記解析結果出力部と、を有し、
    前記情報処理装置は、前記端末装置から前記音声データ及び前記動画データを受信するデータ受信部と、前記特徴量抽出部と、前記推論部と、前記端末装置に前記解析結果を送信する解析結果送信部と、を有することを特徴とするシステム。
  16. プレゼンテーションを評価するようにコンピュータ又はプロセッサを機能させるための学習済みモデルであって、
    複数のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量と前記プレゼンテーションの所定の評価項目について定量的に評価した評価値の正解データと含む教師あり学習データを用いて機械学習して作成され、
    評価対象のプレゼンテーションについて取得した対象者の音声データ及び動画データに基づいて抽出した言語特徴量、韻律特徴量及び動作特徴量を含む入力があったときに、前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を出力する、ことを特徴とする学習済みモデル。
  17. プレゼンテーションを評価する方法であって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを取得することと、
    前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出することと、
    前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定することと、
    前記解析結果を出力することと、を含むことを特徴とする方法。
  18. 通信網を介して情報処理装置と通信可能な端末装置であって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを取得するデータ取得部と、
    前記情報処理装置に前記音声データ及び前記動画データを送信するデータ送信部と、
    前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信する解析結果受信部と、
    前記解析結果を出力する解析結果出力部と、を備えることを特徴とする端末装置。
  19. 通信網を介して端末装置と通信可能な情報処理装置であって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するデータ受信部と、
    前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出する特徴量抽出部と、
    前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定する推論部と、
    前記端末装置に前記解析結果を送信する解析結果送信部と、を備えることを特徴とする情報処理装置。
  20. 通信網を介して情報処理装置と通信可能な端末装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを取得するためのプログラムコードと、
    前記情報処理装置に前記音声データ及び前記動画データを送信するためのプログラムコードと、
    前記音声データ及び前記動画データに基づいて前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を、前記情報処理装置から受信するためのプログラムコードと、
    前記解析結果を出力するためのプログラムコードと、を含むことを特徴とするプログラム。
  21. 通信網を介して端末装置と通信可能な情報処理装置に備えるコンピュータ又はプロセッサにおいて実行されるプログラムであって、
    プレゼンテーションを行っている対象者の音声データ及び動画データを前記端末装置から受信するためのプログラムコードと、
    前記音声データから前記プレゼンテーションの言語特徴量及び韻律特徴量を抽出し、前記動画データから前記プレゼンテーションを行っているときの前記対象者の動作特徴量を抽出するためのプログラムコードと、
    前記言語特徴量と前記韻律特徴量と前記動作特徴量とを解析して前記プレゼンテーションの所定の評価項目について定量的に評価した評価値を含む解析結果を推定するためのプログラムコードと、
    前記端末装置に前記解析結果を送信するためのプログラムコードと、を含むことを特徴とするプログラム。
JP2019094014A 2019-05-17 2019-05-17 プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置 Active JP7123856B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019094014A JP7123856B2 (ja) 2019-05-17 2019-05-17 プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019094014A JP7123856B2 (ja) 2019-05-17 2019-05-17 プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置

Publications (2)

Publication Number Publication Date
JP2020190579A true JP2020190579A (ja) 2020-11-26
JP7123856B2 JP7123856B2 (ja) 2022-08-23

Family

ID=73454061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019094014A Active JP7123856B2 (ja) 2019-05-17 2019-05-17 プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置

Country Status (1)

Country Link
JP (1) JP7123856B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049010B1 (ja) 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
CN116681355A (zh) * 2023-07-21 2023-09-01 苏州今创互联网科技有限公司 一种信息科技多媒体展示台管理系统
CN116701923A (zh) * 2022-10-13 2023-09-05 荣耀终端有限公司 算子性能的评估方法和评估装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011217052A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc 端末装置、番組特定システム、番組特定方法及びプログラム
JP2012255866A (ja) * 2011-06-08 2012-12-27 Konica Minolta Business Technologies Inc プレゼンテーションコーチシステム
JP2015068897A (ja) * 2013-09-27 2015-04-13 国立大学法人 東京大学 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback
JP2018004813A (ja) * 2016-06-29 2018-01-11 学校法人成蹊学園 コミュニケーション能力推定装置、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011217052A (ja) * 2010-03-31 2011-10-27 Ntt Docomo Inc 端末装置、番組特定システム、番組特定方法及びプログラム
JP2012255866A (ja) * 2011-06-08 2012-12-27 Konica Minolta Business Technologies Inc プレゼンテーションコーチシステム
JP2015068897A (ja) * 2013-09-27 2015-04-13 国立大学法人 東京大学 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
US20160049094A1 (en) * 2014-08-13 2016-02-18 Pitchvantage Llc Public Speaking Trainer With 3-D Simulation and Real-Time Feedback
JP2018004813A (ja) * 2016-06-29 2018-01-11 学校法人成蹊学園 コミュニケーション能力推定装置、方法およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7049010B1 (ja) 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
WO2022185705A1 (ja) * 2021-03-02 2022-09-09 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
JP2022134129A (ja) * 2021-03-02 2022-09-14 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
JP2022133838A (ja) * 2021-03-02 2022-09-14 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
CN115552407A (zh) * 2021-03-02 2022-12-30 互动解决方案公司 演示评价系统
JP7345909B2 (ja) 2021-03-02 2023-09-19 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
CN115552407B (zh) * 2021-03-02 2024-02-02 互动解决方案公司 演示评价系统,以及计算机可读取的信息记录介质
US11908474B2 (en) 2021-03-02 2024-02-20 Interactive Solutions Corp. Presentation evaluation system
CN116701923A (zh) * 2022-10-13 2023-09-05 荣耀终端有限公司 算子性能的评估方法和评估装置
CN116701923B (zh) * 2022-10-13 2024-05-17 荣耀终端有限公司 算子性能的评估方法和评估装置
CN116681355A (zh) * 2023-07-21 2023-09-01 苏州今创互联网科技有限公司 一种信息科技多媒体展示台管理系统
CN116681355B (zh) * 2023-07-21 2023-12-05 苏州今创互联网科技有限公司 一种信息科技多媒体展示台管理系统

Also Published As

Publication number Publication date
JP7123856B2 (ja) 2022-08-23

Similar Documents

Publication Publication Date Title
US11241789B2 (en) Data processing method for care-giving robot and apparatus
CN108363706B (zh) 人机对话交互的方法和装置、用于人机对话交互的装置
Cerekovic et al. Rapport with virtual agents: What do human social cues and personality explain?
US9754503B2 (en) Systems and methods for automated scoring of a user's performance
JP7123856B2 (ja) プレゼンテーションを評価するシステム、方法、学習済みモデル及びプログラム、情報処理装置並びに端末装置
JP6400445B2 (ja) 会話分析装置、会話分析システム、会話分析方法及び会話分析プログラム
CN115413348A (zh) 用于自动验证和量化面试问题回答的系统和方法
US20160314784A1 (en) System and method for assessing the cognitive style of a person
JP7285589B2 (ja) 対話型健康状態評価方法およびそのシステム
JP6891601B2 (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
US11076091B1 (en) Image capturing assistant
JP7323098B2 (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
CN114175149A (zh) 自适应日志模型和用户界面
JP6715410B2 (ja) 評価方法、評価装置、評価プログラム、および、評価システム
US20230290505A1 (en) Context Aware Assessment
JP6285377B2 (ja) コミュニケーションスキル評価フィードバック装置、コミュニケーションスキル評価フィードバック方法及びコミュニケーションスキル評価フィードバックプログラム
JP7123028B2 (ja) 情報処理システム、情報処理方法、及びプログラム
AU2021306718B2 (en) System to confirm identity of candidates
EP4020352A1 (en) System and methods for evaluation of interpersonal interactions to predict real world performance
WO2024038699A1 (ja) 表情加工装置、表情加工方法および表情加工プログラム
JP2018013595A (ja) 情報処理装置、端末装置、システム、情報処理方法及びプログラム
JP2018051648A (ja) ロボット制御装置、ロボット、ロボット制御方法、及びプログラム
CN114392457A (zh) 信息生成方法、装置、电子设备、存储介质和系统
宮脇亮輔 et al. A Data Collection Protocol, Tool, and Analysis of Multimodal Data at Different Speech Voice Levels for Avatar Facial Animation
WO2023165844A1 (en) Circuitry and method for visual speech processing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220810

R150 Certificate of patent or registration of utility model

Ref document number: 7123856

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150