JP7313518B1

JP7313518B1 - 評価方法、評価装置、および、評価プログラム

Info

Publication number: JP7313518B1
Application number: JP2022109884A
Authority: JP
Inventors: 裕坂根
Original assignee: Exa Wizards Inc
Current assignee: Exa Wizards Inc
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2023-07-24
Anticipated expiration: 2042-07-07
Also published as: JP2024008205A

Abstract

【課題】対話の評価を改善する。【解決手段】評価方法は、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップ（Ｓ１０９）と、態度情報を用いて評価対象者の対話を評価する評価ステップ（Ｓ１１０）と、を含む。【選択図】図１０

Description

本発明は、評価対象者が行った対話について評価する評価装置等に関する。

評価対象者が行った対話について評価する技術が従来知られている。例えば、下記の特許文献１には、会話中の音声情報から話者の共感度を算出し、算出した共感度に基づいて話者の対応を評価する技術が開示されている。

特許第６６４７７２２号

近時、音声のみではなく画像を伴う遠隔通話や遠隔会議が広く普及している。そして、画像を伴った対話を円滑に進めるためには、相手の話を聴くときの態度も重要になる。しかしながら、上述のような従来技術では、音声信号をテキスト化して解析しているため、話を聴いているときの態度は評価に反映されない。

このように、従来技術には、相手の話を聴いているときの評価対象者の態度を評価することができないという点で改善の余地がある。本発明の一態様は、対話の評価を改善する評価方法等を提供することを目的とする。

上記の課題を解決するために、本発明の一態様に係る評価方法は、１または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含む。

また、本発明の一態様に係る評価装置は、上記の課題を解決するために、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備える。

本発明の一態様によれば、対話の評価を改善することができる。

本開示に係る評価システムの概要を示す図である。上記評価システムに含まれる評価装置の要部構成を示すブロック図である。シナリオのデータ構造の一例を示す図である。セッション履歴のデータ構造の一例を示す図である。態度情報の具体例を示す図である。評価基準の具体例を示す図である。分岐要否を判定するための評価結果の例を示す図である。シナリオの分岐の例を示す図である。レポートの具体例を示す図である。上記評価装置が実行する評価方法の処理の流れを示すフローチャートである。各実施形態に係る情報処理システムの物理的構成を例示したブロック図である。

〔実施形態１〕
以下、本発明の一実施形態について、詳細に説明する。

＜評価システムの概要＞
図１は、本開示に係る評価システム１００の概要を示す図である。本開示の評価システム１００は、図示のシステム構成に限定されない。図示のシステム構成は、あくまで一例である。本開示の各実施形態に係る評価システム１００は、一例として、評価対象者ＳＵの対話能力を高めるためのトレーニングを支援するシステムとして適用される。評価システム１００は、評価対象者ＳＵに対話相手と対話させ、対話中の評価対象者ＳＵの様子を撮影する。本実施形態では、対話相手は、仮想の対話相手であるアバタＡＶであるが、別の人物が対話相手を務めてもよい。評価システム１００は、撮影された評価対象者ＳＵの動画を解析して、評価対象者ＳＵの対話能力を評価する。評価結果は、評価対象者ＳＵ本人または評価対象者ＳＵ以外の人物にフィードバックされてもよい。

具体例を挙げると、評価システム１００は、評価装置１、および、対話機器２を含む。評価装置１は、評価対象者ＳＵの対話中の態度に基づいて、当該評価対象者ＳＵの対話能力を評価する装置である。本開示において、評価対象者の対話中の態度とは、ノンバーバルコミュニケーションとして評価対象者から発現する、人間が五感によって捉えることが可能な、当該評価対象者の様子全般を指す。一例として、評価対象者の対話中の表情、視線、しぐさ、身振り手振り、行為、間の取り方、声の調子、口調、声量などのあらゆる非言語的な要素を態度として捉え、評価することができる。人は、自身の発言中でなくとも、対話相手が発言している期間にもなんらかの態度を表明しており、当該対話相手になんらかの印象を与えていると考えられる。そこで、本開示に係る評価装置１は、対話相手が発言している期間に評価対象者によって表明される態度を、対話中の態度として評価の対象に加えている。

対話機器２は、評価対象者ＳＵに対して、対話相手（ここでは、アバタＡＶ）と対話を行うために必要な入出力ユーザインタフェースを提供する。例えば、対話機器２は、必要な入出力ユーザインタフェースとして、図２に示すとおり、表示部２１、音声出力部２２、撮影部２３および音声入力部２４を備えていてもよい。表示部２１は、例えば、対話相手の映像Ｖ１を出力するモニタである。音声出力部２２は、例えば、対話相手の発話Ｄ１の音声を出力するスピーカである。撮影部２３は、例えば、評価対象者ＳＵの映像Ｖ２を撮影するカメラである。音声入力部２４は、例えば、評価対象者ＳＵの発話Ｄ２の音声を入力するマイクである。対話機器２の表示部２１には、撮影部２３が撮影した評価対象者ＳＵの映像Ｖ２が重畳して出力されてもよい。対話機器２は、例えば、タブレット端末であってもよい。

評価装置１は、アバタＡＶを対話機器２において再現するためのアバタ情報を対話機器２に送信する。アバタ情報は、例えば、アバタＡＶの映像Ｖ１に対応する映像信号と、アバタＡＶの音声に対応する音声信号とを含む動画である。

対話機器２は、評価装置１から受信したアバタ情報を再生して、評価対象者ＳＵに対して、アバタＡＶの映像Ｖ１と、アバタＡＶの対話Ｄ１の音声とを提供する。

アバタ情報が再生されている間、および、アバタＡＶの発言を受けて評価対象者ＳＵが発言している間、対話機器２は、評価対象者ＳＵの様子を撮影している。対話機器２は、対話中に撮影して得た対象者情報を評価装置１に送信する。対象者情報は、例えば、評価対象者ＳＵの映像Ｖ２に対応する映像信号と、評価対象者ＳＵの音声に対応する音声信号とを含む動画である。

評価装置１は、対象者情報から評価対象者が表明した態度を抽出し、当該態度に基づいて評価対象者の対話能力を評価する。必要に応じて、評価システム１００は、評価者端末３を含んでいてもよく、この場合、評価装置１は、評価結果を評価者端末３に送信してもよい。

評価者端末３は、評価装置１が出力する評価結果を、評価者に提示する端末装置である。評価者は、評価結果を参考にして、評価対象者を評価する立場にある人物で、例えば、評価対象者ＳＵの指導者、監督者、上司、人事部職員、評価対象者を診察する医師、または、評価対象者を看護する看護師などが想定される。評価結果が、評価対象者ＳＵ本人にのみフィードバックされる態様では、評価装置１は、評価結果を、対話機器２に送信してもよい。したがって、この態様では、評価者端末３は省略されてよい。

他のシステム構成では、評価装置１と対話機器２とが１台のコンピュータ、例えば、１台のタブレット端末、ノートパソコン、デスクトップＰＣなどで構成されていてもよいし、評価装置１と評価者端末３とが１台のコンピュータで構成されていてもよい。

以上のとおり、評価システム１００によれば、対話相手の話を聴いているときの評価対象者の態度を評価することができるので、対話能力の評価を改善することができる。以下では、対話能力の評価を改善することができる評価装置１の構成についてより詳細に説明する。

＜評価装置の構成＞
図２は、評価装置１の要部構成を示すブロック図である。評価装置１は、一例として、制御部１０および記憶部１１を備えている。評価装置１は、対話機器２および評価者端末３と通信するための不図示の通信部をさらに備えていてもよい。

制御部１０は、評価装置１を統括的に制御する。制御部１０は、例えば、ＣＰＵ（central processing unit）または専用プロセッサなどの演算装置により構成されている。後述する制御部１０の各部は、上述の演算装置が、ＲＯＭ（read only memory）などで実現された記憶装置に記憶されているプログラムをＲＡＭ（random access memory）などに読み出して実行することで実現できる。

記憶部１１は、制御部１０によって用いられる各種データを記憶するものである。図示の例では、記憶部１１は、評価装置１が備える内蔵メモリとして構成されているが、記憶部１１は、評価装置１の外部の記憶装置として構成されていてもよい。上述のＲＯＭおよびＲＡＭなどを記憶部１１として適用することができる。

本開示の評価装置１は、対話中の評価対象者ＳＵを撮影して得られた対象者情報（対象者情報は、映像Ｖ２などの画像、および、対話Ｄ２などの音声の少なくともいずれか一方を含む）に基づいて生成された、対話相手が発話しているときの評価対象者ＳＵの態度を示す情報を少なくとも含む態度情報を取得する対象者情報取得部（情報取得部）１０２と、態度情報を用いて評価対象者の対話を評価する対話評価部（評価部）１０４と、を備えている。

評価装置１の制御部１０は、上述した対象者情報取得部１０２および対話評価部１０４に加えて、さらに、アバタ情報出力部１０１、態度抽出部１０３、シナリオ設定部１０５、および、レポート生成部１０６を含んでいてもよい。

アバタ情報出力部１０１は、評価対象者ＳＵの対話相手を対話機器２において再現するために必要なアバタ情報を生成し、対話機器２に出力し再生する。一例として、アバタ情報出力部１０１は、あらかじめ作成されたシナリオに基づいてアバタ情報を生成する。

シナリオは、対話相手と評価対象者との間で実施される対話の会期中における、
（１）シーンの順序、
（２）評価対象者ＳＵが発話する対象者発話ターンにおける発話要素と対話相手が発話する相手発話ターンにおける発話要素との区分、
（３）各発話要素の進行順序、
（４）相手発話ターンにおける対話相手の台詞、および、
（５）各発話ターンにおける対話相手の態度（動作、表情等）
を定義した台本データである。なお、シナリオは１つ以上のシーンからなり、シーンは１つ以上の発話要素からなる。

本開示では、ひとつのシナリオにおいて定義された一連の発話要素にしたがって、１人の評価対象者が、対話相手（本実施形態ではアバタ）との間で行う対話をセッションと称する。シナリオに含まれる最後の発話要素が履行されると、すなわち、シナリオにおいて進行順序が最後に定義された発話要素について、予め定められた話者から発話がなされると、当該シナリオに基づく１回分のセッションが終了する。

１人の評価対象者ＳＵは、同一のシナリオを用いて、開催日時を変えて、何度セッションを行ってもよい。１人の評価対象者ＳＵは、異なるシナリオを用いて、何度セッションを行ってもよい。また、複数の評価対象者が、同一のシナリオを用いて、それぞれセッションを行ってもよい。

アバタ情報出力部１０１は、評価装置１の操作者または、後述するシナリオ設定部１０５によって選択されたシナリオにしたがって、対話機器２において再生可能な動画形式にて、アバタの映像信号および音声信号を含むアバタ情報を生成する。アバタ情報出力部１０１が、生成したアバタ情報を対話機器２において再生することにより、アバタの映像および音声が評価対象者ＳＵに知覚される。

また、アバタ情報出力部１０１は、シナリオにしたがってアバタ情報を再生したときの時刻情報を対象者情報取得部１０２に提供する。例えば、アバタ情報出力部１０１は、シナリオの中の、どのシーンの何番目の発話ターンに対応する動画を何時から何時まで再生したのかを示す時刻情報を対象者情報取得部１０２に提供してもよい。

対象者情報取得部１０２は、対話機器２が評価対象者ＳＵを被写体として撮影して得た対象者情報を対話機器２から取得する。対象者情報は、上述のとおり一例として動画である。対象者情報取得部１０２は、対話機器２から供給された動画を、シナリオで定義されたシーンおよび発話ターン単位で切り出すことができる。詳細には、対象者情報取得部１０２は、アバタ情報出力部１０１から提供された時刻情報と、取得した対象者情報に含まれる撮影時刻とを照合し、「特定のシーンの特定の順序の発話ターンに対応する評価対象者ＳＵの動画」を対象者情報から切り出す。具体例を挙げると、あるシナリオの第１シーンの１番目の発話ターンに対応するアバタ情報が、９：００から９：０２まで再生されたとする。この場合、対象者情報取得部１０２は、対象者情報うち、撮影時刻が９：００から９：０２までの期間の動画を、「あるシナリオの第１シーンの１番目の発話ターンにおける評価対象者ＳＵの動画」として切り出すことができる。

対象者情報取得部１０２は、切り出した動画、該動画から抽出したフレーム画像、あるいは音声を、後述する態度抽出部１０３へ入力し、態度抽出部１０３から出力された、評価対象者ＳＵの態度に関する出力値を得る。対象者情報取得部１０２は、得られた出力値に基づいて、評価対象者ＳＵの態度を示す情報を含んだ態度情報を生成し、対話評価部１０４に提供する。

一例として、対象者情報取得部１０２は、対話相手であるアバタＡＶが発話しているときの評価対象者ＳＵの態度を示す情報を少なくとも含むように態度情報を生成または取得してもよい。

上述のとおり、評価対象者ＳＵと対話相手との対話は、評価対象者ＳＵが発話する対象者発話ターンと対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められる。そこで、他の例では、対象者情報取得部１０２は、相手発話ターンにおける評価対象者ＳＵの態度を示す情報だけでなく、評価対象者ＳＵの発話時の評価対象者ＳＵ自身の態度を示す情報をさらに含むように態度情報を生成または取得してもよい。

態度抽出部１０３は、動画に含まれる映像信号および音声信号の少なくともいずれか一方から、被写体である評価対象者ＳＵの態度を抽出するものである。態度抽出部１０３は、一例として、ＡＩ（Artificial Intelligence：人工知能）を用いて実現されてもよい。すなわち、態度抽出部１０３は、動画、該動画から抽出したフレーム画像、あるいは音声を入力とし、評価対象者ＳＵの態度に関する出力値を出力する態度抽出モデルにより態度を抽出するものであってもよい。また、態度抽出部１０３は、評価対象者ＳＵの発話内容を解析することにより、評価対象者ＳＵの態度を抽出してもよい。

態度抽出部１０３は、抽出したい態度すなわち非言語的要素ごとに用意されてもよい。一例として、態度抽出部１０３は、表情抽出モデルにより評価対象者ＳＵの表情を抽出（分類）する第１の態度抽出部１０３と、と、視線抽出モデルにより評価対象者ＳＵの視線を抽出する第２の態度抽出部１０３と、話し方評価モデルにより評価対象者ＳＵの話し方を評価する第３の態度抽出部１０３とを含んでいてもよい。

例えば、第１の態度抽出部１０３が使用する表情抽出モデルは、画像が入力されると、当該画像に写る人物の表情の種類を示す出力値を出力するものであってもよい。

このような表情抽出モデルは、顔の画像に対して正解ラベルとしてその顔の表情を示す情報を対応付けた教師データを用いた機械学習により構築することができる。

対象者情報取得部１０２は、ある発話ターンの動画から所定時間間隔で抽出した各フレーム画像についての表情抽出モデルによる表情の分類結果から、その発話ターンにおいて、評価対象者ＳＵが各表情であった時間の長さの割合を算出し、これを当該発話ターンにおける評価対象者ＳＵの態度を示す態度情報としてもよい。

また、例えば、第２の態度抽出部１０３が使用する視線抽出モデルは、画像が入力されると、当該画像に写る人物の視線の向きを示す出力値を出力するものであってもよい。

このような視線抽出モデルは、顔の画像に対して正解ラベルとして、その人物の視線の向きを示す情報を対応付けた教師データを用いた機械学習により構築することができる。また、正解ラベルは、視線が対話相手に向けられているか否かを示すものとしてもよい。

例えば、対象者情報取得部１０２は、ある発話ターンの動画から抽出したフレーム画像についての視線抽出モデルによる視線の向きの分類結果から、その発話ターンにおいて、評価対象者ＳＵの視線が対話相手に向けられていた時間の長さの割合を算出し、これを当該発話ターンにおける評価対象者ＳＵの態度を示す態度情報としてもよい。

また、例えば、第３の態度抽出部１０３が使用する話し方評価モデルは、動画が入力されると、当該動画に写る人物の話し方の評価値を出力するものであってもよい。

このような話し方評価モデルは、話をしている様子を撮影した所定時間長の動画に対して正解ラベルとしてその話し方の評価値を対応付けた教師データを用いた機械学習により構築することができる。話し方の評価基準は適宜設定すればよく、例えば、声量、口調、声の調子が、対話相手に緊張感を与えない柔らかく明るい話し方になっているほど評価値が高くなるようにしてもよい。なお、話し方の分類を正解ラベルとしてもよい。話し方評価モデルに、ある発話ターンの動画から抽出した所定時間長の動画を入力すると、その動画に写る評価対象者ＳＵの話し方の評価値が出力される。対象者情報取得部１０２は、ある発話ターンの動画から抽出した１または複数の動画についての評価値から、その発話ターンの全体における話し方の評価値を算出し、これを当該発話ターンにおける評価対象者ＳＵの態度を示す態度情報としてもよい。

対話評価部１０４は、態度情報を用いて評価対象者の対話を評価する。具体的には、対話評価部１０４は、態度情報に含まれている、評価対象者ＳＵの対話中の態度、特に、アバタＡＶが発話中であるときの評価対象者ＳＵの態度がどのようであったかを示す情報に基づいて、評価対象者ＳＵの対話能力を評価してもよい。

態度情報に、さらに、評価対象者ＳＵの発話時の評価対象者ＳＵ自身の態度を示す情報が含まれている場合には、対話評価部１０４は、当該態度情報を用いて、相手発話ターンおよび対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って評価対象者の対話を評価してもよい。

上述の構成によれば、相手発話ターンおよび対象者発話ターンの少なくともいずれか一方に設定された評価基準に従って対話を評価するので、評価対象者が話を聴いているときの態度について評価することができると共に、評価対象者の発話時の態度についても評価することができる。

具体的には、態度情報は、少なくとも、対話相手であるアバタＡＶが発話しているときの評価対象者ＳＵの態度を示す情報を含む。このような態度情報を用いれば、対話評価部１０４は、相手発話ターンに設定された評価基準に従って、評価対象者ＳＵの対話を評価することができる。特に、対話評価部１０４は、評価対象者ＳＵの相手の話を上手に聴く能力（以下、傾聴能力）を評価することができる。

態度情報は、さらに、評価対象者ＳＵの発話時の評価対象者ＳＵ自身の態度を示す情報を含み得る。このような態度情報を用いれば、対話評価部１０４は、相手発話ターンに設定された評価基準に従って評価対象者ＳＵの傾聴能力を評価することに加えて、対象者発話ターンに設定された評価基準に従って評価対象者ＳＵの対話を評価することができる。特に、対話評価部１０４は、上手に相手に話を伝える能力を評価することができる。

本開示においては、評価基準を発話ターンごとにあらかじめ設定しておくことが可能であり、したがって、これらの評価基準を、シナリオまたはシーンの文脈に沿ったものとすることができる。このため、シナリオまたはシーンにおいて想定されているシチュエーションまたは文脈に沿った対話ができているか否かを精度良く評価することが可能である。

さらに、態度情報には、評価対象者ＳＵの発話内容を示す情報が含まれていてもよい。これにより、発話内容の適否を加味した対話の評価が可能になる。

シナリオ設定部１０５は、記憶部１１に記憶されている複数のシナリオの中から、今回のトレーニングに使用するシナリオを選択する。シナリオは、例えば、評価対象者ＳＵの現状の対話能力を踏まえて、高いトレーニング効果が見込まれるシナリオが選択されてもよい。例えば、シナリオ設定部１０５は、評価装置１の操作者または評価者端末３を操作する評価者によって指定されたシナリオを選択してもよい。

他の例では、シナリオ設定部１０５は、評価対象者ＳＵの過去のトレーニングでのシナリオの使用履歴に基づいて、最適なシナリオを選択してもよい。例えば、シナリオ設定部１０５は、評価対象者ＳＵについて、前回のトレーニングで使用されたシナリオと同じシナリオを選択してもよい。これにより、評価対象者ＳＵに、特定のシチュエーションでの対話についてトレーニングを集中的に行わせることができる。あるいは、シナリオ設定部１０５は、評価対象者ＳＵについて、過去のトレーニングで一度も使用されていないシナリオを選択してもよい。これにより、評価対象者ＳＵに先の対話を予測されることなく、実践に近い環境で対話のトレーニングを行わせることができる。

他の例では、シナリオ設定部１０５は、対話評価部１０４によって出力された評価結果に応じて、シナリオを変更してもよい。一例として、シナリオ設定部１０５は、過去のトレーニング実績に基づいて、最適なシナリオを選択してもよい。具体例を挙げると、評価対象者ＳＵについて、前回のトレーニングにおいて難易度の低い第１のシナリオで、所定基準以上の高い評価が記録されたとする。この場合、シナリオ設定部１０５は、今回は、第１のシナリオよりも難易度の高い第２のシナリオを選択してもよい。

上述の構成によれば、評価結果に応じた適切なシナリオに沿って評価対象者に対話を行わせることが可能になる。なお、シナリオの変更はシナリオの最初から行ってもよいし、途中から行ってもよい。最初から変更する場合は、上述のように、過去の評価結果に基づいてシナリオを変更してもよい。途中から変更する場合は、当該シナリオにおける途中までの評価結果に基づいてそれ以降のシナリオを変更してもよい。途中から変更する場合についての評価装置１の構成は、実施形態２において詳述する。

レポート生成部１０６は、対話評価部１０４によって出力された評価結果を示すレポートを生成する。本開示においては、対話評価部１０４は、シナリオに含まれている発話要素ごとに評価対象者ＳＵの対話を評価してもよいし、発話要素ごとの評価結果を統合して、１回分のセッション全体について評価対象者ＳＵの対話を総合評価してもよい。そこで、レポート生成部１０６は、発話要素ごとの評価結果を示すレポートを生成してもよいし、セッションの評価結果を示すレポートを生成してもよい。

レポート生成部１０６は、態度抽出部１０３が出力した出力値（例えば話し方の評価値）や、対象者情報取得部１０２が生成する態度情報を評価結果として含むレポートを生成してもよいし、対話評価部１０４が判定したランクを評価結果として含むレポートを生成してもよい。ランクの算出については後述する。

次に、制御部１０によって用いられる各種データの具体例を説明しながら、制御部１０の各部の機能についてより詳細に説明する。記憶部１１には、シナリオデータベース（ＤＢ）１１１、評価基準データベース（ＤＢ）１１２、および、評価結果データベース（ＤＢ）１１３が記憶されている。さらに、記憶部１１には、不図示のセッション履歴が記憶されている。

＜データ構造＞
図３は、シナリオＤＢ１１１に記憶されるシナリオのデータ構造の一例を示す図である。また、図３は、評価基準ＤＢ１１２に記憶される評価基準のデータ構造の概略も示している。

（シナリオ）
シナリオＤＢ１１１には、複数のシナリオが格納されている。複数のシナリオの中の１つであるシナリオ５１を例に挙げて、シナリオのデータ構造について説明する。一例として、シナリオ５１には、当該シナリオを一意に識別するためのシナリオＩＤが紐付けられている。図示の例では、シナリオ５１のシナリオＩＤは、「１」である。

シナリオ５１は、１つ以上のシーンで構成される。シナリオ５１において各シーンの進行順序が定義されている。各シーンにも、シーンを一意に識別するためのシーンＩＤが紐付けられている。シーンは、１以上の一連の発話要素で構成されている。シーンは、さらに、上述の一連の発話要素によって構築される場面がどのような場面であるのかを定義する情報を含んでいてもよい。例えば、「シーンＩＤ：１」のシーンは、初対面のアバタＡＶと評価対象者ＳＵとが互いに自己紹介をし合うアイスブレイクの場面であることが定義されていてもよい。シーンにおいて各発話要素の進行順序が定義されている。

発話要素のそれぞれにも、発話要素を一意に識別するための発話ＩＤが紐付けられている。また、各発話要素は、対象者発話ターンおよび相手発話ターンのいずれかに区分されている。対象者発話ターンに区分された発話要素は、当該発話要素の話者が、評価対象者ＳＵであることを意味し、相手発話ターンに区分された発話要素が、当該発話要素の話者が、アバタＡＶであることを意味する。相手発話ターンに区分された発話要素（図示の例では、実線で示された発話要素）には、アバタＡＶに発話させる台詞（例えば、テキストデータ）が、定義されている。対象者発話ターンに区分された発話要素（図示の例では、破線で示された発話要素）には、話者が評価対象者ＳＵであることが示されている。対象者発話ターンに区分された発話要素には、当然評価対象者ＳＵの台詞は定義されていないが、評価対象者ＳＵが発話中であることを想定して、評価対象者ＳＵの話を聴いているようなアバタＡＶの動作、表情、台詞（相槌）などが定義されていてもよい。

アバタ情報出力部１０１は、シナリオ設定部１０５によって選択されたシナリオ５１にしたがって、定義された進行順序にしたがって、順次、発話要素ごとのアバタ情報（アバタＡＶの動画）を生成する。アバタ情報出力部１０１は、シナリオＩＤとシーンＩＤと発話ＩＤとを組み合わせた文字列を、生成した動画を一意に識別するための動画ＩＤとして採用してもよい。アバタ情報出力部１０１は、動画ＩＤを付与した動画を対話機器２に出力して、対話機器２において再生する。アバタ情報出力部１０１は、再生した動画の動画ＩＤと、当該動画の再生開始時刻とを対象者情報取得部１０２に供給する。アバタ情報出力部１０１は、さらに、当該動画の再生時間（動画の尺）または当該動画の再生終了時刻を対象者情報取得部１０２に供給してもよい。アバタ情報出力部１０１は、生成した動画を再生中に、次の発話要素について動画の生成を開始してもよい。

以上のとおり、対象者情報取得部１０２は、アバタ情報について、発話要素ごとの再生時刻をアバタ情報出力部１０１から取得することができる。そのため、対象者情報取得部１０２は、対話機器２によって録画された対象者情報（評価対象者ＳＵの動画）を、シナリオで定義された発話要素ごとに切り出すことができる。対象者情報取得部１０２は、評価対象者ＳＵの動画を、シナリオで定義された発話要素ごとに区切り、区切った動画の各々に対して、動画ＩＤを付与する。例えば、動画ＩＤ「１／１／１」が付与された動画は、「シナリオＩＤ：１、シーンＩＤ：１、発話ＩＤ：１」の発話要素に基づいてアバタＡＶが発話していた期間において、評価対象者ＳＵの様子を撮影した動画である。動画ＩＤ「１／１／２」が付与された動画は、「シナリオＩＤ：１、シーンＩＤ：１、発話ＩＤ：２」の発話要素に対応して、評価対象者ＳＵが発話していた期間において、評価対象者ＳＵの様子を撮影した動画である。対象者情報取得部１０２は、こうして、発話要素ごとに切り出した評価対象者ＳＵの動画を、態度抽出部１０３に入力して、評価対象者ＳＵの態度に関する出力値を得る。

（評価基準）
評価基準ＤＢ１１２には、発話要素に関連付けて評価基準が格納されている。評価基準群５１Ａは、シナリオ５１の中の発話要素に関連付けられた評価基準の集合を示す。１つのシナリオにつき、１つ以上の評価基準が発話要素に関連付けて格納されている。図示の例では、シナリオ５１の中のすべての発話要素に評価基準が定められている。しかし、これに限らず、評価基準は、シナリオ内のすべての発話要素に定められていなくてもよい。例えば、評価基準は、シナリオの前半のシーンの発話要素にだけ定められていてもよいし、シナリオの後半のシーンの発話要素にだけ定められていてもよい。

また、評価基準は、相手発話ターンの発話要素および対象者発話ターンの両方に定められていてもよいし、いずれか一方に定められていてもよい。

他の例では、評価基準は、１つのシナリオ内で、相手発話ターンの発話要素および対象者発話ターンの発話要素のうち、相手発話ターンの少なくとも１つに定められていてもよい。これにより、対話評価部１０４は、相手発話中に評価対象者が表明する非言語的な態度を少なくとも評価して、対話能力の評価を改善することができる。

評価基準のそれぞれには、対応する発話要素の発話ＩＤが紐付けられていてもよい。例えば、対話評価部１０４は、アバタＡＶがシナリオ５１の「発話ＩＤ：１」の発話要素を発話しているときの、評価対象者ＳＵの態度を評価しようとしている。この場合、対話評価部１０４は、シナリオ５１に対応する評価基準群５１Ａのうち、「発話ＩＤ：１」が紐付けられた評価基準を読み出し、当該評価基準に基づいて、評価対象者ＳＵの態度を評価する。

以上のとおり、評価基準ＤＢ１１２に記憶されている評価基準によれば、対話評価部１０４は、発話要素ごとに切り出された動画単位で、動画に映された評価対象者ＳＵの態度を評価できる。

特に、相手発話ターンの発話要素においては、アバタＡＶの台詞が事前に定められている。そのため、それを聴いている間の評価対象者の態度としての「正解」を、当該発話要素の評価基準として事前に定めておくことができる。また、アバタＡＶの台詞が事前に定められているため、それを踏まえた上での次の評価対象者の態度および発言内容の「正解」を、評価基準として事前に定めておくことができる。すなわち、対話評価部１０４は、対話のシチュエーションまたは文脈に合致した対応ができているのかどうかを評価することができ、結果として、対話能力の評価を改善することができる。

（セッション履歴）
図４は、記憶部１１に記憶されるセッション履歴のデータ構造の一例を示す図である。シナリオ設定部１０５は、評価対象者ＳＵのトレーニングに用いるシナリオを１つ選択し、当該シナリオの再生をアバタ情報出力部１０１に指示してセッションを開始する。シナリオ設定部１０５は、セッションを開始すると、当該セッションに関して、セッションＩＤを付与し、セッションが実行された履歴を記憶部１１に記憶してもよい。

図４に示すとおり、一例として、シナリオ設定部１０５は、評価対象者ＳＵを識別するための評価対象者名と、セッションの開始日時とを、セッションＩＤに紐付けてセッション履歴を記憶部１１に記憶してもよい。開始日時は、対話機器２がアバタ情報の再生を開始した日時を指していてもよいし、対話機器２が対象者情報の録画を開始した日時を指していてもよい。図示のように、評価対象者ＳＵが同じでも、異なる日時に実行されたセッションに対しては、別のセッションＩＤが付与される。

他の例では、シナリオ設定部１０５は、再生されたシナリオのシナリオＩＤをさらにセッションＩＤに紐付けて記憶してもよい。

選択されたシナリオ内の最後の発話要素が履行されるとセッションが終了し、対話評価部１０４が、当該セッションについて、評価対象者ＳＵの対話能力を総合的に評価する。他の例では、対話評価部１０４は、終了したセッションについて出力した評価結果を、セッションＩＤに紐付けて記憶してもよい。また、レポート生成部１０６が生成したレポートを、セッションＩＤに紐付けて記憶してもよい。

このように、各セッションをセッションＩＤで管理することにより、誰が、いつ、対話のトレーニングを行ったのかを把握することができる。そして、使用されたシナリオのシナリオＩＤを紐付けておくことにより、誰が、いつ、どのシナリオを用いて対話のトレーニングを行ったのかを把握することができる。さらに、対話評価部１０４が出力した評価結果、および、レポート生成部１０６が生成したレポートにセッションＩＤを紐付けることができる。これにより、評価結果が、誰の、いつのトレーニングのものなのかを判別できるように、レポートを保存しておくことができる。

（態度情報）
図５は、対象者情報取得部１０２が生成または取得する態度情報の具体例を示す図である。対象者情報取得部１０２は、態度情報を、発話要素ごとに取得する。

態度情報５２は、図４に示した「セッションＩＤ：１」のセッションにおける、「シナリオＩＤ：１」のシナリオの、「シーンＩＤ：１」のシーンの、「発話ＩＤ：１」の発話要素が再生されていた期間の、評価対象者「鈴木太郎」氏の態度を示した態度情報の一具体例である。

態度情報５３は、図４に示した「セッションＩＤ：２」のセッションにおける、「シナリオＩＤ：１」のシナリオの、「シーンＩＤ：１」のシーンの、「発話ＩＤ：１」の発話要素が再生されていた期間の、評価対象者「田中次郎」氏の態度を示した態度情報の一具体例である。

図５に示すとおり、態度情報は、一例として、抽出項目のカラムと、出力値のカラムとを有していてもよい。同図には、抽出項目のカラムにおいて、出力値がどのような非言語的要素の態度を示しているのかを説明する文章が格納されている。しかし、この文章は発明の説明のために示したもので、実際には、評価装置１において、抽出項目を識別できればよく、例えば、「ｉｔｅｍ１」、「ｉｔｅｍ２」などの文字列であってもよい。

一例として、第１の抽出項目は、「表情」を非言的要素として抽出することを意味している。具体的には、第１の抽出項目は、出力値が、アバタＡＶの発話期間中における、評価対象者ＳＵの表情の分類と、その表情が検出された時間の割合を示していることを説明している。第１の抽出項目「表情」の出力値は、１つの発話要素に対応する期間における評価対象者ＳＵの動画から抽出したフレーム画像を、表情抽出モデルに入力することにより得られる値から算出される。

第２の抽出項目は、「視線」を非言的要素として抽出することを意味している。具体的には、第２の抽出項目は、出力値が、アバタＡＶの発話期間中における、評価対象者ＳＵがアバタＡＶに視線を向けた時間の割合を示していることを説明している。第２の抽出項目「視線」の出力値は、１つの発話要素に対応する期間における評価対象者ＳＵの動画から抽出したフレーム画像を、視線抽出モデルに入力することにより得られる値から算出される。

第３の抽出項目は、「話し方」（話の内容ではない）を非言的要素として評価することを意味している。具体的には、第３の抽出項目は、出力値が、評価対象者ＳＵがシチュエーション（例えば、アイスブレイク）に合致した口調で話せている度合いを示していることを説明している。第３の抽出項目「話し方」の出力値は、１つの発話要素に対応する期間における評価対象者ＳＵの動画を、話し方評価モデルに入力することにより得られる。

なお、シチュエーションに応じた話し方の評価値を算出する場合、シチュエーションごとに話し方評価モデルを用意しておけばよい。また、話し方の評価は、口調に限られず、声量や声の調子等に基づいて行ってもよく、この場合、評価対象者ＳＵの発話を録音した音声を用いて評価すればよい。

対象者情報取得部１０２は、１つの発話要素に対応する期間における評価対象者ＳＵの動画について、抽出項目ごとに、対応する態度抽出部１０３から得られた出力値を取得する。対象者情報取得部１０２は、各態度抽出部１０３から取得した、評価対象者ＳＵの態度に関する出力値から上述のような態度情報を生成し、対話評価部１０４に供給する。

態度情報には、少なくとも、対話相手（アバタＡＶ）が発話しているときの評価対象者ＳＵの態度を示す情報（出力値）が含まれている。そのため、対話評価部１０４は、対話相手（アバタＡＶ）が発話しているときの評価対象者ＳＵの態度に基づいて、評価対象者ＳＵの対話能力を評価することができる。

対話評価部１０４は、例えば、以下に説明する評価基準にしたがって、評価対象者ＳＵの対話能力を評価することができる。

（評価基準）
一例として、対話評価部１０４は、シナリオの発話要素ごとに生成された態度情報に基づいて、発話要素ごとに定められた評価基準にしたがって、評価対象者ＳＵの対話能力を評価してもよい。

図６は、評価基準の具体例を示す図である。図６に示す評価基準は、「シナリオＩＤ：１」のシナリオの、「シーンＩＤ：１」のシーンの、「発話ＩＤ：１」の発話要素に関連付けられている評価基準である。

評価基準は、一例として、評価項目ＩＤ、評価項目名、第１評価基準のカラムを有する。本実施形態では、シナリオ内のシーンおよび発話要素は、定義された順序にしたがって、シーケンシャルに履行される。すなわち、先のシーンまたは発話要素の評価結果に応じて、シーンまたは発話要素が分岐することはない。第２評価基準は、発話要素の分岐の要否を判定するために用いられる評価基準であるので、本実施形態では、第２評価基準は、省略される。第２評価基準にしたがって履行される発話要素が分岐する例については、実施形態２において詳述する。

対話評価部１０４は、「シナリオＩＤ：１」のシナリオの、「シーンＩＤ：１」のシーンの、「発話ＩＤ：１」の発話要素に対応する評価対象者ＳＵの態度を、図５に示される態度情報５２に基づいて評価する。そのために、対話評価部１０４は、「発話ＩＤ：１」の発話要素に関連付けられた図６に示す評価基準（Ｎｏ．：１／１／１）を評価基準ＤＢ１１２から読み出す。

対話評価部１０４は、表情に関する出力値「笑顔７０％、真剣２０％、不機嫌１０％」に基づいて、第１評価基準にしたがって、評価対象者ＳＵの表情が不適切であったと評価してもよい。また、対話評価部１０４は、視線に関する出力値「４０％」に基づいて、第１評価基準にしたがって、評価対象者ＳＵの視線が不適切であったと評価してもよい。さらに、対話評価部１０４は、表情および視線の評価結果を統合して、評価対象者ＳＵの傾聴能力を、例えば、Ａ～Ｃの３段階のランク付けで評価してもよい。例えば、表情および視線の両方を不適切と評価した場合には、対話評価部１０４は、評価対象者ＳＵの傾聴能力を最下位ランクの「Ｃ」と評価してもよい。また、対話評価部１０４は、評価対象者ＳＵの傾聴能力を数値で表したスコアを算出し、これを評価結果としてもよい。

他の例では、対話評価部１０４は、話し方に関する出力値「１５点」に基づいて、第１評価基準にしたがって、評価対象者ＳＵの話し方をＡ～Ｃの３段階のランク付けで評価してもよい。例えば、対話評価部１０４は、評価対象者ＳＵの適応能力を、最下位ランクの「Ｃ」と評価してもよい。また、例えば、対話評価部１０４は、出力値「１５点」をそのまま適応能力のスコアとしてもよい。

こうして、対話評価部１０４は、「セッションＩＤ：１」のセッションにおける、「シナリオＩＤ：１」のシナリオの、「発話ＩＤ：１」の発話要素に対応する期間の、評価対象者「鈴木太郎」氏の態度を評価することができる。一例として、対話評価部１０４は、「セッションＩＤ／シナリオＩＤ／シーンＩＤ／発話ＩＤ＝１／１／１／１」の評価結果を、「表情：不適、視線：不適、話し方：Ｃランク」と出力してもよい。他の例では、対話評価部１０４は、評価項目ごとに複数の抽出項目の評価結果を統合した評価結果を出力してもよい。例えば、対話評価部１０４は、「傾聴能力：Ｃランク、適応能力：Ｃランク」と出力してもよい。

なお、対話評価部１０４は、「発話ＩＤ：１」の発話要素が、評価対象者ＳＵが一言も音声を発しない相手発話ターンである場合には、評価対象者ＳＵの話し方の評価を省略してもよい。この場合、対話評価部１０４は、「表情：不適、視線：不適、話し方：（評価なし）」の評価結果を出力してもよい。

以上のとおり、対話評価部１０４は、発話要素ごとに切り出された動画に対応する態度情報に基づいて、各発話要素に関連付けられた評価基準にしたがって、評価対象者ＳＵの対話を、シナリオの発話要素ごとに評価することができる。特に、対話相手が発話する発話要素に関連付けられた評価基準にしたがって、対話相手の話を聴いているときの評価対象者の態度を評価することができる。

＜効果＞
本実施形態に係る評価システム１００によれば、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの評価対象者の態度を示す情報を少なくとも含む態度情報を用いて評価対象者の対話を評価する。よって、対話相手の話を聴いているときの評価対象者の態度について評価の対象とすることができる。

上述のように評価を行えば、評価結果が得られ、当該評価結果を評価対象者ＳＵまたは評価対象者ＳＵを指導または評価する立場にある人物に提示することが可能である。そのため、評価対象者ＳＵの態度の至らない部分を認識させ、適切な態度を身に着けさせることが可能になる。なお、対話相手は人であってもよいし、アバタ等であってもよい。

〔実施形態２〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

本実施形態では、対話評価部１０４の評価結果に応じて、シナリオ設定部１０５がシナリオを変更する。具体的には、本実施形態では、シナリオにおいて、各発話要素の進行順序が一律ではなく、先の発話要素における評価対象者ＳＵの態度を評価した評価結果に応じて、後続の発話要素が変更される。すなわち、１つのシナリオにおいて、発話要素の進行が分岐し得る。

本実施形態では、対話評価部１０４は、図６に示す評価基準の第２評価基準に基づいて、先の発話要素におけるＳＵの態度を評価し、シナリオ進行の分岐要否を判断するための評価値を出力する。

（分岐要否を判断するための評価）
本実施形態では、対話評価部１０４は、さらに、第２評価基準（図６）に基づいて、発話要素ごとの評価対象者ＳＵの態度を評価する。例えば、シナリオ５１における「発話ＩＤ：１」の発話要素が履行され、次に、「発話ＩＤ：２」の発話要素が進行している間に、対話評価部１０４は、「発話ＩＤ：３」の発話要素の分岐要否を判断するための評価を行ってもよい。

対話評価部１０４は、「発話ＩＤ：１」の発話要素について切り出された動画について、分岐要否を判断するための評価を行うために、当該発話要素に関連付けられた第２評価基準（図６）を読み出す。対話評価部１０４は、第２評価基準にしたがって、態度情報５２（図５）を評価する。

第２評価基準は、評価対象者ＳＵの態度に関する出力値について、分岐の条件を定義する情報である。シナリオ設定部１０５は、対話評価部１０４の評価結果が、態度抽出部１０３から得られた出力値が第２評価基準において定義された分岐の条件を満たす場合に、次の発話要素（発話ＩＤ：３）を分岐させる。例えば、対話評価部１０４は、評価結果が第２評価基準を満たす場合に、分岐の要否を示すフラグを、分岐が必要である、すなわち、発話要素を変更する必要があることを示す「ｔｒｕｅ」に設定してもよい。一方、対話評価部１０４は、評価結果が第２評価基準を満たさない場合に、上記フラグを、分岐が不要である、すなわち、発話要素を変更せずにデフォルトの進行順序にて対話を進行させることを示す「ｆａｌｓｅ」に設定してもよい。この場合、シナリオ設定部１０５は、上記フラグの値を参照してシナリオを分岐させるか否かを判定すればよい。

図６に示すとおり、対話評価部１０４は、態度抽出部１０３によって抽出し得るすべての抽出項目（例えば、表情、視線、および、話し方のすべて）を、分岐要否の判断のために使用しなくてもよい。また、対話評価部１０４は、複数の抽出項目（表情および視線）の評価結果を統合して分岐要否を判断してもよいし、いずれか１つの抽出項目（表情、視線または話し方）の評価結果に基づいて、分岐要否を判断してもよい。

図７は、分岐要否を判定するための評価結果の例を示す図である。対話評価部１０４は、評価項目（ｆｌａｇ１「傾聴能力」）について、図５に示す態度情報５２を用いて評価を行う。態度情報５２に示されている表情と視線とは共に「不適」であるから、対話評価部１０４は、第２評価基準を満たすと判定する。そして、対話評価部１０４は、現在進行中のセッションＩＤ：１のセッションについて、分岐の要否を示すフラグを「ｔｒｕｅ」に設定する。

一方、図５に示す態度情報５３では、表情について笑顔が７０％以上かつ不機嫌５％未満であり、また視線が５０％以上であるから、対話評価部１０４は、第２評価基準を満たさないと判定する。この場合、対話評価部１０４は、現在進行中のセッションＩＤ：２のセッションについて、分岐の要否を示すフラグを「ｆａｌｓｅ」に設定する。

シナリオ設定部１０５は、「発話ＩＤ：１」の発話要素について、上記フラグが「ｔｒｕｅ」に設定されていた場合には、次の「発話ＩＤ：３」の発話要素について、デフォルトとは異なる発話要素に差し替えることによりシナリオを変更する。例えば、シナリオ設定部１０５は、発話ＩＤ：３の発話要素に関して、デフォルトの発話要素を、アバタＡＶの態度が硬化された（例えば、少し怪訝な言い方の台詞を含む）発話要素に差し替えてもよい。

アバタ情報出力部１０１は、差し替えられた発話要素にしたがってアバタ情報を生成し、対話機器２において再生する。

こうして、先の発話要素に対する評価結果に応じて、シナリオ設定部１０５によりシナリオが変更される。このため、セッションの途中であっても、評価結果に応じた適切なシナリオに沿って、より自然な流れで、評価対象者に対話を行わせることが可能になる。

（シナリオの分岐）
図８は、シナリオの分岐の例を示す図である。このシナリオに基づくセッションでは、評価対象者ＳＵは、アバタＡＶによる「発話ＩＤ：１」の台詞８１が再生されている間の態度により、表情、視線共に「不適切」であれば、評価対象者ＳＵが「発話ＩＤ：２」の発話８２を行っている間に、対話評価部１０４は、「発話ＩＤ：１」の発話要素（１／１／１）に関して、フラグを「ｔｒｕｅ」に設定する。

シナリオ設定部１０５は、発話要素（１／１／１）に関して、フラグが「ｔｒｕｅ」に設定されたことに応じて、次の発話要素を、発話要素８３（１／１／３１）から発話要素８４（１／１／３２）へと差し替える。その結果、対話機器２においては、発話要素８３に含まれる台詞８５に代えて、発話要素８４に含まれる台詞８６が再生される。

対話評価部１０４は、履行されたそれぞれの発話要素ごとに、第１評価基準にしたがって評価対象者ＳＵの態度を評価した評価結果を出力する。具体的には、対話評価部１０４は、相手発話ターンの発話要素（１／１／１）に対応する評価結果８７と、対象者発話ターンの発話要素（１／１／２）に対応する評価結果８８と、差し替えられた発話要素８４に対応する評価結果８９とを、順次出力する。

（評価結果）
図９は、評価結果ＤＢ１１３に記憶されるレポートの具体例を示す図である。レポート生成部１０６は、図示のとおり、１つのセッションにつき、発話要素ごとの評価結果を含む複数のレポートを生成してもよい。図示の「レポートＩＤ：１」のレポートは、図８に示す評価結果８７を示すレポートである。「レポートＩＤ：２」のレポートは、図８に示す評価結果８８を示すレポートである。「レポートＩＤ：３」のレポートは、図８に示す評価結果８９を示すレポートである。

上述したとおり、評価結果は、態度抽出部１０３が出力した出力値（例えば、話し方の評価値）であってもよい。他の例では、評価結果は、出力値に基づいて対話評価部１０４が判定した適／不適を示す情報であってもよい。他の例では、評価結果は、態度情報に基づいて対話評価部１０４が決定したランク（図６）であってもよい。

レポート生成部１０６は、生成したレポートを評価結果ＤＢ１１３に格納してもよいし、対話機器２または評価者端末３に送信してもよい。評価装置１から送信されたレポートは、対話機器２または評価者端末３の表示部に表示されて、評価対象者ＳＵ本人または他の評価者に提示される（例えば、図１の評価者端末３の表示画面）。

＜評価方法の処理の流れ＞
図１０は、評価装置１が実行する評価方法の処理の流れを示すフローチャートである。一例として、図示の評価方法は、評価者が評価者端末３を介して、または、評価対象者ＳＵ本人が対話機器２を介して、評価対象者ＳＵを特定する情報を入力し、対話トレーニングの実行を指示する操作入力を行ったことに応答して開始されてもよい。

ステップＳ１０１では、シナリオ設定部１０５は、トレーニングに用いるシナリオをデフォルトのシナリオから変更する必要があるか否かを判定する。例えば、シナリオ設定部１０５は、過去に実施されたセッションの評価結果が所定の条件を満たす場合にシナリオを変更する必要があると判定してもよい。ステップＳ１０１でＮＯと判定された場合にはステップＳ１０２に進み、ステップＳ１０１でＹＥＳと判定された場合にはステップＳ１０３に進む。

ステップＳ１０２では、シナリオ設定部１０５は、シナリオの変更は不要であると判断し、デフォルトのシナリオを設定してセッションを開始する。

ステップＳ１０３（シナリオ設定ステップ）では、シナリオ設定部１０５は、シナリオをデフォルトのものから別のものに変更してセッションを開始する。例えば、前回以前に実施されたセッションについて、安定して高評価が得られている場合に、シナリオ設定部１０５は、より難易度の高いシナリオを選択してもよい。なお、毎回、人がシナリオを設定する実施形態では、ステップＳ１０１～Ｓ１０３は省略される。

ステップＳ１０４では、アバタ情報出力部１０１は、シナリオ設定部１０５によって設定されたシナリオに含まれている発話要素を順次読み出す。

ステップＳ１０５では、アバタ情報出力部１０１は、ステップＳ１０４で読み出した発話要素ごとにアバタ情報（アバタの動画）を生成し、対話機器２に出力する。これにより、対話機器２において、アバタの動画が再生される。

ステップＳ１０６では、アバタ情報出力部１０１は、１つの発話要素に対応して生成したアバタの動画の再生時刻を対象者情報取得部１０２に対して出力する。

ステップＳ１０７では、対象者情報取得部１０２は、対話機器２において録画された対象者情報（評価対象者ＳＵの動画）を対話機器２から取得する。

ステップＳ１０８では、対象者情報取得部１０２は、ステップＳ１０７で取得した対象者情報すなわち評価対象者ＳＵの動画から、１つの発話要素に対応する部分を切り出す。例えば、対象者情報取得部１０２は、ステップＳ１０６で取得した再生時刻と、評価対象者ＳＵの動画の録画時刻とを照合することにより、発話要素ごとに動画を切り出すことができる。対象者情報取得部１０２は、アバタＡＶが発言する相手発話ターンに区分された発話要素に対応する動画だけを切り出してもよいし、対象者発話ターンに区分された発話要素に対応する動画も併せて切り出してもよい。

ステップＳ１０９（情報取得ステップ）では、対象者情報取得部１０２は、発話要素ごとに態度情報を取得または生成する。例えば、対象者情報取得部１０２は、発話要素ごとに切り出された動画を、態度抽出部１０３に入力し、態度情報の元になる出力値を出力させてもよい。そして、対象者情報取得部１０２は、態度抽出部１０３が出力する上記の出力値から発話要素ごとの態度情報を生成してもよい。なお、上述のように、態度抽出部１０３が出力する出力値は、評価対象者ＳＵの態度として表れるいずれかの非言語的要素に関する情報（例えば、評価対象者ＳＵの表情、視線、話し方など）を含む。

ステップＳ１１０（評価ステップ）では、対話評価部１０４は、ステップＳ１０９で取得された態度情報に基づいて、発話要素ごとに、評価対象者ＳＵの対話能力を評価する。実施形態１では、対話評価部１０４は、第１評価基準に基づいて、評価対象者ＳＵまたは評価者にフィードバックするための評価を行う。実施形態２では、対話評価部１０４は、さらに、第２評価基準に基づいて、シナリオの分岐要否を判定するための評価を行う。

ステップＳ１１１では、対話評価部１０４は、発話要素ごとの評価結果を評価結果ＤＢ１１３に格納する。実施形態１では、例えば、図９に示すように、対話評価部１０４は、発話要素ごとに、評価対象者ＳＵまたは評価者にフィードバックするための評価結果を格納する。実施形態２では、例えば、図７に示すように、対話評価部１０４は、発話要素ごとに、シナリオの分岐要否を判定するための評価値を出力（フラグの値をｔｒｕｅまたはｆａｌｓｅに設定）する。

ステップＳ１１２では、アバタ情報出力部１０１は、シナリオ内で進行順序の最後に定義されている発話要素の再生が終了したか否かを判定する。最後の発話要素の再生が終了すると、レポート生成部１０６は、ステップＳ１１２のＹＥＳからステップＳ１１３へ処理を進める。シナリオ内に未再生の発話要素がある場合、シナリオ設定部１０５は、ステップＳ１１２のＮＯからステップＳ１１４へ処理を進める。

ステップＳ１１３では、レポート生成部１０６は、終了したセッションについて、発話要素ごとの評価結果を含むレポート（例えば、図９）を生成し、評価結果ＤＢ１１３に格納する。レポートは、セッション中に表示してもよいし、セッション後に表示してもよい。また、レポートは、対話機器２と評価者端末３の両方に表示させてもよいし、評価者端末３のみに表示させてもよい。

ステップＳ１１４では、シナリオ設定部１０５は、後続の発話要素について変更が必要か否かを判断する。例えば、ステップＳ１１１にて分岐要否を示すフラグの値が「ｔｒｕｅ」に設定された場合、シナリオ設定部１０５は、ステップＳ１１４のＹＥＳからステップＳ１１５へ処理を進める。一方、ステップＳ１１１にて分岐要否を示すフラグの値が「ｆａｌｓｅ」に設定された場合、アバタ情報出力部１０１は、ステップＳ１１４のＮＯからステップＳ１０４へ処理を戻す。

ステップＳ１１５（シナリオ設定ステップ）では、シナリオ設定部１０５は、次に再生する発話要素を、デフォルトのものから別のものに変更することによりシナリオを変更する。なお、シナリオをどこで分岐させるかは任意であり、次に再生する発話要素よりもさらに後の発話要素で分岐させてもよい。シナリオに分岐がない実施形態１に係る評価方法においては、シナリオを分岐させるためのステップＳ１１４～ステップＳ１１５の各処理は省略される。

〔変形例〕
評価装置１は、３者以上の対話の評価に適用することもできる。この場合、シナリオに含まれる各発話要素は、評価対象者が発話する対象者発話ターンと、評価対象者に対して何れかの対話相手（アバタまたは実際の人物）が発話する第１の相手発話ターンと、複数の対話相手同士で対話している第２の相手発話ターンとに分類できる。

よって、３者以上の対話の場合、図１０のステップＳ１０９（情報取得ステップ）では、対象者情報取得部１０２は、複数の対話相手の何れかが評価対象者に対して発話している第１の相手発話ターンにおける評価対象者の態度を示す情報と、複数の対話相手同士で対話している第２の相手発話ターンにおける評価対象者の態度を示す情報とを含む態度情報を取得、または、生成してもよい。

そして、ステップＳ１１０（評価ステップ）では、対話評価部１０４は、ステップＳ１０９にて対象者情報取得部１０２が取得した態度情報を用いて、第１の相手発話ターンおよび第２の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って評価対象者の対話を評価してもよい。

上述の方法によれば、第１の相手発話ターンおよび第２の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って対話を評価するので、評価対象者が話しかけられたときの態度を評価したり、対話相手同士で対話しているときの態度についても評価したりすることができる。

本変形例は、上述の各実施形態で記載した営業トークのトレーニングの利用シーンでも活用できる他、それ以外の利用シーンとして、例えば、精神疾患患者の療養にも活用することができる。例えば、精神疾患患者（評価対象者）が、専門家（１人目の対話相手）と家族（２人目の対話相手）との対話をどういった態度で傾聴するのかを評価することができる。そして、この評価で得られた評価結果を、治療方針の決定や、治療効果の確認などに活用することができる。

〔処理の実行主体について〕
なお、上述の各実施形態で説明した各処理の実行主体は任意であり、上述の例に限られない。つまり、相互に通信可能な複数の情報処理装置により、評価装置１と同様の機能を実現することができる。例えば、図１０に示す処理を複数の情報処理装置に分担して実行させることも可能である。

〔ソフトウェアによる実現例〕
評価装置１（以下、「装置」と呼ぶ）の機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に制御部１０に含まれる各部）としてコンピュータを機能させるためのプログラム（評価プログラム）により実現することができる。

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。この他にも、例えば量子コンピュータにより上記各制御ブロックの機能を実現することも可能である。

（評価装置１の物理的構成）
図１１は、各実施形態に係る評価装置１として用いられるコンピュータの物理的構成を例示したブロック図である。また、図１１には対話機器２として用いられるコンピュータの物理的構成についても例示している。

図１１に示すように、評価装置１は、バス３０と、プロセッサ３１と、主メモリ３２と、補助メモリ３３と、通信インタフェース３４とを備えたコンピュータによって構成可能である。プロセッサ３１、主メモリ３２、補助メモリ３３、および通信インタフェース３４は、バス３０を介して互いに接続されている。

プロセッサ３１としては、例えば、ＣＰＵ、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。

主メモリ３２としては、例えば、半導体ＲＡＭ等が用いられる。

補助メモリ３３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ３３には、上述した評価装置１の動作をプロセッサ３１に実行させるためのプログラムが格納されている。プロセッサ３１は、補助メモリ３３に格納されたプログラムを主メモリ３２上に展開し、展開したプログラムに含まれる各命令を実行する。

通信インタフェース３４は、ネットワークに接続して、外部の装置（例えば、対話機器２）と通信を行うためのインタフェースである。

この例で、プロセッサ３１は、制御部１０を実現するハードウェア要素の一例である。通信インタフェース３４は、評価装置１の不図示の通信部を実現するハードウェア要素の一例である。また、主メモリ３２および補助メモリ３３は、記憶部１１を実現するハードウェア要素の一例である。

（対話機器２の物理的構成）
図１１に示すように、対話機器２は、バス４０と、プロセッサ４１と、主メモリ４２と、補助メモリ４３と、通信インタフェース４４と、入出力インタフェース４５とを備えたコンピュータによって構成可能である。プロセッサ４１、主メモリ４２、補助メモリ４３、通信インタフェース４４、および入出力インタフェース４５は、バス４０を介して互いに接続されている。入出力インタフェース４５には、入力装置２０６および出力装置２０７が接続されている。

入出力インタフェース４５としては、例えば、ＵＳＢインタフェース、赤外線やBluetooth（登録商標）等の近距離通信インタフェース、またはこれらの組み合わせが用いられてもよい。あるいは、入出力インタフェース４５は、プロセッサ４１と、対話機器２に内蔵されている入力装置２０６および出力装置２０７との間でデータの送受信を行うことを可能にするインタフェースであってもよい。

入力装置２０６としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置２０７としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。

この例で、入力装置２０６は、撮影部２３または音声入力部２４を実現するハードウェア要素の一例である。また、出力装置２０７は、表示部２１または音声出力部２２を実現するハードウェア要素の一例である。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

〔まとめ〕
本発明の態様１に係る評価方法は、１または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含む。

本発明の態様２に係る評価方法は、上記の態様１において、前記対話は、前記評価対象者が発話する対象者発話ターンと前記対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められ、前記情報取得ステップでは、前記評価対象者の発話時の態度を示す情報を含む前記態度情報を取得し、前記評価ステップでは、前記情報取得ステップにて取得された前記態度情報を用いて、前記相手発話ターンおよび前記対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価してもよい。

本発明の態様３に係る評価方法は、上記の態様２において、前記評価ステップによる評価結果に応じて前記シナリオを変更するシナリオ設定ステップを含んでいてもよい。

本発明の態様４に係る評価方法は、上記の態様１から３の何れかにおいて、前記情報取得ステップでは、複数の前記対話相手の何れかが前記評価対象者に対して発話している第１の相手発話ターンにおける前記評価対象者の態度を示す情報と、複数の前記対話相手同士で対話している第２の相手発話ターンにおける前記評価対象者の態度を示す情報とを含む前記態度情報を取得し、前記評価ステップでは、前記情報取得ステップにて取得される前記態度情報を用いて、前記第１の相手発話ターンおよび前記第２の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、方法としてもよい。

本発明の態様５に係る評価装置は、対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備える構成である。

本発明の態様６に係る評価プログラムは、前記態様５に記載の評価装置としてコンピュータを機能させるための評価プログラムであって、前記情報取得部および前記評価部としてコンピュータを機能させる。

１評価装置
１０２対象者情報取得部（情報取得部）
１０４対話評価部（評価部）

Claims

１または複数の情報処理装置により評価対象者の対話を評価する評価方法であって、
対話中の前記評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得ステップと、
前記態度情報を用いて前記評価対象者の対話を評価する評価ステップと、を含み、
前記評価ステップでは、前記対話相手が事前に定められた発話要素を発話し、前記評価対象者が当該発話要素の発話を聴いている間における当該評価対象者の態度を、その発話要素の発話を聴くときの態度を評価するために、当該発話要素に予め関連付けられた評価基準に従って評価する、評価方法。
前記対話は、前記評価対象者が発話する対象者発話ターンと前記対話相手が発話する相手発話ターンとに区分された所定のシナリオに沿って進められ、
前記情報取得ステップでは、前記評価対象者の発話時の態度を示す情報を含む前記態度情報を取得し、
前記評価ステップでは、前記情報取得ステップにて取得された前記態度情報を用いて、前記相手発話ターンおよび前記対象者発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、請求項１に記載の評価方法。
前記評価ステップによる評価結果に応じて前記シナリオを変更するシナリオ設定ステップを含み、
前記シナリオには、当該シナリオにおける一連の発話要素が定義されている、請求項２に記載の評価方法。
前記情報取得ステップでは、複数の前記対話相手の何れかが前記評価対象者に対して発話している第１の相手発話ターンにおける前記評価対象者の態度を示す情報と、複数の前記対話相手同士で対話している第２の相手発話ターンにおける前記評価対象者の態度を示す情報とを含む前記態度情報を取得し、
前記評価ステップでは、前記情報取得ステップにて取得される前記態度情報を用いて、前記第１の相手発話ターンおよび前記第２の相手発話ターンの少なくとも何れか一方に設定された評価基準に従って前記評価対象者の対話を評価する、請求項１に記載の評価方法。
対話中の評価対象者を撮影した画像に基づいて生成された、対話相手が発話しているときの前記評価対象者の態度を示す情報を少なくとも含む態度情報を取得する情報取得部と、
前記態度情報を用いて前記評価対象者の対話を評価する評価部と、を備え、
前記評価部は、前記対話相手が事前に定められた発話要素を発話し、前記評価対象者が当該発話要素の発話を聴いている間における当該評価対象者の態度を、その発話要素の発話を聴くときの態度を評価するために、当該発話要素に予め関連付けられた評価基準に従って評価する、評価装置。
請求項５に記載の評価装置としてコンピュータを機能させるための評価プログラムであって、前記情報取得部および前記評価部としてコンピュータを機能させるための評価プログラム。