JP6594577B1

JP6594577B1 - 評価システム、評価方法、及びコンピュータプログラム。

Info

Publication number: JP6594577B1
Application number: JP2019061311A
Authority: JP
Inventors: 浩一郎山岡; 龍道本; 良治見並; 遼真安永; 惇平井村
Original assignee: Hakuhodo DY Holdings Inc
Current assignee: Hakuhodo DY Holdings Inc
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2019-10-23
Anticipated expiration: 2039-03-27
Also published as: JP2020160336A; WO2020196743A1; US20220165276A1

Abstract

【課題】商談上の混合音声から対象者の発話行為を評価するための技術を提供する。【解決手段】本開示の一側面に係る評価方法では、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声が取得される（Ｓ２１０）。更に、入力音声が、第一の話者の音声と第二の話者の音声とに分離される（Ｓ２３０）。更に、第一の話者の発話行為が、第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価される（Ｓ２６０，Ｓ２７０）。【選択図】図４

Description

本開示は、評価システム、評価方法、及びコンピュータプログラムに関する。

コールセンタのオペレータと顧客との会話を分析し、会話の採点を行うシステムが既に知られている（例えば特許文献１参照）。このシステムでは、会話の音声を、ヘッドセットや電話機を介して取得する。

特開２０１４−１２３８１３号公報

しかしながら、上述の従来技術は、電話によらない対面での会話を評価する目的では、使用することができない。電話を通じたオペレータと顧客との会話では、送話信号及び受話信号が独立して存在する。そのため、発話者個別の音声信号を簡単に取得することができ、入力音声と発話者との対応関係が明確である。一方、対面での会話では、マイクロフォンに、複数人の混合音声が入力される。

そこで、本開示の一側面によれば、商談上の混合音声から対象者の発話行為を評価するための技術を提供できることが望ましい。

本開示の一側面に係る評価システムは、取得部と、分離部と、評価部と、を備える。取得部は、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される。分離部は、取得部により取得された入力音声を、第一の話者の音声と第二の話者の音声とに分離するように構成される。評価部は、第一の話者の発話行為を、分離部により分離された第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価するように構成される。

この評価システムによれば、商談上の混合音声を分離して、第一の話者、例えば商品や役務を売り込む話者の発話行為を適切に評価することができる。

本開示の一側面によれば、第一の話者は、予め音声の特徴が登録された登録者であり得る。分離部は、登録された第一の話者の音声の特徴に基づき、入力音声を、登録者である第一の話者の音声と、登録者以外の第二の話者の音声とに分離するように構成され得る。

商談に参加するすべての話者の音声の特徴を登録することは、多くの場合難しい。対して、評価対象の第一の話者の音声の特徴を事前に登録しておくことは比較的容易である。従って、上述したように混合音声を、登録者の音声と、非登録者の音声とに分離する手法によれば、混合音声を評価に必要な複数成分に比較的簡単に分離することができる。

本開示の一側面によれば、評価部は、第二の話者の音声に基づいて、第一の話者の発話行為を評価してもよい。第二の話者の音声には、第一の話者に対する第二の話者の反応が含まれる。従って、第二の話者の音声に基づいて、第一の話者の発話行為を評価すれば、発話行為が、商談相手に対して適切であるのかを精度よく評価することができる。

本開示の一側面によれば、評価部は、第二の話者の音声に含まれるキーワードに基づき、第一の話者の発話行為を評価してもよい。

本開示の一側面によれば、評価部は、第一の話者と第二の話者との間のトピックに対応するキーワードを第二の話者の音声から抽出し、抽出したキーワードに基づき、第一の話者の発話行為を評価してもよい。トピックに対応するキーワードに基づき発話行為を評価することは、商談相手の反応に基づいて評価対象の話者の発話行為を適切に評価することに役立つ。

本開示の一側面によれば、評価部は、第一の話者の音声に基づきトピックを判別してもよい。

本開示の一側面によれば、評価部は、第一の話者から第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、表示されるディジタル資料に対応するキーワードを第二の話者の音声から抽出してもよい。評価部は、抽出したキーワードに基づき、第一の話者の発話行為を評価してもよい。

商談においては、ディジタル資料が使用されることも多い。そして、使用される資料に応じて商談上適切な発話行為も変化する。従って、ディジタル資料に対応するキーワードに基づく評価は、発話行為をより適切に評価するために有意義である。

本開示の一側面によれば、評価部は、第二の話者の話速、音量、及び音高の少なくとも一つに基づき、第一の話者の発話行為を評価してもよい。第二の話者の話速、音量、及び音高は、第二の話者の情動によって変化する。従って、話速、音量、及び音高の少なくとも一つに基づく評価は、情動を加味した評価を可能にする。

本開示の一側面によれば、評価部は、第一の話者の音声に基づいて、第一の話者の発話行為を評価してもよい。本開示の一側面によれば、評価部は、予め定められた評価モデル用いて、第一の話者の発話行為を評価してもよい。こうした評価システムによれば、評価対象者の商談上の発話行為を適切に評価することができる。

本開示の一側面によれば、評価部は、複数の評価モデルのうち、第一の話者と第二の話者との間のトピックに対応する評価モデルを用いて、第一の話者の発話行為を評価してもよい。トピックに応じて理想的な発話行為は変化し、従って、適切な評価モデルも変化する。従って、トピックに応じた評価モデルに従って発話行為を評価することは非常に有意義である。

本開示の一側面によれば、評価部は、第一の話者から第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、表示されるディジタル資料に対応する評価モデルを用いて、第一の話者の発話行為を評価してもよい。

本開示の一側面によれば、評価部は、第一の話者の音声及び第二の話者の音声から判別される第一の話者及び第二の話者の発話の分布に関する情報に基づき、第一の話者の発話行為を評価してもよい。

本開示の一側面によれば、評価部は、分布に関する情報としての、第一の話者と第二の話者との間の発話時間及び発話量の少なくとも一方の比率に基づき、第一の話者の発話行為を評価してもよい。

多くの場合、第一の話者からの一方的な会話は、第二の話者の無関心に起因する。第二の話者が、第一の話者の話に関心を持つ場合、第二の話者から第一の話者へ質問等の発話が多くなる。従って、上記比率に基づく発話行為の評価は、第一の話者の発話行為の適切な評価を可能にする。

本開示の一側面によれば、評価部は、第二の話者の音声に基づき、第二の話者が有する課題を推定し、第一の話者の音声に基づき、第一の話者が第二の話者に対して、推定した課題に対応する予め定められた情報を提供しているか否かを判定してもよい。評価部は、この判定結果に応じて、第一の話者の発話行為を評価してもよい。

本開示の一側面によれば、評価部は、第一の話者の音声及び第二の話者の音声に基づき、第一の話者が予め定められたシナリオに従って、第二の話者の反応に対応する話を第二の話者に提供しているか否かを判定してもよい。評価部は、この判定結果に応じて、第一の話者の発話行為を評価してもよい。本開示の一側面によれば、上述した評価により、第一の話者の発話行為を、商談の観点で適切に評価することができる。

本開示の一側面によれば、上述した評価システムにおける取得部、分離部、及び評価部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムを記憶するコンピュータ読取可能な非一時的記録媒体が提供されてもよい。

本開示の一側面によれば、コンピュータにより実行される評価方法が提供されてもよい。評価方法は、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、取得した入力音声を、第一の話者の音声と第二の話者の音声とに分離することと、第一の話者の発話行為を、分離した第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価することと、を含んでいてもよい。評価方法は、上述した評価システムで実行される手順と同様の手順を含んでいてもよい。

評価システムの構成を表す図である。モバイル装置のプロセッサが実行する記録送信処理を表すフローチャートである。商談記録データの構成を表す図である。サーバ装置のプロセッサが実行する評価出力処理を表すフローチャートである。サーバ装置が記憶する各種データの構成を表す図である。話者識別及びトピック判別に関する説明図である。プロセッサが実行するトピック判別処理を表すフローチャートである。プロセッサが実行する第一評価処理を表すフローチャートである。プロセッサが実行する第二評価処理を表すフローチャートである。

以下に、本開示の例示的実施形態を、図面を参照しながら説明する。
図１に示す本実施形態の評価システム１は、商談相手に対する対象者の商談行為を評価するためのシステムである。この評価システム１は、商談行為として、商談上での対象者の発話行為を評価するように構成される。

対象者は、例えば、従業員の商談行為に係る評価情報を欲する企業の従業員であり得る。評価システム１は、商談が対象者と商談相手との二人で行われるケースで、特に有効に機能する。商談の例には、医薬品製造会社の従業員と医師との間の医薬に関する商談が含まれる。

評価システム１は、図１に示すように、モバイル装置１０と、サーバ装置３０と、管理装置５０とを備える。モバイル装置１０は、対象者により商談が行われる空間に持ち込まれる。モバイル装置１０は、例えば、公知のモバイルコンピュータに専用のコンピュータプログラムがインストールされて構成される。

モバイル装置１０は、商談時の音声を記録し、更には商談相手に表示されたディジタル資料（例えばスライド）の表示履歴を記録するように構成される。モバイル装置１０は、これらの記録動作により生成された音声データＤ２及び表示履歴データＤ３を、サーバ装置３０に送信するように構成される。

サーバ装置３０は、モバイル装置１０から受信した音声データＤ２及び表示履歴データＤ３に基づき、対象者の商談行為を評価するように構成される。この評価情報は、サーバ装置３０が提供する評価サービスを利用する企業の管理装置５０に提供される。

モバイル装置１０は、プロセッサ１１と、メモリ１２と、ストレージ１３と、マイクロフォン１５と、操作デバイス１６と、ディスプレイ１７と、通信インタフェース１９とを備える。

プロセッサ１１は、ストレージ１３に格納されたコンピュータプログラムに従う処理を実行するように構成される。メモリ１２は、ＲＡＭ及びＲＯＭ等を含む。ストレージ１３は、コンピュータプログラムの他、プロセッサ１１による処理に供される各種データを記憶する。

マイクロフォン１５は、モバイル装置１０の周辺空間において生じる音声を集音し、その音声を電気的な音声信号としてプロセッサ１１に入力するように構成される。操作デバイス１６は、キーボードやポインティングデバイス等を備え、対象者からの操作信号をプロセッサ１１に入力するように構成される。

ディスプレイ１７は、プロセッサ１１により制御されて、各種情報を表示するように構成される。通信インタフェース１９は、広域ネットワークを通じてサーバ装置３０と通信可能に構成される。

サーバ装置３０は、プロセッサ３１と、メモリ３２と、ストレージ３３と、通信インタフェース３９とを備える。プロセッサ３１は、ストレージ３３に格納されたコンピュータプログラムに従う処理を実行するように構成される。メモリ３２は、ＲＡＭ及びＲＯＭ等を含む。ストレージ３３は、コンピュータプログラム及びプロセッサ３１による処理に供される各種データを記憶する。通信インタフェース３９は、広域ネットワークを通じてモバイル装置１０及び管理装置５０と通信可能に構成される。

続いて、モバイル装置１０のプロセッサ１１が実行する記録送信処理の詳細を、図２を用いて説明する。プロセッサ１１は、商談の開始に際して、対応するコンピュータプログラムの実行指示が対象者から操作デバイス１６を通じて入力されると、図２に記録送信処理を開始する。

記録送信処理を開始すると、プロセッサ１１は、操作デバイス１６を通じた商談情報の入力操作を受け付ける（Ｓ１１０）。商談情報には、商談場所及び商談相手を識別可能な情報が含まれる。

プロセッサ１１は、この商談情報の入力操作が完了すると、Ｓ１２０に移行し、録音処理を開始する。録音処理では、プロセッサ１１は、マイクロフォン１５からの入力音声を表す音声データＤ２をストレージ１３に記録するように動作する。

プロセッサ１１は、更に、Ｓ１３０に移行し、ディジタル資料の表示履歴の記録処理を開始する。表示履歴の記録処理は、Ｓ１２０で開始される録音処理と並列に実行される。この記録処理において、プロセッサ１１は、ディジタル資料をディスプレイ１７に表示するタスクの動作を監視することにより、ディスプレイ１７に表示されたディジタル資料毎に、資料ＩＤ及び表示期間を表すレコードを、ストレージ１３に記録するように動作する。ここでいう資料ＩＤは、対応するディジタル資料の識別情報である。

本実施形態では、１つのデータファイル内の各ページのディジタル資料を、異なるディジタル資料と取り扱ってもよい。この場合には、同一データファイルにおける各ページのディジタル資料に異なる資料ＩＤが割り当てられ得る。

プロセッサ１１は、録音処理及び表示履歴の記録処理を、操作デバイス１６を通じて対象者から終了指示が入力されるまで実行する（Ｓ１４０）。そして、終了指示が入力されると、これらの処理での記録内容を含む商談記録データＤ１を生成し（Ｓ１５０）、生成した商談記録データＤ１を、サーバ装置３０に送信する（Ｓ１６０）。その後、記録送信処理を終了する。

図３には、商談記録データＤ１の詳細を示す。商談記録データＤ１は、ユーザＩＤと、商談情報と、音声データＤ２と、表示履歴データＤ３とを含む。ユーザＩＤは、モバイル装置１０を利用する対象者の識別情報である。商談情報は、Ｓ１１０で対象者から入力された情報に対応する。

音声データＤ２は、録音処理で録音された音声データ本体と共に、録音期間を表す情報を備える。録音期間を表す情報は、例えば、録音開始日時及び録音時間を表す情報である。表示履歴データＤ３は、録音時に表示されたディジタル資料毎に、資料ＩＤ及び表示期間を表すレコードを含む。

続いて、サーバ装置３０のプロセッサ３１が実行する評価出力処理の詳細を、図４を用いて説明する。プロセッサ３１は、モバイル装置１０からのアクセスに応じて、評価出力処理を開始する。

評価出力処理を開始すると、プロセッサ３１は、モバイル装置１０から商談記録データＤ１を、通信インタフェース３９を介して受信する（Ｓ２１０）。プロセッサ３１は更に、商談記録データＤ１に含まれるユーザＩＤに基づき、当該ユーザＩＤに対応付けられた対象者の音声特徴データを、ストレージ３３から読み出す（Ｓ２２０）。

図５に示すように、ストレージ３３は、ユーザＩＤ毎に、対象者の音声特徴データ及び評価データ群を有する対象者データベースＤ３１を記憶する。音声特徴データは、関連付けられたユーザＩＤに対応する対象者から事前に取得した音声の特徴を表す。

音声特徴データは、商談記録データＤ１内の音声データＤ２に含まれる対象者の音声を識別するために用いられる。従って、音声特徴データは、話者識別用の音声特徴量を表すことができる。

音声特徴データは、音声データＤ２に含まれる音声が、ユーザＩＤに対応する対象者の音声であるか否かを識別するために機械学習された識別モデルのパラメータであってもよい。例えば、識別モデルは、音素パターンがバランスよく配置された文章である音素バランス文を対象者に読み上げさせたときの対象者の音声を教師データとして用いた機械学習により構築される。識別モデルは、入力データの話者が対象者であるか否かを表す値、又は、入力データの話者が対象者である確率を出力するように構成され得る。

評価データ群は、商談毎に、その商談上の対象者の商談行為を評価した結果を表す評価データを有する。評価データは、商談記録データＤ１の受信毎にプロセッサ３１により生成される（詳細後述）。

続くＳ２３０において、プロセッサ３１は、受信した商談記録データＤ１に含まれる音声データＤ２を解析して、音声データＤ２が表す音声を、対象者の音声と、非対象者の音声とに分離する（Ｓ２３０）。

例えば、プロセッサ３１は、図６に示すように、録音期間を、人の音声を含む区間である発話区間と、人の音声を含まない無発話区間と、に分離する。更に、発話区間を、対象者の発話区間である対象者区間と、非対象者の発話区間である非対象者区間とに分類する。

プロセッサ３１は、発話区間毎に、対応する発話区間内の話者を、対応する発話区間の音声データ部分及びＳ２２０で読み出した対象者の音声特徴データに基づき識別することができる。

例えば、プロセッサ３１は、音声特徴データに基づく上記識別モデルに、対応する発話区間の音声データ部分を入力して、識別モデルから、この音声データ部分の話者が対象者であるか否かを表す値を得ることができる。

あるいは、プロセッサ３１は、対応する発話区間内の音声データ部分を分析して、音声特徴量を抽出し、抽出した音声特徴量と、対象者の音声特徴量との比較から、話者が対象者及び非対象者のいずれであるかを判別してもよい。

Ｓ２３０における処理実行後、プロセッサ３１は、図６に示すように、各発話区間のトピックを判別する（Ｓ２４０）。Ｓ２４０において、プロセッサ３１は、発話区間毎に、図７に示す処理を実行することができる。

図７に示す処理において、プロセッサ３１は、対応する発話区間において、ディジタル資料が表示されたか否かを判断する（Ｓ４１０）。プロセッサ３１は、商談記録データＤ１に含まれる表示履歴データＤ３を参照して、対応する発話区間と重複する時間に表示されていたディジタル資料があるか否かを判断することができる。

対応する発話区間の開始時刻及び終了時刻は、音声データＤ２に含まれる録音期間の情報と、音声データＤ２における発話区間の位置とから、判別することができる。プロセッサ３１は、対応する発話区間に占めるディジタル資料の表示時間の割合が所定割合未満である場合、対応する発話区間においてディジタル資料が表示されていないと判断してもよい。

プロセッサ３１は、ディジタル資料が表示されていたと判断すると（Ｓ４１０でＹｅｓ）、表示されていたディジタル資料に基づき、対応する発話区間のトピックを判別する（Ｓ４２０）。プロセッサ３１は、ストレージ３３が記憶する資料関連データベースＤ３２を参照して、表示されていたディジタル資料に対応するトピックを判別することができる。

資料関連データベースＤ３２は、ディジタル資料毎に、ディジタル資料とトピックとの対応関係を表す。例えば、資料関連データベースＤ３２は、図５に示すように、ディジタル資料毎に、資料ＩＤに関連付けて、トピックの識別情報であるトピックＩＤを記憶した構成にされる。

プロセッサ３１は、対応する発話区間の途中で表示対象のディジタル資料が切り替わっている場合には、より長く表示されたディジタル資料に対応するトピックを、対応する発話区間のトピックとして判別することができる（Ｓ４２０）。

一方、ディジタル資料が表示されていないと判断すると（Ｓ４１０でＮｏ）、プロセッサ３１は、対応する発話区間の音声からトピックを判別可能であるか否かを判断する（Ｓ４３０）。

プロセッサ３１は、対応する発話区間の音声からトピックを判別可能であると判断すると（Ｓ４３０でＹｅｓ）、対応する発話区間における音声に含まれるキーワードに基づき、対応する発話区間のトピックを判別する（Ｓ４４０）。本明細書でいうキーワードは、複数の単語の組み合わせで構成されるキーフレーズをも含む広義の意味で解釈されたい。

Ｓ４４０において、プロセッサ３１は、ストレージ３３が記憶するトピックキーワードデータベースＤ３３を参照して、トピックキーワードデータベースＤ３３に登録されたキーワードを、対応する発話区間の音声内で検索する。そして、検索により発見された発話区間内のキーワード群と、トピック毎の登録キーワード群との比較により、対応する発話区間のトピックを判別する。

プロセッサ３１は、音声をテキスト化して生成したテキストデータに基づき、キーワードを検索することができる。音声のテキスト化は、Ｓ４４０において、又は、Ｓ２３０において実行することができる。別例として、プロセッサ３１は、音声データＤ２が示す音声波形から、キーワードに対応する音素列パターンを検出することで、対応する発話区間の音声に含まれるキーワードを検出してもよい。

トピックキーワードデータベースＤ３３は、例えば、トピック毎に、トピックに対応するキーワード群（すなわち、登録キーワード群）を、トピックＩＤに関連付けて記憶した構成にされる。この場合、プロセッサ３１は、発話区間内のキーワード群と最も一致率の高い登録キーワード群に関連付けられたトピックを、発話区間のトピックである判別することができる。

あるいは、プロセッサ３１は、キーワードの組み合わせに関する条件付確率等を用いて統計的見地から最も可能性の高いトピックを、対応する発話区間のトピックとして判別することができる。

プロセッサ３１は、Ｓ４３０において否定判断すると、Ｓ４５０に移行し、対応する発話区間のトピックを、対応する発話区間の一つ前の発話区間と同一のトピックに判別する。

Ｓ４３０の処理に関して詳述すると、プロセッサ３１は、Ｓ４４０での処理でトピックを高精度に判別できるとき、音声からトピックを判別可能であると判断し（Ｓ４３０でＹｅｓ）、それ以外のとき、否定判断することができる（Ｓ４３０でＮｏ）。

例えば、プロセッサ３１は、対応する発話区間における発話音韻数又は抽出可能キーワード数が所定値以上であるときＳ４３０で肯定判断し、所定値未満であるとき、Ｓ４３０で否定判断することができる。

Ｓ２４０において、プロセッサ３１は、対象者区間及び非対象者区間のそれぞれのトピックを、図７に示す処理によって判別することができる。別例として、プロセッサ３１は、対象者区間のトピックを、図７に示す処理によって判別し、非対象者区間のトピックを、その前の発話区間と同一のトピックと判別してもよい。すなわち、プロセッサ３１は、非対象者区間に対するトピック判別に際して、Ｓ４５０の処理のみを実行してもよい。この場合、プロセッサ３１は、録音期間における各発話区間のトピックを、非対象者の発話によらず対象者の発話から判別することになる。

Ｓ２４０で各区間のトピックを判別すると、プロセッサ３１は、その判別結果に基づき、続くＳ２５０において、音声データＤ２に含まれるトピックの一つを処理対象トピックに選択する。その後、プロセッサ３１は、処理対象トピックに関する対象者の商談行為を、複数の側面で個別に評価する（Ｓ２６０−Ｓ２７０）。

具体的に、プロセッサ３１は、Ｓ２６０において、対象者の商談行為を、処理対象トピックに対応する対象者区間、すなわち、対象者が処理対象トピックに関して発話する発話区間での対象者の音声に基づき評価する。プロセッサ３１は、Ｓ２７０において、対象者の商談行為を、処理対象トピックに対応する非対象者区間、すなわち、非対象者が処理対象トピックに関して発話する発話区間での非対象者の音声に基づき評価する。

Ｓ２６０において、プロセッサ３１は、図８に示す第一評価処理を実行することができる。図８において、プロセッサ３１は、第一評価基準データベースＤ３４を参照して、処理対象トピックに対応する評価モデルを読み出す（Ｓ５１０）。

ストレージ３３は、対象者の商談行為を対象者の音声に基づき評価するための情報を含む第一評価基準データベースＤ３４を記憶する。第一評価基準データベースＤ３４は、トピック毎に、対応するトピックＩＤに関連付けて評価モデルを記憶する。

評価モデルは、評価対象区間の発話内容に関する特徴ベクトルから、対象者の発話行為を採点するための数理モデルに対応する。この評価モデルは、教師データの一群を用いた機械学習により構築され得る。教師データのそれぞれは、評価モデルへの入力に対応する上記特徴ベクトル及びスコアのデータセットである。教師データの一群は、トークスクリプトに従う模範的な発話行為に基づく特徴ベクトルと、対応するスコア（例えば満点の１００点）とのデータセットを含むことができる。

特徴ベクトルは、評価対象区間での発話内容全体をベクトル表現したものであり得る。例えば、特徴ベクトルは、評価対象区間の発話内容全体を形態素解析し、各形態素を数値化し配列したものであり得る。

別例として、特徴ベクトルは、評価対象区間の発話内容から抽出されたキーワードの配列であってもよい。配列は、発話順にキーワードを並べたものであり得る。この場合には、図５において破線枠で示すように、第一評価基準データベースＤ３４にトピック毎のキーワードデータを格納することができる。すなわち、第一評価基準データベースＤ３４は、トピック毎に、評価モデルに関連付けて、特徴ベクトルの生成に際して抽出すべきキーワードの一群を定義したキーワードデータを有した構成にされ得る。

続くＳ５２０において、プロセッサ３１は、処理対象トピックに対応する対象者区間の発話内容に基づき、これらの対象者区間における対象者の発話内容に関する特徴ベクトルを、評価モデルへの入力データとして生成する。処理対象トピックに対応する対象者区間が複数ある場合、プロセッサ３１は、これらの複数区間の発話内容をまとめて特徴ベクトルを生成することができる。

Ｓ５２０において、プロセッサ３１は、処理対象トピックに対応する対象者区間の発話内容を形態素解析して、上述した特徴ベクトルを生成することができる。あるいは、プロセッサ３１は、処理対象トピックに対応する対象者区間の発話内容からキーワードデータに登録されたキーワード群を検索及び抽出し、抽出されたキーワード群を配列して特徴ベクトルを生成することができる。

続くＳ５３０において、プロセッサ３１は、Ｓ５１０で読み出した評価モデルに、Ｓ５２０で生成した特徴ベクトルを入力して、評価モデルから、処理対象トピックに対する対象者の発話行為についてのスコアを得る。すなわち、評価モデルを用いて、特徴ベクトルに対応するスコアを算出する。ここで得られるスコアのことを以下では、第一スコアと表現する。第一スコアは、対象者の音声に基づき評価した対象者の商談行為に関する評価値である。

このようにして、プロセッサ３１は、Ｓ２６０で対象者の商談行為を対象者の音声に基づき評価する。続くＳ２７０において、プロセッサ３１は、図９に示す第二評価処理を実行することにより、対象者の商談行為を、処理対象トピックに対応する非対象者区間での非対象者の音声に基づき評価する。

第二評価処理において、プロセッサ３１は、第二評価基準データベースＤ３５を参照して、処理対象トピックに対応するキーワードデータを読み出す（Ｓ６１０）。ストレージ３３は、対象者の商談行為を非対象者の音声に基づき評価するための情報を含む第二評価基準データベースＤ３５を記憶する。

第二評価基準データベースＤ３５は、トピック毎に、対応するトピックＩＤに関連付けてキーワードデータを記憶する。キーワードデータは、対象者の商談行為に対して肯定的なキーワード群と、対象者の商談行為に対して否定的なキーワード群と、を備える。これらのキーワード群には、対象者の商品及び／又は役務の説明に対する反応として、非対象者が発話するキーワード群が含まれる。

続くＳ６２０において、プロセッサ３１は、処理対象トピックに対応する非対象者区間の発話内容から、Ｓ６１０で読み出したキーワードデータに登録された肯定的なキーワード群を検索及び抽出する。続くＳ６３０において、プロセッサ３１は、上記非対象者区間の発話内容から、読み出したキーワードデータに登録された否定的なキーワード群を検索及び抽出する。

更に、プロセッサ３１は、同一区間の非対象者の音声を分析して、非対象者の感情に関する特徴量を算出する。例えば、プロセッサ３１は、感情に関する特徴量として、非対象者の話速、音量、及び音高の少なくとも一つを算出することができる（Ｓ６４０）。感情に関する特徴量は、話速、音量、及び音高の少なくとも一つの変化量を含んでいてもよい。

その後、プロセッサ３１は、Ｓ６２０−Ｓ６４０で得られた情報に基づき、所定の評価式あるいは評価ルールに従って、処理対象トピックに対する対象者の商談行為についてのスコアを算出する（Ｓ６５０）。このスコアの算出により、非対象者の音声から対象者の商談行為が評価される（Ｓ６５０）。以下では、ここで算出されるスコアのことを第二スコアと表現する。第二スコアは、非対象者の音声による反応に基づき評価した対象者の商談行為に関する評価値である。

簡単な例によれば、Ｓ６５０では、標準点に対して、肯定的キーワード数に応じた加点を行い、否定的キーワード数に応じた減点を行うことで、第二スコアを算出することができる。更に、第二スコアは、感情に関する特徴量に応じて補正される。感情に関する特徴量が非対象者の負の感情を示す場合、第二スコアは、減点されるように補正され得る。例えば、話速が閾値より高い場合には、所定量減点するように、第二スコアは補正され得る。

プロセッサ３１は、このようにして処理対象トピックに対する第一スコア及び第二スコアを算出すると（Ｓ２６０，Ｓ２７０）、音声データＤ２に含まれるすべてのトピックを処理対象トピックに選択して、第一スコア及び第二スコアを算出したか否かを判断する（Ｓ２８０）。

処理対象トピックとして未選択のトピックが存在する場合、プロセッサ３１は、Ｓ２８０において否定判断して、Ｓ２５０に移行する。そして、未選択のトピックを、新たな処理対象トピックに選択して、選択した処理対象トピックに対する第一スコア及び第二スコアを算出する（Ｓ２６０，Ｓ２７０）。

プロセッサ３１は、このように音声データＤ２に含まれるトピックのそれぞれに関して第一スコア及び第二スコアを算出する。プロセッサ３１は、すべてのトピックを処理対象トピックに選択して第一スコア及び第二スコアを算出した場合、Ｓ２８０で肯定判断して、Ｓ２９０に移行する。

Ｓ２９０において、プロセッサ３１は、録音期間の音声分布に基づき、対象者の商談行為を評価する。プロセッサ３１は、音声の分布に関する評価値として、会話のキャッチボール率に基づく第三スコアを算出することができる。

キャッチボール率は、例えば発話量比率、具体的には発話音韻数比率であり得る。発話音韻数比率は、録音期間における対象者の発話音韻数Ｎ１と、非対象者の発話音韻数Ｎ２との比Ｎ２／Ｎ１で算出され得る。

別例として、キャッチボール率は、発話時間比率であってもよい。発話時間比率は、録音期間における対象者区間の時間長を足し合わせた対象者発話時間Ｔ１と、録音期間における非対象者区間の時間長を足し合わせた非対象者発話時間Ｔ２との比Ｔ２／Ｔ１で算出され得る。

プロセッサ３１は、発話音韻数比率又は発話時間比率が高いほど高い値を算出するように、所定の評価ルールに従って第三スコアを算出することができる。上記比率が高いことは、非対象者が、対象者の発話行為に対して積極的に応答していることを意味する。

プロセッサ３１は、上記比率だけではなく、対象者と商談相手との発話交代のリズムに基づいて、第三スコアを算出するように構成されてもよい。交代が適切な時間間隔で行われている場合に、第三スコアを高め、そうではない場合に、第三スコアを下げるように、プロセッサ３１は、第三スコアを算出し得る。

Ｓ２９０に続くＳ３００において、プロセッサ３１は、録音期間における対象者の説明の流れに基づき、対象者の商談行為を評価して、対応する評価値として第四スコアを算出する。

第一例として、プロセッサ３１は、録音期間におけるトピックの順序（すなわち、ストーリ展開）が適切であること、録音期間における複数の時間区分（序盤、中盤及び終盤）のそれぞれで適切なトピックに関する説明がなされていること、等を基準に第四スコアを算出することができる。

第二例として、プロセッサ３１は、複数のディジタル資料の表示順序を識別し、ディジタル資料の表示順序に基づいて、第四スコアを算出してもよい。この場合、ディジタル資料の表示順序が模範的な表示順序から乖離するほど第四スコアは低い値で算出され得る。

第三例として、プロセッサ３１は、非対象者区間のそれぞれにおける非対象者の発話内容に基づき、非対象者区間毎に、非対象者が有する課題を推定してもよい。この推定のために、ストレージ３３は、非対象者の発話キーワードと非対象者が有する課題との対応関係を示すデータベースを予め記憶することができる。プロセッサ３１は、このデータベースを参照して、非対象者の発話内容から、具体的には発話キーワードから、非対象者の課題を推定することができる。

第三例において、プロセッサ３１は更に、非対象者区間に続く対象者区間の発話内容に基づき、対象者が非対象者に対して、上記推定した課題に対応する情報を提供しているか否かを判定してもよい。この判定のために、ストレージ３３は、課題毎に、課題と当該課題を有する非対象者に提供すべき課題解決に関連する情報との対応関係を表すデータベースを予め記憶することができる。プロセッサ３１は、このデータベースを参照して、対象者が非対象者に対して、上記推定した課題に対応する情報を提供しているか否かを判定することができる。

第三例において、プロセッサ３１は更に、対象者が非対象者に対して、課題に対応する情報を提供しているか否かに応じて、第四スコアを算出することができる。例えば、プロセッサ３１は、第四スコアとして、対象者が非対象者に上記提供すべき情報を正しく提供した割合に応じた値を算出することができる。

第四例として、プロセッサ３１は、非対象者区間のそれぞれにおける非対象者の発話内容に基づき、非対象者区間毎に、非対象者の反応の種類を判別してもよい。プロセッサ３１は、更に、非対象者区間に続く対象者区間の発話内容に基づき、対象者が予め定められたシナリオに沿って、非対象者の反応に対応した話を非対象者に展開しているか否かを判定してもよい。

この判定のために、ストレージ３３は、非対象者に展開すべき話を、非対象者の反応の種類毎に定義したシナリオデータベースをトピック毎に有していてもよい。プロセッサ３１は、このシナリオデータベースを参照して、非対象者の反応に対応した話を対象者が非対象者に展開しているか否かを判定することができる。プロセッサ３１は、この判定結果に基づき、第四スコアとして、シナリオとの一致度に応じたスコアを算出することができる。

商談の展開としては、（１）顧客が有する課題を探るためにいくつかのトピックを顧客に提供し、（２）トピックに対する反応から顧客が有する課題を推定し、（３）推定される課題の解決に繋がる情報を提供し、（４）商材又は対象者の属する企業が課題解決に貢献することを訴求する展開が考えられる。シナリオデータベースの活用は、このような展開に従って対象者が話を進めているか否かを評価するのに役立つ。

Ｓ３００までの処理を終えると、プロセッサ３１は、これまでの評価結果を記述した評価データを作成して、出力する。プロセッサ３１は、評価データを対応するユーザＩＤに関連付けてストレージ３３に保存することができる。

具体的に、プロセッサ３１は、対象者音声に基づく第一スコア、非対象者音声に基づく第二スコア、音声分布に関する第三スコア、及び、説明の流れに関する第四スコアを記述した評価データを生成することができる。

評価データには、キャッチボール率や、各発話区間で抽出されたキーワード群など、評価に用いられたパラメータが含まれていてもよい。ストレージ３３に保存された評価データは、管理装置５０からのアクセスに応じて、サーバ装置３０から管理装置５０に送信される。

以上に説明した本実施形態の評価システム１によれば、商談上の対象者の発話行為を適切に評価できる。この評価結果は、対象者の商談に関する能力の改善に役立つ。

本実施形態では特に、対象者の音声登録のみで、商談相手の音声登録なしに、記録された混合音声から評価に適切な話者分離を行うことができる（Ｓ２３０）。プロセッサ３１は、登録された対象者の音声の特徴に関する音声特徴データに基づき、音声データＤ２に含まれるマイクロフォン１５からの入力音声を、登録者である対象者の音声と、登録者以外の非対象者の音声とに分離する。

本実施形態では更に、対象者の発話内容によって対象者の商談行為を評価するだけではなく、Ｓ２７０で、非対象者である商談相手の発話内容に基づいて、対象者の商談行為を評価する。

商談相手の発話内容は、対象者が説明する商品及び／又は役務に対する関心の有無に応じて変化する。更に、商談相手の性格や知識等の違いによって、対象者からの説明に対する商談相手の反応はさまざまである。従って、商談相手の発話内容に基づき、対象者の商談行為を評価することは非常に有意義である。

本実施形態では更に、Ｓ２６０及びＳ２７０での評価に際して、トピック毎に異なる評価モデル及び／又はキーワードを用いて、対象者の商談行為を評価している。このような評価は、評価精度の向上に役立つ。

本実施形態のように、商品及び／又は役務の説明に際して商談相手に表示されるディジタル資料を活用して、トピックを判別することも有意義である。ディジタル資料と共に口頭にて説明すべき内容及びディジタル資料に対応するトピックは、通常明確である。このため、ディジタル資料に基づいて、トピックを判別し、対応する評価モデルを用いて、対象者の発話行為を評価することは、適切な評価のために非常に有意義である。

本実施形態では、非対象者の音声から感情に関する特徴量、具体的には話速、音量、及び音高の少なくとも一つを算出して（Ｓ６４０）、これを対象者の商談行為の評価に用いる。非対象者の感情を考慮することは、商談行為の適切な評価に役立つ。良好な会話では、対象者と非対象者とが交互に適切なリズムで発話する。従って、Ｓ２９０でキャッチボール率を評価に用いることも有意義である。

本開示の技術は、上述した実施形態に限定されるものではなく、種々の態様を採り得ることは言うまでもない。例えば、対象者の商談行為に関する評価手法は、上述の実施形態に限定されない。

例えば、Ｓ２６０では、対象者によるキーワードの発話数又は発話頻度に基づき、第一スコアを算出する簡単な評価手法で、各トピックに対する第一スコアを算出してもよい。第一スコアは、キーワードの発話数又は発話頻度そのものであってもよい。

Ｓ２７０でも同様の手法で、非対象者による肯定的キーワードの発話数又は発話頻度に基づき、第二スコアを算出してもよい。第二スコアは、肯定的キーワードの発話数又は発話頻度そのものであってもよい。

Ｓ２７０では、キーワードを用いずに、機械学習された評価モデルを用いて第二スコアを算出してもよい。第二スコアを算出するための評価モデルは、第一スコアを算出するための評価モデルとは別に用意され得る。プロセッサ３１は、評価対象区間における非対象者の音声を形態素解析して作成した特徴ベクトルを、評価モデルに入力して、第二スコアを算出することができる。

評価モデルは、機械学習により生成されてもよいし、機械学習により生成されなくてもよい。例えば、評価モデルは、機械学習により生成された分類器であってもよいし、設計者が定義した単純なスコア算出式であってもよい。

第一スコアを算出するための評価モデル、及び、第二スコアを算出するための評価モデルは、トピック毎に設けられなくてもよい。すなわち、複数のトピックに対して共通する評価モデルが用いられてもよい。

Ｓ２４０では、トピックを判別せずに、Ｓ２６０では、対象者区間毎に、スコア算出及びトピック判別を、評価モデルを用いて同時に行ってもよい。この場合、評価モデルは、入力される特徴ベクトルに対応する発話内容が、対応するトピックに関する発話内容である確率を、複数のトピックのそれぞれに関して出力するように構成されてもよい。

この場合、プロセッサ３１は、確率が最も高いトピックを、対応する区間のトピックと判別することができる。更に、プロセッサ３１は、判別したトピックの上記確率それ自体を、第一スコアとして取り扱うことも可能である。対象者の発話内容が模範的なトークスクリプトに近いほど、確率が高くなるように、評価モデルは構成され得る。

この他、プロセッサ３１は、ディジタル資料を表示しているか否かによって第一スコアを補正してもよい。ディジタル資料を表示していない場合には、第一スコアを減点することが考えられる。プロセッサ３１は、対象者と非対象者との話速の乖離に基づいて、対象者の商談行為を評価してもよい。プロセッサ３１は、乖離が小さいほど、対象者の商談行為を高く評価し得る。

音声及び表示履歴の記録及び送信方法が、上述した実施形態に限定されるものではないことも言うまでもない。例えば、音声の記録及び表示履歴の記録は連動していなくてもよい。例えば、対象者からの音声の記録指示に基づき音声を記録し、対象者からの表示履歴の記録指示に基づき表示履歴を記録するように、評価システム１は構成されてもよい。この場合、音声及び表示を同一時間軸のタイムコードを付して記録することができる。

上記実施形態における１つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、１つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。

１…評価システム、１０…モバイル装置、１１…プロセッサ、１２…メモリ、１３…ストレージ、１５…マイクロフォン、１６…操作デバイス、１７…ディスプレイ、１９…通信インタフェース、３０…サーバ装置、３１…プロセッサ、３２…メモリ、３３…ストレージ、３９…通信インタフェース、５０…管理装置、Ｄ１…商談記録データ、Ｄ２…音声データ、Ｄ３…表示履歴データ、Ｄ３１…対象者データベース、Ｄ３２…資料関連データベース、Ｄ３３…トピックキーワードデータベース、Ｄ３４…第一評価基準データベース、Ｄ３５…第二評価基準データベース。

Claims

第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
を備え、
前記評価部は、前記第一の話者と前記第二の話者との間のトピックに対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価する評価システム。
請求項１記載の評価システムであって、
前記評価部は、前記第一の話者の音声に基づき前記トピックを判別する評価システム。
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
を備え、
前記評価部は、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、前記表示される前記ディジタル資料に対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価する評価システム。
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
を備え、
前記評価部は、複数の評価モデルのうち、前記第一の話者と前記第二の話者との間のトピックに対応する評価モデルに、前記第一の話者の音声に関する特徴データを入力して得られる前記対応する評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価し、
前記複数の評価モデルのそれぞれは、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築される評価システム。
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
を備え、
前記評価部は、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、前記表示される前記ディジタル資料に対応する評価モデルを選択し、前記選択した評価モデルに前記第一の話者の音声に関する特徴データを入力して得られる前記選択した評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価し、
前記複数の評価モデルのそれぞれは、対応するディジタル資料を用いた模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築される評価システム。
請求項１〜請求項５のいずれか一項記載の評価システムであって、
前記第一の話者は、予め音声の特徴が登録された登録者であり、
前記分離部は、登録された前記第一の話者の前記音声の特徴に基づき、前記入力音声を、前記登録者である前記第一の話者の音声と、前記登録者以外の前記第二の話者の音声とに分離する評価システム。
請求項１〜請求項６のいずれか一項記載の評価システムであって、
前記評価部は更に、前記第二の話者の話速、音量、及び音高の少なくとも一つに基づき、前記第一の話者の前記発話行為を評価する評価システム。
請求項１〜請求項７のいずれか一項記載の評価システムであって、
前記評価部は更に、前記第一の話者の音声及び前記第二の話者の音声から判別される前記第一の話者及び前記第二の話者の発話の分布に関する情報に基づき、前記第一の話者の前記発話行為を評価する評価システム。
請求項８記載の評価システムであって、
前記評価部は、前記分布に関する情報としての、前記第一の話者と前記第二の話者との間の発話時間及び発話量の少なくとも一方の比率に基づき、前記第一の話者の前記発話行為を評価する評価システム。
請求項１〜請求項９のいずれか一項記載の評価システムであって、
前記評価部は更に、前記第二の話者の音声に基づき、前記第二の話者が有する課題を推定し、前記第一の話者の音声に基づき、前記第一の話者が前記第二の話者に対して、推定した前記課題に対応する予め定められた情報を提供しているか否かを判定し、当該判定結果に応じて、前記第一の話者の前記発話行為を評価する評価システム。
請求項１〜請求項１０のいずれか一項記載の評価システムであって、
前記評価部は更に、前記第一の話者の音声及び前記第二の話者の音声に基づき、前記第一の話者が予め定められたシナリオに従って、前記第二の話者の反応に対応した話を前記第二の話者に展開しているか否かを判定し、当該判定結果に応じて、前記第一の話者の前記発話行為を評価する評価システム。
請求項１〜請求項１１のいずれか一項記載の評価システムにおける前記取得部、前記分離部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
コンピュータにより実行される評価方法であって、
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
を含み、
前記評価することは、前記第一の話者と前記第二の話者との間のトピックに対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価することを含む評価方法。
請求項１３記載の評価方法であって、
前記評価することは、前記第一の話者の音声に基づき前記トピックを判別することを含む評価方法。
コンピュータにより実行される評価方法であって、
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
を含み、
前記評価することは、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、前記表示される前記ディジタル資料に対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価することを含む評価方法。
コンピュータにより実行される評価方法であって、
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
を含み、
前記評価することは、複数の評価モデルのうち、前記第一の話者と前記第二の話者との間のトピックに対応する評価モデルに、前記第一の話者の音声に関する特徴データを入力して得られる前記対応する評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価することを含み、
前記評価方法は更に、
前記複数の評価モデルのそれぞれを、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築することを含む評価方法。
コンピュータにより実行される評価方法であって、
第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
を含み、
前記評価することは、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、前記表示される前記ディジタル資料に対応する評価モデルを選択し、前記選択した評価モデルに前記第一の話者の音声に関する特徴データを入力して得られる前記選択した評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価することを含み、
前記評価方法は更に、
前記複数の評価モデルのそれぞれを、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築することを含む評価方法。