JP6594577B1 - 評価システム、評価方法、及びコンピュータプログラム。 - Google Patents

評価システム、評価方法、及びコンピュータプログラム。 Download PDF

Info

Publication number
JP6594577B1
JP6594577B1 JP2019061311A JP2019061311A JP6594577B1 JP 6594577 B1 JP6594577 B1 JP 6594577B1 JP 2019061311 A JP2019061311 A JP 2019061311A JP 2019061311 A JP2019061311 A JP 2019061311A JP 6594577 B1 JP6594577 B1 JP 6594577B1
Authority
JP
Japan
Prior art keywords
speaker
voice
evaluation
speech
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019061311A
Other languages
English (en)
Other versions
JP2020160336A (ja
Inventor
浩一郎 山岡
龍 道本
良治 見並
遼真 安永
惇平 井村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hakuhodo DY Holdings Inc
Original Assignee
Hakuhodo DY Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hakuhodo DY Holdings Inc filed Critical Hakuhodo DY Holdings Inc
Priority to JP2019061311A priority Critical patent/JP6594577B1/ja
Application granted granted Critical
Publication of JP6594577B1 publication Critical patent/JP6594577B1/ja
Priority to PCT/JP2020/013642 priority patent/WO2020196743A1/ja
Priority to US17/442,470 priority patent/US20220165276A1/en
Publication of JP2020160336A publication Critical patent/JP2020160336A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/18Book-keeping or economics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

【課題】商談上の混合音声から対象者の発話行為を評価するための技術を提供する。【解決手段】本開示の一側面に係る評価方法では、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声が取得される(S210)。更に、入力音声が、第一の話者の音声と第二の話者の音声とに分離される(S230)。更に、第一の話者の発話行為が、第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価される(S260,S270)。【選択図】図4

Description

本開示は、評価システム、評価方法、及びコンピュータプログラムに関する。
コールセンタのオペレータと顧客との会話を分析し、会話の採点を行うシステムが既に知られている(例えば特許文献1参照)。このシステムでは、会話の音声を、ヘッドセットや電話機を介して取得する。
特開2014−123813号公報
しかしながら、上述の従来技術は、電話によらない対面での会話を評価する目的では、使用することができない。電話を通じたオペレータと顧客との会話では、送話信号及び受話信号が独立して存在する。そのため、発話者個別の音声信号を簡単に取得することができ、入力音声と発話者との対応関係が明確である。一方、対面での会話では、マイクロフォンに、複数人の混合音声が入力される。
そこで、本開示の一側面によれば、商談上の混合音声から対象者の発話行為を評価するための技術を提供できることが望ましい。
本開示の一側面に係る評価システムは、取得部と、分離部と、評価部と、を備える。取得部は、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される。分離部は、取得部により取得された入力音声を、第一の話者の音声と第二の話者の音声とに分離するように構成される。評価部は、第一の話者の発話行為を、分離部により分離された第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価するように構成される。
この評価システムによれば、商談上の混合音声を分離して、第一の話者、例えば商品や役務を売り込む話者の発話行為を適切に評価することができる。
本開示の一側面によれば、第一の話者は、予め音声の特徴が登録された登録者であり得る。分離部は、登録された第一の話者の音声の特徴に基づき、入力音声を、登録者である第一の話者の音声と、登録者以外の第二の話者の音声とに分離するように構成され得る。
商談に参加するすべての話者の音声の特徴を登録することは、多くの場合難しい。対して、評価対象の第一の話者の音声の特徴を事前に登録しておくことは比較的容易である。従って、上述したように混合音声を、登録者の音声と、非登録者の音声とに分離する手法によれば、混合音声を評価に必要な複数成分に比較的簡単に分離することができる。
本開示の一側面によれば、評価部は、第二の話者の音声に基づいて、第一の話者の発話行為を評価してもよい。第二の話者の音声には、第一の話者に対する第二の話者の反応が含まれる。従って、第二の話者の音声に基づいて、第一の話者の発話行為を評価すれば、発話行為が、商談相手に対して適切であるのかを精度よく評価することができる。
本開示の一側面によれば、評価部は、第二の話者の音声に含まれるキーワードに基づき、第一の話者の発話行為を評価してもよい。
本開示の一側面によれば、評価部は、第一の話者と第二の話者との間のトピックに対応するキーワードを第二の話者の音声から抽出し、抽出したキーワードに基づき、第一の話者の発話行為を評価してもよい。トピックに対応するキーワードに基づき発話行為を評価することは、商談相手の反応に基づいて評価対象の話者の発話行為を適切に評価することに役立つ。
本開示の一側面によれば、評価部は、第一の話者の音声に基づきトピックを判別してもよい。
本開示の一側面によれば、評価部は、第一の話者から第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、表示されるディジタル資料に対応するキーワードを第二の話者の音声から抽出してもよい。評価部は、抽出したキーワードに基づき、第一の話者の発話行為を評価してもよい。
商談においては、ディジタル資料が使用されることも多い。そして、使用される資料に応じて商談上適切な発話行為も変化する。従って、ディジタル資料に対応するキーワードに基づく評価は、発話行為をより適切に評価するために有意義である。
本開示の一側面によれば、評価部は、第二の話者の話速、音量、及び音高の少なくとも一つに基づき、第一の話者の発話行為を評価してもよい。第二の話者の話速、音量、及び音高は、第二の話者の情動によって変化する。従って、話速、音量、及び音高の少なくとも一つに基づく評価は、情動を加味した評価を可能にする。
本開示の一側面によれば、評価部は、第一の話者の音声に基づいて、第一の話者の発話行為を評価してもよい。本開示の一側面によれば、評価部は、予め定められた評価モデル用いて、第一の話者の発話行為を評価してもよい。こうした評価システムによれば、評価対象者の商談上の発話行為を適切に評価することができる。
本開示の一側面によれば、評価部は、複数の評価モデルのうち、第一の話者と第二の話者との間のトピックに対応する評価モデルを用いて、第一の話者の発話行為を評価してもよい。トピックに応じて理想的な発話行為は変化し、従って、適切な評価モデルも変化する。従って、トピックに応じた評価モデルに従って発話行為を評価することは非常に有意義である。
本開示の一側面によれば、評価部は、第一の話者から第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、表示されるディジタル資料に対応する評価モデルを用いて、第一の話者の発話行為を評価してもよい。
本開示の一側面によれば、評価部は、第一の話者の音声及び第二の話者の音声から判別される第一の話者及び第二の話者の発話の分布に関する情報に基づき、第一の話者の発話行為を評価してもよい。
本開示の一側面によれば、評価部は、分布に関する情報としての、第一の話者と第二の話者との間の発話時間及び発話量の少なくとも一方の比率に基づき、第一の話者の発話行為を評価してもよい。
多くの場合、第一の話者からの一方的な会話は、第二の話者の無関心に起因する。第二の話者が、第一の話者の話に関心を持つ場合、第二の話者から第一の話者へ質問等の発話が多くなる。従って、上記比率に基づく発話行為の評価は、第一の話者の発話行為の適切な評価を可能にする。
本開示の一側面によれば、評価部は、第二の話者の音声に基づき、第二の話者が有する課題を推定し、第一の話者の音声に基づき、第一の話者が第二の話者に対して、推定した課題に対応する予め定められた情報を提供しているか否かを判定してもよい。評価部は、この判定結果に応じて、第一の話者の発話行為を評価してもよい。
本開示の一側面によれば、評価部は、第一の話者の音声及び第二の話者の音声に基づき、第一の話者が予め定められたシナリオに従って、第二の話者の反応に対応する話を第二の話者に提供しているか否かを判定してもよい。評価部は、この判定結果に応じて、第一の話者の発話行為を評価してもよい。本開示の一側面によれば、上述した評価により、第一の話者の発話行為を、商談の観点で適切に評価することができる。
本開示の一側面によれば、上述した評価システムにおける取得部、分離部、及び評価部としてコンピュータを機能させるためのコンピュータプログラムが提供されてもよい。コンピュータプログラムを記憶するコンピュータ読取可能な非一時的記録媒体が提供されてもよい。
本開示の一側面によれば、コンピュータにより実行される評価方法が提供されてもよい。評価方法は、第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、取得した入力音声を、第一の話者の音声と第二の話者の音声とに分離することと、第一の話者の発話行為を、分離した第一の話者の音声及び第二の話者の音声の少なくとも一方に基づいて評価することと、を含んでいてもよい。評価方法は、上述した評価システムで実行される手順と同様の手順を含んでいてもよい。
評価システムの構成を表す図である。 モバイル装置のプロセッサが実行する記録送信処理を表すフローチャートである。 商談記録データの構成を表す図である。 サーバ装置のプロセッサが実行する評価出力処理を表すフローチャートである。 サーバ装置が記憶する各種データの構成を表す図である。 話者識別及びトピック判別に関する説明図である。 プロセッサが実行するトピック判別処理を表すフローチャートである。 プロセッサが実行する第一評価処理を表すフローチャートである。 プロセッサが実行する第二評価処理を表すフローチャートである。
以下に、本開示の例示的実施形態を、図面を参照しながら説明する。
図1に示す本実施形態の評価システム1は、商談相手に対する対象者の商談行為を評価するためのシステムである。この評価システム1は、商談行為として、商談上での対象者の発話行為を評価するように構成される。
対象者は、例えば、従業員の商談行為に係る評価情報を欲する企業の従業員であり得る。評価システム1は、商談が対象者と商談相手との二人で行われるケースで、特に有効に機能する。商談の例には、医薬品製造会社の従業員と医師との間の医薬に関する商談が含まれる。
評価システム1は、図1に示すように、モバイル装置10と、サーバ装置30と、管理装置50とを備える。モバイル装置10は、対象者により商談が行われる空間に持ち込まれる。モバイル装置10は、例えば、公知のモバイルコンピュータに専用のコンピュータプログラムがインストールされて構成される。
モバイル装置10は、商談時の音声を記録し、更には商談相手に表示されたディジタル資料(例えばスライド)の表示履歴を記録するように構成される。モバイル装置10は、これらの記録動作により生成された音声データD2及び表示履歴データD3を、サーバ装置30に送信するように構成される。
サーバ装置30は、モバイル装置10から受信した音声データD2及び表示履歴データD3に基づき、対象者の商談行為を評価するように構成される。この評価情報は、サーバ装置30が提供する評価サービスを利用する企業の管理装置50に提供される。
モバイル装置10は、プロセッサ11と、メモリ12と、ストレージ13と、マイクロフォン15と、操作デバイス16と、ディスプレイ17と、通信インタフェース19とを備える。
プロセッサ11は、ストレージ13に格納されたコンピュータプログラムに従う処理を実行するように構成される。メモリ12は、RAM及びROM等を含む。ストレージ13は、コンピュータプログラムの他、プロセッサ11による処理に供される各種データを記憶する。
マイクロフォン15は、モバイル装置10の周辺空間において生じる音声を集音し、その音声を電気的な音声信号としてプロセッサ11に入力するように構成される。操作デバイス16は、キーボードやポインティングデバイス等を備え、対象者からの操作信号をプロセッサ11に入力するように構成される。
ディスプレイ17は、プロセッサ11により制御されて、各種情報を表示するように構成される。通信インタフェース19は、広域ネットワークを通じてサーバ装置30と通信可能に構成される。
サーバ装置30は、プロセッサ31と、メモリ32と、ストレージ33と、通信インタフェース39とを備える。プロセッサ31は、ストレージ33に格納されたコンピュータプログラムに従う処理を実行するように構成される。メモリ32は、RAM及びROM等を含む。ストレージ33は、コンピュータプログラム及びプロセッサ31による処理に供される各種データを記憶する。通信インタフェース39は、広域ネットワークを通じてモバイル装置10及び管理装置50と通信可能に構成される。
続いて、モバイル装置10のプロセッサ11が実行する記録送信処理の詳細を、図2を用いて説明する。プロセッサ11は、商談の開始に際して、対応するコンピュータプログラムの実行指示が対象者から操作デバイス16を通じて入力されると、図2に記録送信処理を開始する。
記録送信処理を開始すると、プロセッサ11は、操作デバイス16を通じた商談情報の入力操作を受け付ける(S110)。商談情報には、商談場所及び商談相手を識別可能な情報が含まれる。
プロセッサ11は、この商談情報の入力操作が完了すると、S120に移行し、録音処理を開始する。録音処理では、プロセッサ11は、マイクロフォン15からの入力音声を表す音声データD2をストレージ13に記録するように動作する。
プロセッサ11は、更に、S130に移行し、ディジタル資料の表示履歴の記録処理を開始する。表示履歴の記録処理は、S120で開始される録音処理と並列に実行される。この記録処理において、プロセッサ11は、ディジタル資料をディスプレイ17に表示するタスクの動作を監視することにより、ディスプレイ17に表示されたディジタル資料毎に、資料ID及び表示期間を表すレコードを、ストレージ13に記録するように動作する。ここでいう資料IDは、対応するディジタル資料の識別情報である。
本実施形態では、1つのデータファイル内の各ページのディジタル資料を、異なるディジタル資料と取り扱ってもよい。この場合には、同一データファイルにおける各ページのディジタル資料に異なる資料IDが割り当てられ得る。
プロセッサ11は、録音処理及び表示履歴の記録処理を、操作デバイス16を通じて対象者から終了指示が入力されるまで実行する(S140)。そして、終了指示が入力されると、これらの処理での記録内容を含む商談記録データD1を生成し(S150)、生成した商談記録データD1を、サーバ装置30に送信する(S160)。その後、記録送信処理を終了する。
図3には、商談記録データD1の詳細を示す。商談記録データD1は、ユーザIDと、商談情報と、音声データD2と、表示履歴データD3とを含む。ユーザIDは、モバイル装置10を利用する対象者の識別情報である。商談情報は、S110で対象者から入力された情報に対応する。
音声データD2は、録音処理で録音された音声データ本体と共に、録音期間を表す情報を備える。録音期間を表す情報は、例えば、録音開始日時及び録音時間を表す情報である。表示履歴データD3は、録音時に表示されたディジタル資料毎に、資料ID及び表示期間を表すレコードを含む。
続いて、サーバ装置30のプロセッサ31が実行する評価出力処理の詳細を、図4を用いて説明する。プロセッサ31は、モバイル装置10からのアクセスに応じて、評価出力処理を開始する。
評価出力処理を開始すると、プロセッサ31は、モバイル装置10から商談記録データD1を、通信インタフェース39を介して受信する(S210)。プロセッサ31は更に、商談記録データD1に含まれるユーザIDに基づき、当該ユーザIDに対応付けられた対象者の音声特徴データを、ストレージ33から読み出す(S220)。
図5に示すように、ストレージ33は、ユーザID毎に、対象者の音声特徴データ及び評価データ群を有する対象者データベースD31を記憶する。音声特徴データは、関連付けられたユーザIDに対応する対象者から事前に取得した音声の特徴を表す。
音声特徴データは、商談記録データD1内の音声データD2に含まれる対象者の音声を識別するために用いられる。従って、音声特徴データは、話者識別用の音声特徴量を表すことができる。
音声特徴データは、音声データD2に含まれる音声が、ユーザIDに対応する対象者の音声であるか否かを識別するために機械学習された識別モデルのパラメータであってもよい。例えば、識別モデルは、音素パターンがバランスよく配置された文章である音素バランス文を対象者に読み上げさせたときの対象者の音声を教師データとして用いた機械学習により構築される。識別モデルは、入力データの話者が対象者であるか否かを表す値、又は、入力データの話者が対象者である確率を出力するように構成され得る。
評価データ群は、商談毎に、その商談上の対象者の商談行為を評価した結果を表す評価データを有する。評価データは、商談記録データD1の受信毎にプロセッサ31により生成される(詳細後述)。
続くS230において、プロセッサ31は、受信した商談記録データD1に含まれる音声データD2を解析して、音声データD2が表す音声を、対象者の音声と、非対象者の音声とに分離する(S230)。
例えば、プロセッサ31は、図6に示すように、録音期間を、人の音声を含む区間である発話区間と、人の音声を含まない無発話区間と、に分離する。更に、発話区間を、対象者の発話区間である対象者区間と、非対象者の発話区間である非対象者区間とに分類する。
プロセッサ31は、発話区間毎に、対応する発話区間内の話者を、対応する発話区間の音声データ部分及びS220で読み出した対象者の音声特徴データに基づき識別することができる。
例えば、プロセッサ31は、音声特徴データに基づく上記識別モデルに、対応する発話区間の音声データ部分を入力して、識別モデルから、この音声データ部分の話者が対象者であるか否かを表す値を得ることができる。
あるいは、プロセッサ31は、対応する発話区間内の音声データ部分を分析して、音声特徴量を抽出し、抽出した音声特徴量と、対象者の音声特徴量との比較から、話者が対象者及び非対象者のいずれであるかを判別してもよい。
S230における処理実行後、プロセッサ31は、図6に示すように、各発話区間のトピックを判別する(S240)。S240において、プロセッサ31は、発話区間毎に、図7に示す処理を実行することができる。
図7に示す処理において、プロセッサ31は、対応する発話区間において、ディジタル資料が表示されたか否かを判断する(S410)。プロセッサ31は、商談記録データD1に含まれる表示履歴データD3を参照して、対応する発話区間と重複する時間に表示されていたディジタル資料があるか否かを判断することができる。
対応する発話区間の開始時刻及び終了時刻は、音声データD2に含まれる録音期間の情報と、音声データD2における発話区間の位置とから、判別することができる。プロセッサ31は、対応する発話区間に占めるディジタル資料の表示時間の割合が所定割合未満である場合、対応する発話区間においてディジタル資料が表示されていないと判断してもよい。
プロセッサ31は、ディジタル資料が表示されていたと判断すると(S410でYes)、表示されていたディジタル資料に基づき、対応する発話区間のトピックを判別する(S420)。プロセッサ31は、ストレージ33が記憶する資料関連データベースD32を参照して、表示されていたディジタル資料に対応するトピックを判別することができる。
資料関連データベースD32は、ディジタル資料毎に、ディジタル資料とトピックとの対応関係を表す。例えば、資料関連データベースD32は、図5に示すように、ディジタル資料毎に、資料IDに関連付けて、トピックの識別情報であるトピックIDを記憶した構成にされる。
プロセッサ31は、対応する発話区間の途中で表示対象のディジタル資料が切り替わっている場合には、より長く表示されたディジタル資料に対応するトピックを、対応する発話区間のトピックとして判別することができる(S420)。
一方、ディジタル資料が表示されていないと判断すると(S410でNo)、プロセッサ31は、対応する発話区間の音声からトピックを判別可能であるか否かを判断する(S430)。
プロセッサ31は、対応する発話区間の音声からトピックを判別可能であると判断すると(S430でYes)、対応する発話区間における音声に含まれるキーワードに基づき、対応する発話区間のトピックを判別する(S440)。本明細書でいうキーワードは、複数の単語の組み合わせで構成されるキーフレーズをも含む広義の意味で解釈されたい。
S440において、プロセッサ31は、ストレージ33が記憶するトピックキーワードデータベースD33を参照して、トピックキーワードデータベースD33に登録されたキーワードを、対応する発話区間の音声内で検索する。そして、検索により発見された発話区間内のキーワード群と、トピック毎の登録キーワード群との比較により、対応する発話区間のトピックを判別する。
プロセッサ31は、音声をテキスト化して生成したテキストデータに基づき、キーワードを検索することができる。音声のテキスト化は、S440において、又は、S230において実行することができる。別例として、プロセッサ31は、音声データD2が示す音声波形から、キーワードに対応する音素列パターンを検出することで、対応する発話区間の音声に含まれるキーワードを検出してもよい。
トピックキーワードデータベースD33は、例えば、トピック毎に、トピックに対応するキーワード群(すなわち、登録キーワード群)を、トピックIDに関連付けて記憶した構成にされる。この場合、プロセッサ31は、発話区間内のキーワード群と最も一致率の高い登録キーワード群に関連付けられたトピックを、発話区間のトピックである判別することができる。
あるいは、プロセッサ31は、キーワードの組み合わせに関する条件付確率等を用いて統計的見地から最も可能性の高いトピックを、対応する発話区間のトピックとして判別することができる。
プロセッサ31は、S430において否定判断すると、S450に移行し、対応する発話区間のトピックを、対応する発話区間の一つ前の発話区間と同一のトピックに判別する。
S430の処理に関して詳述すると、プロセッサ31は、S440での処理でトピックを高精度に判別できるとき、音声からトピックを判別可能であると判断し(S430でYes)、それ以外のとき、否定判断することができる(S430でNo)。
例えば、プロセッサ31は、対応する発話区間における発話音韻数又は抽出可能キーワード数が所定値以上であるときS430で肯定判断し、所定値未満であるとき、S430で否定判断することができる。
S240において、プロセッサ31は、対象者区間及び非対象者区間のそれぞれのトピックを、図7に示す処理によって判別することができる。別例として、プロセッサ31は、対象者区間のトピックを、図7に示す処理によって判別し、非対象者区間のトピックを、その前の発話区間と同一のトピックと判別してもよい。すなわち、プロセッサ31は、非対象者区間に対するトピック判別に際して、S450の処理のみを実行してもよい。この場合、プロセッサ31は、録音期間における各発話区間のトピックを、非対象者の発話によらず対象者の発話から判別することになる。
S240で各区間のトピックを判別すると、プロセッサ31は、その判別結果に基づき、続くS250において、音声データD2に含まれるトピックの一つを処理対象トピックに選択する。その後、プロセッサ31は、処理対象トピックに関する対象者の商談行為を、複数の側面で個別に評価する(S260−S270)。
具体的に、プロセッサ31は、S260において、対象者の商談行為を、処理対象トピックに対応する対象者区間、すなわち、対象者が処理対象トピックに関して発話する発話区間での対象者の音声に基づき評価する。プロセッサ31は、S270において、対象者の商談行為を、処理対象トピックに対応する非対象者区間、すなわち、非対象者が処理対象トピックに関して発話する発話区間での非対象者の音声に基づき評価する。
S260において、プロセッサ31は、図8に示す第一評価処理を実行することができる。図8において、プロセッサ31は、第一評価基準データベースD34を参照して、処理対象トピックに対応する評価モデルを読み出す(S510)。
ストレージ33は、対象者の商談行為を対象者の音声に基づき評価するための情報を含む第一評価基準データベースD34を記憶する。第一評価基準データベースD34は、トピック毎に、対応するトピックIDに関連付けて評価モデルを記憶する。
評価モデルは、評価対象区間の発話内容に関する特徴ベクトルから、対象者の発話行為を採点するための数理モデルに対応する。この評価モデルは、教師データの一群を用いた機械学習により構築され得る。教師データのそれぞれは、評価モデルへの入力に対応する上記特徴ベクトル及びスコアのデータセットである。教師データの一群は、トークスクリプトに従う模範的な発話行為に基づく特徴ベクトルと、対応するスコア(例えば満点の100点)とのデータセットを含むことができる。
特徴ベクトルは、評価対象区間での発話内容全体をベクトル表現したものであり得る。例えば、特徴ベクトルは、評価対象区間の発話内容全体を形態素解析し、各形態素を数値化し配列したものであり得る。
別例として、特徴ベクトルは、評価対象区間の発話内容から抽出されたキーワードの配列であってもよい。配列は、発話順にキーワードを並べたものであり得る。この場合には、図5において破線枠で示すように、第一評価基準データベースD34にトピック毎のキーワードデータを格納することができる。すなわち、第一評価基準データベースD34は、トピック毎に、評価モデルに関連付けて、特徴ベクトルの生成に際して抽出すべきキーワードの一群を定義したキーワードデータを有した構成にされ得る。
続くS520において、プロセッサ31は、処理対象トピックに対応する対象者区間の発話内容に基づき、これらの対象者区間における対象者の発話内容に関する特徴ベクトルを、評価モデルへの入力データとして生成する。処理対象トピックに対応する対象者区間が複数ある場合、プロセッサ31は、これらの複数区間の発話内容をまとめて特徴ベクトルを生成することができる。
S520において、プロセッサ31は、処理対象トピックに対応する対象者区間の発話内容を形態素解析して、上述した特徴ベクトルを生成することができる。あるいは、プロセッサ31は、処理対象トピックに対応する対象者区間の発話内容からキーワードデータに登録されたキーワード群を検索及び抽出し、抽出されたキーワード群を配列して特徴ベクトルを生成することができる。
続くS530において、プロセッサ31は、S510で読み出した評価モデルに、S520で生成した特徴ベクトルを入力して、評価モデルから、処理対象トピックに対する対象者の発話行為についてのスコアを得る。すなわち、評価モデルを用いて、特徴ベクトルに対応するスコアを算出する。ここで得られるスコアのことを以下では、第一スコアと表現する。第一スコアは、対象者の音声に基づき評価した対象者の商談行為に関する評価値である。
このようにして、プロセッサ31は、S260で対象者の商談行為を対象者の音声に基づき評価する。続くS270において、プロセッサ31は、図9に示す第二評価処理を実行することにより、対象者の商談行為を、処理対象トピックに対応する非対象者区間での非対象者の音声に基づき評価する。
第二評価処理において、プロセッサ31は、第二評価基準データベースD35を参照して、処理対象トピックに対応するキーワードデータを読み出す(S610)。ストレージ33は、対象者の商談行為を非対象者の音声に基づき評価するための情報を含む第二評価基準データベースD35を記憶する。
第二評価基準データベースD35は、トピック毎に、対応するトピックIDに関連付けてキーワードデータを記憶する。キーワードデータは、対象者の商談行為に対して肯定的なキーワード群と、対象者の商談行為に対して否定的なキーワード群と、を備える。これらのキーワード群には、対象者の商品及び/又は役務の説明に対する反応として、非対象者が発話するキーワード群が含まれる。
続くS620において、プロセッサ31は、処理対象トピックに対応する非対象者区間の発話内容から、S610で読み出したキーワードデータに登録された肯定的なキーワード群を検索及び抽出する。続くS630において、プロセッサ31は、上記非対象者区間の発話内容から、読み出したキーワードデータに登録された否定的なキーワード群を検索及び抽出する。
更に、プロセッサ31は、同一区間の非対象者の音声を分析して、非対象者の感情に関する特徴量を算出する。例えば、プロセッサ31は、感情に関する特徴量として、非対象者の話速、音量、及び音高の少なくとも一つを算出することができる(S640)。感情に関する特徴量は、話速、音量、及び音高の少なくとも一つの変化量を含んでいてもよい。
その後、プロセッサ31は、S620−S640で得られた情報に基づき、所定の評価式あるいは評価ルールに従って、処理対象トピックに対する対象者の商談行為についてのスコアを算出する(S650)。このスコアの算出により、非対象者の音声から対象者の商談行為が評価される(S650)。以下では、ここで算出されるスコアのことを第二スコアと表現する。第二スコアは、非対象者の音声による反応に基づき評価した対象者の商談行為に関する評価値である。
簡単な例によれば、S650では、標準点に対して、肯定的キーワード数に応じた加点を行い、否定的キーワード数に応じた減点を行うことで、第二スコアを算出することができる。更に、第二スコアは、感情に関する特徴量に応じて補正される。感情に関する特徴量が非対象者の負の感情を示す場合、第二スコアは、減点されるように補正され得る。例えば、話速が閾値より高い場合には、所定量減点するように、第二スコアは補正され得る。
プロセッサ31は、このようにして処理対象トピックに対する第一スコア及び第二スコアを算出すると(S260,S270)、音声データD2に含まれるすべてのトピックを処理対象トピックに選択して、第一スコア及び第二スコアを算出したか否かを判断する(S280)。
処理対象トピックとして未選択のトピックが存在する場合、プロセッサ31は、S280において否定判断して、S250に移行する。そして、未選択のトピックを、新たな処理対象トピックに選択して、選択した処理対象トピックに対する第一スコア及び第二スコアを算出する(S260,S270)。
プロセッサ31は、このように音声データD2に含まれるトピックのそれぞれに関して第一スコア及び第二スコアを算出する。プロセッサ31は、すべてのトピックを処理対象トピックに選択して第一スコア及び第二スコアを算出した場合、S280で肯定判断して、S290に移行する。
S290において、プロセッサ31は、録音期間の音声分布に基づき、対象者の商談行為を評価する。プロセッサ31は、音声の分布に関する評価値として、会話のキャッチボール率に基づく第三スコアを算出することができる。
キャッチボール率は、例えば発話量比率、具体的には発話音韻数比率であり得る。発話音韻数比率は、録音期間における対象者の発話音韻数N1と、非対象者の発話音韻数N2との比N2/N1で算出され得る。
別例として、キャッチボール率は、発話時間比率であってもよい。発話時間比率は、録音期間における対象者区間の時間長を足し合わせた対象者発話時間T1と、録音期間における非対象者区間の時間長を足し合わせた非対象者発話時間T2との比T2/T1で算出され得る。
プロセッサ31は、発話音韻数比率又は発話時間比率が高いほど高い値を算出するように、所定の評価ルールに従って第三スコアを算出することができる。上記比率が高いことは、非対象者が、対象者の発話行為に対して積極的に応答していることを意味する。
プロセッサ31は、上記比率だけではなく、対象者と商談相手との発話交代のリズムに基づいて、第三スコアを算出するように構成されてもよい。交代が適切な時間間隔で行われている場合に、第三スコアを高め、そうではない場合に、第三スコアを下げるように、プロセッサ31は、第三スコアを算出し得る。
S290に続くS300において、プロセッサ31は、録音期間における対象者の説明の流れに基づき、対象者の商談行為を評価して、対応する評価値として第四スコアを算出する。
第一例として、プロセッサ31は、録音期間におけるトピックの順序(すなわち、ストーリ展開)が適切であること、録音期間における複数の時間区分(序盤、中盤及び終盤)のそれぞれで適切なトピックに関する説明がなされていること、等を基準に第四スコアを算出することができる。
第二例として、プロセッサ31は、複数のディジタル資料の表示順序を識別し、ディジタル資料の表示順序に基づいて、第四スコアを算出してもよい。この場合、ディジタル資料の表示順序が模範的な表示順序から乖離するほど第四スコアは低い値で算出され得る。
第三例として、プロセッサ31は、非対象者区間のそれぞれにおける非対象者の発話内容に基づき、非対象者区間毎に、非対象者が有する課題を推定してもよい。この推定のために、ストレージ33は、非対象者の発話キーワードと非対象者が有する課題との対応関係を示すデータベースを予め記憶することができる。プロセッサ31は、このデータベースを参照して、非対象者の発話内容から、具体的には発話キーワードから、非対象者の課題を推定することができる。
第三例において、プロセッサ31は更に、非対象者区間に続く対象者区間の発話内容に基づき、対象者が非対象者に対して、上記推定した課題に対応する情報を提供しているか否かを判定してもよい。この判定のために、ストレージ33は、課題毎に、課題と当該課題を有する非対象者に提供すべき課題解決に関連する情報との対応関係を表すデータベースを予め記憶することができる。プロセッサ31は、このデータベースを参照して、対象者が非対象者に対して、上記推定した課題に対応する情報を提供しているか否かを判定することができる。
第三例において、プロセッサ31は更に、対象者が非対象者に対して、課題に対応する情報を提供しているか否かに応じて、第四スコアを算出することができる。例えば、プロセッサ31は、第四スコアとして、対象者が非対象者に上記提供すべき情報を正しく提供した割合に応じた値を算出することができる。
第四例として、プロセッサ31は、非対象者区間のそれぞれにおける非対象者の発話内容に基づき、非対象者区間毎に、非対象者の反応の種類を判別してもよい。プロセッサ31は、更に、非対象者区間に続く対象者区間の発話内容に基づき、対象者が予め定められたシナリオに沿って、非対象者の反応に対応した話を非対象者に展開しているか否かを判定してもよい。
この判定のために、ストレージ33は、非対象者に展開すべき話を、非対象者の反応の種類毎に定義したシナリオデータベースをトピック毎に有していてもよい。プロセッサ31は、このシナリオデータベースを参照して、非対象者の反応に対応した話を対象者が非対象者に展開しているか否かを判定することができる。プロセッサ31は、この判定結果に基づき、第四スコアとして、シナリオとの一致度に応じたスコアを算出することができる。
商談の展開としては、(1)顧客が有する課題を探るためにいくつかのトピックを顧客に提供し、(2)トピックに対する反応から顧客が有する課題を推定し、(3)推定される課題の解決に繋がる情報を提供し、(4)商材又は対象者の属する企業が課題解決に貢献することを訴求する展開が考えられる。シナリオデータベースの活用は、このような展開に従って対象者が話を進めているか否かを評価するのに役立つ。
S300までの処理を終えると、プロセッサ31は、これまでの評価結果を記述した評価データを作成して、出力する。プロセッサ31は、評価データを対応するユーザIDに関連付けてストレージ33に保存することができる。
具体的に、プロセッサ31は、対象者音声に基づく第一スコア、非対象者音声に基づく第二スコア、音声分布に関する第三スコア、及び、説明の流れに関する第四スコアを記述した評価データを生成することができる。
評価データには、キャッチボール率や、各発話区間で抽出されたキーワード群など、評価に用いられたパラメータが含まれていてもよい。ストレージ33に保存された評価データは、管理装置50からのアクセスに応じて、サーバ装置30から管理装置50に送信される。
以上に説明した本実施形態の評価システム1によれば、商談上の対象者の発話行為を適切に評価できる。この評価結果は、対象者の商談に関する能力の改善に役立つ。
本実施形態では特に、対象者の音声登録のみで、商談相手の音声登録なしに、記録された混合音声から評価に適切な話者分離を行うことができる(S230)。プロセッサ31は、登録された対象者の音声の特徴に関する音声特徴データに基づき、音声データD2に含まれるマイクロフォン15からの入力音声を、登録者である対象者の音声と、登録者以外の非対象者の音声とに分離する。
本実施形態では更に、対象者の発話内容によって対象者の商談行為を評価するだけではなく、S270で、非対象者である商談相手の発話内容に基づいて、対象者の商談行為を評価する。
商談相手の発話内容は、対象者が説明する商品及び/又は役務に対する関心の有無に応じて変化する。更に、商談相手の性格や知識等の違いによって、対象者からの説明に対する商談相手の反応はさまざまである。従って、商談相手の発話内容に基づき、対象者の商談行為を評価することは非常に有意義である。
本実施形態では更に、S260及びS270での評価に際して、トピック毎に異なる評価モデル及び/又はキーワードを用いて、対象者の商談行為を評価している。このような評価は、評価精度の向上に役立つ。
本実施形態のように、商品及び/又は役務の説明に際して商談相手に表示されるディジタル資料を活用して、トピックを判別することも有意義である。ディジタル資料と共に口頭にて説明すべき内容及びディジタル資料に対応するトピックは、通常明確である。このため、ディジタル資料に基づいて、トピックを判別し、対応する評価モデルを用いて、対象者の発話行為を評価することは、適切な評価のために非常に有意義である。
本実施形態では、非対象者の音声から感情に関する特徴量、具体的には話速、音量、及び音高の少なくとも一つを算出して(S640)、これを対象者の商談行為の評価に用いる。非対象者の感情を考慮することは、商談行為の適切な評価に役立つ。良好な会話では、対象者と非対象者とが交互に適切なリズムで発話する。従って、S290でキャッチボール率を評価に用いることも有意義である。
本開示の技術は、上述した実施形態に限定されるものではなく、種々の態様を採り得ることは言うまでもない。例えば、対象者の商談行為に関する評価手法は、上述の実施形態に限定されない。
例えば、S260では、対象者によるキーワードの発話数又は発話頻度に基づき、第一スコアを算出する簡単な評価手法で、各トピックに対する第一スコアを算出してもよい。第一スコアは、キーワードの発話数又は発話頻度そのものであってもよい。
S270でも同様の手法で、非対象者による肯定的キーワードの発話数又は発話頻度に基づき、第二スコアを算出してもよい。第二スコアは、肯定的キーワードの発話数又は発話頻度そのものであってもよい。
S270では、キーワードを用いずに、機械学習された評価モデルを用いて第二スコアを算出してもよい。第二スコアを算出するための評価モデルは、第一スコアを算出するための評価モデルとは別に用意され得る。プロセッサ31は、評価対象区間における非対象者の音声を形態素解析して作成した特徴ベクトルを、評価モデルに入力して、第二スコアを算出することができる。
評価モデルは、機械学習により生成されてもよいし、機械学習により生成されなくてもよい。例えば、評価モデルは、機械学習により生成された分類器であってもよいし、設計者が定義した単純なスコア算出式であってもよい。
第一スコアを算出するための評価モデル、及び、第二スコアを算出するための評価モデルは、トピック毎に設けられなくてもよい。すなわち、複数のトピックに対して共通する評価モデルが用いられてもよい。
S240では、トピックを判別せずに、S260では、対象者区間毎に、スコア算出及びトピック判別を、評価モデルを用いて同時に行ってもよい。この場合、評価モデルは、入力される特徴ベクトルに対応する発話内容が、対応するトピックに関する発話内容である確率を、複数のトピックのそれぞれに関して出力するように構成されてもよい。
この場合、プロセッサ31は、確率が最も高いトピックを、対応する区間のトピックと判別することができる。更に、プロセッサ31は、判別したトピックの上記確率それ自体を、第一スコアとして取り扱うことも可能である。対象者の発話内容が模範的なトークスクリプトに近いほど、確率が高くなるように、評価モデルは構成され得る。
この他、プロセッサ31は、ディジタル資料を表示しているか否かによって第一スコアを補正してもよい。ディジタル資料を表示していない場合には、第一スコアを減点することが考えられる。プロセッサ31は、対象者と非対象者との話速の乖離に基づいて、対象者の商談行為を評価してもよい。プロセッサ31は、乖離が小さいほど、対象者の商談行為を高く評価し得る。
音声及び表示履歴の記録及び送信方法が、上述した実施形態に限定されるものではないことも言うまでもない。例えば、音声の記録及び表示履歴の記録は連動していなくてもよい。例えば、対象者からの音声の記録指示に基づき音声を記録し、対象者からの表示履歴の記録指示に基づき表示履歴を記録するように、評価システム1は構成されてもよい。この場合、音声及び表示を同一時間軸のタイムコードを付して記録することができる。
上記実施形態における1つの構成要素が有する機能は、複数の構成要素に分散して設けられてもよい。複数の構成要素が有する機能は、1つの構成要素に統合されてもよい。上記実施形態の構成の一部は、省略されてもよい。上記実施形態の構成の少なくとも一部は、他の上記実施形態の構成に対して付加又は置換されてもよい。特許請求の範囲に記載の文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。
1…評価システム、10…モバイル装置、11…プロセッサ、12…メモリ、13…ストレージ、15…マイクロフォン、16…操作デバイス、17…ディスプレイ、19…通信インタフェース、30…サーバ装置、31…プロセッサ、32…メモリ、33…ストレージ、39…通信インタフェース、50…管理装置、D1…商談記録データ、D2…音声データ、D3…表示履歴データ、D31…対象者データベース、D32…資料関連データベース、D33…トピックキーワードデータベース、D34…第一評価基準データベース、D35…第二評価基準データベース。

Claims (17)

  1. 第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
    前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
    前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
    を備え
    前記評価部は、前記第一の話者と前記第二の話者との間のトピックに対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価する評価システム。
  2. 請求項記載の評価システムであって、
    前記評価部は、前記第一の話者の音声に基づき前記トピックを判別する評価システム。
  3. 第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
    前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
    前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
    を備え、
    前記評価部は、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、前記表示される前記ディジタル資料に対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価する評価システム。
  4. 第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
    前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
    前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
    を備え、
    前記評価部は、複数の評価モデルのうち、前記第一の話者と前記第二の話者との間のトピックに対応する評価モデルに、前記第一の話者の音声に関する特徴データを入力して得られる前記対応する評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価し、
    前記複数の評価モデルのそれぞれは、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築される評価システム。
  5. 第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得するように構成される取得部と、
    前記取得部により取得された前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離するように構成される分離部と、
    前記第一の話者の発話行為を、前記分離部により分離された前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価するように構成される評価部と、
    を備え、
    前記評価部は、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、前記表示される前記ディジタル資料に対応する評価モデルを選択し、前記選択した評価モデルに前記第一の話者の音声に関する特徴データを入力して得られる前記選択した評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価し、
    前記複数の評価モデルのそれぞれは、対応するディジタル資料を用いた模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築される評価システム。
  6. 請求項1〜請求項5のいずれか一項記載の評価システムであって、
    前記第一の話者は、予め音声の特徴が登録された登録者であり、
    前記分離部は、登録された前記第一の話者の前記音声の特徴に基づき、前記入力音声を、前記登録者である前記第一の話者の音声と、前記登録者以外の前記第二の話者の音声とに分離する評価システム。
  7. 請求項1〜請求項のいずれか一項記載の評価システムであって、
    前記評価部は更に、前記第二の話者の話速、音量、及び音高の少なくとも一つに基づき、前記第一の話者の前記発話行為を評価する評価システム。
  8. 請求項1〜請求項のいずれか一項記載の評価システムであって、
    前記評価部は更に、前記第一の話者の音声及び前記第二の話者の音声から判別される前記第一の話者及び前記第二の話者の発話の分布に関する情報に基づき、前記第一の話者の前記発話行為を評価する評価システム。
  9. 請求項記載の評価システムであって、
    前記評価部は、前記分布に関する情報としての、前記第一の話者と前記第二の話者との間の発話時間及び発話量の少なくとも一方の比率に基づき、前記第一の話者の前記発話行為を評価する評価システム。
  10. 請求項1〜請求項のいずれか一項記載の評価システムであって、
    前記評価部は更に、前記第二の話者の音声に基づき、前記第二の話者が有する課題を推定し、前記第一の話者の音声に基づき、前記第一の話者が前記第二の話者に対して、推定した前記課題に対応する予め定められた情報を提供しているか否かを判定し、当該判定結果に応じて、前記第一の話者の前記発話行為を評価する評価システム。
  11. 請求項1〜請求項10のいずれか一項記載の評価システムであって、
    前記評価部は更に、前記第一の話者の音声及び前記第二の話者の音声に基づき、前記第一の話者が予め定められたシナリオに従って、前記第二の話者の反応に対応した話を前記第二の話者に展開しているか否かを判定し、当該判定結果に応じて、前記第一の話者の前記発話行為を評価する評価システム。
  12. 請求項1〜請求項11のいずれか一項記載の評価システムにおける前記取得部、前記分離部、及び前記評価部としてコンピュータを機能させるためのコンピュータプログラム。
  13. コンピュータにより実行される評価方法であって、
    第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
    前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
    前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
    を含み、
    前記評価することは、前記第一の話者と前記第二の話者との間のトピックに対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価することを含む評価方法。
  14. 請求項13記載の評価方法であって、
    前記評価することは、前記第一の話者の音声に基づき前記トピックを判別することを含む評価方法。
  15. コンピュータにより実行される評価方法であって、
    第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
    前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
    前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
    を含み、
    前記評価することは、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、前記表示される前記ディジタル資料に対応するキーワードを前記第二の話者の音声から抽出し、前記抽出したキーワードに基づき、前記第一の話者の前記発話行為を評価することを含む評価方法。
  16. コンピュータにより実行される評価方法であって、
    第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
    前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
    前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
    を含み、
    前記評価することは、複数の評価モデルのうち、前記第一の話者と前記第二の話者との間のトピックに対応する評価モデルに、前記第一の話者の音声に関する特徴データを入力して得られる前記対応する評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価することを含み、
    前記評価方法は更に、
    前記複数の評価モデルのそれぞれを、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築することを含む評価方法。
  17. コンピュータにより実行される評価方法であって、
    第一の話者と第二の話者との間の商談上の音声を集音するマイクロフォンからの入力音声を取得することと、
    前記取得した前記入力音声を、前記第一の話者の音声と前記第二の話者の音声とに分離することと、
    前記第一の話者の発話行為を、前記分離した前記第一の話者の音声及び前記第二の話者の音声の少なくとも一方に基づいて評価することと、
    を含み、
    前記評価することは、前記第一の話者から前記第二の話者に向けてディジタル機器を通じて表示されるディジタル資料の識別情報に基づき、複数の評価モデルのうち、前記表示される前記ディジタル資料に対応する評価モデルを選択し、前記選択した評価モデルに前記第一の話者の音声に関する特徴データを入力して得られる前記選択した評価モデルからの出力に基づき、前記第一の話者の前記発話行為を評価することを含み、
    前記評価方法は更に、
    前記複数の評価モデルのそれぞれを、対応するトピックの模範的な発話行為に関する特徴データを教師データとして用いた機械学習により構築することを含む評価方法。
JP2019061311A 2019-03-27 2019-03-27 評価システム、評価方法、及びコンピュータプログラム。 Active JP6594577B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019061311A JP6594577B1 (ja) 2019-03-27 2019-03-27 評価システム、評価方法、及びコンピュータプログラム。
PCT/JP2020/013642 WO2020196743A1 (ja) 2019-03-27 2020-03-26 評価システム及び評価方法
US17/442,470 US20220165276A1 (en) 2019-03-27 2020-03-26 Evaluation system and evaluation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019061311A JP6594577B1 (ja) 2019-03-27 2019-03-27 評価システム、評価方法、及びコンピュータプログラム。

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019173105A Division JP7160778B2 (ja) 2019-09-24 2019-09-24 評価システム、評価方法、及びコンピュータプログラム。

Publications (2)

Publication Number Publication Date
JP6594577B1 true JP6594577B1 (ja) 2019-10-23
JP2020160336A JP2020160336A (ja) 2020-10-01

Family

ID=68314123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019061311A Active JP6594577B1 (ja) 2019-03-27 2019-03-27 評価システム、評価方法、及びコンピュータプログラム。

Country Status (3)

Country Link
US (1) US20220165276A1 (ja)
JP (1) JP6594577B1 (ja)
WO (1) WO2020196743A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7462595B2 (ja) * 2021-08-11 2024-04-05 アフラック生命保険株式会社 人材育成支援システム、連携支援システム、方法及びコンピュータプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030144900A1 (en) * 2002-01-28 2003-07-31 Whitmer Michael L. Method and system for improving enterprise performance
JP4728868B2 (ja) * 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
JP2010230829A (ja) * 2009-03-26 2010-10-14 Toshiba Corp 音声監視装置、その方法、及び、そのプログラム
JP2011113442A (ja) * 2009-11-30 2011-06-09 Seiko Epson Corp 会計処理判定装置、会計処理判定装置の制御方法およびプログラム
JP2011221683A (ja) * 2010-04-07 2011-11-04 Seiko Epson Corp 接客支援装置、接客支援方法およびプログラム
JP5244945B2 (ja) * 2011-06-29 2013-07-24 みずほ情報総研株式会社 資料表示システム、資料表示方法及び資料表示プログラム
JP5329610B2 (ja) * 2011-07-22 2013-10-30 みずほ情報総研株式会社 説明支援システム、説明支援方法及び説明支援プログラム
JP5855290B2 (ja) * 2014-06-16 2016-02-09 パナソニックIpマネジメント株式会社 接客評価装置、接客評価システム及び接客評価方法
JP6502685B2 (ja) * 2015-01-29 2019-04-17 Nttテクノクロス株式会社 通話内容分析表示装置、通話内容分析表示方法、及びプログラム
US10387573B2 (en) * 2015-06-01 2019-08-20 AffectLayer, Inc. Analyzing conversations to automatically identify customer pain points
JP6751305B2 (ja) * 2016-03-28 2020-09-02 株式会社富士通エフサス 分析装置、分析方法および分析プログラム
JP2018041120A (ja) * 2016-09-05 2018-03-15 富士通株式会社 業務評価方法、業務評価装置および業務評価プログラム
JP6733452B2 (ja) * 2016-09-21 2020-07-29 富士通株式会社 音声分析プログラム、音声分析装置、及び音声分析方法
JP6977323B2 (ja) * 2017-06-14 2021-12-08 ヤマハ株式会社 歌唱音声の出力方法、音声応答システム、及びプログラム
US11223723B2 (en) * 2017-10-23 2022-01-11 Accenture Global Solutions Limited Call center system having reduced communication latency
US10867610B2 (en) * 2018-05-04 2020-12-15 Microsoft Technology Licensing, Llc Computerized intelligent assistant for conferences

Also Published As

Publication number Publication date
JP2020160336A (ja) 2020-10-01
WO2020196743A1 (ja) 2020-10-01
US20220165276A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
JP6755304B2 (ja) 情報処理装置
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
JP7160778B2 (ja) 評価システム、評価方法、及びコンピュータプログラム。
JP6084654B2 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
US10652286B1 (en) Constraint based communication sessions
JP2017009826A (ja) グループ状態判定装置およびグループ状態判定方法
JP7132090B2 (ja) 対話システム、対話装置、対話方法、及びプログラム
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
JP2017010309A (ja) 意思決定支援装置および意思決定支援方法
CN113314119B (zh) 语音识别智能家居控制方法及装置
JP5045486B2 (ja) 対話装置及びプログラム
CN111429157A (zh) 投诉工单的评价处理方法、装置、设备及存储介质
JP5309070B2 (ja) マルチモーダル対話装置
US10699224B2 (en) Conversation member optimization apparatus, conversation member optimization method, and program
JP2021124530A (ja) 情報処理装置、情報処理方法及びプログラム
JP6594577B1 (ja) 評価システム、評価方法、及びコンピュータプログラム。
US11615787B2 (en) Dialogue system and method of controlling the same
JP6365304B2 (ja) 会話分析装置及び会話分析方法
JP5803617B2 (ja) 音声情報解析装置および音声情報解析プログラム
CN111933107A (zh) 语音识别方法、装置、存储介质和处理器
CN110765242A (zh) 一种客服信息的提供方法,装置及系统
CN110099332B (zh) 一种音频环境展示方法及装置
JP7177348B2 (ja) 音声認識装置、音声認識方法およびプログラム
CN114328867A (zh) 一种人机对话中智能打断的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190327

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190327

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190924

R150 Certificate of patent or registration of utility model

Ref document number: 6594577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250