JP2021076845A

JP2021076845A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2021076845A
Application number: JP2020187007A
Authority: JP
Inventors: 貴明下地; Takaaki Shimoji; 真史諏訪; Masashi Suwa; 裕介中野; Yusuke Nakano; 惠介許; Xiaodong Wang
Original assignee: Empath Inc; Empath Inc Japan
Current assignee: Empath Inc; Empath Inc Japan
Priority date: 2019-11-12
Filing date: 2020-11-10
Publication date: 2021-05-20

Abstract

【課題】より効果的に話者の評価を推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置（サーバ５）のＣＰＵ５００Ｃは、第1話者及び第２話者の会話の音声データから会話の終了時を検出する終点検出部と、終点検出部で検出した会話の終了時以前の所定期間又は所定回数の発話を含む音声データを取得する音声データ取得部と、音声データ取得部で取得した音声データを解析し、第１話者による第２話者の評価を推定する推定部と、を備える。【選択図】図４

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

今日、コールセンタでは、顧客からの電話を受けることを主体としたインバウンド業務と、コールセンタから積極的に電話をかけるアウトバウンド業務とを兼ね備えていることが多い。そのため、コールセンタは、単なる企業の問い合わせ窓口にとどまらず、企業の営業活動の一環ともなっている。このように、コールセンタの重要性はますます高まっている。

このため、従来から、コールセンタのオペレータの会話を分析して評価することが行われている。例えば、特許文献１には、コールセンタのオペレータと顧客の会話の音声を分析する音声分析部と、評価パラメータを入力し、前記コールセンタの特徴に合わせて、前記評価パラメータを使って評価基準を設定する評価パラメータ入力部と、前記音声分析部による分析結果と、前記評価基準とを基に、前記会話の採点を行う自動採点部とを備えることを特徴とするオペレータ対顧客会話自動採点装置が提案されている。

特開２０１５−０７０３２６号公報

しかしながら、従来の発明では、オペレータと顧客との会話を全て解析する必要があり、解析に時間がかかるという問題がある。

本発明は、上記課題を鑑みてなされたものであり、より効果的に話者の評価を推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

上記の課題を解決すべく、本発明の情報処理装置は、情報処理装置は、第1話者及び第２話者の会話の音声データから会話の終了時を検出する検出部と、検出部で検出された会話の終了時以前の所定期間又は所定数の発話を含む音声データを取得する音声データ取得部と、音声データ取得部で取得された音声データを解析し、第１話者による第２話者の評価を推定する推定部と、を備える。

本発明によれば、より効果的に話者の評価を推定できる情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。

実施形態に係る情報処理システムの概略構成の一例を示す図である。実施形態に係るＯＰ端末の構成の一例を示す図である。実施形態に係るＳＶ端末の構成の一例を示す図である。実施形態に係るサーバの構成の一例を示す図である。実施形態に係るサーバの記憶装置に格納されるデータベースの一例を示す図である。実施形態に係る情報処理システムによるメイン処理の一例を示すフローチャートである。実施形態に係る情報処理システムによる音声データ取得処理の一例を示すフローチャートである。実施形態に係る情報処理システムによる感情解析処理の一例を示すフローチャートである。実施形態に係る情報処理システムによる評価推定処理の一例を示すフローチャートである。実施形態に係る情報処理システムによるフィードバック処理の一例を示すフローチャートである。実施形態で利用する音声データを説明する図である。実施例における時間と正答率との関係を示すグラフの一例である。実施例における時間と正答率との関係を示すグラフの一例である。実施例における発話数と正答率との関係を示すグラフの一例である。実施例における発話数と正答率との関係を示すグラフの一例である。

以下、図面を参照して本発明の実施形態について説明する。なお、以下の実施形態では、本発明をコールセンタに適用した例について説明しているが、本発明は、コールセンタに限られず適用可能である。

[実施形態]
（情報処理システム１の構成）
図１に示すように、実施形態の情報処理システム１は、顧客ＣＳ（第１話者）の通話端末２Ａから公衆網７を介して接続されるＩＰ−ＰＢＸ（Internet Protocol−Private Branch eXchange、ＩＰ回線対応構内交換機）装置６（以下、ＰＢＸ装置６ともいう）がネットワーク８を介して、オペレータＯＰ（第２話者）の通話端末２Ｂと接続し通話をする構成を有する。また、ネットワーク８には、オペレータ用端末３（以下、ＯＰ端末３ともいう）、スーパーバイザー用端末４（以下、ＳＶ端末４ともいう）及びサーバ５（情報処理装置）が通信可能に接続されている。なお、情報処理システム１が具備する通話端末２Ａ，２Ｂ、ＯＰ端末３、ＳＶ端末４、サーバ５及びＰＢＸ装置６の数は任意である。

（ＯＰ端末３の構成）
ＯＰ端末３は、オペレータＯＰが利用する端末であり、例えば、デスクトップ型ＰＣやノート型ＰＣなどである。図２（ａ）に示すように、ＯＰ端末３は、通信ＩＦ３００Ａ、記憶装置３００Ｂ、入力装置３００Ｃ、表示装置３００Ｄ及びＣＰＵ３００Ｅを備える。

通信ＩＦ３００Ａは、他の装置と通信するためのインターフェースである。

記憶装置３００Ｂは、例えば、ＨＤＤ（Hard Disk Drive）や半導体記憶装置（ＳＳＤ(Solid State Drive)）であり、例えば、情報処理プログラムや端末ＩＤなどが記憶されている。なお、端末ＩＤは、ＯＰ端末３を識別するための識別子である。ＯＰ端末３から送信する情報に端末ＩＤを付与することで、サーバ５は、受信した情報がどのＯＰ端末３から送信されたものであるかを判定することができる。なお、端末ＩＤは、ＩＰ（Internet Protocol）アドレス、ＭＡＣ（Media Access Control）アドレスなどを利用してもよく、サーバ５がＯＰ端末３に対して付与するようにしてもよい。

入力装置３００Ｃは、例えば、キーボード、マウスなどの入力デバイスであるが、入力可能であれば、他の装置や機器（例えば、タッチパネル）であってもよい。

表示装置３００Ｄは、例えば、液晶ディスプレイ、プラズマディスプレイ、有機ＥＬディスプレイなどであるが、表示可能であれば他の装置や機器（例えば、ＣＲＴ：Cathode Ray Tube）であってもよい。

ＣＰＵ３００Ｅは、ＯＰ端末３を制御する。ＣＰＵ３００Ｅは、図示しないＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備えている。

本実施形態では、ＯＰ端末３が記憶装置３００Ｂを備える構成となっているが、ネットワーク８を介して接続された他の装置（例えば、サーバ）が記憶装置３００Ｂの全部又はその一部を備える構成であってもよい。この場合、ＯＰ端末３は、他の装置が備える記憶装置３００Ｂを参照する。また、ネットワーク８を介して接続された他の装置から情報処理プログラムをダウンロード可能に構成されていてもよい。

（ＯＰ端末３の機能構成）
図２（ｂ）に示すように、ＯＰ端末３は、受信部３０１、記憶装置制御部３０２、入力受付部３０３、表示装置制御部３０４及び送信部３０５などの機能を有する。

受信部３０１は、サーバ５から送信される情報を受信する。

記憶装置制御部３０２は、記憶装置３００Ｂを制御する。具体的には、記憶装置制御部３０２は、記憶装置３００Ｂを制御して情報の書き込みや読み出しを行う。

入力受付部３０３は、オペレータＯＰによる入力装置３００Ｃからの入力操作を受け付ける。

表示装置制御部３０４は、表示装置３００Ｄを制御する。

送信部３０５は、入力受付部３０３で受け付けた入力操作の情報をサーバ５へと送信する。

（ＳＶ端末４の構成）
ＳＶ端末４は、オペレータＯＰの管理者であるスーパーバイザーＳＶが利用する端末であり、携帯可能なタブレット型ＰＣなどであることが好ましい。ＳＶ端末４を携帯可能なタブレット型ＰＣとすることにより、スーパーバイザーＳＶは、ＳＶ端末４を持ち歩いてコールセンタ内を巡回することができ利便性に優れる。なお、ＳＶ端末４は、携帯可能であれば、タブレット型ＰＣ以外のデバイスであってもよい。

図３（ａ）に示すように、ＳＶ端末４は、通信ＩＦ４００Ａ、記憶装置４００Ｂ、入力装置４００Ｃ、表示装置４００Ｄ及びＣＰＵ４００Ｅを備える。

通信ＩＦ４００Ａは、他の装置と通信するためのインターフェースである。

記憶装置４００Ｂは、例えば、ＨＤＤ（Hard Disk Drive）や半導体記憶装置（ＳＳＤ(Solid State Drive)）であり、例えば、情報処理プログラムや端末ＩＤなどが記憶されている。なお、端末ＩＤは、ＳＶ端末４を識別するための識別子である。ＳＶ端末４から送信する情報に端末ＩＤを付与することで、サーバ５は、受信した情報がどのＳＶ端末４から送信されたものであるかを判定することができる。なお、端末ＩＤは、ＩＰ（Internet Protocol）アドレス、ＭＡＣ（Media Access Control）アドレスなどを利用してもよく、サーバ５がＳＶ端末４に対して付与するようにしてもよい。

入力装置４００Ｃは、例えば、タッチパネルなどの入力デバイスであるが、入力可能であれば、他の装置や機器（例えば、キーボード）であってもよい。

表示装置４００Ｄは、例えば、液晶ディスプレイ、プラズマディスプレイ、有機ＥＬディスプレイなどであるが、表示可能であれば他の装置や機器であってもよい。

ＣＰＵ４００Ｅは、ＳＶ端末４を制御する。ＣＰＵ４００Ｅは、図示しないＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備えている。

本実施形態では、ＳＶ端末４が記憶装置４００Ｂを備える構成となっているが、ネットワーク８を介して接続された他の装置（例えば、サーバ）が記憶装置４００Ｂの全部又はその一部を備える構成であってもよい。この場合、ＳＶ端末４は、他のサーバが備える記憶装置４００Ｂを参照する。また、ネットワーク８を介して接続された他のサーバから情報処理プログラムをダウンロード可能に構成されていてもよい。

（ＳＶ端末４の機能構成）
図３（ｂ）に示すように、ＳＶ端末４は、受信部４０１、記憶装置制御部４０２、入力受付部４０３、表示装置制御部４０４及び送信部４０５などの機能を有する。

受信部４０１は、サーバ５から送信される情報を受信する。

記憶装置制御部４０２は、記憶装置４００Ｂを制御する。具体的には、記憶装置制御部３０２は、記憶装置４００Ｂを制御して情報の書き込みや読み出しを行う。

入力受付部４０３は、入力装置４００Ｃによる入力操作を受け付ける。

表示装置制御部４０４は、表示装置４００Ｄを制御する。

送信部４０５は、入力受付部４０３で受け付けた入力操作の情報をサーバ５へと送信する。

（サーバ５の構成）
図４（ａ）に示すように、サーバ５は、通信ＩＦ５００Ａ、記憶装置５００Ｂ、ＣＰＵ５００Ｃを備える。

通信ＩＦ５００Ａは、他の装置と通信するためのインターフェースである。

記憶装置５００Ｂは、例えば、ＨＤＤ（Hard Disk Drive）や半導体記憶装置（ＳＳＤ(Solid State Drive)）であり、各種データベース（以下、ＤＢともいう）や情報処理プログラムなどが記憶されている。なお、記憶装置５００Ｂは、情報（データ）の書き込み、読み出しが可能であれば、他の装置や機器であってもよい。なお、本実施形態では、サーバ５が記憶装置５００Ｂを備えているが、コンピュータ読み取り可能な外部記憶媒体（例えば、ＵＳＢメモリや外付けＨＤＤ）に格納されていてもよいし、ネットワーク８を介して他のコンピュータやサーバなどから読出可能及び／又は書込可能に構成されていてもよい。

（記憶装置）
図５は、サーバ５の記憶装置５００Ｂに格納されるデータベースの一例を示す図である。記憶装置５００Ｂには、顧客ＤＢ１〜評価推定用ＤＢ４、アンケート用のフォーマットデータ（以下、単にアンケート情報という）、情報処理プログラムなどが格納されている。以下、各ＤＢに記憶されている情報について説明する。なお、本実施形態では、記憶装置５００Ｂに顧客ＤＢ１〜評価推定用ＤＢ４が格納された構成となっているが、必ずしもＤＢ構造として記憶装置５００Ｂに格納されている必要はない。

（顧客ＤＢ１）
顧客ＤＢ１には、顧客ＣＳごとに属性情報が顧客ＩＤに関連付けて格納されている。属性情報は、例えば、氏名、性別、年齢、住所、職業、連絡先（電話番号、メールアドレス、ＳＮＳのアカウントの情報など）などであるが、これに限られず、顧客ＣＳの属性を表す情報であれば顧客ＩＤに関連付けて顧客ＤＢ１に格納するようにしてもよい。

（感情解析用ＤＢ２）
感情解析用ＤＢ２には、感情を解析するための情報が格納されている。具体的には、感情解析用ＤＢ２には、感情（本実施形態では、「不安」「緊張」「恐怖」）ごとの音響特性（声の高低（音声の周波数）、話す速さ、声の大小（音声の振幅）、抑揚などの特性）を学習したモデルが格納されている。なお、上記「不安」「緊張」「恐怖」だけに限られず、「平常」「喜び」「怒り」「哀しみ」「楽しみ」などの感情を加えても良いし、さらに細分化したモデルを感情解析用ＤＢ２に格納するようにしてもよい。細かな感情の機微にも対応することができ、より精度の高い解析を行うことができる。このように感情ごとの音響特性を学習したモデルを感情解析用ＤＢ２に格納することにより、感情解析用ＤＢ２を参照することで、顧客ＣＳがどのような感情であるかを解析することができる。

（音声データＤＢ３）
音声データＤＢ３には、音声データ取得部５０４により取得された顧客ＣＳとオペレータＯＰとの会話の音声データが１通話ごとにＩＤに関連付けて格納されている。また、各音声データには、会話したオペレータＯＰのＩＤと顧客ＣＳのＩＤ、会話開始日時、会話終了日時、会話時間、推定部５０９で推定された評価などの情報が関連付けられて、音声データＤＢ３に格納されている。なお、本実施形態では、音声データには、モノラルデータ、ステレオデータの双方が含まれる。

（評価推定用ＤＢ４）
評価推定用ＤＢ４には、音響指標抽出部５０８により音声データから抽出された顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係を学習したモデル（以下、評価推定用モデルともいう）が格納されている。より具体的には、評価推定用ＤＢ４には、オペレータＯＰと会話した顧客ＣＳから無作為に複数の顧客（全体の１．１％、３０５１人）を抽出し、オペレータを評価するアンケート調査を行い、音響指標抽出部５０８により抽出された音響指標及び感情解析部５０７で解析された感情と、アンケート調査の結果との相関関係を学習させた評価推定用モデルが格納されている。

なお、本実施形態において、音声データから抽出される顧客ＣＳの音響指標は、以下（１−１）から（１−３）であるが、抽出する音響指標は、以下（１−１）から（１−３）に限られず、他の音響指標を抽出するようにしてもよい。
（１−１）顧客ＣＳの話す速度
（１−２）顧客ＣＳの声のピッチ（フォルマント）
（１−３）顧客ＣＳの音量

なお、本実施形態では、（１−２）の顧客ＣＳの声のピッチとは、フォルマントのことであり、発話している人物の音声のスペクトルにおいて時間的に移動している複数のピークのことをいう。ここで、複数のピークは、それぞれ、周波数の低い順に、第一フォルマント（Ｆ０）、第二フォルマント（Ｆ１）、・・・といわれることもある。

また、本実施形態において、音声データから解析される顧客ＣＳの感情は、以下（２−１）から（２−３）であるが、解析する感情は、以下（２−１）から（２−３）に限られず、他の感情を解析するようにしてもよい。
（２−１）不安
（２−２）緊張
（２−３）恐怖

（アンケート情報）
また、記憶装置５００Ｂには、後述する評価抽出部５１０により抽出された評価に関連付けられた顧客へ通知するためのアンケート情報が格納されている。ここで、アンケート情報には、「問題は解決しましたか？」、「オペレータの対応はいかがでしたか？」、「そのほかご意見がありましらご記入ください。」などの質問が含まれる。アンケート情報は、実際に会話を行ったオペレータＯＰに対する満足度や不満度のフィードバックを受けるため顧客ＣＳへ通知される。なお、ここで記述したアンケート情報の内容はあくまで一例であり、どのようなアンケート内容とするかは任意である。

ＣＰＵ５００Ｃは、サーバ５を制御する。ＣＰＵ５００Ｃは、図示しないＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備えている。

（サーバ５の機能構成）
図４（ｂ）に示すように、サーバ５は、受信部５０１、送信部５０２（出力部）、記憶装置制御部５０３、音声データ取得部５０４、終点検出部５０５（検出部）、音響特徴抽出部５０６、感情解析部５０７、音響指標抽出部５０８、推定部５０９、評価抽出部５１０などの機能を有する。

受信部５０１は、通話端末２Ｂから送信される情報（例えば、オペレータＯＰの音声データなど）、ＳＶ端末４から送信される情報及びＰＢＸ装置６を介して通話端末２Ａから送信される情報（例えば、顧客ＣＳの音声データなど）を受信する。

送信部５０２は、推定部５０９で推定された評価結果をＯＰ端末３及びＳＶ端末４の少なくとも一方へ送信（出力）する。また、送信部５０２は、評価抽出部５１０で抽出された所定条件（評価の値が第１所定値未満である、評価の値が第２所定値を超える、などの条件（第１所定値と第２所定値とは、同じ値であってもよく、異なる値であってもよい））を満たすオペレータＯＰの評価及び該オペレータＯＰと会話した顧客ＣＳの情報を、該顧客ＣＳと会話したオペレータのＯＰ端末３及び該オペレータＯＰを担当するスーパーバイザーＳＶのＳＶ端末４へ送信（出力）する。また、送信部５０２は、評価抽出部５１０で抽出された顧客ＣＳの連絡先（例えば、電子メールやＳＮＳのアカウント）へアンケート情報を送信（出力）する。

記憶装置制御部５０３は、記憶装置５００Ｂを制御する。具体的には、記憶装置制御部５０３は、記憶装置５００Ｂを制御して記憶装置５００Ｂへ情報を書き込んだり、記憶装置５００Ｂから情報を読み出したりする。

音声データ取得部５０４は、通話端末２Ａ及び通話端末２Ｂから送信される顧客ＣＳ及びオペレータＯＰの音声データを取得する。また、音声データ取得部５０４は、後述の終点検出部５０５で検出された顧客ＣＳ及びオペレータＯＰの会話の終了時以前の所定期間又は所定数の発話を含む音声データを取得する。

終点検出部５０５は、顧客ＣＳ及びオペレータＯＰの会話の音声データから会話の終了時を検出する。終点検出部５０５による終点検出は、例えば、通話端末２Ａと通話端末２Ｂとの通話を遮断する遮断信号を検知し、この遮断信号の受信前に発話が終了した時点を会話の終了時として検出してもよい。なお、顧客ＣＳ及びオペレータＯＰの会話の発話の終了時を検出することができればよく、その手法は任意である。

音響特徴抽出部５０６は、音声データ取得部５０４で取得され、記憶装置制御部５０３によりＤＢ３に格納された音声データから顧客ＣＳの音響特徴を抽出する。ここで、音響特徴とは、例えば、声の高低（音声の周波数）、話す速さ、声の大小（音声の振幅）、抑揚などの特性である。

感情解析部５０７は、音響特徴抽出部５０６により抽出された顧客ＣＳの音響特徴から顧客ＣＳの感情を解析する。具体的には、感情解析部５０７は、感情解析用ＤＢ２に格納されている音響特徴と感情との関係を参照することで、顧客ＣＳの感情を解析する。なお、本実施形態では、感情解析部５０７は、顧客ＣＳの感情を感情値（推定された感情の度合い（大きさ）を表す数値）として算出する。つまり、感情値の時系列のデータが感情の推移パタンとなる。換言すると、感情値は、感情の推移パタンの一部であり、感情の推移パタンからある一時点の値を抽出したものが感情値となる。

音響指標抽出部５０８は、音声データ取得部５０４で取得された音声データから以下（１−１）から（１−３）の音響指標を抽出する。
（１−１）顧客ＣＳの話す速度
（１−２）顧客ＣＳの声のピッチ
（１−３）顧客ＣＳの音量

推定部５０９は、音響指標抽出部５０８が音声データから抽出した顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、評価推定用ＤＢに格納された評価推定用モデル（音響指標抽出部５０８により音声データから抽出された顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係）とに基づいて、顧客ＣＳによるオペレータＯＰの評価を推定する。なお、本実施形態では、推定部５０９は、オペレータＯＰの評価を数値（例えば、１点から５点の５段階評価など）で推定するが、オペレータＯＰの評価を必ずしも数値で推定する必要はなく、どのように評価を推定するかは任意である。

評価抽出部５１０は、推定部５０９で推定されたオペレータＯＰの評価から所定条件（評価の値が第１所定値未満である、評価の値が第２所定値を超える、などの条件）を満たす評価を抽出する。

ＰＢＸ装置６は、ネットワーク８と公衆網７のプロトコル変換、発着信の呼制御など実行する。

（情報処理システムによる処理）
図６から図１０は、情報処理システム１による処理の一例を示すフローチャートである。以下、図６から図１０を参照して、情報処理システム１による処理について説明する。

（メイン処理）
図６は、情報処理システム１によるメイン処理の一例を示すフローチャートである。以下、図６を参照して情報処理システム１のメイン処理について説明する。

（ステップＳ１０１）
サーバ５は、音声データ取得処理を実行する。この音声データ取得処理では、音声データ取得部５０４は、通話端末２Ａ及び通話端末２Ｂから送信される顧客ＣＳ及びオペレータＯＰの音声データを取得する。なお、音声データ取得処理の詳細は、図７を参照して後述する。

（ステップＳ１０２）
サーバ５は、音響特徴抽出処理を実行する。具体的には、サーバ５の音響特徴抽出部５０６は、ステップＳ１０１で取得された音声データから顧客ＣＳの音響特徴を抽出する。

（ステップＳ１０３）
サーバ５は、感情解析処理を実行する。なお、感情解析処理の詳細は、図８を参照して後述する。

（ステップＳ１０４）
サーバ５は、音響指標抽出処理を実行する。具体的には、サーバ５の音響指標抽出部５０８は、ステップＳ１０１で取得された音声データから以下（１−１）から（１−３）の音響指標を抽出する。
（１−１）顧客ＣＳの話す速度
（１−２）顧客ＣＳの声のピッチ
（１−３）顧客ＣＳの音量

（ステップＳ１０５）
サーバ５は、評価推定処理を実行する。なお、評価推定処理の詳細は図９を参照して後述する。

（ステップＳ１０６）
サーバ５は、評価出力処理を実行する。具体的には、サーバ５の送信部５０２（出力部）は、推定部５０９で推定された評価結果をＯＰ端末３及びＳＶ端末４の少なくとも一方へ送信（出力）する。より具体的には、送信部５０２は、推定部５０９で推定された評価結果を、評価結果の対象である会話を行ったオペレータＯＰのオペレータ用端末３及び該オペレータＯＰを担当するスーパーバイザーＳＶのＳＶ端末４の少なくとも一方へ送信（出力）する。

（ステップＳ１０７）
サーバ５は、フィードバック処理を実行する。なお、フィードバック処理の詳細は図１０を参照して後述する。

（音声データ取得処理）
図７は、情報処理システム１による音声データ取得処理の一例を示すフローチャートである。以下、図７を参照して情報処理システム１の音声データ取得処理について説明する。

（ステップＳ２０１）
サーバ５の音声データ取得部５０４は、顧客ＣＳとオペレータＯＰとの会話が開始されたか否かを判定する。通話が開始されたと判定した場合（ＹＥＳ）、音声データ取得部５０４は、ステップＳ２０２の処理を実行する。また、通話が開始されていないと判定した場合（ＮＯ）、音声データ取得部５０４は、音声データ取得処理を終了する。

（ステップＳ２０２）
サーバ５の音声データ取得部５０４は、顧客ＣＳとオペレータＯＰとの会話の音声データの取得を開始する。また、記憶装置制御部５０３は、音声データ取得部５０４が取得する音声データを音声データＤＢ３に随時格納する。

（ステップＳ２０３）
サーバ５の終点検出部５０５は、顧客ＣＳ及びオペレータＯＰの会話の音声データから会話の終了時を検出する。終点検出部５０５が会話の終了時を検出するまで、記憶装置制御部５０３は、会話の音声データを音声データＤＢ３に随時格納する。なお、顧客ＣＳ及びオペレータＯＰの会話の終了時を検出することができればよく、その手法は任意である。

（ステップＳ２０４）
サーバ５の音声データ取得部５０４は、顧客ＣＳとオペレータＯＰとの会話の音声データの取得を終了する。また、音声データ取得部５０４は、取得した顧客ＣＳとオペレータＯＰとの会話の音声データにＩＤを付与する（関連付ける）とともに、オペレータＯＰのＩＤと顧客ＣＳのＩＤ、会話開始日時、会話終了日時、会話時間などの情報を関連付けて音声データＤＢ３に格納するよう指示する。記憶装置制御部５０３は、音声データに、ＩＤ、オペレータＯＰのＩＤと顧客ＣＳのＩＤ、会話開始日時、会話終了日時、会話時間などの情報を関連付けて音声データＤＢ３に格納する。

（ステップＳ２０５）
サーバ５の音声データ取得部５０４は、推定部５０９での評価の推定に必要となる所定期間の音声データ以外の期間の音声データを削除する。これにより、音声データを格納する容量を削減することができる。また、音声データの解析の負荷（例えば、音響特徴抽出部５０６、感情解析部５０７、推定部５０９、音響指標抽出部５０８などでの処理に必要となる負荷）を低減することができ、推定部５０９での評価の推定までに必要な時間を短縮することができる。なお、推定部５０９での評価の推定に必要となる所定期間の音声データ以外の期間の音声データを削除せずに、取得した全ての音声データを音声データＤＢ３に格納したままにしておいてもよい。

なお、上記説明では、会話の音声データを一旦音声データＤＢ３に格納し、終点検出部５０５が顧客ＣＳ及びオペレータＯＰの会話の音声データから会話の終了時を検出すると、推定部５０９での評価の推定に必要となる所定期間以外の期間の音声データを削除する構成となっているが、会話の音声データを所定時間だけ音声データＤＢ３に格納するようにしてもよい。具体的には、会話の音声データが所定時間を超える場合、所定時間を超える会話の音声データを、古い会話の音声データに上書きし、終点検出部５０５が顧客ＣＳ及びオペレータＯＰの会話の音声データから会話の終了時を検出すると、上書き処理を停止するようにすればよい。

また、顧客ＣＳによるオペレータＯＰの評価を所定の精度で推定することができれば、終点検出部５０５で検出された顧客ＣＳ及びオペレータＯＰの会話の終了時時点から何秒から何秒までの音声データを音声データ取得部５０４が取得するかは任意である。

（感情解析処理）
図８は、情報処理システム１による感情解析処理の一例を示すフローチャートである。以下、図８を参照して情報処理システム１による感情解析処理について説明する。

（ステップＳ３０１）
感情解析部５０７は、感情解析用ＤＢ２に格納されている学習済みのモデルのうち、第1モデル（例えば、「不安」の学習モデル）の音響特性を読み込む。

（ステップＳ３０２）
感情解析部５０７は、音響特徴抽出部５０６で抽出された顧客ＣＳの音響特徴を、それぞれ、読み込んだ第1モデルの音響特性と比較して類似度を算出する。なお、類似度は、種々の既知の手法を利用して算出することができる。例えば、ユークリッド距離、ピアソンの積率相関係数、Jaccard係数などを利用して、音響特徴抽出部５０６で抽出された顧客ＣＳ及びオペレータＯＰの音響特徴と、第１モデルの音響特性との類似度を算出することができる。

（ステップＳ３０３）
感情解析部５０７は、感情解析用ＤＢ２に格納されている学習済みのモデルのうち、第２モデル（例えば、「緊張」の学習モデル）の音響特性を読み込む。

（ステップＳ３０４）
感情解析部５０７は、音響特徴抽出部５０６で抽出された顧客ＣＳの音響特徴を、それぞれ、読み込んだ第２モデルの音響特性と比較して類似度を算出する。なお、類似度の算出については、ステップＳ３０２と同じ手法を利用することができる。

（ステップＳ３０５）
感情解析部５０７は、感情解析用ＤＢ２に格納されている学習済みのモデルのうち、第３モデル（例えば、「恐怖」の学習モデル）の音響特性を読み込む。

（ステップＳ３０６）
感情解析部５０７は、音響特徴抽出部５０６で抽出された顧客ＣＳの音響特徴を、それぞれ、読み込んだ第３モデルの音響特性と比較して類似度を算出する。なお、類似度の算出については、ステップＳ３０２と同じ手法を利用することができる。

（ステップＳ３０７）
感情解析部５０７は、第１〜第３モデルと比較した類似度にそれぞれ重みづけなどを行い、類似度を調整する。

（ステップＳ３０８）
感情解析部５０７は、調整された各第１〜第３モデルとの類似度に基づいて、顧客ＣＳの感情を推定する。より具体的には、感情解析部５０７は、顧客ＣＳの音響特徴が、第１から第３のどのモデルにどれだけ近いかにより、顧客ＣＳの感情をそれぞれ推定する。なお、顧客ＣＳの音響特徴が、第１から第３のどのモデルにどれだけ近いかの算出は、ステップＳ３０２と同じ手法を利用することができる。

なお、上記感情解析処理（図８）では、第１〜第３モデルの３つモデルとの類似度に基づいて、顧客ＣＳの感情を推定しているが、学習済みのモデルは、３つ（例えば、「不安」「緊張」「恐怖」）だけに限られず任意であり、「平常」「喜び」「怒り」「哀しみ」「楽しみ」などの学習済みのモデルとの類似度を加えても良いし、さらに細分化して「信頼」「心配」「驚き」「嫌悪感」「関心」などの学習済みのモデルとの類似度を加えてもよい。

（評価推定処理）
図９は、情報処理システム１による評価推定処理の一例を示すフローチャートである。以下、図９を参照して情報処理システム１の評価推定処理について説明する。

（ステップＳ４０１）
サーバ５の推定部５０９は、音響指標抽出部５０８が音声データから抽出した顧客ＣＳの音響指標を取得する。

（ステップＳ４０２）
サーバ５の推定部５０９は、感情解析部５０７が音声データから解析した顧客ＣＳの感情を取得する。

（ステップＳ４０３）
サーバ５の推定部５０９は、評価推定用ＤＢ４を参照する。

（ステップＳ４０４）
サーバ５の推定部５０９は、ステップＳ４０１で取得した音響指標及びステップＳ４０２で取得した顧客ＣＳの感情と、評価推定用ＤＢ４に格納されている顧客ＣＳの評価との相関関係を学習した評価推定用モデル（音響指標抽出部５０８により音声データから抽出された顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係）に基づいて、顧客ＣＳによるオペレータＯＰの評価を推定する。

なお、推定部５０９は、推定した評価を、評価を行った音声データに関連付けて音声データＤＢ３に格納するよう指示する。記憶装置制御部５０３は、推定した評価を、評価を行った音声データに関連付けて音声データＤＢ３に格納する。

（フィードバック処理）
図１０は、情報処理システム１によるフィードバック処理の一例を示すフローチャートである。以下、図１０を参照して情報処理システム１のフィードバック処理について説明する。

（ステップＳ５０１）
サーバ５の評価抽出部５１０は、推定部５０９で推定された評価を取得する。

（ステップＳ５０２）
サーバ５の評価抽出部５１０は、取得した評価の値が第１所定値未満であるか否かを判定する。取得した評価の値が第１所定値未満であると判定した場合（ＹＥＳ）、評価抽出部５１０は、ステップＳ５０４の処理を実行する。取得した評価の値が第１所定値未満でないと判定した場合（ＮＯ）、評価抽出部５１０は、ステップＳ５０３の処理を実行する。

（ステップＳ５０３）
サーバ５の評価抽出部５１０は、取得した評価の値が第２所定値を超えるか否かを判定する。取得した評価の値が第２所定値を超えると判定した場合（ＹＥＳ）、評価抽出部５１０は、ステップＳ５０４の処理を実行する。取得した評価の値が第２所定値を超えないと判定した場合（ＮＯ）、評価抽出部５１０は、フィードバック処理を終了する。

（ステップＳ５０４）
送信部５０２は、評価抽出部５１０は、評価が所定条件を満たす場合、換言するとステップＳ５０２で第１所定値未満であり、かつ、ステップＳ５０３で第２所定値を超える場合、該評価を抽出する。また、評価抽出部５１０は、ステップＳ５０２で第１所定値未満であり、かつ、ステップＳ５０３で第２所定値を超える評価及び該評価に関連付けられた顧客ＣＳとオペレータＯＰのＩＤを抽出する。

（ステップＳ５０５）
送信部５０２は、評価抽出部５１０で抽出された評価と、該評価に関連付けられたオペレータＯＰと会話した顧客ＣＳの情報を、該顧客ＣＳと会話したオペレータのＯＰ端末３及び該オペレータＯＰを担当するスーパーバイザーＳＶのＳＶ端末４へ送信（出力）する。

（ステップＳ５０６）
送信部５０２は、評価抽出部５１０で抽出された評価に関連付けられた顧客ＣＳの連絡先（例えば、電子メールやＳＮＳのアカウント）へアンケート情報を送信（出力）する。

なお、上記説明では、ステップＳ５０２で第１所定値未満である場合も、ステップＳ５０３で第２所定値を超える場合も、同じ内容のアンケート情報を送信しているが、ステップＳ５０２で第１所定値未満である場合と、ステップＳ５０３で第２所定値を超える場合とで、異なる内容のアンケート情報を送信するようにしてもよい。

なお、上記説明では、音声データ取得部５０４は、終点検出部５０５で検出された顧客ＣＳ及びオペレータＯＰの会話の終了時以前の所定期間の音声データを取得しているが、会話の終了時以前の所定期間ではなく、終点検出部５０５で検出された顧客ＣＳ及びオペレータＯＰの会話の終了時から遡って、所定数までの発話を含む音声データを取得するようにしてもよい。

この場合、音響指標抽出部５０８は、会話の終了時から遡って、顧客ＣＳの所定数の発話を含む音声データから抽出した顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、評価推定用ＤＢに格納された評価推定用モデルとに基づいて、顧客ＣＳによるオペレータＯＰの評価を推定する。

なお、顧客ＣＳによるオペレータＯＰの評価を推定することができれば、終点検出部５０５で検出された顧客ＣＳ及びオペレータＯＰの会話の終了時から顧客ＣＳの何番目の発話まで遡って音声データ取得部５０４が音声データを取得するかは任意である。

図１１は、実施形態で利用する音声データを説明する図である。図１１（ａ）は、終点検出部５０５で検出された会話の終了時から所定期間の音声データの説明図である。図１１（ａ）に示すように、本実施形態では、会話の終了時として、顧客ＣＳとオペレータＯＰとの会話における最終発話（顧客ＣＳの最終発話としてもよい）の終了時点を会話の終了時とし、この終了時点から遡った所定時間の音声データを利用して顧客ＣＳによるオペレータＯＰの評価を推定している。また、図１１（ｂ）は、終点検出部５０５で検出された会話の終了時から遡って所定数の発話を含む音声データの説明図である。図１１（ｂ）に示すように、本実施形態では、会話の終了時として、顧客ＣＳとオペレータＯＰとの会話における最終発話（顧客ＣＳの最終発話としてもよい）の終了時点を会話の終了時とし、この終了時点から遡った顧客ＣＳの所定数の発話を含む音声データを利用して顧客ＣＳによるオペレータＯＰの評価を推定している。

上記のように、本実施形態では、顧客ＣＳ（第１話者）及びオペレータＯＰ（第２話者）の会話の音声データから会話の終了時を検出し、この会話の終了時以前の所定期間又は所定数の発話を含む音声データから顧客ＣＳによるオペレータＯＰの評価を推定しているが、前記会話の終了時以前の所定期間又は所定数の発話を含む音声データには、顧客ＣＳの最終発話が含まれることが好ましい。これは、顧客ＣＳとオペレータＯＰとの会話が進むことにより、会話の終盤において顧客ＣＳの本音が出やすくなると推定されることから、音声データに顧客ＣＳの最終発話を含むことにより、推定部５０９での推定精度の向上が期待されるためである。

なお、音声データがステレオデータである場合には、音声データ取得部５０４は、ステレオ分離後（顧客ＣＳとオペレータＯＰの音声データ分離後）に顧客ＣＳの音声データだけを取得するようにしてもよい。この場合、音響特徴抽出部５０６は、顧客ＣＳの音声データから音響特徴を抽出する。また、音響指標抽出部５０８は、顧客ＣＳの音声データから音響指標を抽出する。

次に実施例について説明する。発明者らは、実施形態で説明したアンケート調査の結果との相関関係を学習させた評価推定用モデルの正答率を確認した。具体的には、発明者らは、顧客からアンケートで得た回答（評価）と、音響指標抽出部５０８が音声データから抽出した顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、評価推定用ＤＢに格納された評価推定用モデルとに基づいて、推定部５０９が推定した評価との一致度（正答率）を確認した。

図１２は、実施例における時間と正答率との関係を示すグラフの一例である。具体的には、顧客ＣＳとオペレータＯＰとの会話の終了時以前の所定時間と正答率との関係を示すグラフの一例である。なお、図１２は、コール終了音が含まれた通話を取り除いた音声のみを対象とした場合の時間と正答率との関係を示すグラフである。なお、図１２において、実線が正答率であり、破線が近似曲線（決定係数（Ｒ2）＝０．７４６８）である。

図１２に示すように、会話の終了時から１９秒までの正答率は０．８３（８３％）を下回ることはほとんどないが、会話の終了時から１９秒を超える場合、正答率が０．８３（８３％）以下となるまで落ちてしまう。このため、顧客ＣＳとオペレータＯＰの会話の終了時以前の所定期間は、１９秒以内とすることが好ましいことがわかる。また、１９秒以内であれば、９秒から１２秒に少し落ち込みがあるものの正答率が０．８３（８３％）以上であることから、音声データの処理負荷を考えると（音声データが長いほど処理負荷も大きくなる）、顧客ＣＳとオペレータＯＰの会話の終了時以前の所定期間は、数秒程度（１〜３秒程度）であることがより好ましいことがわかる。

図１３は、実施例における時間と正答率との関係を示すグラフの一例である。具体的には、顧客ＣＳとオペレータＯＰとの会話の終了時以前の所定時間と正答率との関係を示すグラフの一例である。なお、図１３は、コール終了音が含まれた通話を取り除いていない全通話の音声を対象とした場合のグラフである。なお、図１３において、実線が正答率であり、破線が近似曲線（決定係数（Ｒ2）＝０．７４０４）である。

図１３に示すように、会話の終了時から１８秒までの正答率は０．８３（８３％）を下回ることはないが、会話の終了時から１８秒を超える場合、正答率が０．８３（８３％）以下となるまで落ちてしまう。このため、顧客ＣＳとオペレータＯＰの会話の終了時以前の所定期間は、１８秒以内とすることが好ましいことがわかる。また、１８秒以内であれば、所定期間が短い方がむしろ正答率が向上する傾向になることから、音声データの処理負荷も考慮すると（音声データが長いほど処理負荷も大きくなる）、顧客ＣＳとオペレータＯＰの会話の終了時以前の所定期間は、数秒程度（１〜３秒程度）であることがより好ましいことがわかる。

図１４は、実施例における発話数と正答率との関係を示すグラフの一例である。具体的には、顧客ＣＳとオペレータＯＰとの会話の終了時以前の発話数と正答率との関係を示すグラフの一例である。なお、図１４は、コール終了音が含まれた通話を取り除いた音声のみを対象とした場合の時間と正答率との関係を示すグラフである。なお、図１４において、実線が正答率であり、破線が近似曲線（決定係数（Ｒ2）＝０．６１６６）である。

図１４に示すように、会話の終了時からの発話数が６までの正答率は０．８２（８２％）を下回ることはないが、会話の終了時からの発話数が７以上である場合、正答率が０．８２（８２％）以下となるまで落ちてしまう。このため、顧客ＣＳとオペレータＯＰの会話の終了時以前の発話数は、６個以内とすることが好ましいことがわかる。また、発話数が６個以内であれば、発話数が少ない方がむしろ正答率が向上する傾向になることから、音声データの処理負荷も考慮すると（発話数が多いほど処理負荷も大きくなる）、顧客ＣＳとオペレータＯＰの会話の終了時以前の発話数は、数個程度（１〜３個程度）であることがより好ましいことがわかる。

図１５は、実施例における発話数と正答率との関係を示すグラフの一例である。具体的には、顧客ＣＳとオペレータＯＰとの会話の終了時以前の発話数と正答率との関係を示すグラフの一例である。なお、図１５は、コール終了音が含まれた通話を取り除いていない全通話の音声を対象とした場合のグラフである。なお、図１５において、実線が正答率であり、破線が近似曲線（決定係数（Ｒ2）＝０．４３４９）である。

図１５に示すように、会話の終了時からの発話数が９までの正答率は、発話数が５の位置に少し落ち込みがあるものの正答率が略０．８２（８２％）であるが、会話の終了時からの発話数が１０以上である場合、正答率が０．８２（８２％）以下となるまで落ちてしまう。このため、顧客ＣＳとオペレータＯＰの会話の終了時以前の発話数は、９個以内とすることが好ましいことがわかる。また、発話数が９個以内であれば、正答率は０．８２〜０．８３の間にあることから、音声データの処理負荷も考慮すると（発話数が多いほど処理負荷も大きくなる）、顧客ＣＳとオペレータＯＰの会話の終了時以前の発話数は、数個程度（１〜３個程度）であることがより好ましいことがわかる。なお、図１５に示す例では、発話数が２１以上で、正答率が向上しているか、上述したように、音声データの処理負荷を考慮すると（発話数が多いほど処理負荷も大きくなる）、顧客ＣＳとオペレータＯＰの会話の終了時以前の発話数は、数個程度（１〜３個程度）であることがより好ましい。

本実施例からは、会話の終了時以前の所定期間（所定時間）の発話を含む音声データを取得する場合、所定期間は、１９秒〜１８秒以内とすることが好ましく、数秒程度（１〜３秒程度）であることがより好ましいことがわかった。
また、会話の終了時以前の所定回数の発話を含む音声データを取得する場合、発話数は、６〜９個以内とすることが好ましく、数個程度（１〜３個程度）であることがより好ましいことがわかった。

以上のように、本実施形態に係る情報処理システム１のサーバ５は、顧客ＣＳ（第１話者）及びオペレータＯＰ（第２話者）の会話の音声データから会話の終了時を検出する終点検出部５０５（検出部）と、終点検出部５０５で検出された会話の終了時以前の所定期間又は所定数の発話を含む音声データを取得する音声データ取得部５０４と、音声データ取得部５０４で取得された音声データを解析し、顧客ＣＳによるオペレータＯＰの評価を推定する推定部５０９と、を備えている。
本実施形態に係る情報処理システム１のサーバ５によれば、オペレータと顧客との会話を全て解析する必要がなく、音声データの解析の負荷（例えば、音響特徴抽出部５０６、感情解析部５０７、推定部５０９、音響指標抽出部５０８などでの処理に必要となる負荷）を低減することができ、推定部５０９での評価の推定までに必要な時間を短縮することができる。このように、より効果的に話者の評価を推定できる。

本実施形態に係る情報処理システム１のサーバ５の推定部５０９で推定されたオペレータＯＰ（第２話者）の評価のうち所定条件を満たすオペレータＯＰの評価を抽出する評価抽出部５１０と、評価抽出部５１０で抽出されたオペレータＯＰの評価を送信（出力）する送信部５０２（出力部）と、を備えている。
本実施形態に係る情報処理システム１のサーバ５によれば、推定部５０９で推定されたオペレータＯＰの評価のうち所定条件を満たすオペレータＯＰの評価を抽出し、この抽出されたオペレータＯＰの評価を送信するので、自動的に評価が通知され利便性が向上する。

本実施形態に係る情報処理システム１のサーバ５の推定部５０９は、
（１−１）顧客ＣＳ（第１話者）の話す速度
（１−２）顧客ＣＳの声のピッチ
（１−３）顧客ＣＳの音量
の少なくとも１以上に基づいて、顧客ＣＳによるオペレータＯＰの評価を推定する。
本実施形態に係る情報処理システム１のサーバ５によれば、上記（１−１）〜（１−３）の少なくとも１以上に基づいて、顧客ＣＳによるオペレータＯＰの評価を推定するので、精度よく顧客ＣＳによるオペレータＯＰの評価を行うことができる。

本実施形態に係る情報処理システム１は、音声データから顧客ＣＳ（第１話者）の感情を解析する感情解析部５０７を備えている。そして、推定部５０９は、感情解析部５０７で解析された顧客ＣＳの感情に基づいて、顧客ＣＳによるオペレータＯＰ（第２話者）の評価を推定する。
本実施形態に係る情報処理システム１のサーバ５によれば、音声データから顧客ＣＳの感情を解析し、この解析された顧客ＣＳの感情に基づいて、顧客ＣＳによるオペレータＯＰの評価を推定するので、感情を考慮してさらに精度よく顧客ＣＳによるオペレータＯＰの評価を行うことができる。

本実施形態に係る情報処理システム１の送信部５０２（出力部）は、評価抽出部５１０で抽出された評価に関連付けられた音声データの会話を行った顧客ＣＳ（第１話者）に対して、会話を行ったオペレータＯＰ（第２話者）の評価を求めるアンケート情報を送信（出力）する。
本実施形態に係る情報処理システム１のサーバ５によれば、所定条件（評価の値が第１所定値未満である、評価の値が第２所定値を超える、などの条件（（第１所定値と第２所定値とは、同じ値であってもよく、異なる値であってもよい）））を満たす評価に関連付けられた音声データの会話を行った顧客ＣＳに対して、会話を行ったオペレータＯＰの評価を求めるアンケート情報を送信するので、顧客ＣＳからフィードバックを受けて推定部５０９の推定精度を高めることができる。また、評価が高い又は低いと推定された顧客に対するフォローを行うことにもなるため、顧客ＣＳの満足度向上や不満低減の効果が期待できる。

[実施形態の変形例１]
上記実施形態では、推定部５０９は、音響指標抽出部５０８が音声データから抽出した顧客ＣＳの音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、評価推定用ＤＢに格納された評価推定用モデルとに基づいて、顧客ＣＳによるオペレータＯＰの評価を推定している。しかしながら、推定部５０９での推定に、顧客ＣＳの音響指標及び感情に加え、オペレータＯＰの音響指標及び感情を加えるようにしてもよい。

具体的には、音響指標抽出部５０８により顧客ＣＳ及びオペレータＯＰの音声データから抽出された音響指標及び感情解析部５０７で解析された顧客ＣＳ及びオペレータＯＰの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係を学習した評価推定用モデルを評価推定用ＤＢに格納し、音響指標抽出部５０８が顧客ＣＳ及びオペレータＯＰの音声データから音響指標を抽出し、感情解析部５０７が顧客ＣＳ及びオペレータＯＰの感情を解析する。

そして、推定部５０９は、音響指標抽出部５０８が、顧客ＣＳ及びオペレータＯＰの音声データから抽出した音響指標と、感情解析部５０７で解析された顧客ＣＳ及びオペレータＯＰの感情と、評価推定用ＤＢに格納された評価推定用モデル（音響指標抽出部５０８により顧客ＣＳ及びオペレータＯＰの音声データから抽出された音響指標及び感情解析部５０７で解析された顧客ＣＳ及びオペレータＯＰの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係）とに基づいて、顧客ＣＳによるオペレータＯＰの評価を推定するようにしてもよい。

[実施形態の変形例２]
上記実施形態では、音響特徴抽出部５０６は、音声データ取得部５０４で取得された終点検出部５０５（検出部）で検出された会話の終了時から所定期間又は所定回数の発話を含む音声データから顧客ＣＳの音響特徴を抽出しているが、顧客ＣＳとオペレータＯＰの会話全てを記憶した音声データから顧客ＣＳの音響特徴を抽出するようにしてもよい。顧客ＣＳの感情をより正確に推定できることが期待できる。

[実施形態の変形例３]
上記実施形態では、評価推定用ＤＢ４に、音響指標抽出部５０８により顧客ＣＳとオペレータＯＰとの会話の音声データから抽出された音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係を学習した評価推定用モデルが格納されているが、学習モデルを、顧客ＣＳの属性（例えば、性別、職業など）ごとに評価推定用ＤＢ４に格納するようにしてもよい。この場合、推定部５０９は、顧客ＣＳの属性を顧客ＤＢ１から取得し、この取得した顧客ＣＳの属性に応じた学習モデルに基づいて、顧客ＣＳによるオペレータＯＰの評価を推定する。推定部５０９による評価の推定の精度向上が期待できる。

[実施形態の変形例４]
また、上記実施形態及び変形例１〜３では、評価推定用ＤＢ４に、音響指標抽出部５０８により顧客ＣＳとオペレータＯＰとの会話の音声データから抽出された音響指標及び感情解析部５０７で解析された顧客ＣＳの感情と、アンケートにより得られた顧客ＣＳの評価との相関関係とを学習した評価推定用モデルが格納されているが、送信部５０２により送信されたアンケート情報に対する顧客ＣＳの返信内容を取得し、該返信内容に基づいて、評価推定用ＤＢ４に格納された学習モデルを更新する更新部を備えるようにしてもよい。

[実施形態の変形例５]
また、上記実施形態及び変形例１〜４では、オペレータＯＰが通話端末２Ｂから顧客ＣＳの通話端末２Ａへ架電する形態となっているが、サーバ５及び／又はＯＰ端末３から顧客ＣＳの通話端末２Ａへ架電する構成を除外するものではなく、サーバ５及び／又はＯＰ端末３から顧客ＣＳの通話端末２Ａへ架電可能な構成としてもよい。

[実施形態の変形例６]
また、上記実施形態及び変形例１〜５では、図１に示すように、情報処理システム１は、ＰＢＸ装置６がネットワーク８を介して、オペレータＯＰの通話端末２Ｂと接続し通話をする構成を有し、ネットワーク８には、ＯＰ端末３、ＳＶ端末４及びサーバ５（情報処理装置）が通信可能に接続されているが、以下のように構成されていてもよい。
（１）ＰＢＸ装置６が公衆網７に接続され、ネットワーク８がＰＢＸ装置６を介さずに公衆網７に接続されており、ネットワーク８に通話端末２Ｂ、サーバ５（情報処理装置）、ＯＰ端末３及びＳＶ端末４が通信可能に接続された構成。
（２）ＰＢＸ装置６及びサーバ５（情報処理装置）が公衆網７に接続され、ネットワーク８がＰＢＸ装置６を介さずに公衆網７に接続されており、ネットワーク８に通話端末２Ｂ、ＯＰ端末３及びＳＶ端末４が通信可能に接続された構成。

[実施形態の変形例７]
なお、サーバ５の感情解析部５０７は、顧客ＣＳ及びオペレータＯＰの発話内容を考慮して両話者各々の感情を解析するようにしてもよい。このように、発話内容を考慮して感情を解析することで、精度よく顧客ＣＳによるオペレータＯＰの評価を推定することができる。

[実施形態の変形例８]
また、上記実施形態及び変形例１〜７では、音声データ取得部５０４は、通話端末２Ａ及び通話端末２Ｂから送信される顧客ＣＳ及びオペレータＯＰの音声データを取得しているが、この音声データから顧客ＣＳ及びオペレータＯＰの音声以外の音データ、例えば、オペレータＯＰ以外の音声等による音声案内や通話を切断する際の音など（以下、ノイズともいう）を除去するノイズ除去部をサーバ２に備えるようにしてもよい。この場合、ノイズ除去部でノイズを除去した音声データを音声データ取得部５０４が取得してもよいし、音声データ取得部５０４が取得した音声データからノイズ除去部がノイズを除去するようにしてもよい。

なお、音声データからノイズを除去することで、推定部５０９による、顧客ＣＳによるオペレータＯＰの評価の推定精度が向上することが期待できる。例えば、音声データを取得する際に、より短い所定期間や、より少ない発話回数としても精度よく顧客ＣＳによるオペレータＯＰの評価を推定できることが期待できる。また、音声データからノイズを除去する手法については種々の手法を適用することができる。例えば、人間の音声の波長域以外の音をフィルター等で除去してもよいし、所定の波形を人間の音声以外の音として除去してもよい。また、逆に、所定の波形を人間の音声であるとして、それ以外の波形の音を除去してもよい。また、決まった音声（例えば、合成音による案内用の音声）が含まれる場合には、これを除去するようにしてもよい。なお、これらに限られず、種々のノイズ除去の技術を適用することができることは上述の通りである。

以上のように、本発明は、人の評価を推定できるので、コールセンタ他、種々の産業で利用できる。

１情報処理システム
２Ａ通話端末（顧客用）
２Ｂ通話端末（オペレータ用）
３オペレータ用端末（ＯＰ端末）
３００Ａ通信ＩＦ
３００Ｂ記憶装置
３００Ｃ入力装置
３００Ｄ表示装置
３００ＥＣＰＵ
３０１受信部
３０２記憶装置制御部
３０３入力受付部
３０４表示装置制御部
３０５送信部
４スーパーバイザー用端末（ＳＶ端末）
４００Ａ通信ＩＦ
４００Ｂ記憶装置
４００Ｃ入力装置
４００Ｄ表示装置
４００ＥＣＰＵ
４０１受信部
４０２記憶装置制御部
４０３入力受付部
４０４表示装置制御部
４０５送信部
５サーバ（情報処理装置）
５００Ａ通信ＩＦ
５００Ｂ記憶装置
５００ＣＣＰＵ
５０１受信部
５０２送信部（出力部）
５０３記憶装置制御部
５０４音声データ取得部
５０５終点検出部（検出部）
５０６音響特徴抽出部
５０７感情解析部
５０８音響指標抽出部
５０９推定部
５１０評価抽出部
６ＰＢＸ装置
７公衆網
８ネットワーク
ＤＢ１顧客データベース
ＤＢ２感情解析用データベース
ＤＢ３音声データデータベース
ＤＢ４評価推定用データベース
ＣＳ顧客
ＯＰオペレータ
ＳＶスーパーバイザー

Claims

第1話者及び第２話者の会話の音声データから前記会話の終了時を検出する検出部と、
前記検出部で検出された前記会話の終了時以前の所定期間又は所定回数の発話を含む前記音声データを取得する音声データ取得部と、
前記音声データ取得部で取得された前記音声データを解析し、前記第１話者による前記第２話者の評価を推定する推定部と、
を備えることを特徴とする情報処理装置。
前記推定部で推定された前記第２話者の評価のうち所定条件を満たす前記第２話者の評価を抽出する評価抽出部と、
前記評価抽出部で抽出された前記第２話者の評価を出力する出力部と、
を備えることを特徴とする請求項１に記載の情報処理装置。
前記推定部は、
（１）前記第1話者の話す速度
（２）前記第1話者の声のピッチ
（３）前記第1話者の音量
の少なくとも１以上に基づいて、前記第１話者による前記第２話者の評価を推定する、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記音声データから前記第１話者の感情を解析する感情解析部を備え、
前記推定部は、
前記感情解析部で解析された前記第１話者の感情に基づいて、前記第１話者による前記第２話者の評価を推定する、
ことを特徴とする請求項１乃至請求項３のいずれかに記載の情報処理装置。
前記出力部は、
前記評価抽出部で抽出された評価に関連付けられた音声データの会話を行った前記第１話者に対して、前記第２話者の評価を求めるアンケート情報を出力する、
ことを特徴とする請求項２に記載の情報処理装置。
前記所定期間は、１９秒以内である
ことを特徴とする請求項１乃至請求項５のいずれかに記載の情報処理装置。
前記所定期間は、１〜３秒以内である
ことを特徴とする請求項６のいずれかに記載の情報処理装置。
前記所定回数は、９以内である
ことを特徴とする請求項１乃至請求項５のいずれかに記載の情報処理装置。
前記所定回数は、１〜３以内である
ことを特徴とする請求項８のいずれかに記載の情報処理装置。
検出部が、第1話者及び第２話者の会話の音声データから前記会話の終了時を検出する工程と、
音声データ取得部が、前記検出部で検出された前記会話の終了時以前の所定期間又は所定回数の発話を含む前記音声データを取得する工程と、
推定部が、前記音声データ取得部で取得された前記音声データを解析し、前記第１話者による前記第２話者の評価を推定する工程と、
を有することを特徴とする情報処理方法。
コンピュータを、
第1話者及び第２話者の会話の音声データから前記会話の終了時を検出する検出部、
前記検出部で検出された前記会話の終了時以前の所定期間又は所定回数の発話を含む前記音声データを取得する音声データ取得部、
前記音声データ取得部で取得された前記音声データを解析し、前記第１話者による前記第２話者の評価を推定する推定部、
として機能させることを特徴とする情報処理プログラム。