図1は、本発明の実施例に係る情報処理装置としての情報処理システム10を利用したコミュニケーションの一例として、ユーザURが1の人物としての顧客CLとの間で会話を中心としたコミュニケーションをとっている様子を示す図である。具体的には、図1は、営業職のユーザURが顧客CLと商談を行っている様子を示している。当該商談において、例えば、最初に挨拶を交わし、その後、ユーザURによる商品説明が行われ、これに対して顧客CLが購入の意思の有無を示すといった内容の会話が進められる。
コミュニケーションの取り方の特性は、人によって異なる場合がある。例えば、人のコミュニケーションの取り方の特性は、予め定められた幾つかのタイプに分類することができる。本明細書において、人によって異なるコミュニケーションの取り方の特性をコミュニケーションタイプとして説明する。
また、以下の説明において、コミュニケーションタイプの分類手法の一例として、ソーシャルスタイル理論に基づく4つのコミュニケーションタイプを例に説明する。具体的には、本実施例において、4つのコミュニケーションタイプ「思考派タイプ(Driver)」、「行動派タイプ(Analytical)」、「協調派タイプ(Amiable)」、及び「感覚派タイプ(Expressive)」を用いて説明する。
上述のように、コミュニケーションタイプは、人によって異なる場合があるので、相手のコミュニケーションタイプによって、適切な対応も異なる場合がある。例えば、ある相手に対しては、結論を早く伝えることが有効な場合がある一方で、別の相手に対しては、順を追って説明した方が有効な場合もある。例えば、交渉を含むコミュニケーションでは、対応の仕方によって交渉の結果が変わる可能性もある。従って、顧客CLのコミュニケーションタイプに適した対応を知ることは、ユーザURが顧客CLとのコミュニケーションをより円滑に進めるために有効である。
情報処理システム10は、ユーザURと顧客CLとのコミュニケーションにおいて、顧客CLのコミュニケーションタイプを推定することが可能であり、当該コミュニケーションに関するアドバイスを含むメッセージをユーザURに提示することが可能なシステムである。
図1に示すように、情報処理システム10は、サーバ11及び端末13を含んでいる。サーバ11は、例えば、ユーザURが居る場所とは別の場所に設置されているサーバ装置である。
端末13は、例えば、ユーザURが使用しているスマートフォン又はタブレット等の端末装置である。端末13は、タッチパネル15を有している。タッチパネル15は、操作画面やメッセージの表示及び表示された画面に対する操作入力を受付け可能に構成されたタッチパネルディスプレイである。
サーバ11と端末13とは、ネットワークを介して相互にデータの送受信が可能である。例えば、当該送受信には、TCP/IP等の通信プロトコルが用いられる。また、当該ネットワークは、移動体通信網、Wi−Fi(登録商標)等の無線通信及び有線通信を含むインターネット通信により構築され得る。
サーバ11は、端末13から受信した情報に基づいて、コミュニケーションタイプの推定に関する情報処理を行う。具体的には、端末13は、例えば端末13に内蔵されたマイク(図示せず)によって、顧客CLが発する音声から音声データを取得してサーバ11に送信する。サーバ11は、当該音声データを用いて顧客CLのコミュニケーションタイプを推定する。サーバ11は、顧客CLとのコミュニケーションに関するアドバイスを含むアドバイス情報を生成して端末13に送信する。端末13は、アドバイス情報に基づいて、メッセージをタッチパネル15に表示することでメッセージをユーザURに提示する。
図2は、端末13の構成を示すブロック図である。端末13は、例えばシステムバス17を介して各部が接続されて構成されている。
送受信部19は、無線装置に接続されたNIC(Network Interface Card)等のネットワークアダプタである。送受信部19は、サーバ11との間でデータの送受信を行う。送受信部19は、例えば、コミュニケーションタイプの推定に必要なデータをサーバ11に送信する。
また、送受信部19は、コミュニケーションタイプの推定結果に関する情報をサーバ11から受信する。例えば、送受信部19は、顧客CLのコミュニケーションタイプの推定結果が反映されたアドバイスを含む情報であるアドバイス情報をサーバ11から受信する。
記憶部21は、例えば、ハードディスク装置、SSD(solid state drive)、フラッシュメモリ等により構成された記憶装置である。記憶部21は、端末13における情報処理を行うための各種プログラムを記憶する。なお、各種プログラムは、例えば他のサーバ装置等からネットワークを介して取得されるようにしてもよい。
音声入力部23は、マイク24に接続されている。マイク24は、例えば端末13に内蔵されたマイクである。音声入力部23は、マイク24から音声データを取得するインターフェースである。例えば、音声入力部23が取得した音声データは、送受信部19によってサーバ11に送信される。
入出力部26は、タッチパネル15に接続されている。入出力部26は、タッチパネル15を介した操作入力を受け付けるインターフェースである。また、入出力部26は、タッチパネル15に表示する画像データを供給するインターフェースである。例えば、入出力部26は、操作画面を表示するための画像データをタッチパネル15に供給する。例えば、入出力部26は、タッチパネル15に対するユーザURによる操作入力を受け付ける。例えば、入出力部26は、ユーザURが顧客CLのコミュニケーションタイプの推定の開始を指示する操作の入力を受け付ける。
端末制御部28は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)を含み、端末13の動作の制御を行うコンピュータである。端末制御部28において、CPUが、ROMや記憶部21に記憶された各種プログラムを読み出して実行することにより各種機能を実現する。
表示制御部29は、端末制御部28の機能部である。表示制御部29は、タッチパネル15に画像を表示させる制御する。例えば、表示制御部29は、操作用の画面をタッチパネル15に表示させる制御を行う。また、表示制御部29は、サーバ11から送受信部19を介して取得したアドバイス情報に基づいて、ユーザURに対するメッセージを表示画面としてのタッチパネル15に表示させる制御を行う。
図3は、サーバ11の構成を示すブロック図である。サーバ11は、例えばシステムバス31を介して各部が接続されて構成されている。
送受信部33は、無線装置に接続されたNIC(Network Interface Card)等のネットワークアダプタである。送受信部33は、端末13との間でデータの送受信を行う。送受信部33は、例えば、コミュニケーションタイプの推定に必要なデータを端末13から受信する。また、送受信部33は、コミュニケーションタイプの推定結果に基づくデータを端末13に送信する。例えば、送受信部33は、顧客CLとのコミュニケーションに関するアドバイスを含むアドバイス情報を端末13に送信する。
サーバ制御部35は、CPU(Central Processing Unit)、ROM(Read Only Memory)及び(Random Access Memory)を含み、サーバ11の動作の制御を行うコンピュータである。CPUが、ROMに記憶された各種プログラムを読み出して実行することにより各種機能を実現する。
音響特徴量取得部としての音響特徴量抽出部37は、サーバ制御部35の機能部である。音響特徴量抽出部37は、送受信部33を介して端末13から音声データを取得する。音響特徴量抽出部37は、当該取得した音声データから顧客CLが発声した部分を顧客音声データとして抽出する。音響特徴量抽出部37は、顧客音声データから、顧客CLの音声に含まれる物理的な特徴や特性を数値化した音響特徴量を算出する。
例えば、音響特徴量抽出部37は、顧客CLの音声の特徴又は特性として、声の大きさ、声の高さ、音色等の特性を示す数値を算出する。
例えば、音響特徴量抽出部37は、顧客音声データから音素の時間間隔を抽出し、顧客CLの話す速さを示す数値を算出する。また、例えば、音響特徴量抽出部37は、顧客音声データの基本周波数(F0)から、声の高さに関する特徴を示す数値を算出する。
本実施例において、音響特徴量抽出部37は、音響特徴量として、「話す速さ」、「基本周波数の周波数偏差」、「基本周波数の歪度平均又は偏差」、「基本周波数の尖度平均又は偏差」、「基本周波数の山の長さ平均又は偏差」、「ピークデシベル平均又は偏差」、「ピーク時間平均又は偏差」、「ゼロクロス率(又はゼロクロス数)」、「MFCC(メル周波数ケプストラム)の次元毎の偏差と差分」の9項目の各々を示す数値を算出する例について説明する。
感情特定部39は、サーバ制御部35の機能部である。感情特定部39は、音響特徴量抽出部37によって抽出された音響特徴量に基づいて、人の感情を特定する。具体的には、感情特定部39は、当該音響特徴量の元になった音声を発した人物が、その音声を発した際に抱いていた感情を特定する。従って、感情特定部39は、顧客CLが発した音声の音響特徴量に基づいて、顧客CLが当該音声を発した際に抱いていた感情を特定する。
例えば、当該感情の特定において、感情特定部39は、取得した音響特徴量が人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。
例えば、感情特定部39は、予め定められた基準に従って、顧客CLの感情を特定する。例えば、音響特徴量と感情の種類を示す項目との対応関係が予め定められ、当該対応関係が記載されたテーブルが感情特定部39又は大容量記憶装置47に記憶されていてもよい。例えば、感情特定部39は、音響特徴量に基づいて当該テーブルを参照して感情を特定する。
また、感情特定部39は、音声が発せられた際の状況を示す情報に基づいて、人の感情を特定してもよい。音声が発せられた際の状況は、例えば、店舗での販売員と客の会話の場面、採用面接の場面、商談の場面、コールセンタのオペレータと顧客との会話の場面等のコミュニケーションが行われている場面であってもよい。また、音声が発せられた際の状況は、例えば、緊張感のある状態、リラックスしている状態等の、ユーザがコミュニケーションを取っている相手の状態であってもよい。
例えば、当該状況を示す情報は、端末13のタッチパネル15から入力されてもよい。例えば、音声が発生された状況を選択するための選択画面がタッチパネル15に表示されて、ユーザによる選択操作が受け付けられてもよい。この場合、感情特定部39は、送受信部33を介して状況を示す情報を取得する。
推定部としてのタイプ推定部41は、音響特徴量抽出部37によって抽出された1の人物(すなわち、顧客CL)の音響特徴量と、感情特定部39によって特定された当該1の人物の感情に基づいて、1の人物のコミュニケーションタイプを推定する。タイプ推定部41は、深層学習の手法を用いて構築された数理モデルである学習モデル(すなわち、学習済みモデル)を用いて、コミュニケーションタイプを推定する。
推論部43は、タイプ推定部41に含まれている。推論部43は、学習モデルに必要な情報を入力し、当該学習モデルからコミュニケーションタイプの推定結果を出力させる。例えば、当該推定結果は、所定の複数のコミュニケーションタイプの各々と顧客CLのコミュニケーションタイプとの適合度を示す数値として出力されてもよい。
また、例えば、学習モデルから出力される推定結果は、顧客CLのコミュニケーションタイプがコミュニケーションタイプの各々に適合する確率を示す数値として出力されてもよく、適合する1のコミュニケーションタイプを示す数値として出力されてもよい。
タイプ推定部41は、学習モデルからの出力に基づいて、コミュニケーションタイプの推定結果を特定する。例えば、タイプ推定部41は、所定の複数のコミュニケーションタイプの各々と顧客CLのコミュニケーションタイプとの適合度を示す数値が学習モデルから出力されると、最も大きい数値に対応するコミュニケーションタイプを選択して、コミュニケーションタイプの推定結果として特定する。
アドバイス生成部45は、タイプ推定部41による推定結果に基づいて、顧客CLとのコミュニケーションに関するユーザURに対するアドバイスを含むアドバイス情報を生成する。例えば、アドバイス情報には、顧客CLとの会話において推奨される話題や話の進め方を示す情報が含まれる。例えば、アドバイス生成部45は、コミュニケーションタイプの各々に予め対応付けられたアドバイスを選択してアドバイス情報を生成する。
大容量記憶装置47は、例えば、ハードディスク装置、SSD(solid state drive)、フラッシュメモリ等により構成された記憶装置である。大容量記憶装置47は、サーバ11における情報処理を行うための各種プログラムを記憶する。サーバ制御部35は、大容量記憶装置47に記憶された各種プログラムを読み出して実行することにより各種機能を実現する。
なお、各種プログラムは、例えば他のサーバ装置等からネットワークを介して取得されるようにしてもよい。また、各種プログラムは、記録媒体に記録されて各種ドライブ装置を介して読み込まれるようにしてもよい。大容量記憶装置47に記憶される各種プログラムは、ネットワークを介して伝送可能であり、また、コンピュータ読み取り可能な記録媒体に記録して譲渡することが可能である。
大容量記憶装置47は、学習モデル記憶部47Aを含む。学習モデル記憶部47Aは、人の感情を示す情報及び人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とする学習モデルを記憶している。学習モデル記憶部47Aに記憶された学習モデルは、深層学習の手法を用いて構築された数理モデルである。
タイプ推定部41の推論部43は、学習モデル記憶部47Aに記憶されている学習モデルに、音響特徴量抽出部37によって抽出された音響特徴量を示す情報及び感情特定部39によって特定された顧客CLの感情を示す情報を入力する。例えば、当該学習モデルは、顧客CLがコミュニケーションタイプの各々に適合する確率を示す数値又は顧客CLのコミュニケーションタイプを示す数値を出力する。
図4は、学習モデル記憶部47Aに記憶されている学習モデルの一例である学習モデルM1を模式的に示す図である。図4において、学習モデルM1の出力として、顧客CLのコミュニケーションタイプが、ソーシャルコミュニケーション理論による上述した4つのコミュニケーションタイプの各々に適合する確率を示す数値が出力される例について示している。
図4に示す学習モデルM1は、ディープラーニング(深層学習)によって構築されたニューラルネットワークである。当該ニューラルネットワークは、入力層、2つ又は3つ以上の中間層(隠れ層)及び出力層から構成されている。
例えば、学習モデルM1の入力層においては、9項目の音響特徴量の各々をそれぞれ示す9個の数値であるAU1〜AU9及び感情を示す数値である数値EMが入力される。例えば、感情を示す数値は、所定の感情の種類を示す項目に予め割り当てられた数値であってもよい。
当該入力がなされると、出力層では、入力された情報に係る人物である顧客CLのコミュニケーションタイプが、ソーシャルスタイル理論に基づく4つのコミュニケーションタイプである「思考派タイプ(Driver)」、「行動派タイプ(Analytical)」、「協調派タイプ(Amiable)」、及び「感覚派タイプ(Expressive)」の各々に適合する確率を示す4つの数値が出力される。
すなわち、学習モデルM1は、人の音響特徴量を示す情報及び人の感情を示す情報を入力とし、人のコミュニケーションタイプを示す情報を出力とするように構築されている。
従って、学習モデルM1に顧客CLが発した音声の音響特徴量を示す情報及び顧客CLの感情を示す情報を入力すると、顧客CLのコミュニケーションタイプを示す情報が出力される。なお、学習モデルM1は、出力層において、例えば、顧客CLのコミュニケーションタイプを示す1つの数値を出力するように構築されていてもよい。
学習モデルM1は、例えば以下のような教師あり学習によって構築される。例えば、1の協力者に対して実施されたアンケートの結果から当該1の協力者のコミュニケーションタイプを特定して正解データとする。また、当該1の協力者が会話をしている際の音声データを取得して、当該音声データから音響特徴量を抽出する。さらに、当該1の協力者が当該音声データを取得する際に音声を発した際の感情を特定する。当該協力者の音響特徴量を示す情報及び感情を示す情報を入力データとする。
当該入力データを複数の中間層を有するニューラルネットワークに入力して、出力が正解データのコミュニケーションタイプとなるように、ニューラルネットワークのパラメータを誤差逆伝搬法によって更新しながら学習を行う。このような学習を多数の協力者について行うことで、学習モデルM1を構築することができる。
なお、学習に用いる感情の特定は、例えば、上記の音響特徴量に基づいて行われる。また、当該感情の特定は、当該協力者が音声を発した際の状況に基づいて行われてもよい。
さらに、学習に用いる正解データ又は入力データを準備する際に、上述したようなアンケート、音声等のデータに加えて、画像データを用いてもよい。例えば、協力者のコミュニケーションタイプを特定する際に、アンケートのみでは精度が確保できない場合もある。そのような場合に、画像データから表情、体の動き等の情報を抽出し、コミュニケーションタイプを特定する際の判断材料としてもよい。例えば、アンケート、音声データ及び画像データを組み合わせて、協力者のコミュニケーションタイプを特定することとしてもよい。
このように、画像データを組み合わせることで、協力者のコミュニケーションの傾向により良く当て嵌まるコミュニケーションタイプを正解データとすることができる。すなわち、正解データの精度を向上させることができる。従って、このような正解データを使用して構築された学習モデルによって、コミュニケーションタイプの推定の精度を向上させることができる。
同様に、学習に用いるデータのうち、入力データとなる感情の特定についても、画像データを組み合わせてもよい。例えば、音響特徴量と画像データを組み合わせて感情の特定を行うことで、感情の特定の高い精度を確保することができる。
また、画像データを組み合わせた正解データ又は入力データを用いての学習は、一旦構築された学習モデルに対して追加して行われてもよい。
さらに、学習モデル記憶部47Aに記憶されている学習モデルは、タイプ推定部による推定結果に基づいて更新されてもよい。
図5は、端末13の端末制御部28によって実行されるルーチンの一例である音声データ送信ルーチンRT1を示すフローチャートである。例えば、端末制御部28は、端末13の電源がONになると、音声データ送信ルーチンRT1を開始する。
端末制御部28は、音声データ送信ルーチンRT1を開始すると、入出力部26を介して、スタートボタンが押されたか否かを判定する(ステップS11)。ステップS11において、端末制御部28は、タッチパネル15に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。
端末制御部28は、ステップS11において、スタートボタンが押されていないと判定する(ステップS11:NO)と、ステップS11を繰り返し、スタートボタンが押されたか否かを再び判定する。
端末制御部28は、ステップS11において、スタートボタンが押されたと判定する(ステップS11:YES)と、マイク24及び音声入力部23によって取得された音声データの送信を開始する(ステップS12)。ステップS12において、端末制御部28は、送受信部19を介して、音声データをサーバ11への送信を開始する。
端末制御部28は、ステップS12の実行後、入出力部26を介して、終了ボタンが押されたか否かを判定する(ステップS13)。ステップS13において、端末制御部28は、タッチパネル15に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを判定する。
端末制御部28は、ステップS13において、終了ボタンが押されていないと判定する(ステップS13:NO)と、音声データの送信を継続しつつステップS13を繰り返し、終了ボタンが押されたか否かを再び判定する。
端末制御部28は、ステップS13において、終了ボタンが押されたと判定する(ステップS13:YES)と、送受信部19からの音声データの送信を終了する(ステップS14)。端末制御部28は、ステップS14の実行後、音声データ送信ルーチンRT1を終了し、音声データ送信ルーチンRT1を繰り返し実行する。
図6は、サーバ11のサーバ制御部35によって実行されるルーチンの一例であるタイプ推定ルーチンRT2を示すフローチャートである。例えば、サーバ制御部35は、サーバ11の電源がONになるとタイプ推定ルーチンRT2を開始する。
サーバ制御部35は、タイプ推定ルーチンRT2を開始すると、送受信部33を介して、端末13からの音声データの受信を待機する(ステップS21)。
サーバ制御部35は、ステップS21の実行後、所定時間以上の音声データを受信したか否かを判定する(ステップS22)。ステップS22において、サーバ制御部35は、例えば、送受信部33を介して、音声が発せられている時間が所定の時間以上となる音声データを受信したか否かを判定する。なお、当該所定時間は、例えば15秒であってもよく、例えば30秒であってもよい。
ステップS22において、サーバ制御部35は、所定時間以上の音声データを取得していないと判定(ステップS22:NO)すると、ステップS21に戻り、音声データの受信を再び待機する。
ステップS22において、サーバ制御部35は、所定時間以上の音声データを取得したと判定する(ステップS22:YES)と、音響特徴量抽出部37に当該受信した音声データから顧客音声データの音響特徴量を抽出させる(音響特徴量取得ステップとしてのステップS23)。ステップS23において、音響特徴量抽出部37は、例えば、顧客CLの音声の特徴又は特性として、声の大きさ、声の高さ、音色等の特性を示す数値を当該受信した音声データに基づいて算出する。
ステップS23において、音響特徴量抽出部37は、例えば、顧客音声データの音声波形の音素の間隔から顧客CLの話す速さを示す数値を算出する。また、ステップS23において、例えば、音響特徴量抽出部37は、顧客音声データの基本周波数から、声の高さに関する特徴を示す数値を算出する。
サーバ制御部35は、ステップS23の実行後、ステップS23において抽出された音響特徴量に基づいて、感情特定部39に顧客CLの感情を特定させる(感情特定ステップとしてのステップS24)。ステップS24において、例えば、感情特定部39は、ステップS23において抽出された音響特徴量が、人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。
例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。
サーバ制御部35は、ステップS24の実行後、タイプ推定部41にタイプ推定サブルーチンを実行させ、顧客CLのコミュニケーションタイプを推定する(推定ステップとしてのステップS25)。ステップS25において、例えば、タイプ推定部41は、ステップS23において抽出された顧客CLの音響特徴量と、ステップS24において特定された顧客CLの感情と、に基づいて、学習モデルを用いて、顧客CLのコミュニケーションタイプを特定する。ステップS25において、例えば、タイプ推定部41は、顧客CLのコミュニケーションタイプが、4つのコミュニケーションタイプのいずれに該当するかを特定する。
サーバ制御部35は、ステップS25の実行後、アドバイス生成部45に、ステップS25における推定結果に基づいて、顧客CLとのコミュニケーションに関するユーザURに対するアドバイスを含むアドバイス情報を生成させる(ステップS26)。ステップS26において、例えば、アドバイス生成部45は、コミュニケーションタイプの各々に予め対応付けられたアドバイスの中から、ステップS25において特定されたコミュニケーションタイプに該当するアドバイスを選択してアドバイス情報を生成する。例えば、アドバイス情報には、顧客CLとの会話において推奨される話題や話の進め方を示す情報が含まれる。
サーバ制御部35は、ステップS26の実行後、送受信部33を介して、ステップS25において生成されたアドバイス情報を端末13に送信する(ステップS27)。
サーバ制御部35は、ステップS27の実行後、タイプ推定ルーチンRT2を終了し、その後タイプ推定ルーチンRT2を繰り返し実行する。
図7は、タイプ推定ルーチンRT2(図6)のステップS25において、サーバ制御部35のタイプ推定部41によって実行されるタイプ推定サブルーチンRT3を示すフローチャートである。
タイプ推定部41は、タイプ推定サブルーチンを開始すると、顧客CLが発した音声の音響特徴量を示す情報及び顧客CLの感情を示す情報を学習モデルに入力する(ステップS31)。ステップS31において、例えば、タイプ推定部41は、図4に示したような、学習モデル記憶部47Aに記憶されているニューラルネットワークに当該音響特徴量を示す情報及び感情を示す情報を入力する。
音響特徴量を示す情報は、例えば、「話す速さ」、「基本周波数の標準偏差」等の各項目を所定の方法で数値化して得られる数値であってもよい。また、感情を示す情報は、所定の感情の種類を示す項目に予め割り当てられた数値であってもよい。
タイプ推定部41は、ステップS31の実行後、学習モデルから出力された情報を取得する(ステップS32)。ステップS32において、例えば、タイプ推定部41は、顧客CLのコミュニケーションタイプが、4つのコミュニケーションタイプの各々に適合する確率を示す数値を取得する。
タイプ推定部41は、ステップS32の実行後、顧客CLのコミュニケーションタイプがいずれのコミュニケーションタイプに該当するかを特定する(ステップS33)。ステップS33において、例えば、タイプ推定部41は、ステップS32において取得した4つの数値のうち、最も大きい数値に対応するコミュニケーションタイプを顧客CLのコミュニケーションとして特定する。
タイプ推定部41は、ステップS33の実行後、タイプ推定サブルーチンを終了する。
図8は、端末制御部28によって実行されるルーチンの一例であるメッセージ表示ルーチンRT4を示すフローチャートである。端末制御部28は、例えば、端末13の電源がONになると、メッセージ表示ルーチンRT4を開始する。
端末制御部28は、メッセージ表示ルーチンRT4を開始すると、スタートボタンが押されたか否かを判定する(ステップS41)。ステップS41において、端末制御部28は、入出力部26を介して、タッチパネル15に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。
端末制御部28は、ステップS41において、スタートボタンが押されていないと判定する(ステップS41:NO)と、メッセージ表示ルーチンRT4の最初に戻り、スタートボタンが押されたか否かを再び判定する。
端末制御部28は、ステップS41において、スタートボタンが押されたと判定する(ステップS41:YES)と、サーバ11からのアドバイス情報の受信を待機する(ステップS42)。
端末制御部28は、ステップS42の実行後、送受信部19を介してアドバイス情報をサーバ11から受信したか否かを判定する(ステップS43)。
端末制御部28は、ステップS43において、アドバイス情報を受信したと判定する(ステップS43:YES)と、当該受信したアドバイス情報に基づいて、表示制御部29を介して、タッチパネル15にメッセージを表示させる(ステップS44)。例えば、ステップS44において、「結論を先に話しましょう」、「まずは世間話をしてみましょう」、「相手を立てるような態度で話しましょう」などのメッセージがタッチパネル15に表示される。
端末制御部28は、ステップS43において、アドバイス情報を受信していないと判定した(ステップS43:NO)場合又はステップS44の実行後、終了ボタンが押されたか否かを判定する(ステップS45)。ステップS45において、端末制御部28は、タッチパネル15に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを判定する。
端末制御部28は、ステップS45において、終了ボタンが押されていないと判定する(ステップS45:NO)と、ステップS42に戻り、アドバイス情報の受信を再び待機する。
端末制御部28は、ステップS45において、終了ボタンが押されたと判定する(ステップS45:YES)と、サーバ11からのアドバイス情報の受信の待機を終了する(ステップS46)。
端末制御部28は、ステップS46の終了後、メッセージ表示ルーチンRT4を終了し、その後メッセージ表示ルーチンRT4を繰り返し実行する。
以上、説明したように、本実施例の情報処理装置としての情報処理システム10によれば、ユーザのコミュニケーションの相手である1の人物の音声に基づいて、当該音声の音響特徴量を抽出し、当該音響特徴量から、当該1の人物の感情を特定することができる。また、当該音響特徴量を示す情報及び当該1の人物の感情を示す情報に基づいて、学習モデルを用いて、1の人物のコミュニケーションタイプを推定することができる。
従って、1の人物が抱いている感情が影響して、1の人物の発する音声の特徴に変化があっても、感情の影響を軽減して適切にコミュニケーションタイプを推定することができる。従って、ユーザのコミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供することができる。
さらに、情報処理システム10によれば、適切にコミュニケーションタイプを推定することによって、コミュニケーションタイプに応じた適切なアドバイスを含むメッセージをユーザに提供することができる。従って、ユーザはより円滑にコミュニケーションを進めることができる。
[変形例1]
図9〜11を参照しつつ、本実施例の変形例1の情報処理システム10について説明する。変形例1の情報処理システム10は、実施例において説明した情報処理システム10と同様に構成されており、感情の特定に関する情報処理のみが異なる。
具体的には、変形例1は、相手の人物(顧客CL)のコミュニケーションタイプの推定の際に、音響特徴量を示す情報及び感情を示す情報を用いる点で実施例と共通する。実施例では、顧客CLの感情は、音響特徴量に基づいて特定される。これに対して、本変形例1では、顧客CLの感情は、ユーザURと顧客CLとの間のコミュニケーションの状況を示す情報である状況情報に基づいて特定される。
例えば、ユーザURと顧客CLとの間のコミュニケーションの状況は、コミュニケーションタイプの推定に用いる音響特徴量の抽出元の音声が顧客CLによって発せられた際の状況である。
コミュニケーションの状況は、例えば、商談、面接、販売店における接客といった場面そのものであるか又は場面に基づいて特定される。さらに、場面の情報に加えて、例えば、コミュニケーションに関わる人物の年齢や性別、出身地、使用言語、職業、学歴、経歴等の事項も、コミュニケーションの状況の特定に資する情報となる。
コミュニケーションをとる際に、人の感情は、上記のような状況に影響されることが多いことから、本変形例1では、コミュニケーションの状況を示す情報に基づいてコミュニケーションの相手の感情を特定する。本変形例1について、上記の実施例と同様に、ユーザURが顧客CLと商談をする場面を例にして以下に説明する。
図9は、端末13のタッチパネル15に表示される操作画面の一例である操作画面15Aを示している。図9に示す操作画面は、例えば、ユーザURによって、コミュニケーションタイプに関する情報処理の開始を指示する操作が行われた際(例えばスタートボタンが押された際)に表示される。
図9に示すように、操作画面15Aには、ユーザURに対してコミュニケーションの場面の選択を促すメッセージが表示されている。当該メッセージの下方には、「接客」「面接」「商談」のボタンが表示されている。ユーザURは、例えばこれから行うコミュニケーションの場面に最も近い項目を選択する。
例えば、ユーザURが行うコミュニケーションの場面が小売店や百貨店の店舗内での接客の場面である場合には「接客」がコミュニケーションの場面に最も近い項目となる。例えば、ユーザURが行うコミュニケーションの場面が採用面接であり、例えばユーザURが面接官を担当する場合には「面接」がコミュニケーションの場面に最も近い項目となる。
本変形例1において、ユーザURが行うコミュニケーションの場面は商談の場面であるため、ユーザURは「商談」の項目を選択する。なお、操作画面15Aに表示されるコミュニケーションの場面の選択肢は、図9に示した例に限られない。例えば、図9に示した項目以外にも、さらに多数の項目が含まれていてもよい。
図10は、本変形例1において、端末13の端末制御部28によって実行されるルーチンの一例である状況情報送信ルーチンRT5を示すフローチャートである。例えば、端末制御部28は、端末13の電源がONになると、状況情報送信ルーチンRT5を開始する。
端末制御部28は、状況情報送信ルーチンRT5を開始すると、入出力部26を介して、スタートボタンが押されたか否かを判定する(ステップS51)。ステップS51において、端末制御部28は、タッチパネル15に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。
端末制御部28は、ステップS51において、スタートボタンが押されていないと判定する(ステップS51:NO)と、ステップS51を繰り返し、スタートボタンが押されたか否かを再び判定する。
端末制御部28は、ステップS51において、スタートボタンが押されたと判定する(ステップS51:YES)と、コミュニケーションの状況を示す情報(状況情報)の入力を待機する(ステップS52)。
端末制御部28は、ステップS52の実行後、入出力部26を介して、状況情報が入力されたか否かを判定する(ステップS53)。ステップS53において、例えば、端末制御部28は、図9に示したような操作画面15Aに表示された場面を示す項目のうち、いずれかの場面がタッチパネル15に対する操作によって選択された場合に、状況情報が入力されたと判定する。
端末制御部28は、状況情報が入力されたと判定する(ステップS53:YES)と、状況情報を端末13に送信する(ステップS54)。
端末制御部28は、状況情報が入力されていないと判定(ステップS53:NO)した場合又はステップS54の実行後、終了ボタンが押されたか否かを判定する(ステップS55)。
ステップS55において、端末制御部28は、例えばタッチパネル15に表示された操作画面によって、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを入出力部26を介して判定する。
端末制御部28は、ステップS55において、終了ボタンが押されていないと判定する(ステップS55:NO)と、ステップS52に戻り、状況情報の入力を再び待機する。
端末制御部28は、ステップS55において、終了ボタンが押されたと判定する(ステップS55:YES)と、状況情報送信ルーチンRT5を終了し、その後、状況情報送信ルーチンRT5を繰り返し実行する。
図11は、本変形例1において、サーバ11のサーバ制御部35によって実行されるルーチンの一例であるタイプ推定ルーチンRT6を示すフローチャートである。図11において、図6に示したタイプ推定ルーチンRT2におけるステップと実質的に同一又は等価なステップには同一の参照符号を付している。
具体的には、タイプ推定ルーチンRT2は感情の特定を行うステップS24を含む(図6)。ステップS24における感情の特定は、音響特徴量に基づいて行われる。これに対して、本変形例1では、状況情報に基づいて感情の特定が行われる。
タイプ推定ルーチンRT6は、ステップS24の代わりにステップS61〜S63を含む点でタイプ推定ルーチンRT2と異なり、その他の点においてはRT2と同様のルーチンである。
サーバ制御部35は、タイプ推定ルーチンRT6を開始すると、端末13からの状況情報の受信を待機する(ステップS61)。
サーバ制御部35は、ステップS61の実行後、端末13から送受信部33を介して状況情報を受信したか否かを判定する(ステップS62)。ステップS62において、サーバ制御部35は、状況取得部として機能する。ステップS62において、サーバ制御部35は、状況情報を受信していないと判定する(ステップS62:NO)と、ステップS61に戻り、再び状況情報を待機する。
ステップS62において、サーバ制御部35は、状況情報を受信したと判定する(ステップS62:YES)と、ステップS62において端末13から受信した状況情報に基づいて、感情特定部39に顧客CLの感情を特定させる(感情特定ステップとしてのステップS63)。
ステップS63において、例えば、感情特定部39は、ステップS62において端末13から受信した、コミュニケーションの状況を示す状況情報が、人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。例えば、人の感情の種類を示す所定の複数の項目は、コミュニケーションの状況を示す複数の状況に予め対応付けられている。例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。
サーバ制御部35は、ステップS63の実行後、タイプ推定ルーチンRT2と同様に、ステップS21〜ステップS23を実行して音響特徴を抽出する。その後、推定ステップとしてのステップS25に移り、タイプ推定サブルーチンにおいて、感情を示す情報及び音響特徴量に基づいて顧客CLのコミュニケーションタイプを推定する。
その後、サーバ制御部35は、アドバイス生成部45に、ステップS25における推定結果に基づいて、顧客CLとのコミュニケーションに関するユーザURに対するアドバイスを含むアドバイス情報を生成させ(ステップS26)、送受信部33を介して、ステップS25において生成されたアドバイス情報を端末13に送信する(ステップS27)。サーバ制御部35は、ステップS27の実行後、タイプ推定ルーチンRT6を終了し、その後タイプ推定ルーチンRT6を繰り返し実行する。
なお、タイプ推定ルーチンRT6において、ステップS61〜ステップS63がステップS21〜ステップS23よりも後に実行されてもよい。また、ステップS61〜ステップS63とステップS21〜ステップS23とは並行して実行されてもよい。
以上、説明したように、本変形例1の情報処理装置としての情報処理システムによれば、ユーザURによるコミュニケーションが行われている場面等の状況に基づいて、顧客CLの感情を特定することができる。また、本変形例1の情報処理システムによれば、コミュニケーションが行われる状況に基づいて特定された顧客CLの感情を示す情報及び顧客CLが発した音声の音響特徴量に基づいて、学習モデルを用いて、顧客CLのコミュニケーションタイプを推定することができる。
[変形例2]
図12及び図13を参照しつつ、本実施例の変形例2の情報処理システム10について説明する。変形例2の情報処理システム10は、実施例において説明した情報処理システム10と同様に構成されており、コミュニケーションタイプの推定に関する情報処理のみが異なる。
具体的には、変形例2は、コミュニケーションタイプの推定に学習モデルを用いる点で上記の実施例と共通する。上述のように、実施例で用いる学習モデルは、音響特徴量を示す数値及び感情を示す数値を入力とし、コミュニケーションタイプの推定結果を示す数値を出力とするように構築されている。これに対して、本変形例2では、感情毎に別々の学習モデルが構築されており、各々の学習モデルは、音響特徴量を示す数値を入力とし、コミュニケーションタイプの推定結果を出力とするように構築されている。
図12は、変形例2において顧客CLのコミュニケーションタイプの推定に用いられる学習モデルの一例であり、学習モデル記憶部47Aに記憶されている学習モデルME1〜ME3を模式的に示す図である。変形例2において、学習モデルME1〜ME3は、人の感情の種類を示す「平静」、「緊張」、及び「怒り」の夫々について構築されている例について説明する。
学習モデルME1〜ME3の各々は、図4に示した学習モデルM1と同様に、ディープラーニング(深層学習)によって構築されたニューラルネットワークであり、入力層、3つの中間層(隠れ層)及び出力層から構成されている。なお、中間層の数は、3つに限られず2つ以上であればよい。
図12に示すように、学習モデルME1〜ME3の各々は、9項目の音響特徴量の各々をそれぞれ示す9個の数値であるAU1〜AU9を入力としている。
また、図12に示すように、学習モデルME1〜ME3の各々は、顧客CLのコミュニケーションタイプが、ソーシャルコミュニケーション理論による4つのコミュニケーションタイプの各々に適合する確率を示す数値が出力としている。
例えば、顧客CLの感情が「平静」に該当すると特定された場合、学習モデルME1〜ME3のうち感情「平静」についての学習モデルME1の入力層において、顧客CLが発した音声に基づく音響特徴量を示す数値AU1〜AU9が入力される。
当該入力がなされると、出力層では、入力された情報に係る人物である顧客CLのコミュニケーションタイプが、ソーシャルスタイル理論に基づく4つのコミュニケーションタイプである「思考派タイプ(Driver)」、「行動派タイプ(Analytical)」、「協調派タイプ(Amiable)」、及び「感覚派タイプ(Expressive)」の各々に適合する確率を示す4つの数値が出力される。
すなわち、学習モデルME1〜ME3の各々は、人の音響特徴量を入力とし、人のコミュニケーションタイプを示す情報を出力とするように構築されている。
例えば、感情「平静」についての学習モデルME1は、以下のようにして構築される。例えば、1の協力者が会話をしている際に抱いていた感情を特定するとともに、当該会話の際の音声データを取得して、当該音声データから音響特徴量を抽出する。また、当該1の協力者に対して実施されたアンケートの結果から当該1の協力者のコミュニケーションタイプを特定する。このように、感情、音響特徴量及びコミュニケーションタイプを対応付けたデータのセットを多数収集する。
収集したデータのセットの中から、感情が「平静」であった場合のデータのセットのみを抽出し、抽出されたデータのセットに含まれるコミュニケーションタイプを正解データとする。正解データの各々に対応する音響特徴量を入力データとする。
感情が「平静」の場合の入力データを複数の中間層を有するニューラルネットワークに入力して、出力が正解データのコミュニケーションタイプとなるように、ニューラルネットワークのパラメータを誤差逆伝搬法によって更新しながら学習を行う。このような学習を、多数の正解データと入力データとの対について行うことで、学習モデルME1を構築することができる。
同様にして、感情が「緊張」の場合について学習を行うことで学習モデルME2を構築し、感情が「怒り」の場合について学習を行うことで学習モデルME3を構築することができる。
なお、学習に用いる感情の特定は、例えば、実施例にて説明したような音響特徴量に基づいて行われてもよく、本変形例2と同様に協力者が音声を発した際のコミュニケーションの状況に基づいて行われてもよい。
図13は、本変形例2において、サーバ制御部35のタイプ推定部41によって実行されるタイプ推定サブルーチンRT7を示すフローチャートである。本変形例2において、上記の実施例のタイプ推定ルーチンRT2(図6)及び変形例1のタイプ推定ルーチンRT6(図11)が適用される。タイプ推定サブルーチンRT7は、タイプ推定ルーチンRT2(図6)のステップS25又はタイプ推定ルーチンRT6(図11)のステップS25において実行される。
タイプ推定部41は、タイプ推定サブルーチンを開始すると、顧客CLの感情に対応する学習モデルを選択する(ステップS71)。例えば、ステップS71において、タイプ推定部41は、感情の種類毎に構築された複数の学習モデルの中から、タイプ推定ルーチンRT2のステップS24又はタイプ推定ルーチンRT6のステップS63において特定された顧客CLの感情に対応する学習モデルを選択する。例えば、ステップS71において、顧客CLの感情が「平静」である場合に、感情「平静」に対応するように構築された学習モデルME1(図12)が選択される。
タイプ推定部41は、ステップS71の実行後、選択した学習モデルに音響特徴量を示す数値を入力する(ステップS72)。ステップS72において、例えば、タイプ推定部41は、図12に示したような、学習モデル記憶部47Aに記憶されているニューラルネットワークに音響特徴量を示す数値AU1〜AU9を入力する。
タイプ推定部41は、ステップS72の実行後、学習モデルから出力された情報を取得する(ステップS73)。ステップS73において、例えば、タイプ推定部41は、顧客CLのコミュニケーションタイプが、4つのコミュニケーションタイプの各々に適合する確率を示す数値を取得する。
タイプ推定部41は、ステップS73の実行後、顧客CLのコミュニケーションタイプがいずれのコミュニケーションタイプに該当するかを特定する(ステップS74)。ステップS74において、例えば、タイプ推定部41は、ステップS73において取得した4つの数値のうち、最も大きい数値に対応するコミュニケーションタイプを顧客CLのコミュニケーションとして特定する。
タイプ推定部41は、ステップS74の実行後、タイプ推定サブルーチンを終了する。
以上、説明したように、本変形例2の情報処理装置としての情報処理システム10によれば、ユーザのコミュニケーションの相手である1の人物の音声に基づいて、当該音声の音響特徴量を抽出し、当該音響特徴量から、1の人物のコミュニケーションタイプを推定することができる。当該コミュニケーションタイプの推定の際に、所定の感情の種類毎に構築された学習モデルの中から、当該1の人物の感情に対応する学習モデルを選択して推定に用いることができる。
従って、1の人物の発する音声の特徴に当該1の人物が抱いている感情が影響しても、感情毎に構築された学習モデルを用いることで感情の影響を軽減して適切にコミュニケーションタイプを推定することができる。従って、ユーザのコミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供することができる。
さらに、ユーザは、コミュニケーションタイプの推定結果から、コミュニケーションタイプに応じた適切なアドバイスを含むメッセージを端末13を介して受け取ることができ、より円滑にコミュニケーションを進めることができる。
なお、上記の変形例2において、コミュニケーションの状況から感情を特定し、感情毎に構築された学習モデルを用いてコミュニケーションタイプの推定を行う例について説明したが、これに限られない。例えば、コミュニケーションの状況を示す情報毎に構築された学習モデルを用いて、コミュニケーションの状況に応じた学習モデルを選択してコミュニケーションタイプの推定を行うこととしてもよい。
なお、上記の実施例及び変形例において、本発明の情報処理装置としての情報処理システム10がサーバ11及び端末13を含む例について説明したが、これに限られない。例えば、サーバ11の音響特徴量抽出部37、感情特定部39、タイプ推定部41、アドバイス生成部45、及び学習モデル記憶部47Aに相当する構成を全て端末13が備えていてもよい。
また、顧客CLが一人である場合の例について説明したが、複数人についてタイプ推定を行ってもよい。例えば複数の人物の音声データの各々について並行して情報処理を進めることとしてもよい。
また、上記の実施例及び変形例において、感情の特定に学習モデルを用いてもよい。例えば、実施例又は変形例2において、音響特徴量を示す数値を入力とし、感情の種類を示す数値を出力とするように構築された学習モデルを用いて感情を特定してもよい。
また、例えば、変形例1において、コミュニケーションの状況を示す数値を入力とし、感情の種類を示す数値を出力とするように構築された学習モデルを用いて感情を特定してもよい。
上述した実施例及び変形例における構成は例示に過ぎず、用途等に応じて適宜選択及び変更可能である。