JP2021162627A

JP2021162627A - 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Info

Publication number: JP2021162627A
Application number: JP2020061471A
Authority: JP
Inventors: 優福川; Masaru Fukugawa; 貴祐丹野; Takahiro Tanno
Original assignee: Pioneer Electronic Corp; Pioneer System Technologies Corp
Current assignee: Pioneer Corp; Pioneer System Technologies Corp
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2021-10-11

Abstract

【課題】コミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供する。【解決手段】サーバ及び端末を含んでいる情報処理システムにおいて、サーバ１１は、１の人物が発した音声の音響特徴量を取得する音響特徴量抽出部３７と、音響特徴量に基づいて１の人物の感情を特定する感情特定部３９と、学習モデルを用いて、感情を示す情報及び音響特徴量を示す情報に基づいて１の人物のコミュニケーションタイプを推定するタイプ推定部４１と、を有する。【選択図】図３

Description

本発明は、情報処理装置、情報処理方法、情報処理プログラム及び記録媒体に関し、例えば、ユーザが１の人物との間で会話を含むコミュニケーションをとる際に利用可能な情報処理装置、情報処理方法、情報処理プログラム及び記録媒体に関する。

人と人とのコミュニケーション、特にコールセンタのオペレータ等の業務上必要となるコミュニケーションは、様々なタイプの相手に対応する必要があり、人によっては困難に感じる場合や良い結果が得られ難い場合がある。そのため、コミュニケーションを改善する手法が提案されている。

例えば、特許文献１には、顧客の音声及びオペレータの音声を分析し、顧客の音声における音圧及び／又は周波数に基づいて顧客の顧客タイプを評価するための第１の評価軸の値を算出し、顧客の音声とオペレータの音声との重なりに基づいて、顧客の顧客タイプを評価するための第２の評価軸の値を算出し、第１の評価軸の値及び第２の評価軸の値に基づいて、顧客の顧客タイプを特定し、オペレータ端末の画面に表示させるコールセンタ装置が開示されている。

特許第６５６７７２９号公報

例えば、上記のように、コミュニケーションの相手の音声を分析して相手のタイプを特定する際に、相手が同一人物であっても、例えば体調や気分によって抱いている感情が異なる場合や、緊張感のある場面やリラックスした場面といったその場の状況に影響されて抱いている感情が異なる場合がある。そのような場合、当該相手の感情が話し方に影響し、タイプの特定が困難な場合があることが課題の１つとして挙げられる。

本発明は上記した点に鑑みてなされたものであり、コミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供することを目的の１つとしている。

請求項１に記載の発明は、１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定部と、を有することを特徴とする。

請求項２に記載の発明は、１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、前記音声が発せられた際の状況を示す情報を取得する状況取得部と前記状況を示す情報に基づいて前記１の人物の感情を特定する感情特定部と、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定部と、を有することを特徴とする。

請求項８に記載の発明は、１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、人の感情を示す情報及び人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とする学習モデルを用いて、前記１の人物の感情を示す情報及び前記音響特徴量を示す情報から前記１の人物のコミュニケーションタイプを推定する推定部と、を有することを特徴とする。

請求項９に記載の発明は、１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とするように、人の感情の種類を示す所定の複数の項目毎に構築された複数の学習モデルを用いて、前記１の人物の感情を示す情報及び前記音響特徴量を示す情報から前記１の人物のコミュニケーションタイプを推定する推定部と、を有することを特徴とする。

請求項１０に記載の発明は、情報処理装置が情報処理を行う情報処理方法であって、音響特徴量取得部が、１の人物が発した音声の音響特徴量を取得する音響特徴量取得ステップと、感情特定部が、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定ステップと、推定部が、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定ステップと、を含むことを特徴とする。

請求項１１に記載の発明は、コンピュータを備える情報処理装置によって実行される情報処理プログラムであって、前記コンピュータに、音響特徴量取得部が、１の人物が発した音声の音響特徴量を取得する音響特徴量取得ステップと、感情特定部が、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定ステップと、推定部が、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定ステップと、を実行させることを特徴とする。

実施例に係る情報処理装置を用いたコミュニケーションの例を模式的に示す図である。実施例に係る端末の構成を示す機能ブロック図である。実施例に係るサーバの構成を示す機能ブロック図である。実施例に係る学習モデルの例を模式的に示す図である。実施例の端末によって実行されるルーチンの一例を示すフローチャートである。実施例のサーバによって実行されるルーチンの一例を示すフローチャートである。実施例のサーバによって実行されるサブルーチンの一例を示すフローチャートである。実施例の端末によって実行されるルーチンの一例を示すフローチャートである。実施例の変形例１に係る操作画面の一例を示す図である。変形例１の端末において実行されるルーチンの一例を示すフローチャートである。変形例１のサーバにおいて実行されるルーチンの一例を示すフローチャートである。変形例２に係る学習モデルの例を模式的に示す図である。変形例２のサーバにおいて実行されるサブルーチンの一例を示すフローチャートである。

以下に本発明の実施例について詳細に説明する。なお、以下の説明及び添付図面においては、実質的に同一又は等価な部分には同一の参照符号を付している。

図１は、本発明の実施例に係る情報処理装置としての情報処理システム１０を利用したコミュニケーションの一例として、ユーザＵＲが１の人物としての顧客ＣＬとの間で会話を中心としたコミュニケーションをとっている様子を示す図である。具体的には、図１は、営業職のユーザＵＲが顧客ＣＬと商談を行っている様子を示している。当該商談において、例えば、最初に挨拶を交わし、その後、ユーザＵＲによる商品説明が行われ、これに対して顧客ＣＬが購入の意思の有無を示すといった内容の会話が進められる。

コミュニケーションの取り方の特性は、人によって異なる場合がある。例えば、人のコミュニケーションの取り方の特性は、予め定められた幾つかのタイプに分類することができる。本明細書において、人によって異なるコミュニケーションの取り方の特性をコミュニケーションタイプとして説明する。

また、以下の説明において、コミュニケーションタイプの分類手法の一例として、ソーシャルスタイル理論に基づく４つのコミュニケーションタイプを例に説明する。具体的には、本実施例において、４つのコミュニケーションタイプ「思考派タイプ（Driver）」、「行動派タイプ（Analytical）」、「協調派タイプ（Amiable）」、及び「感覚派タイプ（Expressive）」を用いて説明する。

上述のように、コミュニケーションタイプは、人によって異なる場合があるので、相手のコミュニケーションタイプによって、適切な対応も異なる場合がある。例えば、ある相手に対しては、結論を早く伝えることが有効な場合がある一方で、別の相手に対しては、順を追って説明した方が有効な場合もある。例えば、交渉を含むコミュニケーションでは、対応の仕方によって交渉の結果が変わる可能性もある。従って、顧客ＣＬのコミュニケーションタイプに適した対応を知ることは、ユーザＵＲが顧客ＣＬとのコミュニケーションをより円滑に進めるために有効である。

情報処理システム１０は、ユーザＵＲと顧客ＣＬとのコミュニケーションにおいて、顧客ＣＬのコミュニケーションタイプを推定することが可能であり、当該コミュニケーションに関するアドバイスを含むメッセージをユーザＵＲに提示することが可能なシステムである。

図１に示すように、情報処理システム１０は、サーバ１１及び端末１３を含んでいる。サーバ１１は、例えば、ユーザＵＲが居る場所とは別の場所に設置されているサーバ装置である。

端末１３は、例えば、ユーザＵＲが使用しているスマートフォン又はタブレット等の端末装置である。端末１３は、タッチパネル１５を有している。タッチパネル１５は、操作画面やメッセージの表示及び表示された画面に対する操作入力を受付け可能に構成されたタッチパネルディスプレイである。

サーバ１１と端末１３とは、ネットワークを介して相互にデータの送受信が可能である。例えば、当該送受信には、ＴＣＰ／ＩＰ等の通信プロトコルが用いられる。また、当該ネットワークは、移動体通信網、Ｗｉ−Ｆｉ（登録商標）等の無線通信及び有線通信を含むインターネット通信により構築され得る。

サーバ１１は、端末１３から受信した情報に基づいて、コミュニケーションタイプの推定に関する情報処理を行う。具体的には、端末１３は、例えば端末１３に内蔵されたマイク（図示せず）によって、顧客ＣＬが発する音声から音声データを取得してサーバ１１に送信する。サーバ１１は、当該音声データを用いて顧客ＣＬのコミュニケーションタイプを推定する。サーバ１１は、顧客ＣＬとのコミュニケーションに関するアドバイスを含むアドバイス情報を生成して端末１３に送信する。端末１３は、アドバイス情報に基づいて、メッセージをタッチパネル１５に表示することでメッセージをユーザＵＲに提示する。

図２は、端末１３の構成を示すブロック図である。端末１３は、例えばシステムバス１７を介して各部が接続されて構成されている。

送受信部１９は、無線装置に接続されたＮＩＣ（Network Interface Card）等のネットワークアダプタである。送受信部１９は、サーバ１１との間でデータの送受信を行う。送受信部１９は、例えば、コミュニケーションタイプの推定に必要なデータをサーバ１１に送信する。

また、送受信部１９は、コミュニケーションタイプの推定結果に関する情報をサーバ１１から受信する。例えば、送受信部１９は、顧客ＣＬのコミュニケーションタイプの推定結果が反映されたアドバイスを含む情報であるアドバイス情報をサーバ１１から受信する。

記憶部２１は、例えば、ハードディスク装置、ＳＳＤ（solid state drive）、フラッシュメモリ等により構成された記憶装置である。記憶部２１は、端末１３における情報処理を行うための各種プログラムを記憶する。なお、各種プログラムは、例えば他のサーバ装置等からネットワークを介して取得されるようにしてもよい。

音声入力部２３は、マイク２４に接続されている。マイク２４は、例えば端末１３に内蔵されたマイクである。音声入力部２３は、マイク２４から音声データを取得するインターフェースである。例えば、音声入力部２３が取得した音声データは、送受信部１９によってサーバ１１に送信される。

入出力部２６は、タッチパネル１５に接続されている。入出力部２６は、タッチパネル１５を介した操作入力を受け付けるインターフェースである。また、入出力部２６は、タッチパネル１５に表示する画像データを供給するインターフェースである。例えば、入出力部２６は、操作画面を表示するための画像データをタッチパネル１５に供給する。例えば、入出力部２６は、タッチパネル１５に対するユーザＵＲによる操作入力を受け付ける。例えば、入出力部２６は、ユーザＵＲが顧客ＣＬのコミュニケーションタイプの推定の開始を指示する操作の入力を受け付ける。

端末制御部２８は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を含み、端末１３の動作の制御を行うコンピュータである。端末制御部２８において、ＣＰＵが、ＲＯＭや記憶部２１に記憶された各種プログラムを読み出して実行することにより各種機能を実現する。

表示制御部２９は、端末制御部２８の機能部である。表示制御部２９は、タッチパネル１５に画像を表示させる制御する。例えば、表示制御部２９は、操作用の画面をタッチパネル１５に表示させる制御を行う。また、表示制御部２９は、サーバ１１から送受信部１９を介して取得したアドバイス情報に基づいて、ユーザＵＲに対するメッセージを表示画面としてのタッチパネル１５に表示させる制御を行う。

図３は、サーバ１１の構成を示すブロック図である。サーバ１１は、例えばシステムバス３１を介して各部が接続されて構成されている。

送受信部３３は、無線装置に接続されたＮＩＣ（Network Interface Card）等のネットワークアダプタである。送受信部３３は、端末１３との間でデータの送受信を行う。送受信部３３は、例えば、コミュニケーションタイプの推定に必要なデータを端末１３から受信する。また、送受信部３３は、コミュニケーションタイプの推定結果に基づくデータを端末１３に送信する。例えば、送受信部３３は、顧客ＣＬとのコミュニケーションに関するアドバイスを含むアドバイス情報を端末１３に送信する。

サーバ制御部３５は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及び（Random Access Memory）を含み、サーバ１１の動作の制御を行うコンピュータである。ＣＰＵが、ＲＯＭに記憶された各種プログラムを読み出して実行することにより各種機能を実現する。

音響特徴量取得部としての音響特徴量抽出部３７は、サーバ制御部３５の機能部である。音響特徴量抽出部３７は、送受信部３３を介して端末１３から音声データを取得する。音響特徴量抽出部３７は、当該取得した音声データから顧客ＣＬが発声した部分を顧客音声データとして抽出する。音響特徴量抽出部３７は、顧客音声データから、顧客ＣＬの音声に含まれる物理的な特徴や特性を数値化した音響特徴量を算出する。

例えば、音響特徴量抽出部３７は、顧客ＣＬの音声の特徴又は特性として、声の大きさ、声の高さ、音色等の特性を示す数値を算出する。

例えば、音響特徴量抽出部３７は、顧客音声データから音素の時間間隔を抽出し、顧客ＣＬの話す速さを示す数値を算出する。また、例えば、音響特徴量抽出部３７は、顧客音声データの基本周波数（Ｆ_０）から、声の高さに関する特徴を示す数値を算出する。

本実施例において、音響特徴量抽出部３７は、音響特徴量として、「話す速さ」、「基本周波数の周波数偏差」、「基本周波数の歪度平均又は偏差」、「基本周波数の尖度平均又は偏差」、「基本周波数の山の長さ平均又は偏差」、「ピークデシベル平均又は偏差」、「ピーク時間平均又は偏差」、「ゼロクロス率（又はゼロクロス数）」、「ＭＦＣＣ（メル周波数ケプストラム）の次元毎の偏差と差分」の９項目の各々を示す数値を算出する例について説明する。

感情特定部３９は、サーバ制御部３５の機能部である。感情特定部３９は、音響特徴量抽出部３７によって抽出された音響特徴量に基づいて、人の感情を特定する。具体的には、感情特定部３９は、当該音響特徴量の元になった音声を発した人物が、その音声を発した際に抱いていた感情を特定する。従って、感情特定部３９は、顧客ＣＬが発した音声の音響特徴量に基づいて、顧客ＣＬが当該音声を発した際に抱いていた感情を特定する。

例えば、当該感情の特定において、感情特定部３９は、取得した音響特徴量が人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。

例えば、感情特定部３９は、予め定められた基準に従って、顧客ＣＬの感情を特定する。例えば、音響特徴量と感情の種類を示す項目との対応関係が予め定められ、当該対応関係が記載されたテーブルが感情特定部３９又は大容量記憶装置４７に記憶されていてもよい。例えば、感情特定部３９は、音響特徴量に基づいて当該テーブルを参照して感情を特定する。

また、感情特定部３９は、音声が発せられた際の状況を示す情報に基づいて、人の感情を特定してもよい。音声が発せられた際の状況は、例えば、店舗での販売員と客の会話の場面、採用面接の場面、商談の場面、コールセンタのオペレータと顧客との会話の場面等のコミュニケーションが行われている場面であってもよい。また、音声が発せられた際の状況は、例えば、緊張感のある状態、リラックスしている状態等の、ユーザがコミュニケーションを取っている相手の状態であってもよい。

例えば、当該状況を示す情報は、端末１３のタッチパネル１５から入力されてもよい。例えば、音声が発生された状況を選択するための選択画面がタッチパネル１５に表示されて、ユーザによる選択操作が受け付けられてもよい。この場合、感情特定部３９は、送受信部３３を介して状況を示す情報を取得する。

推定部としてのタイプ推定部４１は、音響特徴量抽出部３７によって抽出された１の人物（すなわち、顧客ＣＬ）の音響特徴量と、感情特定部３９によって特定された当該１の人物の感情に基づいて、１の人物のコミュニケーションタイプを推定する。タイプ推定部４１は、深層学習の手法を用いて構築された数理モデルである学習モデル（すなわち、学習済みモデル）を用いて、コミュニケーションタイプを推定する。

推論部４３は、タイプ推定部４１に含まれている。推論部４３は、学習モデルに必要な情報を入力し、当該学習モデルからコミュニケーションタイプの推定結果を出力させる。例えば、当該推定結果は、所定の複数のコミュニケーションタイプの各々と顧客ＣＬのコミュニケーションタイプとの適合度を示す数値として出力されてもよい。

また、例えば、学習モデルから出力される推定結果は、顧客ＣＬのコミュニケーションタイプがコミュニケーションタイプの各々に適合する確率を示す数値として出力されてもよく、適合する１のコミュニケーションタイプを示す数値として出力されてもよい。

タイプ推定部４１は、学習モデルからの出力に基づいて、コミュニケーションタイプの推定結果を特定する。例えば、タイプ推定部４１は、所定の複数のコミュニケーションタイプの各々と顧客ＣＬのコミュニケーションタイプとの適合度を示す数値が学習モデルから出力されると、最も大きい数値に対応するコミュニケーションタイプを選択して、コミュニケーションタイプの推定結果として特定する。

アドバイス生成部４５は、タイプ推定部４１による推定結果に基づいて、顧客ＣＬとのコミュニケーションに関するユーザＵＲに対するアドバイスを含むアドバイス情報を生成する。例えば、アドバイス情報には、顧客ＣＬとの会話において推奨される話題や話の進め方を示す情報が含まれる。例えば、アドバイス生成部４５は、コミュニケーションタイプの各々に予め対応付けられたアドバイスを選択してアドバイス情報を生成する。

大容量記憶装置４７は、例えば、ハードディスク装置、ＳＳＤ（solid state drive）、フラッシュメモリ等により構成された記憶装置である。大容量記憶装置４７は、サーバ１１における情報処理を行うための各種プログラムを記憶する。サーバ制御部３５は、大容量記憶装置４７に記憶された各種プログラムを読み出して実行することにより各種機能を実現する。

なお、各種プログラムは、例えば他のサーバ装置等からネットワークを介して取得されるようにしてもよい。また、各種プログラムは、記録媒体に記録されて各種ドライブ装置を介して読み込まれるようにしてもよい。大容量記憶装置４７に記憶される各種プログラムは、ネットワークを介して伝送可能であり、また、コンピュータ読み取り可能な記録媒体に記録して譲渡することが可能である。

大容量記憶装置４７は、学習モデル記憶部４７Ａを含む。学習モデル記憶部４７Ａは、人の感情を示す情報及び人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とする学習モデルを記憶している。学習モデル記憶部４７Ａに記憶された学習モデルは、深層学習の手法を用いて構築された数理モデルである。

タイプ推定部４１の推論部４３は、学習モデル記憶部４７Ａに記憶されている学習モデルに、音響特徴量抽出部３７によって抽出された音響特徴量を示す情報及び感情特定部３９によって特定された顧客ＣＬの感情を示す情報を入力する。例えば、当該学習モデルは、顧客ＣＬがコミュニケーションタイプの各々に適合する確率を示す数値又は顧客ＣＬのコミュニケーションタイプを示す数値を出力する。

図４は、学習モデル記憶部４７Ａに記憶されている学習モデルの一例である学習モデルＭ１を模式的に示す図である。図４において、学習モデルＭ１の出力として、顧客ＣＬのコミュニケーションタイプが、ソーシャルコミュニケーション理論による上述した４つのコミュニケーションタイプの各々に適合する確率を示す数値が出力される例について示している。

図４に示す学習モデルＭ１は、ディープラーニング（深層学習）によって構築されたニューラルネットワークである。当該ニューラルネットワークは、入力層、２つ又は３つ以上の中間層（隠れ層）及び出力層から構成されている。

例えば、学習モデルＭ１の入力層においては、９項目の音響特徴量の各々をそれぞれ示す９個の数値であるＡＵ１〜ＡＵ９及び感情を示す数値である数値ＥＭが入力される。例えば、感情を示す数値は、所定の感情の種類を示す項目に予め割り当てられた数値であってもよい。

当該入力がなされると、出力層では、入力された情報に係る人物である顧客ＣＬのコミュニケーションタイプが、ソーシャルスタイル理論に基づく４つのコミュニケーションタイプである「思考派タイプ（Driver）」、「行動派タイプ（Analytical）」、「協調派タイプ（Amiable）」、及び「感覚派タイプ（Expressive）」の各々に適合する確率を示す４つの数値が出力される。

すなわち、学習モデルＭ１は、人の音響特徴量を示す情報及び人の感情を示す情報を入力とし、人のコミュニケーションタイプを示す情報を出力とするように構築されている。

従って、学習モデルＭ１に顧客ＣＬが発した音声の音響特徴量を示す情報及び顧客ＣＬの感情を示す情報を入力すると、顧客ＣＬのコミュニケーションタイプを示す情報が出力される。なお、学習モデルＭ１は、出力層において、例えば、顧客ＣＬのコミュニケーションタイプを示す１つの数値を出力するように構築されていてもよい。

学習モデルＭ１は、例えば以下のような教師あり学習によって構築される。例えば、１の協力者に対して実施されたアンケートの結果から当該１の協力者のコミュニケーションタイプを特定して正解データとする。また、当該１の協力者が会話をしている際の音声データを取得して、当該音声データから音響特徴量を抽出する。さらに、当該１の協力者が当該音声データを取得する際に音声を発した際の感情を特定する。当該協力者の音響特徴量を示す情報及び感情を示す情報を入力データとする。

当該入力データを複数の中間層を有するニューラルネットワークに入力して、出力が正解データのコミュニケーションタイプとなるように、ニューラルネットワークのパラメータを誤差逆伝搬法によって更新しながら学習を行う。このような学習を多数の協力者について行うことで、学習モデルＭ１を構築することができる。

なお、学習に用いる感情の特定は、例えば、上記の音響特徴量に基づいて行われる。また、当該感情の特定は、当該協力者が音声を発した際の状況に基づいて行われてもよい。

さらに、学習に用いる正解データ又は入力データを準備する際に、上述したようなアンケート、音声等のデータに加えて、画像データを用いてもよい。例えば、協力者のコミュニケーションタイプを特定する際に、アンケートのみでは精度が確保できない場合もある。そのような場合に、画像データから表情、体の動き等の情報を抽出し、コミュニケーションタイプを特定する際の判断材料としてもよい。例えば、アンケート、音声データ及び画像データを組み合わせて、協力者のコミュニケーションタイプを特定することとしてもよい。

このように、画像データを組み合わせることで、協力者のコミュニケーションの傾向により良く当て嵌まるコミュニケーションタイプを正解データとすることができる。すなわち、正解データの精度を向上させることができる。従って、このような正解データを使用して構築された学習モデルによって、コミュニケーションタイプの推定の精度を向上させることができる。

同様に、学習に用いるデータのうち、入力データとなる感情の特定についても、画像データを組み合わせてもよい。例えば、音響特徴量と画像データを組み合わせて感情の特定を行うことで、感情の特定の高い精度を確保することができる。

また、画像データを組み合わせた正解データ又は入力データを用いての学習は、一旦構築された学習モデルに対して追加して行われてもよい。

さらに、学習モデル記憶部４７Ａに記憶されている学習モデルは、タイプ推定部による推定結果に基づいて更新されてもよい。

図５は、端末１３の端末制御部２８によって実行されるルーチンの一例である音声データ送信ルーチンＲＴ１を示すフローチャートである。例えば、端末制御部２８は、端末１３の電源がＯＮになると、音声データ送信ルーチンＲＴ１を開始する。

端末制御部２８は、音声データ送信ルーチンＲＴ１を開始すると、入出力部２６を介して、スタートボタンが押されたか否かを判定する（ステップＳ１１）。ステップＳ１１において、端末制御部２８は、タッチパネル１５に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。

端末制御部２８は、ステップＳ１１において、スタートボタンが押されていないと判定する（ステップＳ１１：ＮＯ）と、ステップＳ１１を繰り返し、スタートボタンが押されたか否かを再び判定する。

端末制御部２８は、ステップＳ１１において、スタートボタンが押されたと判定する（ステップＳ１１：ＹＥＳ）と、マイク２４及び音声入力部２３によって取得された音声データの送信を開始する（ステップＳ１２）。ステップＳ１２において、端末制御部２８は、送受信部１９を介して、音声データをサーバ１１への送信を開始する。

端末制御部２８は、ステップＳ１２の実行後、入出力部２６を介して、終了ボタンが押されたか否かを判定する（ステップＳ１３）。ステップＳ１３において、端末制御部２８は、タッチパネル１５に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを判定する。

端末制御部２８は、ステップＳ１３において、終了ボタンが押されていないと判定する（ステップＳ１３：ＮＯ）と、音声データの送信を継続しつつステップＳ１３を繰り返し、終了ボタンが押されたか否かを再び判定する。

端末制御部２８は、ステップＳ１３において、終了ボタンが押されたと判定する（ステップＳ１３：ＹＥＳ）と、送受信部１９からの音声データの送信を終了する（ステップＳ１４）。端末制御部２８は、ステップＳ１４の実行後、音声データ送信ルーチンＲＴ１を終了し、音声データ送信ルーチンＲＴ１を繰り返し実行する。

図６は、サーバ１１のサーバ制御部３５によって実行されるルーチンの一例であるタイプ推定ルーチンＲＴ２を示すフローチャートである。例えば、サーバ制御部３５は、サーバ１１の電源がＯＮになるとタイプ推定ルーチンＲＴ２を開始する。

サーバ制御部３５は、タイプ推定ルーチンＲＴ２を開始すると、送受信部３３を介して、端末１３からの音声データの受信を待機する（ステップＳ２１）。

サーバ制御部３５は、ステップＳ２１の実行後、所定時間以上の音声データを受信したか否かを判定する（ステップＳ２２）。ステップＳ２２において、サーバ制御部３５は、例えば、送受信部３３を介して、音声が発せられている時間が所定の時間以上となる音声データを受信したか否かを判定する。なお、当該所定時間は、例えば１５秒であってもよく、例えば３０秒であってもよい。

ステップＳ２２において、サーバ制御部３５は、所定時間以上の音声データを取得していないと判定（ステップＳ２２：ＮＯ）すると、ステップＳ２１に戻り、音声データの受信を再び待機する。

ステップＳ２２において、サーバ制御部３５は、所定時間以上の音声データを取得したと判定する（ステップＳ２２：ＹＥＳ）と、音響特徴量抽出部３７に当該受信した音声データから顧客音声データの音響特徴量を抽出させる（音響特徴量取得ステップとしてのステップＳ２３）。ステップＳ２３において、音響特徴量抽出部３７は、例えば、顧客ＣＬの音声の特徴又は特性として、声の大きさ、声の高さ、音色等の特性を示す数値を当該受信した音声データに基づいて算出する。

ステップＳ２３において、音響特徴量抽出部３７は、例えば、顧客音声データの音声波形の音素の間隔から顧客ＣＬの話す速さを示す数値を算出する。また、ステップＳ２３において、例えば、音響特徴量抽出部３７は、顧客音声データの基本周波数から、声の高さに関する特徴を示す数値を算出する。

サーバ制御部３５は、ステップＳ２３の実行後、ステップＳ２３において抽出された音響特徴量に基づいて、感情特定部３９に顧客ＣＬの感情を特定させる（感情特定ステップとしてのステップＳ２４）。ステップＳ２４において、例えば、感情特定部３９は、ステップＳ２３において抽出された音響特徴量が、人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。

例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。

サーバ制御部３５は、ステップＳ２４の実行後、タイプ推定部４１にタイプ推定サブルーチンを実行させ、顧客ＣＬのコミュニケーションタイプを推定する（推定ステップとしてのステップＳ２５）。ステップＳ２５において、例えば、タイプ推定部４１は、ステップＳ２３において抽出された顧客ＣＬの音響特徴量と、ステップＳ２４において特定された顧客ＣＬの感情と、に基づいて、学習モデルを用いて、顧客ＣＬのコミュニケーションタイプを特定する。ステップＳ２５において、例えば、タイプ推定部４１は、顧客ＣＬのコミュニケーションタイプが、４つのコミュニケーションタイプのいずれに該当するかを特定する。

サーバ制御部３５は、ステップＳ２５の実行後、アドバイス生成部４５に、ステップＳ２５における推定結果に基づいて、顧客ＣＬとのコミュニケーションに関するユーザＵＲに対するアドバイスを含むアドバイス情報を生成させる（ステップＳ２６）。ステップＳ２６において、例えば、アドバイス生成部４５は、コミュニケーションタイプの各々に予め対応付けられたアドバイスの中から、ステップＳ２５において特定されたコミュニケーションタイプに該当するアドバイスを選択してアドバイス情報を生成する。例えば、アドバイス情報には、顧客ＣＬとの会話において推奨される話題や話の進め方を示す情報が含まれる。

サーバ制御部３５は、ステップＳ２６の実行後、送受信部３３を介して、ステップＳ２５において生成されたアドバイス情報を端末１３に送信する（ステップＳ２７）。

サーバ制御部３５は、ステップＳ２７の実行後、タイプ推定ルーチンＲＴ２を終了し、その後タイプ推定ルーチンＲＴ２を繰り返し実行する。

図７は、タイプ推定ルーチンＲＴ２（図６）のステップＳ２５において、サーバ制御部３５のタイプ推定部４１によって実行されるタイプ推定サブルーチンＲＴ３を示すフローチャートである。

タイプ推定部４１は、タイプ推定サブルーチンを開始すると、顧客ＣＬが発した音声の音響特徴量を示す情報及び顧客ＣＬの感情を示す情報を学習モデルに入力する（ステップＳ３１）。ステップＳ３１において、例えば、タイプ推定部４１は、図４に示したような、学習モデル記憶部４７Ａに記憶されているニューラルネットワークに当該音響特徴量を示す情報及び感情を示す情報を入力する。

音響特徴量を示す情報は、例えば、「話す速さ」、「基本周波数の標準偏差」等の各項目を所定の方法で数値化して得られる数値であってもよい。また、感情を示す情報は、所定の感情の種類を示す項目に予め割り当てられた数値であってもよい。

タイプ推定部４１は、ステップＳ３１の実行後、学習モデルから出力された情報を取得する（ステップＳ３２）。ステップＳ３２において、例えば、タイプ推定部４１は、顧客ＣＬのコミュニケーションタイプが、４つのコミュニケーションタイプの各々に適合する確率を示す数値を取得する。

タイプ推定部４１は、ステップＳ３２の実行後、顧客ＣＬのコミュニケーションタイプがいずれのコミュニケーションタイプに該当するかを特定する（ステップＳ３３）。ステップＳ３３において、例えば、タイプ推定部４１は、ステップＳ３２において取得した４つの数値のうち、最も大きい数値に対応するコミュニケーションタイプを顧客ＣＬのコミュニケーションとして特定する。

タイプ推定部４１は、ステップＳ３３の実行後、タイプ推定サブルーチンを終了する。

図８は、端末制御部２８によって実行されるルーチンの一例であるメッセージ表示ルーチンＲＴ４を示すフローチャートである。端末制御部２８は、例えば、端末１３の電源がＯＮになると、メッセージ表示ルーチンＲＴ４を開始する。

端末制御部２８は、メッセージ表示ルーチンＲＴ４を開始すると、スタートボタンが押されたか否かを判定する（ステップＳ４１）。ステップＳ４１において、端末制御部２８は、入出力部２６を介して、タッチパネル１５に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。

端末制御部２８は、ステップＳ４１において、スタートボタンが押されていないと判定する（ステップＳ４１：ＮＯ）と、メッセージ表示ルーチンＲＴ４の最初に戻り、スタートボタンが押されたか否かを再び判定する。

端末制御部２８は、ステップＳ４１において、スタートボタンが押されたと判定する（ステップＳ４１：ＹＥＳ）と、サーバ１１からのアドバイス情報の受信を待機する（ステップＳ４２）。

端末制御部２８は、ステップＳ４２の実行後、送受信部１９を介してアドバイス情報をサーバ１１から受信したか否かを判定する（ステップＳ４３）。

端末制御部２８は、ステップＳ４３において、アドバイス情報を受信したと判定する（ステップＳ４３：ＹＥＳ）と、当該受信したアドバイス情報に基づいて、表示制御部２９を介して、タッチパネル１５にメッセージを表示させる（ステップＳ４４）。例えば、ステップＳ４４において、「結論を先に話しましょう」、「まずは世間話をしてみましょう」、「相手を立てるような態度で話しましょう」などのメッセージがタッチパネル１５に表示される。

端末制御部２８は、ステップＳ４３において、アドバイス情報を受信していないと判定した（ステップＳ４３：ＮＯ）場合又はステップＳ４４の実行後、終了ボタンが押されたか否かを判定する（ステップＳ４５）。ステップＳ４５において、端末制御部２８は、タッチパネル１５に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを判定する。

端末制御部２８は、ステップＳ４５において、終了ボタンが押されていないと判定する（ステップＳ４５：ＮＯ）と、ステップＳ４２に戻り、アドバイス情報の受信を再び待機する。

端末制御部２８は、ステップＳ４５において、終了ボタンが押されたと判定する（ステップＳ４５：ＹＥＳ）と、サーバ１１からのアドバイス情報の受信の待機を終了する（ステップＳ４６）。

端末制御部２８は、ステップＳ４６の終了後、メッセージ表示ルーチンＲＴ４を終了し、その後メッセージ表示ルーチンＲＴ４を繰り返し実行する。

以上、説明したように、本実施例の情報処理装置としての情報処理システム１０によれば、ユーザのコミュニケーションの相手である１の人物の音声に基づいて、当該音声の音響特徴量を抽出し、当該音響特徴量から、当該１の人物の感情を特定することができる。また、当該音響特徴量を示す情報及び当該１の人物の感情を示す情報に基づいて、学習モデルを用いて、１の人物のコミュニケーションタイプを推定することができる。

従って、１の人物が抱いている感情が影響して、１の人物の発する音声の特徴に変化があっても、感情の影響を軽減して適切にコミュニケーションタイプを推定することができる。従って、ユーザのコミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供することができる。

さらに、情報処理システム１０によれば、適切にコミュニケーションタイプを推定することによって、コミュニケーションタイプに応じた適切なアドバイスを含むメッセージをユーザに提供することができる。従って、ユーザはより円滑にコミュニケーションを進めることができる。

［変形例１］
図９〜１１を参照しつつ、本実施例の変形例１の情報処理システム１０について説明する。変形例１の情報処理システム１０は、実施例において説明した情報処理システム１０と同様に構成されており、感情の特定に関する情報処理のみが異なる。

具体的には、変形例１は、相手の人物（顧客ＣＬ）のコミュニケーションタイプの推定の際に、音響特徴量を示す情報及び感情を示す情報を用いる点で実施例と共通する。実施例では、顧客ＣＬの感情は、音響特徴量に基づいて特定される。これに対して、本変形例１では、顧客ＣＬの感情は、ユーザＵＲと顧客ＣＬとの間のコミュニケーションの状況を示す情報である状況情報に基づいて特定される。

例えば、ユーザＵＲと顧客ＣＬとの間のコミュニケーションの状況は、コミュニケーションタイプの推定に用いる音響特徴量の抽出元の音声が顧客ＣＬによって発せられた際の状況である。

コミュニケーションの状況は、例えば、商談、面接、販売店における接客といった場面そのものであるか又は場面に基づいて特定される。さらに、場面の情報に加えて、例えば、コミュニケーションに関わる人物の年齢や性別、出身地、使用言語、職業、学歴、経歴等の事項も、コミュニケーションの状況の特定に資する情報となる。

コミュニケーションをとる際に、人の感情は、上記のような状況に影響されることが多いことから、本変形例１では、コミュニケーションの状況を示す情報に基づいてコミュニケーションの相手の感情を特定する。本変形例１について、上記の実施例と同様に、ユーザＵＲが顧客ＣＬと商談をする場面を例にして以下に説明する。

図９は、端末１３のタッチパネル１５に表示される操作画面の一例である操作画面１５Ａを示している。図９に示す操作画面は、例えば、ユーザＵＲによって、コミュニケーションタイプに関する情報処理の開始を指示する操作が行われた際（例えばスタートボタンが押された際）に表示される。

図９に示すように、操作画面１５Ａには、ユーザＵＲに対してコミュニケーションの場面の選択を促すメッセージが表示されている。当該メッセージの下方には、「接客」「面接」「商談」のボタンが表示されている。ユーザＵＲは、例えばこれから行うコミュニケーションの場面に最も近い項目を選択する。

例えば、ユーザＵＲが行うコミュニケーションの場面が小売店や百貨店の店舗内での接客の場面である場合には「接客」がコミュニケーションの場面に最も近い項目となる。例えば、ユーザＵＲが行うコミュニケーションの場面が採用面接であり、例えばユーザＵＲが面接官を担当する場合には「面接」がコミュニケーションの場面に最も近い項目となる。

本変形例１において、ユーザＵＲが行うコミュニケーションの場面は商談の場面であるため、ユーザＵＲは「商談」の項目を選択する。なお、操作画面１５Ａに表示されるコミュニケーションの場面の選択肢は、図９に示した例に限られない。例えば、図９に示した項目以外にも、さらに多数の項目が含まれていてもよい。

図１０は、本変形例１において、端末１３の端末制御部２８によって実行されるルーチンの一例である状況情報送信ルーチンＲＴ５を示すフローチャートである。例えば、端末制御部２８は、端末１３の電源がＯＮになると、状況情報送信ルーチンＲＴ５を開始する。

端末制御部２８は、状況情報送信ルーチンＲＴ５を開始すると、入出力部２６を介して、スタートボタンが押されたか否かを判定する（ステップＳ５１）。ステップＳ５１において、端末制御部２８は、タッチパネル１５に表示された操作画面において、コミュニケーションタイプの推定のための情報処理の開始を指示する操作が受付けられたか否かを判定する。

端末制御部２８は、ステップＳ５１において、スタートボタンが押されていないと判定する（ステップＳ５１：ＮＯ）と、ステップＳ５１を繰り返し、スタートボタンが押されたか否かを再び判定する。

端末制御部２８は、ステップＳ５１において、スタートボタンが押されたと判定する（ステップＳ５１：ＹＥＳ）と、コミュニケーションの状況を示す情報（状況情報）の入力を待機する（ステップＳ５２）。

端末制御部２８は、ステップＳ５２の実行後、入出力部２６を介して、状況情報が入力されたか否かを判定する（ステップＳ５３）。ステップＳ５３において、例えば、端末制御部２８は、図９に示したような操作画面１５Ａに表示された場面を示す項目のうち、いずれかの場面がタッチパネル１５に対する操作によって選択された場合に、状況情報が入力されたと判定する。

端末制御部２８は、状況情報が入力されたと判定する（ステップＳ５３：ＹＥＳ）と、状況情報を端末１３に送信する（ステップＳ５４）。

端末制御部２８は、状況情報が入力されていないと判定（ステップＳ５３：ＮＯ）した場合又はステップＳ５４の実行後、終了ボタンが押されたか否かを判定する（ステップＳ５５）。

ステップＳ５５において、端末制御部２８は、例えばタッチパネル１５に表示された操作画面によって、コミュニケーションタイプの推定のための情報処理の終了を指示する操作が受付けられたか否かを入出力部２６を介して判定する。

端末制御部２８は、ステップＳ５５において、終了ボタンが押されていないと判定する（ステップＳ５５：ＮＯ）と、ステップＳ５２に戻り、状況情報の入力を再び待機する。

端末制御部２８は、ステップＳ５５において、終了ボタンが押されたと判定する（ステップＳ５５：ＹＥＳ）と、状況情報送信ルーチンＲＴ５を終了し、その後、状況情報送信ルーチンＲＴ５を繰り返し実行する。

図１１は、本変形例１において、サーバ１１のサーバ制御部３５によって実行されるルーチンの一例であるタイプ推定ルーチンＲＴ６を示すフローチャートである。図１１において、図６に示したタイプ推定ルーチンＲＴ２におけるステップと実質的に同一又は等価なステップには同一の参照符号を付している。

具体的には、タイプ推定ルーチンＲＴ２は感情の特定を行うステップＳ２４を含む（図６）。ステップＳ２４における感情の特定は、音響特徴量に基づいて行われる。これに対して、本変形例１では、状況情報に基づいて感情の特定が行われる。

タイプ推定ルーチンＲＴ６は、ステップＳ２４の代わりにステップＳ６１〜Ｓ６３を含む点でタイプ推定ルーチンＲＴ２と異なり、その他の点においてはＲＴ２と同様のルーチンである。

サーバ制御部３５は、タイプ推定ルーチンＲＴ６を開始すると、端末１３からの状況情報の受信を待機する（ステップＳ６１）。

サーバ制御部３５は、ステップＳ６１の実行後、端末１３から送受信部３３を介して状況情報を受信したか否かを判定する（ステップＳ６２）。ステップＳ６２において、サーバ制御部３５は、状況取得部として機能する。ステップＳ６２において、サーバ制御部３５は、状況情報を受信していないと判定する（ステップＳ６２：ＮＯ）と、ステップＳ６１に戻り、再び状況情報を待機する。

ステップＳ６２において、サーバ制御部３５は、状況情報を受信したと判定する（ステップＳ６２：ＹＥＳ）と、ステップＳ６２において端末１３から受信した状況情報に基づいて、感情特定部３９に顧客ＣＬの感情を特定させる（感情特定ステップとしてのステップＳ６３）。

ステップＳ６３において、例えば、感情特定部３９は、ステップＳ６２において端末１３から受信した、コミュニケーションの状況を示す状況情報が、人の感情の種類を示す所定の複数の項目のいずれに該当するかを特定する。例えば、人の感情の種類を示す所定の複数の項目は、コミュニケーションの状況を示す複数の状況に予め対応付けられている。例えば、人の感情の種類を示す所定の複数の項目は、「平静」、「緊張」、「怒り」等の項目を含んでいてもよい。また、人の感情の種類を示す所定の複数の項目は、「悲しみ」、「困惑」、「不満」、「嫌悪」「軽蔑」、「諦め」、「喜び」「期待」「信頼」等の項目を含んでいてもよい。

サーバ制御部３５は、ステップＳ６３の実行後、タイプ推定ルーチンＲＴ２と同様に、ステップＳ２１〜ステップＳ２３を実行して音響特徴を抽出する。その後、推定ステップとしてのステップＳ２５に移り、タイプ推定サブルーチンにおいて、感情を示す情報及び音響特徴量に基づいて顧客ＣＬのコミュニケーションタイプを推定する。

その後、サーバ制御部３５は、アドバイス生成部４５に、ステップＳ２５における推定結果に基づいて、顧客ＣＬとのコミュニケーションに関するユーザＵＲに対するアドバイスを含むアドバイス情報を生成させ（ステップＳ２６）、送受信部３３を介して、ステップＳ２５において生成されたアドバイス情報を端末１３に送信する（ステップＳ２７）。サーバ制御部３５は、ステップＳ２７の実行後、タイプ推定ルーチンＲＴ６を終了し、その後タイプ推定ルーチンＲＴ６を繰り返し実行する。

なお、タイプ推定ルーチンＲＴ６において、ステップＳ６１〜ステップＳ６３がステップＳ２１〜ステップＳ２３よりも後に実行されてもよい。また、ステップＳ６１〜ステップＳ６３とステップＳ２１〜ステップＳ２３とは並行して実行されてもよい。

以上、説明したように、本変形例１の情報処理装置としての情報処理システムによれば、ユーザＵＲによるコミュニケーションが行われている場面等の状況に基づいて、顧客ＣＬの感情を特定することができる。また、本変形例１の情報処理システムによれば、コミュニケーションが行われる状況に基づいて特定された顧客ＣＬの感情を示す情報及び顧客ＣＬが発した音声の音響特徴量に基づいて、学習モデルを用いて、顧客ＣＬのコミュニケーションタイプを推定することができる。

［変形例２］
図１２及び図１３を参照しつつ、本実施例の変形例２の情報処理システム１０について説明する。変形例２の情報処理システム１０は、実施例において説明した情報処理システム１０と同様に構成されており、コミュニケーションタイプの推定に関する情報処理のみが異なる。

具体的には、変形例２は、コミュニケーションタイプの推定に学習モデルを用いる点で上記の実施例と共通する。上述のように、実施例で用いる学習モデルは、音響特徴量を示す数値及び感情を示す数値を入力とし、コミュニケーションタイプの推定結果を示す数値を出力とするように構築されている。これに対して、本変形例２では、感情毎に別々の学習モデルが構築されており、各々の学習モデルは、音響特徴量を示す数値を入力とし、コミュニケーションタイプの推定結果を出力とするように構築されている。

図１２は、変形例２において顧客ＣＬのコミュニケーションタイプの推定に用いられる学習モデルの一例であり、学習モデル記憶部４７Ａに記憶されている学習モデルＭＥ１〜ＭＥ３を模式的に示す図である。変形例２において、学習モデルＭＥ１〜ＭＥ３は、人の感情の種類を示す「平静」、「緊張」、及び「怒り」の夫々について構築されている例について説明する。

学習モデルＭＥ１〜ＭＥ３の各々は、図４に示した学習モデルＭ１と同様に、ディープラーニング（深層学習）によって構築されたニューラルネットワークであり、入力層、３つの中間層（隠れ層）及び出力層から構成されている。なお、中間層の数は、３つに限られず２つ以上であればよい。

図１２に示すように、学習モデルＭＥ１〜ＭＥ３の各々は、９項目の音響特徴量の各々をそれぞれ示す９個の数値であるＡＵ１〜ＡＵ９を入力としている。

また、図１２に示すように、学習モデルＭＥ１〜ＭＥ３の各々は、顧客ＣＬのコミュニケーションタイプが、ソーシャルコミュニケーション理論による４つのコミュニケーションタイプの各々に適合する確率を示す数値が出力としている。

例えば、顧客ＣＬの感情が「平静」に該当すると特定された場合、学習モデルＭＥ１〜ＭＥ３のうち感情「平静」についての学習モデルＭＥ１の入力層において、顧客ＣＬが発した音声に基づく音響特徴量を示す数値ＡＵ１〜ＡＵ９が入力される。

すなわち、学習モデルＭＥ１〜ＭＥ３の各々は、人の音響特徴量を入力とし、人のコミュニケーションタイプを示す情報を出力とするように構築されている。

例えば、感情「平静」についての学習モデルＭＥ１は、以下のようにして構築される。例えば、１の協力者が会話をしている際に抱いていた感情を特定するとともに、当該会話の際の音声データを取得して、当該音声データから音響特徴量を抽出する。また、当該１の協力者に対して実施されたアンケートの結果から当該１の協力者のコミュニケーションタイプを特定する。このように、感情、音響特徴量及びコミュニケーションタイプを対応付けたデータのセットを多数収集する。

収集したデータのセットの中から、感情が「平静」であった場合のデータのセットのみを抽出し、抽出されたデータのセットに含まれるコミュニケーションタイプを正解データとする。正解データの各々に対応する音響特徴量を入力データとする。

感情が「平静」の場合の入力データを複数の中間層を有するニューラルネットワークに入力して、出力が正解データのコミュニケーションタイプとなるように、ニューラルネットワークのパラメータを誤差逆伝搬法によって更新しながら学習を行う。このような学習を、多数の正解データと入力データとの対について行うことで、学習モデルＭＥ１を構築することができる。

同様にして、感情が「緊張」の場合について学習を行うことで学習モデルＭＥ２を構築し、感情が「怒り」の場合について学習を行うことで学習モデルＭＥ３を構築することができる。

なお、学習に用いる感情の特定は、例えば、実施例にて説明したような音響特徴量に基づいて行われてもよく、本変形例２と同様に協力者が音声を発した際のコミュニケーションの状況に基づいて行われてもよい。

図１３は、本変形例２において、サーバ制御部３５のタイプ推定部４１によって実行されるタイプ推定サブルーチンＲＴ７を示すフローチャートである。本変形例２において、上記の実施例のタイプ推定ルーチンＲＴ２（図６）及び変形例１のタイプ推定ルーチンＲＴ６（図１１）が適用される。タイプ推定サブルーチンＲＴ７は、タイプ推定ルーチンＲＴ２（図６）のステップＳ２５又はタイプ推定ルーチンＲＴ６（図１１）のステップＳ２５において実行される。

タイプ推定部４１は、タイプ推定サブルーチンを開始すると、顧客ＣＬの感情に対応する学習モデルを選択する（ステップＳ７１）。例えば、ステップＳ７１において、タイプ推定部４１は、感情の種類毎に構築された複数の学習モデルの中から、タイプ推定ルーチンＲＴ２のステップＳ２４又はタイプ推定ルーチンＲＴ６のステップＳ６３において特定された顧客ＣＬの感情に対応する学習モデルを選択する。例えば、ステップＳ７１において、顧客ＣＬの感情が「平静」である場合に、感情「平静」に対応するように構築された学習モデルＭＥ１（図１２）が選択される。

タイプ推定部４１は、ステップＳ７１の実行後、選択した学習モデルに音響特徴量を示す数値を入力する（ステップＳ７２）。ステップＳ７２において、例えば、タイプ推定部４１は、図１２に示したような、学習モデル記憶部４７Ａに記憶されているニューラルネットワークに音響特徴量を示す数値ＡＵ１〜ＡＵ９を入力する。

タイプ推定部４１は、ステップＳ７２の実行後、学習モデルから出力された情報を取得する（ステップＳ７３）。ステップＳ７３において、例えば、タイプ推定部４１は、顧客ＣＬのコミュニケーションタイプが、４つのコミュニケーションタイプの各々に適合する確率を示す数値を取得する。

タイプ推定部４１は、ステップＳ７３の実行後、顧客ＣＬのコミュニケーションタイプがいずれのコミュニケーションタイプに該当するかを特定する（ステップＳ７４）。ステップＳ７４において、例えば、タイプ推定部４１は、ステップＳ７３において取得した４つの数値のうち、最も大きい数値に対応するコミュニケーションタイプを顧客ＣＬのコミュニケーションとして特定する。

タイプ推定部４１は、ステップＳ７４の実行後、タイプ推定サブルーチンを終了する。

以上、説明したように、本変形例２の情報処理装置としての情報処理システム１０によれば、ユーザのコミュニケーションの相手である１の人物の音声に基づいて、当該音声の音響特徴量を抽出し、当該音響特徴量から、１の人物のコミュニケーションタイプを推定することができる。当該コミュニケーションタイプの推定の際に、所定の感情の種類毎に構築された学習モデルの中から、当該１の人物の感情に対応する学習モデルを選択して推定に用いることができる。

従って、１の人物の発する音声の特徴に当該１の人物が抱いている感情が影響しても、感情毎に構築された学習モデルを用いることで感情の影響を軽減して適切にコミュニケーションタイプを推定することができる。従って、ユーザのコミュニケーションの相手の人物の感情に影響され難く、当該相手の人物のコミュニケーションのタイプを適切に特定することを可能とする情報処理装置を提供することができる。

さらに、ユーザは、コミュニケーションタイプの推定結果から、コミュニケーションタイプに応じた適切なアドバイスを含むメッセージを端末１３を介して受け取ることができ、より円滑にコミュニケーションを進めることができる。

なお、上記の変形例２において、コミュニケーションの状況から感情を特定し、感情毎に構築された学習モデルを用いてコミュニケーションタイプの推定を行う例について説明したが、これに限られない。例えば、コミュニケーションの状況を示す情報毎に構築された学習モデルを用いて、コミュニケーションの状況に応じた学習モデルを選択してコミュニケーションタイプの推定を行うこととしてもよい。

なお、上記の実施例及び変形例において、本発明の情報処理装置としての情報処理システム１０がサーバ１１及び端末１３を含む例について説明したが、これに限られない。例えば、サーバ１１の音響特徴量抽出部３７、感情特定部３９、タイプ推定部４１、アドバイス生成部４５、及び学習モデル記憶部４７Ａに相当する構成を全て端末１３が備えていてもよい。

また、顧客ＣＬが一人である場合の例について説明したが、複数人についてタイプ推定を行ってもよい。例えば複数の人物の音声データの各々について並行して情報処理を進めることとしてもよい。

また、上記の実施例及び変形例において、感情の特定に学習モデルを用いてもよい。例えば、実施例又は変形例２において、音響特徴量を示す数値を入力とし、感情の種類を示す数値を出力とするように構築された学習モデルを用いて感情を特定してもよい。
また、例えば、変形例１において、コミュニケーションの状況を示す数値を入力とし、感情の種類を示す数値を出力とするように構築された学習モデルを用いて感情を特定してもよい。

上述した実施例及び変形例における構成は例示に過ぎず、用途等に応じて適宜選択及び変更可能である。

１０情報処理システム
１１サーバ
１３端末
１５タッチパネル
１７、３１システムバス
１９、３３送受信部
２１記憶部
２３音声入力部
２４マイク
２６入出力部
２８端末制御部
２９表示制御部
３５サーバ制御部
３７音響特徴量抽出部
３９感情特定部
４１タイプ推定部
４３推論部
４５アドバイス生成部
４７大容量記憶装置
４７Ａ学習モデル記憶部

Claims

１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、
前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、
学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定部と、
を有することを特徴とする情報処理装置。
１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、
前記音声が発せられた際の状況を示す情報を取得する状況取得部と
前記状況を示す情報に基づいて前記１の人物の感情を特定する感情特定部と、
学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定部と、
を有することを特徴とする情報処理装置。
前記学習モデルは、前記感情を示す情報及び前記音響特徴量を示す情報が入力されると、複数のコミュニケーションタイプの各々と前記１の人物のコミュニケーションタイプとの適合度を示す数値を出力することを特徴とする請求項１又は２に記載の情報処理装置。
前記推定部による推定結果に基づいて、前記１の人物とのコミュニケーションに関するユーザに対するアドバイスを含むアドバイス情報を生成するアドバイス生成部を有することを特徴とする請求項１乃至３のいずれか１つに記載の情報処理装置。
前記アドバイス情報に基づいて、前記ユーザに対するメッセージを表示画面に表示させるための制御を行う表示制御部を有することを特徴とする請求項４に記載の情報処理装置。
前記感情特定部は、前記音響特徴量を示す情報が入力されると前記感情を示す情報を出力する学習モデルを用いて前記１の人物の感情を特定することを特徴とする請求項１に記載の情報処理装置。
前記感情特定部は、前記状況を示す情報が入力されると前記感情を示す情報を出力する学習モデルを用いて前記１の人物の感情を特定することを特徴とする請求項２に記載の情報処理装置。
１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、
前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、
人の感情を示す情報及び人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とする学習モデルを用いて、前記１の人物の感情を示す情報及び前記音響特徴量を示す情報から前記１の人物のコミュニケーションタイプを推定する推定部と、を有することを特徴とする情報処理装置。
１の人物が発した音声の音響特徴量を取得する音響特徴量取得部と、
前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定部と、
人が発した音声の音響特徴量を示す情報を入力として、人のコミュニケーションタイプを示す情報を出力とするように、人の感情の種類を示す所定の複数の項目毎に構築された複数の学習モデルを用いて、前記１の人物の感情を示す情報及び前記音響特徴量を示す情報から前記１の人物のコミュニケーションタイプを推定する推定部と、
を有することを特徴とする情報処理装置。
情報処理装置が情報処理を行う情報処理方法であって、
音響特徴量取得部が、１の人物が発した音声の音響特徴量を取得する音響特徴量取得ステップと、
感情特定部が、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定ステップと、
推定部が、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定ステップと、
を含むことを特徴とする情報処理方法。
コンピュータを備える情報処理装置によって実行される情報処理プログラムであって、前記コンピュータに、
音響特徴量取得部が、１の人物が発した音声の音響特徴量を取得する音響特徴量取得ステップと、
感情特定部が、前記音響特徴量に基づいて前記１の人物の感情を特定する感情特定ステップと、
推定部が、学習モデルを用いて、前記感情を示す情報及び前記音響特徴量を示す情報に基づいて前記１の人物のコミュニケーションタイプを推定する推定ステップと、
を実行させることを特徴とする情報処理プログラム。
請求項１１に記載の情報処理プログラムを格納したことを特徴とするコンピュータが読取可能な記録媒体。