JP7162783B2

JP7162783B2 - 情報処理装置、推定方法、及び推定プログラム

Info

Publication number: JP7162783B2
Application number: JP2022546733A
Authority: JP
Inventors: 政人土屋
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2022-10-28
Anticipated expiration: 2040-09-01
Also published as: WO2022049613A1; JPWO2022049613A1

Description

本開示は、情報処理装置、推定方法、及び推定プログラムに関する。

コールセンターでは、クライアントのクレームに対する処理及びクライアントの問い合わせに対する処理が行われている。従来、これらの処理は、人によって行われていた。しかし、音声認識、応答生成、及び音声合成の技術を組み合わせることで、コールセンターには、自動応答システムが導入された。自動応答システムを導入することで、コストが削減される。しかし、クライアントが、自動応答システムで対応されることは不誠実であると思う場合がある。自動応答システムで対応することは、クレーム及びクライアントのフラストレーションを増加させる。そこで、自動応答システムが当該クレーム又は当該問合せを解決できない場合、運用が、自動応答システムからオペレータ運用に切り替わる。ここで、自動応答システムからオペレータ運用に切り替える技術が提案されている（特許文献１を参照）。特許文献１では、感情が閾値を超えた場合、運用がオペレータ運用に切り替わる。

特開２０１７－２０７８０１号公報

ところで、個人に関する情報のみに基づいて、当該個人の感情が、推定される場合がある。しかし、当該推定の方法は、推定精度が高くない場合がある。

本開示の目的は、推定精度を高めることである。

本開示の一態様に係る情報処理装置が提供される。情報処理装置は、第１の音源の音声信号を取得する取得部と、前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、出力部と、を有する。前記第１の音源は、第１のユーザである。前記第２の音源は、第２のユーザである。前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶する。前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する。

本開示によれば、推定精度を高めることができる。

通信システムを示す図である。情報処理装置が有するハードウェアの例を示す図である。情報処理装置が有する機能ブロックを示す図である。検出抽出部を示す図である。発話内容履歴テーブルの例を示す図である。感情履歴テーブルの例を示す図である。重みテーブルの例を示す図である。ディスプレイに表示される画面の具体例を示す図である。情報処理装置が実行する処理の例を示すフローチャート（その１）である。情報処理装置が実行する処理の例を示すフローチャート（その２）である。感情の推定処理の具体例を示す図である。

以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。

実施の形態．
図１は、通信システムを示す図である。通信システムは、情報処理装置１００、携帯装置２００、自動応答システム３００、スピーカ４００、マイク４０１、カメラ４０２、及びディスプレイ４０３を含む。
通信システムでは、クライアントから通話があった場合、自動応答システム３００が応答を行う。通信システムでは、条件が満たされた場合、運用が、オペレータ運用に切り替わる。なお、当該条件については、後で説明する。

情報処理装置１００は、推定方法を実行する装置である。情報処理装置１００は、感情推定装置と呼んでもよい。情報処理装置１００は、インタフェースアダプタ１１を介して、携帯装置２００と自動応答システム３００と通信する。また、情報処理装置１００は、携帯装置２００と自動応答システム３００と無線で通信することができる。情報処理装置１００は、インタフェースアダプタ１２を介して、スピーカ４００とマイク４０１と接続する。情報処理装置１００は、インタフェースアダプタ１３を介して、カメラ４０２とディスプレイ４０３と接続する。

携帯装置２００は、クライアントが使用する装置である。例えば、携帯装置２００は、スマートフォンである。
自動応答システム３００は、１以上の電気装置によって実現される。自動応答システム３００は、疑似的なオペレータの役割を果たす。

スピーカ４００は、クライアントの音声を出力する。マイク４０１には、オペレータの音声が入力される。マイク４０１は、当該音声を音声信号に変換する。ここで、マイクは、マイクロフォンとも言う。カメラ４０２は、オペレータの顔を撮影する。カメラ４０２は、撮影することにより得らえた画像を情報処理装置１００に送信する。ディスプレイ４０３は、情報処理装置１００が出力した情報を表示する。

次に、情報処理装置１００が有するハードウェアを説明する。
図２は、情報処理装置が有するハードウェアの例を示す図である。情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、不揮発性記憶装置１０３、及び入出力インタフェース１０４を有する。

プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、マイクロコントローラ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などである。プロセッサ１０１は、マルチプロセッサでもよい。情報処理装置１００は、プロセッサ１０１に変えて、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。

入出力インタフェース１０４は、携帯装置２００、自動応答システム３００、スピーカ４００、マイク４０１、カメラ４０２、及びディスプレイ４０３と通信する。
また、情報処理装置１００は、外部装置から情報を取得することができる。例えば、外部装置は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリである。

次に、情報処理装置１００が有する機能を説明する。
図３は、情報処理装置が有する機能ブロックを示す図である。情報処理装置１００は、取得部１１０、検出抽出部１２０、音声認識実行部１３０、発話内容記憶部１４０、感情推定部１５０、感情履歴記憶部１６０、切替判定部１７０、重み記憶部１７１、出力部１８０、及び終了判定部１９０を有する。また、情報処理装置１００は、取得部１１０ａ、検出抽出部１２０ａ、音声認識実行部１３０ａ、及び感情推定部１５０ａを有してもよい。

発話内容記憶部１４０、感情履歴記憶部１６０、及び重み記憶部１７１は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。また、発話内容記憶部１４０、感情履歴記憶部１６０、及び重み記憶部１７１の総称は、単に記憶部と呼ぶ。

取得部１１０，１１０ａ、検出抽出部１２０，１２０ａ、音声認識実行部１３０，１３０ａ、感情推定部１５０，１５０ａ、切替判定部１７０、出力部１８０、及び終了判定部１９０の一部又は全部は、処理回路によって実現してもよい。また、取得部１１０，１１０ａ、検出抽出部１２０，１２０ａ、音声認識実行部１３０，１３０ａ、感情推定部１５０，１５０ａ、切替判定部１７０、出力部１８０、及び終了判定部１９０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、推定プログラムとも言う。例えば、推定プログラムは、記録媒体に記録されている。

取得部１１０は、音声信号Ａ_１を取得する。音声信号Ａ_１は、デジタル信号である。また、音声信号Ａ_１は、クライアントの音声を示す信号（以下、クライアントの音声信号）、オペレータの音声を示す信号（以下、オペレータの音声信号）、又は自動応答システム３００が出力した音声情報を示す信号（以下、自動応答システムの音声信号）である。

取得部１１０ａは、音声信号Ｂ_１を取得する。音声信号Ｂ_１について説明する。情報処理装置１００には、クライアントの音声信号と、オペレータの音声信号又は自動応答システムの音声信号とが同じ時期に入力される場合がある。例えば、当該場合では、音声信号Ａ_１がクライアントの音声信号であり、音声信号Ｂ_１がオペレータの音声信号である。また、例えば、当該場合では、音声信号Ａ_１がクライアントの音声信号であり、音声信号Ｂ_１が自動応答システムの音声信号である。

ここで、取得部１１０ａ、検出抽出部１２０ａ、音声認識実行部１３０ａ、及び感情推定部１５０ａの機能は、取得部１１０、検出抽出部１２０、音声認識実行部１３０、及び感情推定部１５０の機能と同じである。例えば、検出抽出部１２０ａ、音声認識実行部１３０ａ、及び感情推定部１５０ａが音声信号Ｂ_１及び音声信号Ｂ_１に基づく発話区間特徴ベクトルを用いる処理と、検出抽出部１２０、音声認識実行部１３０、及び感情推定部１５０が音声信号Ａ_１及び音声信号Ａ_１に基づく発話区間特徴ベクトルを用いる処理とは、同じである。そのため、取得部１１０ａ、検出抽出部１２０ａ、音声認識実行部１３０ａ、及び感情推定部１５０ａの機能の説明は、省略する。なお、発話区間特徴ベクトルについては、後で説明する。

また、クライアント、オペレータ、及び自動応答システム３００は、音源とも言う。例えば、クライアントが第１の音源である場合、オペレータ又は自動応答システム３００は、第２の音源とも言う。オペレータ又は自動応答システム３００が第１の音源である場合、クライアントは、第２の音源とも言う。さらに、クライアントとオペレータは、ユーザとも言う。例えば、クライアントが第１のユーザである場合、オペレータは、第２のユーザとも言う。オペレータが第１のユーザである場合、クライアントは、第２のユーザとも言う。

検出抽出部１２０は、音声信号に基づいて、発話区間を検出する。検出抽出部１２０は、発話区間に基づいて、発話区間特徴ベクトルを抽出する。なお、発話区間特徴ベクトルは、発話区間の特徴量である。また、発話区間特徴ベクトルは、発話区間の発話に関する特徴量と表現してもよい。検出抽出部１２０の機能を詳細に説明する。

図４は、検出抽出部を示す図である。検出抽出部１２０は、特徴量抽出部１２１、前処理実行部１２２、及び発話区間検出部１２３を有する。
特徴量抽出部１２１は、音声信号Ａ_１に基づいて、特徴ベクトルＦ_１を抽出する。なお、特徴ベクトルＦ_１は、特徴量とも言う。なお、例えば、特徴ベクトルＦ_１は、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）又は基本周波数である。また、ＭＦＣＣ又は基本周波数は、音声ドメインでよく使用される。

前処理実行部１２２は、特徴ベクトルＦ_１に前処理を実行する。例えば、前処理には、値を０から１の範囲に揃える処理、単位行列を分散に関する指標として共分散行列を線形変換する処理、外れ値を除去する処理などがある。前処理実行部１２２は、前処理を実行することで、前処理後特徴ベクトルＦＰ_１を出力する。

発話区間検出部１２３は、前処理後特徴ベクトルＦＰ_１に基づいて、発話区間を検出する。ここで、検出された発話区間は、発話区間検出部１２３が今まで検出した発話区間のうち、ｋ番目の発話区間である。発話区間検出部１２３は、検出された発話区間に基づいて、当該発話区間の特徴量である発話区間特徴ベクトルＸ_ｋを抽出する。なお、発話区間特徴ベクトルは、発話区間特徴量とも言う。

ここで、情報処理装置１００には、音声信号Ａ_１と音声信号Ｂ_１とが同じ時期に入力される場合がある。ただし、音声信号Ａ_１と音声信号Ｂ_１とが重ならないものとする。言い換えれば、発話区間検出部１２３が音声信号Ａ_１に基づいて検出した発話区間と検出抽出部１２０ａの発話区間検出部が音声信号Ｂ_１に基づいて検出した発話区間とは、重ならないものとする。

次に、図３に戻って、音声認識実行部１３０を説明する。
音声認識実行部１３０は、発話区間特徴ベクトルＸ_ｋに基づいて、音声認識を実行する。音声認識実行部１３０は、公知技術を用いて、音声認識を実行できる。例えば、音声認識実行部１３０は、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）などのモデルを用いて、音声認識を実行する。

音声認識の結果は、発話内容Ｔ_ｋと呼ぶ。発話内容Ｔ_ｋには、話者を示す情報が含まれる。音声認識実行部１３０は、発話内容Ｔ_ｋを発話内容記憶部１４０に格納する。
発話内容記憶部１４０は、発話内容履歴テーブルを記憶する。発話内容履歴テーブルを具体的に説明する。

図５は、発話内容履歴テーブルの例を示す図である。発話内容履歴テーブル１４１は、発話内容記憶部１４０に格納される。発話内容履歴テーブル１４１は、発話内容の履歴を示す。すなわち、発話内容履歴テーブル１４１には、音声認識実行部１３０による音声認識の結果が、時系列に登録される。発話内容履歴テーブル１４１を詳細に説明する。

発話内容履歴テーブル１４１は、発話ＩＤ（ｉｄｅｎｔｉｆｉｅｒ）、話者、及び発話内容の項目を有する。発話ＩＤの項目には、識別子が登録される。話者の項目には、話者を示す情報が登録される。例えば、話者の項目には、オペレータ、クライアントなどが登録される。発話内容の項目には、発話内容が登録される。

図５は、クライアントとオペレータとの会話が開始してから、クライアントが発した発話の内容とオペレータが発した発話の内容とが発話内容履歴テーブル１４１に登録されていることを示している。クライアントが発した発話の内容とオペレータが発した発話の内容とは、発話履歴とも言う。例えば、クライアントが発した発話の内容が第１の発話履歴である場合、オペレータが発した発話の内容は、第２の発話履歴である。オペレータが発した発話の内容が第１の発話履歴である場合、クライアントが発した発話の内容は、第２の発話履歴である。

また、発話内容履歴テーブル１４１には、クライアントと自動応答システム３００との会話が開始してから、クライアントが発した発話の内容と自動応答システムの音声信号に基づく発話内容とが登録される場合もある。クライアントが発した発話の内容と自動応答システムの音声信号に基づく発話内容とは、発話履歴とも言う。例えば、クライアントが発した発話の内容が第１の発話履歴である場合、自動応答システムの音声信号に基づく発話内容は、第２の発話履歴である。自動応答システムの音声信号に基づく発話内容が第１の発話履歴である場合、クライアントが発した発話の内容は、第２の発話履歴である。

ここで、例えば、発話ＩＤ“００００”に対応する発話内容は、発話内容Ｔ_１と考えてもよい。発話ＩＤ“０００１”に対応する発話内容は、発話内容Ｔ_２と考えてもよい。発話ＩＤ“０００２”に対応する発話内容は、発話内容Ｔ_３と考えてもよい。発話ＩＤ“０００３”に対応する発話内容は、発話内容Ｔ_ｋ－１と考えてもよい。発話ＩＤ“０００４”に対応する発話内容は、発話内容Ｔ_ｋと考えてもよい。このように、発話内容記憶部１４０には、発話内容Ｔ_１～Ｔ_ｋが格納される。

次に、図３に戻って、感情推定部１５０を説明する。
感情推定部１５０は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_ｋ、クライアントの過去の感情を示す情報、及びオペレータの過去の感情を示す情報に基づいて、音声信号Ａ_１の音源（例えば、クライアント又はオペレータ）の感情を推定する。また、感情推定部１５０は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_ｋ、クライアントの過去の感情を示す情報、及び自動応答システムの過去の感情を示す情報に基づいて、音声信号Ａ_１の音源（例えば、クライアント又は自動応答システム３００）の感情を推定する。なお、自動応答システムの過去の感情とは、自動応答システムの音声信号に基づいて、感情推定部１５０により推定された感情である。感情推定部１５０は、推定を実行する場合、学習済モデルを用いて、推定を実行してもよい。また、推定される感情は、発話内容Ｔ_ｋに対応する感情と考えてもよい。

また、感情推定部１５０は、発話区間特徴ベクトルＸ_ｋ、１～ｋ番目までの発話内容Ｔ_１～Ｔ_ｋ、及び１～ｋ－１番目までの感情推定結果Ｅ_１～Ｅ_ｋ－１に基づいて、音声信号Ａ_１の音源の感情を推定してもよい。以下の説明では、主に当該推定が実行されるものとする。当該推定の方法については、後で説明する。なお、感情推定結果Ｅ_１～Ｅ_ｋ－１は、感情履歴記憶部１６０に格納されている。

推定された結果は、感情推定結果Ｅ_ｋと呼ぶ。感情推定結果Ｅ_ｋは、定量化された感情の値である感情値を示してもよい。感情推定部１５０は、感情推定結果Ｅ_ｋを感情履歴記憶部１６０に格納する。ここで、感情履歴記憶部１６０に格納される情報を説明する。

図６は、感情履歴テーブルの例を示す図である。感情履歴テーブル１６１は、感情履歴記憶部１６０に格納される。感情履歴テーブル１６１は、推定された感情の履歴を示す。すなわち、感情履歴テーブル１６１には、感情推定部１５０による推定の結果が、時系列に登録される。

感情履歴テーブル１６１は、発話ＩＤと感情の項目を有する。発話ＩＤの項目には、識別子が登録される。感情履歴テーブル１６１の発話ＩＤは、発話内容履歴テーブル１４１の発話ＩＤと対応関係を有する。感情の項目には、感情推定部１５０による推定の結果が登録される。例えば、感情の項目には、“Ａｎｇｅｒ：５０”が登録される。このように、感情の項目には、感情値が登録されてもよい。感情履歴テーブル１６１は、話者の項目を有してもよい。

図６は、クライアントの過去の感情を示す情報とオペレータの過去の感情を示す情報とが感情履歴テーブル１６１に登録されていることを示している。詳細には、図６は、クライアントとオペレータとの会話が開始してから、推定されたクライアントの感情の履歴と推定されたオペレータの感情の履歴が感情履歴テーブル１６１に登録されていることを示している。なお、クライアント及びオペレータの感情は、感情履歴テーブル１６１の発話ＩＤと発話内容履歴テーブル１４１の発話ＩＤとの対応関係に基づいて、特定される。

また、感情履歴テーブル１６１には、クライアントの過去の感情を示す情報と自動応答システムの過去の感情を示す情報とが登録される場合もある。詳細には、クライアントと自動応答システム３００との会話が開始してから、推定されたクライアントの感情の履歴と推定された自動応答システムの感情の履歴とが感情履歴テーブル１６１に登録される場合がある。

ここで、例えば、発話ＩＤ“００００”に対応する感情は、感情推定結果Ｅ_１と考えてもよい。発話ＩＤ“０００１”に対応する感情は、感情推定結果Ｅ_２と考えてもよい。発話ＩＤ“０００２”に対応する感情は、感情推定結果Ｅ_３と考えてもよい。発話ＩＤ“０００３”に対応する感情は、感情推定結果Ｅ_ｋ－１と考えてもよい。このように、感情履歴記憶部１６０には、感情推定結果Ｅ_１～Ｅ_ｋ－１が、格納されている。
また、発話ＩＤ“０００４”に対応する感情は、感情推定結果Ｅ_ｋと考えてもよい。このように、感情推定部１５０の実行により得られた感情推定結果Ｅ_ｋが、感情履歴記憶部１６０に格納される。

次に、感情の推定方法を説明する。
感情推定部１５０は、式（１）が示す事後確率分布Ｐを算出することで、特定の感情が生じる確率を得ることができる。なお、Ｗは、モデルパラメータである。Ｋ及びｋは、ｋ番目を示す。

感情推定部１５０は、学習済モデルを用いて、特定の感情が生じる確率を得ることができる。ここで、当該学習済モデルは、確率的生成モデルと呼んでもよい。当該学習済モデルで自己回帰ニューラルネットワークが使用されている場合、式（１）は、式（２）になる。なお、Ｌ及びｌは、自己回帰ニューラルネットワークの層の数である。

ここで、自己回帰ニューラルネットワークでは、１層における非線形関数ｆの出力結果を正規分布の平均値として、用いる場合が多い。この場合、式（２）は、正規分布が尤度関数に代入されることで、式（３）になる。なお、σは、分散を制御するハイパーパラメータである。Ｉは、単位行列である。Ｎは、高次元のガウス分布である。非線形関数ｆには、シグモイド関数、Ｒｅｌｕ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）関数などが用いられてもよい。

感情推定部１５０は、式（３）を用いることで得られた確率を最大化する。確率を最大化する場合、感情推定部１５０は、公知技術を用いて、確率を最大化する。なお、確率を最大化する場合、Ｐ（Ｗ）に関して、正規分布等を仮定することで、計算が簡易化される。

また、感情推定部１５０は、確率の最大化の代わりに、ベイズ推論を用いてもよい。感情推定部１５０は、ベイズ推論を用いることで、式（１）のモデルパラメータＷに関して、周辺化積分された予測分布を得ることができる。予測分布は、モデルパラメータＷに依存しない分布である。例えば、感情推定部１５０は、予測分布を用いることで、現在のオペレータの発話がクライアントに特定の感情を引き起こす可能性があるか否かの確率を予測できる。当該予測は、パラメータ推定誤差又はモデル誤りに強い。ベイズ推論が用いられる場合の式を式（４）として提示する。なお、Ｐは、予測分布又は事後確率分布である。

式（４）の積分及び総和演算では、モデルパラメータＷを考慮する必要がある。そのため、式（４）の計算が困難な場合がある。そこで、ラプラス近似などが用いられてもよい。

ここで、モデルパラメータＷは、式（５）を用いた学習により、得ることができる。学習データには、正解アノテーションデータが用いられる。正解アノテーションデータには、感情推定結果Ｅ_ｋのラベルが付されてもよい。正解アノテーションデータには、発話内容Ｔ_ｋの文字列がラベルとして、付されてもよい。正解アノテーションデータには、図１で図示が省略されている音声認識システムで実行された認識の結果がラベルとして、付されてもよい。

式（５）の計算は、困難な場合がある。そこで、確率的変分推論法などの公知の手法を用いて、近似推論を行うことが考えられる。確率的変分推論法が用いられる場合、式（５）を近似推論する問題は、式（６）のようなエビデンス下限Ｌを最大化する変分パラメータξを推定する問題に帰着する。なお、ｑは、式（５）の事後確率分布に対する近似分布である。ＫＬは、カルバック・ライブラーダイバージェンスによる分布間の距離を示す。

学習済モデルで自己回帰ニューラルネットワークが使用される場合、式（６）は、式（７）になる。

エビデンス下限Ｌを最大化させる変分パラメータξを解く場合、スコア関数推定法、再パラメータ化勾配法、確率的勾配ランジュバン動力学法などを用いることができる。

感情推定部１５０は、特定の感情が生じる確率を、当該特定の感情の感情値として推定してもよい。例えば、当該特定の感情が“怒り”であり、当該確率が“５０”である場合、感情推定部１５０は、“怒り”の感情値を“５０”と推定してもよい。また、感情推定部１５０は、当該確率が予め設定された閾値以上であれば、当該特定の感情が生じていると推定してもよい。

また、当該確率を算出せずに、感情推定部１５０は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_１～Ｔ_ｋ、感情推定結果Ｅ_１～Ｅ_ｋ－１、及び学習済モデルを用いて、発話内容Ｔ_ｋに対応する感情を推定してもよい。

このように、感情が推定される。そして、感情推定部１５０は、感情推定結果Ｅ_ｋを感情履歴記憶部１６０に格納する。なお、感情推定結果Ｅ_ｋは、離散的なスカラー量又は連続的なベクトル量と考えてもよい。

切替判定部１７０は、通信システムで自動応答システム３００が実行している場合、自動応答システム３００の運用からオペレータ運用に切り替えるか否かを判定する。詳細には、切替判定部１７０は、感情履歴テーブル１６１に登録されているクライアントの感情の履歴に基づいて、予め設定された時間内に、クライアントの感情が変化した回数Ｓを特定する。ここで、例えば、予め設定された時間は、１分である。また、クライアントの感情は、感情履歴テーブル１６１の発話ＩＤと発話内容履歴テーブル１４１の発話ＩＤとの対応関係に基づいて、特定される。例えば、切替判定部１７０は、当該対応関係に基づいて、感情履歴テーブル１６１の発話ＩＤ“０００２”がクライアントの感情を示していることを特定できる。切替判定部１７０は、回数Ｓが予め設定された閾値以上であるか否かを判定する。切替判定部１７０は、回数Ｓが当該閾値以上である場合、自動応答システム３００の運用からオペレータ運用に切り替える。

具体例を用いて、判定処理を説明する。感情履歴テーブル１６１には、１分間におけるクライアントの感情が登録されている。１分間におけるクライアントの感情は、平静、哀しみ、怒り、平静、及び怒りとする。切替判定部１７０は、クライアントの感情が変化した回数Ｓが５であることを特定する。切替判定部１７０は、回数Ｓが閾値以上である場合、オペレータ運用に切り替える。

このように、情報処理装置１００は、オペレータ運用に切り替えることで、深刻な状況になる前にオペレータに応対させることができる。また、情報処理装置１００は、オペレータ運用に切り替えることで、顧客満足度を向上させることができる。
ここで、重み記憶部１７１を説明する。重み記憶部１７１は、重みテーブルを記憶する。重みテーブルを説明する。

図７は、重みテーブルの例を示す図である。重みテーブル１７２は、重み記憶部１７１に格納される。重みテーブル１７２は、重み情報とも言う。重みテーブル１７２は、属性、条件、及び重みの項目を有する。
属性の項目には、属性を示す情報が登録される。なお、属性の項目が示す“回数”は、クライアントが電話をかけてきた回数である。条件の項目には、条件を示す情報が登録される。重みの項目には、重みを示す情報が登録される。

また、条件の項目に登録される情報は、ベクトルと考えてもよい。例えば、条件の項目に登録される情報は、年齢、性別、回数、地域、飲酒の有無を示す５次元ベクトルである。
例えば、属性及び条件の項目が示す情報は、パーソナリティ情報と呼んでもよい。よって、重みテーブル１７２は、パーソナリティ情報と重みとの対応関係を示している。

重みテーブル１７２が用いられる場合を説明する。まず、取得部１１０は、クライアントのパーソナリティ情報を取得する。例えば、取得部１１０は、クライアントのパーソナリティ情報を情報処理装置１００に接続可能な外部装置から取得する。また、例えば、クライアントのパーソナリティ情報が揮発性記憶装置１０２又は不揮発性記憶装置１０３に格納されている場合、取得部１１０は、クライアントのパーソナリティ情報を揮発性記憶装置１０２又は不揮発性記憶装置１０３から取得する。当該パーソナリティ情報は、音声信号Ａ_１を分析することで得られた情報でもよいし、クライアントから聞き出すことにより得られた情報でもよい。切替判定部１７０は、クライアントのパーソナリティ情報、回数Ｓ、及び重みテーブル１７２に基づいて、値を算出する。切替判定部１７０は、当該値が当該閾値以上である場合、自動応答システム３００の運用からオペレータ運用に切り替える。

具体例を用いて説明する。パーソナリティ情報は、クライアントが男性であることを示しているものとする。切替判定部１７０は、重みテーブル１７２を参照し、重み“１．５”を特定する。切替判定部１７０は、重み“１．５”を回数Ｓに乗算又は加算する。切替判定部１７０は、算出された値が当該閾値以上である場合、オペレータ運用に切り替える。

このように、情報処理装置１００は、クライアントのパーソナリティ情報を考慮して、オペレータ運用に切り替えるか否かを判定する。これにより、情報処理装置１００は、オペレータ運用に切り替えるタイミングを、クライアント毎に調整できる。

また、切替判定部１７０は、感情推定結果Ｅ_ｋがクライアントの感情である場合、当該感情の感情値が予め設定された閾値以上である場合、オペレータ運用に切り替えてもよい。

ここで、取得部１１０は、クライアント又はオペレータのパーソナリティ情報を取得する。例えば、取得部１１０は、クライアント又はオペレータのパーソナリティ情報を情報処理装置１００に接続可能な外部装置から取得する。また、例えば、取得部１１０は、クライアント又はオペレータのパーソナリティ情報を揮発性記憶装置１０２又は不揮発性記憶装置１０３から取得する。感情推定部１５０は、学習データとして重みテーブル１７２を用いて学習することにより生成された学習済モデルと、クライアント又はオペレータのパーソナリティ情報とを用いて、感情を推定してもよい。また、感情推定部１５０は、当該学習済モデルと当該パーソナリティ情報とを用いることで、重みが加算又は乗算された感情値を推定できる。なお、当該学習により、学習済モデルで使用される式（１）～（４）のいずれかは、変更される。例えば、変更された式（３）を式（８）として、示す。なお、Ｚは、重みテーブル１７２に含まれる情報を示す。

また、情報処理装置１００は、学習データとして重みテーブル１７２を用いて、式（５）～（７）のいずれかを使用する学習済モデルを生成してもよい。

出力部１８０は、感情推定結果Ｅ_１～Ｅ_ｋの中から、クライアントの感情推定結果を特定する。詳細には、出力部１８０は、感情履歴テーブル１６１を参照し、クライアントの感情を特定する。出力部１８０がクライアントの感情を特定する場合、出力部１８０は、感情履歴テーブル１６１の発話ＩＤと発話内容履歴テーブル１４１の発話ＩＤとの対応関係に基づいて、クライアントの感情を特定する。出力部１８０は、特定されたクライアントの感情推定結果（すなわち、クライアントの感情を示す情報）と、クライアントのパーソナリティ情報をディスプレイ４０３に出力する。

ここで、ディスプレイ４０３に表示される画面を例示する。
図８は、ディスプレイに表示される画面の具体例を示す図である。図８の上図の画面５００は、自動応答からオペレータ運用に切り替わり、かつクライアントとの通話が開始する前の状態を示している。

画面５００内の領域５１０は、クライアントのパーソナリティ情報が表示される領域である。画面５００内の領域５２０は、クライアントの感情推定結果（すなわち、クライアントの感情を示す情報）が表示される領域である。画面５００内の領域５３０は、オペレータとクライアントとの音声信号が表示される領域である。領域５３０に表示される音声信号は、左から右に移動する。そして、領域５３０では、最新の音声信号が左端に表示される。

図８の下図の画面５００は、通話中の状態を示している。画面５００内の領域５２０には、クライアントの感情が比率で表示される。画面５００内の領域５３１は、オペレータの音声信号が表示される領域である。画面５００内の領域５３２は、クライアントの音声信号が表示される領域である。

ここで、感情推定結果Ｅ_ｋが示すクライアントの怒りの感情値が予め定められた閾値以上であり、かつ音声信号Ａ_１が取得される前にオペレータが発した発話の内容である発話内容Ｔ_ｋ－１が怒りを生じさせる内容である場合、出力部１８０は、注意を促す情報を出力する。例えば、クライアントの発話区間５４１に基づく怒りの感情値が予め定められた閾値以上であり、かつオペレータの発話内容Ｔ_ｋ－１が怒りを生じさせる内容である場合、出力部１８０は、オペレータの発話区間５４２（すなわち、発話内容Ｔ_ｋ－１の発話区間）に対応付ける、注意を促す情報を出力する。そして、画面５００内の領域５５１には、注意を促す情報が表示される。なお、例えば、出力部１８０は、学習済モデルを用いて、オペレータの発話内容Ｔ_ｋ－１が怒りを生じさせる内容であるか否かを判定できる。また、発話内容Ｔ_ｋ－１は、ユーザ発話内容とも言う。オペレータは、注意を促す情報を見ることで、発言を注意するようになる。そして、オペレータが発言を注意することで、クライアントの怒りが鎮められる。上記では、ネガティブな感情の例として、感情推定結果Ｅ_ｋが怒りである場合を説明した。出力部１８０は、感情推定結果Ｅ_ｋが他のネガティブな感情である場合でも、上記の処理を実行する。なお、例えば、他のネガティブな感情とは、不安などである。

また、感情推定結果Ｅ_ｋが示すクライアントの怒りの感情値が予め定められた閾値以上であり、かつ感情推定結果Ｅ_ｋが推定される前のオペレータの発話内容Ｔ_ｋ－１が怒りを生じさせる内容でない場合、出力部１８０は、問題がない旨を示す情報を出力する。例えば、クライアントの発話区間５４３に基づく怒りの感情値が予め定められた閾値以上であり、かつオペレータの発話内容Ｔ_ｋ－１が怒りを生じさせる内容でない場合、出力部１８０は、オペレータの発話区間５４４（すなわち、発話内容Ｔ_ｋ－１の発話区間）に対応付ける、問題がない旨を示す情報を出力する。これにより、画面５００内の領域５５２には、問題がない旨を示す情報が表示される。これにより、オペレータは、自分の発言に問題がなかったことを知ることができる。
このように、オペレータは、画面５００から様々な情報を得ることができる。

図３に戻って、終了判定部１９０を説明する。
終了判定部１９０は、対話が終了したか否かを判定する。例えば、終了判定部１９０は、クライアントの通話が終了したときに、対話が終了したと判定する。

次に、情報処理装置１００が実行する処理を、フローチャートを用いて、説明する。
図９は、情報処理装置が実行する処理の例を示すフローチャート（その１）である。
（ステップＳ１１）取得部１１０は、音声信号Ａ_１を取得する。なお、音声信号Ａ_１は、一時的に揮発性記憶装置１０２に格納されてもよい。
（ステップＳ１２）特徴量抽出部１２１は、音声信号Ａ_１に基づいて、特徴ベクトルＦ_１を抽出する。

（ステップＳ１３）前処理実行部１２２は、特徴ベクトルＦ_１に前処理を実行する。前処理実行部１２２は、前処理を実行することで、前処理後特徴ベクトルＦＰ_１を出力する。
（ステップＳ１４）発話区間検出部１２３は、前処理後特徴ベクトルＦＰ_１に基づいて、発話区間の検出処理を実行する。

（ステップＳ１５）発話区間検出部１２３は、発話区間が検出されたか否かを判定する。発話区間が検出されなかった場合、処理は、ステップＳ１１に進む。発話区間が検出された場合、発話区間検出部１２３は、当該発話区間に基づいて、発話区間特徴ベクトルＸ_ｋを抽出する。そして、処理は、ステップＳ１６に進む。
（ステップＳ１６）音声認識実行部１３０は、発話区間特徴ベクトルＸ_ｋに基づいて、音声認識を実行する。音声認識の結果は、発話内容Ｔ_ｋである。音声認識実行部１３０は、発話内容Ｔ_ｋを発話内容履歴テーブル１４１に登録する。

（ステップＳ１７）感情推定部１５０は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_１～Ｔ_ｋ、及び感情推定結果Ｅ_１～Ｅ_ｋ－１に基づいて、発話内容Ｔ_ｋに対応する音声信号Ａ_１の音源（例えば、クライアント）の感情を推定する。感情推定部１５０は、感情推定結果Ｅ_ｋを感情履歴テーブル１６１に登録する。そして、処理は、ステップＳ２１に進む。

図１０は、情報処理装置が実行する処理の例を示すフローチャート（その２）である。
（ステップＳ２１）切替判定部１７０は、自動応答システム３００が実行しているか否かを判定する。自動応答システム３００が実行している場合、処理は、ステップＳ２２に進む。オペレータ運用が実行されている場合、処理は、ステップＳ２４に進む。
（ステップＳ２２）切替判定部１７０は、運用をオペレータ運用に切り替えるか否かを判定する。
オペレータ運用に切り替えると判定した場合、処理は、ステップＳ２３に進む。オペレータ運用に切り替えないと判定した場合、処理は、ステップＳ２５に進む。

（ステップＳ２３）切替判定部１７０は、運用をオペレータ運用に切り替える。
（ステップＳ２４）出力部１８０は、クライアントの感情を示す情報と、クライアントのパーソナリティ情報をディスプレイ４０３に出力する。
（ステップＳ２５）終了判定部１９０は、対話が終了したか否かを判定する。対話が終了した場合、処理は、終了する。対話が終了していない場合、処理は、ステップＳ１１に進む。

次に、図を用いて、感情の推定処理を具体的に説明する。
図１１は、感情の推定処理の具体例を示す図である。図１１は、クライアントとオペレータとが会話をしている状態を示している。
時刻ＴＭ１のクライアントは、怒っている。怒りは、感情推定結果Ｅ_ｋ－２とする。クライアントの発言により、オペレータは、動揺する。そして、時刻ＴＭ２のオペレータは、哀しくなる。哀しさは、感情推定結果Ｅ_ｋ－１とする。クライアントがオペレータの発言を聞くことで、又はオペレータが哀しんでいることをクライアントが察知することで、時刻ＴＭ３のクライアントの感情は、微怒になる。情報処理装置１００は、時刻ＴＭ３のクライアントの感情が微怒であることを推定できる。以下、推定処理を具体的に説明する。

クライアントは、時刻ＴＭ３に音声を発する。情報処理装置１００は、当該音声の信号である音声信号Ａ_１を取得する。情報処理装置１００は、音声信号Ａ_１に基づいて、発話区間特徴ベクトルＸ_ｋと発話内容Ｔ_ｋとを得る。情報処理装置１００は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_ｋ、感情推定結果Ｅ_ｋ－２、及び感情推定結果Ｅ_ｋ－１に基づいて、時刻ＴＭ３におけるクライアントの感情を推定する。なお、感情推定結果Ｅ_ｋ－１は、音声信号Ａ_１が取得される前に推定された感情を示す情報である。感情推定結果Ｅ_ｋ－２は、感情推定結果Ｅ_ｋ－１が示す感情が推定される前に推定された感情を示す情報である。情報処理装置１００の実行により得られた感情推定結果Ｅ_ｋは、微怒を示す。また、例えば、微怒は、“Ａｎｇｅｒ：１０”と考えてもよい。

ここで、人が、相手の感情が反映された発言を受けることで又は相手の感情を察知することで、現在の当該人の感情は、次の感情に変化する。そのため、双方の感情の履歴を考慮することで、精度の高い推定が行える。そこで、情報処理装置１００は、過去に推定されたクライアントの感情とオペレータの感情とを考慮して、現在のクライアントの感情を推定する。すなわち、情報処理装置１００は、双方の感情を考慮して、現在のクライアントの感情を推定する。情報処理装置１００は、クライアントに関する情報のみに基づいて、現在のクライアントの感情を推定しない。そのため、情報処理装置１００は、精度の高い推定を行うことができる。

よって、実施の形態によれば、情報処理装置１００は、推定精度を高めることができる。
また、情報処理装置１００は、発話区間特徴ベクトルＸ_ｋ、発話内容Ｔ_１～Ｔ_ｋ（すなわち、全てのクライアントとオペレータの発話）、及び感情推定結果Ｅ_１～Ｅ_ｋ－１（すなわち、過去に推定された全ての履歴）に基づいて、現在のクライアントの感情を推定してもよい。すなわち、情報処理装置１００は、クライアントとオペレータの全ての発話と、過去に推定された全ての履歴とをさらに考慮して推定してもよい。情報処理装置１００は、多くの要素に基づいて、推定を実行することで、より精度の高い推定を行うことができる。

１１インタフェースアダプタ、１２インタフェースアダプタ、１３インタフェースアダプタ、１００情報処理装置、１０１プロセッサ、１０２揮発性記憶装置、１０３不揮発性記憶装置、１０４入出力インタフェース、１１０，１１０ａ取得部、１２０，１２０ａ検出抽出部、１２１特徴量抽出部、１２２前処理実行部、１２３発話区間検出部、１３０，１３０ａ音声認識実行部、１４０発話内容記憶部、１４１発話内容履歴テーブル、１５０，１５０ａ感情推定部、１６０感情履歴記憶部、１６１感情履歴テーブル、１７０切替判定部、１７１重み記憶部、１７２重みテーブル、１８０出力部、１９０終了判定部、２００携帯装置、３００自動応答システム、４００スピーカ、４０１マイク、４０２カメラ、４０３ディスプレイ、５００画面、５１０，５２０，５３０，５３１，５３２領域、５４１，５４２，５４３，５４４発話区間、５５１，５５２領域。

Claims

第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、
出力部と、
を有し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
情報処理装置。
第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情の値である感情値を推定する感情推定部と、
出力部と、
を有し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
情報処理装置。
第１の音源の音声信号を取得する取得部と、
前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報とを記憶する記憶部と、
前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情を推定する感情推定部と、
切替判定部と、
を有し、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記切替判定部は、前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
情報処理装置。
前記記憶部は、前記第１の音源と前記第２の音源との会話が開始してから、前記第１の音源が発した発話の内容を示す第１の発話履歴と前記第２の音源が発した発話の内容を示す第２の発話履歴とをさらに記憶し、
前記感情推定部は、前記第１の発話履歴、前記第２の発話履歴、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第１の音源の過去の感情を示す情報、及び前記第２の音源の過去の感情を示す情報に基づいて、前記第１の音源の感情を推定する、
請求項１から３のいずれか１項に記載の情報処理装置。
前記第２の音源の過去の感情は、前記音声信号が取得される前に推定された感情であり、
前記第１の音源の過去の感情は、前記第２の音源の過去の感情が推定される前に推定された感情である、
請求項１から４のいずれか１項に記載の情報処理装置。
前記第１の音源の過去の感情を示す情報は、前記第１の音源と前記第２の音源との会話が開始してから、推定された前記第１の音源の感情の履歴であり、
前記第２の音源の過去の感情を示す情報は、前記第１の音源と前記第２の音源との会話が開始してから、推定された前記第２の音源の感情の履歴である、
請求項１から４のいずれか１項に記載の情報処理装置。
前記取得部は、前記第１の音源のパーソナリティ情報を取得し、
前記感情推定部は、パーソナリティ情報と重みとの対応関係を示す重み情報を用いて学習することにより生成された学習済モデルと前記第１の音源のパーソナリティ情報とを用いて、前記第１の音源の感情を推定する、
請求項１から６のいずれか１項に記載の情報処理装置。
前記取得部は、前記ユーザのパーソナリティ情報を取得し、
前記記憶部は、パーソナリティ情報と重みとの対応関係を示す重み情報を記憶し、
前記切替判定部は、前記ユーザのパーソナリティ情報、前記回数、及び前記重み情報に基づいて、値を算出し、前記値が前記閾値以上である場合、前記自動応答システムの運用から前記オペレータ運用に切り替える、
請求項３に記載の情報処理装置。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
推定方法。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定し、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
推定方法。
記憶部を有する情報処理装置が、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情を推定し、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
推定方法。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
推定プログラム。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情の値である感情値を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、第１のユーザであり、
前記第２の音源は、第２のユーザであり、
前記記憶部は、前記音声信号が取得される前に前記第２のユーザが発した発話の内容であるユーザ発話内容を記憶し、
前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
推定プログラム。
記憶部を有する情報処理装置に、
第１の音源の音声信号を取得し、
前記音声信号に基づいて、発話区間を検出し、
前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
前記発話区間特徴量に基づいて、音声認識を実行し、
前記記憶部に格納されている前記第１の音源の過去の感情を示す情報と第２の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第１の音源の感情を推定する、
処理を実行させる推定プログラムであり、
前記第１の音源は、ユーザであり、
前記第２の音源は、１以上の電気装置により実現される自動応答システムであり、
前記第１の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
推定プログラム。