JP7162783B2 - 情報処理装置、推定方法、及び推定プログラム - Google Patents

情報処理装置、推定方法、及び推定プログラム Download PDF

Info

Publication number
JP7162783B2
JP7162783B2 JP2022546733A JP2022546733A JP7162783B2 JP 7162783 B2 JP7162783 B2 JP 7162783B2 JP 2022546733 A JP2022546733 A JP 2022546733A JP 2022546733 A JP2022546733 A JP 2022546733A JP 7162783 B2 JP7162783 B2 JP 7162783B2
Authority
JP
Japan
Prior art keywords
emotion
sound source
utterance
user
information indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022546733A
Other languages
English (en)
Other versions
JPWO2022049613A1 (ja
JPWO2022049613A5 (ja
Inventor
政人 土屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022049613A1 publication Critical patent/JPWO2022049613A1/ja
Application granted granted Critical
Publication of JP7162783B2 publication Critical patent/JP7162783B2/ja
Publication of JPWO2022049613A5 publication Critical patent/JPWO2022049613A5/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)

Description

本開示は、情報処理装置、推定方法、及び推定プログラムに関する。
コールセンターでは、クライアントのクレームに対する処理及びクライアントの問い合わせに対する処理が行われている。従来、これらの処理は、人によって行われていた。しかし、音声認識、応答生成、及び音声合成の技術を組み合わせることで、コールセンターには、自動応答システムが導入された。自動応答システムを導入することで、コストが削減される。しかし、クライアントが、自動応答システムで対応されることは不誠実であると思う場合がある。自動応答システムで対応することは、クレーム及びクライアントのフラストレーションを増加させる。そこで、自動応答システムが当該クレーム又は当該問合せを解決できない場合、運用が、自動応答システムからオペレータ運用に切り替わる。ここで、自動応答システムからオペレータ運用に切り替える技術が提案されている(特許文献1を参照)。特許文献1では、感情が閾値を超えた場合、運用がオペレータ運用に切り替わる。
特開2017-207801号公報
ところで、個人に関する情報のみに基づいて、当該個人の感情が、推定される場合がある。しかし、当該推定の方法は、推定精度が高くない場合がある。
本開示の目的は、推定精度を高めることである。
本開示の一態様に係る情報処理装置が提供される。情報処理装置は、第1の音源の音声信号を取得する取得部と、前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、出力部と、を有する。前記第1の音源は、第1のユーザである。前記第2の音源は、第2のユーザである。前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶する。前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する。
本開示によれば、推定精度を高めることができる。
通信システムを示す図である。 情報処理装置が有するハードウェアの例を示す図である。 情報処理装置が有する機能ブロックを示す図である。 検出抽出部を示す図である。 発話内容履歴テーブルの例を示す図である。 感情履歴テーブルの例を示す図である。 重みテーブルの例を示す図である。 ディスプレイに表示される画面の具体例を示す図である。 情報処理装置が実行する処理の例を示すフローチャート(その1)である。 情報処理装置が実行する処理の例を示すフローチャート(その2)である。 感情の推定処理の具体例を示す図である。
以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
実施の形態.
図1は、通信システムを示す図である。通信システムは、情報処理装置100、携帯装置200、自動応答システム300、スピーカ400、マイク401、カメラ402、及びディスプレイ403を含む。
通信システムでは、クライアントから通話があった場合、自動応答システム300が応答を行う。通信システムでは、条件が満たされた場合、運用が、オペレータ運用に切り替わる。なお、当該条件については、後で説明する。
情報処理装置100は、推定方法を実行する装置である。情報処理装置100は、感情推定装置と呼んでもよい。情報処理装置100は、インタフェースアダプタ11を介して、携帯装置200と自動応答システム300と通信する。また、情報処理装置100は、携帯装置200と自動応答システム300と無線で通信することができる。情報処理装置100は、インタフェースアダプタ12を介して、スピーカ400とマイク401と接続する。情報処理装置100は、インタフェースアダプタ13を介して、カメラ402とディスプレイ403と接続する。
携帯装置200は、クライアントが使用する装置である。例えば、携帯装置200は、スマートフォンである。
自動応答システム300は、1以上の電気装置によって実現される。自動応答システム300は、疑似的なオペレータの役割を果たす。
スピーカ400は、クライアントの音声を出力する。マイク401には、オペレータの音声が入力される。マイク401は、当該音声を音声信号に変換する。ここで、マイクは、マイクロフォンとも言う。カメラ402は、オペレータの顔を撮影する。カメラ402は、撮影することにより得らえた画像を情報処理装置100に送信する。ディスプレイ403は、情報処理装置100が出力した情報を表示する。
次に、情報処理装置100が有するハードウェアを説明する。
図2は、情報処理装置が有するハードウェアの例を示す図である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、不揮発性記憶装置103、及び入出力インタフェース104を有する。
プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable Gate Array)、マイクロコントローラ、DSP(Digital Signal Processor)などである。プロセッサ101は、マルチプロセッサでもよい。情報処理装置100は、プロセッサ101に変えて、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、ROM(Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
入出力インタフェース104は、携帯装置200、自動応答システム300、スピーカ400、マイク401、カメラ402、及びディスプレイ403と通信する。
また、情報処理装置100は、外部装置から情報を取得することができる。例えば、外部装置は、USB(Universal Serial Bus)メモリである。
次に、情報処理装置100が有する機能を説明する。
図3は、情報処理装置が有する機能ブロックを示す図である。情報処理装置100は、取得部110、検出抽出部120、音声認識実行部130、発話内容記憶部140、感情推定部150、感情履歴記憶部160、切替判定部170、重み記憶部171、出力部180、及び終了判定部190を有する。また、情報処理装置100は、取得部110a、検出抽出部120a、音声認識実行部130a、及び感情推定部150aを有してもよい。
発話内容記憶部140、感情履歴記憶部160、及び重み記憶部171は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。また、発話内容記憶部140、感情履歴記憶部160、及び重み記憶部171の総称は、単に記憶部と呼ぶ。
取得部110,110a、検出抽出部120,120a、音声認識実行部130,130a、感情推定部150,150a、切替判定部170、出力部180、及び終了判定部190の一部又は全部は、処理回路によって実現してもよい。また、取得部110,110a、検出抽出部120,120a、音声認識実行部130,130a、感情推定部150,150a、切替判定部170、出力部180、及び終了判定部190の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、推定プログラムとも言う。例えば、推定プログラムは、記録媒体に記録されている。
取得部110は、音声信号Aを取得する。音声信号Aは、デジタル信号である。また、音声信号Aは、クライアントの音声を示す信号(以下、クライアントの音声信号)、オペレータの音声を示す信号(以下、オペレータの音声信号)、又は自動応答システム300が出力した音声情報を示す信号(以下、自動応答システムの音声信号)である。
取得部110aは、音声信号Bを取得する。音声信号Bについて説明する。情報処理装置100には、クライアントの音声信号と、オペレータの音声信号又は自動応答システムの音声信号とが同じ時期に入力される場合がある。例えば、当該場合では、音声信号Aがクライアントの音声信号であり、音声信号Bがオペレータの音声信号である。また、例えば、当該場合では、音声信号Aがクライアントの音声信号であり、音声信号Bが自動応答システムの音声信号である。
ここで、取得部110a、検出抽出部120a、音声認識実行部130a、及び感情推定部150aの機能は、取得部110、検出抽出部120、音声認識実行部130、及び感情推定部150の機能と同じである。例えば、検出抽出部120a、音声認識実行部130a、及び感情推定部150aが音声信号B及び音声信号Bに基づく発話区間特徴ベクトルを用いる処理と、検出抽出部120、音声認識実行部130、及び感情推定部150が音声信号A及び音声信号Aに基づく発話区間特徴ベクトルを用いる処理とは、同じである。そのため、取得部110a、検出抽出部120a、音声認識実行部130a、及び感情推定部150aの機能の説明は、省略する。なお、発話区間特徴ベクトルについては、後で説明する。
また、クライアント、オペレータ、及び自動応答システム300は、音源とも言う。例えば、クライアントが第1の音源である場合、オペレータ又は自動応答システム300は、第2の音源とも言う。オペレータ又は自動応答システム300が第1の音源である場合、クライアントは、第2の音源とも言う。さらに、クライアントとオペレータは、ユーザとも言う。例えば、クライアントが第1のユーザである場合、オペレータは、第2のユーザとも言う。オペレータが第1のユーザである場合、クライアントは、第2のユーザとも言う。
検出抽出部120は、音声信号に基づいて、発話区間を検出する。検出抽出部120は、発話区間に基づいて、発話区間特徴ベクトルを抽出する。なお、発話区間特徴ベクトルは、発話区間の特徴量である。また、発話区間特徴ベクトルは、発話区間の発話に関する特徴量と表現してもよい。検出抽出部120の機能を詳細に説明する。
図4は、検出抽出部を示す図である。検出抽出部120は、特徴量抽出部121、前処理実行部122、及び発話区間検出部123を有する。
特徴量抽出部121は、音声信号Aに基づいて、特徴ベクトルFを抽出する。なお、特徴ベクトルFは、特徴量とも言う。なお、例えば、特徴ベクトルFは、MFCC(Mel Frequency Cepstrum Coefficients)又は基本周波数である。また、MFCC又は基本周波数は、音声ドメインでよく使用される。
前処理実行部122は、特徴ベクトルFに前処理を実行する。例えば、前処理には、値を0から1の範囲に揃える処理、単位行列を分散に関する指標として共分散行列を線形変換する処理、外れ値を除去する処理などがある。前処理実行部122は、前処理を実行することで、前処理後特徴ベクトルFPを出力する。
発話区間検出部123は、前処理後特徴ベクトルFPに基づいて、発話区間を検出する。ここで、検出された発話区間は、発話区間検出部123が今まで検出した発話区間のうち、k番目の発話区間である。発話区間検出部123は、検出された発話区間に基づいて、当該発話区間の特徴量である発話区間特徴ベクトルXを抽出する。なお、発話区間特徴ベクトルは、発話区間特徴量とも言う。
ここで、情報処理装置100には、音声信号Aと音声信号Bとが同じ時期に入力される場合がある。ただし、音声信号Aと音声信号Bとが重ならないものとする。言い換えれば、発話区間検出部123が音声信号Aに基づいて検出した発話区間と検出抽出部120aの発話区間検出部が音声信号Bに基づいて検出した発話区間とは、重ならないものとする。
次に、図3に戻って、音声認識実行部130を説明する。
音声認識実行部130は、発話区間特徴ベクトルXに基づいて、音声認識を実行する。音声認識実行部130は、公知技術を用いて、音声認識を実行できる。例えば、音声認識実行部130は、HMM(Hidden Markov Model)、LSTM(Long Short Term Memory)などのモデルを用いて、音声認識を実行する。
音声認識の結果は、発話内容Tと呼ぶ。発話内容Tには、話者を示す情報が含まれる。音声認識実行部130は、発話内容Tを発話内容記憶部140に格納する。
発話内容記憶部140は、発話内容履歴テーブルを記憶する。発話内容履歴テーブルを具体的に説明する。
図5は、発話内容履歴テーブルの例を示す図である。発話内容履歴テーブル141は、発話内容記憶部140に格納される。発話内容履歴テーブル141は、発話内容の履歴を示す。すなわち、発話内容履歴テーブル141には、音声認識実行部130による音声認識の結果が、時系列に登録される。発話内容履歴テーブル141を詳細に説明する。
発話内容履歴テーブル141は、発話ID(identifier)、話者、及び発話内容の項目を有する。発話IDの項目には、識別子が登録される。話者の項目には、話者を示す情報が登録される。例えば、話者の項目には、オペレータ、クライアントなどが登録される。発話内容の項目には、発話内容が登録される。
図5は、クライアントとオペレータとの会話が開始してから、クライアントが発した発話の内容とオペレータが発した発話の内容とが発話内容履歴テーブル141に登録されていることを示している。クライアントが発した発話の内容とオペレータが発した発話の内容とは、発話履歴とも言う。例えば、クライアントが発した発話の内容が第1の発話履歴である場合、オペレータが発した発話の内容は、第2の発話履歴である。オペレータが発した発話の内容が第1の発話履歴である場合、クライアントが発した発話の内容は、第2の発話履歴である。
また、発話内容履歴テーブル141には、クライアントと自動応答システム300との会話が開始してから、クライアントが発した発話の内容と自動応答システムの音声信号に基づく発話内容とが登録される場合もある。クライアントが発した発話の内容と自動応答システムの音声信号に基づく発話内容とは、発話履歴とも言う。例えば、クライアントが発した発話の内容が第1の発話履歴である場合、自動応答システムの音声信号に基づく発話内容は、第2の発話履歴である。自動応答システムの音声信号に基づく発話内容が第1の発話履歴である場合、クライアントが発した発話の内容は、第2の発話履歴である。
ここで、例えば、発話ID“0000”に対応する発話内容は、発話内容Tと考えてもよい。発話ID“0001”に対応する発話内容は、発話内容Tと考えてもよい。発話ID“0002”に対応する発話内容は、発話内容Tと考えてもよい。発話ID“0003”に対応する発話内容は、発話内容Tk-1と考えてもよい。発話ID“0004”に対応する発話内容は、発話内容Tと考えてもよい。このように、発話内容記憶部140には、発話内容T~Tが格納される。
次に、図3に戻って、感情推定部150を説明する。
感情推定部150は、発話区間特徴ベクトルX、発話内容T、クライアントの過去の感情を示す情報、及びオペレータの過去の感情を示す情報に基づいて、音声信号Aの音源(例えば、クライアント又はオペレータ)の感情を推定する。また、感情推定部150は、発話区間特徴ベクトルX、発話内容T、クライアントの過去の感情を示す情報、及び自動応答システムの過去の感情を示す情報に基づいて、音声信号Aの音源(例えば、クライアント又は自動応答システム300)の感情を推定する。なお、自動応答システムの過去の感情とは、自動応答システムの音声信号に基づいて、感情推定部150により推定された感情である。感情推定部150は、推定を実行する場合、学習済モデルを用いて、推定を実行してもよい。また、推定される感情は、発話内容Tに対応する感情と考えてもよい。
また、感情推定部150は、発話区間特徴ベクトルX、1~k番目までの発話内容T~T、及び1~k-1番目までの感情推定結果E~Ek-1に基づいて、音声信号Aの音源の感情を推定してもよい。以下の説明では、主に当該推定が実行されるものとする。当該推定の方法については、後で説明する。なお、感情推定結果E~Ek-1は、感情履歴記憶部160に格納されている。
推定された結果は、感情推定結果Eと呼ぶ。感情推定結果Eは、定量化された感情の値である感情値を示してもよい。感情推定部150は、感情推定結果Eを感情履歴記憶部160に格納する。ここで、感情履歴記憶部160に格納される情報を説明する。
図6は、感情履歴テーブルの例を示す図である。感情履歴テーブル161は、感情履歴記憶部160に格納される。感情履歴テーブル161は、推定された感情の履歴を示す。すなわち、感情履歴テーブル161には、感情推定部150による推定の結果が、時系列に登録される。
感情履歴テーブル161は、発話IDと感情の項目を有する。発話IDの項目には、識別子が登録される。感情履歴テーブル161の発話IDは、発話内容履歴テーブル141の発話IDと対応関係を有する。感情の項目には、感情推定部150による推定の結果が登録される。例えば、感情の項目には、“Anger:50”が登録される。このように、感情の項目には、感情値が登録されてもよい。感情履歴テーブル161は、話者の項目を有してもよい。
図6は、クライアントの過去の感情を示す情報とオペレータの過去の感情を示す情報とが感情履歴テーブル161に登録されていることを示している。詳細には、図6は、クライアントとオペレータとの会話が開始してから、推定されたクライアントの感情の履歴と推定されたオペレータの感情の履歴が感情履歴テーブル161に登録されていることを示している。なお、クライアント及びオペレータの感情は、感情履歴テーブル161の発話IDと発話内容履歴テーブル141の発話IDとの対応関係に基づいて、特定される。
また、感情履歴テーブル161には、クライアントの過去の感情を示す情報と自動応答システムの過去の感情を示す情報とが登録される場合もある。詳細には、クライアントと自動応答システム300との会話が開始してから、推定されたクライアントの感情の履歴と推定された自動応答システムの感情の履歴とが感情履歴テーブル161に登録される場合がある。
ここで、例えば、発話ID“0000”に対応する感情は、感情推定結果Eと考えてもよい。発話ID“0001”に対応する感情は、感情推定結果Eと考えてもよい。発話ID“0002”に対応する感情は、感情推定結果Eと考えてもよい。発話ID“0003”に対応する感情は、感情推定結果Ek-1と考えてもよい。このように、感情履歴記憶部160には、感情推定結果E~Ek-1が、格納されている。
また、発話ID“0004”に対応する感情は、感情推定結果Eと考えてもよい。このように、感情推定部150の実行により得られた感情推定結果Eが、感情履歴記憶部160に格納される。
次に、感情の推定方法を説明する。
感情推定部150は、式(1)が示す事後確率分布Pを算出することで、特定の感情が生じる確率を得ることができる。なお、Wは、モデルパラメータである。K及びkは、k番目を示す。
Figure 0007162783000001
感情推定部150は、学習済モデルを用いて、特定の感情が生じる確率を得ることができる。ここで、当該学習済モデルは、確率的生成モデルと呼んでもよい。当該学習済モデルで自己回帰ニューラルネットワークが使用されている場合、式(1)は、式(2)になる。なお、L及びlは、自己回帰ニューラルネットワークの層の数である。
Figure 0007162783000002
ここで、自己回帰ニューラルネットワークでは、1層における非線形関数fの出力結果を正規分布の平均値として、用いる場合が多い。この場合、式(2)は、正規分布が尤度関数に代入されることで、式(3)になる。なお、σは、分散を制御するハイパーパラメータである。Iは、単位行列である。Nは、高次元のガウス分布である。非線形関数fには、シグモイド関数、Relu(Rectified Linear Unit)関数などが用いられてもよい。
Figure 0007162783000003
感情推定部150は、式(3)を用いることで得られた確率を最大化する。確率を最大化する場合、感情推定部150は、公知技術を用いて、確率を最大化する。なお、確率を最大化する場合、P(W)に関して、正規分布等を仮定することで、計算が簡易化される。
また、感情推定部150は、確率の最大化の代わりに、ベイズ推論を用いてもよい。感情推定部150は、ベイズ推論を用いることで、式(1)のモデルパラメータWに関して、周辺化積分された予測分布を得ることができる。予測分布は、モデルパラメータWに依存しない分布である。例えば、感情推定部150は、予測分布を用いることで、現在のオペレータの発話がクライアントに特定の感情を引き起こす可能性があるか否かの確率を予測できる。当該予測は、パラメータ推定誤差又はモデル誤りに強い。ベイズ推論が用いられる場合の式を式(4)として提示する。なお、Pは、予測分布又は事後確率分布である。
Figure 0007162783000004
式(4)の積分及び総和演算では、モデルパラメータWを考慮する必要がある。そのため、式(4)の計算が困難な場合がある。そこで、ラプラス近似などが用いられてもよい。
ここで、モデルパラメータWは、式(5)を用いた学習により、得ることができる。学習データには、正解アノテーションデータが用いられる。正解アノテーションデータには、感情推定結果Eのラベルが付されてもよい。正解アノテーションデータには、発話内容Tの文字列がラベルとして、付されてもよい。正解アノテーションデータには、図1で図示が省略されている音声認識システムで実行された認識の結果がラベルとして、付されてもよい。
Figure 0007162783000005
式(5)の計算は、困難な場合がある。そこで、確率的変分推論法などの公知の手法を用いて、近似推論を行うことが考えられる。確率的変分推論法が用いられる場合、式(5)を近似推論する問題は、式(6)のようなエビデンス下限Lを最大化する変分パラメータξを推定する問題に帰着する。なお、qは、式(5)の事後確率分布に対する近似分布である。KLは、カルバック・ライブラーダイバージェンスによる分布間の距離を示す。
Figure 0007162783000006
学習済モデルで自己回帰ニューラルネットワークが使用される場合、式(6)は、式(7)になる。
Figure 0007162783000007
エビデンス下限Lを最大化させる変分パラメータξを解く場合、スコア関数推定法、再パラメータ化勾配法、確率的勾配ランジュバン動力学法などを用いることができる。
感情推定部150は、特定の感情が生じる確率を、当該特定の感情の感情値として推定してもよい。例えば、当該特定の感情が“怒り”であり、当該確率が“50”である場合、感情推定部150は、“怒り”の感情値を“50”と推定してもよい。また、感情推定部150は、当該確率が予め設定された閾値以上であれば、当該特定の感情が生じていると推定してもよい。
また、当該確率を算出せずに、感情推定部150は、発話区間特徴ベクトルX、発話内容T~T、感情推定結果E~Ek-1、及び学習済モデルを用いて、発話内容Tに対応する感情を推定してもよい。
このように、感情が推定される。そして、感情推定部150は、感情推定結果Eを感情履歴記憶部160に格納する。なお、感情推定結果Eは、離散的なスカラー量又は連続的なベクトル量と考えてもよい。
切替判定部170は、通信システムで自動応答システム300が実行している場合、自動応答システム300の運用からオペレータ運用に切り替えるか否かを判定する。詳細には、切替判定部170は、感情履歴テーブル161に登録されているクライアントの感情の履歴に基づいて、予め設定された時間内に、クライアントの感情が変化した回数Sを特定する。ここで、例えば、予め設定された時間は、1分である。また、クライアントの感情は、感情履歴テーブル161の発話IDと発話内容履歴テーブル141の発話IDとの対応関係に基づいて、特定される。例えば、切替判定部170は、当該対応関係に基づいて、感情履歴テーブル161の発話ID“0002”がクライアントの感情を示していることを特定できる。切替判定部170は、回数Sが予め設定された閾値以上であるか否かを判定する。切替判定部170は、回数Sが当該閾値以上である場合、自動応答システム300の運用からオペレータ運用に切り替える。
具体例を用いて、判定処理を説明する。感情履歴テーブル161には、1分間におけるクライアントの感情が登録されている。1分間におけるクライアントの感情は、平静、哀しみ、怒り、平静、及び怒りとする。切替判定部170は、クライアントの感情が変化した回数Sが5であることを特定する。切替判定部170は、回数Sが閾値以上である場合、オペレータ運用に切り替える。
このように、情報処理装置100は、オペレータ運用に切り替えることで、深刻な状況になる前にオペレータに応対させることができる。また、情報処理装置100は、オペレータ運用に切り替えることで、顧客満足度を向上させることができる。
ここで、重み記憶部171を説明する。重み記憶部171は、重みテーブルを記憶する。重みテーブルを説明する。
図7は、重みテーブルの例を示す図である。重みテーブル172は、重み記憶部171に格納される。重みテーブル172は、重み情報とも言う。重みテーブル172は、属性、条件、及び重みの項目を有する。
属性の項目には、属性を示す情報が登録される。なお、属性の項目が示す“回数”は、クライアントが電話をかけてきた回数である。条件の項目には、条件を示す情報が登録される。重みの項目には、重みを示す情報が登録される。
また、条件の項目に登録される情報は、ベクトルと考えてもよい。例えば、条件の項目に登録される情報は、年齢、性別、回数、地域、飲酒の有無を示す5次元ベクトルである。
例えば、属性及び条件の項目が示す情報は、パーソナリティ情報と呼んでもよい。よって、重みテーブル172は、パーソナリティ情報と重みとの対応関係を示している。
重みテーブル172が用いられる場合を説明する。まず、取得部110は、クライアントのパーソナリティ情報を取得する。例えば、取得部110は、クライアントのパーソナリティ情報を情報処理装置100に接続可能な外部装置から取得する。また、例えば、クライアントのパーソナリティ情報が揮発性記憶装置102又は不揮発性記憶装置103に格納されている場合、取得部110は、クライアントのパーソナリティ情報を揮発性記憶装置102又は不揮発性記憶装置103から取得する。当該パーソナリティ情報は、音声信号Aを分析することで得られた情報でもよいし、クライアントから聞き出すことにより得られた情報でもよい。切替判定部170は、クライアントのパーソナリティ情報、回数S、及び重みテーブル172に基づいて、値を算出する。切替判定部170は、当該値が当該閾値以上である場合、自動応答システム300の運用からオペレータ運用に切り替える。
具体例を用いて説明する。パーソナリティ情報は、クライアントが男性であることを示しているものとする。切替判定部170は、重みテーブル172を参照し、重み“1.5”を特定する。切替判定部170は、重み“1.5”を回数Sに乗算又は加算する。切替判定部170は、算出された値が当該閾値以上である場合、オペレータ運用に切り替える。
このように、情報処理装置100は、クライアントのパーソナリティ情報を考慮して、オペレータ運用に切り替えるか否かを判定する。これにより、情報処理装置100は、オペレータ運用に切り替えるタイミングを、クライアント毎に調整できる。
また、切替判定部170は、感情推定結果Eがクライアントの感情である場合、当該感情の感情値が予め設定された閾値以上である場合、オペレータ運用に切り替えてもよい。
ここで、取得部110は、クライアント又はオペレータのパーソナリティ情報を取得する。例えば、取得部110は、クライアント又はオペレータのパーソナリティ情報を情報処理装置100に接続可能な外部装置から取得する。また、例えば、取得部110は、クライアント又はオペレータのパーソナリティ情報を揮発性記憶装置102又は不揮発性記憶装置103から取得する。感情推定部150は、学習データとして重みテーブル172を用いて学習することにより生成された学習済モデルと、クライアント又はオペレータのパーソナリティ情報とを用いて、感情を推定してもよい。また、感情推定部150は、当該学習済モデルと当該パーソナリティ情報とを用いることで、重みが加算又は乗算された感情値を推定できる。なお、当該学習により、学習済モデルで使用される式(1)~(4)のいずれかは、変更される。例えば、変更された式(3)を式(8)として、示す。なお、Zは、重みテーブル172に含まれる情報を示す。
Figure 0007162783000008
また、情報処理装置100は、学習データとして重みテーブル172を用いて、式(5)~(7)のいずれかを使用する学習済モデルを生成してもよい。
出力部180は、感情推定結果E~Eの中から、クライアントの感情推定結果を特定する。詳細には、出力部180は、感情履歴テーブル161を参照し、クライアントの感情を特定する。出力部180がクライアントの感情を特定する場合、出力部180は、感情履歴テーブル161の発話IDと発話内容履歴テーブル141の発話IDとの対応関係に基づいて、クライアントの感情を特定する。出力部180は、特定されたクライアントの感情推定結果(すなわち、クライアントの感情を示す情報)と、クライアントのパーソナリティ情報をディスプレイ403に出力する。
ここで、ディスプレイ403に表示される画面を例示する。
図8は、ディスプレイに表示される画面の具体例を示す図である。図8の上図の画面500は、自動応答からオペレータ運用に切り替わり、かつクライアントとの通話が開始する前の状態を示している。
画面500内の領域510は、クライアントのパーソナリティ情報が表示される領域である。画面500内の領域520は、クライアントの感情推定結果(すなわち、クライアントの感情を示す情報)が表示される領域である。画面500内の領域530は、オペレータとクライアントとの音声信号が表示される領域である。領域530に表示される音声信号は、左から右に移動する。そして、領域530では、最新の音声信号が左端に表示される。
図8の下図の画面500は、通話中の状態を示している。画面500内の領域520には、クライアントの感情が比率で表示される。画面500内の領域531は、オペレータの音声信号が表示される領域である。画面500内の領域532は、クライアントの音声信号が表示される領域である。
ここで、感情推定結果Eが示すクライアントの怒りの感情値が予め定められた閾値以上であり、かつ音声信号Aが取得される前にオペレータが発した発話の内容である発話内容Tk-1が怒りを生じさせる内容である場合、出力部180は、注意を促す情報を出力する。例えば、クライアントの発話区間541に基づく怒りの感情値が予め定められた閾値以上であり、かつオペレータの発話内容Tk-1が怒りを生じさせる内容である場合、出力部180は、オペレータの発話区間542(すなわち、発話内容Tk-1の発話区間)に対応付ける、注意を促す情報を出力する。そして、画面500内の領域551には、注意を促す情報が表示される。なお、例えば、出力部180は、学習済モデルを用いて、オペレータの発話内容Tk-1が怒りを生じさせる内容であるか否かを判定できる。また、発話内容Tk-1は、ユーザ発話内容とも言う。オペレータは、注意を促す情報を見ることで、発言を注意するようになる。そして、オペレータが発言を注意することで、クライアントの怒りが鎮められる。上記では、ネガティブな感情の例として、感情推定結果Eが怒りである場合を説明した。出力部180は、感情推定結果Eが他のネガティブな感情である場合でも、上記の処理を実行する。なお、例えば、他のネガティブな感情とは、不安などである。
また、感情推定結果Eが示すクライアントの怒りの感情値が予め定められた閾値以上であり、かつ感情推定結果Eが推定される前のオペレータの発話内容Tk-1が怒りを生じさせる内容でない場合、出力部180は、問題がない旨を示す情報を出力する。例えば、クライアントの発話区間543に基づく怒りの感情値が予め定められた閾値以上であり、かつオペレータの発話内容Tk-1が怒りを生じさせる内容でない場合、出力部180は、オペレータの発話区間544(すなわち、発話内容Tk-1の発話区間)に対応付ける、問題がない旨を示す情報を出力する。これにより、画面500内の領域552には、問題がない旨を示す情報が表示される。これにより、オペレータは、自分の発言に問題がなかったことを知ることができる。
このように、オペレータは、画面500から様々な情報を得ることができる。
図3に戻って、終了判定部190を説明する。
終了判定部190は、対話が終了したか否かを判定する。例えば、終了判定部190は、クライアントの通話が終了したときに、対話が終了したと判定する。
次に、情報処理装置100が実行する処理を、フローチャートを用いて、説明する。
図9は、情報処理装置が実行する処理の例を示すフローチャート(その1)である。
(ステップS11)取得部110は、音声信号Aを取得する。なお、音声信号Aは、一時的に揮発性記憶装置102に格納されてもよい。
(ステップS12)特徴量抽出部121は、音声信号Aに基づいて、特徴ベクトルFを抽出する。
(ステップS13)前処理実行部122は、特徴ベクトルFに前処理を実行する。前処理実行部122は、前処理を実行することで、前処理後特徴ベクトルFPを出力する。
(ステップS14)発話区間検出部123は、前処理後特徴ベクトルFPに基づいて、発話区間の検出処理を実行する。
(ステップS15)発話区間検出部123は、発話区間が検出されたか否かを判定する。発話区間が検出されなかった場合、処理は、ステップS11に進む。発話区間が検出された場合、発話区間検出部123は、当該発話区間に基づいて、発話区間特徴ベクトルXを抽出する。そして、処理は、ステップS16に進む。
(ステップS16)音声認識実行部130は、発話区間特徴ベクトルXに基づいて、音声認識を実行する。音声認識の結果は、発話内容Tである。音声認識実行部130は、発話内容Tを発話内容履歴テーブル141に登録する。
(ステップS17)感情推定部150は、発話区間特徴ベクトルX、発話内容T~T、及び感情推定結果E~Ek-1に基づいて、発話内容Tに対応する音声信号Aの音源(例えば、クライアント)の感情を推定する。感情推定部150は、感情推定結果Eを感情履歴テーブル161に登録する。そして、処理は、ステップS21に進む。
図10は、情報処理装置が実行する処理の例を示すフローチャート(その2)である。
(ステップS21)切替判定部170は、自動応答システム300が実行しているか否かを判定する。自動応答システム300が実行している場合、処理は、ステップS22に進む。オペレータ運用が実行されている場合、処理は、ステップS24に進む。
(ステップS22)切替判定部170は、運用をオペレータ運用に切り替えるか否かを判定する。
オペレータ運用に切り替えると判定した場合、処理は、ステップS23に進む。オペレータ運用に切り替えないと判定した場合、処理は、ステップS25に進む。
(ステップS23)切替判定部170は、運用をオペレータ運用に切り替える。
(ステップS24)出力部180は、クライアントの感情を示す情報と、クライアントのパーソナリティ情報をディスプレイ403に出力する。
(ステップS25)終了判定部190は、対話が終了したか否かを判定する。対話が終了した場合、処理は、終了する。対話が終了していない場合、処理は、ステップS11に進む。
次に、図を用いて、感情の推定処理を具体的に説明する。
図11は、感情の推定処理の具体例を示す図である。図11は、クライアントとオペレータとが会話をしている状態を示している。
時刻TM1のクライアントは、怒っている。怒りは、感情推定結果Ek-2とする。クライアントの発言により、オペレータは、動揺する。そして、時刻TM2のオペレータは、哀しくなる。哀しさは、感情推定結果Ek-1とする。クライアントがオペレータの発言を聞くことで、又はオペレータが哀しんでいることをクライアントが察知することで、時刻TM3のクライアントの感情は、微怒になる。情報処理装置100は、時刻TM3のクライアントの感情が微怒であることを推定できる。以下、推定処理を具体的に説明する。
クライアントは、時刻TM3に音声を発する。情報処理装置100は、当該音声の信号である音声信号Aを取得する。情報処理装置100は、音声信号Aに基づいて、発話区間特徴ベクトルXと発話内容Tとを得る。情報処理装置100は、発話区間特徴ベクトルX、発話内容T、感情推定結果Ek-2、及び感情推定結果Ek-1に基づいて、時刻TM3におけるクライアントの感情を推定する。なお、感情推定結果Ek-1は、音声信号Aが取得される前に推定された感情を示す情報である。感情推定結果Ek-2は、感情推定結果Ek-1が示す感情が推定される前に推定された感情を示す情報である。情報処理装置100の実行により得られた感情推定結果Eは、微怒を示す。また、例えば、微怒は、“Anger:10”と考えてもよい。
ここで、人が、相手の感情が反映された発言を受けることで又は相手の感情を察知することで、現在の当該人の感情は、次の感情に変化する。そのため、双方の感情の履歴を考慮することで、精度の高い推定が行える。そこで、情報処理装置100は、過去に推定されたクライアントの感情とオペレータの感情とを考慮して、現在のクライアントの感情を推定する。すなわち、情報処理装置100は、双方の感情を考慮して、現在のクライアントの感情を推定する。情報処理装置100は、クライアントに関する情報のみに基づいて、現在のクライアントの感情を推定しない。そのため、情報処理装置100は、精度の高い推定を行うことができる。
よって、実施の形態によれば、情報処理装置100は、推定精度を高めることができる。
また、情報処理装置100は、発話区間特徴ベクトルX、発話内容T~T(すなわち、全てのクライアントとオペレータの発話)、及び感情推定結果E~Ek-1(すなわち、過去に推定された全ての履歴)に基づいて、現在のクライアントの感情を推定してもよい。すなわち、情報処理装置100は、クライアントとオペレータの全ての発話と、過去に推定された全ての履歴とをさらに考慮して推定してもよい。情報処理装置100は、多くの要素に基づいて、推定を実行することで、より精度の高い推定を行うことができる。
11 インタフェースアダプタ、 12 インタフェースアダプタ、 13 インタフェースアダプタ、 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 104 入出力インタフェース、 110,110a 取得部、 120,120a 検出抽出部、 121 特徴量抽出部、 122 前処理実行部、 123 発話区間検出部、 130,130a 音声認識実行部、 140 発話内容記憶部、 141 発話内容履歴テーブル、 150,150a 感情推定部、 160 感情履歴記憶部、 161 感情履歴テーブル、 170 切替判定部、 171 重み記憶部、 172 重みテーブル、 180 出力部、 190 終了判定部、 200 携帯装置、 300 自動応答システム、 400 スピーカ、 401 マイク、 402 カメラ、 403 ディスプレイ、 500 画面、 510,520,530,531,532 領域、 541,542,543,544 発話区間、 551,552 領域。

Claims (14)

  1. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、
    出力部と、
    を有し、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    情報処理装置。
  2. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情の値である感情値を推定する感情推定部と、
    出力部と、
    を有し、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記出力部は、前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    情報処理装置。
  3. 第1の音源の音声信号を取得する取得部と、
    前記音声信号に基づいて、発話区間を検出し、前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出する検出抽出部と、
    前記発話区間特徴量に基づいて、音声認識を実行する音声認識実行部と、
    前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報とを記憶する記憶部と、
    前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情を推定する感情推定部と、
    切替判定部と、
    を有し、
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記切替判定部は、前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    情報処理装置。
  4. 前記記憶部は、前記第1の音源と前記第2の音源との会話が開始してから、前記第1の音源が発した発話の内容を示す第1の発話履歴と前記第2の音源が発した発話の内容を示す第2の発話履歴とをさらに記憶し、
    前記感情推定部は、前記第1の発話履歴、前記第2の発話履歴、前記発話区間特徴量、前記音声認識を実行することにより得られた発話内容、前記第1の音源の過去の感情を示す情報、及び前記第2の音源の過去の感情を示す情報に基づいて、前記第1の音源の感情を推定する、
    請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記第2の音源の過去の感情は、前記音声信号が取得される前に推定された感情であり、
    前記第1の音源の過去の感情は、前記第2の音源の過去の感情が推定される前に推定された感情である、
    請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記第1の音源の過去の感情を示す情報は、前記第1の音源と前記第2の音源との会話が開始してから、推定された前記第1の音源の感情の履歴であり、
    前記第2の音源の過去の感情を示す情報は、前記第1の音源と前記第2の音源との会話が開始してから、推定された前記第2の音源の感情の履歴である、
    請求項1から4のいずれか1項に記載の情報処理装置。
  7. 前記取得部は、前記第1の音源のパーソナリティ情報を取得し、
    前記感情推定部は、パーソナリティ情報と重みとの対応関係を示す重み情報を用いて学習することにより生成された学習済モデルと前記第1の音源のパーソナリティ情報とを用いて、前記第1の音源の感情を推定する、
    請求項1からのいずれか1項に記載の情報処理装置。
  8. 前記取得部は、前記ユーザのパーソナリティ情報を取得し、
    前記記憶部は、パーソナリティ情報と重みとの対応関係を示す重み情報を記憶し、
    前記切替判定部は、前記ユーザのパーソナリティ情報、前記回数、及び前記重み情報に基づいて、値を算出し、前記値が前記閾値以上である場合、前記自動応答システムの運用から前記オペレータ運用に切り替える、
    請求項に記載の情報処理装置。
  9. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    推定方法。
  10. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    推定方法。
  11. 記憶部を有する情報処理装置が、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情を推定
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    推定方法。
  12. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせる内容である場合、注意を促す情報を出力する、
    推定プログラム。
  13. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情の値である感情値を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、第1のユーザであり、
    前記第2の音源は、第2のユーザであり、
    前記記憶部は、前記音声信号が取得される前に前記第2のユーザが発した発話の内容であるユーザ発話内容を記憶し、
    前記感情値が予め定められた閾値以上であり、かつ前記ユーザ発話内容がネガティブな感情を生じさせない内容である場合、問題がない旨を示す情報を出力する、
    推定プログラム。
  14. 記憶部を有する情報処理装置に、
    第1の音源の音声信号を取得し、
    前記音声信号に基づいて、発話区間を検出し、
    前記発話区間に基づいて、前記発話区間の特徴量である発話区間特徴量を抽出し、
    前記発話区間特徴量に基づいて、音声認識を実行し、
    前記記憶部に格納されている前記第1の音源の過去の感情を示す情報と第2の音源の過去の感情を示す情報、前記発話区間特徴量、及び前記音声認識を実行することにより得られた発話内容に基づいて、前記第1の音源の感情を推定する、
    処理を実行させる推定プログラムであり、
    前記第1の音源は、ユーザであり、
    前記第2の音源は、1以上の電気装置により実現される自動応答システムであり、
    前記第1の音源の過去の感情を示す情報は、前記ユーザと前記自動応答システムとの会話が開始してから、推定された前記ユーザの感情の履歴であり、
    前記ユーザの感情の履歴に基づいて、予め設定された時間内に、前記ユーザの感情が変化した回数を特定し、前記回数が予め設定された閾値以上であるか否かを判定し、前記回数が前記閾値以上である場合、前記自動応答システムの運用からオペレータ運用に切り替える、
    推定プログラム。
JP2022546733A 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム Active JP7162783B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032977 WO2022049613A1 (ja) 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム

Publications (3)

Publication Number Publication Date
JPWO2022049613A1 JPWO2022049613A1 (ja) 2022-03-10
JP7162783B2 true JP7162783B2 (ja) 2022-10-28
JPWO2022049613A5 JPWO2022049613A5 (ja) 2022-11-01

Family

ID=80491814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022546733A Active JP7162783B2 (ja) 2020-09-01 2020-09-01 情報処理装置、推定方法、及び推定プログラム

Country Status (2)

Country Link
JP (1) JP7162783B2 (ja)
WO (1) WO2022049613A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156523A (ja) 2017-03-21 2018-10-04 日本電気株式会社 情報処理装置、業務支援方法、およびプログラム
JP2018169843A (ja) 2017-03-30 2018-11-01 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008053826A (ja) * 2006-08-22 2008-03-06 Oki Electric Ind Co Ltd 電話応答システム
JP6450138B2 (ja) * 2014-10-07 2019-01-09 株式会社Nttドコモ 情報処理装置及び発話内容出力方法
JP6732703B2 (ja) * 2017-07-21 2020-07-29 日本電信電話株式会社 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018156523A (ja) 2017-03-21 2018-10-04 日本電気株式会社 情報処理装置、業務支援方法、およびプログラム
JP2018169843A (ja) 2017-03-30 2018-11-01 日本電気株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
WO2022049613A1 (ja) 2022-03-10
JPWO2022049613A1 (ja) 2022-03-10

Similar Documents

Publication Publication Date Title
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
US11790896B2 (en) Detecting non-verbal, audible communication conveying meaning
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
CN109360572B (zh) 通话分离方法、装置、计算机设备及存储介质
JP6780033B2 (ja) モデル学習装置、推定装置、それらの方法、およびプログラム
CN111105782A (zh) 会话交互处理方法、装置、计算机设备和存储介质
JP2007286377A (ja) 応対評価装置、その方法、プログラムおよびその記録媒体
US20190066658A1 (en) Method for learning conversion model and apparatus for learning conversion model
JPWO2011064938A1 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
JP2022000825A (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2017010309A (ja) 意思決定支援装置および意思決定支援方法
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
JP5704071B2 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
CN109065026B (zh) 一种录音控制方法及装置
CN113571096B (zh) 语音情绪分类模型训练方法、装置、计算机设备及介质
JP2018132624A (ja) 音声対話装置
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP7162783B2 (ja) 情報処理装置、推定方法、及び推定プログラム
JP2018132623A (ja) 音声対話装置
JP5099218B2 (ja) 問題解決時間推定処理プログラム,処理装置および処理方法
KR20210010133A (ko) 음성 인식 방법, 음성 인식을 위한 학습 방법 및 그 장치들

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220803

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221018

R150 Certificate of patent or registration of utility model

Ref document number: 7162783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150