JP6852161B2 - 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム - Google Patents

満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム Download PDF

Info

Publication number
JP6852161B2
JP6852161B2 JP2019530606A JP2019530606A JP6852161B2 JP 6852161 B2 JP6852161 B2 JP 6852161B2 JP 2019530606 A JP2019530606 A JP 2019530606A JP 2019530606 A JP2019530606 A JP 2019530606A JP 6852161 B2 JP6852161 B2 JP 6852161B2
Authority
JP
Japan
Prior art keywords
satisfaction
utterance
dialogue
estimation model
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019530606A
Other languages
English (en)
Other versions
JPWO2019017462A1 (ja
Inventor
厚志 安藤
厚志 安藤
歩相名 神山
歩相名 神山
哲 小橋川
哲 小橋川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019017462A1 publication Critical patent/JPWO2019017462A1/ja
Application granted granted Critical
Publication of JP6852161B2 publication Critical patent/JP6852161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Description

この発明は、複数の発話からなる対話全体の満足度および対話中の発話ごとの満足度を推定する技術に関する。
例えば、コールセンタの運営において、通話中の対話から顧客の満足度を推定する技術が求められている。顧客の満足度は、顧客が対話中に満足や不満を表出させたかどうかを示す段階的カテゴリとし、例えば、満足/普通/不満などの3段階で表すことができる。本明細書では、ある通話において、対話全体での顧客の満足度を「対話満足度」と呼び、対話のうち顧客の発話部分における顧客の満足度を「発話満足度」と呼ぶ。コールセンタの各通話に対して対話満足度を推定できた場合、例えば、対話満足度が“満足”や“不満”の割合をオペレータごとに集計することでオペレータ評価の自動化が可能となる。また、通話中の各発話に対して発話満足度を推定できた場合、例えば、発話満足度が“満足”である区間のみを音声認識してテキスト解析することで顧客の要望を調査するなどの応用が可能である。なお、ここでは対話をコールセンタにおける通話中の対話として説明したが、複数話者により対面/非対面で行われる対話全般についても同様のことが言える。
上記の類似技術として、顧客の話速などの話し方の特徴や、競合他社の製品名の有無などの言語的特徴を用いて通話ごとの対話満足度を推定する技術が非特許文献1で提案されている。また、顧客の声の高さや相槌の頻度などの特徴量に加え、発話満足度の時系列的な関連性を考慮して、発話満足度を推定することも考えられる。
Youngja Park, Stephen C. Gates, "Towards Real-Time Measurement of Customer Satisfaction Using Automatically Generated Call Transcripts," in Proceedings of the 18th ACM conference on Information and knowledge management, pp. 1387-1396, 2009.
従来技術では、通話ごとの対話満足度の推定と通話中の発話ごとの発話満足度の推定を別々に行っている。一方、ある通話中の対話満足度と発話満足度とは強い関連性がある。例えば、発話満足度に“不満”が多く表れる通話は、対話満足度も“不満”となることが予想できる。逆に、対話満足度が“満足”の場合、顧客はお礼を述べてから通話を切断することが多いため、通話の終端付近などで発話満足度が“満足”となる可能性が高い。このように、ある通話中の対話満足度と発話満足度とは、一方の情報から他方の情報を推定することが可能であるという関係性がある。しかしながら、従来技術では対話満足度の推定と発話満足度の推定を別々に行っているため、これらの関係性を推定に利用できていない。その結果、対話満足度と発話満足度は共に推定精度が低下している可能性がある。また、このことは通話における顧客の満足度を推定する場合のみならず、会話における発話者の満足度を推定する場合に一般化できる。
この発明の目的は、上記のような点に鑑みて、対話満足度と発話満足度の関係性を利用し、それぞれの推定精度を向上することである。
上記の課題を解決するために、この発明の第一の態様の満足度推定モデル学習装置は、複数の発話からなる対話を収録した対話音声と、その対話に対する対話満足度の正解値と、その対話に含まれる各発話に対する発話満足度の正解値とからなる学習データを記憶する学習データ記憶部と、対話音声から抽出した発話ごとの特徴量と発話満足度の正解値と対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習するモデル学習部と、を含む。
上記の課題を解決するために、この発明の第二の態様の満足度推定装置は、第一の態様の満足度推定モデル学習装置により学習した満足度推定モデルを記憶するモデル記憶部と、複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を満足度推定モデルに入力して各発話に対する発話満足度および対話に対する対話満足度を推定する満足度推定部と、を含む。
この発明によれば、対話満足度と発話満足度の推定精度が向上する。
図1は、満足度推定モデルを説明するための図である。 図2は、満足度推定モデルによる満足度の推定を説明するための図である。 図3は、満足度推定モデルを学習する際の推定誤りの伝播について説明するための図である。 図4は、満足度推定モデル学習装置の機能構成を例示する図である。 図5は、満足度推定モデル学習方法の処理手続きを例示する図である。 図6は、満足度推定装置の機能構成を例示する図である。 図7は、満足度推定方法の処理手続きを例示する図である。
本発明のポイントは、対話満足度を推定するモデルと発話満足度を推定するモデルとを階層的に連結し、これらを同時に推定する満足度推定モデルを単一のモデルとして同時かつ一体的に学習することである。このような単一のモデルの例を図1に示す。図1のモデルは、推定対象とする対話に含まれる発話ごとの満足度を推定する発話満足度推定モデル部分と、推定対象とする対話全体の満足度を推定する対話満足度推定モデル部分とが階層的に連結して構成されている。
発話満足度推定モデル部分は、1個の発話に対して1個の発話満足度推定器を構成している。発話満足度推定器は、発話ごとの特徴量を入力とし、その発話の過去の発話または過去と未来の発話に関する情報を用いて、その発話の発話満足度を推定し、その発話の発話満足度の推定値を出力する。また、同時に、対話満足度の推定に寄与する情報(例えば、各発話の長さなど)を発話満足度に付随して出力する。発話満足度推定器は、具体的には、例えば、リカレントニューラルネットワーク(RNN: Recurrent Neural Network)である。
発話満足度推定器が出力する対話満足度の推定に寄与する情報とは、入力された発話ごとの特徴量からリカレントニューラルネットワークが発話満足度を推定する過程で計算されたすべての情報である。すなわち、発話満足度推定器は、発話ごとの特徴量を入力とし、その発話の発話満足度の推定値とそれを推定するために用いたすべての情報を出力し、対話満足度推定器には、発話満足度推定器が出力するすべての情報が入力される。
対話満足度推定モデル部分は、1個の発話満足度推定器に対して1個の対話満足度推定器を構成している。対話満足度推定器は、発話満足度推定器が出力する発話満足度の推定値と、その発話満足度に付随し対話満足度の推定に寄与する情報とを入力とし、その発話の過去の発話に関する情報を用いて、対話に含まれる最初の発話から当該発話までの対話満足度の推定値を出力する。対話満足度推定器の具体例は、発話満足度推定器と同様に、リカレントニューラルネットワークである。
対話満足度と発話満足度との関係は階層関係があると考えられる。すなわち、人間同士の対話では、ある発話が提示された際に、聴き手は、その発話について発話満足度を推定した後、その発話満足度の推定値を踏まえて対話満足度を推定することが予想される。このことから、入力された発話に対して、まず発話満足度を推定し、次に発話満足度の推定値と発話満足度に付随する情報から対話満足度を推定するような階層的なモデルが人間の知覚と一致しており、推定精度に優れると考えられる。図2は、図1に示したモデルが発話満足度および対話満足度を推定する際の動作を示す図である。まず、(1)対話に含まれる各発話の特徴量が発話ごとに発話満足度推定モデル部分に入力され、発話ごとの発話満足度が推定される。次に、(2)発話満足度推定モデル部分で推定された発話満足度が対話満足度推定モデル部分に入力される。これを対話が終了するまで繰り返す。そして、(3)対話満足度推定モデル部分で発話満足度の系列に基づいて一連の発話からなる対話の対話満足度が推定される。
対話満足度と発話満足度を同時に推定するモデルを単一のモデルとして同時かつ一体的に学習することも推定精度の向上に寄与する。一体的に学習することにより、対話満足度と発話満足度との関係性のモデル化が可能となるだけでなく、対話満足度の推定誤りを発話満足度推定モデル部分に伝播させることが可能となる。図3は、図1に示したモデルにおいて、対話満足度の推定誤りと発話満足度の推定誤りとが伝播する流れを示したものである。このことは、どの特徴量が対話満足度に影響を与えるかを学習することを表している。これにより、発話満足度という部分的な観点と対話満足度という大局的な観点の両方を考慮して満足度を推定することが可能となり、対話満足度と発話満足度の推定精度が共に向上することが期待できる。
このような複数の推定問題を同時解決するようにモデルを学習する枠組みはマルチタスク学習と呼ばれており、個々の推定問題を解決する場合に比べて精度が向上した例が多数報告されている(例えば、下記参考文献1)。本発明はマルチタスク学習の一種とみなすことができるが、一般的なマルチタスク学習のように複数のタスクを並列に学習するのではなく、複数のタスクを階層的に学習する点が特徴である。
〔参考文献1〕R. Caruana, “Multitask Learning,” Machine Learning, vol. 28, no. 1, pp.41-75, 1997.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[満足度推定モデル学習装置]
実施形態の満足度推定モデル学習装置1は、図4に示すように、学習データ記憶部10、音声区間検出部11、特徴量抽出部12、モデル学習部13、および満足度推定モデル記憶部20を含む。満足度推定モデル学習装置1は、学習データ記憶部10に記憶された学習データを用いて満足度推定モデルを学習し、学習済みの満足度推定モデルを満足度推定モデル記憶部20へ記憶する。満足度推定モデル学習装置1が図5に示す各ステップの処理を行うことにより実施形態の満足度推定モデル学習方法が実現される。
満足度推定モデル学習装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。満足度推定モデル学習装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。満足度推定モデル学習装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。満足度推定モデル学習装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。満足度推定モデル学習装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。満足度推定モデル学習装置1が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
学習データ記憶部10には、満足度推定モデルの学習に用いる学習データが記憶されている。学習データは、少なくとも1個の対象話者の発話と少なくとも1個の相手話者の発話とを含む対話を収録した対話音声と、その対話に対する対話満足度の正解値を示すラベル(以下、「対話満足度ラベル」と呼ぶ)と、その対話に含まれる各発話に対する発話満足度の正解値を示すラベル(以下、「発話満足度ラベル」と呼ぶ)とからなる。対象話者とは、満足度を推定する対象となる話者を表し、例えば、コールセンタの通話では顧客を指す。相手話者とは、対話に参加している話者のうち対象話者以外の話者を表し、例えば、コールセンタの通話ではオペレータを指す。対話満足度ラベルと発話満足度ラベルは人手で付与すればよい。通話満足度および発話満足度は、例えば、満足/普通/不満の3段階のいずれかを表すものとする。
以下、図5を参照して、実施形態の満足度推定モデル学習装置1が実行する満足度推定モデル学習方法について説明する。
ステップS11において、音声区間検出部11は、学習データ記憶部10に記憶されている対話音声から音声区間を検出し、1個以上の対象話者の発話を取得する。音声区間を検出する方法は、例えば、パワーのしきい値処理に基づく手法を用いることができる。また、音声/非音声モデルの尤度比に基づく手法などの他の音声区間検出手法を用いてもよい。音声区間検出部11は、取得した対象話者の発話を特徴量抽出部12へ出力する。
ステップS12において、特徴量抽出部12は、音声区間検出部11から対象話者の発話を受け取り、その発話ごとに特徴量を抽出する。特徴量抽出部12は、抽出した発話ごとの特徴量をモデル学習部13へ出力する。抽出する特徴量は、以下に挙げる韻律特徴、対話特徴、および言語特徴のうち少なくとも一つ以上を用いる。
韻律特徴は、発話中の基本周波数とパワーの平均・標準偏差・最大値・最小値、発話中の話速、発話中の最終音素の継続長のうち少なくとも一つ以上を用いる。ここで、基本周波数およびパワーは発話をフレーム分割し、フレームごとに求めるものとする。話速および最終音素の継続長を用いる場合、音声認識を用いて発話中の音素系列を推定するものとする。
対話特徴は、対象話者の直前の発話からの時間、相手話者の発話から対象話者の発話までの時間、対象話者の発話から次の相手話者の発話までの時間、対象話者の発話の長さ、前後の相手話者の発話の長さ、前後の相手話者の発話に含まれる対象話者の相槌数、対象話者の発話に含まれる相手話者の相槌数のうち少なくとも一つ以上を用いる。
言語特徴は、発話中の単語数、発話中のフィラー数、発話中の感謝の言葉の出現数のうち少なくとも一つ以上を用いる。言語特徴を用いる場合、音声認識を用いて発話中の出現単語を推定し、その結果を用いる。また感謝の言葉は事前登録するものとし、例えば「ありがとう」または「どうも」の出現数を求めるものとする。
ステップS13において、モデル学習部13は、特徴量抽出部12から発話ごとの特徴量を受け取り、学習データ記憶部10に記憶されている対話音声に対応する対話満足度ラベルと各発話に対応する発話満足度ラベルとを読み込み、発話ごとの特徴量を入力として発話満足度と対話満足度を同時に推定して出力する満足度推定モデルを学習する。モデル学習部13は、学習済みの満足度推定モデルを満足度推定モデル記憶部20へ記憶する。
満足度推定モデルの構造は図1を用いて上述したとおりであり、発話満足度推定器および対話満足度推定器として、リカレントニューラルネットワーク(RNN)を用いる。ここでは、リカレントニューラルネットワークとして、例えば、長短期記憶リカレントニューラルネットワーク(LSTM-RNN: Long Short-Term Memory Recurrent Neural Network)を用いるものとする。リカレントニューラルネットワークは時系列情報に基づいて推定を行うモデルであるため、入力情報の時間的な変化に基づいて発話満足度や対話満足度を推定することができ、高い推定精度が期待できる。
対話満足度推定モデル部分の入力は、図1に示すとおり、発話ごとの発話満足度の推定値と、発話満足度推定モデル部分の出力値(LSTM-RNNの出力)の両方を用いる。発話満足度推定モデル部分の出力値には、発話満足度に含まれないが、発話満足度に付随し対話満足度の推定に寄与する情報が含まれているため、対話満足度推定モデル部分の入力に利用する。
満足度推定モデルの学習は、例えば、既存のLSTM-RNNの学習手法である通時的誤差逆伝播法(BPTT: Back Propagation Through Time)を用いる。ただし、LSTM-RNN以外のRNNを用いてもよく、例えばゲート付き再帰ユニット(GRU: Gated Recurrent Unit)などを用いてもよい。なお、LSTM-RNNは入力ゲートと出力ゲート、もしくは入力ゲートと出力ゲートと忘却ゲートを用いて構成され、GRUはリセットゲートと更新ゲートを用いて構成されることを特徴としている。LSTM-RNNは、双方向のLSTM-RNNを用いても、一方向のLSTM-RNNを用いてもよい。双方向のLSTM-RNNを用いる場合、過去の発話の情報に加えて未来の発話の情報を利用可能となるため、発話満足度および対話満足度の推定精度が向上する一方で、対話に含まれるすべての発話を一度に入力する必要がある。一方向のLSTM-RNNを用いる場合、過去の発話の情報のみを利用可能であるが、対話途中であっても発話満足度を推定することができるというメリットがある。前者は通話分析など、後者はリアルタイムでの顧客の満足度のモニタリングなどに応用可能である。
満足度推定モデルの学習時には、図3に示したとおり、対話満足度の推定誤りと発話満足度の推定誤りが伝搬される。このとき、対話満足度の推定誤りと発話満足度の推定誤りのどちらを重視させるかを調整可能とすることで、より頑健なモデル学習が可能となる。ここでは、満足度推定モデル全体の損失関数を対話満足度推定モデル部分の損失関数と発話満足度推定モデル部分の損失関数の重み付けにより表現することで上記を実現する。具体的には、満足度推定モデルの損失関数Lを次式とする。
Figure 0006852161
ただし、λをモデルの損失関数に対する所定の重み、Ltを発話満足度推定モデル部分の損失関数、Lcを対話満足度推定モデル部分の損失関数とする。λは任意に調整することが可能である。
[満足度推定装置]
満足度推定装置2は、図6に示すように、満足度推定モデル記憶部20、音声区間検出部21、特徴量抽出部22、および満足度推定部23を含む。満足度推定装置2は、満足度を推定する対象となる対話の音声を収録した対話音声を入力とし、満足度推定モデル記憶部20に記憶された満足度推定モデルを用いて、その対話に含まれる各発話の発話満足度とその対話の対話満足度を推定し、発話満足度の推定値による系列と対話満足度の推定値を出力する。満足度推定装置2が図7に示す各ステップの処理を行うことにより実施形態の満足度推定方法が実現される。
満足度推定装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。満足度推定装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。満足度推定装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。満足度推定装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。満足度推定装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
満足度推定モデル記憶部20には、満足度推定モデル学習装置1が生成した学習済みの満足度推定モデルが記憶されている。
以下、図7を参照して、実施形態の満足度推定装置2が実行する満足度推定方法について説明する。
ステップS21において、音声区間検出部21は、満足度推定装置2に入力された対話音声から音声区間を検出し、1個以上の対象話者の発話を取得する。この対話音声は、学習データの対話音声と同様に、少なくとも1個の対象話者の発話と少なくとも1個の相手話者の発話とを含む。音声区間を検出する方法は、満足度推定モデル学習装置1の音声区間検出部11と同様の方法を用いればよい。音声区間検出部21は、取得した対象話者の発話を特徴量抽出部22へ出力する。
ステップS22において、特徴量抽出部22は、音声区間検出部21から対象話者の発話を受け取り、その発話ごとに特徴量を抽出する。抽出する特徴量は、満足度推定モデル学習装置1の特徴量抽出部12と同様のものを用いればよい。特徴量抽出部22は、抽出した発話ごとの特徴量を満足度推定部23へ出力する。
ステップS23において、満足度推定部23は、特徴量抽出部22から発話ごとの特徴量を受け取り、その特徴量を満足度推定モデル記憶部20に記憶されている満足度推定モデルに入力して対話音声の対話満足度と対話音声に含まれる各発話の発話満足度を同時に推定する。満足度推定モデルは、対象話者の発話ごとの特徴量を入力とし、前向き伝播を行うことで、発話ごとの発話満足度の推定値による系列と対話満足度の推定値を同時に得ることができる。満足度推定部23は、発話ごとの発話満足度の推定値による系列と対話満足度の推定値を満足度推定装置2から出力する。
[変形例]
上述の実施形態では、満足度推定モデル学習装置1と満足度推定装置2を別個の装置として構成する例を説明したが、満足度推定モデルを学習する機能と学習済みの満足度推定モデルを用いて満足度を推定する機能とを兼ね備えた1台の満足度推定装置を構成することも可能である。すなわち、変形例の満足度推定装置は、学習データ記憶部10、音声区間検出部11、特徴量抽出部12、モデル学習部13、満足度推定モデル記憶部20、および満足度推定部23を含む。
上述のように、本発明の満足度推定モデル学習装置および満足度推定装置は、対話満足度を推定するモデルと発話満足度を推定するモデルとを階層的に連結し、これらを同時に推定する満足度推定モデルを単一のモデルとして同時かつ一体的に学習するように構成されている。これにより、対話満足度と発話満足度の関係性を利用することができるため、対話満足度と発話満足度の推定精度を向上することができる。
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (9)

  1. 複数の発話からなる対話を収録した対話音声と、上記対話に対する対話満足度の正解値と、上記対話に含まれる各発話に対する発話満足度の正解値とからなる学習データを記憶する学習データ記憶部と、
    上記対話音声から抽出した発話ごとの特徴量と上記発話満足度の正解値と上記対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習するモデル学習部と、
    を含む満足度推定モデル学習装置。
  2. 請求項1に記載の満足度推定モデル学習装置であって、
    上記発話満足度推定モデル部分は、1個の発話に対して1個の発話満足度推定器を構成するものであり、
    上記発話満足度推定器は、上記発話ごとの特徴量を入力とし、当該発話の前の発話または前後の発話に関する情報を用いて、当該発話の発話満足度を推定して出力するものであり、
    上記対話満足度推定モデル部分は、1個の発話満足度推定器に対して1個の対話満足度推定器を構成するものであり、
    上記対話満足度推定器は、上記発話満足度推定器が出力する発話満足度と、当該発話満足度に付随し対話満足度の推定に寄与する情報とを入力とし、当該発話の前の発話に関する情報を用いて、上記対話に含まれる最初の発話から当該発話までの対話満足度を推定して出力するものである、
    満足度推定モデル学習装置。
  3. 請求項2に記載の満足度推定モデル学習装置であって、
    上記発話満足度推定器および上記対話満足度推定器は、入力ゲートと出力ゲート、入力ゲートと出力ゲートと忘却ゲート、リセットゲートと更新ゲート、のいずれかを備えることを特徴とする、
    満足度推定モデル学習装置。
  4. 請求項1から3のいずれかに記載の満足度推定モデル学習装置であって、
    上記満足度推定モデルの損失関数は、上記発話満足度推定モデル部分の損失関数と上記対話満足度推定モデル部分の損失関数との重み付き和であり、上記発話満足度推定モデル部分の損失関数と上記対話満足度推定モデル部分の損失関数との重みを調整可能としたものである、
    満足度推定モデル学習装置。
  5. 請求項1から4のいずれかに記載の満足度推定モデル学習装置により学習した満足度推定モデルを記憶するモデル記憶部と、
    複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を上記満足度推定モデルに入力して各発話に対する発話満足度および上記対話に対する対話満足度を推定する満足度推定部と、
    を含む満足度推定装置。
  6. 学習データ記憶部に、複数の発話からなる対話を収録した対話音声と、上記対話に対する対話満足度の正解値と、上記対話に含まれる各発話に対する発話満足度の正解値とからなる学習データが記憶されており、
    モデル学習部が、上記対話音声から抽出した発話ごとの特徴量と上記発話満足度の正解値と上記対話満足度の正解値とを用いて、発話ごとの特徴量を入力として発話ごとの発話満足度を推定する発話満足度推定モデル部分と、少なくとも発話ごとの発話満足度を入力として対話満足度を推定する対話満足度推定モデル部分とを連結した満足度推定モデルを学習する、
    満足度推定モデル学習方法。
  7. モデル記憶部に、請求項6に記載の満足度推定モデル学習方法により学習した満足度推定モデルが記憶されており、
    満足度推定部が、複数の発話からなる対話を収録した対話音声から抽出した発話ごとの特徴量を上記満足度推定モデルに入力して各発話に対する発話満足度および上記対話に対する対話満足度を推定する、
    満足度推定方法。
  8. 請求項1から4のいずれかに記載の満足度推定モデル学習装置としてコンピュータを機能させるためのプログラム。
  9. 請求項5に記載の満足度推定装置としてコンピュータを機能させるためのプログラム。
JP2019530606A 2017-07-21 2018-07-20 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム Active JP6852161B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017141790 2017-07-21
JP2017141790 2017-07-21
PCT/JP2018/027211 WO2019017462A1 (ja) 2017-07-21 2018-07-20 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019017462A1 JPWO2019017462A1 (ja) 2020-07-30
JP6852161B2 true JP6852161B2 (ja) 2021-03-31

Family

ID=65015511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019530606A Active JP6852161B2 (ja) 2017-07-21 2018-07-20 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム

Country Status (3)

Country Link
US (1) US11557311B2 (ja)
JP (1) JP6852161B2 (ja)
WO (1) WO2019017462A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7293826B2 (ja) * 2019-04-09 2023-06-20 富士通株式会社 問題検出装置、問題検出方法および問題検出プログラム
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
US11928611B2 (en) * 2019-11-18 2024-03-12 International Business Machines Corporation Conversational interchange optimization
CN110728997B (zh) * 2019-11-29 2022-03-22 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测系统
JPWO2022097204A1 (ja) * 2020-11-04 2022-05-12
CN113516304B (zh) * 2021-06-29 2024-01-23 上海师范大学 基于时空图网络的区域污染物时空联合预测方法及装置
JP7017822B1 (ja) * 2021-08-27 2022-02-09 株式会社インタラクティブソリューションズ コンピュータを用いた会話支援方法
JP7231894B1 (ja) 2021-08-27 2023-03-02 株式会社インタラクティブソリューションズ コンピュータを用いた会話支援方法
WO2023119675A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4728868B2 (ja) * 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
JP2011210133A (ja) * 2010-03-30 2011-10-20 Seiko Epson Corp 満足度算出方法、満足度算出装置およびプログラム
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
US10664661B2 (en) * 2014-09-12 2020-05-26 Nextiva, Inc. System and method for monitoring a sentiment score
US9786270B2 (en) * 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN110476206B (zh) * 2017-03-29 2021-02-02 谷歌有限责任公司 将文本转换为语音的系统及其存储介质
US20190005421A1 (en) * 2017-06-28 2019-01-03 RankMiner Inc. Utilizing voice and metadata analytics for enhancing performance in a call center

Also Published As

Publication number Publication date
US11557311B2 (en) 2023-01-17
JPWO2019017462A1 (ja) 2020-07-30
US20200152178A1 (en) 2020-05-14
WO2019017462A1 (ja) 2019-01-24

Similar Documents

Publication Publication Date Title
JP6852161B2 (ja) 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US10417329B2 (en) Dialogue act estimation with learning model
US10789943B1 (en) Proxy for selective use of human and artificial intelligence in a natural language understanding system
CN109964270B (zh) 用于关键短语识别的系统和方法
JP6780033B2 (ja) モデル学習装置、推定装置、それらの方法、およびプログラム
JP6732703B2 (ja) 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム
JP6615736B2 (ja) 音声言語識別装置、その方法、及びプログラム
JP7229847B2 (ja) 対話装置、対話方法、及び対話コンピュータプログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
CN111897935A (zh) 基于知识图谱的话术路径选择方法、装置和计算机设备
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
US9697825B2 (en) Audio recording triage system
US20230069908A1 (en) Recognition apparatus, learning apparatus, methods and programs for the same
WO2022097204A1 (ja) 満足度推定モデル適応装置、満足度推定装置、それらの方法、およびプログラム
US20220122584A1 (en) Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
JP7420211B2 (ja) 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム
CN113327596B (zh) 语音识别模型的训练方法、语音识别方法和装置
JP7216348B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
WO2022176124A1 (ja) 学習装置、推定装置、それらの方法、およびプログラム
US20240055018A1 (en) Iterative speech recognition with semantic interpretation
CN114387949A (zh) 一种语音识别的置信度估计方法、装置及计算机设备
JP2021032920A (ja) パラ言語情報推定装置、学習装置、それらの方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210310

R150 Certificate of patent or registration of utility model

Ref document number: 6852161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150