JP6805112B2 - 対話システム、対話方法および対話プログラム - Google Patents

対話システム、対話方法および対話プログラム Download PDF

Info

Publication number
JP6805112B2
JP6805112B2 JP2017215433A JP2017215433A JP6805112B2 JP 6805112 B2 JP6805112 B2 JP 6805112B2 JP 2017215433 A JP2017215433 A JP 2017215433A JP 2017215433 A JP2017215433 A JP 2017215433A JP 6805112 B2 JP6805112 B2 JP 6805112B2
Authority
JP
Japan
Prior art keywords
user
dialogue
satisfaction
state
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017215433A
Other languages
English (en)
Other versions
JP2019086679A (ja
Inventor
政巳 赤嶺
政巳 赤嶺
尚水 吉田
尚水 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017215433A priority Critical patent/JP6805112B2/ja
Priority to US15/899,885 priority patent/US10847151B2/en
Publication of JP2019086679A publication Critical patent/JP2019086679A/ja
Application granted granted Critical
Publication of JP6805112B2 publication Critical patent/JP6805112B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)

Description

本発明の実施形態は、ユーザと対話システムとの間の対話の制御に関する。
近年、例えば、スマートフォンまたはPC(Personal Computer)のアプリケーション、コールセンターの自動応答システム、などのユーザと対話を行うシステム(対話システム)の採り得る行動(振る舞い)は益々高度化している。具体的には、対話システムは、ユーザからの質問に答えるに留まらず、ユーザの要求条件に合致した、商品、サービス、店名などの検索または候補の絞り込みを行い、その結果をユーザに提示できる。このような対話(以降、検索対話とも呼ぶ)を行う対話システムは、例えばショッピングセンターにおける店舗案内、飲食店の案内、インターネットの旅行サイトにおけるホテルまたは旅行先の案内など、様々な場面で利用されている。
かかる検索対話を実現するために、従来、ルールベースの対話制御、または統計的アプローチに基づく対話制御が用いられている。ルールベースの対話制御では、開発者が、ユーザと対話システムとの対話のシナリオを、さらにシナリオ毎にユーザ入力に対するシステム応答を予め手作業で網羅的に設計してルールを作成する必要がある。このため、開発者によるルール作成の手間が膨大で、これによる開発のコスト増と開発期間の長期化が問題であった。他方、統計的アプローチに基づく対話制御は、ルールベースの対話制御のかかる欠点を克服し得るものであり、ユーザ入力からユーザの要求条件を推定する対話状態モデルと、ユーザに対する対話システムの振る舞いを決定するポリシーモデルとを利用して対話制御を実現する。対話状態モデルおよびポリシーモデルは、対話事例データに基づいて機械学習を行うことで作成することができる。
具体的には、統計的アプローチに基づく対話制御の1つとして、部分観測マルコフ決定過程(POMDP:Partially Observable Markov Decision Process)モデルに基づく対話制御システム(以降、POMDP対話制御システムとも呼ぶ)が提案されている。POMDP対話制御システムは、ルールベースの対話制御システムとは異なり開発者によるルール作成作業が不要となるので、この点では開発コストの削減および開発期間の短期化に有利である。
しかしながら、従来の対話システムは、ルールベースの対話制御システム、およびPOMDP対話制御システムを含む統計的アプローチに基づく対話制御のいずれも、ユーザの入力音声を音声認識によってテキスト化し、テキスト化されたユーザ入力に対して対話システムの振る舞いを決定する。ユーザの入力音声に備わっている声の調子、感情などの非言語的な情報は音声認識処理によって失われるので、対話システムの振る舞いの決定においてかかる非言語的な情報が考慮されることはなかった。
特許第4890585号公報 特開2002−99404号公報
Jason D. Williams, "Applying POMDPs to dialog systems in the troubleshooting domain", In Workshop on Bridging the Gap, pp. 1−8, Rochester, New York, 2007. Association for Computational Linguistics. Bing Liu1 and Ian Lane, "Attention−Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling", Proceedings of INTERSPEECH 2016, pp. 685−689, 2016 ISCA.
このように、ユーザの入力音声に備わっている声の調子、感情などの非言語的な情報を考慮せずに対話システムの振る舞いを決定すると、ユーザの満足度を損なうおそれがある。例えば、ユーザが移動中の車内から対話システムを利用してレストラン検索を行う場合に、騒音により、ユーザの入力音声が誤認識され対話システムがユーザの要求とは異なるレストランを提示したり、ユーザの入力音声が認識されず対話システムが希望するジャンルを尋ねる質問を繰り返したりすることがあり得る。このような状況下ではユーザの入力音声に苛立ちの徴候が現れるかもしれないが、対話システムは、ユーザの苛立ちを捉えることができないので再び不適切なシステム応答を繰り返し、ユーザの当該システムに対する満足度を損なうおそれがある。
実施形態は、ユーザの入力音声に備わっている非言語的な情報を考慮してユーザと対話システムとの間の対話を制御することを目的とする。
一実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、ユーザの入力および推定されたユーザの満足度に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された対話状態に基づいてユーザに対する振る舞いを決定する。
別の実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、ユーザの入力に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された満足度および推定された対話状態に基づいてユーザに対する振る舞いを決定する。
別の実施形態によれば、対話システムは、満足度推定部と、対話状態推定部と、振る舞い決定部と、対話打ち切り決定部とを含む。満足度推定部は、ユーザの入力音声に基づいてユーザの満足度を推定する。対話状態推定部は、少なくともユーザの入力に基づいてユーザとの対話状態を推定する。振る舞い決定部は、推定された対話状態に基づいてユーザに対する振る舞いを決定する。対話打ち切り決定部は、少なくとも、推定された満足度に基づいてユーザとの対話を打ち切るか否かを決定する。
第1の実施形態に係る対話システムを例示するブロック図。 図1に示される意図・検索条件推定部の説明図。 図1に示される満足度推定部に含まれる畳み込みニューラルネットワークを例示する図。 図1に示される満足度推定部によって推定される満足度の事後確率分布を例示する図。 図1の対話システムの動作を例示するフローチャート。 図1に示される振る舞い決定部によって使用されるポリシーモデルを作成するための機械学習を例示するフローチャート。 図1に示される振る舞い決定部によって使用されるポリシーモデルを作成するための機械学習において用いられる報酬値を例示するテーブル。 第2の実施形態に係る対話システムを例示するブロック図。 第3の実施形態に係る対話システムを例示するブロック図。 第1の実施形態乃至第3の実施形態に係る対話システムそれぞれのハードウェア構成を例示するブロック図。
以下、図面を参照しながら実施形態の説明を述べる。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る対話システム100は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部104と、振る舞い決定部105と、検索部106と、検索データベース(DB:Data Base)107と、応答生成部108と、音声合成部109とを含む。
なお、対話システム100は、1個の装置、例えば1個のスマートフォン、コンピュータなどによって実現される必要はない。すなわち、ある機能部を実現する装置と、他の機能部を実現する装置とが異なっていてもよい。例えば、音声認識部101および音声合成部109は個々のユーザ10のスマートフォンによって実現され、残りの機能部が1または複数のサーバによって実現される、という形態が想定される。
音声認識部101は、例えば図示されないマイクロフォンから電気信号の形式のユーザ10の入力音声を受け取る。音声認識部101は、ユーザ10の入力音声に対して自動音声認識(ASR:Automatic Speech Recognition)処理を行い、認識結果テキストを得る。音声認識部101は、認識結果テキストを意図・検索条件推定部103へ送る。
なお、意図・検索条件推定部103によって受け付け可能なユーザ入力は、認識結果テキストに限られない。故に、音声認識部101に加えて、または音声認識部101に代えて他の入力部が用いられてもよい。具体的には、この入力部は、キーボードなどのテキストを直接入力する装置からテキストを受け取ってもよいし、GUI(Graphical User Interface)部品へのタッチ情報などの操作情報を受け取ってもよい。
満足度推定部102は、例えば図示されないマイクロフォンから電気信号の形式のユーザ10の入力音声を受け取る。満足度推定部102は、ユーザ10の入力音声に基づいてユーザ10の満足度を推定する。満足度推定部102は、推定した満足度を対話状態推定部104へ送る。
満足度は、例えば「1:非常に不満である」、「2:不満である」、「3:普通である」、「4:満足である」および「5:非常に満足である」の5段階の尺度を用いて推定され得る。なお、満足度は、1つの尺度として表現されてもよいし、図4に例示されるように複数の尺度に亘る確率分布として表現されてもよい。また、ここで説明した5段階の尺度は一例に過ぎず、「1:不満である」および「2:満足である」の2段階、「1:不満である」、「2:普通である」および「3:満足である」3段階、またはそれ以外であってもよい。
満足度推定部102は、例えば、予め作成されたルールに基づいて満足度を推定してもよい。或いは、満足度推定部102は、学習済みの統計モデル(例えば、学習済みのニューラルネットワークなどの統計モデル)に、入力音声に基づく入力データを与えることでユーザ10の満足度を推定してもよい。この学習済みの統計モデルは、例えば満足度を示すラベルが付与された学習用入力音声を用いた教師付き学習によって作成され得る。かかる満足度推定部102の動作および機械学習の詳細は後述される。
意図・検索条件推定部103は、音声認識部101から認識結果テキストを受け取り、これに基づいてユーザ10の意図および/または検索条件を推定する。意図・検索条件推定部103は、推定した意図・検索条件を対話状態推定部104へ送る。
意図・検索条件推定部103は、ユーザ10の発話毎に、当該発話に対応する認識結果テキストに基づいて意図・検索条件を推定する。すなわち、意図・検索条件推定部103は、ユーザ10の発話毎に、当該発話をテキスト化した認識結果テキストから把握可能な意図・検索条件を推定する。
ユーザ10の意図は、例えば、(発話)タグとスロットとの組として表現され得る。
発話タグは、認識結果テキスト(より一般化すれば入力テキスト)から推定される、ユーザ10の対話システム100に対する行動を大まかに分類する情報である。具体的には、「要求を伝達している(Inform)」、「情報を確認している(Confirm)」、「対話システム100からの質問に対して肯定している(Affirm)/否定している(Negate)」などの発話タグが利用可能である。或いは、より具体的なレベルの行動を示す発話タグ、例えば、「レストランを探したい(Inform−search−restaurant)」、「ホテルを探したい(Inform−search−hotel)」などを必要に応じて定めることもできる。
他方、スロットは、入力テキストに含まれる(或いは、それから推定される)、対話処理に必要な情報である。スロットは、[スロット名=値]として表現される。例えば、意図・検索条件推定部103は、「安いバッグが買いたい」という入力テキストから、[値段=安め]、[商品=バッグ]、などのスロットを推定することができる。スロットおよびスロット名は、属性および属性名と読み替えることもできる。
意図・検索条件推定部103は、キーワードマッチングを利用して発話タグおよびスロットを推定してもよいし、例えば最大エントロピー法、ニューラルネットワークまたはその他の統計モデル、などの統計的アプローチを利用して発話タグおよびスロットを推定してもよい。統計的アプローチでは、例えば、学習用入力テキストに含まれる単語列を用いた機械学習によって作成された学習済みの統計モデルが利用され得る。
ニューラルネットワークを利用した発話タグおよびスロットの推定は、例えば非特許文献2に記載の技法により実現可能である。ここでは、ニューラルネットワークの一種である再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)が用いられる。
具体的には、非特許文献2は、旅行サイトのフライト検索に適用される発話タグおよびスロットの推定法について解説がある。この概念図を図2に示す。この例では、RNNの一種である双方向LSTM(Long−Short Time Memory)のエンコーダが、入力テキストに含まれる単語列「from LA to Seattle」をエンコードする。そして単方向LSTMのデコーダが、エンコードされた単語列をデコード、この場合には、発話タグ「Flight」、ならびにスロット[FromLoc(出発空港)=LA]および[ToLoc(到着空港)=Seattle]を推定する。推定結果は、[FromLoc=LA]の確率が80%、[ToLoc=Seattle]の確率が60%のように、確率として表現するのが一般的である。
検索条件は、例えばスロットと同様に[条件(属性)=値]として表現され得るが、検索条件の表現は検索DB 107のスキーマにも依存する。検索条件は、スロットと同様にキーワードマッチングまたは統計的アプローチを用いて推定されてよい。
また、意図・検索条件推定部103は、現行の入力テキストが、過去に推定した条件に関して言及していない場合にもかかる条件を維持する、または過去に推定した条件を消すことを意味する場合にはかかる条件を削除する、などの検索条件の引き継ぎ処理を行い得る。かかる検索条件の引き継ぎ処理は、例えばルールとして記述されてよい。また、かかる検索条件の引き継ぎ処理は、前述の条件値と共に統計的アプローチにより推定されてもよい。
なお、図1には示されていないが、意図・検索条件推定部103は、入力テキストに加えて、満足度推定部102によって推定された満足度を受け取り、これらに基づいて意図・検索条件を推定してもよい。具体的には、意図・検索条件推定部103は、満足度も考慮して発話タグ、スロット、または検索条件の確率を決定してもよい。例えば、意図・検索条件推定部103は、入力テキストが同じでも満足度が高ければ確率が高くなるように決定してもよく、これにより意図・検索条件がより対話システム100の振る舞いに反映されやすくなる。
対話状態推定部104は、例えばユーザ10の発話毎に、満足度推定部102から満足度を受け取り、意図・検索条件推定部103から意図・検索条件を受け取る。対話状態推定部104は、これまでに受け取った満足度および意図検索条件に基づいて推定した対話状態と、新たに受け取った満足度および意図・検索条件とに基づいて、最新の対話状態を推定する。
例えば、対話状態推定部104は、最初に満足度および意図・検索条件を受け取った時に、これらを初期の対話状態として保存してもよい。以降、対話状態推定部104は、最後に保存された対話状態、すなわち最後に推定した対話状態を、新たに受け取った満足度および意図・検索条件に基づいて更新することで最新の対話状態を推定してもよい。
対話状態は、例えば、ユーザ10の意図、検索条件および満足度を含み得る。対話状態推定部104は、最後に保存された対話状態に含まれるユーザ10の満足度、意図および検索条件の確率を、新たに受け取った満足度、意図および検索条件の確率に基づいて補正することで対話状態を更新してもよい。対話状態推定部104は、更新後の対話状態を振る舞い決定部105へ送り、さらにこれに含まれる検索条件を検索部106へ送る。
検索部106は、対話状態推定部104から検索条件を受け取り、当該検索条件に基づいて検索DB 107を検索する。検索部106は、検索結果を振る舞い決定部105へ返す。
検索DB 107は、予め複数の検索対象が保存されている。検索対象は、例えば、レストランの店舗情報、ホテルの空室情報、フライトの空席情報、バッグの商品情報など様々である。検索DB 107において用いられるDBの種類、または検索部106による検索方法は特に限定されず、種々の形態で実現可能である。例えば、検索DB 107は、対話システム100内部に構築される必要はなく、対話システム100とは異なるシステムからもアクセス可能な外部のデータベースであってよい。
振る舞い決定部105は、対話状態推定部104から対話状態、すなわち、意図、検索条件および満足度を受け取り、検索部106から検索結果を受け取る。振る舞い決定部105は、対話状態および検索結果に基づいて、対話システム100の振る舞いを決定する。振る舞い決定部105は、振る舞いを応答生成部108へ送る。
振る舞いは、対話システム100の採る行動を概念的に表す情報、例えばタグおよびスロットを用いて表現されてよい。具体的には、振る舞い決定部105は、例えば「Request(商品)(希望する商品をユーザ10に確認する)」、「Offer(店舗名=Aストア)(Aストアをユーザ10の希望する店舗として提示する)」などを振る舞いとして決定し得る。
振る舞い決定部105は、例えば、学習済みの統計モデル(例えば、学習済みのニューラルネットワークであって、ポリシーモデルとも呼ばれる)に、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば強化学習によって作成され得る。かかる振る舞い決定部105の動作および機械学習の詳細は後述される。
応答生成部108は、振る舞い決定部105から振る舞いを受け取り、これに基づいてユーザ10に提示するための応答文を生成する。応答生成部108は、応答文を音声合成部109へ送る。
応答生成部108は、様々な技法により応答文を生成することができる。応答生成部108は、例えば、振る舞い毎に予め作成された応答文を参照し、受け取った振る舞いに対応付けられた応答文を読み出すことで応答文を生成してもよい。応答生成部108は、予め作成された空欄のある応答文を利用し、対話状態に含まれるスロットの値(単語)を当該空欄にはめ込んで応答文を作成してもよい。応答生成部108は、事前に大量に収集された、振る舞いに対応する応答文を用いた機械学習によって作成された応答文生成モデルを利用して応答文を作成してもよい。
なお、応答生成部108は、応答文に加えて検索結果を提示するための情報を生成し、図示されないディスプレイなどの出力部によってこの情報をユーザ10に提示してもよい。
音声合成部109は、応答生成部108から応答文を受け取り、これに対して音声合成処理、すなわちTTS(Text−to−Speech)処理を行い、応答音声を生成する。音声合成部109は、例えば図示されないスピーカなどの出力部へ応答音声を送る。この出力部によって、応答音声はユーザ10へ提示される。
なお、応答文を聴覚的に提示する必要がない場合には、音声合成部109を省略してもよい。この場合に、例えば、図示されないディスプレイなどの出力部が応答文を視覚的に提示してもよい。
次に、満足度推定部102の動作例の詳細を説明する。満足度推定部102は、前述のようにルールベースで満足度を推定してもよいが、学習済みの統計モデルを用いて満足度を推定してもよい。ここでは、後者の例について説明する。
満足度推定部102は、図3に例示される畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を含むことができる。このCNNは、入力層301と、畳み込み層302と、プーリング層303と、畳み込み層304と、プーリング層305と、畳み込み層306と、全結合層307と、全結合層308と、ソフトマックス層309とを含む。
入力層301は、入力音声としての電気信号を30msのフレーム単位でフーリエ変換し、フーリエ変換結果を40個の周波数帯域に分割し、各周波数帯域内で平均化することで、40次元のベクトルを生成する。そして、入力層301は、現在フレームおよびその前後の5フレームの計11フレーム分のベクトルを二次元上に配置して40×11の行列を作成して出力する。
畳み込み層302は、入力層301の出力行列(特徴マップ)に対して3×3の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用してから出力する。なお、畳み込み層302は、4種類の二次元フィルタを用いるので、4個の38×9の行列を出力することになる。
プーリング層303は、畳み込み層302の出力行列に対して、2×2の平均化、すなわち出力行列から抽出された2×2の要素ついて平均を計算し、当該2×2の要素をその平均によって置き換える。これにより、プーリング層303は、4個の19×8の行列を出力することになる。
畳み込み層304は、プーリング層303の出力行列に対して3×3の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用してから出力する。なお、畳み込み層304は、8種類の二次元フィルタを用いるので、8個の17×6の行列を出力することになる。プーリング層305は、畳み込み層304の出力行列に対して、2×2の平均化を行う。これにより、プーリング層305は、8個の8×3の行列を出力することになる。
畳み込み層306は、プーリング層305の出力行列に対して3×3の二次元フィルタを用いた畳み込み演算を行い、さらにそれぞれの演算結果に非線形の活性化関数を適用する。畳み込み層306は、8個の入力行列のそれぞれについて5×1の行列、すなわち5次元のベクトルを生成する。畳み込み層306は、これら8個のベクトルを結合して40次元のベクトルとして全結合層307へ出力する。
全結合層307は、通常のニューラルネットワークと同様に、入力ベクトルに対してアフィン変換(行列演算)を行い、活性化関数を適用してから、全結合層308へ出力する。全結合層308もまた同様に、入力ベクトルに対してアフィン変換を行い、活性化関数を適用してから、ソフトマックス層309へ出力する。
ソフトマックス層309は、全結合層308の出力ベクトルにソフトマックス関数を適用し、満足度の尺度毎の事後確率を計算して出力する。なお、ソフトマックス層309は、入力音声のフレーム毎、すなわち30ms毎に事後確率を計算して出力することになる。
満足度推定部102は、満足度の尺度毎の事後確率を例えば1つの発話に含まれる全フレームに亘って平均化し、当該発話におけるユーザ10の満足度の推定結果としてもよい。かかる推定結果の一例を図4に示す。なお、満足度は、必ずしもこのような確率分布として表現されなくてもよい。例えば、満足度推定部102は、ある発話について計算された確率分布から計算される期待値、すなわち、各尺度と当該尺度の事後確率との積を全尺度に亘って合計した値を、満足度の推定結果としてもよい。
図3に示したCNNにおいて、フィルタ演算またはアフィン変換に用いられる、重み行列、バイアスベクトルなどは、モデルパラメータと呼ばれる。モデルパラメータは、統計的な機械学習によって決定される。この機械学習では、学習用入力音声と、当該学習用入力音声に割り当てられた満足度のラベルデータとが大量に用いられる。ラベルデータは、例えば学習用入力音声に備わっている声の調子、感情などの非言語的な情報を手がかりに人間が総合的に判断して作成することができる。ラベルデータの尺度体系は前述のように5段階であってもよいし、2段階、3段階またはそれ以外であってもよい。ラベルデータは、教師データとも呼ばれる。この機械学習では、学習用入力音声に対してCNNが出力する事後確率に基づいて推定される満足度と、ラベルデータの示す満足度とに基づいて計算されるクロスエントロピーが最小となるように、バックプロパゲーション的に出力側から入力側に向かってモデルパラメータが繰り返し最適化される。
次に、振る舞い決定部105の動作例の詳細を説明する。振る舞い決定部105は、前述のようにルールベースで振る舞いを決定してもよいが、これは、開発のコスト増および長期化という問題がある。さらに、学習済みの統計モデル(ポリシーモデル)を用いて振る舞いを決定した場合にはその振る舞いは統計的に最適といえるが、ルールベースで振る舞いを決定した場合にはその振る舞いの適切さを客観的に説明することが困難である。故に、ここでは、振る舞い決定部105は、ポリシーモデルを用いて振る舞いを決定することとするが、振る舞い決定部105がルールベースで振る舞いを決定したとしても構わない。
振る舞い決定部105の用いるポリシーモデルのモデルパラメータは、例えば以下に説明する強化学習によって決定されてよい。ポリシーモデルは、例えば、ガウス過程(Gaussian process)モデル、DQN(Deep Q−Net)、などのディープニューラルネットワークに基づくモデル、またはその他のモデルであり得る。また、モデルパラメータの最適化には、アクタークリティック(Actor critic)法やSARSA(State Action Reward State Action)法などを用いることができる。
この強化学習では、対話がユーザ10の要求に沿って進展しているか否かに応じて、正または負の報酬が与えられる。そして、学習用の対話状態および検索結果に対してどのように振る舞いを決定すると、対話の終了までに獲得できる報酬を最大化できるかという観点で、振る舞いの決定法が試行錯誤的に学習される。学習により最適なモデルパラメータを決定することで、ポリシーモデルが作成される。
報酬は、例えば、対話中の発話毎、そして対話終了時に与えるようにしてもよい。具体的には、対話終了時に絶対値の大きな正の報酬を与え、対話中には発話毎に絶対値の小さな負の報酬を与えてもよい。かかる報酬体系によれば、ポリシーモデルとして、対話を少ないやり取りで終わらせる、振る舞いの決定法が学習される。或いは、図7に例示されるように、対話中には発話毎の満足度に応じた報酬を与えてもよい。図7の例では、5段階の満足度の尺度の昇順に、「−5」、「−3」、「−1」、「1」、「2」の報酬が設定されている。かかる報酬体系によれば、ポリシーモデルとして、ユーザ10の満足度が普通または低い場合に対話を少ないやり取りで終わらせる、振る舞いの決定法が学習される。他方、対話中には報酬を与えず、対話終了時に満足度に応じた報酬を与えるようにしてもよい。
振る舞い決定部105は、このように作成されたポリシーモデルを用いることで、入力された対話状態および検索結果に対して、対話の終了までに獲得できると統計的に期待される報酬を最大化するように振る舞いを決定できる。振る舞い決定部105は、対話状態に含まれる満足度を考慮して振る舞いを決定する。故に、ポリシーモデルの学習次第で、振る舞い決定部105は、例えばユーザ10が対話システム100の応答に苛立って満足度が低下している場合には、同じ質問の繰り返しを避ける、「申し訳ございません」などのユーザ10の苛立ちを抑えるための一言を応答に添えるなど、ユーザ10の感情を気遣った振る舞いを選択することができる。
具体的には、振る舞い決定部105の使用するポリシーモデルは、図6に例示される機械学習によって作成されてよい。なお、以降の説明では、図1の対話システム100が図6の機械学習を行うこととしているが、他の装置、例えばコンピュータによってかかる機械学習を行い、作成したポリシーモデルを対話システム100に設定することもできる。
図6の機械学習が開始すると、処理はまずステップS501へ進む。ステップS501では、音声認識部101および満足度推定部102が、それぞれ学習用入力音声を受け取る。この学習用入力音声は、学習データとして予め大量に収集された、ユーザと対話システム100との対話事例から抽出されてもよし、正式運用前の対話システム100にユーザと対話させることでリアルタイムに取得してもよい。
音声認識部101は、ステップS501において受け取った入力音声に音声認識処理を行い、認識結果テキストを得る(ステップS502)。満足度推定部102は、ステップS501において受け取った入力音声に基づいて、当該入力音声を発話したユーザの満足度を推定する(ステップS503)。
意図・検索条件推定部103は、ステップS502において生成された認識結果テキストを受け取り、これに基づいてユーザの意図および/または検索条件を推定する(ステップS504)。
対話状態推定部104は、ステップS503において推定された満足度と、ステップS504において推定された意図・検索条件と、前回のステップS505の実行時(ただし、前回の実行時とは異なる対話中である場合には対話状態はリセットされ得る)に推定した対話状態とに基づいて、最新の対話状態を推定する(ステップS505)。
他方、図示されないポリシーモデル学習部は、ステップS503において推定された満足度に対応する報酬を設定する(ステップS508)。ここでの報酬体系は、図7に例示されたものであってよい。さらに、ポリシー学習部は、ステップS508において設定された報酬に基づいて、ポリシーモデル(のモデルパラメータ)を更新する(ステップS509)。なお、発話毎に報酬を与えない場合に、ステップS508およびステップS509は省略可能である。
振る舞い決定部105は、ステップS509において更新されたポリシーモデルを用いて、ステップS505において推定された対話状態に基づいて対話システム100の振る舞いを決定する(ステップS506)。
応答生成部108は、ステップS506において決定された振る舞いに基づいて、例えば応答文などのシステム応答を生成する(ステップS507)。ステップS507の終了時に、対話が終了していれば処理はステップS511へ進み、終了していなければ対話を継続するために処理はステップS501へ戻る(ステップS510)。
ステップS511では、図示されないポリシーモデル学習部は、対話終了に対応する報酬を設定する(ステップS511)。ここでの報酬体系は、図7に例示されたものであってよい。さらに、ポリシー学習部は、ステップS511において設定された報酬に基づいて、ポリシーモデルを更新する(ステップS512)。ステップS512の終了時に、未処理の学習データが残存している、ユーザと別の対話を開始するなどして、学習を継続する場合には処理はステップS501へ戻る(ステップS513)。他方、学習を継続しない場合には図6の機械学習は終了する。
以下、図5を用いて、対話システム100の動作を説明する。なお、図5は、対話システム100がユーザ10の発話毎に行われ、1回分のシステム応答を提示するための動作を示す。故に、対話の継続中は図5の動作が繰り返し行われ得る。
図5の動作が開始すると、処理はまずステップS401へ進む。ステップS401では、音声認識部101および満足度推定部102が、それぞれユーザ10からの入力音声を受け取る。
音声認識部101は、ステップS401において受け取った入力音声に音声認識処理を行い、認識結果テキストを得る(ステップS402)。満足度推定部102は、ステップS401において受け取った入力音声に基づいてユーザ10の満足度を推定する(ステップS403)。
意図・検索条件推定部103は、ステップS402において生成された認識結果テキストを受け取り、これに基づいてユーザ10の意図および/または検索条件を推定する(ステップS404)。
対話状態推定部104は、ステップS403において推定された満足度と、ステップS404において推定された意図・検索条件と、前回のステップS405の実行時(ただし、前回の実行時とは異なる対話中である場合には対話状態はリセットされ得る)に推定した対話状態とに基づいて、最新の対話状態を推定する(ステップS405)。
検索部106は、ステップS405において推定された対話状態に含まれる検索条件に基づいて検索DB 107を検索する(ステップS406)。そして、振る舞い決定部105は、学習済みのポリシーモデルを用いて、ステップS405において推定された対話状態と、ステップS406による検索結果とに基づいて対話システム100の振る舞いを決定する(ステップS407)。
応答生成部108は、ステップS407において決定された振る舞いに基づいて、例えば応答文などのシステム応答を生成する(ステップS408)。音声合成部109は、ステップS408において生成された応答文を受け取り、これに対して音声合成処理を行い、応答音声を生成する(ステップS409)。図示されない出力部は、この応答音声をユーザ10へ提示する。これで、図5の動作は終了する。
以上説明したように、第1の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定し、この満足度とユーザ入力(例えば、上記入力音声の認識結果テキスト)とに基づいて対話状態を推定する。そして、この対話システムは、この対話状態に基づいて振る舞いを決定する。故に、この対話システムによれば、例えばユーが対話システムの応答に苛立って満足度が低下している場合には、同じ質問の繰り返しを避ける、「申し訳ございません」などのユーザの苛立ちを抑えるための一言を応答に添える、など、ユーザの感情を気遣った振る舞いを採ることができる。
(第2の実施形態)
図8に例示されるように、第2の実施形態に係る対話システム600は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部604と、振る舞い決定部605と、検索部106と、検索DB 107と、応答生成部108と、音声合成部109とを含む。
対話状態推定部604は、満足度推定部102によって推定されるユーザ10の発話毎の満足度を考慮せずに対話状態を推定する点で前述の対話状態推定部104とは異なる。すなわち、対話状態推定部604は、例えばユーザ10の発話毎に、意図・検索条件推定部103から意図・検索条件を受け取る。対話状態推定部604は、これまでに受け取った意図検索条件に基づいて推定した対話状態と、新たに受け取った意図・検索条件とに基づいて、最新の対話状態を推定する。
例えば、対話状態推定部604は、最初に意図・検索条件を受け取った時に、これらを初期の対話状態として保存してもよい。以降、対話状態推定部604は、最後に保存された対話状態、すなわち最後に推定した対話状態を、新たに受け取った意図・検索条件に基づいて更新することで最新の対話状態を推定してもよい。
対話状態は、例えば、ユーザ10の意図および検索条件を含み得る。対話状態推定部604は、最後に保存された対話状態に含まれるユーザ10の意図および検索条件の確率を、新たに受け取った意図および検索条件の確率に基づいて補正することで対話状態を更新してもよい。対話状態推定部604は、更新後の対話状態を振る舞い決定部605へ送り、さらにこれに含まれる検索条件を検索部106へ送る。
振る舞い決定部605は、満足度推定部102によって推定されるユーザ10の発話毎の満足度と、対話状態推定部604によって推定された対話状態(これは、満足度を含んでいない)と、検索部106による検索結果に基づいて、対話システム600の振る舞いを決定する。
振る舞い決定部105は、例えば、ポリシーモデル(例えば、学習済みのニューラルネットワークなどの統計モデル)に、満足度、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば図6を用いて説明した強化学習と類似の強化学習によって作成され得る。
以上説明したように、第2の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定し、ユーザ入力(例えば、上記入力音声の認識結果テキスト)に基づいて対話状態を推定する。そして、この対話システムは、満足度と、対話状態とに基づいて振る舞いを決定する。故に、この対話システムによれば、第1の実施形態に係る対話システムと同様に、ユーザの感情を気遣った振る舞いを採ることができる。
(第3の実施形態)
図9に例示されるように、第3の実施形態に係る対話システム700は、音声認識部101と、満足度推定部102と、意図・検索条件推定部103と、対話状態推定部604と、振る舞い決定部705と、検索部106と、検索DB 107と、応答生成部108と、音声合成部109と、対話打ち切り決定部710とを含む。
振る舞い決定部705は、対話状態推定部604によって推定された対話状態(これは、満足度を含んでいない)と、検索部106による検索結果に基づいて、対話システム700の振る舞いを決定する。
振る舞い決定部105は、例えば、ポリシーモデル(例えば学習済みのニューラルネットワークなどの統計モデル)に、対話状態および検索結果に基づく入力データを与えることで振る舞いを決定してもよい。この学習済みの統計モデルは、例えば図6を用いて説明した強化学習と類似の強化学習によって作成され得る。
なお、振る舞い決定部705は、前述の振る舞い決定部605に置き換えられてよい。また、対話状態推定部604および振る舞い決定部705の組み合わせは、前述の対話状態推定部104および振る舞い決定部105の組み合わせに置き換えられてもよい。
対話打ち切り決定部710は、例えばユーザ10の発話毎に、満足度推定部102から満足度を受け取る。対話打ち切り決定部710は、受け取った満足度に基づいてユーザ10と対話システム700との対話を打ち切るか否かを決定する。
具体的には、対話打ち切り決定部710は、満足度の瞬時値、または満足度の統計値、例えば過去数回のユーザ10の発話の満足度の平均値、が閾値以下となった場合に、対話の打ち切りを決定してもよい。また、対話打ち切り決定部710は、満足度に加えて、対話状態推定部604によって推定された対話状態、例えば意図または検索条件、の推定確率に基づいて対話の打ち切りを決定してもよい。例えば、対話打ち切り決定部710は、満足度が閾値a1以下、または対話状態の推定確率が閾値b1以下の場合に対話の打ち切りを決定してもよいし、満足度が閾値a2以下、かつ対話状態の推定確率がb2以下である場合に対話の打ち切りを決定してもよい。
対話打ち切り決定部710は、対話の打ち切りを決定した場合に、これを応答生成部108に通知する。例えば、対話打ち切り決定部710は、応答生成部108に、「申し訳ありません。自動対応ができませんのでオペレータにお繋ぎします。」などの応答文を生成させてもよい。また、対話打ち切り決定部710は、上位システムへ対話の打ち切りを通知し、対話をオペレータに引き継いでもよい。
以上説明したように、第3の実施形態に係る対話システムは、ユーザの入力音声に基づいてユーザの満足度を推定する。そして、この対話システムは、満足度に基づいて対話を打ち切るか否かを決定する。故に、この対話システムによる対話の継続が困難となるケース、例えば、ユーザの不満が度を超えそうな場合、または実際に度を超えた場合などに、対話を自動的に打ち切り例えばオペレータに対話を引き継ぐことで、ユーザの対話システムへの満足度が致命的に悪化するのを回避することができる。
なお、上記第1の実施形態乃至第3の実施形態に係る対話システム100,600および700は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現可能である。具体的には、音声認識部101、満足度推定部102、意図・検索条件推定部103、対話状態推定部104,604、振る舞い決定部105,605,705、検索部106、検索DB 107、応答生成部108、音声合成部109、および対話打ち切り決定部710のうち一部または全部が、コンピュータ装置に搭載されたプロセッサなどの制御装置にプログラムを実行させることで実現されてもよい。
かかるコンピュータ装置は、図10に例示されるように、CPU(Central Processing Unit)131などの制御装置と、ROM(Read Only Memory)132、RAM(Random Access Memory)133などの記憶装置と、マイクロフォン、(操作)入力装置、表示装置などに接続される入出力I/F(Interface)134と、ネットワークに接続して通信を行う通信I/F 135と、各ハードウェアを接続する136とを含むことができる。
制御装置の実行するプログラムは、コンピュータ装置に予めインストールされていてもよいし、CD−ROMなどの記憶媒体、またはネットワーク経由で取得され、インストールされてもよい。また、それぞれの機能部は、コンピュータ装置に内蔵または外付けされたメモリ、ハードディスク、またはCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体を適宜利用することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100,600,700・・・対話システム
101・・・音声認識部
102・・・満足度推定部
103・・・意図・検索条件推定部
104,604・・・対話状態推定部
105,605,705・・・振る舞い決定部
106・・・検索部
107・・・検索DB
108・・・応答生成部
109・・・音声合成部
301・・・入力層
302,304,306・・・畳み込み層
303,305・・・プーリング層
307,308・・・全結合層
309・・・ソフトマックス層
710・・・対話打ち切り決定部

Claims (12)

  1. ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
    前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と
    を具備し、
    前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話システム。
  2. 前記学習済みの統計モデルは、満足度を示すラベルが付与された学習用入力音声を用いて教師付き学習を行うことで作成される、請求項1に記載の対話システム。
  3. 前記満足度は、確率分布として表現される、請求項1に記載の対話システム。
  4. 前記振る舞い決定部は、強化学習を行うことで作成された学習済みの統計モデルに、前記対話状態に基づく入力データを与えることで前記ユーザに対する振る舞いを決定する、請求項1に記載の対話システム。
  5. 前記強化学習における報酬は、学習用入力音声に基づいて推定された前記学習用入力音声を発話したユーザの満足度に応じて設定される、請求項4に記載の対話システム。
  6. ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する満足度推定部と、
    少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する対話状態推定部と、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する振る舞い決定部と、
    少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する対話打ち切り決定部と
    を具備し、
    前記対話状態は、前記ユーザの意図および検索条件を含む、対話システム。
  7. 前記対話打ち切り決定部は、前記対話状態および前記推定された満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する、請求項に記載の対話システム。
  8. 前記対話打ち切り決定部は、前記ユーザとの対話を打ち切ると決定した時に、前記ユーザとの対話をオペレータに自動的に引き継ぐ、請求項に記載の対話システム。
  9. コンピュータが、
    ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
    前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定することと、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと
    を具備し、
    前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話方法。
  10. コンピュータが、
    ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定することと、
    少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定することと、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定することと、
    少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定することと
    を具備し、
    前記対話状態は、前記ユーザの意図および検索条件を含む、対話方法。
  11. コンピュータを、
    ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
    前記ユーザの入力および推定された前記ユーザの満足度に基づいて前記ユーザとの対話状態を推定する手段、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段
    として機能させるための対話プログラムであって、
    前記対話状態は、前記ユーザの意図、検索条件および満足度を含む、対話プログラム。
  12. コンピュータを、
    ユーザの入力音声を変換することで得られる周波数領域の信号を含む入力データを学習済みの統計モデルに与えることにより、前記ユーザの満足度を推定する手段、
    少なくとも前記ユーザの入力に基づいて前記ユーザとの対話状態を推定する手段、
    推定された前記対話状態に基づいて前記ユーザに対する振る舞いを決定する手段、
    少なくとも、推定された前記満足度に基づいて前記ユーザとの対話を打ち切るか否かを決定する手段
    として機能させるための対話プログラムであって、
    前記対話状態は、前記ユーザの意図および検索条件を含む、対話プログラム。
JP2017215433A 2017-11-08 2017-11-08 対話システム、対話方法および対話プログラム Active JP6805112B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017215433A JP6805112B2 (ja) 2017-11-08 2017-11-08 対話システム、対話方法および対話プログラム
US15/899,885 US10847151B2 (en) 2017-11-08 2018-02-20 Dialogue system and dialogue method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017215433A JP6805112B2 (ja) 2017-11-08 2017-11-08 対話システム、対話方法および対話プログラム

Publications (2)

Publication Number Publication Date
JP2019086679A JP2019086679A (ja) 2019-06-06
JP6805112B2 true JP6805112B2 (ja) 2020-12-23

Family

ID=66327467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017215433A Active JP6805112B2 (ja) 2017-11-08 2017-11-08 対話システム、対話方法および対話プログラム

Country Status (2)

Country Link
US (1) US10847151B2 (ja)
JP (1) JP6805112B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388926B (zh) * 2018-03-15 2019-07-30 百度在线网络技术(北京)有限公司 语音交互满意度的确定方法及设备
US11416740B2 (en) * 2018-04-13 2022-08-16 Adtran, Inc. Artificial intelligence optimized telecommunications systems
CN110287285B (zh) * 2019-05-31 2023-06-16 平安科技(深圳)有限公司 一种问题意图识别方法、装置、计算机设备及存储介质
US11605378B2 (en) * 2019-07-01 2023-03-14 Lg Electronics Inc. Intelligent gateway device and system including the same
CN110569339B (zh) * 2019-07-22 2022-04-19 清华大学 对话方法、介质、装置和计算设备
CN110413756B (zh) * 2019-07-29 2022-02-15 北京小米智能科技有限公司 自然语言处理的方法、装置及设备
CN110737761B (zh) * 2019-09-26 2023-09-19 联想(北京)有限公司 一种信息处理方法、电子设备和存储介质
CN112530437B (zh) * 2020-11-18 2023-10-20 北京百度网讯科技有限公司 语义识别方法、装置、设备以及存储介质
JPWO2022130471A1 (ja) * 2020-12-14 2022-06-23
CN112579758A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品
CN115114407B (zh) * 2022-07-12 2024-04-19 平安科技(深圳)有限公司 意图识别方法、装置、计算机设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54106208A (en) 1978-02-07 1979-08-21 Matsushita Electric Ind Co Ltd Cleaner for automatic focusing device of optical information recording and reproducing apparatus
JP3933813B2 (ja) * 1999-04-08 2007-06-20 三菱電機株式会社 音声対話装置
JP4686905B2 (ja) 2000-07-21 2011-05-25 パナソニック株式会社 対話制御方法及びその装置
US20060215824A1 (en) * 2005-03-28 2006-09-28 David Mitby System and method for handling a voice prompted conversation
JP2006313287A (ja) * 2005-05-09 2006-11-16 Toyota Motor Corp 音声対話装置
JP4728868B2 (ja) * 2006-04-18 2011-07-20 日本電信電話株式会社 応対評価装置、その方法、プログラムおよびその記録媒体
JP2010129033A (ja) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 対話心理学習装置とその方法、対話制御装置とその方法、プログラムと記録媒体
JP4890585B2 (ja) 2009-04-30 2012-03-07 沖電気工業株式会社 対話制御システム及びプログラム、並びに、多次元オントロジー処理システム及びプログラム
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
US9679568B1 (en) * 2012-06-01 2017-06-13 Google Inc. Training a dialog system using user feedback
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
US10055403B2 (en) * 2016-02-05 2018-08-21 Adobe Systems Incorporated Rule-based dialog state tracking
JP6477551B2 (ja) * 2016-03-11 2019-03-06 トヨタ自動車株式会社 情報提供装置及び情報提供プログラム
GB2559408B (en) * 2017-02-06 2020-07-08 Toshiba Kk A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system
JP6224857B1 (ja) * 2017-03-10 2017-11-01 ヤフー株式会社 分類装置、分類方法および分類プログラム
US10360908B2 (en) * 2017-04-19 2019-07-23 International Business Machines Corporation Recommending a dialog act using model-based textual analysis
DK201770431A1 (en) * 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management

Also Published As

Publication number Publication date
US10847151B2 (en) 2020-11-24
US20190139537A1 (en) 2019-05-09
JP2019086679A (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
JP6805112B2 (ja) 対話システム、対話方法および対話プログラム
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
JP6448723B2 (ja) 対話システム、対話方法、および対話システムを適合させる方法
CN111105782B (zh) 会话交互处理方法、装置、计算机设备和存储介质
JP7249378B2 (ja) 対話装置、プログラム、及び対話方法
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
JP6611053B2 (ja) 主題推定システム、主題推定方法およびプログラム
US11749274B2 (en) Inference on date time constraint expressions
US20220293102A1 (en) Electronic apparatus and control method thereof
US20210200948A1 (en) Corpus cleaning method and corpus entry system
Casanueva et al. Knowledge transfer between speakers for personalised dialogue management
US20200143809A1 (en) Electronic apparatus and control method thereof
US10929781B1 (en) Systems and methods for determining training parameters for dialog generation
WO2021000403A1 (zh) 智能对话系统的语音匹配方法、电子装置、计算机设备
KR20190117840A (ko) 대화 이해 ai 시스템에 의한 고객 상담의 제공 중에 사람 상담 직원으로 하여금 해당 고객을 위한 이후 상담을 진행하도록 전환하는 방법 및 컴퓨터 판독가능 기록 매체
CA3123387C (en) Method and system for generating an intent classifier
CN108053826B (zh) 用于人机交互的方法、装置、电子设备及存储介质
KR101959292B1 (ko) 문맥 기반으로 음성 인식의 성능을 향상하기 위한 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN115497465A (zh) 语音交互方法、装置、电子设备和存储介质
US11514894B2 (en) Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer&#39;s negative emotional state to a positive one
US11875128B2 (en) Method and system for generating an intent classifier
Young et al. Evaluation of statistical pomdp-based dialogue systems in noisy environments
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201203

R151 Written notification of patent or utility model registration

Ref document number: 6805112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151