JP2019070957A - 対話システムおよびドメイン決定方法 - Google Patents

対話システムおよびドメイン決定方法 Download PDF

Info

Publication number
JP2019070957A
JP2019070957A JP2017196868A JP2017196868A JP2019070957A JP 2019070957 A JP2019070957 A JP 2019070957A JP 2017196868 A JP2017196868 A JP 2017196868A JP 2017196868 A JP2017196868 A JP 2017196868A JP 2019070957 A JP2019070957 A JP 2019070957A
Authority
JP
Japan
Prior art keywords
dialogue
domain
task
oriented
intention understanding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017196868A
Other languages
English (en)
Other versions
JP7095254B2 (ja
Inventor
整 加藤
Hitoshi Kato
整 加藤
拓磨 峰村
Takuma Minemura
拓磨 峰村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota InfoTechnology Center Co Ltd
Original Assignee
Toyota InfoTechnology Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota InfoTechnology Center Co Ltd filed Critical Toyota InfoTechnology Center Co Ltd
Priority to JP2017196868A priority Critical patent/JP7095254B2/ja
Priority to US16/151,664 priority patent/US10803867B2/en
Publication of JP2019070957A publication Critical patent/JP2019070957A/ja
Application granted granted Critical
Publication of JP7095254B2 publication Critical patent/JP7095254B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対話システムにおいて、ユーザの発言内容から適切なドメインを効率良く決定する。【解決手段】対話システムは、対話におけるユーザの発言内容を取得する入力手段と、前記入力手段が取得した発言内容に基づいて、前記対話のモードがタスク指向型であるか非タスク指向型であるかを決定するモード決定手段と、それぞれが特定のドメインに対応する複数の意図理解手段と、前記対話のモードがタスク指向型である場合に、前記発言内容を前記複数の意図理解手段のそれぞれを用いて行った意図理解の結果に基づいて、前記対話のドメインを決定するドメイン決定手段と、を備える。【選択図】図2

Description

本発明は、対話システムに関し、特に、対話におけるドメイン決定手法に関する。
自然言語処理技術、特に意図理解技術の進展により、テキストチャットのユーザインタフェースを活用したチャットボット型の対話システムの進展が著しい。このような技術進展の帰結として、既存のチャットボット型の対話システムを活用した音声対話システムが実現されると期待される。
このようなチャットボット型の音声対話システムは、タスク指向型の対話を行うのみならず、非タスク指向型の対話とシームレスにつながることが望まれる。なお、タスク指向型の対話とは、目標を持って行う対話であり、たとえば、天気問い合わせ・レストラン予約・ホテル予約などの対話が例として挙げられる。非タスク指向型の対話とは、タスク指向型以外の対話であり、特段の目標を持たない雑談が該当する。
タスク指向型の対話と非タスク指向型の対話が混在した対話として、次のような対話が例としてあげられる。
U1:今日の夜暇?
U2:暇だよ
U3:僕も暇だよ。
U4:食事でも行かない?
U5:いいね
U6:何がいい?
U7:フレンチとかどう?
U8:いいね。じゃあ空き状況確認するね?
U9:今晩、空いているお勧めのフレンチは?
S1:XXXなど如何でしょうか?AAAが美味しいです。
U10:他には?
S2:YYYは如何でしょうか?BBBが美味しいです。
U11:じゃあ、そこを予約して。
上記の例では、Uはユーザの発話、Sはシステムの発話を表す。また、U1からU8までが非タスク指向型の対話であり、U9からがタスク指向型の対話である。なお、この例では、非タスク指向型の対話にシステムは参加していないが、参加しても構わない。
対話システムが、適切な応答を出力するためには、ユーザの発言意図を適確に理解する必要がある。様々なドメイン(話題)に対応するために、それぞれが独自のドメインに対応した複数の意図理解エンジンを使うことが想定される。また、新たなドメインを容易に追加できるように、個々のドメインを統合してシステムを構築することが提案されている(非特許文献1)。このようなアーキテクチャにおけるドメイン選択手法として、非特許文献1では、ユーザの発言内容を各ドメインの意図理解エンジンに渡して、どのドメインに該当するかを判断している。
池田智志 他、「マルチドメイン音声対話システムにおけるトピック推定と対話履歴の統合によるドメイン選択手法.」 情報処理学会論文誌 50.2 (2009): 488-500.
非特許文献1の手法では、ユーザの発言内容の全てがそれぞれの意図理解エンジンに渡されることになる。それぞれの意図理解エンジンは、予め定められた意図に当てはまるか当てはまらないかを判定し、その結果を返す。ここで、ユーザの発言内容がいずれの意図理解エンジンの予め定められた意図に該当しない場合には、処理が無駄になり非効率である。
上記の課題を考慮して、本発明は、ユーザの発言内容から適切なドメインを効率良く決定可能な対話システムを提供することを目的とする。
上記目的を達成するために、本発明に係る対話システムは、対話がタスク指向型であるか非タスク指向型であるかを判断して、対話がタスク指向型である場合に複数の意図理解手段を用いた意図理解を行い、その結果に基づいてドメインを決定する。対話が非タスク指向型である場合には、意図理解手段を用いたドメイン決定は有効ではない場合が多い。本発明に係る対話システムは、対話がタスク指向型であるときに意図理解手段を用いたドメイン決定を行うことで処理を効率化できる。
より具体的には、本発明に係る対話システムは、入力手段と、モード決定手段と、意図理解手段と、ドメイン決定手段を備える。
入力手段は、対話におけるユーザの発言内容を取得する。入力手段は、ユーザからテキスト形式で発言内容を取得してもよいし、音声形式で発言内容を取得してもよい。音声形式での取得を行う場合には、入力手段は、ユーザの発話音声を取得する音声入力手段と、発話音声を音声認識して発言内容のテキストを取得する音声認識手段を含んで構成することが好ましい。
モード決定手段は、入力手段が取得した発言内容に基づいて、現在の対話のモードがタスク指向型であるか非タスク指向型であるかを決定する。ここで、タスク指向型の対話は特定の目標を持って行われる対話であり、非タスク指向型の対話はこれ以外の対話である。対話がタスク指向型か非タスク指向型かの決定は、たとえば、機械学習(たとえば強化学習)を用いて生成した識別器によって行えばよい。
複数の意図理解手段は、それぞれ特定のドメインの発言意図を理解するように構成される。なお、対話におけるドメインとは、意図理解手段が扱う(扱える)話題の範囲を意味する。たとえば、一つの意図理解手段は、ドメイン内の予め定められた複数の意図のそれぞれについて、ユーザの発言が各意図に当てはまるかどうかを表す確信度を算出するように構成される。ユーザ発言が特定の意図であることを示す確信度は、発言内容をベクトル化し、ベクトル空間内でのユーザ発言の位置と上記特定の意図の重心位置との間の距離に基づいて決定すればよい。
ドメイン決定手段は、対話のモードがタスク指向型である時に、意図理解手段を用いたドメイン決定を行うように構成される。たとえば、ドメイン決定手段は、ユーザの発言内容を複数の意図理解手段に渡して、予め定められた複数の意図に当てはまる確信度を取得し、この確信度に基づいてドメインが決定するようにしてもよい。
なお、ドメイン決定手段は、対話モードが非タスク指向型である時には、上記とは異な
る手法によってドメインを決定する。たとえば、対話モードが非タスク指向型である時には、ドメイン決定手段は、ユーザの発言内容に含まれる単語列からドメインを決定するように構成してもよい。
このような構成の対話システムによれば、意図理解手段を追加することによって新規のドメインに対応が可能であり、システムの拡張性が高い。複数の意図理解手段を備える対話システムにおいて、全ての意図理解手段にユーザの発言内容を渡して意図理解処理を実行すると、処理負荷が高くなる。意図理解手段によって意図を理解できるのは対話がタスク指向型である時が多く、対話が非タスク指向型である時には意図理解手段による意図理解は困難な場合が多い。そこで、本発明に係る対話システムでは、対話がタスク指向型である時に意図理解手段を用いたドメイン決定を行い、そうでない場合には意図理解手段を利用しないドメイン決定を行うことで、ドメイン決定の精度を損なうことなく処理を効率化できる。
本発明において、複数の意図理解手段が算出する確信度の分布が異なっている場合には、異なる意図理解手段が算出する確信度の比較が困難である。そこで、複数の意図理解手段は、確信度の高い所定数個の意図についての確信度を出力するように構成されることが望ましい。この際、当該所定数は、全ての意図理解手段において共通とする。また、それぞれの意図理解手段は複数(たとえば、上記所定数)の意図についての確信度を出力するが、確信度の算出基準は複数の意図理解手段において同一とすることが望ましい。たとえば、複数の確信度の総和(合計)を正規化する(すなわち、全ての意図理解手段において同じ値、典型的には1、となるようにする)ことが好ましい。また、それぞれの意図理解手段が出力する複数の意図についての確信度の分布の尖度(3次のモーメント)や歪度(4次のモーメント)を正規化することも好ましい。このようにすることで、複数の意図理解手段が出力する確信度を、容易に比較できるようになる。
本発明において、ドメイン決定手段は、対話モードがタスク指向型と非タスク指向型の間で切り替わった場合に、切り替わり前のドメインを考慮して、切替後のドメインを決定することが好ましい。たとえば、対話モードが非タスク指向型からタスク指向型に切り替わったときに、単純に意図理解手段が算出する確信度に基づいてドメインを決定するのではなく、直近のドメインについての確信度を大きくする補正を行うなどして直近のドメインが選択されやすくなるようにするとよい。対話モードがタスク指向型から非タスク指向型に切り替わったときも同様である。このようにすることで、過去のドメインを考慮して現在のドメインが決定できるので、ドメイン決定精度が向上する。
なお、本発明は、上記手段の少なくとも一部を備える対話システムとして捉えることができる。また、本発明は、上記対話システムが行うドメイン決定方法として捉えることもできる。また、本発明は、これらの方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。
本発明によれば、対話システムにおいて、ユーザの発言内容から適切なドメインを効率良く決定できる。
図1は、実施形態に係る対話システムの構成を示す図である。 図2は、実施形態に係る対話システムにおける音声対話処理の流れを示すフローチャートである。 図3は、チャットボットにおける確信度算出処理の流れを示すフローチャートである。 図4は、ベクトル空間内での発言内容の意図理解を説明するための模式図である。 図5は、チャットボットが算出する意図毎の確信度を説明する模式図である。
本実施形態に係る対話システム1は、ユーザ(人間)と音声対話を行う音声対話システムである。対話に参加するユーザ数は、一人であってもよいし複数であってもよい。また、本対話システム1は、雑談のように特段の目標を持たない対話(非タスク指向型の対話)と、目標を持って行う対話(タスク指向型の対話)の両方に対応する。また、本対話システム1は、複数の話題(ドメイン)に対話できるように、それぞれが独自のドメインに対応した複数の対話エンジン(チャットボット)を用いる。
<構成>
図1は、本実施形態に係る対話システム1の構成を示す図である。図示するように、対話システム1は、対話アプリ10、対話サーバ20、複数のチャットボット30を含んで構成される。対話アプリ10はユーザが所持するスマートフォンやPC(Personal Computer)などにより実現される。対話サーバ20は、対話アプリ10と通信可能に構成され
たコンピュータにより実現される。チャットボット30は、対話サーバ20の管理事業者とは異なる事業者(サードパーティ)が管理するコンピュータにより実現される。
対話アプリ10は、音声入力部11、音声合成部12,音声出力部13をその機能部として含む。これらの機能部は、コンピュータのマイクロプロセッサ(演算処理部)がプログラムを実行することにより実現される。音声入力部11は、マイクからユーザの発話音声を取得する。音声入力部11によって取得された音声は、対話サーバ20に送られる。音声合成部12は、対話サーバ20から発話テキストを取得し、当該発話テキストに対応する音声を音声合成により生成する。音声出力部13は、音声合成部12により生成された音声を、スピーカーから出力する。
対話サーバ20は、音声認識部21、対話モード推定部22、ドメイン選択部23をその機能部として含む。これらの機能部は、コンピュータのマイクロプロセッサ(演算処理部)がプログラムを実行することにより実現される。対話サーバ20は、ユーザの発話内容をテキスト化し、話題に沿ったチャットボット30を用いてユーザに対する応答文を生成する。
音声認識部21は、対話アプリ10から得られた発話音声に対して音声認識処理を施して、発話内容をテキスト化する。音声認識処理には既存の技術、例えば、音響モデル・言語モデル・発音辞書を用いたモデルベースの手法を適用すればよい。なお、音声認識部21は、音声認識の前処理として、雑音除去、話者分離、発話区間検出などの前処理を行ってもよい。
対話モード推定部22は、現在行われている対話が、タスク指向型の対話であるか、非タスク指向型の対話であるかを推定する。対話モード推定部22は、Q学習のような強化学習によってあらかじめ学習された識別器を用いて、現在の対話のモードを推定する。識別器の学習は、たとえば、次のようにして行えばよい。まず、内部状態として、完全なタスク指向型な状態と完全な非タスク指向型な状態とを含む複数の状態を定義し、それぞれの状態に応じた適切な応答文生成ルールを決定する。また、会話における報酬を、よりスムーズな会話が長く行えるほど高い報酬が得られるように定義する。そして、実際に状態
遷移を行いながらユーザとの会話を行い、会話において得られる報酬が最大化されるように、識別器における状態遷移の基準(状態遷移に伴う期待報酬)を更新する。このような学習を繰り返し行うことで、対話モードを適切に推定可能な識別器が得られる。
ドメイン選択部23は、現在の対話におけるドメインを選択する。ドメイン選択部23は、現在の対話がタスク指向型である時に有効なタスク指向時ドメイン選択部23aと、現在の対話が非タスク指向型である時に有効な非タスク指向時ドメイン選択部23bと含む。それぞれのドメイン選択部の詳細な動作については、後述する。
なお、図示はしていないが、対話サーバ20は、ユーザ同士の対話に対応できるように、あるユーザの対話アプリ10から取得した発話音声(あるいはその認識結果)を、別のユーザの対話アプリ10に送信する。
チャットボット30は、意図理解部(意図理解エンジン)31と、応答文生成部32をその機能部として含む。これらの機能部は、コンピュータのマイクロプロセッサ(演算処理部)がプログラムを実行することにより実現される。なお、図では、チャットボット30は2つ示してあるが、その数は1つであっても3つ以上であってもよく特に限定されない。
意図理解部31は、対話サーバ20から取得した発話テキスト(発言内容)の意図を理解する。本実施形態においては、意図理解部31は、あらかじめ定められた複数の意図のそれぞれについて、発話テキストが当該意図に一致する確からしさ(確信度)を算出する。応答文生成部32は、対話サーバ20から取得した発話テキストに応答するための、応答文テキストを生成する。応答文の生成手法は特に限定されず、既存の任意の手法を用いることができる。
なお、本実施形態に係る対話システム1においては、複数のドメインの対話に対応できるように、サードパーティが提供するチャットボット30を利用可能とする。そのため、対話サーバ20とチャットボット30の間のインタフェース(テキストチャットボットインタフェース)40が定められており、このインタフェースにしたがって対話サーバ20とチャットボット30の間で通信が行われる。
<処理内容>
図2および図3は、本実施形態に係る対話システム1での処理の流れを示すフローチャートである。以下、これらのフローチャートにしたがって、本実施形態での処理を説明する。
ステップS102において、対話アプリ10の音声入力部101がユーザからの発話音声を取得し、対話サーバ20へ送信する。ステップS104において、対話サーバ20の音声認識部21が音声認識処理を行って、発話音声をテキストに変換する。
ステップS106において、対話モード推定部22が、現在の対話のモードがタスク指向型であるか非タスク指向型であるかを推定する。上述したように、対話モード推定部22は、入力される発話テキストに応じて内部状態を遷移させる。内部状態が3段階以上の場合には、適宜の規則に従って、3段階以上の内部状態からタスク指向型モードと非タスク指向型モードのいずれかを決定する。この際、ヒステリシスを持たせて過去の状態を考慮して対話モードを決定してもよい。
ステップS108において、ドメイン選択部23は、現在の対話モードがタスク達成型であるか非タスク達成型であるかを判断し、対話モードに応じて異なる手法によって現在
のドメインを決定する。現在の対話モードがタスク指向型であればステップS110に進み、非タスク指向型であればステップS114に進む。
ステップS110の処理は、対話モードがタスク指向型の時に実行される。ここでは、タスク指向時ドメイン選択部23aが、ユーザの発話テキストを、全てのチャットボット30に送信して、チャットボット30が理解可能な意図に当てはまる確からしさを示す確信度を取得する。
ここで、図3から図5を参照して、チャットボット30における確信度の算出処理について説明する。図3はチャットボット30(意図理解部31)が行う確信度算出処理の流れを示すフローチャートであり、図4は文章のベクトル化による意図理解処理を説明する図であり、図5はチャットボット30が算出する確信度の例である。
ステップS202において、意図理解部31は、発話テキストの特徴を表す特徴ベクトルを公知のベクトル解析手法(たとえばWord2Vec)により求める。ステップS204において、意図理解部31は、ベクトル空間内での、発話テキストの位置と、予め定められ複数の意図の距離を算出する。
上述したように、各チャットボット30は、予め定められた複数の意図を理解可能なように構成される。たとえば、チャットボット30が「ニュース」に関する対話が可能であるとして、「経済ニュースの取得」や「国際ニュースの取得」などの発話意図を理解可能であるとする。図4に示すように、このような予め定められた意図を表す文章は、ベクトル空間内で所定の領域(410,420)を示す。発話テキストのベクトル化によりベクトル空間内での位置が定まるので、意図理解部31は、当該位置と各意図の領域(410,420)の重心位置(411,412)との間の距離を求める。なお、図4では、ベクトル空間が3次元であるように描いているが、実際にはより大きな次元(200次元以上)である。また、意図理解部31が理解する意図の数も2つではなく実際にはより多い。
ステップS206において、意図理解部31は、発話テキストとの距離が近い上記所定数個(N個)の位置を選択する。なお、この所定数Nは、対話システム1全体で共通の数とする。所定数Nは、事前に定められていてもよいし、対話サーバ20がチャットボット30にドメイン選択の要求を出すたびに当該要求において指定されてもよい。なお、この所定数Nは、複数のチャットボット30が対応する意図のうちの最小値とすることが好ましい。
ステップS208において、意図理解部31は、上位N個の意図について、ベクトル空間内の距離に基づいて、発言テキストが意図に合致する確からしさを表す確信度を算出する。図5に、1つのチャットボット30が算出する意図毎の確信度を模式的に示す。この際、全てのチャットボット30が同一の基準に従って確信度を算出する。具体的には、意図理解部31は、N個の確信度の総和が1となるように確信度を正規化して算出する。さらに、確信度の分布形状において、尖度(3次のモーメント)や歪度(4次のモーメント)が所定値となるように正規化することも好ましい。
ステップS210において、チャットボット30は、算出した確信度を対話サーバ20に送信する。この際、チャットボット30は、最も大きな確信度の値のみを送信してもよいし、N個全ての意図についての確信度の値を送信してもよい。
図3のフローチャートの説明に戻る。ステップS111において、各チャットボットから得られた確信度の最大値が所定の閾値以上であるか否かを判断する。確信度の最大値が閾値以上である場合(S111−YES)にはステップS112に遷移して、タスク指向
時ドメイン選択部23aは、各チャットボット30から得られた確信度に基づいて、ドメインを決定する。典型的には、ドメイン選択部23aは、最も大きな確信度を算出したチャットボット30に対応するドメインを、現在の対話におけるドメインであると決定する。一方、各チャットボット30から得られた確信度の最大値が所定の閾値未満である場合(S111−NO)には、ステップS114に遷移して非タスク指向時ドメイン選択部23bを用いてドメインを選択する。
ステップS114の処理は、対話モードが非タスク指向型の時、または、対話モードがタスク指向型であるがチャットボットから得られる確信度の最大値が閾値未満の時に実行される。ここでは、非タスク指向時ドメイン選択部23bが、ユーザの発話テキストに含まれる単語列からドメインを決定する。ドメイン選択部23bは、ドメイン毎に関連する単語を定義したドメイン辞書を有し、当該ドメイン辞書を参照して現在の対話のドメインを決定する。
ステップS116において、対話サーバ20は、ステップS112またはS114において決定されたドメインのチャットボット30に対して、発話テキストを送信する。なお、対話モードがタスク指向型か非タスク指向型かに応じて、発話テキストを送信するチャットボットを決定してもよい。チャットボット30の応答文生成部32は、取得した発話テキストに応答するための応答テキストを生成して、対話サーバ20へ送信する。なお、本実施形態において、応答テキストの決定方法は特に限定されず、既存の任意の手法によって応答テキストを生成すればよい。対話サーバ20は、応答テキストをチャットボット30から送信して、対話アプリ10に送信する。
ステップS118において、対話アプリの音声合成部12は音声合成処理により、応答テキストの音声データを生成し、ステップS120において音声出力部13から出力する。
<有利な効果>
本実施形態に係る対話システム1は、チャットボット30の追加により新規のドメインに対応可能であり、システムの拡張性が高い。また、チャットボット30が解釈可能な意図に合致するか否かに基づくドメイン判断は精度が高い。しかしながら、対話がタスク指向型の時には上述のように解釈可能な意図に合致することが多いが、対話が非タスク指向型の時には合致しないことが多い。したがって、非タスク指向型の時にも各チャットボットに発話テキストを送信して意図理解処理を実行させると、この処理が無駄になることが多い。そこで、本実施形態では、対話がタスク指向型のときのみチャットボットの意図理解処理を用いたドメイン選択を行い、対話が非タスク指向型のときには単語列にもとづいてドメイン選択を行うことで、ドメイン選択の正確性と処理の効率性を両立させている。
また、本実施形態では、複数のチャットボットが同一の基準に従って確信度を算出しているので、複数のチャットボットから得られる確信度を互いに比較可能である。たとえば、確信度の算出基準が統一されていない場合、2つの意図についてのベクトル空間内での距離の差が同じであっても、あるチャットボットは確信度に大きな差をつけて算出し、別のチャットボットは確信度の値を同じような値として算出するという事態が生じる。これは、異なるチャットボットが算出する確信度の比較を無意味にする。本実施形態のように確信度の算出基準を統一することで確信度の比較が適切に行え、したがってドメイン選択を精度良く行える。
<変形例>
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
上記の説明において、ドメイン決定処理は最新の発話テキストに基づいて行っているが、直近の所定個あるいは所定時間内の発話テキストに基づいてドメインを決定してもよい。
また、対話モードが、タスク指向型と非タスク指向型の間で切り替わるときに、切り替わる前のドメインを考慮してドメイン選択を行うことも好適である。たとえば、非タスク指向モードからタスク指向モードに切り替わったときには、ドメイン選択部23aは、切り替わり前のドメインに対応するチャットボット30から得られる確信度に対して所定の補正値を加えて、当該ドメインが選択されやすくするようにすることが考えられる。対話モードがタスク指向モードから非タスク指向に切り替わるときも同様である。このような対策が有効な理由は、対話モードが切り替わってもドメインは切り替わらないことが多いという事実に基づく。また、直前のドメインだけでなくさらに前のドメインを考慮して現在のドメインを決定することも有効であり、その場合には時間に応じた重みを付けて(時間が離れているほど重みを小さくする)現在のドメインを決定してもよい。
上記の実施形態の説明では、チャットボット30は、主にタスク指向時にユーザに対して応答を返すことを想定している。しかしながら、非タスク指向(雑談)モードの際にも、チャットボットからユーザに対して発話を行ってもよい。この場合、1つのチャットボットがタスク指向モードと非タスク指向モードの両方に対応してもよいし、タスク指向モード専用のチャットボットと非タスク指向モード専用のチャットボットを利用してもよい。
上記の実施形態では、ユーザとシステムの間の入出力は音声によって行っているが、入出力はテキストによって行ってもよいし、音声とテキストの両方に対応可能としてもよい。
また対話システムのシステム構成は、図1に示したものに限られず、システム全体として叙述した機能が提供できれば、各機能をどのように配置してもよい。たとえば、音声認識部や対話モード推定部をユーザ装置に設けてもよい。また、対話サーバや対話アプリを1つのコンピュータで実行する代わりに、複数のコンピュータが連携することでこれらの機能を提供してもよい。
1:対話システム
10:対話アプリ 11:音声入力部 12:音声合成部 13:音声出力部
20:対話サーバ 21:音声認識部 22:対話モード推定部
23:ドメイン選択部
30:チャットボット 31:意図理解部 32:応答文生成部

Claims (12)

  1. 対話におけるユーザの発言内容を取得する入力手段と、
    前記入力手段が取得した発言内容に基づいて、前記対話のモードがタスク指向型であるか非タスク指向型であるかを決定するモード決定手段と、
    それぞれが特定のドメインに対応する複数の意図理解手段と、
    前記対話のモードがタスク指向型である場合に、前記発言内容を前記複数の意図理解手段のそれぞれを用いて行った意図理解の結果に基づいて、前記対話のドメインを決定するドメイン決定手段と、
    を備える対話システム。
  2. 前記複数の意図理解手段のそれぞれは、前記発言内容が、予め定められた複数の意図のそれぞれに合致する確信度を出力する、
    請求項1に記載の対話システム。
  3. 前記複数の意図理解手段のそれぞれは、前記発言内容をベクトル化し、ベクトル空間内での当該発言内容の位置と予め定められた意図の重心位置との距離に基づいて、当該意図に該当する確信度を決定する、
    請求項2に記載の対話システム。
  4. 前記複数の意図理解手段のそれぞれは、確信度が高いものから所定数個の意図について確信度を出力し、
    前記所定数は、前記複数の意図理解手段において共通である、
    請求項2または3に記載の対話システム。
  5. 前記複数の意図理解手段のそれぞれは、同一の算出基準に基づいて前記確信度を算出する、
    請求項2から4のいずれか1項に記載の対話システム。
  6. 前記ドメイン決定手段は、最も高い確信度を出力した意図理解手段に対応するドメインを、前記対話のドメインとして決定する、
    請求項2から5のいずれか1項に記載の対話システム。
  7. 前記ドメイン決定手段は、前記対話のモードが非タスク指向型である場合に、前記発言内容に含まれる単語列からドメインを推定する、
    請求項1から6のいずれか1項に記載の対話システム。
  8. 前記ドメイン決定手段は、前記対話のモードがタスク指向型と非タスク指向型で切り替わった場合に、切り替わり前のドメインを考慮して、切り替わり後のドメインを決定する、
    請求項1から7のいずれか1項に記載の対話システム。
  9. 前記入力手段は、ユーザの発話音声を取得する音声入力手段と、前記発話音声を音声認識して前記発言内容を取得する音声認識手段と、を備える、
    請求項1から8のいずれか1項に記載の対話システム。
  10. 前記入力手段は、ユーザから発言内容のテキストを取得する、
    請求項1から8のいずれか1項に記載の対話システム。
  11. 対話システムが行うドメイン決定方法であって、
    対話におけるユーザの発言内容を取得する入力ステップと、
    前記入力ステップにおいて取得した発言内容に基づいて、前記対話のモードがタスク指向型であるか非タスク指向型であるかを決定するモード決定ステップと、
    それぞれが特定のドメインに対応する複数の意図理解ステップと、
    前記対話がタスク指向型である場合に、それぞれが特定のドメインに対応する意図理解手段を用いて行った意図理解の結果に基づいて、前記対話のドメインを決定するドメイン決定ステップと、
    を含むドメイン決定方法。
  12. 請求項11に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
JP2017196868A 2017-10-10 2017-10-10 対話システムおよびドメイン決定方法 Active JP7095254B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017196868A JP7095254B2 (ja) 2017-10-10 2017-10-10 対話システムおよびドメイン決定方法
US16/151,664 US10803867B2 (en) 2017-10-10 2018-10-04 Dialogue system and domain determination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017196868A JP7095254B2 (ja) 2017-10-10 2017-10-10 対話システムおよびドメイン決定方法

Publications (2)

Publication Number Publication Date
JP2019070957A true JP2019070957A (ja) 2019-05-09
JP7095254B2 JP7095254B2 (ja) 2022-07-05

Family

ID=65994027

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017196868A Active JP7095254B2 (ja) 2017-10-10 2017-10-10 対話システムおよびドメイン決定方法

Country Status (2)

Country Link
US (1) US10803867B2 (ja)
JP (1) JP7095254B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071883A (ja) * 2019-10-30 2021-05-06 株式会社感性リサーチ 情報処理システム、情報処理方法及びプログラム
JP2021082304A (ja) * 2020-05-20 2021-05-27 北京百度網訊科技有限公司 意図認識最適化処理方法、装置、機器および記憶媒体
WO2022270603A1 (en) * 2021-06-23 2022-12-29 Hishab Japan Company Limited A system and method for delivering domain or use-case switch suggestion for an ongoing conversation

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11288566B2 (en) * 2018-05-31 2022-03-29 International Business Machines Corporation Building a gossip group of domain-specific chatbots
US20220180871A1 (en) * 2019-03-20 2022-06-09 Sony Group Corporation Information processing device, information processing method, and program
US11163960B2 (en) * 2019-04-18 2021-11-02 International Business Machines Corporation Automatic semantic analysis and comparison of chatbot capabilities
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
CN110769312B (zh) * 2019-11-07 2022-06-10 腾讯科技(深圳)有限公司 一种直播应用中推荐信息的方法及装置
JP7434978B2 (ja) * 2020-02-10 2024-02-21 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び、プログラム
CN113076758B (zh) * 2021-03-19 2023-03-14 中山大学 一种面向任务型对话的多域请求式意图识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US20110153322A1 (en) * 2009-12-23 2011-06-23 Samsung Electronics Co., Ltd. Dialog management system and method for processing information-seeking dialogue
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
JP2015528956A (ja) * 2012-07-20 2015-10-01 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
US20160055240A1 (en) * 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
JP2016212541A (ja) * 2015-05-01 2016-12-15 株式会社ATR−Trek 対話装置、対話方法、及びそのコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999904A (en) * 1997-07-02 1999-12-07 Lucent Technologies Inc. Tracking initiative in collaborative dialogue interactions
US10181322B2 (en) * 2013-12-20 2019-01-15 Microsoft Technology Licensing, Llc Multi-user, multi-domain dialog system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
US20110153322A1 (en) * 2009-12-23 2011-06-23 Samsung Electronics Co., Ltd. Dialog management system and method for processing information-seeking dialogue
JP2015528956A (ja) * 2012-07-20 2015-10-01 ベベオ, インコーポレイテッド 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム
JP2015081971A (ja) * 2013-10-22 2015-04-27 株式会社Nttドコモ 機能実行指示システム及び機能実行指示方法
US20160055240A1 (en) * 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
JP2016212541A (ja) * 2015-05-01 2016-12-15 株式会社ATR−Trek 対話装置、対話方法、及びそのコンピュータプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赤崎 智 外1名: "知的対話アシスタントにおける雑談を目的としたユーザ発話の検出", 情報処理学会 研究報告 音声言語情報処理(SLP), vol. 2017-SLP-116, JPN6021043908, 8 May 2017 (2017-05-08), JP, pages 1 - 9, ISSN: 0004778283 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021071883A (ja) * 2019-10-30 2021-05-06 株式会社感性リサーチ 情報処理システム、情報処理方法及びプログラム
JP2021082304A (ja) * 2020-05-20 2021-05-27 北京百度網訊科技有限公司 意図認識最適化処理方法、装置、機器および記憶媒体
JP7198800B2 (ja) 2020-05-20 2023-01-04 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 意図認識最適化処理方法、装置、機器および記憶媒体
US11972219B2 (en) 2020-05-20 2024-04-30 Beijing Baidu Netcom Science Technology Co., Ltd. Intent recognition optimization processing method, apparatus, and storage medium
WO2022270603A1 (en) * 2021-06-23 2022-12-29 Hishab Japan Company Limited A system and method for delivering domain or use-case switch suggestion for an ongoing conversation

Also Published As

Publication number Publication date
US10803867B2 (en) 2020-10-13
JP7095254B2 (ja) 2022-07-05
US20190108836A1 (en) 2019-04-11

Similar Documents

Publication Publication Date Title
JP7095254B2 (ja) 対話システムおよびドメイン決定方法
CN114830228A (zh) 与设备关联的账户
JP6884947B2 (ja) 対話システム及びそのためのコンピュータプログラム
US11574637B1 (en) Spoken language understanding models
US11763819B1 (en) Audio encryption
KR102438671B1 (ko) 텍스트 독립 화자 인식
US20240203400A1 (en) Speaker awareness using speaker dependent speech model(s)
US11646035B1 (en) Dialog management system
US20240013784A1 (en) Speaker recognition adaptation
US11544504B1 (en) Dialog management system
US10991364B1 (en) Obtaining context data
US12020707B2 (en) Response orchestrator for natural language interface
US10923113B1 (en) Speechlet recommendation based on updating a confidence value
US20230419957A1 (en) User profile linking
US11102195B1 (en) Secure information exchange
US11335346B1 (en) Natural language understanding processing
US20240135932A1 (en) Contact list reconciliation and permissioning
US11211056B1 (en) Natural language understanding model generation
US12088543B2 (en) Voice user interface sharing of content
US11538480B1 (en) Integration of speech processing functionality with organization systems
US11907676B1 (en) Processing orchestration for systems including distributed components
US11176933B1 (en) Precomputed communication parameters
WO2020167385A1 (en) Wakeword detection using a secondary microphone
US20240221730A1 (en) Multi-device speech processing
US12046234B1 (en) Predicting on-device command execution

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20200916

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R151 Written notification of patent or utility model registration

Ref document number: 7095254

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151