JP2019070957A - 対話システムおよびドメイン決定方法 - Google Patents
対話システムおよびドメイン決定方法 Download PDFInfo
- Publication number
- JP2019070957A JP2019070957A JP2017196868A JP2017196868A JP2019070957A JP 2019070957 A JP2019070957 A JP 2019070957A JP 2017196868 A JP2017196868 A JP 2017196868A JP 2017196868 A JP2017196868 A JP 2017196868A JP 2019070957 A JP2019070957 A JP 2019070957A
- Authority
- JP
- Japan
- Prior art keywords
- dialogue
- domain
- task
- oriented
- intention understanding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 25
- 238000012545 processing Methods 0.000 description 20
- 230000004044 response Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
U1:今日の夜暇?
U2:暇だよ
U3:僕も暇だよ。
U4:食事でも行かない?
U5:いいね
U6:何がいい?
U7:フレンチとかどう?
U8:いいね。じゃあ空き状況確認するね?
U9:今晩、空いているお勧めのフレンチは?
S1:XXXなど如何でしょうか?AAAが美味しいです。
U10:他には?
S2:YYYは如何でしょうか?BBBが美味しいです。
U11:じゃあ、そこを予約して。
る手法によってドメインを決定する。たとえば、対話モードが非タスク指向型である時には、ドメイン決定手段は、ユーザの発言内容に含まれる単語列からドメインを決定するように構成してもよい。
図1は、本実施形態に係る対話システム1の構成を示す図である。図示するように、対話システム1は、対話アプリ10、対話サーバ20、複数のチャットボット30を含んで構成される。対話アプリ10はユーザが所持するスマートフォンやPC(Personal Computer)などにより実現される。対話サーバ20は、対話アプリ10と通信可能に構成され
たコンピュータにより実現される。チャットボット30は、対話サーバ20の管理事業者とは異なる事業者(サードパーティ)が管理するコンピュータにより実現される。
遷移を行いながらユーザとの会話を行い、会話において得られる報酬が最大化されるように、識別器における状態遷移の基準(状態遷移に伴う期待報酬)を更新する。このような学習を繰り返し行うことで、対話モードを適切に推定可能な識別器が得られる。
図2および図3は、本実施形態に係る対話システム1での処理の流れを示すフローチャートである。以下、これらのフローチャートにしたがって、本実施形態での処理を説明する。
のドメインを決定する。現在の対話モードがタスク指向型であればステップS110に進み、非タスク指向型であればステップS114に進む。
時ドメイン選択部23aは、各チャットボット30から得られた確信度に基づいて、ドメインを決定する。典型的には、ドメイン選択部23aは、最も大きな確信度を算出したチャットボット30に対応するドメインを、現在の対話におけるドメインであると決定する。一方、各チャットボット30から得られた確信度の最大値が所定の閾値未満である場合(S111−NO)には、ステップS114に遷移して非タスク指向時ドメイン選択部23bを用いてドメインを選択する。
本実施形態に係る対話システム1は、チャットボット30の追加により新規のドメインに対応可能であり、システムの拡張性が高い。また、チャットボット30が解釈可能な意図に合致するか否かに基づくドメイン判断は精度が高い。しかしながら、対話がタスク指向型の時には上述のように解釈可能な意図に合致することが多いが、対話が非タスク指向型の時には合致しないことが多い。したがって、非タスク指向型の時にも各チャットボットに発話テキストを送信して意図理解処理を実行させると、この処理が無駄になることが多い。そこで、本実施形態では、対話がタスク指向型のときのみチャットボットの意図理解処理を用いたドメイン選択を行い、対話が非タスク指向型のときには単語列にもとづいてドメイン選択を行うことで、ドメイン選択の正確性と処理の効率性を両立させている。
上記の実施形態はあくまでも一例であって、本発明はその要旨を逸脱しない範囲内で適宜変更して実施しうる。
10:対話アプリ 11:音声入力部 12:音声合成部 13:音声出力部
20:対話サーバ 21:音声認識部 22:対話モード推定部
23:ドメイン選択部
30:チャットボット 31:意図理解部 32:応答文生成部
Claims (12)
- 対話におけるユーザの発言内容を取得する入力手段と、
前記入力手段が取得した発言内容に基づいて、前記対話のモードがタスク指向型であるか非タスク指向型であるかを決定するモード決定手段と、
それぞれが特定のドメインに対応する複数の意図理解手段と、
前記対話のモードがタスク指向型である場合に、前記発言内容を前記複数の意図理解手段のそれぞれを用いて行った意図理解の結果に基づいて、前記対話のドメインを決定するドメイン決定手段と、
を備える対話システム。 - 前記複数の意図理解手段のそれぞれは、前記発言内容が、予め定められた複数の意図のそれぞれに合致する確信度を出力する、
請求項1に記載の対話システム。 - 前記複数の意図理解手段のそれぞれは、前記発言内容をベクトル化し、ベクトル空間内での当該発言内容の位置と予め定められた意図の重心位置との距離に基づいて、当該意図に該当する確信度を決定する、
請求項2に記載の対話システム。 - 前記複数の意図理解手段のそれぞれは、確信度が高いものから所定数個の意図について確信度を出力し、
前記所定数は、前記複数の意図理解手段において共通である、
請求項2または3に記載の対話システム。 - 前記複数の意図理解手段のそれぞれは、同一の算出基準に基づいて前記確信度を算出する、
請求項2から4のいずれか1項に記載の対話システム。 - 前記ドメイン決定手段は、最も高い確信度を出力した意図理解手段に対応するドメインを、前記対話のドメインとして決定する、
請求項2から5のいずれか1項に記載の対話システム。 - 前記ドメイン決定手段は、前記対話のモードが非タスク指向型である場合に、前記発言内容に含まれる単語列からドメインを推定する、
請求項1から6のいずれか1項に記載の対話システム。 - 前記ドメイン決定手段は、前記対話のモードがタスク指向型と非タスク指向型で切り替わった場合に、切り替わり前のドメインを考慮して、切り替わり後のドメインを決定する、
請求項1から7のいずれか1項に記載の対話システム。 - 前記入力手段は、ユーザの発話音声を取得する音声入力手段と、前記発話音声を音声認識して前記発言内容を取得する音声認識手段と、を備える、
請求項1から8のいずれか1項に記載の対話システム。 - 前記入力手段は、ユーザから発言内容のテキストを取得する、
請求項1から8のいずれか1項に記載の対話システム。 - 対話システムが行うドメイン決定方法であって、
対話におけるユーザの発言内容を取得する入力ステップと、
前記入力ステップにおいて取得した発言内容に基づいて、前記対話のモードがタスク指向型であるか非タスク指向型であるかを決定するモード決定ステップと、
それぞれが特定のドメインに対応する複数の意図理解ステップと、
前記対話がタスク指向型である場合に、それぞれが特定のドメインに対応する意図理解手段を用いて行った意図理解の結果に基づいて、前記対話のドメインを決定するドメイン決定ステップと、
を含むドメイン決定方法。 - 請求項11に記載の方法の各ステップをコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017196868A JP7095254B2 (ja) | 2017-10-10 | 2017-10-10 | 対話システムおよびドメイン決定方法 |
US16/151,664 US10803867B2 (en) | 2017-10-10 | 2018-10-04 | Dialogue system and domain determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017196868A JP7095254B2 (ja) | 2017-10-10 | 2017-10-10 | 対話システムおよびドメイン決定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019070957A true JP2019070957A (ja) | 2019-05-09 |
JP7095254B2 JP7095254B2 (ja) | 2022-07-05 |
Family
ID=65994027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017196868A Active JP7095254B2 (ja) | 2017-10-10 | 2017-10-10 | 対話システムおよびドメイン決定方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10803867B2 (ja) |
JP (1) | JP7095254B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021071883A (ja) * | 2019-10-30 | 2021-05-06 | 株式会社感性リサーチ | 情報処理システム、情報処理方法及びプログラム |
JP2021082304A (ja) * | 2020-05-20 | 2021-05-27 | 北京百度網訊科技有限公司 | 意図認識最適化処理方法、装置、機器および記憶媒体 |
WO2022270603A1 (en) * | 2021-06-23 | 2022-12-29 | Hishab Japan Company Limited | A system and method for delivering domain or use-case switch suggestion for an ongoing conversation |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11288566B2 (en) * | 2018-05-31 | 2022-03-29 | International Business Machines Corporation | Building a gossip group of domain-specific chatbots |
US20220180871A1 (en) * | 2019-03-20 | 2022-06-09 | Sony Group Corporation | Information processing device, information processing method, and program |
US11163960B2 (en) * | 2019-04-18 | 2021-11-02 | International Business Machines Corporation | Automatic semantic analysis and comparison of chatbot capabilities |
US11928430B2 (en) * | 2019-09-12 | 2024-03-12 | Oracle International Corporation | Detecting unrelated utterances in a chatbot system |
CN110769312B (zh) * | 2019-11-07 | 2022-06-10 | 腾讯科技(深圳)有限公司 | 一种直播应用中推荐信息的方法及装置 |
JP7434978B2 (ja) * | 2020-02-10 | 2024-02-21 | トヨタ自動車株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
CN113076758B (zh) * | 2021-03-19 | 2023-03-14 | 中山大学 | 一种面向任务型对话的多域请求式意图识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20110153322A1 (en) * | 2009-12-23 | 2011-06-23 | Samsung Electronics Co., Ltd. | Dialog management system and method for processing information-seeking dialogue |
JP2015081971A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
JP2015528956A (ja) * | 2012-07-20 | 2015-10-01 | ベベオ, インコーポレイテッド | 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム |
US20160055240A1 (en) * | 2014-08-22 | 2016-02-25 | Microsoft Corporation | Orphaned utterance detection system and method |
JP2016212541A (ja) * | 2015-05-01 | 2016-12-15 | 株式会社ATR−Trek | 対話装置、対話方法、及びそのコンピュータプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5999904A (en) * | 1997-07-02 | 1999-12-07 | Lucent Technologies Inc. | Tracking initiative in collaborative dialogue interactions |
US10181322B2 (en) * | 2013-12-20 | 2019-01-15 | Microsoft Technology Licensing, Llc | Multi-user, multi-domain dialog system |
-
2017
- 2017-10-10 JP JP2017196868A patent/JP7095254B2/ja active Active
-
2018
- 2018-10-04 US US16/151,664 patent/US10803867B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008064885A (ja) * | 2006-09-05 | 2008-03-21 | Honda Motor Co Ltd | 音声認識装置、音声認識方法、及び音声認識プログラム |
US20110153322A1 (en) * | 2009-12-23 | 2011-06-23 | Samsung Electronics Co., Ltd. | Dialog management system and method for processing information-seeking dialogue |
JP2015528956A (ja) * | 2012-07-20 | 2015-10-01 | ベベオ, インコーポレイテッド | 会話型相互作用システムの検索入力におけるユーザ意図を推定する方法およびそのためのシステム |
JP2015081971A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
US20160055240A1 (en) * | 2014-08-22 | 2016-02-25 | Microsoft Corporation | Orphaned utterance detection system and method |
JP2016212541A (ja) * | 2015-05-01 | 2016-12-15 | 株式会社ATR−Trek | 対話装置、対話方法、及びそのコンピュータプログラム |
Non-Patent Citations (1)
Title |
---|
赤崎 智 外1名: "知的対話アシスタントにおける雑談を目的としたユーザ発話の検出", 情報処理学会 研究報告 音声言語情報処理(SLP), vol. 2017-SLP-116, JPN6021043908, 8 May 2017 (2017-05-08), JP, pages 1 - 9, ISSN: 0004778283 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021071883A (ja) * | 2019-10-30 | 2021-05-06 | 株式会社感性リサーチ | 情報処理システム、情報処理方法及びプログラム |
JP2021082304A (ja) * | 2020-05-20 | 2021-05-27 | 北京百度網訊科技有限公司 | 意図認識最適化処理方法、装置、機器および記憶媒体 |
JP7198800B2 (ja) | 2020-05-20 | 2023-01-04 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 意図認識最適化処理方法、装置、機器および記憶媒体 |
US11972219B2 (en) | 2020-05-20 | 2024-04-30 | Beijing Baidu Netcom Science Technology Co., Ltd. | Intent recognition optimization processing method, apparatus, and storage medium |
WO2022270603A1 (en) * | 2021-06-23 | 2022-12-29 | Hishab Japan Company Limited | A system and method for delivering domain or use-case switch suggestion for an ongoing conversation |
Also Published As
Publication number | Publication date |
---|---|
US10803867B2 (en) | 2020-10-13 |
JP7095254B2 (ja) | 2022-07-05 |
US20190108836A1 (en) | 2019-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7095254B2 (ja) | 対話システムおよびドメイン決定方法 | |
CN114830228A (zh) | 与设备关联的账户 | |
JP6884947B2 (ja) | 対話システム及びそのためのコンピュータプログラム | |
US11574637B1 (en) | Spoken language understanding models | |
US11763819B1 (en) | Audio encryption | |
KR102438671B1 (ko) | 텍스트 독립 화자 인식 | |
US20240203400A1 (en) | Speaker awareness using speaker dependent speech model(s) | |
US11646035B1 (en) | Dialog management system | |
US20240013784A1 (en) | Speaker recognition adaptation | |
US11544504B1 (en) | Dialog management system | |
US10991364B1 (en) | Obtaining context data | |
US12020707B2 (en) | Response orchestrator for natural language interface | |
US10923113B1 (en) | Speechlet recommendation based on updating a confidence value | |
US20230419957A1 (en) | User profile linking | |
US11102195B1 (en) | Secure information exchange | |
US11335346B1 (en) | Natural language understanding processing | |
US20240135932A1 (en) | Contact list reconciliation and permissioning | |
US11211056B1 (en) | Natural language understanding model generation | |
US12088543B2 (en) | Voice user interface sharing of content | |
US11538480B1 (en) | Integration of speech processing functionality with organization systems | |
US11907676B1 (en) | Processing orchestration for systems including distributed components | |
US11176933B1 (en) | Precomputed communication parameters | |
WO2020167385A1 (en) | Wakeword detection using a secondary microphone | |
US20240221730A1 (en) | Multi-device speech processing | |
US12046234B1 (en) | Predicting on-device command execution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20200916 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7095254 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |