JP6461058B2 - 音声対話装置および音声対話装置を用いた自動対話方法 - Google Patents
音声対話装置および音声対話装置を用いた自動対話方法 Download PDFInfo
- Publication number
- JP6461058B2 JP6461058B2 JP2016173862A JP2016173862A JP6461058B2 JP 6461058 B2 JP6461058 B2 JP 6461058B2 JP 2016173862 A JP2016173862 A JP 2016173862A JP 2016173862 A JP2016173862 A JP 2016173862A JP 6461058 B2 JP6461058 B2 JP 6461058B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- output
- input
- unit
- filler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 58
- 230000004044 response Effects 0.000 claims description 140
- 239000000945 filler Substances 0.000 claims description 79
- 230000002452 interceptive effect Effects 0.000 claims description 27
- 230000003993 interaction Effects 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 description 76
- 230000008569 process Effects 0.000 description 42
- 238000012545 processing Methods 0.000 description 34
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004071 soot Substances 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Robotics (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Toys (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (7)
- ユーザの発話である入力発話を入力する入力部と、前記ユーザへの発話である出力発話を出力する出力部とを有する音声対話装置であって、
前記入力部が入力した前記入力発話に基づいて、前記入力部による前記入力発話の入力を待つべきか、前記出力部による前記出力発話の出力を実行すべきかを推定する推定部と、
前記推定部が、前記入力部による前記入力発話の入力を待つべきとも、前記出力部による前記出力発話の出力を実行すべきとも推定できなかった場合に、対話内容とは関係の無い繋ぎ発声であるフィラーを前記出力部に出力させるフィラー出力、および疑似頭部を前後させる頷き動作の少なくともいずれかを実行して応答する応答制御部と
を備える音声対話装置。 - 前記入力部が入力した前記入力発話の韻律を解析する解析部を備え、
前記推定部は、前記解析部が解析した前記韻律に基づいて、前記入力部による前記入力発話の入力を待つべきか、前記出力部による前記出力発話の出力を実行すべきかを推定する請求項1に記載の音声対話装置。 - 前記推定部は、前記解析部が解析した前記韻律に基づいて、前記入力部による前記入力発話の入力を待つべきか、前記出力部による前記出力発話の出力を実行すべきかを推定する推定値を演算し、
前記応答制御部は、前記推定部が演算した前記推定値が、前記入力部による前記入力発話の入力を待つべきとも、前記出力部による前記出力発話の出力を実行すべきとも推定されない所定範囲に含まれる場合に、前記フィラー出力および前記頷き動作の少なくともいずれかを実行して応答する請求項2に記載の音声対話装置。 - 前記応答制御部は、推定値が、前記推定値を前記出力発話の出力を実行すべき確率として表した場合の前記所定範囲に前記含まれる場合であって、前記所定範囲に設定される第1閾値よりも小さい場合には前記頷き動作を実行して応答し、前記所定範囲に設定され、前記第1閾値以上の値に設定される第2閾値よりも大きい場合には前記フィラー出力を実行して応答する請求項3に記載の音声対話装置。
- 前記推定部は、前記出力部による前記出力発話の出力を実行することなく前記応答制御部が前記フィラー出力を続けて実行した場合は、前記出力発話の出力を実行すべきと推定する度合いを高くする請求項1から4のいずれか1項に記載の音声対話装置。
- 前記推定部は、前記フィラー出力の実行中に前記入力部が前記入力発話を入力したことを検知した場合は、前記入力発話の入力を待つべきと推定する度合いを高くする請求項1から5のいずれか1項に記載の音声対話装置。
- ユーザの発話である入力発話を入力する入力部と、前記ユーザへの発話である出力発話を出力する出力部とを有する音声対話装置を用いた自動対話方法であって、
前記入力部が入力した前記入力発話に基づいて、前記入力部による前記入力発話の入力を待つべきか、前記出力部による前記出力発話の出力を実行すべきかを推定する推定ステップと、
前記推定ステップで、前記入力部による前記入力発話の入力を待つべきとも、前記出力部による前記出力発話の出力を実行すべきとも推定できなかった場合に、対話内容とは関係の無い繋ぎ発声であるフィラーを前記出力部に出力させるフィラー出力、および疑似頭部を前後させる頷き動作の少なくともいずれかを実行して応答する応答ステップと
を含む自動対話方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173862A JP6461058B2 (ja) | 2016-09-06 | 2016-09-06 | 音声対話装置および音声対話装置を用いた自動対話方法 |
CN201710785845.XA CN107798055B (zh) | 2016-09-06 | 2017-09-04 | 语音交互设备和使用语音交互设备的自动交互方法 |
US15/695,090 US10339930B2 (en) | 2016-09-06 | 2017-09-05 | Voice interaction apparatus and automatic interaction method using voice interaction apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016173862A JP6461058B2 (ja) | 2016-09-06 | 2016-09-06 | 音声対話装置および音声対話装置を用いた自動対話方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018040897A JP2018040897A (ja) | 2018-03-15 |
JP6461058B2 true JP6461058B2 (ja) | 2019-01-30 |
Family
ID=61282134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016173862A Active JP6461058B2 (ja) | 2016-09-06 | 2016-09-06 | 音声対話装置および音声対話装置を用いた自動対話方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10339930B2 (ja) |
JP (1) | JP6461058B2 (ja) |
CN (1) | CN107798055B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6633008B2 (ja) * | 2017-02-01 | 2020-01-22 | ファーハット ロボティクス エービー | 音声対話装置及び音声対話方法 |
JP6696923B2 (ja) * | 2017-03-03 | 2020-05-20 | 国立大学法人京都大学 | 音声対話装置、その処理方法及びプログラム |
US11157488B2 (en) * | 2017-12-13 | 2021-10-26 | Google Llc | Reinforcement learning techniques to improve searching and/or to conserve computational and network resources |
JP6420514B1 (ja) * | 2018-04-04 | 2018-11-07 | 一般社団法人It&診断支援センター・北九州 | 会話ロボット |
JP6969491B2 (ja) * | 2018-05-11 | 2021-11-24 | トヨタ自動車株式会社 | 音声対話システム、音声対話方法及びプログラム |
CN110653815B (zh) * | 2018-06-29 | 2021-12-07 | 深圳市优必选科技有限公司 | 一种机器人控制方法、机器人及计算机存储介质 |
JP7063779B2 (ja) * | 2018-08-31 | 2022-05-09 | 国立大学法人京都大学 | 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法 |
CN109514573A (zh) * | 2018-12-15 | 2019-03-26 | 东莞理工学院 | 一种可对儿童进行诱导说话的机器人 |
CN109378001A (zh) * | 2018-12-27 | 2019-02-22 | 北京猎户星空科技有限公司 | 一种语音交互方法、装置、电子设备及可读存储介质 |
JP7085500B2 (ja) * | 2019-02-13 | 2022-06-16 | ヤフー株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
JP7274210B2 (ja) * | 2019-09-24 | 2023-05-16 | 学校法人早稲田大学 | 対話システムおよびプログラム |
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
KR20210050901A (ko) * | 2019-10-29 | 2021-05-10 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
US20220366905A1 (en) | 2021-05-17 | 2022-11-17 | Google Llc | Enabling natural conversations for an automated assistant |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020077826A1 (en) * | 2000-11-25 | 2002-06-20 | Hinde Stephen John | Voice communication concerning a local entity |
US20030061029A1 (en) * | 2001-08-29 | 2003-03-27 | Efraim Shaket | Device for conducting expectation based mixed initiative natural language dialogs |
KR100580619B1 (ko) * | 2002-12-11 | 2006-05-16 | 삼성전자주식회사 | 사용자와 에이전트 간의 대화 관리방법 및 장치 |
US8645122B1 (en) * | 2002-12-19 | 2014-02-04 | At&T Intellectual Property Ii, L.P. | Method of handling frequently asked questions in a natural language dialog service |
JP4729902B2 (ja) * | 2003-12-12 | 2011-07-20 | 株式会社豊田中央研究所 | 音声対話システム |
US7542903B2 (en) * | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US20060122840A1 (en) * | 2004-12-07 | 2006-06-08 | David Anderson | Tailoring communication from interactive speech enabled and multimodal services |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US8340971B1 (en) * | 2005-01-05 | 2012-12-25 | At&T Intellectual Property Ii, L.P. | System and method of dialog trajectory analysis |
US8085927B2 (en) * | 2005-04-15 | 2011-12-27 | Avaya Inc. | Interactive voice response system with prioritized call monitoring |
US20070015121A1 (en) * | 2005-06-02 | 2007-01-18 | University Of Southern California | Interactive Foreign Language Teaching |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
JP5051882B2 (ja) | 2007-06-20 | 2012-10-17 | 学校法人早稲田大学 | 音声対話装置、音声対話方法及びロボット装置 |
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
US8275803B2 (en) * | 2008-05-14 | 2012-09-25 | International Business Machines Corporation | System and method for providing answers to questions |
WO2010008722A1 (en) * | 2008-06-23 | 2010-01-21 | John Nicholas Gross | Captcha system optimized for distinguishing between humans and machines |
US8843372B1 (en) * | 2010-03-19 | 2014-09-23 | Herbert M. Isenberg | Natural conversational technology system and method |
US20120130717A1 (en) * | 2010-11-19 | 2012-05-24 | Microsoft Corporation | Real-time Animation for an Expressive Avatar |
KR20120054845A (ko) * | 2010-11-22 | 2012-05-31 | 삼성전자주식회사 | 로봇의 음성인식방법 |
US9245525B2 (en) * | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
WO2013155619A1 (en) * | 2012-04-20 | 2013-10-24 | Sam Pasupalak | Conversational agent |
US20140036023A1 (en) * | 2012-05-31 | 2014-02-06 | Volio, Inc. | Conversational video experience |
US9576574B2 (en) * | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9443521B1 (en) * | 2013-02-14 | 2016-09-13 | Sociometric Solutions, Inc. | Methods for automatically analyzing conversational turn-taking patterns |
JP2014191029A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | 音声認識システムおよび音声認識システムの制御方法 |
DK2994908T3 (da) * | 2013-05-07 | 2019-09-23 | Veveo Inc | Grænseflade til inkrementel taleinput med realtidsfeedback |
US9318113B2 (en) * | 2013-07-01 | 2016-04-19 | Timestream Llc | Method and apparatus for conducting synthesized, semi-scripted, improvisational conversations |
JP6270661B2 (ja) | 2014-08-08 | 2018-01-31 | 国立大学法人京都大学 | 音声対話方法、及び音声対話システム |
JPWO2016068262A1 (ja) * | 2014-10-29 | 2017-08-10 | 京セラ株式会社 | コミュニケーションロボット |
CN105070290A (zh) * | 2015-07-08 | 2015-11-18 | 苏州思必驰信息科技有限公司 | 人机语音交互方法及系统 |
US9728191B2 (en) * | 2015-08-27 | 2017-08-08 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
JP6657888B2 (ja) * | 2015-12-07 | 2020-03-04 | ヤマハ株式会社 | 音声対話方法、音声対話装置およびプログラム |
US10949748B2 (en) * | 2016-05-13 | 2021-03-16 | Microsoft Technology Licensing, Llc | Deep learning of bots through examples and experience |
US10713317B2 (en) * | 2017-01-30 | 2020-07-14 | Adobe Inc. | Conversational agent for search |
-
2016
- 2016-09-06 JP JP2016173862A patent/JP6461058B2/ja active Active
-
2017
- 2017-09-04 CN CN201710785845.XA patent/CN107798055B/zh active Active
- 2017-09-05 US US15/695,090 patent/US10339930B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN107798055B (zh) | 2021-07-20 |
JP2018040897A (ja) | 2018-03-15 |
US10339930B2 (en) | 2019-07-02 |
CN107798055A (zh) | 2018-03-13 |
US20180068660A1 (en) | 2018-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6461058B2 (ja) | 音声対話装置および音声対話装置を用いた自動対話方法 | |
JP6510484B2 (ja) | 音声/テキスト変換の触覚による拡張を目的とするシステムと方法 | |
US9653097B2 (en) | Sound output device, network system, and sound output method | |
JP6819672B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
JP6585733B2 (ja) | 情報処理装置 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
JP5431282B2 (ja) | 音声対話装置、方法、プログラム | |
JP2002169590A (ja) | 模擬会話システム、模擬会話方法、および情報記憶媒体 | |
US20240221718A1 (en) | Systems and methods for providing low latency user feedback associated with a user speaking silently | |
JP2013186228A (ja) | 音声認識処理装置及び音声認識処理方法 | |
EP4207805A1 (en) | Electronic device and control method thereof | |
JPH09269889A (ja) | 対話装置 | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JP6728660B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP2017106989A (ja) | 音声対話装置およびプログラム | |
JP7143579B2 (ja) | 音声入力装置 | |
JP2017106988A (ja) | 音声対話装置およびプログラム | |
JP6755509B2 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
JP2021022883A (ja) | 音声増幅装置及びプログラム | |
KR102562180B1 (ko) | 웨어러블 음향 변환 장치 | |
JP7107248B2 (ja) | 対話システム、対話方法及びプログラム | |
WO2021064948A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP4437224B2 (ja) | 同調度検出装置および同調度検出プログラム | |
KR20220120197A (ko) | 전자 장치 및 그의 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6461058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |