JP7038210B2 - 対話セッション管理用のシステム及び方法 - Google Patents
対話セッション管理用のシステム及び方法 Download PDFInfo
- Publication number
- JP7038210B2 JP7038210B2 JP2020526946A JP2020526946A JP7038210B2 JP 7038210 B2 JP7038210 B2 JP 7038210B2 JP 2020526946 A JP2020526946 A JP 2020526946A JP 2020526946 A JP2020526946 A JP 2020526946A JP 7038210 B2 JP7038210 B2 JP 7038210B2
- Authority
- JP
- Japan
- Prior art keywords
- interlocutor
- human interlocutor
- human
- dialogue
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Description
Claims (8)
- 機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法であって、
前記機械インターフェイスが、前記人間対話者からの発声の間に前記人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャするステップと、
前記機械インターフェイスが、前記人間対話者からの前記発声の終了を検出するステップと、
前記人間対話者からの発声の前記終了が判定された際に、前記機械インターフェイスが、前記人間対話者の身体運動に基づいて第2意図インジケータをキャプチャするステップと、
前記第1意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、かつ、前記第2意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記機械インターフェイスが、一緒に取得された前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定するステップと、
一緒に取得された前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された際に、前記機械インターフェイスが前記人間対話者に応答するステップと、
を有する方法。 - 前記人間対話者からの発声の前記終了が判定された際に、前記人間対話者から何らかの発話が前記発声の末尾の後に検出されたかどうかを判定し、このような何らかのさらなる発話が検出された場合に、前記人間対話者からの前記発声の終了を検出する前記ステップに戻る、更なるステップを有する請求項1に記載の方法。
- 発声は、前記発声内の休止の持続時間が既定の閾値持続時間を超過していると検出されたケースにおいてのみ、終了していると判定される請求項1または2に記載の方法。
- 前記人間対話者の前記第2意図インジケータをキャプチャする前記ステップが既定の持続時間にわたって実行されている請求項1乃至3のいずれか1項に記載の方法。
- 前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有しているかどうかを判定する前記ステップにおいて、前記第1意図インジケータ及び前記第2意図インジケータが共に前記人間対話者による前記対話の制御の譲渡と一貫性を有してはいないと判定された際に、前記方法は、前記人間対話者からの発声の前記終了を検出する前記ステップに戻る請求項1乃至4のいずれか1項に記載の方法。
- 人間対話者との間の対話において人間対話者による発話ターンの譲渡を検出するシステムであって、
前記人間対話者からの発声を運ぶコミュニケーションチャネルの表現を受け取る入力と、
対話における注入用の資料を運ぶコミュニケーションチャネルの表現を伝達する出力と、
前記発声の終了を検出するべく前記表現を処理するように適合されたプロセッサと、
を有し、
前記プロセッサは、前記人間対話者からの発声の間に前記人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャし、前記人間対話者からの発声の前記終了が判定された場合に、前記対話者の身体運動に基づいて第2意図インジケータをキャプチャするように、且つ、前記第1意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、また、前記第2意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記1つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定するように、更に適合されており、且つ、
前記1つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された場合に、前記人間対話者に対する応答を開始する、システム。 - 前記システムは、目に見える焦点と、前記人間対話者の注視が前記対話の前記焦点に戻っていることを判定できる検出器と、を有する請求項6に記載のシステム。
- 請求項1乃至5のいずれか1項に記載の前記ステップを実装するように適合された命令を有するコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17306593.9A EP3486900A1 (en) | 2017-11-16 | 2017-11-16 | System and method for dialog session management |
EP17306593.9 | 2017-11-16 | ||
PCT/EP2018/081442 WO2019096935A1 (en) | 2017-11-16 | 2018-11-15 | System and method for dialog session management |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021503625A JP2021503625A (ja) | 2021-02-12 |
JP7038210B2 true JP7038210B2 (ja) | 2022-03-17 |
Family
ID=60473456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020526946A Active JP7038210B2 (ja) | 2017-11-16 | 2018-11-15 | 対話セッション管理用のシステム及び方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210056966A1 (ja) |
EP (1) | EP3486900A1 (ja) |
JP (1) | JP7038210B2 (ja) |
KR (1) | KR20200090772A (ja) |
CN (1) | CN111512362A (ja) |
AU (1) | AU2018367187A1 (ja) |
CA (1) | CA3082597A1 (ja) |
WO (1) | WO2019096935A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019246562A1 (en) | 2018-06-21 | 2019-12-26 | Magic Leap, Inc. | Wearable system speech processing |
EP3931827A4 (en) | 2019-03-01 | 2022-11-02 | Magic Leap, Inc. | INPUT DETERMINATION FOR A VOICE PROCESSING ENGINE |
US20220180871A1 (en) * | 2019-03-20 | 2022-06-09 | Sony Group Corporation | Information processing device, information processing method, and program |
JP2022529783A (ja) * | 2019-04-19 | 2022-06-24 | マジック リープ, インコーポレイテッド | 発話認識エンジンのための入力の識別 |
US11328740B2 (en) | 2019-08-07 | 2022-05-10 | Magic Leap, Inc. | Voice onset detection |
US11917384B2 (en) | 2020-03-27 | 2024-02-27 | Magic Leap, Inc. | Method of waking a device using spoken voice commands |
KR20210148580A (ko) | 2020-06-01 | 2021-12-08 | 엘지전자 주식회사 | 서버 및 이를 포함하는 시스템 |
KR20220021221A (ko) * | 2020-08-13 | 2022-02-22 | (주)인포마크 | Ai 음성 인식 학습기를 이용한 외국어 학습 시스템 및 방법 |
US11049497B1 (en) * | 2020-10-26 | 2021-06-29 | Cresta Intelligence Inc. | Contemporaneous machine-learning analysis of audio streams |
CN116508016A (zh) | 2021-01-29 | 2023-07-28 | 三星电子株式会社 | 确定聊天机器人保持会话的时间的电子设备及其操作方法 |
US11115353B1 (en) | 2021-03-09 | 2021-09-07 | Drift.com, Inc. | Conversational bot interaction with utterance ranking |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2004206704A (ja) | 2002-12-11 | 2004-07-22 | Samsung Sdi Co Ltd | ユーザとエージェント間の対話管理方法及び装置 |
JP2005196134A (ja) | 2003-12-12 | 2005-07-21 | Toyota Central Res & Dev Lab Inc | 音声対話システム及び方法並びに音声対話プログラム |
JP2015004928A (ja) | 2013-06-24 | 2015-01-08 | 日本電気株式会社 | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム |
JP2015152868A (ja) | 2014-02-18 | 2015-08-24 | シャープ株式会社 | 情報処理装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199043B1 (en) * | 1997-06-24 | 2001-03-06 | International Business Machines Corporation | Conversation management in speech recognition interfaces |
US6721706B1 (en) * | 2000-10-30 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Environment-responsive user interface/entertainment device that simulates personal interaction |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
US9374448B2 (en) * | 2012-05-27 | 2016-06-21 | Qualcomm Incorporated | Systems and methods for managing concurrent audio messages |
US8843369B1 (en) * | 2013-12-27 | 2014-09-23 | Google Inc. | Speech endpointing based on voice profile |
US10394330B2 (en) * | 2014-03-10 | 2019-08-27 | Qualcomm Incorporated | Devices and methods for facilitating wireless communications based on implicit user cues |
EP2933067B1 (en) * | 2014-04-17 | 2019-09-18 | Softbank Robotics Europe | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method |
-
2017
- 2017-11-16 EP EP17306593.9A patent/EP3486900A1/en not_active Withdrawn
-
2018
- 2018-11-15 KR KR1020207014039A patent/KR20200090772A/ko not_active Application Discontinuation
- 2018-11-15 WO PCT/EP2018/081442 patent/WO2019096935A1/en active Application Filing
- 2018-11-15 AU AU2018367187A patent/AU2018367187A1/en not_active Abandoned
- 2018-11-15 CN CN201880074061.9A patent/CN111512362A/zh active Pending
- 2018-11-15 CA CA3082597A patent/CA3082597A1/en not_active Abandoned
- 2018-11-15 JP JP2020526946A patent/JP7038210B2/ja active Active
- 2018-11-15 US US16/758,397 patent/US20210056966A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2004206704A (ja) | 2002-12-11 | 2004-07-22 | Samsung Sdi Co Ltd | ユーザとエージェント間の対話管理方法及び装置 |
JP2005196134A (ja) | 2003-12-12 | 2005-07-21 | Toyota Central Res & Dev Lab Inc | 音声対話システム及び方法並びに音声対話プログラム |
JP2015004928A (ja) | 2013-06-24 | 2015-01-08 | 日本電気株式会社 | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム |
JP2015152868A (ja) | 2014-02-18 | 2015-08-24 | シャープ株式会社 | 情報処理装置 |
Non-Patent Citations (4)
Title |
---|
BILAC, Miriam et al.,"Gaze and Filled Pause Detection for Smooth Human-Robot Conversations",Proc. of the 2017 IEEE-RAS 17th International Conference on Humanoid Robotics,2017年11月,pp.297-304 |
Iwan de Kok, et al.,"Multimodal End-of-Turn Prediction in Multi-Party Meetings",Proc. of the 2009 International Conference on Multimodal Interfaces,2009年11月02日,pp.91-98 |
SUGIYAMA, Takaaki et al.,"Estimating Response Obligation in Multi-Party Human-Robot Dialogues",Proc. of the 2015 IEEE-RAS 15th International Conference on Humanoid Robots,2015年11月,pp.166-172 |
杉山貴昭 他,"多人数対話におけるロボットの応答義務の推定",人工知能学会全国大会(第29回)論文集,2015年05月29日,pp.1-4 |
Also Published As
Publication number | Publication date |
---|---|
EP3486900A1 (en) | 2019-05-22 |
CN111512362A (zh) | 2020-08-07 |
KR20200090772A (ko) | 2020-07-29 |
WO2019096935A1 (en) | 2019-05-23 |
AU2018367187A1 (en) | 2020-07-02 |
JP2021503625A (ja) | 2021-02-12 |
CA3082597A1 (en) | 2019-05-23 |
US20210056966A1 (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7038210B2 (ja) | 対話セッション管理用のシステム及び方法 | |
KR102541718B1 (ko) | 키 문구 사용자 인식의 증강 | |
US10891952B2 (en) | Speech recognition | |
CN102903362B (zh) | 集成的本地和基于云的语音识别 | |
US10192550B2 (en) | Conversational software agent | |
US20170256261A1 (en) | Speech Recognition | |
WO2017151415A1 (en) | Speech recognition | |
TWI777229B (zh) | 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質 | |
JP6891601B2 (ja) | ロボットの制御プログラム、ロボット装置、及びロボットの制御方法 | |
JP2004234631A (ja) | ユーザと対話型実体エージェントとの間の対話を管理するシステムおよび対話型実体エージェントによるユーザとの対話を管理する方法 | |
CN112711331A (zh) | 机器人交互方法、装置、存储设备和电子设备 | |
JP2023120130A (ja) | 抽出質問応答を利用する会話型aiプラットフォーム | |
KR102134860B1 (ko) | 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법 | |
JP2022054447A (ja) | ウェアラブルコンピューティングデバイスの音声インターフェースのための方法、システムおよびコンピュータプログラム製品(ウェアラブルコンピューティングデバイス音声インターフェース) | |
JP7286303B2 (ja) | 会議支援システム及び会議用ロボット | |
CN117765952A (zh) | 人机交互的方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211005 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7038210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |