JP2022531645A - 人間会話キューを理解および生成する方法、システム、および装置 - Google Patents
人間会話キューを理解および生成する方法、システム、および装置 Download PDFInfo
- Publication number
- JP2022531645A JP2022531645A JP2021556316A JP2021556316A JP2022531645A JP 2022531645 A JP2022531645 A JP 2022531645A JP 2021556316 A JP2021556316 A JP 2021556316A JP 2021556316 A JP2021556316 A JP 2021556316A JP 2022531645 A JP2022531645 A JP 2022531645A
- Authority
- JP
- Japan
- Prior art keywords
- user
- manager module
- speech
- conversation
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012937 correction Methods 0.000 claims abstract description 27
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000001755 vocal effect Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 41
- 230000003993 interaction Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 19
- 230000009471 action Effects 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 15
- 230000002996 emotional effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 239000003550 marker Substances 0.000 claims description 9
- 230000002787 reinforcement Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000001020 rhythmical effect Effects 0.000 claims description 3
- 230000000284 resting effect Effects 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 55
- 238000013461 design Methods 0.000 description 19
- 238000007726 management method Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 13
- 230000033764 rhythmic process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- XGWIJUOSCAQSSV-XHDPSFHLSA-N (S,S)-hexythiazox Chemical compound S([C@H]([C@@H]1C)C=2C=CC(Cl)=CC=2)C(=O)N1C(=O)NC1CCCCC1 XGWIJUOSCAQSSV-XHDPSFHLSA-N 0.000 description 10
- 230000007246 mechanism Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006397 emotional response Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000006266 hibernation Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010012289 Dementia Diseases 0.000 description 1
- 206010037180 Psychiatric symptoms Diseases 0.000 description 1
- 206010071299 Slow speech Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000003292 diminished effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000000366 juvenile effect Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
Description
本明細書は、米国特許法第119条に基づき、2019年5月9日に出願された「Method for understanding and generating human-like conversational cues」という名称の米国仮特許出願第62/845,604号の優先権を主張する。本明細書に記載するすべての公開物は、個々の各公開物が参照により組み込まれることが具体的かつ個別に示された場合と同じ範囲で、全体として参照により本明細書に組み込まれている。
● いずれの意味内容および/またはユーザ発話も不完全でない場合、待ち時間を長い固定設定に設定し、次いで会話フロアを引き継ぐ。
● そうでない場合、待ち時間を短い固定設定に設定し、相づちを発する。
最後の発音を繰り返すことを含めて、肯定を生じ、
TTSモジュール112による将来の使用のために発音を記憶する。
ii)ユーザが話を止めた場合、VDAは「sorry, go ahead(すみません、続けてください)」と言い、ユーザが継続するのを待つ。
a)スピーチが意味内容を有するかどうかを判定する。
スピーチが意味内容を有する場合、対話管理モジュール108からの指示により、通常の対話システムへ進む。
スピーチが意味内容を有していない場合、タイマを開始する。
ユーザからのさらなる入力なしに、システム開発者が指定した期間が経過した場合、会話知能マネージャモジュール106は、ユーザがVDAに再び話し始めたことを承認するための命令(「you ready(準備できましたか)?」)を生成する。
b)対話の状態を判定する。
VDAが話していた場合、会話知能マネージャモジュール106は、ユーザからの待機命令がきたときに伝達しようとしていた内容を要約し/繰り返し、かつ/または以下を含む他の行動をとるための命令を生成することができる。
ユーザが話の途中であった場合、VDAがこれまでに知っている内容を再び促す。
現在の話題に関してこれまでにほとんど情報が伝達されていない場合、ユーザが覚えていると想定し、ユーザからの待機命令がきたときに伝達しようとしていた内容を要約する/繰り返すステップを省く。
デフォルトで、これまでに伝達した情報の状態をユーザが覚えているかどうか(グラウンディング)を確信できない場合、または対話状態を再検討するのが速い場合、ユーザとの対話の状態を再検討し、ユーザからの待機命令がきたときにVDAが伝達しようとしていた内容を要約する/繰り返すステップを実行する。
Claims (20)
- 人間会話キューを理解および生成する装置であって、
音声ベースのデジタルアシスタント(VDA)のための会話知能に関する規則ベースエンジンを有する会話知能(CI)マネージャモジュールを備え、前記CIマネージャモジュールは、人間のコミュニケーションの流れおよび交換において、1)ユーザと前記VDAとの間の会話フロアの取得、奪取、もしくは放棄、または2)前記会話フロアを取得しない会話グラウンディングの確立のうちの少なくとも1つのために、少なくとも相づちの理解および/または生成を含めて、i)前記人間会話キューの理解と、ii)人間的な会話キューの生成との両方について判定するために、1つまたは2つ以上のモジュールから情報を受け取るための1つまたは2つ以上の入力を有し、
前記CIマネージャモジュールは、前記規則ベースエンジンを使用して、少なくともユーザのスピーチの流れにおける韻律の会話キューを分析および判定するように構成され、前記CIマネージャモジュールが前記相づちを生成すると決定したとき、前記CIマネージャモジュールは、前記ユーザのスピーチの流れにおいて前記ユーザによって伝達される言語コミュニケーションについてのi)理解、ii)さらなる情報の要求、iii)承認、およびiv)質問のいずれかを伝えるための前記相づちを発するためのコマンドを生成するように構成される、装置。 - 前記CIマネージャモジュールは、前記規則ベースエンジンを使用して、会話キューの要因を分析および判定するように構成され、
前記規則ベースエンジンは、i)非語彙的な項目、ii)話し言葉の韻律、iii)前記ユーザのスピーチの流れにおける構文の文法的な完全性、iv)休止の継続時間、およびv)ユーザの発話の意味条件の程度のうちのいずれかの2つ以上の会話キューを分析および判定するための規則を有し、
前記CIマネージャモジュールは、これらの判定および分析を行った後、単に固定の継続時間の休止を待ち、次いで前記ユーザが前記会話フロアを放棄したと想定するのとは対照的に、1)前記ユーザからの追加の情報を促すこと、2)前記ユーザが前記会話フロアを引き続き有することに対する前記VDAの同意および理解を伝えること、または3)前記VDAが前記会話フロアの奪取を求めていることを示すことのうちの少なくとも1つのために、発話を生成するかどうかを決定するように構成される、請求項1に記載の装置。 - 前記CIマネージャモジュールは、前記ユーザのスピーチの韻律情報を必要とするマイクロインタラクションを可能にする韻律分析器を有し、前記CIマネージャモジュールは、自動音声処理モジュールから前記韻律分析のための入力データを受け取るように構成され、前記自動音声処理モジュールは、第1に、何らかのスピーチ活動が生じているかどうかを確認して検出し、次いで、前記韻律検出器を使用してユーザの発話に前記韻律分析を適用し、i)前記ユーザが実際に前記会話フロアを放棄したかどうか、またはii)前記ユーザが追加の情報を伝達するために、スピーチの流れに休止を挿入しているかどうかを判定するように構成され、前記追加の情報は、1)長いリストの情報の伝達を助けるために、休止しながら話すこと、2)前記ユーザが最初に第1の発話によって不完全に話し、それに続いて休止し、次いで第2の発話によって前記ユーザが前記スピーチ活動で伝達しようとしている考えを完了させることができるように、2つ以上のユーザ発話間に休止しながら話すこと、3)前記システムからの相づちを求めるために、休止しながら話すこと、ならびに4)これら3つの任意の組合せからなる群から選択される、請求項1に記載の装置。
- 前記CIマネージャモジュールのいくつかの部分がソフトウェアで実施されるとき、前記CIマネージャモジュールによって実行されるときに、前記CIマネージャモジュールに、請求項1に記載の装置に対してリスト化された機能を実行させる形式で、1つまたは2つ以上の非一時的機械可読記憶媒体内に命令が記憶され、
前記CIマネージャモジュールは、ユーザと前記VDAとの間に相互理解が生じていないことを判定するために、会話グラウンディング検出器からの入力を有し、前記CIマネージャモジュールが、前記相互理解が生じていないと判定したとき、前記CIマネージャモジュール、自然言語生成モジュール、およびテキストトゥスピーチモジュールは協働して、前記相互理解を再確立するための1つまたは2つ以上の発話を発するように構成され、前記規則ベースエンジンは、前記ユーザと前記VDAとの間に前記相互理解が生じていないと決定するための規則を使用するように構成される、
請求項1に記載の装置。 - 前記CIマネージャモジュールは、スピーチ訂正に関するマイクロインタラクションをトリガして、i)発話の途中で途切れた単語および文、ならびに/またはii)前記ユーザが話しており前記会話フロアを保持している間に発せられた非語彙的な音語の様々な途切れの非流暢性情報を検出するための非流暢性検出器からの入力を有し、前記CIマネージャモジュールは、1)自動音声処理モジュールとともに、前記ユーザからのそれ以外は流暢なスピーチ内のスピーチにおける前記非流暢性情報を検出する働きをし、次いで2)前記規則ベースエンジンとともに、前記非流暢性情報を記録し、i)前記非流暢性情報を使用してスピーチを訂正すること、もしくはii)会話的にグラウンディングして、システムの理解が正しいことを前記ユーザによって承認すること、またはiii)両方のために、規則を適用する働きをするように構成される、請求項1に記載の装置。
- 前記CIマネージャモジュールは、口頭言語理解モジュールと協働して、入力データから、ユーザが言っている内容で伝達される前記ユーザの姿勢を示すために、ユーザのi)応答中の感情状態、ii)発話の音響トーン、iii)韻律、iv)何らかの談話マーカ、ならびにv)これらの任意の組合せを分析することに関する入力情報を提供するように構成され、前記CIマネージャモジュールは、前記口頭言語理解モジュールからの前記感情状態、前記発話の前記音響トーン、または前記談話マーカを考慮して判定し、次いで応答を発し、または状態を調整し、前記応答を発したとき、テキストトゥスピーチモジュールを使用して、1)前記会話フロアを放棄し、2)前記ユーザからの追加の情報を求め、または3)前記ユーザに対する前記システム応答を変化させるために対話状態を変化させるように構成される、請求項1に記載の装置。
- 対話マネージャモジュールが、前記CIマネージャモジュールへの入力および出力と双方に接続され、前記対話マネージャモジュールは、1つまたは複数の関連する発話に対して、現在の話題を含む少なくとも対話状態を分析および追跡するように構成され、
前記CIマネージャモジュールは、i)音声のトーンまたはピッチ、ii)タイミング情報、iii)発話、iv)転換語、およびv)前記会話フロアの転換を伝える他の人間のキューを含む少なくとも口頭言語理解モジュールからの情報を消化して、前記ユーザと前記VDAとの間の前記会話フロアを取得、奪取、または放棄するかどうかに関してどのように進むかを判定するように構成される、
請求項1に記載の装置。 - 前記CIマネージャモジュールは、自然言語生成モジュールおよびテキストトゥスピーチモジュールと入力および出力を双方に交換して、前記ユーザと前記VDAとの間の人間のコミュニケーションの前記流れおよび交換のための韻律会話キューを利用する前記人間的な会話キューを生成するように構成される、請求項1に記載の装置。
- 前記CIマネージャモジュールに通信可能に結合された1つまたは2つ以上の環境モジュールをさらに備え、前記環境モジュールは、前記ユーザが相互作用しているワールドコンテキストに関する情報を提供するように構成され、前記VDAの前記CIマネージャモジュールは、前記情報を使用して、前記ユーザが現在気を取られており、前記VDAからのスピーチを処理する能力が低下していると判定することを支援するように構成され、前記CIマネージャモジュールは、前記ユーザが気を取られていると判定したとき、前記VDAの挙動を調整する行動をとるように構成される、
請求項1に記載の装置。 - 前記自然言語生成モジュールは、前記テキストトゥスピーチモジュールが前記ユーザへのスピーチを生成するとき、ピッチを含む韻律を使用して、前記CIマネージャモジュールおよび前記ユーザが韻律を介して前記会話グラウンディングを確立することを可能にするように構成され、前記自然言語生成モジュールは、言語コミュニケーションで不確実な、韻律学的にマークする特有の情報を介して、前記韻律を使用して、前記ユーザが前記特有の情報の不確実性状態に気付くように、前記言語コミュニケーション内で韻律学的にマークされた前記特有の情報を強調するように構成され、
前記自動音声処理モジュールは、前記ユーザのスピーチから、ピッチを含む韻律を分析して、前記CIマネージャモジュールおよび前記ユーザが、前記ユーザのスピーチ内の特有の情報に関する韻律の変化を検出することを介して、前記会話グラウンディングを確立することを可能にするように構成される、
請求項1に記載の装置。 - 人間会話キューを理解および生成する方法であって、
音声ベースのデジタルアシスタント(VDA)のための会話知能に関する規則ベースエンジンを有する会話知能(CI)マネージャモジュールを利用して、1つまたは2つ以上のモジュールからの情報を処理し、人間のコミュニケーションの流れおよび交換において、1)ユーザと前記VDAとの間の会話フロアの取得、奪取、もしくは放棄、または2)前記会話フロアを取得しない会話グラウンディングの確立のうちの少なくとも1つのために、相づちの理解および/または生成を含めて、i)前記人間会話キューの理解と、ii)人間的な会話キューの生成との両方について判定することと、
前記規則ベースエンジンを利用して、少なくともユーザのスピーチの流れにおける韻律の会話キューを分析および判定し、前記スピーチの流れにおいて前記ユーザによって伝達される言語コミュニケーションのi)理解、ii)訂正、iii)承認、およびiv)質問のいずれかを伝えるための前記相づちを生成することとを含む方法。 - 規則ベースエンジンを利用して、i)非語彙的な項目、ii)話し言葉の韻律、iii)前記ユーザのスピーチの流れにおける構文の文法的な完全性、iv)休止の継続時間、およびv)ユーザの発話の意味条件の程度のうちのいずれかの2つ以上の会話キューを分析および判定し、これらの判定および分析を行った後、単に固定の継続時間の休止を待ち、次いで前記ユーザが前記会話フロアを放棄したと想定するのとは対照的に、1)前記ユーザからの追加の情報を促すこと、2)前記ユーザが前記会話フロアを引き続き有することに対する前記VDAの同意および理解を伝えること、または3)前記VDAが前記会話フロアの奪取を求めていることを示すことのうちの少なくとも1つのために、発話を生成するかどうかを決定すること
をさらに含む、請求項11に記載の方法。 - 前記ユーザのスピーチの韻律分析のために前記CIマネージャモジュール内の韻律分析器を利用することをさらに含み、前記CIマネージャモジュールは、自動音声処理モジュールから前記韻律分析のための入力データを受け取り、前記韻律分析器は、第1に、何らかのスピーチ活動が生じているかどうかを確認して検出し、次いで、前記韻律検出器を使用してユーザの発話に前記韻律分析を適用し、i)前記ユーザが実際に前記会話フロアを放棄したかどうか、またはii)前記ユーザが追加の情報を伝達するために、スピーチの流れに休止を挿入しているかどうかを判定し、前記追加の情報は、1)長いリストの情報の伝達を助けるために、休止しながら話すこと、2)前記ユーザが最初に第1の発話によって不完全に話し、それに続いて休止し、次いで第2の発話によって前記ユーザが前記スピーチ活動で伝達しようとしている考えを完了させることができるように、2つ以上のユーザ発話間に休止しながら話すこと、3)前記システムからの相づちを求めるために、休止しながら話すこと、ならびに4)これら3つの任意の組合せからなる群から選択される、
請求項11に記載の方法。 - 前記CIマネージャモジュール内の会話グラウンディング検出器を利用して、ユーザと前記VDAとの間に相互理解が生じていないことを判定することをさらに含み、前記CIマネージャモジュールが、前記相互理解が生じていないと判定したとき、前記CIマネージャモジュール、自然言語生成モジュール、およびテキストトゥスピーチモジュールは協働して、前記相互理解を再確立するための1つまたは2つ以上の発話を発するように構成され、前記規則ベースエンジンは、前記ユーザと前記VDAとの間に前記相互理解が生じていないと決定するための規則を使用するように構成される、
請求項11に記載の方法。 - i)発話の途中で途切れた単語および文、ならびに/またはii)前記ユーザが話しており前記会話フロアを保持している間に発せられた非語彙的な音語の様々な途切れの非流暢性情報に関するスピーチ訂正のために、前記CIマネージャモジュール内の非流暢性検出器を利用することをさらに含み、前記CIマネージャモジュールは、1)自動音声処理モジュールとともに、前記ユーザからのそれ以外は流暢なスピーチ内のスピーチにおける前記非流暢性情報を検出する働きをし、次いで2)前記規則ベースエンジンとともに、前記非流暢性情報を記録し、i)前記非流暢性情報を使用してスピーチを訂正すること、もしくはii)会話的にグラウンディングして、システムの理解が正しいことを前記ユーザによって承認すること、またはiii)両方のために、規則を適用する働きをするように構成される、
請求項11に記載の方法。 - 口頭言語理解モジュールを利用して、前記CIマネージャモジュールと協働して、入力データから、ユーザが言っている内容で伝達される前記ユーザの姿勢を示すために、ユーザのi)前記応答中の感情状態、ii)発話の音響トーン、iii)韻律、iv)何らかの談話マーカ、ならびにv)これらの任意の組合せを分析することに関する入力情報を提供することをさらに含み、前記CIマネージャモジュールは、前記口頭言語理解モジュールからの前記感情状態、前記発話の前記音響トーン、または前記談話マーカを考慮して判定し、次いで応答を発し、または状態を調整し、前記応答を発したとき、テキストトゥスピーチモジュールを使用して、1)前記会話フロアを放棄し、2)前記ユーザからの追加の情報を求め、または3)前記ユーザに対する前記システム応答を変化させるために対話状態を変化させるように構成される、
請求項11に記載の方法。 - 前記CIマネージャモジュールへの入力および出力と双方に接続された対話マネージャモジュールを利用することであって、前記対話マネージャモジュールは、1つまたは2つ以上の関連する発話に対して、現在の話題を含む少なくとも対話状態を分析および追跡するように構成される、利用することと、
前記CIマネージャモジュールを利用して、i)音声のトーンまたはピッチ、ii)タイミング情報、iii)発話、iv)転換語、およびv)前記会話フロアの転換を伝える他の人間のキューを含む少なくともマイクロインタラクションに関する口頭言語理解モジュールからの情報を消化して、前記ユーザと前記VDAとの間の前記会話フロアの取得、奪取、または放棄のうちの少なくとも1つを行うかどうかに関してどのように進むかを判定することと
をさらに含む、請求項11に記載の方法。 - 命令を含む非一時的コンピュータ可読媒体であって、計算機械によって実行されたとき、前記計算機械に、請求項11に記載の方法を実行させる、非一時的コンピュータ可読媒体。
- 人間会話キューを理解および生成する装置であって、
音声ベースのデジタルアシスタント(VDA)のための会話知能に関する規則およびパラメータを使用するように構成された会話知能(CI)マネージャモジュールを備え、前記CIマネージャモジュールは、人間のコミュニケーションの流れおよび交換において、1)ユーザと前記VDAとの間の会話フロアの取得、奪取、または放棄、および2)前記会話フロアを取得しない会話グラウンディングの確立のうちの少なくとも1つのために、少なくとも相づちの理解および/または生成を含めて、i)前記人間会話キューの理解と、ii)人間的な会話キューの生成との両方について判定するために、1つまたは複数のモジュールから情報を前記パラメータとして受け取るための1つまたは複数の入力を有し、
前記CIマネージャモジュールは、前記規則および前記パラメータを使用する強化学習を使用して、少なくともユーザのスピーチの流れにおける韻律の会話キューを分析および判定するように構成され、前記CIマネージャモジュールが前記相づちを生成すると決定したとき、前記CIマネージャモジュールは、前記ユーザのスピーチの流れにおいて前記ユーザによって伝達される言語コミュニケーションについてのi)理解、ii)さらなる情報の要求、iii)承認、およびiv)質問のいずれかを伝えるための前記相づちを発するためのコマンドを生成するように構成される、装置。 - 前記CIマネージャモジュールは、強化学習を使用し、少なくとも前記ユーザの感情状態のパラメータを前記強化学習のための報酬関数として使用するように構成される、請求項19に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962845604P | 2019-05-09 | 2019-05-09 | |
US62/845,604 | 2019-05-09 | ||
PCT/US2020/031918 WO2020227557A1 (en) | 2019-05-09 | 2020-05-07 | Method, system and apparatus for understanding and generating human conversational cues |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022531645A true JP2022531645A (ja) | 2022-07-08 |
Family
ID=73051700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021556316A Pending JP2022531645A (ja) | 2019-05-09 | 2020-05-07 | 人間会話キューを理解および生成する方法、システム、および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220115001A1 (ja) |
JP (1) | JP2022531645A (ja) |
DE (1) | DE112020002288T5 (ja) |
WO (1) | WO2020227557A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6841535B1 (ja) * | 2020-01-29 | 2021-03-10 | 株式会社インタラクティブソリューションズ | 会話解析システム |
US12020703B2 (en) * | 2021-08-17 | 2024-06-25 | Google Llc | Enabling natural conversations with soft endpointing for an automated assistant |
KR20230032086A (ko) * | 2021-08-30 | 2023-03-07 | 한국전자기술연구원 | 대화형 에이전트 시스템에서 back-channel 자동 생성 방법 및 시스템 |
US11893990B2 (en) * | 2021-09-27 | 2024-02-06 | Sap Se | Audio file annotation |
US20240127804A1 (en) * | 2022-10-12 | 2024-04-18 | Capital One Services, Llc | Transcript tagging and real-time whisper in interactive communications |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162415B2 (en) * | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US7716056B2 (en) * | 2004-09-27 | 2010-05-11 | Robert Bosch Corporation | Method and system for interactive conversational dialogue for cognitively overloaded device users |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US20060215824A1 (en) * | 2005-03-28 | 2006-09-28 | David Mitby | System and method for handling a voice prompted conversation |
US9767794B2 (en) * | 2014-08-11 | 2017-09-19 | Nuance Communications, Inc. | Dialog flow management in hierarchical task dialogs |
US20180133900A1 (en) * | 2016-11-15 | 2018-05-17 | JIBO, Inc. | Embodied dialog and embodied speech authoring tools for use with an expressive social robot |
WO2018163646A1 (ja) * | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US10970527B2 (en) * | 2017-09-01 | 2021-04-06 | Digital Dream Labs, Llc | Robot attention detection |
US20190325898A1 (en) * | 2018-04-23 | 2019-10-24 | Soundhound, Inc. | Adaptive end-of-utterance timeout for real-time speech recognition |
-
2020
- 2020-05-07 WO PCT/US2020/031918 patent/WO2020227557A1/en active Application Filing
- 2020-05-07 DE DE112020002288.9T patent/DE112020002288T5/de active Pending
- 2020-05-07 US US17/418,193 patent/US20220115001A1/en active Pending
- 2020-05-07 JP JP2021556316A patent/JP2022531645A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020227557A1 (en) | 2020-11-12 |
DE112020002288T5 (de) | 2022-02-03 |
US20220115001A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McTear | Conversational ai: Dialogue systems, conversational agents, and chatbots | |
JP2022531645A (ja) | 人間会話キューを理解および生成する方法、システム、および装置 | |
KR101066741B1 (ko) | 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체 | |
Skantze | Error handling in spoken dialogue systems-managing uncertainty, grounding and miscommunication | |
KR101042119B1 (ko) | 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체 | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
Lopes et al. | From rule-based to data-driven lexical entrainment models in spoken dialog systems | |
Ortiz | The road to natural conversational speech interfaces | |
JP6682104B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
KR20220140599A (ko) | 대화의 사람 참가자를 대신하여 생성된 합성 스피치 오디오 데이터 | |
Abougarair et al. | Design and implementation of smart voice assistant and recognizing academic words | |
Kandhari et al. | A voice controlled e-commerce web application | |
Axelsson et al. | Modeling feedback in interaction with conversational agents—a review | |
Razavi et al. | Managing casual spoken dialogue using flexible schemas, pattern transduction trees, and gist clauses | |
Hone et al. | Designing habitable dialogues for speech-based interaction with computers | |
Raux | Flexible turn-taking for spoken dialog systems | |
Khouzaimi et al. | An easy method to make dialogue systems incremental | |
Ogden et al. | Phonetic resources in the construction of social actions | |
US11756533B2 (en) | Hot-word free pre-emption of automated assistant response presentation | |
Ward | Responsiveness in dialog and priorities for language research | |
McTear | Rule-Based Dialogue Systems: Architecture, Methods, and Tools | |
JP2009198871A (ja) | 音声対話装置 | |
Breen et al. | Voice in the user interface | |
Roddy | Neural Turn-Taking Models for Spoken Dialogue Systems | |
Kennedy et al. | Name Pronunciation Extraction and Reuse in Human-Robot Conversations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210916 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210916 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230327 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20240125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20240307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240423 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240723 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240924 |