JP6803351B2 - マン・マシン・ダイアログにおけるエージェント係属の管理 - Google Patents
マン・マシン・ダイアログにおけるエージェント係属の管理 Download PDFInfo
- Publication number
- JP6803351B2 JP6803351B2 JP2018046634A JP2018046634A JP6803351B2 JP 6803351 B2 JP6803351 B2 JP 6803351B2 JP 2018046634 A JP2018046634 A JP 2018046634A JP 2018046634 A JP2018046634 A JP 2018046634A JP 6803351 B2 JP6803351 B2 JP 6803351B2
- Authority
- JP
- Japan
- Prior art keywords
- request
- user
- agent
- state
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 115
- 238000000034 method Methods 0.000 claims description 93
- 230000008569 process Effects 0.000 claims description 50
- 230000004044 response Effects 0.000 claims description 41
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000012512 characterization method Methods 0.000 claims description 32
- 230000001953 sensory effect Effects 0.000 claims description 24
- 238000005259 measurement Methods 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 description 320
- 230000007704 transition Effects 0.000 description 82
- 230000009471 action Effects 0.000 description 39
- 230000000694 effects Effects 0.000 description 20
- 238000012360 testing method Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 16
- 230000000007 visual effect Effects 0.000 description 16
- 230000006399 behavior Effects 0.000 description 14
- 239000012636 effector Substances 0.000 description 13
- 230000008859 change Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000001755 vocal effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 230000037007 arousal Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 3
- 239000010931 gold Substances 0.000 description 3
- 229910052737 gold Inorganic materials 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000005059 dormancy Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000002853 ongoing effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 235000015440 Berlandiera lyrata Nutrition 0.000 description 1
- 240000009302 Berlandiera lyrata Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 240000004050 Pentaglottis sempervirens Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 238000013476 bayesian approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000005058 diapause Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000036403 neuro physiology Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011076 safety test Methods 0.000 description 1
- 230000031893 sensory processing Effects 0.000 description 1
- 238000009964 serging Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 229910000679 solder Inorganic materials 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- User Interface Of Digital Computer (AREA)
Description
本出願は、2017年4月12日に出願された「仮想エージェントの係属を管理するためのシステムおよび方法(SYSTEM AND METHODS FOR MANAGING THE ENGAGEMENT OF A VIRTUAL AGENT)」と題する米国仮特許出願第62/484,845号(代理人整理番号SOU−004PRV)の恩恵を主張し、その全体をここに引用により援用する。
本発明は、マン・マシン・ダイアログの分野に関し、特にダイアログの自然さおよび効率を改善する技術に関する。
仮想エージェントとも呼ばれる仮想アシスタントは、ユーザとの自然言語対話を実行することができるコンピュータベースのエージェントである。エージェントは、通常、人間のユーザにサービスを提供する。それは、ハードウェアとソフトウェアとの組み合わせを使用して、ユーザからの自然言語要求(情報要求またはアクション要求など)に応答(または応答しようと)する。
本開示は、現在の方法を上回るマン・マシン・ダイアログの効率および流動性の改善に向けられている。ミダス王効果を避ける必要性は、従来のアプローチとは異なり、覚醒ワード疲労を引き起こさないアプローチによって対処される。記載される非従来的な係属ポリシーは、すべての要求の前にエージェントを「覚醒させる」必要性を最小限に抑えるかまたは排除するという共通の目標を有する。マン・マシン・ダイアログをより自然かつ効率的にするいくつかの係属ポリシーが開示される。
エージェントおよびユーザ
図1Aは、ユーザ101およびエージェント102の図を示す。図1Bは、ユーザ101と、ダイアログ104に係属するユーザエージェントインターフェイスを提供するデバイス103とを示す。ユーザとエージェントとは通常、ダイアログ内で順番を交替する。本開示では、ユーザは、自然言語要求に対する応答を得るために、仮想エージェントと自然言語対話を行い得る者である。仮想エージェント(または仮想アシスタント、アシスタント、もしくは単にエージェント)は、ハードウェアとソフトウェアとの組み合わせを備え、ユーザとの自然な言語対話を実行するように設計されたシステムである。エージェントの役割は、ユーザの要求に応答して、要求された情報の検索や要求されたアクションの実行などのサービスを提供することである。
本開示では、デバイスは、仮想エージェントがユーザと通信することを可能にするユーザ対面ハードウェアである。エージェントソフトウェアは、デバイス上でローカルに実行されてもよく、または分散されて実行されてもよく、その場合には、ユーザ対面デバイスは、通常、ネットワークを介して1つ以上のサーバに接続される。
本開示で使用される重要な技術用語をここで定義する。この用語集の用語は互いを自由に参照する。この用語集のいくつかのセクションは、本発明の重要な局面を開示し、思想のいくつかの上位の概要を提供する。
係属(Engagement)−マン・マシン・ダイアログで、係属とは、エージェントがユーザ要求を受信して処理する意欲(または見掛けの能力)を指す。要求を入力として受け取った後、要求を処理することは、通常、それを理解し、それに対して動作し、出力として返答を生成することを含む。係属しているエージェントは要求を処理する。係属解除されたエージェントは要求を処理せず、エージェントに実際に要求が聞こえているかどうかは重要ではない。一般的に言えば、係属しているエージェントは、「謹聴している」および「そのマイクロフォンをオンにしている」と言え、係属解除されたエージェントは「そのマイクロフォンがオフになっている」と言えるが、この言葉は文字通り取られてはならず、なぜならば、係属解除されたエージェントのマイクロフォンは、それが覚醒ワードを待っているとき、信号を連続的にキャプチャしているからである。単独で係属を定義するのが、要求を処理する能力である。
アクション、イベント、およびインジケータ−ユーザアクションは、状態を変更するようにユーザがエージェントに命令するために行うかまたは言うことができるなにかである。ユーザアクションには、発声された要求がエージェントの状態における変化を明示的に求めている場合を除いて、エージェントに対して発声された要求は含まれない。イベントは、エージェントによって検出される条件であり、エージェントに状態を変更させることができる。(ユーザによって発された)アクションと(エージェントによって検出された)イベントとの真の区別は難しく、なぜならば、ユーザアクションは実施されるようエージェントによって認識されなければならず、認識それ自体はイベントとなるためである。アクションとイベントとを区別しようとする際に起こる微妙な問題を避けるために、本開示を通して、「インジケータ」という用語をアクションとイベントの両方に使用する。エージェントは、ユーザが生じさせるアクションであれ、またはユーザが気付いているかもしれないし気づいていないかもしれないイベントであれ、インジケータを検出する。
発話−音声活動を検出することによって開始され、EOU(発話終了)によって終了される、ユーザの音声セグメント。覚醒ワードが存在する場合、発話は、VADによって検出されるように、音声の開始時ではなく、覚醒ワード後に始まる。
本開示では、エージェントの係属または係属解除の状態がFSAに示されている。FSAを可能な限り単純に保つために、省略表現表記が使用されている。これらの規定は、モーダルダイアログ、要求処理、ストリーム処理に関するもので、よりコンパクトなFSAを記述するために本明細書全体を通して使用される。
図7Bは、モーダルダイアログの使用を可能にするモーダル状態730およびその対応する遷移を示す(モーダルダイアログの例について図1Bを参照)。エージェントは、ユーザの要求を満たすのに十分な情報が不足している場合にそのようなダイアログを使用し、ユーザに不足している情報を提供するよう求める。曖昧さ除去およびスロット充填は、これの典型的な状況である。
より多くの技術的詳細、および対応する省略表現が、要求処理に適用される。実際には、要求処理は一連の段階で行われる。一実施形態によれば、発話は、まず自動音声認識(ASR)を使用してテキストに翻音される。次に、翻音されたテキストは、構文解析および意味解釈を含む自然言語理解(NLU)処理を用いて処理される。これに続いて、解釈された要求が実行(履行)される。エージェントは応答を作成し、それをユーザに提示する。いくつかの実施形態では、これらの段階のいくつかは、省略され、落とし込まれ、重なり合わせられ、または細分化されてもよい。一部またはすべての段階は、デバイス上でローカルに実行されてもよい。一部またはすべての段階は、リモートサーバ上で実行されてもよい。1つの段階での失敗は、後の段階の修正または省略を引き起こしてもよい。いくつかの実施形態では、作業は、デバイスとサーバとの間で分割されてもよい。
図7Cのいくつかの実施形態では、おそらくは、長い応答が完了しておらず、応答完了インジケータ754がまだトリガされないため、エージェントは、状態750で応答しなくなり、新たな要求を、覚醒インジケータおよび他のインジケータと同様、受け入れることを停止し得る。エージェントが応答しなくなると、応答に「割込」んで中断する方法をシステムが提供しない限り、ユーザはいらいらして、ユーザ体験が悪くなる。
いくつかの実施形態はストリーム指向型である。ストリーム指向型の(増分的な)実施形態では、要求処理の1つ以上の段階が、通常はマルチスレッド態様で、並列で実行される。1つの段階の出力が次の段階への入力であるパイプラインでは、異なる処理段階が重複することがある。
モーダルダイアログは、図7Bに記載されるように処理され;
要求処理の段階は、図7Cに記載されるように導入されてもよく;
割込みは図7Dに記載されるようにサポートされ;
ストリーム指向型(増分的)実施形態もサポートされる。
いくつかの係属ポリシーが以下で議論される。これらのポリシーは、主に1つ以上の対応するFSAを使用して記載される。参照および比較の目的で、単純な係属ポリシーが含まれている。1つ以上の対応するFSAを使用して、いくつかの非従来的なポリシーが提示される。
2)ロックされた係属ポリシーは、エージェントの係属状態をロックおよびロック解除する要求を使用して、係属に対するユーザの明示な制御を与える;
3)確保されたエージェントポリシーは、ユーザが限られた期間の間エージェントを制御し、他のユーザを無視することを可能にする;
4)注意深いエージェントポリシーは、自律エージェントが係属および係属解除の判断を行うことを可能にする;
5)ハイブリッドポリシーは、ロックされた係属ポリシーと注意深いエージェントポリシーとを統合する。特に、ユーザはエージェントの自律的な挙動を無効にすることができる。
図8は、いくつかの仮想アシスタントで使用される係属ポリシーを示す。このFSAは、休眠状態800とワンタイム状態810とを有する。休眠エージェントは、覚醒ワードなどの覚醒インジケータ804に応答して、ワンタイム状態810に遷移し、ワンタイム状態810において1つのユーザ要求を処理することができる。ワンタイム状態810にある間にEOU816を検出すると、エージェントは要求処理818を開始する。エージェントは直ちに休眠状態800に戻る。別の要求を処理し得る前に新たな覚醒インジケータ804が必要であり、それはユーザ体験の低下及び覚醒ワード疲労に至る。
ロックされた係属ポリシーは、ユーザにエージェントの係属のロックおよびロック解除の明示的な制御を与える。ロックされている間、エージェントは覚醒インジケータを必要としない。
図9Aは、一実施形態による、無条件ロックの図を示す。それは、ロック状態980および隣接する状態との間の遷移からなる、より大きなFSAの小さな部分のみを示す。ロック状態980には、無条件のロックインジケータ972に続いて入る。ロック状態980のFSAの挙動は単純である。EOU983を検出すると、エージェントは要求処理988を実行し、ロック状態980に戻る。したがって、エージェントは、ロック解除インジケータ981またはタイムアウト984のいずれかを検出するまで、覚醒インジケータを必要とせずに、連続する要求を処理することができる。図9Aでは、タイムアウトおよびロック解除インジケータが別々に示されているが、両方の遷移が同じ状態に進む場合には、タイムアウトをロック解除インジケータとマージすることが可能である。
ロック要求は、自然言語を使用するので、非常に表現力があり得る。「聞いて」のようにエージェントを無条件にロックする代わりに、ロック要求は、「大人の言うことを聞いて」のようにロック条件を指定できる。一般に、ロック条件の使用により、ユーザは、ロックされた係属をより正確に制御することができる。
図9Cに示すロックされた係属ポリシーは、ロック解除インジケータ922が検出されるまで、「エージェントの注意をロック」し、無期限に覚醒ワードの使用を回避する簡単な方法を提供する。図9CのFSAは、図8の単純なFSAの番号変更されたコピーを、図9BのFSA要素の番号変更されたコピーと組合わせた結果、完全なロックされた係属FSAを作成している。図9Bのタイムアウトインジケータ994は、FSAを単純化するために、ロック解除インジケータ922とマージされている。
図9Dは、図9Cの番号を付け替えたコピーであり、新たなロック遷移およびロック解除遷移を伴う。図9Dは、EOU956(図9CのEOU916と同様である)、要求処理958(図9Cの要求処理918と同様である)、EOU964(図9CのEOU924と同様である)、条件付き要求処理968(図9Cの条件付き要求処理928と同様である)、およびロック条件969(図9Cのロック条件929と同様である)を示す。インジケータロック2 948およびロック解除2 966が、図9Cの既存のロック/ロック解除インジケータ、ロック1 952およびロック解除1 962に追加される。図9DのFSAの挙動は、追加のインジケータを除き、図9Cのそれと同様であり、追加のインジケータの効果は自明である。図9Cでは、4つのロックおよびロック解除遷移はすべてオプションになり、それらを破線で示すことにより表現される事実である。追加のインジケータの使用例がいくつかの解析の後に与えられる。
このセクションでは、ロックされた係属のトピックに戻る前の休眠状態ロジックを説明する。図10は休眠状態ロジック1000の説明であり;すべての休眠状態に広く適用することを意図している。議論は図9Dの議論に続き、2つ以上のインジケータおよび2つ以上の次の状態を有する休眠状態940が、休眠状態ロジック1000のより一般的な表現を必要とする。
図9Cにおいて、ロックインジケータ912は、無条件のロック要求(たとえば、「聞いて」など)であってもよい。無条件にロックされたエージェントは、ロック解除インジケータを検出するまですべての要求を処理する。ロック条件929が真に設定されると、図9CのFSAは、無条件ロックを実施する。この場合、ロック条件の評価963は常に真を返し、要求処理928が常に発生する。図9Bの代わりに図9Aに基づいて、図9Cの簡略版を描くことが可能であるが、これは必要ではなく、なぜならば、無条件ロックは条件付きロックの特別なケースとして扱うことができるからである。可能な無条件ロック要求の例には、「注意して」、「始めよう」または「聞いて」などのフレーズが含まれる。ロック解除要求の例には、「終わりました」または「おしまい」または「ありがとう」が含まれる。
ロック要求は、自然言語で表現されているので、非常に表現力があり得る。ロック条件929を使用することにより、ユーザは係属を大きく制御することができる。概して、NLUシステムは、複雑なロック条件を表すロック要求のカスタムサブ言語(または「ミニドメイン」)を認識することができる。ある単純なスキーマは、「聞いて<NL−条件>」という形式をとることができ、幅広くさまざまな<NL−条件>自然言語表現がさまざまな有用なロック条件を指定できる。
図11は、図9Bの包括的なロック状態990のようなロック状態で使用されるロジック1100を示す。同じロジックが、必要な変更を加えて、図9Cの状態920、図9Dの状態960、図16Aの状態1620、および図16Bの状態1670のようなロック状態の具体的な例に適用される。ロック状態990(図9B)では、ロックインジケータ982に関連付けられるロック条件が、ステップ1102(図11)で受信され、オプションとして処理され、ロック条件999として記憶される。条件が記憶される前に、いくつかのフォーマット変更または処理が必要とされてもよい。いくつかの実施形態では、記憶されたロック条件999は、エージェントが別途記憶するデータを参照し;たとえば、ロック要求が「私の言うことを聞いて」であり、新規ユーザの声が基準ユーザの声と一致することをチェックするために音声照合が使用される場合、ステップ1102において、基準ユーザからの音声を用いて基準声紋を作成する。
新規ユーザが基準ユーザと同じであるかどうかを見出すことは、たとえば、「私の言うことを聞いて」ロック要求の実施において、大きな関心事である。新たな発話を生成するユーザと所定の基準ユーザとの間で同一性の一致が見つかった場合、ユーザ連続性条件は成功し;そうでなければ、ユーザ非連続性が観察される。ユーザ連続性をテストすることは、「私の言うことを聞いて」などのロックコマンドで便利であるが、同じ機能が他のポリシーでさらに使用される。
マッチングアプローチは、利用可能な知覚特徴を利用して、2人のユーザを比較して、それら2人が同じかどうかを判断することを指す。たとえば、異なる色のシャツを有する、または起立時に同じ高さでない2人のユーザは、異なる可能性が高い。これらの特徴は容易には変わらない。一実施形態によれば、エージェントは、すべてのユーザのいくつかの衣服を認識することができ、それは、(スポーツチームが会うときのように)近くの他の人が類似の衣類を着用しない場合に特に有用である。これには、色、形、質感などが含まれる。
ユーザを追跡すること−および少なくとも基準ユーザを追跡すること−は、ユーザ連続性を確立するために不可欠な部分であり得る。トラッキングは、時間を通じて連続性をシミュレートするのに十分短い1つ以上のデューティサイクル中に実施される進行中の活動である。全対象の追跡は、より単純な特徴の追跡に依存する。エージェントは感覚入力を使用し、DSP技法を適用して、下位の特徴を抽出する。ますます上位の特徴が計算されることもある。トラッキングは、知覚的に関連する特徴の、経時的な連続観察を行うことに基づく。1つ以上の瞬間的な特徴の観測の収集は、「スナップショット」特徴付けと呼ぶことができる。エージェントは特徴の集合を計算およびアセンブルすることによって、スナップショットの特徴付けを構築できる。この目的のために、任意の数のセンサを使用することができる。マルチモーダル特徴階層では、下位の特徴および上位の特徴をトラッキングに必要とすることができる。たとえば、(空間内の所与の視点からの)距離推定値と方位推定値(同じ視点から観察された同じ対象の方向)とを組み合わせることにより、より上位の特徴である位置推定値が得られる。距離推定値、方位推定値および位置特徴推定値を別々に追跡することが可能である。いくつかの実施形態では、シーン解析特徴は、エージェントによって直接観測されてもよく、または距離特徴および方位特徴から位置特徴を推論するような、より下位の特徴および観測から推測されてもよい。トラッキングに使用されるデューティサイクルは、モダリティによって変化し得(たとえば、マイクロフォンアレイから得られる方位計測の場合の200ms対ビデオカメラに基づく方位計測の場合の1秒);トラッキング間隔(デューティサイクル)は規則的であってもなくてもよい。
ロックする係属の変形実施形態では、ロック条件が組み込まれており、すなわち、各明示的ロック要求によって判断されるのではなく、永久的に指定される。ロック要求がない場合、第1の任意の要求はロック状態に遷移することができる。この状況は条件付きロックとは異なり、別のポリシーとして記述される。確保状態ポリシーは、暗黙的な「私の言うことを聞いて」条件付きロックの、特別目的の最適化された実現である。ロック要求およびロック解除要求も不要なので、それは、それ自体の処理に値する。
礼儀から、エージェントの注意を必要としなくなったユーザは、タイムアウトが発生するのを待って、他のユーザが制御を取れるようにする代わりに、他の誰かが使用できるようにエージェントを解放するべきである。「ありがとう」や「終わり」などの単純なロック解除要求がこれを行なう。これは、エージェントだけでなく他のユーザにも礼儀を示す。さらに有益な効果はミダス王の問題を避けることである。
いくつかの実施形態では、図9Cのロックポリシーは字義通りの方法で適用され、新規ユーザからの発話は、新規ユーザが基準ユーザと一致しない場合、完全に無視される。いくつかの実施形態では、ロックは、限られた期間だけアクティブのままである。タイムアウトの後、エージェントの係属状態は、完全に、休眠状態(図9Cのロック解除922または図9Dのロック解除1 962を参照)、または部分的に、ワンタイム状態950(図9Dのロック解除2 966)または注意深い状態1660(図11Bのロック解除2)などの係属状態まで、下げられてもよい。これらの状況では、タイムアウトは特別な種類のロック解除インジケータとして扱われることを想起されたい。
一実施形態によれば、指定された空間領域に入ることは、ロックインジケータとして作用し、指定された空間領域を出ることは、ロック解除インジケータとして作用することができる。好ましい設計では、ある空間領域に入ると状態がロックされ、同じその空間領域を出るとその状態がロック解除されるべきである。この相互作用設計は、ロックされたエリアの存在を視覚化することが容易であるため、ユーザの認知負荷を最小にする。このような実施形態では、ソナー、レーザー、または3Dセンサのようなさまざまなセンサが、カメラの代わりに、またはカメラに加えて、空間領域を画定することができる。また、ユーザが携帯する能動的または受動的なデバイスの電磁感知もあり得る。
覚醒インジケータをスキップする可能性から利益を得るために、ユーザは、覚醒インジケータが必要であるか否か、すなわち、エージェントが休眠中であるか否かを知る必要がある。場合によっては、ユーザはエージェントの状態が表示されていなくてもそれを知っている。これは、たとえば、タイムアウトがない状態において明示的なロック/ロック解除要求で起こる。状態透明性の必要性は、ユーザがエージェントの状態について確信が持てない場合に発生する。これは、たとえば、タイムアウトが発生して、ユーザアクションなしに状態変化を起こしたとき、またはユーザが不注意に境界を超えてホットゾーンに出入りしたときに、発生し得る。ユーザがエージェント状態の変化を認識できないときはいつでも、(ここに開示された方法を最大限に活用して)エージェントをユーザに露出するか、または代替的に、ユーザに状態遷移を注意喚起することが重要である。
注意深いエージェントポリシーは、覚醒ワード疲労を最小限に抑え、明示的なユーザ介入なしにマン・マシン・ダイアログの効率および自然性を高めることを目指す。エージェントは、これを、人間の対話挙動を模倣し、係属のきっかけを知覚し、それに応じてそれ自体の係属を制御する、それの能力に基づいて、行なう。人々は、しばしば、身体言語、アイコンタクト、およびその他の手がかりを使用して係属状態に留まる意思を伝える。注意深いエージェントは、そのような手がかりに、ユーザの知覚的観察、およびその手がかりを、係属させる、係属状態に留まる、または係属解除することに対する希望として解釈する方法のモデルに基づいて、気付く。ロックされたエージェントまたは確保されたエージェントとは対照的に、注意深いエージェントは、動的な係属および係属解除の決定を自律的に行なう。
ハイブリッド係属ポリシーは、先にかなり単純な態様で開示された技術を組み合わせることによって得てもよい。
休眠状態1600のロジックは休眠状態ロジックであり(図10参照)、
注意深い状態1610のロジックは注意深い状態ロジックであり(図14参照)、
ロック状態1620のロジックはロック状態ロジックである(図11参照)、ということになる。
1つのさらなる変形例は、確保状態またはロック状態から発声された要求は、ユーザ連続性のロック状態を可能にすることができるが、すべて休眠状態を経ることなく、新たな基準ユーザを受け入れることである。第1の変形例では、単純な「ハンドオーバ」要求は、話しているが、次のT1秒以内のみである第1のユーザを、基準ユーザとして受け入れる。確保されたエージェントFSAでは、タイムアウトを除いて、これは、あたかも覚醒後に確保状態1220から初期状態1210への遷移が行われたかのようである。受信された第1の要求は処理され(1218)、新たな基準ユーザが特徴付けられて設定され(1216)、エージェントは更新された基準ユーザのために確保される。
図17Aは、コンピュータプロセッサによって実行されると、コンピュータプロセッサに本明細書に記載の方法または部分的な方法ステップを実行させるコンピュータコードを格納する、非一時的なコンピュータ読み取り可能な回転ディスク媒体1701を示す。
Claims (16)
- マン・マシン・ダイアログ中にエージェントの係属状態を制御する方法であって、
基準ユーザからの第1の発声された要求を受信したことに応答して、
前記第1の発声された要求を解釈してロック条件を判定することと、
覚醒インジケータを必要としないロック状態に入って要求を処理することとを備え、前記方法はさらに
新規ユーザから第2の発声された要求を受信することと、
前記ロック条件が満たされているかどうかを判定することと、
前記ロック条件が満たされないことに応答して、前記第2の発声された要求を無視することと、
前記第2の発声された要求が安全であるか危険であるかを区別することと、
前記第2の発声された要求が安全であると区別された場合には、前記新規ユーザが前記基準ユーザと一致していなくても、前記第2の発声された要求を処理することと、を備える、マン・マシン・ダイアログ中にエージェントの係属状態を制御する方法。 - 前記第2の発声された要求が安全であるか危険である否かを区別することは、前記第2の発声された要求が処理された結果に基づく、請求項1に記載の方法。
- 前記第2の発声された要求が安全であるか危険である否かを区別することは、前記第2の発声された要求が処理された結果が個人情報を明らかにする場合に前記第2の発声された要求を危険であると区別することを含む、請求項2に記載の方法。
- 音声分類部を前記第2の発声された要求に適用して音声クラス前提を生成することをさらに備え、
前記ロック条件は音声クラスを指定し、
前記音声クラス前提が、前記ロック条件によって指定される前記音声クラスと一致しない場合、前記ロック条件は満たされない、請求項1〜請求項3のいずれか1項に記載の方法。 - 前記基準ユーザの第1の特徴付けを構築することと、
前記新規ユーザの第2の特徴付けを構築することと、
前記第1の特徴付けを前記第2の特徴付けと比較して、前記第1の特徴付けと前記第2の特徴付けとの間に一致または不一致があるかどうかを識別することと、
前記第1の特徴付けと前記第2の特徴付けとの間の一致を発見しなかったことに応答して、前記ロック条件は満たされていないと判定することとをさらに備える、請求項1〜請求項3のいずれか1項に記載の方法。 - 前記第1の特徴付けおよび前記第2の特徴付けのうちの少なくとも1つは声紋を含む、請求項5に記載の方法。
- 前記第1の特徴付けおよび前記第2の特徴付けのうちの少なくとも1つは、1つ以上の感覚信号から抽出された1つ以上のシーン解析特徴を含む、請求項5に記載の方法。
- 前記シーン解析特徴は方位測定値を含む、請求項7に記載の方法。
- 前記シーン解析特徴は距離測定値を含む、請求項7に記載の方法。
- 前記シーン解析特徴は顔認識をサポートする、請求項7に記載の方法。
- ロック解除要求を検出したことに応答して、前記ロック状態を出ることをさらに備える、請求項1〜請求項10のいずれか1項に記載の方法。
- 前記ロック解除要求は前記第2の発声された要求である、請求項11に記載の方法。
- 前記ロック解除要求はタイムアウトである、請求項11に記載の方法。
- マン・マシン・ダイアログ中にエージェントの係属状態を制御する方法であって、
第1の人物から第1の要求を受信することと、
前記第1の人物の第1の特徴付けを構築することと、
第2の人物から第2の要求を受信することと、
前記第2の人物の第2の特徴付けを構築することと、
前記第2の特徴付けを前記第1の特徴付けと比較することと、
前記第2の特徴付けを前記第1の特徴付けと比較したことが不一致を識別したことに応答して、前記第2の要求を無視することと、
前記第2の要求が安全であるか危険であるかを区別することと、
前記第2の要求が安全であると区別された場合には、前記第2の特徴付けが前記第1の特徴付けと一致していなくても、前記第2の要求を処理することと、を備える、マン・マシン・ダイアログ中にエージェントの係属状態を制御する方法。 - コンピュータの1以上のプロセッサによって実行されることにより、前記コンピュータに請求項1〜請求項14のいずれか1項に記載の方法を実施させる、プログラム。
- 請求項15に記載のプログラムを格納するメモリーと、
前記メモリに格納された前記プログラムを実行する1以上のプロセッサと、を備えたコンピュータ装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762484845P | 2017-04-12 | 2017-04-12 | |
US62/484,845 | 2017-04-12 | ||
US15/881,553 US11250844B2 (en) | 2017-04-12 | 2018-01-26 | Managing agent engagement in a man-machine dialog |
US15/881,553 | 2018-01-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180523A JP2018180523A (ja) | 2018-11-15 |
JP6803351B2 true JP6803351B2 (ja) | 2020-12-23 |
Family
ID=62104076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046634A Active JP6803351B2 (ja) | 2017-04-12 | 2018-03-14 | マン・マシン・ダイアログにおけるエージェント係属の管理 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11250844B2 (ja) |
EP (1) | EP3389045B1 (ja) |
JP (1) | JP6803351B2 (ja) |
CN (1) | CN108847226A (ja) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11443161B2 (en) * | 2016-12-12 | 2022-09-13 | Microsoft Technology Licensing, Llc | Robot gesture generation |
US10380852B2 (en) * | 2017-05-12 | 2019-08-13 | Google Llc | Systems, methods, and devices for activity monitoring via a home assistant |
KR102384643B1 (ko) * | 2017-08-17 | 2022-04-08 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US20190096397A1 (en) * | 2017-09-22 | 2019-03-28 | GM Global Technology Operations LLC | Method and apparatus for providing feedback |
CN108305615B (zh) * | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
US10877637B1 (en) | 2018-03-14 | 2020-12-29 | Amazon Technologies, Inc. | Voice-based device operation mode management |
US11127405B1 (en) * | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10885910B1 (en) | 2018-03-14 | 2021-01-05 | Amazon Technologies, Inc. | Voice-forward graphical user interface mode management |
US11307880B2 (en) | 2018-04-20 | 2022-04-19 | Meta Platforms, Inc. | Assisting users with personalized and contextual communication content |
US11676220B2 (en) | 2018-04-20 | 2023-06-13 | Meta Platforms, Inc. | Processing multimodal user input for assistant systems |
US11886473B2 (en) | 2018-04-20 | 2024-01-30 | Meta Platforms, Inc. | Intent identification for agent matching by assistant systems |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
US11715042B1 (en) | 2018-04-20 | 2023-08-01 | Meta Platforms Technologies, Llc | Interpretability of deep reinforcement learning models in assistant systems |
US10679622B2 (en) * | 2018-05-01 | 2020-06-09 | Google Llc | Dependency graph generation in a networked system |
WO2020036188A1 (ja) * | 2018-08-15 | 2020-02-20 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法およびプログラム |
KR20200045851A (ko) * | 2018-10-23 | 2020-05-06 | 삼성전자주식회사 | 음성 인식 서비스를 제공하는 전자 장치 및 시스템 |
US11557297B2 (en) | 2018-11-09 | 2023-01-17 | Embodied, Inc. | Systems and methods for adaptive human-machine interaction and automatic behavioral assessment |
CN111402900B (zh) * | 2018-12-29 | 2024-04-23 | 华为技术有限公司 | 一种语音交互方法,设备和系统 |
CN110096583B (zh) * | 2019-05-09 | 2021-05-14 | 思必驰科技股份有限公司 | 多领域对话管理系统及其构建方法 |
WO2020251074A1 (ko) * | 2019-06-12 | 2020-12-17 | 엘지전자 주식회사 | 음성 인식 기능을 제공하는 인공 지능 로봇 및 그의 동작 방법 |
CN112331193A (zh) * | 2019-07-17 | 2021-02-05 | 华为技术有限公司 | 语音交互方法及相关装置 |
CN110634483B (zh) * | 2019-09-03 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110704595B (zh) * | 2019-09-27 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 对话的处理方法、装置、电子设备及可读存储介质 |
US11741953B2 (en) | 2019-11-08 | 2023-08-29 | Google Llc | Using corrections, of automated assistant functions, for training of on-device machine learning models |
CN110992940B (zh) * | 2019-11-25 | 2021-06-15 | 百度在线网络技术(北京)有限公司 | 语音交互的方法、装置、设备和计算机可读存储介质 |
CN110995936B (zh) * | 2019-12-19 | 2021-03-19 | 大众问问(北京)信息科技有限公司 | 一种语音交互方法、装置及设备 |
CN111028846B (zh) * | 2019-12-25 | 2022-08-16 | 北京梧桐车联科技有限责任公司 | 免唤醒词注册的方法和装置 |
EP4111446A4 (en) * | 2020-02-29 | 2024-04-17 | Embodied Inc | MULTIMODAL BEAMFORMING AND ATTENTION FILTERING FOR MULTI-PARTY INTERACTIONS |
CN111464707A (zh) * | 2020-03-30 | 2020-07-28 | 中国建设银行股份有限公司 | 外呼处理方法、装置及系统 |
US11232798B2 (en) * | 2020-05-21 | 2022-01-25 | Bank Of America Corporation | Audio analysis system for automatic language proficiency assessment |
CN111816192A (zh) * | 2020-07-07 | 2020-10-23 | 云知声智能科技股份有限公司 | 语音设备及其控制方法、装置和设备 |
US20220028417A1 (en) * | 2020-07-23 | 2022-01-27 | Horaizon Corporation | Wakeword-less speech detection |
US11275555B1 (en) | 2020-08-19 | 2022-03-15 | Kyndryl, Inc. | Resolving a device prompt |
CN112581972A (zh) * | 2020-10-22 | 2021-03-30 | 广东美的白色家电技术创新中心有限公司 | 语音交互方法及相关装置、对应关系建立方法 |
US20220139379A1 (en) * | 2020-11-02 | 2022-05-05 | Aondevices, Inc. | Wake word method to prolong the conversational state between human and a machine in edge devices |
CN112698872A (zh) * | 2020-12-21 | 2021-04-23 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备及存储介质 |
US11960790B2 (en) * | 2021-05-27 | 2024-04-16 | Microsoft Technology Licensing, Llc | Spatial attention model enhanced voice engagement system |
WO2023229989A1 (en) * | 2022-05-27 | 2023-11-30 | Apple Inc. | Detecting visual attention during user speech |
Family Cites Families (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5615296A (en) | 1993-11-12 | 1997-03-25 | International Business Machines Corporation | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors |
JP3838159B2 (ja) | 2002-05-31 | 2006-10-25 | 日本電気株式会社 | 音声認識対話装置およびプログラム |
US20040095389A1 (en) | 2002-11-15 | 2004-05-20 | Sidner Candace L. | System and method for managing engagements between human users and interactive embodied agents |
JP4257308B2 (ja) | 2005-03-25 | 2009-04-22 | 株式会社東芝 | 利用者識別装置、利用者識別方法および利用者識別プログラム |
US8000969B2 (en) * | 2006-12-19 | 2011-08-16 | Nuance Communications, Inc. | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges |
US20090055193A1 (en) * | 2007-02-22 | 2009-02-26 | Pudding Holdings Israel Ltd. | Method, apparatus and computer code for selectively providing access to a service in accordance with spoken content received from a user |
US7881933B2 (en) * | 2007-03-23 | 2011-02-01 | Verizon Patent And Licensing Inc. | Age determination using speech |
US8086461B2 (en) * | 2007-06-13 | 2011-12-27 | At&T Intellectual Property Ii, L.P. | System and method for tracking persons of interest via voiceprint |
US9477395B2 (en) * | 2007-09-04 | 2016-10-25 | Apple Inc. | Audio file interface |
US8798311B2 (en) * | 2009-01-23 | 2014-08-05 | Eldon Technology Limited | Scrolling display of electronic program guide utilizing images of user lip movements |
US8473420B2 (en) | 2009-06-26 | 2013-06-25 | Microsoft Corporation | Computational models for supporting situated interactions in multi-user scenarios |
KR20110031797A (ko) * | 2009-09-21 | 2011-03-29 | 삼성전자주식회사 | 휴대 단말기의 입력 장치 및 방법 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
KR101830651B1 (ko) * | 2011-01-04 | 2018-02-21 | 엘지전자 주식회사 | 정보 표시 장치 및 그 방법 |
US8818556B2 (en) * | 2011-01-13 | 2014-08-26 | Microsoft Corporation | Multi-state model for robot and user interaction |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8452597B2 (en) * | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
US8933896B2 (en) * | 2011-10-25 | 2015-01-13 | Microsoft Corporation | Pressure-based interaction for indirect touch input devices |
KR101889836B1 (ko) * | 2012-02-24 | 2018-08-20 | 삼성전자주식회사 | 음성인식을 통한 단말기의 잠금 상태 해제 및 조작 방법 및 장치 |
US20150051913A1 (en) * | 2012-03-16 | 2015-02-19 | Lg Electronics Inc. | Unlock method using natural language processing and terminal for performing same |
CN104488025A (zh) | 2012-03-16 | 2015-04-01 | 纽昂斯通讯公司 | 用户专用的自动语音识别 |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
KR20130140423A (ko) * | 2012-06-14 | 2013-12-24 | 삼성전자주식회사 | 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법 |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US9063731B2 (en) * | 2012-08-27 | 2015-06-23 | Samsung Electronics Co., Ltd. | Ultra low power apparatus and method to wake up a main processor |
EP2941769B1 (en) * | 2013-01-04 | 2019-05-08 | Kopin Corporation | Bifurcated speech recognition |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9956687B2 (en) | 2013-03-04 | 2018-05-01 | Microsoft Technology Licensing, Llc | Adapting robot behavior based upon human-robot interaction |
US9111546B2 (en) * | 2013-03-06 | 2015-08-18 | Nuance Communications, Inc. | Speech recognition and interpretation system |
US9112984B2 (en) * | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9836700B2 (en) | 2013-03-15 | 2017-12-05 | Microsoft Technology Licensing, Llc | Value of information with streaming evidence based on a prediction of a future belief at a future time |
EP2784774A1 (en) | 2013-03-29 | 2014-10-01 | Orange | Telephone voice personnal assistant |
WO2014189486A1 (en) * | 2013-05-20 | 2014-11-27 | Intel Corporation | Natural human-computer interaction for virtual personal assistant systems |
WO2015029379A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 機器制御方法、表示制御方法及び購入決済方法 |
US9860928B2 (en) * | 2013-12-05 | 2018-01-02 | Sony Corporation | Pairing consumer electronic devices using a cross-body communications protocol |
EP2891974A1 (en) * | 2014-01-06 | 2015-07-08 | Samsung Electronics Co., Ltd | Display apparatus which operates in response to voice commands and control method thereof |
EP2930716B1 (en) * | 2014-04-07 | 2018-10-31 | Samsung Electronics Co., Ltd | Speech recognition using electronic device and server |
US9232331B2 (en) * | 2014-05-08 | 2016-01-05 | Microsoft Technology Licensing, Llc | Hand-worn device for surface gesture input |
US20150328082A1 (en) * | 2014-05-16 | 2015-11-19 | HDFEEL Corp. | Interactive Entertainment System Having Sensory Feedback |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) * | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
NZ727976A (en) * | 2014-06-02 | 2018-04-27 | Schlage Lock Co Llc | Natural language user interface |
US10318016B2 (en) * | 2014-06-03 | 2019-06-11 | Harman International Industries, Incorporated | Hands free device with directional interface |
US9405967B2 (en) * | 2014-09-03 | 2016-08-02 | Samet Privacy Llc | Image processing apparatus for facial recognition |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9837068B2 (en) * | 2014-10-22 | 2017-12-05 | Qualcomm Incorporated | Sound sample verification for generating sound detection model |
US9812126B2 (en) * | 2014-11-28 | 2017-11-07 | Microsoft Technology Licensing, Llc | Device arbitration for listening devices |
US9690542B2 (en) * | 2014-12-22 | 2017-06-27 | Microsoft Technology Licensing, Llc | Scaling digital personal assistant agents across devices |
WO2016119894A1 (en) * | 2015-01-30 | 2016-08-04 | Doro AB | Proximity-based accidental lock screen command prevention for mobile communication terminal |
EP3259754B1 (en) * | 2015-02-16 | 2022-06-15 | Samsung Electronics Co., Ltd. | Method and device for providing information |
KR101703613B1 (ko) * | 2015-06-19 | 2017-02-07 | 현대자동차 주식회사 | 하이브리드 차량의 엔진 기동 시점 제어 방법 및 그 제어 장치 |
US20160379105A1 (en) * | 2015-06-24 | 2016-12-29 | Microsoft Technology Licensing, Llc | Behavior recognition and automation using a mobile device |
CN106469040B (zh) * | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
WO2017100167A1 (en) * | 2015-12-06 | 2017-06-15 | Voicebox Technologies Corporation | System and method of conversational adjustment based on user's cognitive state and/or situational state |
EP3178617B1 (en) * | 2015-12-11 | 2022-11-02 | Tata Consultancy Services Ltd. | Hybrid reality based i-bot navigation and control |
US10854199B2 (en) * | 2016-04-22 | 2020-12-01 | Hewlett-Packard Development Company, L.P. | Communications with trigger phrases |
US10453449B2 (en) * | 2016-09-01 | 2019-10-22 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10580404B2 (en) * | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US9961642B2 (en) * | 2016-09-30 | 2018-05-01 | Intel Corporation | Reduced power consuming mobile devices method and apparatus |
US10880378B2 (en) | 2016-11-18 | 2020-12-29 | Lenovo (Singapore) Pte. Ltd. | Contextual conversation mode for digital assistant |
US10347245B2 (en) * | 2016-12-23 | 2019-07-09 | Soundhound, Inc. | Natural language grammar enablement by speech characterization |
US20180239885A1 (en) * | 2017-02-21 | 2018-08-23 | Qualcomm Incorporated | User equipment with smart biometric unlock |
-
2018
- 2018-01-26 US US15/881,553 patent/US11250844B2/en active Active
- 2018-03-14 JP JP2018046634A patent/JP6803351B2/ja active Active
- 2018-04-11 CN CN201810321217.0A patent/CN108847226A/zh active Pending
- 2018-04-12 EP EP18167125.6A patent/EP3389045B1/en active Active
-
2021
- 2021-12-27 US US17/562,891 patent/US20220122607A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20180301151A1 (en) | 2018-10-18 |
US11250844B2 (en) | 2022-02-15 |
EP3389045B1 (en) | 2021-02-24 |
JP2018180523A (ja) | 2018-11-15 |
CN108847226A (zh) | 2018-11-20 |
US20220122607A1 (en) | 2022-04-21 |
EP3389045A1 (en) | 2018-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6803351B2 (ja) | マン・マシン・ダイアログにおけるエージェント係属の管理 | |
JP7354301B2 (ja) | 自動アシスタントによって応答アクションをトリガするためのホットコマンドの検出および/または登録 | |
US11289100B2 (en) | Selective enrollment with an automated assistant | |
KR102498811B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
US11704940B2 (en) | Enrollment with an automated assistant | |
KR20170080672A (ko) | 키 문구 사용자 인식의 증강 | |
EP3635513B1 (en) | Selective detection of visual cues for automated assistants | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
Foukarakis et al. | Applying a multimodal user interface development framework on a domestic service robot | |
KR20230062612A (ko) | 자동화된 어시스턴트를 위한 자연스러운 대화 활성화 | |
US20230343324A1 (en) | Dynamically adapting given assistant output based on a given persona assigned to an automated assistant | |
KR102396147B1 (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
US20230061929A1 (en) | Dynamically configuring a warm word button with assistant commands | |
KR20230147157A (ko) | 어시스턴트 명령(들)의 컨텍스트적 억제 | |
KR20230158615A (ko) | 자동화된 어시스턴트를 위한 소프트 엔드포인팅을 사용한 자연스러운 대화 활성화 | |
CN117121100A (zh) | 为自动化助理启用具有软端点的自然对话 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6803351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |