JP6671379B2 - 音声および接続プラットフォーム - Google Patents
音声および接続プラットフォーム Download PDFInfo
- Publication number
- JP6671379B2 JP6671379B2 JP2017538155A JP2017538155A JP6671379B2 JP 6671379 B2 JP6671379 B2 JP 6671379B2 JP 2017538155 A JP2017538155 A JP 2017538155A JP 2017538155 A JP2017538155 A JP 2017538155A JP 6671379 B2 JP6671379 B2 JP 6671379B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- action
- context
- engine
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000009471 action Effects 0.000 claims description 123
- 238000000034 method Methods 0.000 claims description 66
- 230000015654 memory Effects 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 34
- 230000000977 initiatory effect Effects 0.000 claims description 20
- 239000003795 chemical substances by application Substances 0.000 description 94
- 238000003860 storage Methods 0.000 description 59
- 230000006870 function Effects 0.000 description 58
- 230000003993 interaction Effects 0.000 description 40
- 239000008186 active pharmaceutical agent Substances 0.000 description 31
- 238000004891 communication Methods 0.000 description 30
- 238000007726 management method Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 24
- 230000007246 mechanism Effects 0.000 description 23
- 230000008569 process Effects 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 15
- 230000006399 behavior Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 230000007774 longterm Effects 0.000 description 11
- 230000001360 synchronised effect Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 238000003825 pressing Methods 0.000 description 9
- 238000011161 development Methods 0.000 description 7
- 239000000446 fuel Substances 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000013519 translation Methods 0.000 description 7
- 230000014616 translation Effects 0.000 description 7
- 241000238558 Eucarida Species 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 241000501754 Astronotus ocellatus Species 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000002828 fuel tank Substances 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241001050985 Disco Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000003502 gasoline Substances 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000012035 limiting reagent Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
次に図3を参照すると、一実施形態による例示的なクライアントサイドの音声および接続エンジン109のブロック図が示されている。例示されている実施形態において、クライアントサイドの音声および接続エンジン109は、自動音声認識(ASR)エンジン322、クライアントサイドコンテキストホルダ324、自然言語理解(NLU)エンジン326、ワークアラウンドエンジン328、および接続エンジン330を備える。
次に図4を参照すると、一実施形態に従って、サーバサイドの音声および接続エンジン124がより詳細に示されている。例示されている実施形態において、サーバサイドの音声および接続エンジン124は、コンテキストエージェント422、コンテキストエンジン424、およびフェデレーションエンジン(federation engine)426を備える。サーバサイドの音声および接続エンジン124に含まれるコンポーネント422、424、426は、同じ音声および接続サーバ122上で必ずしもすべて必要ではないことは理解されるであろう。一実施形態において、モジュール422、424、426および/またはその機能は、複数の音声および接続サーバ122に分散される。
図5、図6、および図7は、図1〜図4に関して上で説明されているシステムによって実行される様々な方法500、508、700を示している。
GoPadプロジェクトの要約
GoPadは、車載Androidデバイスをより安全に、より便利に体験できるようにすることによってAndroidデバイスおよび車両ユーザ挙動データを生成するアクセサリ製品である。GoPadは、精選されたAndroidデバイスを車両により緊密に統合する。しかしながら、GoPadは、Androidデバイスとの統合に限定されず、他のデバイス(たとえば、iOS、Windows、Fireなど)とも統合し得る。
・ 車両情報をキャプチャし、システムに送信して分析し、ユーザに提示するためのOBD2 Readerハードウェアデバイス
・ 内蔵Bluetooth(登録商標)接続を有しない車両にハンズフリー機能を実現するクレードル内のBluetooth(登録商標)ラジオおよびデュアルマイクロフォン
・ 車両ステレオシステムへのAux-in接続を介したオーディオを用いる、音声ダイヤルおよび制御を含む、ハンズフリー携帯電話の使用
・ 車両ステレオシステムへのAux-in接続を介したオーディオを用いる、音声開始および音声制御を含む、ハンズフリーナビゲーション
・ Aux-inステレオ接続を介したカーステレオへのオーディオ出力を備えるメディア再生
・ 充電および使用のためのUSB(車両aux電源ポート)を介したAndroidデバイスへの給電
・ 音声および接続プラットフォームを介したすべての音声制御機能のためのインテリジェントエージェントアシスタンス
・ 音声および接続プラットフォームを介したインテリジェントエージェント、ユーザデータキャプチャ、コンテンツの配信のためのクラウド接続ウェブサービス
・ ユーザの運転体験を高めるためのAndroidデバイス上の運転効率およびフィードバック特徴
・ Androidデバイスのアイズフリー使用をさらに可能にするためのクレードル上の最適化された一組の物理的コントロール
・ ドライバが使用したいアプリを容易に、安全に起動することを可能にするための単純なアプリランチャメカニズム
・ サードパーティソフトウェアがクレードルの物理的ボタンを利用することを可能にするための単純な物理的/エージェントコントロールAPI
・ ハンズフリー着信テキストメッセージ読み上げ
・ ハンズフリーFacebookアクティビティ読み上げ
クレードルの設計
機械設計
クレードルは、2つの部分、すなわち1)ベースクレードルユニットと2)デバイス特有のアダプタとに分けて設計される。すべての主要機能は、ベースクレードルユニットに入り、アダプタはAndroidデバイス特有の物理的および電気的装着機能のみを受け持つ。
クレードルの全体的設計は、可能な限り直接的な観察/相互作用が少なくなるようにしつつユーザがアクションを完了するのを支援すべきものである。ボタンは、触って違いがわかるものであるべきである、適切であれば聴覚的/触覚的キューが使用されるべきである、など。
ボタン
クレードルは、アイズフリーの使い勝手を高めるための物理的コントロール(ボタン)の選択を含む。
・ エージェントボタン:音声制御をアクティブ化する、アプリランチャをアクティブ化する、など
・ 進むボタン:次のメディアトラック、通話終了/拒否
・ 戻るボタン:前のメディアトラック、通話応答
・ 再生/一時停止ボタン:メディアを再生するか、または再生を一時停止する、通話ミュート
光の少ない環境内で使用するために物理的コントロールのバックライト照明/ハイライト照明が必要である。照明/凡例は、次のように振る舞うべきである。
・ 進む/通話終了ボタン:通話がアクティブであるときを除き既定の照明を使用すべきである。通話がアクティブであるときに、通話終了凡例が、通話が終わるまで点灯しているべきである。
・ 戻る/通話応答:通話がかかってきているときを除き既定の照明を使用すべきである。
・ 再生/一時停止、ミュート:通話がアクティブであるときに、通話ミュート凡例が、点灯しているべきである。ボタンが押された場合、通話はミュート状態に入り、ミュート凡例バックライトは、赤色に変化して、ミュートステータスを指示するべきである。ボタンを再び押すと、ミュートステータスと凡例バックライト色とが切り替わる。
クレードルのファームウェアは、デバイス上で実行されているGoPad Androidアプリケーションの制御の下で現場アップグレードが実行され得るように設計される。
クレードルの設計は、デバイスからUSBオーディオを受け付けるステップ(デバイスがその機能を有しているとき)およびそれをクレードルのline-outに中継し、カーステレオのAux-Inを介して再生するステップを含み得る。
最大電力の供給
クレードルは、それ自体の電力ニーズに加えて、いつでも5.1V、2Aの電力をデバイスに供給することができるものとしてよい。
クレードルは、次の機能が使用されている間、同時に充電状態に加えられる十分な電力を各デバイスに供給し得る。
・ ハンズフリー通話進行中
・ ハンズフリーナビゲーション進行中
・ メディア再生進行中(場合によっては一時停止)
クレードルは、固有デバイスID、さらにはハードウェアとファームウェアの両方のバージョン番号をサポートし得る。Androidアプリケーションは、これらの固有IDに対する読み取り/クエリを実行することができるものとしてよい。
クレードルは、ソフトウェア開発およびデバッグ目的のためのアクティビティログ記録をサポートし得る。これらのログは、Androidアプリケーションにアクセス可能であってよい。
必要なケーブルは、以下のとおりである。
・ USBケーブル(給電用)
・ ステレオauxケーブル(オーディオ出力用)
ハードウェアのOBD2リーダデバイスが必要である。このデバイスは、車両情報を収集し、それをOPIシステムにアップロードして、分析し、その後ユーザに提示する。
ネイティブのBluetooth(登録商標)ハンズフリー機能を欠いている車両のため、GoPadはそのような特徴を備える。次のハードウェアコンポーネントが必要である。
エコーキャンセルおよびノイズ除去技術とともに、デュアルマイクロフォンが必要である。非常に高いレベルの音質が要求される。通話の遠隔端の人は車載ハンズフリーデバイスを介してユーザが話していると決定することができないことが望ましい。
GoPadクレードルは、ハンズフリープロファイルをサポートするBluetooth(登録商標)ラジオを含む。デバイスは、クレードル内に挿入されたときにクレードルBTラジオに自動接続し、取り外されたときに切断する。BT接続が何らかの理由により切れた場合、接続は、即座に再確立される。
軽量ランチャ
軽量ランチャは、デバイスがクレードル内に置かれると自動的にアクティブ化し得る。アクティブである場合、電話がクレードルから外れたときに非アクティブ化すべきである。初期セットアップの体験は、可能な限り滑らかであり、ユーザによる最小限度の手作業による構成を必要とすべきである。
・ デフォルトショートカットバー:
○ 電話をかける
○ メッセージ:テキスト、メール、およびFacebookメッセージ
○ ナビゲーション
○ ニュースキャスター:一般およびトピックニュース+Facebookユーザタイムライン
○ メディア再生:ローカルおよびオンラインストリーミングメディア
・ 自動車パーソナルアシスタント
・ アプリケーションリスト
・ 車両モジュール
・ GoPad設定
ランチャは、オーディオ出力音量を固定レベル(TBD)に設定し、ユーザは、車両のステレオ音量調節を使用して音量を調整する。
クレードルに装着しているときに、デバイスは、自動画面輝度調節に強制されるべきである。これは、デバイスがクレードルから取り外されたときにユーザの設定に戻るべきである。
クレードル上の物理的コントロールは、それらがどのように使用されるかに応じて次の機能を有する。
自動車パーソナルアシスタント(エージェント)は、エージェントボタンを1度押しすることによってアクティブ化される。エージェントは、声で応え、それが使用可能状態にあることを指示する。
1.待機モード:ユーザは、ボタンを押して音声認識をアクティブ化する必要がある
2.発話モード:エージェントは、ユーザに対してプロンプトを発話している
3.聴取モード:エージェントは、ユーザのセンテンスを聴いている
・ 特徴カテゴリの間のアプリ内ナビゲーション(電話、メッセージ、ナビゲーション、メディア、ニュース/Facebook、車両、設定)
・ 通話応答/通話拒否/連絡先からのダイヤル/通話履歴からのダイヤル/任意の番号へのダイヤル。通話拒否は、APIによってサポートされていないように見えるので、われわれは、ユーザが拒否を選択した場合に電話が鳴るのを停止し、着信表示をクリアし、次いで、ユーザがそれに応答しなかった(本質的には生じたことである)かのように呼を自然に音声メールに進むことを可能にするべきである。
・ ナビゲーションを開始/キャンセルする。住所を直接話すか、または住所を間接的に話す(住所、国、町、通り、...の一部)、連絡先から住所を取得する、お気に入りの場所から住所を取得する。
・ ローカルビジネスを検索し(「Find me the nearest Starbucks」)、そこへのナビゲーションを開始する。
○ ローカルビジネスは、Google Maps APIまたはYelpで見つかり、ジェネリックコネクタは、将来、ローカルビジネスロケーションソースAPIの統合を可能にする必要がある。
・ ローカルメディアを再生する。プレイリスト/アルバム/アーチスト/楽曲/シャッフル
○ オンラインメディアはCPAの第2のバージョンに統合される必要がある:Spotify、Pandora
・ 車両ステータス警告(お知らせのみ)。燃料レベル低下。エンジン警告灯をチェック。など。
・ サードパーティアプリケーションを名前で起動する。
・ ニュースカテゴリを選択し、読み上げる
・ Facebookの更新を読み上げる
一般的なパターン
アプリケーションの音声シナリオを構築するアプローチは、次の事実に基づく。
・ 音声認識が働く確率は、非常に限られている
・ エージェントは、否定的対話を制限する必要がある。
・ ユーザは、自分が行いたいアクションを達成するために可能なより小さい音声コマンドを与える必要がある。
・ 対話の実行は、ASR信頼度によってではなく、達成する時間によって評価する必要がある。
直接音声パターンは、音声認識の分野では普通のものである。その品質は、ASRの信頼度とNLU(自然言語理解)の信頼度とによって妥当性確認される。
・ 私は多数の電話番号を持っている人に電話をかけたい
・ 私は多数の電話番号と電子メールアドレスを持っている人にメッセージを送信したい
・ アドレスは直接音声認識によって間違ったアドレスであり、私は何もタイプ入力することができない(運転中のため)
WARパターンは、音声および接続プラットフォームが人間と機械との間の継続ダイアログ(一連の質問/回答の後に、エージェントは音声認識ボタンのアクティブ化を自動的に起動する)および時間的ダイアログマトリックスコンテキスト(Temporal Dialog Matrix Context)(TDMCの説明については以下参照)の作成を可能にするという事実に基づいている。
・ リスト項目選択
○ ナビゲーション項目のステップおよび番号の選択のあるリストの場合
・ 頻度履歴プロアクティブ性(Frequence History proactivity)
○
・ ステップバイステップ選択
・ 各項目は、1から5までの数字を有する。
・ 各項目は、ラベルによって読み取られる
・ 一般的リスト
○ エンティティフィルタ
○ アルファベットフィルタ
・ アルファベット番号
・ 履歴番号
Androidアプリが起動するときに、またデバイスがクレードル内に置かれたときに必ず、商標設定を表示するスプラッシュ画面が短時間表示される。
ランチャログイン画面は、最初に電話がクレードル内に置かれているときに、またはユーザがAndroidアプリケーションから例示的にログアウトしたときにスプラッシュ画面の後に続く。これは、商標設定を表示し、ユーザ名/パスワードによるログインを提示する。アカウント作成リンクも提示され、これにより、ユーザは、必要ならば電子メール、ユーザ名/パスワードまたはFacebookアカウントを介して新規アカウントを作成することができる。
ホームボタンが押されたとき、または電話がクレードル内に置かれたときに、ホーム画面は、上部に主要機能へのショートカットボタンを並べ、下部に何らかのステータス情報(温度およびコンパス方位)が示されている現在位置の地図を表示する。上部のバーは、ステータスおよび通知情報も適切なように反映する。
・ 不在着信
・ 着信メッセージ
・ 車両故障
GoPadは、カスタムGoPad電話UXの背後でストックAndroid電話API(stock Android telephony API)を使用する。
エージェントは、電話着信情報(電話をかけてきた人が連絡先に載っている場合には電話をかけてきた人の名前、そうでない場合には電話番号)を読み上げ、着信音を無音にし、必要ならばメディア再生を一時停止し、次いで、ユーザアクションを要求すべきである。ユーザは、次の3つの方法のうちの1つで応答することができる。
・ 口頭で、電話を受けるか、または通話拒否して、それを音声メールに送信する。
・ 画面上のタッチボタンを介して通話を許可/拒否する
・ 前のトラック/通話許可または次のトラック/通話拒否ボタンを介する
電話発信は、エージェントボタンを押してエージェントを目覚めさせ、次いで、ダイヤルコマンドを番号または連絡先の名前とともに発話することによって口頭で開始され得る。
すべての通話ステータス情報は、画面上部のステータスバーによって取り扱われる(上記のホーム画面参照)。
メディア再生
メディアプレーヤは、次の選択カテゴリを介してAndroidネイティブメディアファイルを再生するために使用される。
・ アーチスト
・ アルバム
・ プレイリスト
・ Google Play Music
・ Android Music App
基本的ナビゲーション
ナビゲーションメカニックスは、ストックAndroid Google Navigationアプリケーションを介して取り扱われる。LWランチャおよびエージェントは、音声フロントエンドをGoogle Navに提供し、これは次のうちの1つを選択することによって宛先へのナビゲートを開始するために使用され得る。
・ お気に入り
・ 最近の宛先
・ 電話帳連絡先
・ 任意の住所(「333 West San Carlos, San Jose, California」)
エージェントは、電話帳に載っている場合に送信者の名前を含む、テキストメッセージを受信していることをユーザに口頭で通知し、折り返し電話するオプションを与えるか、または「I am driving right now and will get back to you shortly」の形態の自動化されたユーザ定義の決まり文句の応答を送信するべきである。
GoPad Facebookアクティビティリーダは、GoPadアプリに組み込まれる。この特徴は、Facebookウォール投稿をユーザに読み上げて、リンク用に大きいボタンを提示する。
GoPadアプリケーションは、ニュースキャスターの方式の統合ニュース読み上げを含む。これは次の特徴をサポートする。
・ お気に入り
・ 最近
・ ニュースカテゴリ(すなわち、技術、スポーツ、など)
・ 誕生日リマインダー
車両ステータス機能を起動すると、BT OBDリーダからのデータに基づき次の情報が表示される。
・ 車両がOBDを介した燃料レベル測定をサポートしている場合に、マイル/kmおよび燃料を満タンにする必要がある状態になるまでの現在の速度での時間の範囲(この数は、控えめであるべきである)。これは、最近の挙動のTBDウィンドウ上で計算されるべきである。ワークアラウンドは、OBDを介して燃料タンク残量ステータス情報を提示できない自動車には非常に望ましいものである。
・ MGP、このトリップおよび全トリップの移動平均
・ 本質的に加速度/減速度を測定し、アクセルおよびブレーキペダルを穏やかに操作するようにグラフでドライバに促す瞬間的運転効率表示、それに加えて、時間の経過とともにドライバのパフォーマンスがどのようであったかを示す履歴的表示(たぶん自動車のEPA評価に対してプロットされる?)。
・ 経過したトリップ時間、トリップ中の効率、使用された燃料などを含む、トリップ統計量
・ トリップ統計量をゼロに設定するリセットボタン
・ 最近の走行履歴に基づき時間(日数)に最適に変換された、間近に迫っている必要なメンテナンス(車両データベースからのメンテナンススケジュール情報に基づく)。
・ 故障診断エラーコード
・ 車両セキュリティ(安全でない車両挙動、重要な尺度など)
・ 燃料が少ない(閾値TBD、最近の運転に基づき変化し得る--上記参照)。これは、燃料レベル読み取り機能に依存する(上記参照)。
・ 即時ドライバアクションを必要とする致命的な車両エラー(エラーコードリストはTBDである)(すなわち、「Pull over and shut off the engine as soon as it is safe to do so」)
GoPadアプリケーションは、GoPadがネイティブで提供しない機能を備えるサードパーティAndroidアプリケーションを起動する速くて簡単な方法となる。サードパーティアプリランチャは、車両の運転中にアプリケーションを容易に起動させる大きなタッチターゲットを備える。
設定領域は、ユーザが自分の好みに合わせてGoPadアプリケーションを構成する場である。設定の最終リストはTBDであるが、以下を含む。
・ 着信テキスト自動応答決まり文句
・ 着信Facebookメッセージ自動応答決まり文句
・ BT OBD2アダプタ選択(ペアになっているBT OBD2アダプタのリストから)
・ エンジン排気量
・ エンジン形式(ガソリンまたはディーゼル)
・ 測定単位(ヤード・ポンド法またはメートル法)
複数の車両/クレードルを識別する能力が必要である。車両/クレードル毎の追跡する項目は、以下を含む。
・ ナンバープレート
・ VIN(OBDがそれを提供していない場合)
・ クレードル固有ID
クレードルペアリング
初回そのクレードル内に挿入されたときにランチャがデバイスとクレードルとのペアリングを自動的に行えることが必要である。
次のデータが、収集され、システム内に記憶されるべきである。
・ ユーザ名/電子メール/電話番号
・ 自動車情報
○ VIN番号
○ ナンバープレート番号
・ 運転ログ(タイムスタンプが付けられたすべてのエントリ)
○ 自動車
・ 距離
・ 速度
・ エンジン運転時間
・ ロケーション
・ ナビゲーション目的地
○ アプリケーション
・ すべてのユーザ対話は、ソフトウェアの精密化を目的としてログに記録されるべきである。
・ エラーコードログ
・ 燃費効率
各データまたはデータの型についてデータ収集の最も容易な方法が採用されるべきである。ユーザに代わってデータを提供することができる場合、そうすべきである(たとえば、その情報についてユーザに尋ねるのではなく、VIN番号に基づき燃料タンクサイズを決定することができる場合、そうすべきである)。
収集データのいくつかの型は、総計でのみ興味のあるものである--ユーザ固有の形式の値を有しない。Mixpanelなどのサービスによって収集されるソートのアプリケーション自体のユーザビリティデータ(すなわち、ボタンクリックのパターンなど)は、このカテゴリに入る。このデータは、実用的である場合データプライバシーの理由で匿名化されるべきである。
軽量ランチャは、OTA更新メカニズムが新規ソフトウェアバージョンを現場でデバイスにプッシュアウトすることを可能にする必要がある。
デバイスがクレードルに入っていて、そのアプリがフォアグラウンド(または、いくつかの場合において、バックグラウンド)で動作している間に、サードパーティアプリ開発者がクレードルの物理的コントロール、さらにはエージェントコマンドに応答することを可能にする単純なソフトウェアAPIが必要である。
物理的コントロールAPIは、次の3つのボタンのみに対する3つのコマンド入力(1度押し、2度押し、長押し)を可能にすべきである。
・ 前のトラック
・ 再生/一時停止
・ 次のトラック
サードパーティアプリは、単純なAPIを介して特定の音声コマンドを受け入れるように登録し得る。コマンドの例は、以下を含み得る。
・ 「Next track」
・ 「Previous track」
・ 「Pause」
a.アプリケーション説明
アプリケーションOscarは、運転しているときにお気に入りアプリケーションの使用のための専用のアプリケーションである。
・ タッチスクリーン(アプリケーションのボタンインターフェース)
・ 物理的ボタン(OEの場合には自動車からまたは補修部品市場についてはクレードルから)
・ 音声コマンド
・ 電話をかけ、電話を受ける
・ メッセージを送信し、受信する(テキスト、メール、およびFacebook)
・ ナビゲーションを定義する:1回限り
・ ニュースを読み上げ、シェアする
・ 音楽を再生する
・ 音声認識が作動していない=ユーザのセンテンスを制限する
・ 自然な対話=人間のダイアログを可能な限り速やかに閉じる
・ エージェントのフィードバック長を制限する=短いセンテンス
・ エージェントのネガティブフィードバックを制限する=〜でない、ない、知らない、...
・ ユーザ反復を制限する=「say again」と訊かない
以下に進む。
c.アーキテクチャに基づくユーザエクスペリエンス
d.検出された鍵となる革新
i.継続ダイアログ
ii.全画面エージェントアクティブ化
iii.自動ウェイクアップ
iv.リストナビゲーション
1.音声ナビゲーション:次、前、先頭、最後
2.アルファベット順に進む
3.リストを音声再生する
a.音声フィードバック最適化
i.クエリから
ii.前の再生から
b.ステップ再生
4.選択
a.ターゲットとなる項目の数で
b.ターゲットとなる項目の部分的内容で
5.インテリジェント選択
a.ドライバによる使用から学習
v.リストフィルタ
1.アルファベット順フィルタ
2.履歴フィルタ
3.頻度履歴
4.連続的フィルタ
vi.ボタンピクセルユーザエクスペリエンス
vii.
・ 電話モジュール
e.はじめに
f.構造
g.説明
h.ユーザエクスペリエンス
・ メッセージモジュール
・ ナビゲーションモジュール
・ ニュースモジュール
・ メディアモジュール
音声および接続プラットフォーム
エグゼクティブサマリー
自動車市場は、様々な種類の断絶の中に存続しており、われわれが自動車市場破壊と呼ぶことができる新しい革命の中に生きている。電気エンジンから無人自動車まで、自動車のデジタル化は、前進し続けており、自動車組み立て会社全体は、デジタルの寿命と車両の寿命とに関する大きな問題のうちの1つに直面している!
要約
xBrainSoft Voice & Connected Platformは、いくつかの実施形態においてオンボード環境とオフボード環境との間のリンクを確立するように成されている高度なプラットフォームである。
xBrainSoft Technologyの技術的ブレークスルーのいくつかの下に、クラウドプラットフォームおよび組み込みプラットフォームによって組み立てられる「音声および接続環境」がある。
・ ハイブリッド設計:「Server, Embedded and autonomous Synchronization」
設計により、音声および接続プラットフォームは、ローカルとリモートの両方で実行するアシスタントを備える。アシスタントのこのハイブリッドアーキテクチャは、強力なメカニズムに基づき構築され、処理の分散、完全なコンテキスト同期の維持、およびユーザインターフェースまたはさらにはダイアログ理解の更新を行う。
・ ダイアログフロー作成のための機能ツールのセット
当初から、xBrainSoftは、アシスタントの開発を加速し、改善するためにわれわれの技術の周辺に最良のツール群を用意することに大変な努力をしている。これは、ダイアログ言語マネージャ、機能モジュールの再利用可能性、VPAの開発自動化またはメンテナンス、およびクライアントデバイス上のポータビリティを高める完全な開発者環境を含む。
・ 識別情報およびデバイスフェデレーションサービス(VCP-FS)
音声および接続プラットフォームフェデレーションサービスは、ユーザ識別情報およびデバイスを連合させるサービスである。VCP-FSは、ソーシャル識別情報(Facebook、Twitter、Google+)およびユーザの所有する接続デバイスを取り扱い、これは広範な方法で仮想パーソナルアシスタントによって提供されるキャパシティおよび機能を高めるものである。VCPフェデレーションサービスは、ユーザのソーシャルネットワーク、さらにはその習慣を利用することによってユーザエクスペリエンスを高める。
・ 自動車アプリケーション対応のスイート(CPA)
音声および接続プラットフォームの上に、xBrainSoftは、天気、株式、ニュース、TV番組、連絡先、カレンダ、電話、などとして音声、タッチスクリーン、または物理的ボタンのいずれかによって使用される、自動車パーソナルアシスタント(CPA)製品を作成するための車両用のアプリケーションスイートを提供している。
xBrainSoftは、また、自動車のCANネットワーク、そのGPS測位、および温度、ワイパー状態、エンジン状態、などのような様々な車両センサにアクセスできる完全統合アプリケーションを作成するためのSDKを提案している。
・ オフボードデータシンクロナイザ
音声および接続プラットフォームは、グローバルデータシンクロナイザシステムを備える。このメカニズムは、モバイルデータ接続の巡回および低容量によって引き起こされる問題となる同期を対象とする。これは、どのように行われるかではなく、同期させる必要のあるデータについて開発者が集中することを可能にすることを意図して同期システムの構成可能な抽象化を実現する。
・ 外部APIオートバランサー
外部APIを使用することはシナリオに対しては大きな強化となるが、サービスが利用不可能になる可能性があるときに、またはクライアントが複数の要因(価格、ユーザ加入、...)により特定のサービスを使用することを望む可能性がある場合に副作用をもたらす。これらの特定要件に応えるために、音声および接続プラットフォームは、高度に構成可能であり、第3のデータプロバイダをプラグインとして組み込むように設計された(たとえば、マイクロ課金管理システム上に接続するためのイベントハンドラーによるAPI消費管理)。
機能は、単一の外部APIには依存しないが、それらの多くを管理することができる内部プロバイダに依存する。このアーキテクチャに従って、VCPは、XXXXX要件を満たすように構成され得るオートバランスシステムを実現する。
・ プロアクティブダイアログ
音声および接続プラットフォームは、初期要求なしでユーザとのダイアログを開始するためのエキスパートシステムおよびメカニズムを統合している。
それとともに、ユーザの注意が利用可能になった後に関連する情報を与えるものとして、またはプロアクティブなダイアログ頻度を管理するために、複雑なタスクを達成する一組のツールを備える。
・ 真のコンテキストダイアログ理解
「真のコンテキストダイアログ理解」は、コンテキスト依存の多次元ダイアログフローであり、パラメータとして、コンテキスト履歴、ダイアログ履歴、ユーザ履歴、ユーザプロファイル、ローカライゼーション、現在のコンテキストドメインなどを有する。
各ダイアログを分析するこのコンテキスト依存のアプローチは、アシスタントの知識をストックするために必要なメモリを最小限度に抑えるときのダイアログフローおよび多くの他のポジティブな影響の最もよい1つの精度理解、何らかの種類の途切れの後のダイアログの継続、アプリケーションの翻訳の簡素化、などを可能にする。
・ 無線で更新する
VCPグローバルデータシンクロナイザメカニズムは、車両の寿命の間クラウドプラットフォーム、組み込みプラットフォーム、および接続されているデバイスの間で「無線」により任意の種類のパッケージを更新する方法を提供する。われわれのオンラインソリューションと組み込みソリューションとの間でダイアログ、UI、ログ、スナップショットを同期させるために内部的に使用される、この「無線」システムは、組み込みTTS音声、組み込みASR辞書としてサードパーティリソースを含むように格納され得る。バージョニングシステム、依存関係マネージャ、および高圧縮データ転送に基づき、これは、ハイブリッドソリューションに対する第1のクラスのメカニズムを提供する。
・ 任意のデバイスへのサービスの継続性
音声および接続プラットフォームは、VCPフェデレーションサービスを通じて、ドライバ識別情報およびデバイス上の中断なしでサービスの継続性を実現することができる。接続されているデバイスが増えることで、XXXXX仮想パーソナルアシスタントによってアクセス可能なドライバの注意は、自動車内で費やされる時間を超える。
・ 音声および音響不可知論的統合
音声および接続プラットフォームは、特定の音声技術に依存せず、ローカルの音声エンジンまたはリモートの音声プロバイダのいずれかを音声認識とテキスト読み上げの両方に使用することができる。ローカルのエンジンは、VCPプラグインにカプセル化され、これらはVCPデータ同期メカニズムを通じて容易に更新され得る。リモート音声プロバイダは、VCPとともにクラウドサイドで直接管理しているものとしてよい。
音声認識およびテキスト読み上げにどの音声技術VPAが使用されるかを定義することは、どのようなダイアログについても完全に構成可能である。
・ 人工知能アルゴリズム
制約タイミングにおける結果を得ることに集中することで、音声および接続プラットフォームはAIに関して不可知論的アプローチをとる。このことが、われわれが、CLIPSエンジンを使用してイベントベースのエキスパートシステムで行っているように第1のクラスのすぐに使えるツールを作成するか、または抽象的な仕方でプラットフォームに組み込む理由である。
われわれの専門技術知識は、自然言語、ナレッジグラフ、機械学習、社会的知性、および一般AIアルゴリズムに関するものである。われわれのツール群は、XXXXXが最後の進化をこの自然科学分野に継続的に組み込むことを可能にするための最上位フレームワークと今日利用可能なオープンソースアルゴリズムとの間のリンクである。
・ 自然言語理解不可知論的統合
人工知能アルゴリズムに採用されている戦略と同様に、音声および接続プラットフォームは、自然言語処理モジュールを統合するために不可知論的アプローチをとる。これは、この領域におけるわれわれの専門知識技術に基づき、われわれがコアモジュールの1つを頻繁に更新して正確な理解を最適化し、ユニークなユーザエクスペリエンスを保証することを可能にする。
アーキテクチャ
音声および接続プラットフォームは、「スマートディスパッチャ」と呼ばれる非同期パイプラインに基づく。その役割は、プラットフォームおよび接続デバイス全体にわたってメッセージおよびユーザコンテキストを配信することである。
- UI配信および管理
- オンボードダイアログ管理
- 「損失および回復」接続性シナリオに対するコンテキストロギング
- ログまたは他のサードパーティ同期に対するスナップショットマネージャ
音声および音響
・ 説明
音声および音響の寿命は、第1のクラスのユーザエクスペリエンスを形成するための最も重要な相互作用の1つである。これは、期待した品質を得るために高レベルの注意および高レベルのコンポーネントとともに取られる必要がある。
○ 最高品質のマイクロフォン、フィルタ、ノイズ低減、エコーキャンセル、...
○ 複数のASR/TTSプロバイダ(Nuance、Google、Telisma、Microsoft Speech Server…)の統合
○ 使用事例に関してそれらのプロバイダ同士を切り替えることができること。
- ASR:オンボード、オフボードのストリーミングまたはオフボードリレー
- TTS:オンボード、オフボードの感情的コンテンツ、混合継続性モード
○ ユーザダイアログコンテキストに基づくASR訂正管理
○ 「真のダイアログ」管理
○ 音声キャプチャからASRプロセス終了まで
○ ASRプロセスの後に、自然言語処理から自然言語理解まで
○ あいまい性の除去シナリオ、誤りキーワード、または不完全なエンティティ抽出を簡素化する
○ パターンのデバッギングを簡素化し、自動化ツールの作成を可能にする
○ 「オンザフライ」でパターンの訂正およびメンテナンスを簡素化する
○ パターン辞書をロードするためのメモリリソースを最小にする
○ 言語適応のためのダイアログ翻訳の労力を最小にする
○ ASR/TTSプロバイダの不可知論的アプローチ
○ オフボードASR/TTSリレー容量
○ オンボードダイアログ管理
○ オフボードダイアログ管理
○ 「無線」更新によるハイブリッドダイアログ管理
○ VCPセマンティックツール
○ ダイアログ管理のための統合開発環境
○ 高品質マイクロフォンおよび音取り込み
○ ノイズ低減、エコーキャンセルを含む音声信号処理
○ 自動ブランク検出をサポートするマイクロフォンオーディオAPI
○ オンボードおよびオフボード用の1つまたは複数の音声認識エンジン
○ オンボードおよびオフボード用の1つまたは複数のテキスト読み上げエンジン
○ VCP組み込みソリューション
○ VCPサーバ
音声取り込み:ParrottまたはNuance
音声信号処理:ParrottまたはNuance
ASR:Google、Nuance、またはTelisma
TTS:Nuance、Telisma、またはCreaWave
・ 説明
データ接続が利用可能でないときに自律的であり得る接続およびクラウドベースのパーソナルアシスタントが利用可能である。この目的は、常にユーザへの応答を高速にし、正確にすることができることである。
○ ユーザインターフェースマネージャ
○ サーバと同期されるローカルインターフェース
○ 組み込みダイアログマネージャ
- 純粋な組み込みシナリオ
- オンボード/オフボードのハイブリッドシナリオ
- 純粋なオフボードシナリオ
接続喪失の使用事例でのコンテキスト同期
・ 例示的な要素
・ パフォーマンス
○ CPU:700MHz低電力ARM1176JZ-Fアプリケーションプロセッサ
○ RAM:256MB SDRAM
・ 説明
人工知能は、多くの専門領域にまたがる大きな分野である。
○ 演繹、推論、問題解決
○ ナレッジグラフ発見
○ イベントベースのエキスパートシステムによるプランニングおよび行動
○ 自然言語処理およびセマンティック検索
○ 機械学習、マップレデュース、深層学習
○ 社会的知性、センチメント分析、社会的挙動
○ まだ発見されていない他の用途
匿名化された方法でデータを外部AIモジュールに提供する能力。ユーザまたはセッションは、ランダムな固有の数として表され、それにより外部システムはその情報を物理的ユーザに相関させることができなくても正しいレベルで動作することができる。
・ 例示的な要素
○ Apache Hadoopに基づくVCPデータ記憶装置
○ VCPイベントベースのエキスパートシステム
○ VCPフェデレーションサービス
・ 説明
自動車内のユーザに提供されるサービスを豊かにするために、オフボードプラットフォームは、その高い可用性および強力なコンポーネントにより高いレベルの接続機能を提供する。ユーザは、自動車サービスに集中している多くの学問領域にわたる知的なエコシステムの中心に置かれる。オフボードプラットフォームは、また、自動車サービスと接続サービスとを混合する機能をもたらすエントリポイントでもある。
○ クラウド内またはオンプレミスホスティング
○ 高い可用性および負荷変動に対してクラスタ化アーキテクチャ配備を進める用意ができている
○ クラスタ化アーキテクチャ上のデバイス間機能
○ VCPサーバ
○ サードパーティデータプロバイダ
・ 説明
サードパーティデータサービスプロバイダとして、XXXXX SIGは、われわれの現在の実装されているプロバイダに加えて音声および接続プラットフォームによって使用され得る。抽象化レベルが高いので、われわれは、異なるサードパーティデータサービスプロバイダを実装し、それらをプロジェクト寿命においてVPAの機能部分を更新することなく統合することができる。
○ XXXXX接続サービスAPIの完全統合を可能にするモジュール式アーキテクチャ
○ My XXXXXは、VCPフェデレーションサービスの既定の識別情報プロバイダとして実装されるものとしてよく、これによりユーザが自分のソーシャル識別情報をリンクするときに安心感を得ることができる。
○ エンドユーザのプライバシーを保護するための高レベルセキュリティ
○ M2Mネットワークとしての自動車接続のための安全なインフラストラクチャ
○ VCPフェデレーションサービス識別情報プロバイダを実装するためのトークンベースの認証API
・ 説明
ダイアログ、アシスタント挙動、または機能個人化には、効率的なコンテキスト管理が不可欠である。エンジンレベルで実装されるので、ユーザコンテキストは、増強され個人化された体験を可能にするために音声および接続プラットフォームのコンポーネントによってアクセスされ得る。
ユーザコンテキスト管理は、エンジン特徴として組み込まれ、音声および接続プラットフォーム内を横断している。これは、システム内のモジュール、ダイアログ、タスク、またはルールでアクセスされ得る。これは、また、VCPフェデレーションサービスの実装とデバイスにまたがって共有され得る。
○ VCPデータ記憶装置
○ 要求条件に基づきHadoopインフラストラクチャを定義する
・ 説明
プロアクティビティは、エンドユーザのためによりスマートなアプリケーションを作成するための鍵の1つである。
○ バックグラウンドワーカー:主パイプラインに再接続し、ユーザセッションと対話するか、またはフォールバック通知ツールを使用することができる完全なバックグラウンドタスクシステム
○ イベントベースのエキスパートシステム:外部センサおよびユーザコンテキストに反応することができる完全統合ビジネスルールエンジン
○ コンテキスト項目にリアルタイムでプロアクティブに反応するイベントベースのエキスパートシステム
○ 相互デバイスプロアクティブエクスペリエンスを可能にするためのVCPフェデレーションサービスの使用
○ プロアクティブなフォールバックの使用事例に対する主要通知プロバイダの実装を提供する(Google、Apple、Microsoft…)
○ 機能の観点から、プロアクティビティチューニングのレベルはユーザ設定として公開され得る。
デバイスの知識に対するVCPフェデレーションサービス
フォールバックの使用事例に対する通知プロセスをサポートするデバイス
・ 説明
一般アップグレード可能性は、自動車産業に関して重要なプロセスである。自動車は、自動車ディーラーにそれほど頻繁には訪れていないので、全体的なソリューションは、「無線」更新の完全なメカニズムを提供するべきである。
○ バージョニングサポート、依存関係解決、および通信圧縮を含む拡張可能な「無線」メカニズム
○ VCPサーバは、車両の寿命の期間内に(新規)モジュールを追加するか、または取り外すことを可能にするモジュール式アーキテクチャに基づく。
○ VCP組み込みソリューションは、新規相互運用性機能を追加し、新しい自動車機能またはメッセージにアクセスすることを可能にするプラグインアーキテクチャに基づく。
○ インターネット接続(ハードウェアおよび接続のタイプに依存する)
・ 説明
デバイス継続性は、音声および接続プラットフォームを通じて、ドライバが自動車内で、ただし外の通りで、または家でも同様に、仮想パーソナルアシスタントに接続することができることを意味する。ドライバは、自分の望むすべての場所からサービスを使用することができる。
音声および接続プラットフォームは、すべての認識されたデバイスからアクセスされ得る標準の保護プロトコル(HTTPS)を通じてサービスを提供する。エンドツーエンドの観点から、音声および接続プラットフォームは、Android、iOS、Windows+Windows Phone、およびEmbeddedとしてすべての主要デバイスプラットフォームに対するフレームワークおよびツールを提供する。
VCPフェデレーションサービスは、サービス継続性の中心にある。
・ 説明
XXXXXの国際化の程度が高いので、VPAは、文化的または地理的な観点でユーザに適応することができる。これは、ユーザに提供されるすべてのスクリプトおよびインターフェースの翻訳、ASR&TTSプロバイダの構成、およびもし必要ならばいくつかのシナリオの挙動の修正を暗示する。
完全なモジュール式アーキテクチャに基づき、音声および接続プラットフォームモジュールは、国際化設定に従って差し込むことができる。これは、地域に応じて異なるサービス配信または特徴を管理することを可能にする。
○ APIを通じて翻訳をサポートする外部サードパーティデータプロバイダ
○ 選択された言語用のASR/TTSプロバイダ
○ VCPフェデレーションサービスに対するエンドユーザのソーシャル識別情報を定義する。たとえば、Twitterの代わりに中国のWeibo。
○ 使用事例およびVPA挙動をエンドユーザの文化および地域に適応させる
説明されているのは、一般的アプローチ、さらに、われわれがSiri、Google Now、Nuance、…のような他の製品または様々な実施形態による任意のタイプのパーソナルアシスタントに関してわれわれの製品のどこに付加価値があるかである。
・ VCP=音声および接続プラットフォーム
・ ASR=自動音声認識
・ TTS=テキスト読み上げ
・ TUI=タッチユーザインタラクション
・ VUI=音声ユーザインタラクション
・ NLU=自然言語理解
ASRエンジン:
・ ASR(自動音声認識)の前に、われわれは、3通りの方法でASRをアクティブ化することができる。
○ ASRオートウェイクアップ語:アプリケーションを目覚めさせ、ASRを起動するためにキーワードを使用するために利用可能である(Angie、Sam、ADA、...など)
○ ASRプロアクティブアクティブ化:内部イベントまたは外部イベントに依存する
・ タイマ:タイマに基づき毎日オートウェイクアップする
・ 内部イベント:デバイスコンポーネント(GPS、アクセラレータ、...)またはアプリケーションの機能もしくはモジュールからの内部イベント
・ われわれは、あなたがあなたの自宅にいることを検出し、あなたの何かへのASR(コンテキストプロンプト付きでTTS)を開始することができる。
・ 私が私の自動車内にいるときに(私が電力およびOBDを検出したので)、私は音楽を起動し、ナビゲーションを開始するようあなたに提案することができる。
・ あなたのカレンダに新規約束が載っていたときに、エージェントは、自動的に開始し、あなたが次の会合に行くのにナビゲーションを望んでいるか(自動車が必要な場合)をあなたに尋ねることができる。
・ 外部イベント:われわれは、データベースまたはサードパーティAPIから外部イベントを検出し、ASR/TTSをアクティブ化する
・ あなたが目的地の近くに到着したときに、システムは、外部パーキングアベイラビリティAPIを見て、いつ自動車を駐車できるかをあなたに知らせることができる。
・ あなたが交通渋滞に巻き込まれたときに、システムは、自動車による方向変更を評価することができるが、目的地に行く仕方を変更する機会も評価し、自動車を駐車場に停めて、列車に乗ることを提案することもできる。
○ ASRプッシュボタン:仮想ボタン(画面)を単純にクリック(押す)ことで、または物理的ボタン(クレードルまたはホイールボタンから)からエージェントのアクティブ化を行うこと
・ ASRのアクティブ化(音声入力)
・ ASR-NLU前処理=アプリケーションのコンテキストに基づき、われわれは、センテンス(その信頼度とともに)取り出し、それを作り直してから自然言語理解エンジンに送信することができる。
○ われわれは、電話をかけるモジュールコンテキストに置かれていることを知っているので、われわれは、センテンス内の単語を取り出すか、または変更してからNLUエンジンに送信することができる。
○ フランス語で、ユーザが次のように言ったとき、
・ 「donne-moi l'information technologique」=>ASRはわれわれに「Benoit la formation technologique」を送信することができる(完全にユーザの注意から外れている)
・ われわれは、単語「Benoit」を「Donne-moi」に、「formation」を「information」に修正することができる
・ 前処理の後、センテンスは、NLUによって理解される機会を完全に拡張し、ユーザに対するアクションを形成する。
・ 特定のモジュールを起動するためにユーザの意図を検出し、各検出は以下の次の章で説明されているようにアプリケーションのコンテキストにおいて動作する。
○ サンプル
・ Gregoryに電話をかける=電話モジュール
・ Basienにテキストを送信する=メッセージモジュール
○ キーワード=モジュール内を直接アクセスするためのキーワード
・ 電話=電話にアクセス権を与える
・ ナビゲーション=電話にアクセス権を与える
○ ショートカット=スキーマにリストされているような主アクションに対してのみ、アプリケーション内の任意の場所からユーザが言うことができるセンテンスである。
・ モジュール(意図)からのアクション(機能)の検出
○ サンプル
・ 電話をかける=Gregory Renardに電話をかけるアクション
・ このセンテンスは、モジュール、アクション、およびエンティティ(人=Gregory Renard)を検出することを可能にする
・ 既定のモジュールのリスト=われわれは、アプリケーションが何を行え、何を行えないかを正確に知っているので、われわれは、ユーザがアプリケーションが行えない何かを行おうとしていること、またはたぶんわれわれがASRから悪い結果を返されていることを検出することができる。この場合、われわれは、既定のモジュールをアクティブ化して、ユーザの意図のセンス(sens)を検出することができる(典型的には、SiriおよびGoogle Nowがユーザをウェブ検索にプッシュする場合)。
○ アプリケーションにおいて利用可能なモジュールのリストのユーザへの提案(限定することなく、われわれは、必要なアプリケーションのタイプからモジュールのリストを拡張することができる)
○ ユーザが再び何か間違ったことを言った場合、または音声認識が作動していない場合=システムは、センテンス音声認識から数認識に切り替えることを提案する。
・ ユーザはシステムが認識しない何かを言った場合、システムはこう言う=「what application do you want to launch」+アプリケーションのリストを開く
・ ユーザが再びシステムが認識しない何かを言った場合、システムはこう言う=「what's the number of the application you want」(われわれは、このワークフローを任意のタイプのリストにおいて連絡先、住所、アルバム、アーチスト、ニュースカテゴリ、メッセージとして使用する)
○ ユーザは選択を行う
・ システムは、モジュールに対する既定の項目リストを示し、モジュール内で利用可能な機能を提案する(音声および/またはビジュアルで)。ユーザは、この場合に、達成するガイダンスで選択を行うことができる
○ リストは、以下のものとすることができる。
・ フィルタ:Malvoisinに電話をかける=>Celineにフィルタリング=連絡先リストについてCeline Malvoisinのリストを表示する
・ 文字でフィルタリング:任意のリストに基づき、文字で次々にフィルタを作成することができる
・ ユーザは次のように言うことができる:
・ 文字M、文字A、文字L、...でフィルタリング(これは発音できない連絡先へのアクセスを可能にする)
・ 文字でフィルタリングにより項目のラベル内の単語のフィルタリングを行う。
・ 文字ナビゲーションでフィルタリング:任意のリストに基づき、ユーザは、「go to the letter V」と言うことができる
・ エージェントは、文字Vで始まるすべての連絡先を直接表示する
・ ナビゲート:ユーザは次のようにリストをナビゲートできる
・ 次/前=現在のリスト内の項目の次または前のリストを表示する
・ 開始=リスト内の先頭の項目を表示する
・ 終了=リスト内の末尾の項目を表示する
○ リストは、いつでも読み上げ可能である。
・ 項目リストの任意の画面内で、ユーザはリストを読み上げるよう求めることができる
・ リストは次のように読み上げられる
・ 各項目が読み上げられ、その後に番号が続き、ユーザが項目番号を記憶しやすいようにする
・ 各項目の内容は、前の項目の連絡先がわれわれがすでに知っている部分と一体にならない場合に読み上げられる
・ 電話番号リスト内にMalvoisinという5つの連絡先があるとする(Celineについて電話は3つの異なるタイプ、Lucについては1つ、Gregoireについては1つ)
・ ユーザは次のように言う:(われわれは、エージェントが話しているときに内容を繰り返さない)
・ Celine、Mobile USは番号1(Malvoisinはないが、それが私の要求であり、私は私が読んでいるときに私がMalvoisinの連絡先を望んでいることを知っているからである)
・ ホームは、番号2である
・ オフィスは、番号3である
・ Luc, Mobileは、番号4である
・ Gregoire、ホームは、番号5である
・ ユーザによる項目選択
○ 項目番号選択=ユーザが項目の前の番号から項目を選択することを可能にする(われわれは、1から5までの番号のみを扱っている)
○ 項目内容選択=ユーザが項目のラベル(たとえば、celine)から項目を選択することを可能にする
・ タプルの検出後=モジュール、機能、およびエンティティ(項目選択)
○ システムは、2タイプの機能で処理を実行することができる
・ 知識タイプ=ユーザに答えを与えるためにデータ知識(QA、カタログ、Wikipedia、...)にアクセスする
・ アクションタイプ=外部/内部APIを管理しアクセスする必要がある
・ 以下で説明されているNLU処理の結果に基づき、システムは2つのシンクロン要素を生成する:
○ TUI=タッチユーザインタラクション(任意のタイプのアプリケーションとしてのユーザに対する画面の設計)
○ VUI=音声ユーザインタラクション(ユーザへのより多くの情報または詳細を求める、または他の質問をすることができる音声フィードバック)
○ VUIおよびTUIは、完全にシンクロンであり、あなたは、タッチまたは音声によって機能ワークフローの次のステップに進むことができ、両方ともシンクロンである
・ あなたが画面をクリックして項目を選択する場合、あなたは、次のステップに進み、エージェントは、アプリケーションにおけるあなたのコンテキスト位置を知る。
・ このコンテキスト位置は、音声がビジュアルとシンクロン状態になることを可能にする
・ 現在のワークフローに基づき、エージェントは、ユーザの現在の意図を完全にするためにより多くの情報を必要とするかどうかを検出し、ASRの新たな起動でそれを求めることができる(センテンスフィードバックをTTSに送信した後)
○ ユーザ:今晩のテレビ番組は何がある?
○ システム:どのチャンネルですか(ユーザの意図がTV=モジュールおよび今晩=アクション「今晩のチャンネルプライムタイム」の一部によって検出されるので)>
・ システムは、アクションを完了するために変数が足りないことを理解し、その変数を求める。
○ ユーザ:チャンネル1で
○ システム:これがチャンネル1のプライムです.... blablabla
○ ユーザ:そしてチャンネル2(この場合、われわれは、コンテキストを使用して、何が現在の意図だったか、およびユーザからの最後のアクションを知る=TV/今晩のプライムショーを与える)
○ システム:これがチャンネル2のプライムです.... bliblibli
○ ....そしてシステムはこのコンテキストに制限なく継続することができ、われわれはこのワークフローを「直接的コンテキスト」と呼ぶ
・ 前のポイントに基づき(意図/コンテキストの管理)、われわれは、異なるタイプのコンテキストを使用することができる
○ 以下のポイントにおける説明を参照。
これらのタイプのコンテキストに入る前に、われわれは、xBrainSoftからVCPで作成されたコンテキストを定義する必要がある。
・ 3D記憶マトリックスとして動作する:
○ 次元1:現在のモジュール(モジュール電話)
○ 次元2:現在のアクション(アクションは、モジュール電話で電話をかける)
○ 次元3:現在の画面(アクションのステップ、たとえば、モジュール電話における電話をかけるアクションに対する連絡先の選択)
・ あなたが記憶ケース(コンテキストフィールド)に記憶の項目の任意のレベルで拡張する能力のある最低でも3つの項目(オブジェクトタイプ、ID「Name」、および値)を有するタプルで任意のタイプの情報を保存することができる。
○ 任意の型の変数(int、string、Date、...)
○ 任意の型のシリアル化可能なオブジェクト(Car Type、User Type、...)
・ 履歴を使用する能力を有する=4D記憶マトリックス(コンテキストは、時間変数による進行中作業である)
○ 各時間ステータスは、短期および中期についてユーザセッションのために保存する
○ 各時間ステータスは、長期間ファイルまたはデータベースに保存することができる。
・ アプリケーションコンテキスト=短期、中期、または長期にわたって多くのユーザ(アプリケーションの全ユーザまたはアプリケーションのユーザの一部)によって共有される一般的コンテキスト
・ セッションコンテスト=固有のユーザのコンテキスト。
・ 直接的コンテキスト:説明については上記参照。
・ 間接的コンテキスト(時間的コンテキスト)=ユーザとエージェントとの間の質問/回答の後(直接的コンテキストがある場合またはない場合)、ユーザは、他のモジュール/機能に進むことができ、そこで、ユーザは、直接的コンテキストを再び使用することができる。しかし、このポイントの後、ユーザは、前の直接的コンテキストモジュールにアクセスして、以下で説明されているようにシステムとのダイアログを継続することができる:
○ ユーザ:What's the weather =>エージェントはパロアルトの天候を私に答えた(私のデバイスのGPS情報を検出して私の位置を見つけてパロアルトの天気を示した)
○ ユーザ:and in San Francisco =>エージェントは、私の最後の直接的コンテキストを見つけて、SFの天気を示した
○ ユーザ:what time is it there =>エージェントは、私が意図モジュールを変更したがっていることを理解し、前のコンテキストからSFでの時間(時)のクエリを完成させるために必要な変数を見つけて戻す
○ ユーザ:and what's the weather tomorrow =>エージェントは、私が天気モジュールに戻りたがっていることを検出し(新しい意図)、最後の天気クエリの中に場所を見つけ、SFにおける明日の天気を示す
○ //間接的コンテキストは、その期間、ファイルまたはデータベースとして長期記憶域に保存し続けることができる。モジュール内のアクションに切断がある場合、間接的コンテキストとなる直接的コンテキストについて同じである。
・ 意図学習(IL)=上記の説明に基づき、われわれは、モジュール/アクション/画面/ワークフローの各タプルを加重して意図学習を形成する方法を容易に想像することができる。
○ ILとは何か=ユーザの履歴クエリ、実行されるワークフロー、および得られる結果に基づきユーザのクエリのセンスを理解するシステムの能力(パーソナルアシスタントのインテリジェントマクロのようなもの)。
○ サンプル1(単純)=
・ 時刻1
・ ユーザ:Louisに電話をかけてくれますか?
・ システム:私の手元には、あなたの連絡先リストに載っているLouisが多数あります、どれがお望みですか?(私の手元には3つのLouisがある)
・ ユーザ:Monier(=姓)
・ システム:了解しました、私は、Louis Monierに電話をかけます
・ 時刻2
・ ユーザ:Louisに電話して!
・ システム:私は、Louis Monierに電話をかけますが、それで正しいですか?
・ ユーザ:はい ... システムはLouis Monierに電話をかける。
・ ユーザ:いいえ ... 了解しました、私の手元には、あなたの連絡先リストに載っているLouisがいくつかあります ...(システムは、私に時刻1の第2のステップと同じリストを示す)
・ 時刻3
・ ユーザ:今すぐLouisに電話して!
・ システム:私は、Louis Monierに電話をかけます。(システムが電話をかける)
○ サンプル2(より複雑)=
・ 時刻1
・ ユーザ:メッセージをLouisに送信して
・ システム=あなたがメッセージを送信したい連絡先は誰ですか
・ ユーザ:Louis Monier(またはLouis + filter Monier、Or Monier + Filter Louis)
・ システム=了解しました、あなたはテキストまたはメールを送信したいのですね?
・ ユーザ=テキストを
・ システム=わかりました、どのようなタイプの内容を送信したいですか(私は、フリーテキスト、音声テキストのテンプレートテキストについて選択できます)
・ ユーザ=フリーテキストを
・ システム=送信するあなたのメッセージをおっしゃってください
・ ユーザはメッセージを言う
・ システムは、メッセージの内容、内容の確認、および送信する妥当性確認を求める
・ ユーザは、yesと言うか、または連絡先、メッセージを変更し、より多くの内容メッセージを追加するか、またはキャンセルすることができる。
・ 時刻2
・ ユーザ:メッセージをLouisに送信して
・ システム=送信するあなたのメッセージをおっしゃってください
・ ユーザはメッセージを言う
・ システムは、メッセージの内容、内容の確認、および送信する妥当性確認を求める
・ ユーザは、yesと言うか、または連絡先、メッセージを変更し、より多くの内容メッセージを追加するか、またはキャンセルすることができる。
○ サンプル3(より複雑)
・ 時間N
・ ユーザ=毎週水曜日に、ユーザは午後6時に退社するときに、妻に電話してから、家路に就く(子供たちがスポーツしにいける準備ができているか尋ねる)
・ そのために、ユーザは、上の#1のようなサンプルを使用して妻に電話をかける必要がある。
・ システムは、多数の情報源を使用している= BTデータ、OBDデータ(またはなし)、時刻(午後6時)、所在(家にいない)、履歴意図(アジェンダリマインダー+ジオフェンシング)
・ システム=ユーザが自分の自動車に辿りついたときに(自動車BT接続またはOBDコネクタによって検出される)、x分後(自動車に乗り込む平均時間)
・ システムはユーザに自動的に戻り、次のように言う:
・ システム:「Greg、私が家までのナビゲーションを開始し、おくさんに電話をかけてもよいですか?」
・ ユーザ:はい=>Celine Malvoisinに電話をかけるアクションが開始する
・ ユーザ:いいえ=>エージェントは何もせず、意図学習項目のダウングレードを通知する。
コンテキスト:既存のパーソナルアシスタントの現状
今日、パーソナルアシスタントは、第1のレベルのコンテキストを持っており、主にユーザのセンテンスの理解を助け、単語をよく認識しようと試みる。次のサンプルでは、それらがどのように働いているかを説明するものである。
・ 私はRenaudに電話をかけたい=>姓
・ 私はRenaultでドライブ中である=>ブランドカー
パーソナルアシスタントの主な問題点は、ユーザとエージェントとの間の真のダイアログ交換を形成することである。
・ 人間のディスカッション(質問応答ではなく)としての継続ダイアログ管理
○ Yahooに関する情報を求める能力...誰が創設者であるか、株価およびニュースは何か(エージェントは話題を覚えておく)
・ コンテキストダイアログ情報メモリ:簡単に、中期と長期
○ ディスカッションのフローにおける情報を覚えておく能力
・ プロセスワークフローメモリのコンテキストステータス:簡単に、中期と長期
○ あなたがプロセスまたはディスカッションフローの中のどこにいたか(ステップ)(アクションを引き起こすか、引き起こさないか)を覚えておき、将来どのような時点においてもプロセスまたはワークフローを継続することができるようにする能力。
コンテキストは、われわれのラストコールの間に説明しているように、4つのコンポーネントで構築される:
1.コンテキストクライアントサイドホルダ(CCSH)
この第1のコンポーネントは、クライアントの記憶、使用、およびクライアントサイド(ロボット、スマートフォン、車両、家、...)からのコンテキストフローの定義(値)がサーバサイドと共有することを可能にする。CCSHは、APIを使用するFxであり、クライアントサイドからコンテキストフローの値を作成し、使用し、定義し、以下のようにCSPを通じて送信する。
2.コンテキスト同期プロトコル(CSP)
この第2のコンポーネントは、現在のコンテキストのステータスまたはサブステータスの各プロパティ(変数)についてキーアクセス(コンテキストID)のプロトコル(標準化)を定義し、キーアクセスのフォーマットおよび存在の妥当性確認を行う。これらは、単純なテキスト変数(名前/値)またはインスタンスを有する特定のオブジェクトであってよい。CSPのゴールは、エージェントの各側(クライアントサイド/サーバサイド)上の2フレームワーク実装による通信プロトコルおよびその構築であり、クライアントとサーバとの間の正しいプロトコル通信の妥当性確認を行い、コンテキスト情報が適切に配信され同期されていることを確実にする役目を負っている。
3.コンテキストエージェント-サーバサイドホルダ(CA)
この第3のコンポーネントは、サーバの記憶、使用、およびサーバサイド(オンラインサーバ)からのコンテキストワークフローの定義(値)がCSPを通じてクライアントサイドと共有することを可能にする。CAは、APIを使用するFxであり、サーバサイドからコンテキストワークフローの値を作成し、使用し、定義し、上記のようにCSPを通じて送信する。
4.コンテキストエンジン
この最後のコンポーネントは、変数共有レベルならびに中期および長期セッションをデータ記憶域に置くことを可能にする(任意のサポートで)。
短期記憶は、クライアントサイドとサーバサイドとの間で共有される現在のセッションによって管理される。
これは、コンテキストタイプの話題のタイプまたは分類を定義することができる(変数は単純変数またはシリアル化されたオブジェクト+値であってよい)。
1.現在のユーザプロファイル=ユーザプロファイルに関する情報(Facebookプロファイル、アプリプロファイル、...)
2.現在のモジュール=モジュールに関する情報(電話、メッセージ、ナビゲーション、ニュース、...)
3.現在の機能=機能に関する情報(電話をかける、電話を受ける、テキストを送信する、ニュースを読む、ニュースをシェアする、...)
1.Louis Monierに電話するに対するLouisに電話するは、Louis=Louis Monierを学習した中期/長期コンテキストエンジンからロードされ得る。
4.現在の画面=ユーザに現在示している画面に関する情報。
5.カスタムデータ=望むいかなる局面でも開発者がコンテキストを使えるようにするAPI(新しいコンテキストの形)
6.ワークフロー履歴=表示されるまたは表示する画面、特定のステップにおける変数値、ワークフローステータス、...に関する情報を持つユーザのワークフロー内の位置に関する情報
1.私はFacebookに関するニュースをシェアすることを求め、私が「Continue」と言った後に、エージェントは現在のカテゴリに対するニュースのリスト内の次のニュースに進む。エージェントは、コンテキストから、現在のカテゴリ、それが...であったという箇所を読んでいたニュースのステップ(the step in the news reading where it was…)を知り、ユーザの必要とするものを正しい意図で私に送信することができる。
1.音声および接続プラットフォームは、同期および非同期モードで動作しており、われわれは、いつでも、クライアントサイドとサーバサイドとの間のコンテキストの完全な同期の妥当性を確認する必要がある。
2.各モジュール、機能、画面、アプリケーション、セッション、またはステータスなどは、固有のID(コンテキストID)で識別され、クライアントとサーバとの間で共有される必要がある。
3.コンテキストID(情報記憶メモリ)およびその値は、エージェントの各側(クライアントサイド/サーバサイド)に記憶され、各対話で両サイドの間で同期する。
4.コンテキストIDは以下を可能にする:
1.変数(単純変数またはオブジェクト)の値に基づきフィルタおよびコンテキストアクションを作成する:もし...ならば....
2.中期または長期記憶域内で、短期メモリにロードする必要がある情報を見つける(またはグローバルユーザ挙動/アプリケーションレベルからの機械学習、要求された値に対する確率によって)
3.われわれがワークフロー内にいる場合のステップ、前のステップを知る(またはグローバルユーザ挙動からの機械学習、次のステップに対する確率によって)
4....それ以上に、われわれはこの革新から発見を行っている。
・ ASRの後、およびNLUプロセスの直前に、デバイスは、デバイスからの現在のコンテキストIDを持つ隠された部分をセンテンスメッセージとともに送信している。
・ エージェントは、自然言語理解を実行する前にキーアクセス(コンテキストID)を見ている。
○ エージェントはコンテンツを見ており、現在のコンテキストに対するアクションおよび理解のグローバル言語辞書をフィルタリングする。
・ エージェントはコンテキスト理解においてNLUプロセスを起動する
○ アクションは起動される(APIアクセスまたはナレッジアクセス)
○ エージェントはユーザのクエリの意味を解釈する...(前のメール参照)
・ デバイス(または任意の種類のエンドポイント)に回答を与える前に、
○エージェントは、隠されている部分内の回答メッセージを通じて新しいコンテキスト(モジュール/機能/画面)を送信する(HTMLページのヘッダのように)
○ 新しいコンテキストは、多くの変数から定義され得る:
・ エンドポイントユニット内の現在の画面
・ 現在のモジュール、機能
・ ユーザのセンテンス、ダイアログ、および選択ワークフロー。
・ エージェントは、回答をマージして(音声、画面、情報とともにパッケージして)、デバイス(エンドポイント)に送信し、ユーザに対してレンダリングする
・ クライアントサイドは、パッケージを実行し、現在のコンテキストを記憶する。
○ コンテキストは、画面、機能、またはモジュール...から強制され得る。ホーム画面の場合に、われわれは、コンテキストのリセットを強制し、ユーザをエージェントとのまっさらな対話からスタートさせる。
サーバとクライアント(エンドポイント)との間にコンテキストの食い違いがある場合、クライアント(エンドポイント:デバイス、車両、家)は、ユーザ(実際のマスター)のアクションを表しているのでマスターである。
・ ユーザが次のように言うときに選択するLouisをコンテキスト化する:私はLouisに電話をかけたい(履歴通話挙動に基づく)=>Louis Monierに電話をかける
・ 次のように実行するプロセスをコンテキスト化する:メッセージをLouisに送信する
○ システムは次のことを知る:メッセージ=電子メール、Louis=Louis Monier
○ 音声ショートカット...を許可し、Louis Monierに電子メールを送信するためにワークフロー内の2つのステップをカットする。
・ 次のように実行する次のステップをコンテキスト化する:多くのセッションにおいて、私はニュースの順序を要求する=エコ、政治、およびスポーツ。次回私がエコを求めるときに、エージェントはあなたに、政治およびスポーツのニュースを読み上げるよう提案する。
・ アプリケーションのグローバル予測ワークフローに基づき次のステップをコンテキスト化する。
・ 要求されたアクションをコンテキスト化し、それが現在のコンテキストのターゲットになっていないことを理解し、それを前のアクションに使用することができる。
○ 私はニュースのリストを読んでいる、私は天候を尋ねている、私は「続けて」と言う、エージェントは次のニュースに進んでいる。
・ 特定の単語を「音楽」とコンテキスト化し...電話で音楽ニュースまたは音楽であってよいニュースのコンテキストを尋ねるか?
○ 音楽コンテキストから、これは明らかにデバイスの音楽トラックにアクセスするものである
○ ニュースコンテキストでは、これはニュースの音楽再生に対するものであってよく、エージェントは理解して、ユーザに戻りより正確であるよう求める。
○ ユーザが、ニュースコンテキストにおいて音楽を再生して、と言った場合、エージェントは、ユーザがニュースを読みたくないと理解する。
・ われわれは、現在のコンテキストをしているので、われわれは、入力音声認識をコンテキスト化することができ、センテンス内の単語を変更してからセンテンスの意味を理解することを試み...または反対に、特定のコンテキストにおいて利用可能な語彙を拡張してアクションを開始する。
○ 第2の効果は、われわれが、アクションの妥当性確認を行う多数のパターンを作成する必要はないことである(たとえば、音楽という言葉は、音楽を再生するアクションを起動するためにルート画面のコンテキストにおいて短いまたは長いセンテンス内のキャッチであり得る)。
○ 第3の効果は、翻訳に対するものであるが、それはあなたが各コンテキストモジュール/機能/画面についてユーザの意図するアクションをキャッチするためのキーワードを制限することができるからである。
・ TVのコンテキストで再生することは、ゲームをするか、またはTV番組を見ることである
・ スポーツのコンテキストで再生することは、新しいゲームをすることである
・ ディスコのコンテキストで再生することは、音楽を再生することである
・ ...1単語、コンテキストに応じて多くの意図...任意の言語に翻訳することが容易
○ 第4の効果は、辞書が非常に限られている可能性があるのでエージェントのサポートである。
・ ニュースキャスターの場合、われわれは、「News」(+同義語)とニューストピックエンティティとをキャッチする。
・ タスク優先度のパイプラインの作成
○ 私は、現在、連絡先に対するメッセージを作成している(一般的に、私はアクションの終わりに進みたい)
○ 私は、このときに、連絡先からテキストを受信し、システムは、現在のコンテキストを見て、ユーザがいつメッセージの作成処理に入っているかを知り、現在のアクションを中断する必要がない
○ エージェントは、メッセージのパイプラインを作成し、メッセージ作成コンテキストの終わりに、私に、メッセージを読むことを提案する(コンテキストが変化しているとき)
・ コンテキストに応じたメッセージの翻訳
○ 私は、Markへのメッセージを作成し(彼はENを話し、私はFrでメッセージを作成する)、システムは、妥当性確認する必要のあるメッセージのコンテキストに基づき、翻訳するために送信前に受信者の言語を知っているかどうかを知る。
・ 説明されているように、われわれは、同期および非同期モードでの作業を行っている。
○ この2つの経路は、非同期モードに対してプロアクティビティなどを可能にするために使用される。
○ 2つのサイドが、両方のステータスがダイアログに対する各サイドのどこにあるかを知ることを可能にする。
・ 寿命のためのアドオン:
○ 第1のポイントについて:また、ASRからではなく、アプリケーションナビゲーション(触覚的対話)において送信することもできる。
○ 第5のポイントについて:パッケージは、すべてのまたは部分的な内容と一緒に送信できる
・ われわれは、音声統合なしですべての要素を送ってもよく、この場合、エージェントは、レンダリング全体およびコンテキストの作成/編集を管理する。
102 ネットワーク
103 モバイルネットワーク
104a…104n 信号線
106 クライアントデバイス
106a…106n クライアントデバイス
108 信号線
109 クライアントサイドの音声および接続エンジン
109a、109n クライアントサイドの音声および接続エンジン
110 自動音声認識(ASR)サーバ
110a…110n 線
111 自動音声認識エンジン
111a、111n、111x 自動音声認識エンジン
112 ユーザ
112a…112n ユーザ
114 信号線
116 テキスト読み上げ(TTS)サーバ
119 テキスト読み上げエンジン
119a、119n テキスト読み上げエンジン
120 信号線
122 音声および接続サーバ
124 サーバサイド
124 サーバサイドの音声および接続エンジン
200 コンピューティングデバイス
202 プロセッサ
204 メモリ
206 通信バス
208 通信ユニット
241 記憶装置デバイス
322 自動音声認識(ASR)エンジン
324 クライアントサイドコンテキストホルダ
326 自然言語理解エンジン
328 ワークアラウンドエンジン
330 接続エンジン
420 コンテキストエージェント
422 コンテキストエージェント
424 コンテキストエンジン
426 フェデレーションエンジン
810a/812a/814a コンテキスト
820a、822a、824a、および826a 画面
830a ホーム画面
Claims (18)
- イベントを検出するステップと、
前記イベントを検出することに応じて、第1のユーザデバイス上でユーザとの音声アシスタントのダイアログをプロアクティブに開始するステップと、
前記ユーザとのダイアログを開始することに応じて、前記第1のユーザデバイスで、第1のアクションを要求する前記ダイアログに関連する第1の音声入力を前記ユーザから受信するステップと、
前記第1の音声入力上で自動音声認識を実行するステップと、
前記第1のユーザデバイスで、前記ユーザの第1のコンテキストを決定するステップと、
ユーザの意図を述べている第1のタプルを決定するステップであって、前記第1のタプルは前記第1のアクションおよび前記第1のアクションに関連するアクターを含み、前記第1のタプルは前記第1の音声入力の自動音声認識に基づき自然言語理解を実行することによって決定される、ステップと、
前記第1のタプルに基づき前記第1のユーザデバイス上で前記第1のアクションを開始するステップと、
前記第1のアクションを開始した後に、前記第1のアクションに無関係の第2のアクションを要求する第2の音声入力を前記ユーザから受信するステップと、
前記第2のアクションを開始するステップと、
前記第2のアクションを開始した後に、前記第1のユーザデバイスとは異なる第2のユーザデバイスで、前記ダイアログを継続しかつ前記第1のアクションに関係する第3のアクションを要求する第3の音声入力を前記ユーザから受信するステップであって、前記第3の音声入力には第3のタプルを完成させるための情報が欠落していて、前記第3のタプルは前記第3のアクションを開始するためのものである、ステップと、
前記第1のコンテキストを使用して欠落情報を取得して、前記第3のアクションに関連する第3のタプルを完成させるステップと、
前記第3のタプルに基づき前記第2のユーザデバイス上で前記第3のアクションを開始するステップと
を含むコンピュータによって実行される方法。 - 前記イベントは、内部イベントである請求項1に記載のコンピュータによって実行される方法。
- ユーザ入力なしで前記音声アシスタントを開始するステップと、前記音声アシスタントの開始後に前記ユーザから前記第1の音声入力を受信するステップとを含む請求項1に記載のコンピュータによって実行される方法。
- 前記第1のコンテキストは、コンテキスト履歴、ダイアログ履歴、ユーザプロファイル、ユーザ履歴、ロケーション、および現在のコンテキストドメインのうちの1つまたは複数を含む請求項1に記載のコンピュータによって実行される方法。
- 前記欠落情報は、前記第3のアクション、前記第3のアクションに関連するアクター、および前記第3のアクションに関連するエンティティのうちの1つまたは複数である請求項1に記載のコンピュータによって実行される方法。
- 前記第1のコンテキストおよび前記第1の音声入力には前記第1のアクションを開始するために使用される第1の情報が欠落している、と決定するステップと、
どのような情報が欠落している第1の情報であるかを決定するステップと、
前記欠落している第1の情報を供給する音声入力を行うよう前記ユーザに促すステップとを含む請求項1に記載のコンピュータによって実行される方法。 - 前記第1のアクションを開始するために使用される第1の情報が、前記第1の音声入力から取得できないと決定するステップと、
どのような情報が欠落している第1の情報であるかを決定するステップと、
前記第1の音声入力から取得できない前記欠落している第1の情報を供給する音声入力を行うよう前記ユーザに促すステップとをさらに含む請求項1に記載のコンピュータによって実行される方法。 - 前記第1のアクションを開始するために使用される第1の情報が、前記第1の音声入力から取得できないと決定するステップと、
どのような情報が前記欠落している第1の情報であるかを決定するステップと、
前記ユーザが選択できるように、複数のオプションを提供するステップであって、オプションは前記第1のアクションを完了するための潜在的情報を供給する、ステップと、
前記複数のオプションから第1のオプションを選択する音声入力を受信するステップとをさらに含む請求項1に記載のコンピュータによって実行される方法。 - 前記第1のアクションに無関係の第2のアクションは第2のコンテキストに関連していて、前記第1のアクションおよび第3のアクションは前記第1のコンテキストに関連している請求項1に記載のコンピュータによって実行される方法。
- 1つまたは複数のプロセッサと、
命令を記憶するメモリとを備えるシステムであって、前記命令は、
前記1つまたは複数のプロセッサによって実行されたときに、前記システムに
イベントを検出するステップと、
前記イベントを検出することに応じて、第1のユーザデバイス上でユーザとの音声アシスタントのダイアログをプロアクティブに開始するステップと、
前記ユーザとのダイアログを開始することに応じて、前記第1のユーザデバイスで、第1のアクションを要求する前記ダイアログに関連する第1の音声入力を前記ユーザから受信するステップと、
前記第1の音声入力上で自動音声認識を実行するステップと、
前記第1のユーザデバイスで、前記ユーザの第1のコンテキストを決定するステップと、
ユーザの意図を述べている第1のタプルを決定するステップであって、前記第1のタプルは前記第1のアクションおよび前記第1のアクションに関連するアクターを含み、前記第1のタプルは前記第1の音声入力の自動音声認識に基づき自然言語理解を実行することによって決定される、ステップと、
前記第1のタプルに基づき前記第1のユーザデバイス上で前記第1のアクションを開始するステップと、
前記第1のアクションを開始した後に、前記第1のアクションに無関係の第2のアクションを要求する第2の音声入力を前記ユーザから受信するステップと、
前記第2のアクションを開始するステップと、
前記第2のアクションを開始した後に、前記第1のユーザデバイスとは異なる第2のユーザデバイスで、前記ダイアログを継続しかつ前記第1のアクションに関係する第3のアクションを要求する第3の音声入力を前記ユーザから受信するステップであって、前記第3の音声入力には第3のタプルを完成させるための情報が欠落していて、前記第3のタプルは前記第3のアクションを開始するためのものである、ステップと、
前記第1のコンテキストを使用して欠落情報を取得して、前記第3のアクションに関連する第3のタプルを完成させるステップと、
前記第3のタプルに基づき前記第2のユーザデバイス上で前記第3のアクションを開始するステップと
を含むステップを実行させる、システム。 - 前記イベントは、内部イベントである請求項10に記載のシステム。
- 前記1つまたは複数のプロセッサによって実行されたときに、前記システムに
ユーザ入力なしで前記音声アシスタントを開始するステップと、前記音声アシスタントの開始後に前記ユーザから前記第1の音声入力を受信するステップとを実行させる命令を備える請求項10に記載のシステム。 - 前記第1のコンテキストは、コンテキスト履歴、ダイアログ履歴、ユーザプロファイル、ユーザ履歴、ロケーション、および現在のコンテキストドメインのうちの1つまたは複数を含む請求項10に記載のシステム。
- 前記欠落情報は、前記第3のアクション、前記第3のアクションに関連するアクター、および前記第3のアクションに関連するエンティティのうちの1つまたは複数である請求項10に記載のシステム。
- 前記1つまたは複数のプロセッサによって実行されたときに、前記システムに
前記第1のコンテキストおよび前記第1の音声入力には前記第1のアクションを開始するために使用される第1の情報が欠落している、と決定するステップと、
どのような情報が欠落している第1の情報であるかを決定するステップと、
前記欠落している第1の情報を供給する音声入力を行うよう前記ユーザに促すステップとを実行させる命令を備える請求項10に記載のシステム。 - 前記1つまたは複数のプロセッサによって実行されたときに、前記システムに
前記第1のアクションを開始するために使用される第1の情報が、前記第1の音声入力から取得できないと決定するステップと、
どのような情報が欠落している第1の情報であるかを決定するステップと、
前記第1の音声入力から取得できない前記欠落している第1の情報を供給する音声入力を行うよう前記ユーザに促すステップとを実行させる命令を備える請求項10に記載のシステム。 - 前記1つまたは複数のプロセッサによって実行されたときに、前記システムに
前記第1のアクションを開始するために使用される第1の情報が、前記第1の音声入力から取得できないと決定するステップと、
どのような情報が前記欠落している第1の情報であるかを決定するステップと、
前記ユーザが選択できるように、複数のオプションを提供するステップであって、オプションは前記第1のアクションを完了するための潜在的情報を供給する、ステップと、
前記複数のオプションから第1のオプションを選択する音声入力を受信するステップとを実行させる命令を備える請求項10に記載のシステム。 - 前記第1のアクションに無関係の第2のアクションは第2のコンテキストに関連していて、前記第1のアクションおよび第3のアクションは前記第1のコンテキストに関連している請求項10に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462058508P | 2014-10-01 | 2014-10-01 | |
US62/058,508 | 2014-10-01 | ||
PCT/US2015/053251 WO2016054230A1 (en) | 2014-10-01 | 2015-09-30 | Voice and connection platform |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017535823A JP2017535823A (ja) | 2017-11-30 |
JP6671379B2 true JP6671379B2 (ja) | 2020-03-25 |
Family
ID=55631440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017538155A Expired - Fee Related JP6671379B2 (ja) | 2014-10-01 | 2015-09-30 | 音声および接続プラットフォーム |
Country Status (7)
Country | Link |
---|---|
US (2) | US10235996B2 (ja) |
EP (1) | EP3201913A4 (ja) |
JP (1) | JP6671379B2 (ja) |
KR (1) | KR102342623B1 (ja) |
CN (1) | CN107004410B (ja) |
CA (1) | CA2962636A1 (ja) |
WO (1) | WO2016054230A1 (ja) |
Families Citing this family (307)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10630751B2 (en) | 2016-12-30 | 2020-04-21 | Google Llc | Sequence dependent data message consolidation in a voice activated computer network environment |
US10956485B2 (en) | 2011-08-31 | 2021-03-23 | Google Llc | Retargeting in a search environment |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9703757B2 (en) | 2013-09-30 | 2017-07-11 | Google Inc. | Automatically determining a size for a content item for a web page |
US10431209B2 (en) | 2016-12-30 | 2019-10-01 | Google Llc | Feedback controller for data transmissions |
US10614153B2 (en) | 2013-09-30 | 2020-04-07 | Google Llc | Resource size-based content item selection |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106572418A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种语音助手的扩展设备及其工作方法 |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10354653B1 (en) * | 2016-01-19 | 2019-07-16 | United Services Automobile Association (Usaa) | Cooperative delegation for digital assistants |
KR102642666B1 (ko) * | 2016-02-05 | 2024-03-05 | 삼성전자주식회사 | 음성인식 장치 및 방법, 음성인식시스템 |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9820039B2 (en) | 2016-02-22 | 2017-11-14 | Sonos, Inc. | Default playback devices |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10535343B2 (en) | 2016-05-10 | 2020-01-14 | Google Llc | Implementations for voice assistant on devices |
KR102177786B1 (ko) | 2016-05-13 | 2020-11-12 | 구글 엘엘씨 | 미디어 출력 디바이스들 사이의 미디어 전달 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10462619B2 (en) * | 2016-06-08 | 2019-10-29 | Google Llc | Providing a personal assistant module with a selectively-traversable state machine |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10339934B2 (en) | 2016-06-27 | 2019-07-02 | Google Llc | Asynchronous processing of user requests |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10115400B2 (en) * | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10685656B2 (en) * | 2016-08-31 | 2020-06-16 | Bose Corporation | Accessing multiple virtual personal assistants (VPA) from a single device |
KR20190032557A (ko) * | 2016-09-01 | 2019-03-27 | 아마존 테크놀로지스, 인크. | 음성 기반 통신 |
US10074369B2 (en) | 2016-09-01 | 2018-09-11 | Amazon Technologies, Inc. | Voice-based communications |
US10453449B2 (en) | 2016-09-01 | 2019-10-22 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10580404B2 (en) | 2016-09-01 | 2020-03-03 | Amazon Technologies, Inc. | Indicator for voice-based communications |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10810571B2 (en) | 2016-10-13 | 2020-10-20 | Paypal, Inc. | Location-based device and authentication system |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10565989B1 (en) * | 2016-12-16 | 2020-02-18 | Amazon Technogies Inc. | Ingesting device specific content |
KR102502220B1 (ko) | 2016-12-20 | 2023-02-22 | 삼성전자주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
WO2018117608A1 (ko) * | 2016-12-20 | 2018-06-28 | 삼성전자 주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11164570B2 (en) | 2017-01-17 | 2021-11-02 | Ford Global Technologies, Llc | Voice assistant tracking and activation |
CN108235810B (zh) * | 2017-01-22 | 2020-11-17 | 华为技术有限公司 | 智能处理应用事件的方法、装置与计算机可读存储介质 |
US9747083B1 (en) * | 2017-01-23 | 2017-08-29 | Essential Products, Inc. | Home device application programming interface |
US10365932B2 (en) | 2017-01-23 | 2019-07-30 | Essential Products, Inc. | Dynamic application customization for automated environments |
CN107800896B (zh) * | 2017-02-20 | 2020-01-17 | 平安科技(深圳)有限公司 | 电话业务交互方法和装置 |
US10332505B2 (en) | 2017-03-09 | 2019-06-25 | Capital One Services, Llc | Systems and methods for providing automated natural language dialogue with customers |
WO2018174443A1 (en) | 2017-03-23 | 2018-09-27 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium |
KR102369309B1 (ko) * | 2017-03-24 | 2022-03-03 | 삼성전자주식회사 | 파셜 랜딩 후 사용자 입력에 따른 동작을 수행하는 전자 장치 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10643609B1 (en) * | 2017-03-29 | 2020-05-05 | Amazon Technologies, Inc. | Selecting speech inputs |
US10529327B1 (en) * | 2017-03-29 | 2020-01-07 | Parallels International Gmbh | System and method for enabling voice recognition for operating system |
CN116319631A (zh) * | 2017-04-07 | 2023-06-23 | 微软技术许可有限责任公司 | 自动聊天中的语音转发 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10848591B2 (en) | 2017-04-25 | 2020-11-24 | Amazon Technologies, Inc. | Sender and recipient disambiguation |
US10605609B2 (en) | 2017-05-03 | 2020-03-31 | Microsoft Technology Licensing, Llc | Coupled interactive devices |
US10671602B2 (en) * | 2017-05-09 | 2020-06-02 | Microsoft Technology Licensing, Llc | Random factoid generation |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US10009666B1 (en) | 2017-05-16 | 2018-06-26 | Google Llc | Cross-device handoffs |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
WO2018213415A1 (en) * | 2017-05-16 | 2018-11-22 | Apple Inc. | Far-field extension for digital assistant services |
US10983753B2 (en) | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
US10528228B2 (en) | 2017-06-21 | 2020-01-07 | Microsoft Technology Licensing, Llc | Interaction with notifications across devices with a digital assistant |
US10599377B2 (en) | 2017-07-11 | 2020-03-24 | Roku, Inc. | Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US11062710B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Local and cloud speech recognition |
US11062702B2 (en) | 2017-08-28 | 2021-07-13 | Roku, Inc. | Media system with multiple digital assistants |
KR102426704B1 (ko) * | 2017-08-28 | 2022-07-29 | 삼성전자주식회사 | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 |
US10388285B2 (en) * | 2017-08-31 | 2019-08-20 | International Business Machines Corporation | Generating chat bots from web API specifications |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10719592B1 (en) | 2017-09-15 | 2020-07-21 | Wells Fargo Bank, N.A. | Input/output privacy tool |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10951558B2 (en) | 2017-09-27 | 2021-03-16 | Slack Technologies, Inc. | Validating application dialog associated with a triggering event identification within user interaction data received via a group-based communication interface |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10466962B2 (en) * | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
EP4273696A3 (en) | 2017-10-03 | 2024-01-03 | Google LLC | Multiple digital assistant coordination in vehicular environments |
US10516637B2 (en) * | 2017-10-17 | 2019-12-24 | Microsoft Technology Licensing, Llc | Smart communications assistant with audio interface |
US10645035B2 (en) * | 2017-11-02 | 2020-05-05 | Google Llc | Automated assistants with conference capabilities |
JP2019086903A (ja) * | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
CN107833574B (zh) * | 2017-11-16 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN107990908B (zh) * | 2017-11-20 | 2020-08-14 | Oppo广东移动通信有限公司 | 一种基于蓝牙通信的语音导航方法及装置 |
CN107993657A (zh) * | 2017-12-08 | 2018-05-04 | 广东思派康电子科技有限公司 | 一种基于多个语音助手平台的切换方法 |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
KR102506866B1 (ko) | 2017-12-13 | 2023-03-08 | 현대자동차주식회사 | 차량 환경에서 선발화 안내 장치, 방법 및 시스템 |
KR102209092B1 (ko) * | 2017-12-18 | 2021-01-28 | 네이버 주식회사 | 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템 |
US10372825B2 (en) * | 2017-12-18 | 2019-08-06 | International Business Machines Corporation | Emotion detection and expression integration in dialog systems |
TWI651714B (zh) * | 2017-12-22 | 2019-02-21 | 隆宸星股份有限公司 | 語音選項選擇系統與方法以及使用其之智慧型機器人 |
US10423727B1 (en) | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
US10719832B1 (en) | 2018-01-12 | 2020-07-21 | Wells Fargo Bank, N.A. | Fraud prevention tool |
JP2019128374A (ja) * | 2018-01-22 | 2019-08-01 | トヨタ自動車株式会社 | 情報処理装置、及び情報処理方法 |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US11024307B2 (en) | 2018-02-08 | 2021-06-01 | Computime Ltd. | Method and apparatus to provide comprehensive smart assistant services |
US11145298B2 (en) | 2018-02-13 | 2021-10-12 | Roku, Inc. | Trigger word detection with multiple digital assistants |
US11676062B2 (en) * | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11100146B1 (en) * | 2018-03-23 | 2021-08-24 | Amazon Technologies, Inc. | System management using natural language statements |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
CN108563633B (zh) * | 2018-03-29 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 一种语音处理方法和服务器 |
WO2019209255A1 (en) | 2018-04-23 | 2019-10-31 | Google Llc | Transferring an automated assistant routine between client devices during execution of the routine |
CN108961711B (zh) * | 2018-04-28 | 2020-06-02 | 深圳市牛鼎丰科技有限公司 | 遥控移动装置的控制方法、装置、计算机设备和存储介质 |
WO2019214799A1 (en) * | 2018-05-07 | 2019-11-14 | Bayerische Motoren Werke Aktiengesellschaft | Smart dialogue system and method of integrating enriched semantics from personal and contextual learning |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
JP7155605B2 (ja) * | 2018-05-22 | 2022-10-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11100935B2 (en) * | 2018-06-05 | 2021-08-24 | Samsung Electronics Co., Ltd. | Voice assistant device and method thereof |
US11437029B2 (en) | 2018-06-05 | 2022-09-06 | Voicify, LLC | Voice application platform |
US10235999B1 (en) | 2018-06-05 | 2019-03-19 | Voicify, LLC | Voice application platform |
US10803865B2 (en) | 2018-06-05 | 2020-10-13 | Voicify, LLC | Voice application platform |
US10636425B2 (en) | 2018-06-05 | 2020-04-28 | Voicify, LLC | Voice application platform |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN112640475B (zh) * | 2018-06-28 | 2023-10-13 | 搜诺思公司 | 用于将回放设备与语音助理服务相关联的系统和方法 |
US20210295836A1 (en) * | 2018-07-31 | 2021-09-23 | Sony Corporation | Information processing apparatus, information processing method, and program |
CN108899027B (zh) * | 2018-08-15 | 2021-02-26 | 珠海格力电器股份有限公司 | 语音解析方法及装置 |
CN112272818B (zh) * | 2018-08-21 | 2024-07-12 | 谷歌有限责任公司 | 使用由第一交互式模块提供的补充数据的第二交互式模块的自动助理调用 |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
KR20200024511A (ko) | 2018-08-28 | 2020-03-09 | 삼성전자주식회사 | 대화 에이전트의 동작 방법 및 그 장치 |
CN110867182B (zh) * | 2018-08-28 | 2022-04-12 | 仁宝电脑工业股份有限公司 | 多语音助理的控制方法 |
KR20200027753A (ko) | 2018-09-05 | 2020-03-13 | 삼성전자주식회사 | 전자 장치 및 단축 명령어에 대응하는 태스크 수행 방법 |
CN109348353B (zh) * | 2018-09-07 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 智能音箱的服务处理方法、装置和智能音箱 |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11016968B1 (en) * | 2018-09-18 | 2021-05-25 | Amazon Technologies, Inc. | Mutation architecture for contextual data aggregator |
CN109344229A (zh) * | 2018-09-18 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 对话分析评价的方法、装置、计算机设备和存储介质 |
CN109102805A (zh) * | 2018-09-20 | 2018-12-28 | 北京长城华冠汽车技术开发有限公司 | 语音交互方法、装置及实现装置 |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11152003B2 (en) | 2018-09-27 | 2021-10-19 | International Business Machines Corporation | Routing voice commands to virtual assistants |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11017028B2 (en) | 2018-10-03 | 2021-05-25 | The Toronto-Dominion Bank | Systems and methods for intelligent responses to queries based on trained processes |
US10877964B2 (en) | 2018-10-23 | 2020-12-29 | Dennis E. Brown | Methods and systems to facilitate the generation of responses to verbal queries |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109637519B (zh) * | 2018-11-13 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
CN109462753B (zh) * | 2018-11-19 | 2021-12-03 | 视联动力信息技术股份有限公司 | 一种视联网多会议测试系统和方法 |
US10811011B2 (en) * | 2018-11-21 | 2020-10-20 | Motorola Solutions, Inc. | Correcting for impulse noise in speech recognition systems |
CN109658925A (zh) * | 2018-11-28 | 2019-04-19 | 上海蔚来汽车有限公司 | 一种基于上下文的免唤醒车载语音对话方法及系统 |
CN113196383A (zh) * | 2018-12-06 | 2021-07-30 | 伟视达电子工贸有限公司 | 用于生成用于语音控制电子设备的命令的技术 |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
US10783901B2 (en) * | 2018-12-10 | 2020-09-22 | Amazon Technologies, Inc. | Alternate response generation |
DE102018221712B4 (de) * | 2018-12-13 | 2022-09-22 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11037559B2 (en) | 2018-12-27 | 2021-06-15 | At&T Intellectual Property I, L.P. | Voice gateway for federated voice services |
CN109361527B (zh) * | 2018-12-28 | 2021-02-05 | 苏州思必驰信息科技有限公司 | 语音会议记录方法及系统 |
US11238857B2 (en) * | 2018-12-28 | 2022-02-01 | Google Llc | Supplementing voice inputs to an automated assistant according to selected suggestions |
US10943588B2 (en) | 2019-01-03 | 2021-03-09 | International Business Machines Corporation | Methods and systems for managing voice response systems based on references to previous responses |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
KR102393876B1 (ko) * | 2019-02-06 | 2022-05-02 | 구글 엘엘씨 | 클라이언트-컴퓨팅된 콘텐츠 메타데이터에 기반한 음성 질의 QoS |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
CN110310630B (zh) * | 2019-02-26 | 2021-02-05 | 北京蓦然认知科技有限公司 | 一种语音助手的训练和分享方法 |
JP7145105B2 (ja) * | 2019-03-04 | 2022-09-30 | 本田技研工業株式会社 | 車両制御システム、車両制御方法、およびプログラム |
US11645522B2 (en) * | 2019-03-05 | 2023-05-09 | Dhruv Siddharth KRISHNAN | Method and system using machine learning for prediction of stocks and/or other market instruments price volatility, movements and future pricing by applying random forest based techniques |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110009206B (zh) * | 2019-03-21 | 2023-06-20 | 五邑大学 | 一种定时语音评分方法、装置、设备和存储介质 |
CN115240664A (zh) * | 2019-04-10 | 2022-10-25 | 华为技术有限公司 | 一种人机交互的方法和电子设备 |
CN110136707B (zh) * | 2019-04-22 | 2021-03-02 | 云知声智能科技股份有限公司 | 一种用于进行多设备自主决策的人机交互系统 |
WO2020222988A1 (en) | 2019-04-30 | 2020-11-05 | Apple Inc. | Utilizing context information with an electronic device |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
KR20200129922A (ko) * | 2019-05-10 | 2020-11-18 | 현대자동차주식회사 | 음성인식 기반 정보 제공 시스템 및 방법 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US10671941B1 (en) * | 2019-05-23 | 2020-06-02 | Capital One Services, Llc | Managing multifaceted, implicit goals through dialogue |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
CN110299132B (zh) * | 2019-06-26 | 2021-11-02 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
WO2021007331A1 (en) * | 2019-07-08 | 2021-01-14 | XBrain, Inc. | Image representation of a conversation to self-supervised learning |
FR3098632B1 (fr) * | 2019-07-11 | 2021-11-05 | Continental Automotive Gmbh | Système de reconnaissance d’instruction vocale pour véhicule |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
WO2021033889A1 (en) | 2019-08-20 | 2021-02-25 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device |
CN111862966A (zh) * | 2019-08-22 | 2020-10-30 | 马上消费金融股份有限公司 | 智能语音交互方法以及相关装置 |
US11403462B2 (en) * | 2019-09-12 | 2022-08-02 | Oracle International Corporation | Streamlining dialog processing using integrated shared resources |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210036527A (ko) * | 2019-09-26 | 2021-04-05 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 작동 방법 |
US11308284B2 (en) | 2019-10-18 | 2022-04-19 | Facebook Technologies, Llc. | Smart cameras enabled by assistant systems |
US11567788B1 (en) | 2019-10-18 | 2023-01-31 | Meta Platforms, Inc. | Generating proactive reminders for assistant systems |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11226801B2 (en) | 2019-10-30 | 2022-01-18 | Mastercard International Incorporated | System and methods for voice controlled automated computer code deployment |
US11423235B2 (en) * | 2019-11-08 | 2022-08-23 | International Business Machines Corporation | Cognitive orchestration of multi-task dialogue system |
EP3836043A1 (en) | 2019-12-11 | 2021-06-16 | Carrier Corporation | A method and an equipment for configuring a service |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111107156A (zh) * | 2019-12-26 | 2020-05-05 | 苏州思必驰信息科技有限公司 | 用于主动发起对话的服务端处理方法及服务器、能够主动发起对话的语音交互系统 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
CN111276133B (zh) * | 2020-01-20 | 2023-01-03 | 厦门快商通科技股份有限公司 | 音频识别方法、系统、移动终端及存储介质 |
US11488594B2 (en) | 2020-01-31 | 2022-11-01 | Walmart Apollo, Llc | Automatically rectifying in real-time anomalies in natural language processing systems |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
JP7465700B2 (ja) * | 2020-03-27 | 2024-04-11 | 株式会社デンソーテン | 車載装置および車載装置における音声処理方法 |
US11201947B2 (en) * | 2020-04-21 | 2021-12-14 | Citrix Systems, Inc. | Low latency access to application resources across geographical locations |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
JP7347324B2 (ja) | 2020-05-18 | 2023-09-20 | トヨタ自動車株式会社 | エージェント連携装置 |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
DE102020116458A1 (de) * | 2020-06-23 | 2021-12-23 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Individualisieren einer Sprachsteuerung, computerlesbares Speichermedium und System |
CN111564156B (zh) * | 2020-07-03 | 2021-01-26 | 杭州摸象大数据科技有限公司 | 外呼系统部署方法、装置、计算机设备及存储介质 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
TWI752682B (zh) * | 2020-10-21 | 2022-01-11 | 國立陽明交通大學 | 雲端更新語音辨識系統的方法 |
CN112291438B (zh) * | 2020-10-23 | 2021-10-01 | 北京蓦然认知科技有限公司 | 一种控制通话的方法及语音助手 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
EP4002061A1 (en) * | 2020-11-24 | 2022-05-25 | Inter IKEA Systems B.V. | A control device and a method for determining control data based on audio input data |
EP4016958A1 (en) * | 2020-12-15 | 2022-06-22 | Koninklijke Philips N.V. | Determining contextual information |
WO2022129064A1 (en) * | 2020-12-15 | 2022-06-23 | Koninklijke Philips N.V. | Generating encoded data |
US11595278B2 (en) * | 2020-12-16 | 2023-02-28 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
US11749079B2 (en) | 2020-12-16 | 2023-09-05 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
US11606465B2 (en) | 2020-12-16 | 2023-03-14 | Rovi Guides, Inc. | Systems and methods to automatically perform actions based on media content |
CN112507139B (zh) * | 2020-12-28 | 2024-03-12 | 深圳力维智联技术有限公司 | 基于知识图谱的问答方法、系统、设备及存储介质 |
CN112863512B (zh) * | 2021-01-18 | 2024-04-30 | 深圳创维-Rgb电子有限公司 | 一种语音交互调用处理方法、装置、终端设备及存储介质 |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US11762871B2 (en) | 2021-01-29 | 2023-09-19 | Walmart Apollo, Llc | Methods and apparatus for refining a search |
CN112951241B (zh) * | 2021-01-29 | 2022-07-01 | 思必驰科技股份有限公司 | 用于ios的拾音识别方法及系统 |
DE102021103676A1 (de) | 2021-02-17 | 2022-08-18 | Audi Aktiengesellschaft | Verfahren zur Verbesserung der Gebrauchstauglichkeit eines Kraftfahrzeugs, Kraftfahrzeug sowie Computerprogrammprodukt |
WO2022176124A1 (ja) * | 2021-02-18 | 2022-08-25 | 日本電信電話株式会社 | 学習装置、推定装置、それらの方法、およびプログラム |
KR20220118818A (ko) * | 2021-02-19 | 2022-08-26 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
TWI817106B (zh) * | 2021-04-14 | 2023-10-01 | 台達電子工業股份有限公司 | 查詢回饋裝置以及方法 |
US11885632B2 (en) | 2021-04-15 | 2024-01-30 | Google Llc | Conditional preparation for automated assistant input from a user in a vehicle |
US11842733B2 (en) | 2021-06-02 | 2023-12-12 | Kyndryl, Inc. | Artificial intelligence system for tasks |
US20230080930A1 (en) * | 2021-08-25 | 2023-03-16 | Hyperconnect Inc. | Dialogue Model Training Method and Device Therefor |
US12021806B1 (en) | 2021-09-21 | 2024-06-25 | Apple Inc. | Intelligent message delivery |
KR20230043397A (ko) * | 2021-09-24 | 2023-03-31 | 삼성전자주식회사 | 사용자 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법 |
US20230402041A1 (en) * | 2022-06-10 | 2023-12-14 | International Business Machines Corporation | Individual recognition using voice detection |
US20240005096A1 (en) * | 2022-07-01 | 2024-01-04 | Maplebear Inc. (Dba Instacart) | Attribute prediction with masked language model |
US11990123B1 (en) * | 2023-06-24 | 2024-05-21 | Roy Rosser | Automated training of AI chatbots |
CN117457003B (zh) * | 2023-12-26 | 2024-03-08 | 四川蜀天信息技术有限公司 | 一种流式语音识别方法、装置、介质及设备 |
Family Cites Families (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6192339B1 (en) * | 1998-11-04 | 2001-02-20 | Intel Corporation | Mechanism for managing multiple speech applications |
US6330537B1 (en) * | 1999-08-26 | 2001-12-11 | Matsushita Electric Industrial Co., Ltd. | Automatic filtering of TV contents using speech recognition and natural language |
US6442519B1 (en) * | 1999-11-10 | 2002-08-27 | International Business Machines Corp. | Speaker model adaptation via network of similar users |
US20010047261A1 (en) * | 2000-01-24 | 2001-11-29 | Peter Kassan | Partially automated interactive dialog |
JP4066616B2 (ja) * | 2000-08-02 | 2008-03-26 | トヨタ自動車株式会社 | 内燃機関の自動始動制御装置及び動力伝達状態検出装置 |
US7149695B1 (en) * | 2000-10-13 | 2006-12-12 | Apple Computer, Inc. | Method and apparatus for speech recognition using semantic inference and word agglomeration |
US7085723B2 (en) * | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
US7257537B2 (en) * | 2001-01-12 | 2007-08-14 | International Business Machines Corporation | Method and apparatus for performing dialog management in a computer conversational interface |
US6925154B2 (en) * | 2001-05-04 | 2005-08-02 | International Business Machines Corproation | Methods and apparatus for conversational name dialing systems |
JP3963698B2 (ja) * | 2001-10-23 | 2007-08-22 | 富士通テン株式会社 | 音声対話システム |
WO2004092967A1 (ja) * | 2003-04-14 | 2004-10-28 | Fujitsu Limited | 対話装置、対話方法及び対話プログラム |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US20080289002A1 (en) * | 2004-07-08 | 2008-11-20 | Koninklijke Philips Electronics, N.V. | Method and a System for Communication Between a User and a System |
JP2006127148A (ja) * | 2004-10-28 | 2006-05-18 | Fujitsu Ltd | 音声自動対話システムにおける情報処理方法 |
JP4405370B2 (ja) * | 2004-11-15 | 2010-01-27 | 本田技研工業株式会社 | 車両用機器制御装置 |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
JP4461047B2 (ja) * | 2005-03-31 | 2010-05-12 | 株式会社ケンウッド | ナビゲーション装置、av装置、アシスタント表示方法、アシスタント表示用プログラム、および電子機器システム |
JP2007057844A (ja) * | 2005-08-24 | 2007-03-08 | Fujitsu Ltd | 音声認識システムおよび音声処理システム |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US20070061335A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Multimodal search query processing |
US20070078653A1 (en) * | 2005-10-03 | 2007-04-05 | Nokia Corporation | Language model compression |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US8332218B2 (en) * | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
KR100873956B1 (ko) | 2006-08-17 | 2008-12-15 | 삼성전자주식회사 | 에뮬레이션 시스템 |
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20090234635A1 (en) * | 2007-06-29 | 2009-09-17 | Vipul Bhatt | Voice Entry Controller operative with one or more Translation Resources |
US8595642B1 (en) * | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US20120259633A1 (en) * | 2011-04-07 | 2012-10-11 | Microsoft Corporation | Audio-interactive message exchange |
JP5698203B2 (ja) * | 2011-09-30 | 2015-04-08 | アップル インコーポレイテッド | バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用 |
US9214157B2 (en) * | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US8406384B1 (en) * | 2012-01-18 | 2013-03-26 | Nuance Communications, Inc. | Universally tagged frequent call-routing user queries as a knowledge base for reuse across applications |
US8453058B1 (en) * | 2012-02-20 | 2013-05-28 | Google Inc. | Crowd-sourced audio shortcuts |
US8953757B2 (en) * | 2012-08-06 | 2015-02-10 | Angel.Com Incorporated | Preloading contextual information for applications using a conversation assistant |
US9217625B2 (en) | 2012-08-23 | 2015-12-22 | Intrepid Tactical Solutions, Inc. | Shotshell type ammunition usable in magazine-fed firearms, and methods of manufacturing such shotshell type ammunition |
US8606568B1 (en) * | 2012-10-10 | 2013-12-10 | Google Inc. | Evaluating pronouns in context |
US9085303B2 (en) * | 2012-11-15 | 2015-07-21 | Sri International | Vehicle personal assistant |
US9672822B2 (en) * | 2013-02-22 | 2017-06-06 | Next It Corporation | Interaction with a portion of a content item through a virtual assistant |
US9292254B2 (en) * | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
US9466294B1 (en) * | 2013-05-21 | 2016-10-11 | Amazon Technologies, Inc. | Dialog management system |
RU2637874C2 (ru) * | 2013-06-27 | 2017-12-07 | Гугл Инк. | Генерирование диалоговых рекомендаций для чатовых информационных систем |
US10054327B2 (en) * | 2013-08-21 | 2018-08-21 | Honeywell International Inc. | Devices and methods for interacting with an HVAC controller |
US10049656B1 (en) * | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
US20150162000A1 (en) * | 2013-12-10 | 2015-06-11 | Harman International Industries, Incorporated | Context aware, proactive digital assistant |
US9804820B2 (en) * | 2013-12-16 | 2017-10-31 | Nuance Communications, Inc. | Systems and methods for providing a virtual assistant |
US9460735B2 (en) * | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
US8938394B1 (en) * | 2014-01-09 | 2015-01-20 | Google Inc. | Audio triggers based on context |
RU2014111971A (ru) * | 2014-03-28 | 2015-10-10 | Юрий Михайлович Буров | Способ и система голосового интерфейса |
US9715875B2 (en) * | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9978362B2 (en) * | 2014-09-02 | 2018-05-22 | Microsoft Technology Licensing, Llc | Facet recommendations from sentiment-bearing content |
-
2015
- 2015-09-30 EP EP15846915.5A patent/EP3201913A4/en not_active Withdrawn
- 2015-09-30 KR KR1020177011922A patent/KR102342623B1/ko active IP Right Grant
- 2015-09-30 WO PCT/US2015/053251 patent/WO2016054230A1/en active Application Filing
- 2015-09-30 JP JP2017538155A patent/JP6671379B2/ja not_active Expired - Fee Related
- 2015-09-30 US US14/871,272 patent/US10235996B2/en active Active
- 2015-09-30 CN CN201580060712.5A patent/CN107004410B/zh active Active
- 2015-09-30 CA CA2962636A patent/CA2962636A1/en active Pending
-
2019
- 2019-02-15 US US16/277,844 patent/US10789953B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CA2962636A1 (en) | 2016-04-07 |
WO2016054230A1 (en) | 2016-04-07 |
CN107004410A (zh) | 2017-08-01 |
EP3201913A1 (en) | 2017-08-09 |
US20160098992A1 (en) | 2016-04-07 |
CN107004410B (zh) | 2020-10-02 |
US10789953B2 (en) | 2020-09-29 |
US20190180750A1 (en) | 2019-06-13 |
JP2017535823A (ja) | 2017-11-30 |
EP3201913A4 (en) | 2018-06-06 |
KR102342623B1 (ko) | 2021-12-22 |
KR20170070094A (ko) | 2017-06-21 |
US10235996B2 (en) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6671379B2 (ja) | 音声および接続プラットフォーム | |
US11863646B2 (en) | Proactive environment-based chat information system | |
CN108701454B (zh) | 对话系统中的参数收集和自动对话生成 | |
US10573309B2 (en) | Generating dialog recommendations for chat information systems based on user interaction and environmental data | |
US11887594B2 (en) | Proactive incorporation of unsolicited content into human-to-computer dialogs | |
KR102048375B1 (ko) | 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용 | |
US10446142B2 (en) | Crafting feedback dialogue with a digital assistant | |
KR102357685B1 (ko) | 병렬 처리용 하이브리드 클라이언트/서버 아키텍처 | |
US9172747B2 (en) | System and methods for virtual assistant networks | |
EP4029012B1 (en) | Techniques for dialog processing using contextual data | |
CN104335234A (zh) | 用于将第三方服务与数字助理相结合的系统和方法 | |
EP3792912B1 (en) | Improved wake-word recognition in low-power devices | |
Celestino | Development and implementation of an automotive virtual assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170601 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180925 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191021 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6671379 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |