JP2019523918A - デバイス上の音声アシスタントの実装 - Google Patents

デバイス上の音声アシスタントの実装 Download PDF

Info

Publication number
JP2019523918A
JP2019523918A JP2018559707A JP2018559707A JP2019523918A JP 2019523918 A JP2019523918 A JP 2019523918A JP 2018559707 A JP2018559707 A JP 2018559707A JP 2018559707 A JP2018559707 A JP 2018559707A JP 2019523918 A JP2019523918 A JP 2019523918A
Authority
JP
Japan
Prior art keywords
voice
electronic device
voice assistant
response
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018559707A
Other languages
English (en)
Other versions
JP2019523918A5 (ja
Inventor
ミクスター,ケネス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019523918A publication Critical patent/JP2019523918A/ja
Publication of JP2019523918A5 publication Critical patent/JP2019523918A5/ja
Priority to JP2022200417A priority Critical patent/JP2023051963A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4112Peripherals receiving signals from specially adapted client devices having fewer capabilities than the client, e.g. thin client having less processing power or no tuning capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4751End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for defining user accounts, e.g. accounts for children
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Automation & Control Theory (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Electromagnetism (AREA)
  • Stored Programmes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

オーディオ入力システムを有する電子デバイスにおける方法は、デバイスにおいて口頭入力を受信するステップと、口頭入力を処理するステップと、口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信するステップと、口頭入力に基づいた情報に応じて遠隔システムが生成した、要求に対する応答を受信するステップと、応答に応じた動作を実行するステップとを含み、前記した、受信するステップ、処理するステップ、送信するステップ、受信するステップ、および実行するステップのうちの1つ以上は、電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって実行され、音声処理モジュールは、電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する。

Description

技術分野
本願は、一般に、これに限定されないが、デバイスおよび関連ライブラリ用の音声アシスタントを含むコンピュータ技術に関する。
背景
インターネットおよびクラウドコンピューティングの発展と並んで、オーディオ/音声入出力を通してユーザと対話する音声ベースのアシスタントの人気が高まっている。これらのアシスタントは、デジタルメディアを消費するためのインタフェースを提供し、一例を挙げると、ニュース、スポーツの得点、天気、および株といった様々な種類の情報を提供できる。
ユーザは、音声ベースのアシスタント機能があれば望ましいデバイスを複数有しているだろう。いろいろなデバイス間で実装および使用でき、これらいろいろなデバイス間で一貫性のあるエクスペリエンスを提供でき、かつ、特定のデバイスに特化した機能をサポートできる、音声ベースのアシスタントを有することが望ましい。
概要
本明細書に記載の実装形態は、多種多様なオペレーティングシステムプラットフォームのためにローカルデバイスを制御することを可能にする方法で音声アシスタントを組込みシステムおよび/またはデバイスに組込むまたは含むことを対象とする。
いくつかの実装形態によれば、薄くてリソースの使用量が少ないデバイス側ライブラリは、オーディオデータのローカル処理、ウェイクワードまたはホットワードのリスニング、およびユーザ要求の送信を含む特徴がある。さらなる特徴として、クラウド脳への接続性、拡張可能な音声操作制御システム、多くの多様な動作環境への統合を可能にするポータビリティレイヤ、および残りのクライアントソフトウェアと非同期で更新できることなどがある。
記載の実装形態には、多くの異なるデバイス間で音声アシスタントと対話するための同じようなユーザエクスペリエンスを提供するという利点がある。
記載の実装形態には、音声アシスタント機能におけるイノベーションを、デバイス自体から使用可能なイノベーションと切り離すことが可能になるという別の利点がある。たとえば、改良された認識パイプラインが作られた場合、認識結果がデバイスに出力される一方で、デバイスのメーカーは、認識結果を受信するために何かをする必要なしに、引き続き、前の音声コマンドから利益を得ることができる。
いくつかの実装形態によれば、オーディオ入力システムと、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリとを有する電子デバイスにおける方法は、デバイスにおいて口頭入力を受信するステップと、口頭入力を処理するステップと、口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信するステップと、口頭入力に基づいた情報に応じて遠隔システムが生成した、要求に対する応答を受信するステップと、応答に応じた動作を実行するステップとを含み、受信するステップ、処理するステップ、送信するステップ、受信するステップ、および実行するステップのうちの1つ以上は、電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって実行され、音声処理モジュールは、電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する。
いくつかの実装形態では、オーディオ入力システムを備える電子デバイス用の、デバイスを問わない音声アシスタントライブラリは、複数の異なる電子デバイスタイプ上に実装される共通のオペレーションシステム上で動作するように構成された1つ以上の音声処理モジュールを含み、当該音声処理モジュールは、電子デバイス上で実行中のアプリケーションプログラムおよびオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供しそれによって、音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティが可能なる。
いくつかの実装形態では、電子デバイスは、オーディオ入力システムと、1つ以上のプロセッサと、1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリとを備える。1つ以上のプログラムは、デバイスにおいて口頭入力を受信するための命令と、口頭入力を処理するための命令と、口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信するための命令と、口頭入力に基づいた情報に応じて遠隔システムが生成した、要求に対する応答を受信するための命令と、応答に応じた動作を実行するための命令を含み、受信すること、処理すること、送信すること、受信すること、および実行することのうちの1つ以上は、電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって実行され、音声処理モジュールは、電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する。
いくつかの実装形態では、非一時的なコンピュータ読み取り可能な記憶媒体は、1つ以上のプログラムを格納する。1つ以上のプログラムは、命令を含み、命令は、オーディオ入力システムと1つ以上のプロセッサとを有する電子デバイスによって実行されると、電子デバイスに、デバイスにおいて口頭入力を受信させ、口頭入力を処理させ、口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信させ、口頭入力に基づいた情報に応じて遠隔システムが生成した、要求に対する応答を受信させ、応答に応じた動作を実行させ、受信すること、処理すること、送信すること、受信すること、および実行することのうちの1つ以上は、電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって実行され、音声処理モジュールは、電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する。
いくつかの実装形態に係る、ネットワーク環境の例を示すブロック図である。 いくつかの実装形態に係る、音声アシスタントクライアントデバイスの例を示す図である。 いくつかの実装形態に係る、サーバシステムの例を示す図である。 いくつかの実装形態に係る、音声アシスタントライブラリの機能ビューを示すブロック図である。 いくつかの実装形態に係る、デバイス上での口頭入力を処理するための方法のフロー図である。
図面の全体にわたって、同じ参照番号は、対応する部分を指す。
実装形態の説明
ここで、様々な実装形態を詳細に説明する。これらの実装形態の例は、添付の図面に示される。以下の詳細な説明において、本発明および記載の実装形態の十分な理解を与えるために、たくさんの具体的な詳細を説明する。しかしながら、これらの具体的な詳細がなくても、本発明を実施することはできる。その他の場合、周知の方法、プロシージャ、構成要素、および回路については、実装形態の態様を不必要にあいまいにしないよう、詳細に説明しない。
いくつかの実装形態では、音声アシスタントの目的は、いろいろなデバイス間で利用可能であり、かつ、多種多様なユースケースを可能する、個人向けにカスタマイズされた音声インタフェースをユーザに提供することであり、ユーザの一日にわたって一貫したエクスペリエンスを提供する。音声アシスタントおよび/または関連機能は、ファーストパーティ製品およびデバイス、ならびにサードバーティ製品およびデバイスに統合されてもよい。
ユースケース例は、メディアを含む。音声コマンドを用いて、音楽、ラジオ、ポッドキャスト、ニュース、およびその他のオーディオメディアの再生および制御を音声によって開始してもよい。たとえば、ユーザは、(たとえば、「ジャズ音楽を再生して」、「FM107.5を再生して」、「次の曲にスキップして」、「“連続”再生して」)という音声コマンドを発して、様々な種類のオーディオメディアを再生または制御できる。さらには、このようなコマンドを用いて、地上波のラジオ放送局のオンラインストリーミング、音楽サブスクリプションサービス、ローカルストレージ、リモートストレージなど、いろいろなソースからのオーディオメディアを再生してもよい。さらには、音声アシスタントは、キャスティングデバイスで使用できる統合を利用して、さらなるコンテンツをサポートしてもよい。
別のユースケース例は、リモート再生を含む。ユーザは、音声アシスタント機能を含むキャスティングデバイスに対して音声コマンドを発行してもよく、音声コマンドに応じて、コマンドにおいて指定されたデバイス上で、指定された1つ以上のデバイスからなる群に含まれるデバイス上で、または、コマンドにおいて指定されたエリアにある1つ以上のデバイス上で、メディアが再生される(たとえば、キャストされる)。また、ユーザは、一般的なカテゴリまたは特定のコンテンツをコマンドにおいて指定でき、コマンドにおいて指定されたカテゴリまたはコンテンツに応じて、適切なメディアが再生される。
さらに別のユースケース例は、生産性を向上させる機能(たとえば、タイマ、目覚まし時計、カレンダー)、ホームオートメーション、検索エンジン(たとえば、検索クエリ)の技術が活かされた質問と回答、楽しみ(たとえば、アシスタントの個性、ジョーク、ゲーム、イースターエッグ)、および日々のタスク(たとえば、交通手段、移動、食べ物、ファイナンス、贈り物など)などの非メディアである。
いくつかの実装形態では、音声アシスタントは、キャスティングデバイスのオプション機能として提供され、音声アシスタント機能は、キャスティングデバイスの一部として更新されてもよい。
いくつかの実装形態では、音声コマンドおよびユーザからの口頭入力に含まれるホットワードまたはキーワードの検出は、アプリケーションプロセッサによって行われる(たとえば、ユーザが音声コマンドまたは口頭入力を話しかける先のクライアントデバイスまたはキャスティングデバイスにおいて行われる)。いくつかの実装形態では、ホットワードの検出は、外部のデジタル信号プロセッサによって行われる(ユーザが音声コマンドまたは口頭入力を話しかける先のクライアントデバイスまたはキャスティングデバイスとは対照的に、たとえば、サーバシステムが音声コマンドを処理することによって行われる)。
いくつかの実装形態では、音声アシスタント機能を有するデバイスは、遠方界サポート、「プッシュ・トゥ・アシスト」または「プッシュ・トゥ・トーク」(たとえば、音声アシスタント機能を開始するためのボタン)、およびAC電源のうちの1つ以上を含む。
いくつかの実装形態では、音声アシスタントは、オーディオ入力装置(たとえば、マイクロホン、進行中の再生のメディアループバック)、マイクロホンの状態(たとえば、オン/オフ)、ダッキング(たとえば、ホットワードまたはプッシュ・トゥ・トークによってアシスタントが起動(トリガー:trigger)されたときにすべての出力の音量を下げること)、ならびに新しいアシスタントイベントおよびステータスメッセージ(たとえば、アシスタントが起動された(たとえば、ホットワードを聞いた、アシスタントボタンが押された)、音声をリスニングする、サーバ上で待機する、応答する、応答が終了する、アラーム/タイマが鳴っている)のうちの1つ以上のためのアプリケーションプログラミングインタフェース(API)を含む。
いくつかの実装形態では、音声アシスタント機能を有するデバイスは、デバイス上の音声アシスタントの機能を可能にまたは容易にする(たとえば、デバイス上の音声アシスタント機能をセットアップする、ユーザにチュートリアルを提供する)ために、設定上の目的のために別のデバイスと(たとえば、スマートフォン上の設定アプリケーションと)通信してもよい。設定またはセットアップには、デバイスの位置の指定、ユーザアカウントとの関連付け、ユーザの音声制御へのオプトイン、メディアサービス(たとえば、映像ストリーミングサービス、音楽ストリーミングサービス)へリンクすることおよびメディアサービスの優先順位をつけること、ホームオートメーション設定などが含まれてもよい。
いくつかの実装形態では、音声アシスタントを有するデバイスは、1つ以上のユーザインタフェース要素またはユーザに対する表示を含んでもよい。ユーザインタフェース要素のうちの1つ以上は、物理的要素であり(たとえば、1つ以上のLEDを用いて表示される光のパターン、スピーカが出力するサウンドパターン)、ホットワードに左右されない「プッシュ・トゥ・アシスト」または「プッシュ・トゥ・トーク」トリガー、「ミュートマイクロホン」トリガーおよび視覚的なステータス表示、「ホットワード待ちステータス」の視覚的な表示、「ホットワードを検出」の視覚的な表示、少し離れた位置(たとえば、15フィート)から視認できる「アシスタントは積極的にリスニング中です」の視覚的な表示、「アシスタントが作業中/考え中」の視覚的な表示、「音声メッセージ/通知があります」の視覚的な表示、「音量レベル」の制御方法およびステータスインジケータ、ならびに「一旦停止/再開」制御方法のうちの1つ以上を含んでもよい。いくつかの実装形態では、これらの物理的なユーザインタフェース要素は、クライアントデバイスまたはキャスティングデバイスによって提供される。いくつかの実装形態では、音声アシスタントは、エクスペリエンスが異なるデバイス間で一貫するように、異なるデバイス間で共通のユーザインタフェース要素または表示のセットをサポートする。
いくつかの実装形態では、音声アシスタントは、デバイス固有のコマンドおよび/またはホットワード、ならびに、コマンドおよび/またはホットワードの定義済みの標準セットをサポートする。
図1は、いくつかの実装形態に係る、ネットワーク環境100を示す図である。ネットワーク環境100は、キャスティングデバイス106および/または音声アシスタントクライアントデバイス104を含む。キャスティングデバイス106(たとえば、GOOGLE INC.によるCHROMECAST)は、オーディオ入力装置108(たとえば、マイクロホン)およびオーディオ出力装置110(たとえば、1つ以上のスピーカ)に直接または通信可能に接続される。いくつかの実装形態では、オーディオ入力装置108およびオーディオ出力装置110は、キャスティングデバイス106に通信可能に接続されたデバイス(たとえば、スピーカシステム、テレビ、サウンドバー)のコンポーネントである。いくつかの実装形態では、オーディオ入力装置108は、キャスティングデバイス106のコンポーネントであり、オーディオ出力装置110は、キャスティングデバイス106が通信可能に接続されたデバイスのコンポーネントであり、または、オーディオ出力装置110は、キャスティングデバイス106のコンポーネントであり、オーディオ入力装置108は、キャスティングデバイス106が通信可能に接続されたデバイスのコンポーネントである。いくつかの実装形態では、オーディオ入力装置108およびオーディオ出力装置110は、キャスティングデバイス106のコンポーネントである。
いくつかの実装形態では、キャスティングデバイス106は、クライアント102に通信可能に接続される。クライアント102は、音声アシスタント機能を含む、キャスティングデバイス106の構成を容易にするアプリケーションまたはモジュール(たとえば、キャスティングデバイス設定アプリ)を含んでもよい。
いくつかの実装形態では、キャスティングデバイス106は、ディスプレイ144に接続される。
いくつかの実装形態では、キャスティングデバイス106は、1つ以上の視覚的インジケータ142(たとえば、LEDライト)を含む。
いくつかの実装形態では、キャスティングデバイス106は、受信モジュール146を含む。いくつかの実装形態では、受信モジュール146は、キャスティングデバイス106を操作し、操作対象として、たとえば、ハードウェア関数およびコンテンツソースとの通信を含む。いくつかの実装形態では、キャスティングデバイス106において、異なるコンテンツソースに対して異なる受信モジュール146がある。いくつかの実装形態では、受信モジュール146は、異なるコンテンツソースのためのサブモジュールをそれぞれ含む。
音声アシスタントクライアントデバイス104(たとえば、GOOGLE INC.によるGOOGLEアシスタント、GOOGLE INC.によるGOOGLE HOMEを有するスマートフォン、ラップトップもしくはデスクトップコンピュータ、タブレットコンピュータ、音声コマンドデバイス、モバイル機器、または車載システム)は、オーディオ入力装置132(たとえば、マイクロホン)と、オーディオ出力装置134(たとえば、1つ以上のスピーカ、ヘッドフォン)とを備える。いくつかの実装形態では、音声アシスタントクライアントデバイス104(たとえば、GOOGLE INC.によるGOOGLEアシスタント、GOOGLE INC.によるGOOGLE HOMEを有する音声コマンドデバイス、モバイル機器、または車載システム)は、クライアント140(たとえば、スマートフォン、タブレットデバイス)に通信可能に接続される。クライアント140は、音声アシスタント機能を含む、音声アシスタントクライアントデバイス104の設定を容易にするアプリケーションまたはモジュール(たとえば、音声コマンドデバイス設定アプリ)を含んでもよい。
いくつかの実装形態では、音声アシスタントクライアントデバイス104は、1つ以上の視覚的インジケータ152(たとえば、LEDライト)を含む。視覚的なインジケータ(たとえば、LEDライト)を有する音声アシスタントクライアントデバイスの例を、2016年5月13日に出願され、「LED Design Language for Visual Affordance of Voice User Interfaces(音声ユーザインタフェースの視覚的アフォーダンスのためのLEDデザイン言語)」と題された米国仮出願第62/336,566号(引用により本明細書に援用する)を示した図4Aに示す。
キャスティングデバイス106および音声アシスタントクライアントデバイス104は、音声アシスタントモジュールまたはライブラリ136のそれぞれのインスタンスを含む。音声アシスタントモジュール/ライブラリ136は、いろいろなデバイス(たとえば、キャスティングデバイス106、音声アシスタントクライアントデバイス104)間で音声アシスタント機能を実装するモジュール/ライブラリである。音声アシスタント機能は、デバイス固有の特徴(たとえば、デバイス固有の特徴を音声アシスタントによって制御するためのサポート)を引き続き許可しつつ、いろいろなデバイス間で一貫性がある。いくつかの実装形態では、音声アシスタントモジュール/ライブラリ136は、デバイス間で同じまたは同様であり、同じライブラリのインスタンスがいろいろなデバイスに含まれ得る。
いくつかの実装形態では、デバイスのタイプによっては、音声アシスタントモジュール/ライブラリ136は、デバイスにインストールされたアプリケーションにもしくはデバイスのオペレーティングシステムに含まれる、またはデバイスに埋め込まれる(たとえば、ファームウェアに埋め込まれる)。
いくつかの実装形態では、キャスティングデバイス106における音声アシスタントモジュール/ライブラリ136−1は、受信モジュール146と通信して、音声アシスタント動作を行う。
いくつかの実装形態では、キャスティングデバイス106における音声アシスタントモジュール/ライブラリ136−1は、視覚的インジケータ142を制御できる、または視覚的インジケータ142に影響を与えることができる。
いくつかの実装形態では、音声アシスタントクライアントデバイス104における音声アシスタントモジュール/ライブラリ136−2は、視覚的インジケータ152を制御できる、または視覚的インジケータ152に影響を与えることができる。
キャスティングデバイス106および音声アシスタントクライアントデバイス104は、1つ以上の通信ネットワーク112(たとえば、ローカルエリアネットワーク、ワイドエリアネットワーク、インターネット)を通じてサーバシステム114に通信可能に接続される。音声アシスタントモジュール/ライブラリ136は、オーディオ入力装置108/132によって拾われた(たとえば、キャプチャされた)口頭入力を検出(たとえば、受信)し、当該口頭入力を(たとえば、ホットワードを検出するために)処理し、処理済みの口頭入力または処理済みの口頭入力をエンコーディングしたものをサーバ114に送信する。サーバ114は、処理済みの口頭入力またはそれをエンコーディングしたものを受信し、受信した口頭入力を処理して、当該口頭入力に対する適切な応答を決定する。適切な応答は、コンテンツ、情報、または、キャスティングデバイス106または音声アシスタントクライアントデバイス104に関数または動作を実行させるためのキャスティングデバイス106または音声アシスタントクライアントデバイス104に対する命令、コマンド、もしくはメタデータであってもよい。サーバ114は、コンテンツもしくは情報が出力される(たとえば、オーディオ出力装置110/134から出力される)および/または関数が実行されるキャスティングデバイス106または音声アシスタントクライアントデバイス104に、応答を送る。処理の一部として、サーバ114は、1つ以上のコンテンツ/情報ソース138と通信し、応答用に、コンテンツまたは情報を取得するまたはそのようなものを参照してもよい。いくつかの実装形態では、コンテンツ/情報ソース138として、検索エンジン、データベース、ユーザのアカウントに関連付けられた情報(たとえば、カレンダー、タスク一覧、電子メール)、ウェブサイト、およびメディアストリーミングサービスなどが挙げられる。いくつかの実装形態では、音声アシスタントクライアントデバイス104およびキャスティングデバイス106は、互いに通信または対話を行ってもよい。このような通信または対話の例、および音声アシスタントクライアントデバイス104(たとえば、GOOGLE INC.によるGOOGLE HOME)の動作の例が、2016年5月13日に出願され、「LED Design Language for Visual Affordance of Voice User Interfaces(音声ユーザインタフェースの視覚的アフォーダンスについてのデザイン言語)」と題された米国仮出願第62/336,566号、2016年5月13日に出願され、「Voice-Controlled Closed Caption Display(音声制御されたクローズドキャプションの表示)」と題された米国仮出願第62/336,569号、および2016年5月13日に出願され、「Media Transfer among Media Output Devices(メディア出力デバイス間のメディア転送)」と題された米国仮出願第62/336,565号に開示されている。これらの出願のすべては、引用により本明細書に援用する。
いくつかの実装形態では、音声アシスタントモジュール/ライブラリ136は、オーディオ入力装置108/132によってキャプチャされた口頭入力を受信し、当該口頭入力(処理をせずまたはほとんどせずに)またはそれをエンコーディングしたものをサーバ114に送信する。サーバ114は、口頭入力を処理して、ホットワードを検出し、適切な応答を決定し、この応答をキャスティングデバイス106または音声アシスタントクライアントデバイス104に送る。
キャスティングデバイス106または音声アシスタントクライアントデバイス104が関数を実行するためのコマンドを当該口頭入力が含むとサーバ114が判断した場合、サーバ114は、キャスティングデバイス106または音声アシスタントクライアントデバイス104に当該関数を実行するように指示する命令またはメタデータを応答に含めて送信する。当該関数は、デバイスに固有であってもよく、音声アシスタントにおけるこのような関数をサポートするための機能が、音声アシスタントモジュール/ライブラリ136に追加またはリンクされるカスタムモジュールまたは関数として、キャスティングデバイス106またはクライアント104に含まれてもよい。
いくつかの実装形態では、サーバ114は、口頭入力の処理動作を行い、かつ、当該口頭入力に対する応答を決定する音声処理バックエンド148を含む、またはこれに接続される。
いくつかの実装形態では、サーバ114は、ダウンロード可能な音声アシスタントライブラリ150を含む。ダウンロード可能な音声アシスタントライブラリ150(たとえば、音声アシスタントライブラリ136と同じまたはそれを更新したもの)は、新しい特徴もしくは機能、または更新を含んでもよく、デバイスに音声アシスタントライブラリを追加するまたは音声アシスタントライブラリ136を更新するためにダウンロードすることができる。
図2は、いくつかの実装形態に係る、ネットワーク環境100の音声アシスタントクライアントデバイス104またはキャスティングデバイス106の例を示すブロック図である。音声アシスタントクライアントデバイス104の例として、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、ワイヤレススピーカ(たとえば、GOOGLE INC.によるGOOGLE HOME)、音声コマンドデバイス(たとえば、GOOGLE INC.によるGOOGLE HOME)、テレビ、サウンドバー、キャスティングデバイス(たとえば、GOOGLE INC.によるCHROMECAST)、メディアストリーミングデバイス、家電、家庭用電子機器、車載システム、およびウェアラブルパーソナルデバイスなどが挙げられるが、これらに限定されない。音声アシスタントクライアントデバイス104(たとえば、GOOGLE INC.によるGOOGLE HOME、GOOGLEアシスタント機能を有するモバイル機器)またはキャスティングデバイス106(たとえば、GOOGLE INC.によるCHROMECAST)は、通常、1つ以上の処理装置(CPU)202と、1つ以上のネットワークインターフェース204と、メモリ206と、これらのコンポーネントを互いに接続するための1つ以上の通信バス208(チップセットと呼ばれる場合もある)とを備える。音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、ユーザ入力を容易にする1つ以上の入力装置210を備える。1つ以上の入力装置210は、オーディオ入力装置108または132(たとえば、音声コマンド入力部またはマイクロホン)を含み、必要に応じて、キーボード、マウス、タッチスクリーンディスプレイ、タッチ入力パッド、ジェスチャーキャプチャカメラ、またはその他の入力ボタンもしくは制御部などのその他の入力装置を含む)。いくつかの実装形態では、音声アシスタントクライアントデバイス102は、キーボードを補助または置き換えるために、マイクロホンおよび音声認識、または、カメラおよびジェスチャー認識を使用する。また、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、1つ以上の出力装置212を備える。1つ以上の出力装置212は、オーディオ出力装置110または134(たとえば、1つ以上のスピーカ、ヘッドフォンなど)を含み、必要に応じて、ユーザインタフェースの提示を可能にし、かつ、コンテンツおよび情報を表示する1つ以上の表示装置(たとえば、ディスプレイ144)および/または1つ以上の視覚的インジケータ142もしくは152(たとえば、LED)を含む。必要に応じて、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、音声アシスタントクライアントデバイス104またはキャスティングデバイス106の位置を特定するための、GPS(Global Positioning Satellite)または他の地理的位置受信機など、位置検出部214を備える。また、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、必要に応じて、他のオブジェクト(たとえば、ウェアラブルパーソナルデバイスの場合、ユーザ/着用者)への音声アシスタントクライアントデバイス104またはキャスティングデバイス106の近接度を判断するための近接検出デバイス215、たとえば、IRセンサを備えてもよい。必要に応じて、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、センサ(複数可)213(たとえば、加速度計、ジャイロスコープなど)を含む。
メモリ206は、DRAM、SRAM、DDR RAMなどの高速ランダムアクセスメモリ、またはその他のランダムアクセス固体記憶装置を含み、必要であれば、1つ以上の磁気ディスク記憶装置、1つ以上の光学ディスク記憶装置、1つ以上のフラッシュメモリデバイスなどの不揮発性メモリ、または1つ以上のその他の不揮発性固体記憶装置を含む。メモリ206は、必要であれば、1つ以上の処理装置202から離れて位置する1つ以上の記憶装置を含む。メモリ206、またはメモリ206内の当該不揮発性メモリは、非一時的なコンピュータ読み取り可能な記憶媒体を含む。いくつかの実装形態では、メモリ206、またはメモリ206の非一時的なコンピュータ読み取り可能な記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットもしくはスーパーセットを格納する。
●様々な基本システムサービスを処理するための、かつ、ハードウェア依存のタスクを実行するためのプロシージャを含むオペレーティングシステム216。
●1つ以上のネットワークインターフェース204(有線またはワイヤレス)、および、インターネット、その他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つ以上のネットワーク112を介して音声アシスタントクライアントデバイス104またはキャスティングデバイス106をその他のデバイス(たとえば、サーバシステム114、クライアント102、140、その他の音声アシスタントクライアントデバイス104またはキャスティングデバイス106)に接続するためのネットワーク通信モジュール218。
●1つ以上の出力装置212(たとえば、ディスプレイ、スピーカなど)を介して音声アシスタントクライアントデバイス104またはキャスティングデバイス106で情報の提示を可能にするためのユーザインタフェースモジュール220。
●1つ以上のユーザ入力または1つ以上の入力装置210がキャプチャまたは受信した対話を処理し、当該入力および対話を解釈するための入力処理モジュール222。
●口頭入力を処理し、当該口頭入力をサーバ114に提供し、サーバ114から応答を受信し、当該応答を出力するための音声アシスタントモジュール136。
●以下を含む、少なくとも音声アシスタントモジュール136に関連付けられたデータを格納するためのクライアントデータ226。
○音声アシスタントモジュール136の設定および構成ならびに音声アシスタント機能に関連付けられた情報を格納するための音声アシスタント設定228。
○コンテンツまたは情報の定義済みのおよび/またはユーザ指定のソースおよびカテゴリを格納するためのコンテンツソース/情報ソース230およびコンテンツカテゴリ/情報カテゴリ232。
○受信したコマンドおよび要求、コマンドおよび要求に対する応答、コマンドおよび要求に応答して行われた動作など、音声アシスタントモジュール136の動作および使用に関連付けられた情報(たとえば、ログ)を格納するための利用履歴234。
○コンテンツソース/情報ソース230におけるユーザのそれぞれのアカウントおよびこれらの認可されたアカウントのアカウント情報にアクセスするための1つ以上のユーザの認可および認証情報を格納するためのユーザアカウントおよび認可236。
○コンテンツソースと通信することを含む、キャスティングデバイス106のキャスティング機能を操作するための受信モジュール146。
いくつかの実装形態では、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、音声アシスタントおよび関連機能のための1つ以上のライブラリおよび1つ以上のアプリケーションプログラミングインタフェース(API)を含む。これらのライブラリは、音声アシスタントモジュール136または受信モジュール146に含まれてもよく、または、音声アシスタントモジュール136または受信モジュール146によって互いにリンクされてもよい。ライブラリは、音声アシスタント機能または音声アシスタント機能を容易にしたその他の関数に関連付けられたモジュールを含む。APIは、音声アシスタント機能を容易にするハードウェアおよびその他のソフトウェア(たとえば、オペレーティングシステム、その他のアプリケーション)へのインタフェースを提供する。たとえば、音声アシスタントクライアントライブラリ240、デバッギングライブラリ242、プラットフォームAPI244、およびPOSIX API246がメモリ206に格納されてもよい。これらのライブラリおよびAPIについては、図4を参照して、以下にさらに詳しく説明する。
いくつかの実装形態では、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、音声アシスタントクライアントライブラリ240のモジュールおよび関数を利用する音声アプリケーション250を含み、必要に応じて、デバッギングライブラリ242、プラットフォームAPI244、およびPOSIX API246を含む。いくつかの実装形態では、音声アプリケーション250は、音声アシスタントクライアントライブラリ240の使用によって音声対応になるファーストパーティまたはサードパーティアプリケーションなどである。
上記要素の各々は、前述の記憶装置のうちの1つ以上に格納されてもよく、上述の関数を実行するための命令セットに対応する。上記モジュールまたはプログラム(つまり、命令セット)は、別々のソフトウェアプログラム、プロシージャ、モジュール、またはデータ構造として実装される必要がないため、これらのモジュールの様々なサブセットが、様々な実装形態において組み合わされるまたは並べ替えられてもよい。いくつかの実装形態では、メモリ206は、必要であれば、上記モジュールおよびデータ構造のサブセットを格納する。さらに、メモリ206は、必要であれば、上に記載されないさらなるモジュールおよびデータ構造を格納する。
図3は、いくつかの実装形態に係る、ネットワーク環境100のサーバシステム114の例を示すブロック図である。サーバ114は、通常、1つ以上の処理装置(CPU)302と、1つ以上のネットワークインターフェース304と、メモリ306と、これらのコンポーネント(チップセットと呼ばれる場合もある)を互いに接続するための1つ以上の通信バス308とを備える。サーバ114は、必要に応じて、キーボード、マウス、音声コマンド入力部またはマイクロホン、タッチスクリーンディスプレイ、タッチ入力パッド、ジェスチャーキャプチャカメラ、またはその他の入力ボタンもしくは制御部など、ユーザ入力を容易にする1つ以上の入力装置310を備える。さらには、サーバ114は、キーボードを補助または置き換えるために、マイクロホンおよび音声認識、または、カメラおよびジェスチャー認識を使用してもよい。いくつかの実装形態では、サーバ114は、必要に応じて、たとえば、電子デバイス上にプリントされた図形シリーズコードを撮影するための1つ以上のカメラ、スキャナ、または光センサ部を備える。また、サーバ114は、必要に応じて、ユーザインタフェースの提示を可能にし、かつ、コンテンツを表示する、1つ以上のスピーカおよび/または1つ以上の表示装置を含む、1つ以上の出力装置312を備える。
メモリ306は、DRAM、SRAM、DDR RAMなどの高速ランダムアクセスメモリ、またはその他のランダムアクセス固体記憶装置を含み、必要であれば、1つ以上の磁気ディスク記憶装置、1つ以上の光学ディスク記憶装置、1つ以上のフラッシュメモリデバイスなどの不揮発性メモリ、または1つ以上のその他の不揮発性固体記憶装置を含む。メモリ306は、必要であれば、1つ以上の処理装置302から離れて位置する1つ以上の記憶装置を含む。メモリ306、またはメモリ306内の当該不揮発性メモリは、非一時的なコンピュータ読み取り可能な記憶媒体を含む。いくつかの実装形態では、メモリ306、またはメモリ306の非一時的なコンピュータ読み取り可能な記憶媒体は、以下のプログラム、モジュール、およびデータ構造、またはそれらのサブセットもしくはスーパーセットを格納する。
●様々な基本システムサービスを処理するための、かつ、ハードウェア依存のタスクを実行するためのプロシージャを含むオペレーティングシステム316。
●1つ以上の処理装置304(有線またはワイヤレス)、および、インターネット、その他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの1つ以上のネットワーク112を介してサーバシステム114をその他のデバイス(たとえば、音声アシスタントクライアントデバイス104、キャスティングデバイス106、クライアント102、クライアント140)に接続するためのネットワーク通信モジュール318。
●クライアントデバイス104またはキャスティングデバイス106の位置情報に基づいて、音声アシスタントクライアントデバイス104またはキャスティングデバイス106の近接度および/または位置を特定するための近接度/位置特定モジュール320。
●少なくとも以下のうちの1つ以上を含む、音声アシスタントの口頭入力(たとえば、音声アシスタントクライアントデバイス104およびキャスティングデバイス106から受信した口頭入力)を処理するための音声アシスタントバックエンド116。
○口頭入力を処理し、口頭入力に含まれるコマンドおよび要求を識別するための口頭入力処理モジュール324。
○コマンドおよび要求に対するコンテンツおよび情報応答を集めるためのコンテンツ/情報収集モジュール326。
○コマンドおよび要求に応答する音声出力を生成し、応答であるコンテンツおよび情報とともに当該音声出力を追加するための応答生成モジュール328。
●以下を含む、少なくとも音声アシスタントプラットフォームの動作に関連付けられたデータを格納するサーバシステムデータ330。
○以下を含む、音声アシスタントプラットフォームのユーザに関連付けられた情報を格納するためのユーザデータ332。
−音声アシスタント設定228に対応する音声アシスタント設定情報と、コンテンツソース/情報ソース230およびコンテンツカテゴリ/情報カテゴリ232に対応する情報を格納するためのユーザ音声アシスタント設定334。
−コマンドおよび要求の履歴、ならびに対応する応答を含む、音声アシスタントについてのユーザの履歴(たとえば、ログ)を格納するためのユーザ履歴336。
−コンテンツソース/情報ソース230におけるユーザのそれぞれのアカウントにアクセスするためのユーザの認可および認証情報と、ユーザアカウントおよび認可236に対応する、これらの認可されたアカウントのアカウント情報とを格納するためのユーザアカウントおよび認可338。
上記要素の各々は、前述の記憶装置のうちの1つ以上に格納されてもよく、上述の関数を実行するための命令セットに対応する。上記モジュールまたはプログラム(つまり、命令セット)は、別々のソフトウェアプログラム、プロシージャ、モジュール、またはデータ構造として実装される必要がないため、これらのモジュールの様々なサブセットが、様々な実装形態において組み合わされるまたは並べ替えられてもよい。いくつかの実装形態では、メモリ206は、必要であれば、上記モジュールおよびデータ構造のサブセットを格納する。さらに、メモリ206は、必要であれば、上に記載されないさらなるモジュールおよびデータ構造を格納する。
いくつかの実装形態では、音声アシスタントモジュール136(図2)は、1つ以上のライブラリを含む。ライブラリは、それぞれの関数を実行するモジュールまたはサブモジュールを含む。たとえば、音声アシスタントクライアントライブラリは、音声アシスタントの関数を実行するモジュールを含む。また、音声アシスタントモジュール136は、特定のハードウェア(たとえば、クライアントデバイスまたはキャスティングデバイス上のハードウェア)、特定のオペレーティングソフトウェア、または遠隔システムと協働するための1つ以上のアプリケーションプログラミングインタフェース(API)を含んでもよい。
いくつかの実装形態では、ライブラリは、たとえば、帯域通過処理、フィルタリング処理、消去処理、およびホットワード検出を含む、オーディオ信号処理動作をサポートするモジュールを含む。いくつかの実装形態では、ライブラリは、バックエンド(たとえば、サーバベースの)音声 処理システムに接続するためのモジュールを含む。いくつかの実装形態では、ライブラリは、デバッギング(たとえば、音声認識のデバッギング、ハードウェア問題のデバッギング、自動テスト)用のモジュールを含む。
図4は、音声アシスタントクライアントデバイス104またはキャスティングデバイス106に格納され得、かつ、音声アシスタントモジュール136または別のアプリケーションによって実行され得るライブラリおよびAPIを示す図である。ライブラリおよびAPIは、音声アシスタントクライアントライブラリ240と、デバッギングライブラリ242と、プラットフォームAPI244と、POSIX API246とを含んでもよい。音声アシスタントクライアントデバイス104またはキャスティングデバイス106におけるアプリケーション(たとえば、音声アシスタントモジュール136、音声アシスタントとの協働をサポートしたいであろうその他のアプリケーション)は、当該アプリケーションにおいて音声アシスタント機能を提供またはサポートするために、これらのライブラリおよびAPIを含んでもよく、またはそれらにリンクされてもよく、かつ、当該ライブラリおよびAPIを実行してもよい。いくつかの実装形態では、音声アシスタントクライアントライブラリ240とデバッギングライブラリ242は別個のライブラリである。音声アシスタントクライアントライブラリ240とデバッギングライブラリ242とを別々に分けておくことによって、これらのライブラリのセキュリティ上の異なる影響を考慮に入れた異なるリリースおよび更新プロシージャが容易になる。
いくつかの実装形態では、これらのライブラリは、柔軟性がある。ライブラリは、複数のデバイスタイプ間で使用してもよく、同じ音声アシスタント機能を組み込んでもよい。
いくつかの実装形態では、ライブラリは、標準の共用オブジェクト(たとえば、標準のLinux(登録商標)共用オブジェクト)に依存するため、これらの標準の共用オブジェクトを利用する異なるオペレーティングシステムまたはプラットフォームと互換性がある(たとえば、組込み用Linuxの様々なLinuxディストリビューションおよびフレーバー)。
いくつかの実装形態では、POSIX API246は、様々なオペレーティングシステムとの互換性のために、標準APIを提供する。よって、音声アシスタントクライアントライブラリ240は、POSIXに準拠する異なるオペレーティングシステムのデバイスに含まれてもよく、POSIX API246は、音声アシスタントクライアントライブラリ240と異なるオペレーティングシステムとの間の互換インタフェースを提供する。
いくつかの実装形態では、ライブラリは、音声アシスタントを実装する異なる種類のデバイス(たとえば、タイマ、アラーム、音量調節)間で利用可能なベースユースケースをサポートおよび容易にするためのモジュールを含む。
いくつかの実装形態では、音声アシスタントクライアントライブラリ240は、音声アシスタントを起動、設定、および音声アシスタントと対話するための関数またはモジュールを含んだコントローラインタフェース402を含む。いくつかの実装形態では、コントローラインタフェース402は、デバイスにおいて音声アシスタントを開始するための「Start()」関数またはモジュール404と、音声アシスタントにアクションを登録する(たとえば、音声アシスタントを介してアクションが実施可能になり得るように)ための「RegisterAction()」関数またはモジュール406と、更新された設定を用いて音声アシスタントの再設定するための「Reconfigure()」408関数と、基本イベント用の関数のセットをアシスタントに登録するための「RegisterEventObserver()」関数410とを含む。
いくつかの実装形態では、音声アシスタントクライアントライブラリ240は、特定の音声アシスタント機能に関連付けられた複数の関数またはモジュールを含む。たとえば、ホットワード検出モジュール412は、音声入力を処理してホットワードを検出する。音声処理モジュール414は、音声入力に含まれる音声を処理し、音声をテキストに変換する、または、テキストを音声に変換する(たとえば、単語および表現の識別、音声からテキストデータへの変換、テキストデータから音声への変換)。アクション処理モジュール416は、口頭入力に応答したアクションおよび動作を行う。ローカルタイマ/アラーム/音量調節モジュール418は、デバイスにおける目覚まし時計、タイマ、および音量調節機能、ならびに音声入力によるそれらの制御を容易にする(たとえば、デバイスにおけるタイマ、時計、目覚まし時計を管理する)。ロギング/評価指標モジュール420は、音声入力および応答を記録し(たとえば、ログを取る)、関連する評価指標(たとえば、応答時間、アイドル時間など)を判断および記録する。オーディオ入力処理モジュール422は、音声入力のオーディオを処理する。MP3デコーディングモジュール424は、MP3にエンコードされたオーディオをデコードする。オーディオ入力モジュール426は、オーディオ入力装置(たとえば、マイクロホン)からオーディオをキャプチャする。オーディオ出力モジュール428は、オーディオ出力装置(たとえば、スピーカ)からオーディオを出力する。デバイスにおける音声アシスタントに関連付けられたイベントをキューに入れる、かつ、デバイスにおける音声アシスタントの状態を追跡するためのイベントキューイング/状態追跡モジュール430。
いくつかの実装形態では、デバッギングライブラリ242は、デバッグ用のモジュールおよび関数を提供する。たとえば、HTTPサーバモジュール432は、接続性問題のデバッグを容易にし、デバッグサーバ/オーディオストリーミングモジュール434は、オーディオ問題をデバッグする。
いくつかの実装形態では、プラットフォームAPI244は、音声アシスタントクライアントライブラリ240とデバイスのハードウェア機能との間のインタフェースを提供する。たとえば、プラットフォームAPIは、デバイスに対するボタン入力をキャプチャするためのボタン入力インタフェース436と、ループバックオーディオをキャプチャするためのループバックオーディオインタフェース438と、評価指標のログを取る、かつ、判断するためのロギング/評価指標インタフェース440と、オーディオ入力をキャプチャするためのオーディオ入力インタフェース442と、オーディオを出力するためのオーディオ出力インタフェース444と、音声アシスタントと対話し得るその他のサービスを用いてユーザを認証するための認証インタフェース446とを含む。図4に示す音声アシスタントクライアントライブラリ編成の利点は、一貫したAPIと、音声アシスタントの関数のセットとを有する様々な音声アシスタントのデバイスタイプ上で、同じまたは同様の音声処理機能を提供できることである。この一貫性は、音声アシスタントアプリケーションのポータビリティと、音声アシスタント動作の一貫性とをサポートして、一貫したユーザ・インタラクションならびに異なるデバイスタイプ上で動作する音声アシスタントアプリケーションおよび関数に詳しくなることを促進する。いくつかの実装形態では、音声アシスタントクライアントライブラリ240のすべてまたは一部は、サーバベースの音声アシスタントアプリケーション(たとえば、処理するためにサーバ114に送信された音声入力に対して動作サーバアプリケーション)をサポートするために、サーバ114において提供されてもよい。
コントローラ402(「Controller」)に対応するクラスおよび関数ならびに関連クラスのコード例を、以下に示す。これらのクラスおよび関数は、共通APIを介して、いろいろなデバイス上で実行可能なアプリケーションによって採用され得る。
下記クラス「ActionModule」は、音声アシスタントサーバが提供するコマンドを処理するためにアプリケーションが当該アプリケーションのモジュールを登録することを容易にする。
Figure 2019523918
下記クラス「BuildInfo」を用いて、音声アシスタントクライアントライブラリ240を実行中のアプリケーションまたは音声アシスタントクライアントデバイス104自体を記述してもよい(たとえば、アプリケーション、プラットフォーム、および/またはデバイスの識別子またはバージョン番号を用いて)。
Figure 2019523918
下記クラス「EventDelegate」は、音声認識の開始、音声アシスタントの応答の出力の開始および完了など、基本イベントに関連付けられた関数を定義する。
Figure 2019523918

Figure 2019523918
下記クラス「DefaultEventDelegate」は、特定のイベントについて、何もしないオーバーライドの関数を定義する。
Figure 2019523918
下記クラス「Settings」は、コントローラ402に提供され得る設定(たとえば、ロケール、地理的位置、ファイルシステムのディレクトリ)を定義する。
Figure 2019523918
下記クラス「Controller」は、コントローラ402に対応し、Start()、Reconfigure()、RegisterAction()、およびRegisterEventObserver()関数は、関数Start()404、Reconfigure()408、RegisterAction()406、およびRegisterEventObserver()410にそれぞれ対応する。
Figure 2019523918
いくつかの実装形態では、音声アシスタントクライアントデバイス104またはキャスティングデバイス106は、プラットフォームを実装する(たとえば、同じプラットフォームを利用する他のデバイスと通信するためのインタフェースのセット、および当該インタフェースのセットをサポートするように構成されたオペレーティングシステム)。下記のコード例は、音声アシスタントクライアントライブラリ402が当該プラットフォームと対話するためのインタフェースに関連付けられた関数を示す。
下記クラス「Authentication」は、特定のアカウントを有する音声アシスタントのユーザを認証するための認証トークンを定義する。
Figure 2019523918
下記クラス「OutputStreamType」は、オーディオ出力ストリームの型を定義する。
Figure 2019523918
下記クラス「SampleFormat」は、サポートするオーディオサンプルのフォーマット(たとえば、PCMフォーマット)を定義する。
Figure 2019523918
下記「BufferFormat」は、デバイスのオーディオバッファに格納されるデータのフォーマットを定義する。
Figure 2019523918
下記クラス「AudioBuffer」は、オーディオデータのバッファを定義する。
Figure 2019523918
下記クラス「AudioOutput」は、オーディオ出力用のインタフェースを定義する。
Figure 2019523918

Figure 2019523918
下記クラス「AudioInput」は、オーディオ入力をキャプチャするためのインタフェースを定義する。
Figure 2019523918
下記クラス「Resources」は、システムリソースへのアクセスを定義する。
Figure 2019523918
下記クラス「PlatformApi」は、音声アシスタントクライアントライブラリ240用のプラットフォームAPIを指定する(たとえば、プラットフォームAPI244)。
Figure 2019523918
いくつかの実装形態では、音量調節は、音声アシスタントクライアントライブラリ240の外部で処理されてもよい。たとえば、システム音量は、音声アシスタントクライアントライブラリ240によって制御されないデバイスによって管理されてもよい。別の例として、音声アシスタントクライアントライブラリ240は、音量調節を引き続きサポートしてもよいが、音声アシスタントクライアントライブラリ240に対する音量調節についての要求は、デバイスに向けられる。
いくつかの実装形態では、音声アシスタントクライアントライブラリ240に含まれるアラームおよびタイマ機能は、ユーザによって無効にされてもよく、または、デバイスにおいてライブラリを実装するときに無効にされてもよい。
また、いくつかの実装形態では、音声アシスタントクライアントライブラリ240は、デバイス上のLEDへのインタフェースをサポートし、デバイスのLEDのLEDアニメーションの表示を容易にする。
いくつかの実装形態では、音声アシスタントクライアントライブラリ240は、キャスティングデバイス106におけるキャスティング受信モジュール(たとえば、受信モジュール146)に含まれるまたはそれにリンクされてもよい。音声アシスタントクライアントライブラリ240と受信モジュール146とのリンクは、たとえば、さらなるアクション(たとえば、ローカルメディア再生)のサポート、およびキャスティングデバイス106上のLEDの制御のサポートを含んでもよい。
図5は、いくつかの実装形態に係る、デバイス上の口頭入力を処理するための方法500のフロー図である。方法500は、オーディオ入力システム(たとえば、オーディオ入力装置108/132)と、1つ以上のプロセッサ(たとえば、処理装置(複数可)202)と、1つ以上のプロセッサによって実行される1つ以上のプログラムを格納するメモリ(たとえば、メモリ206)とを有する電子デバイス(たとえば、音声アシスタントクライアントデバイス104、キャスティングデバイス106)において実行される。いくつかの実装形態では、電子デバイスは、オーディオ入力システム(たとえば、オーディオ入力装置108/132)と、1つ以上のプロセッサ(たとえば、処理装置(複数可)202)と、1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリ(たとえば、メモリ206)とを備え、当該1つ以上のプログラムは、方法500を実行するための命令を含む。いくつかの実装形態では、非一時的なコンピュータ読み取り可能な記憶媒体が1つ以上のプログラムを含み、当該1つ以上のプログラムは、命令を含み、当該命令は、オーディオ入力システム(たとえば、オーディオ入力装置108/132)と、1つ以上のプロセッサ(たとえば、処理装置(複数可)202)とを有する電子デバイスによって実行されると、電子デバイスに、方法500を実行させる。方法500を実行するためのプログラムまたは命令は、図2〜図4を参照して上述されたモジュール、ライブラリなどに含まれてもよい。
デバイスは、デバイスにおいて口頭入力を受信する(502)。クライアントデバイス104/キャスティングデバイス106は、ユーザが発した口頭入力(たとえば、音声入力)をキャプチャする。
デバイスは、口頭入力を処理する(504)。クライアントデバイス104/キャスティングデバイス106が口頭入力を処理する。処理には、ホットワード検出、テキストデータへの変換、およびユーザが提供するコマンド、要求、および/またはパラメータに対応する単語および表現の識別が含まれてもよい。いくつかの実装形態では、この処理は、最低限であってもよく、または、処理がまったくなくてもよい。たとえば、この処理は、サーバ114に送信するために口頭入力オーディオをエンコードすることを含んでもよく、または、サーバ114に送信するために口頭入力のキャプチャされた生オーディオを用意することを含んでもよい。
デバイスは、口頭入力に基づいて決定された情報を含む要求を、遠隔システムに送信する(506)。クライアントデバイス104/キャスティングデバイス106は、口頭入力を処理し、口頭入力から要求および1つ以上の関連するパラメータを識別することによって、口頭入力から要求を決定する。クライアントデバイス104/キャスティングデバイス106は、決定した要求を遠隔システム(たとえば、サーバ114)に送信する。遠隔システムは、要求に対する応答を決定および生成する。いくつかの実装形態では、クライアントデバイス104/キャスティングデバイス106は、口頭入力を(たとえば、エンコードされたオーディオとしての、生オーディオデータとして)サーバ114に送信し、サーバ114は、口頭入力を処理し、要求および関連するパラメータを決定する。
デバイスは、要求に対する応答を受信する(508)。応答は、口頭入力に基づいた情報に応じて、遠隔システムによって生成されてもよい。遠隔システム(たとえば、サーバ114)は、要求に対する応答を決定および生成し、この応答をクライアントデバイス104/キャスティングデバイス106に送信する。
デバイスは、応答に応じて動作を実行する(510)。クライアントデバイス104/キャスティングデバイス106が、受信した応答に応じて、1つ以上の動作を実行する。たとえば、応答が、デバイスに特定の情報をオーディオによって出力させるためのコマンドである場合、クライアントデバイス104/キャスティングデバイス106は、この情報を取り出し、この情報を音声オーディオ出力に変換し、音声オーディオをスピーカから出力する。別の例として、応答が、デバイスにメディアコンテンツを再生させるためのコマンドである場合、クライアントデバイス104/キャスティングデバイス106は、メディアコンテンツを取り出し、メディアコンテンツを再生する。
前記した、受信すること、処理すること、送信すること、受信すること、および実行することのうちの1つ以上は、電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって行われ、音声処理モジュールは、電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動を提供する(512)。クライアントデバイス104/キャスティングデバイス106は、前記した、受信するステップ、処理するステップ、送信するステップ、受信するステップ、および実行するステップのうちの1つ以上を実行するための関数およびモジュールを含む音声アシスタントクライアントライブラリ240を有してもよい。音声アシスタントクライアントライブラリ240のモジュールは、ライブラリ240を含むまたはライブラリ240にリンクする(たとえば、ライブラリ240および関連APIを実行する)クライアントデバイス104/キャスティングデバイス106におけるアプリケーション、オペレーティングシステム、およびプラットフォームソフトウェアにアクセス可能な複数の音声処理動作およびアシスタント動作を提供する。
いくつかの実装形態では、音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して電子デバイスと互いに接続される遠隔システム上で行われてもよい。たとえば、要求を決定するために口頭入力を処理することは、ネットワーク(複数可)112を通してクライアントデバイス104/キャスティングデバイス106と接続されたサーバ114によって行われてもよい。
いくつかの実装形態では、音声アシスタントライブラリは、複数の異なるデバイスタイプ上で動作可能な共通のオペレーティングシステム上で実行可能であり、それによって、音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティを可能にする。音声アシスタントクライアントライブラリ240(ならびに、関連ライブラリおよびAPI、たとえば、デバッギングライブラリ242、プラットフォームAPI244、POSIX API246)は、定義済みのオペレーティングシステム(たとえば、Linux)の標準要素(たとえば、オブジェクト)を利用するので、定義済みのオペレーティングシステムのディストリビューションまたはフレーバー(たとえば、異なるLinuxまたはLinuxベースのディストリビューションまたはフレーバー)を実行するいろいろなデバイス上で動作可能である。このように、音声アシスタント機能をいろいろなデバイスが利用可能であり、音声アシスタントエクスペリエンスは、当該いろいろなデバイス間で一貫している。
いくつかの実装形態では、要求および応答は、デバイスにおいて処理されてもよい。たとえば、タイマ、目覚まし時計、時計、および音量調節など、デバイスにローカルであり得る基本関数については、クライアントデバイス104/キャスティングデバイス106が、口頭入力を処理し、これらの基本関数のうちの1つに要求が対応すると判断し、デバイスにおいて応答を決定し、応答に応じて1つ以上の動作を実行してもよい。デバイスは、ログを取る目的のためにサーバ114に引き続き要求および応答を報告してもよい。
いくつかの実装形態では、オーディオ入力システムを備える電子デバイス用の、デバイスを問わない音声アシスタントライブラリは、複数の異なる電子デバイスタイプ上に実装される共通のオペレーションシステム上で実行するように構成された1つ以上の音声処理モジュールを含み、当該音声処理モジュールは、電子デバイス上で実行中のアプリケーションプログラムおよびオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供し、それによって、音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティが可能になる。音声アシスタントクライアントライブラリ240は、同じ定義済みのオペレーティングシステムベースをライブラリ(たとえば、ライブラリおよびデバイスのオペレーティングシステムは、Linuxベースである)として共有するいろいろなデバイス上で実行され得るライブラリであるため、このライブラリは、デバイスを問わない。ライブラリ240は、いろいろなデバイス間でアプリケーションにアクセス可能な音声アシスタント機能のための複数のモジュールを提供する。
いくつかの実装形態では、音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して電子デバイスと互いに接続されるバックエンドサーバ上で実行される。たとえば、ライブラリ240は、サーバ114と通信し、口頭入力を処理するためにサーバ114に送信し、要求を決定するモジュールを含む。
いくつかの実装形態では、音声処理動作は、電子デバイスに(たとえば、直接または通信可能に)接続されたデバイスを制御するように構成されたデバイス固有の動作を含む。ライブラリ240は、クライアントデバイス104/キャスティングデバイス106に接続されたその他のデバイス(たとえば、ワイヤレススピーカ、スマートテレビなど)を制御するための関数またはモジュールを含んでもよい。
いくつかの実装形態では、音声処理動作は、要求された情報および/またはメディアコンテンツを電子デバイスのユーザに提供する、または電子デバイスと(たとえば、直接または通信可能に)接続されたデバイス上で提供するように構成された情報/メディア要求動作を含む。ライブラリ240は、情報またはメディアを取り出して、情報またはメディアをクライアントデバイス104/キャスティングデバイス106上または接続されたデバイス上で提供する(たとえば、電子メールを読み上げる、新聞記事を読み上げる、ストリーミング音楽を再生する)ための関数またはモジュールを含んでもよい。
様々な要素を説明するために、用語「第1の」、「第2の」などが本明細書において使用され得るが、要素は、これらの用語によって限定されるべきではないと理解されるだろう。これらの用語は、1つの要素を別の要素と区別するために使用されるにすぎない。たとえば、第1のコンタクトの名称がすべて矛盾なく変更され、第2のコンタクトの名称がすべて矛盾なく変更される場合に限り、説明の意味を変更することなく、第1のコンタクトを第2のコンタクトと称することができ、同様に、第2のコンタクトを第1のコンタクトと称することができる。第1のコンタクトおよび第2のコンタクトは、両方ともコンタクトであるが、同じコンタクトではない。
本明細書において使用される用語は、特定の実装形態を説明するためだけのものであり、特許請求の範囲を限定することを意図していない。実装形態および添付の請求の範囲の説明において使用される単数形「a」、「an」、および「the」は、文脈が明らかに他を示さない限り、複数形も含むことを意図する。本明細書において使用される用語「および/または(and/or)」は、関連する記載された項目のうちの1つ以上のいずれか、およびすべての考えられる組み合わせを指し、それらを包含すると理解されるだろう。用語「備える/含む(comprises)」および/または「備える/含む(comprising)」は、本明細書において使用されるとき、記載の特徴、整数、ステップ、動作、要素、および/または構成要素の存在を具体的に挙げるが、1つ以上のその他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらの群の存在もしくは追加を排除しないと理解されるだろう。
本明細書で使用するとき、用語「〜である場合(if)」は、文脈に応じて、記載の先行条件が真である「ときに(when)」、「すると(upon)」、「と判定することに応答して(in response to determining)」、「という判定に応じて(in accordance with a determination)」、または「と検出することに応答して(in response to detecting)」を意味すると解釈され得る。同様に、表現「記載の先行条件が真であると判定された場合(if it is determined[that a stated condition precedent is true])」、「記載の先行条件が真である場合(if[a stated condition precedent is true])」、「記載の先行条件が真であるとき(when[a stated condition precedent is true])」は、文脈に応じて、記載の先行条件が真である「と判定すると(upon determining)」、「と判定することに応答して(in response to determining)」、「という判定に応じて(in accordance with a determination)」、「と検出すると(upon detecting)」、または「と検出することに応答して(in response to detecting)」を意味すると解釈され得る。
様々な実装形態を詳細に参照し、その例を添付の図面に示す。以下の詳細な説明において、本発明および記載の実装形態の十分な理解のため、たくさんの具体的な詳細を記載した。しかしながら、これらの具体的な詳細がなくても、本発明を実施することができる。その他の場合、周知の方法、プロシージャ、構成要素、および回路については、実装形態の態様を不必要にあいまいにしないよう、詳細に説明しなかった。
上記の説明は、説明の便宜上、具体的な実装形態を例に記載された。しかしながら、上記例示的説明は、網羅的であったり、開示の厳密な形態に本発明を限定したりすることを意図しない。上記教示に鑑みて、多くの変更例および変形例が可能である。当業者が、考えられる特定の用途に適した様々な変更例を用いて本発明および様々な実装形態を最大限に利用することを可能にするために、実装形態は、本発明の原理およびその実際の適用を最もよく説明するために選択および記載されている。

Claims (15)

  1. オーディオ入力システムと、1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリとを備える電子デバイスにおいて、
    前記デバイスにおいて口頭入力を受信するステップと、
    前記口頭入力を処理するステップと、
    前記口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信するステップと、
    前記口頭入力に基づいた情報に応じて前記遠隔システムが生成した、前記要求に対する応答を受信するステップと、
    前記応答に応じた動作を実行するステップとを含み、
    前記受信するステップ、前記処理するステップ、前記送信するステップ、前記受信するステップ、および前記実行するステップのうちの1つ以上は、前記電子デバイス上で実行中の音声アシスタントライブラリの1つ以上の音声処理モジュールによって実行され、前記音声処理モジュールは、前記電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する、方法。
  2. 前記音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して前記電子デバイスと互いに接続される前記遠隔システム上で実行される、請求項1に記載の方法。
  3. 前記音声アシスタントライブラリは、複数の異なるデバイスタイプ上で動作可能な共通のオペレーティングシステム上で実行可能であり、それによって、前記音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティを可能にする、先行する請求項のいずれか1項に記載の方法。
  4. オーディオ入力システムを備える電子デバイス用の、デバイスを問わない音声アシスタントライブラリであって、
    複数の異なる電子デバイスタイプ上に実装される共通のオペレーションシステム上で動作するように構成された1つ以上の音声処理モジュールを含み、前記音声処理モジュールは、前記電子デバイス上で実行中のアプリケーションプログラムおよびオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供し、それによって、前記音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティが可能になる、音声アシスタントライブラリ。
  5. 前記音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して前記電子デバイスと互いに接続されるバックエンドサーバ上で実行される、先行する請求項のいずれか1項に記載の音声アシスタントライブラリ。
  6. 前記音声処理動作は、前記電子デバイスに接続されたデバイスを制御するように構成されたデバイス固有の動作を含む、先行する請求項のいずれか1項に記載の音声アシスタントライブラリ。
  7. 前記音声処理動作は、要求された情報および/またはメディアコンテンツを前記電子デバイスのユーザに提供するまたは前記電子デバイスに接続されたデバイス上で提供するように構成された情報/メディア要求動作を含む、先行する請求項のいずれか1項に記載の音声アシスタントライブラリ。
  8. オーディオ入力システムと、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリとを備え、前記1つ以上のプログラムは、
    前記デバイスにおいて口頭入力を受信するための命令と、
    前記口頭入力を処理するための命令と、
    前記口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信するための命令と、
    前記口頭入力に基づいた情報に応じて前記遠隔システムが生成した、前記要求に対する応答を受信するための命令と、
    前記応答に応じた動作を実行するための命令を含み、
    前記受信すること、前記処理すること、前記送信すること、前記受信すること、および前記実行することのうちの1つ以上は、前記電子デバイス上で実行中の前記音声アシスタントライブラリの前記1つ以上の音声処理モジュールによって実行され、前記音声処理モジュールは、前記電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する、電子デバイス。
  9. 前記音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して前記電子デバイスと互いに接続される前記遠隔システム上で実行される、請求項8に記載のデバイス。
  10. 前記音声アシスタントライブラリは、複数の異なるデバイスタイプ上で動作可能な共通のオペレーティングシステム上で実行可能であり、それによって、前記音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティを可能にする、先行する請求項のいずれか1項に記載のデバイス。
  11. 1つ以上のプログラムを格納した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記1つ以上のプログラムは、命令を含み、前記命令は、オーディオ入力システムと1つ以上のプロセッサとを有する電子デバイスによって実行されると、前記電子デバイスに、
    前記デバイスにおいて口頭入力を受信させ、
    前記口頭入力を処理させ、
    前記口頭入力に基づいて決定された情報を含む要求を遠隔システムに送信させ、
    前記口頭入力に基づいた情報に応じて前記遠隔システムが生成した、前記要求に対する応答を受信させ、
    前記応答に応じた動作を実行させ、
    前記受信すること、前記処理すること、前記送信すること、前記受信すること、および前記実行することのうちの1つ以上は、前記電子デバイス上で実行中の前記音声アシスタントライブラリの前記1つ以上の音声処理モジュールによって実行され、前記音声処理モジュールは、前記電子デバイス上で実行中または実行可能な1つ以上のアプリケーションプログラムおよび/またはオペレーティングソフトウェアにアクセス可能な複数の音声処理動作を提供する、非一時的なコンピュータ読み取り可能な記憶媒体。
  12. 前記音声処理モジュールに関連付けられた少なくともいくつかの音声処理動作は、ワイドエリアネットワークを介して前記電子デバイスと互いに接続される前記遠隔システム上で実行される、請求項11に記載のコンピュータ読み取り可能な記憶媒体。
  13. 前記音声アシスタントライブラリは、複数の異なるデバイスタイプ上で動作可能な共通のオペレーティングシステム上で実行可能であり、それによって、前記音声処理動作のうちの1つ以上と対話するように構成された音声対応アプリケーションのポータビリティを可能にする、先行する請求項のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
  14. オーディオ入力システムと、
    1つ以上のプロセッサと、
    前記1つ以上のプロセッサによって実行される1つ以上のプログラムを格納したメモリとを備え、前記1つ以上のプログラムは、請求項1〜3のいずれか1項に記載の方法を実行するための命令を含む、電子デバイス。
  15. 1つ以上のプログラムを格納した非一時的なコンピュータ読み取り可能な記憶媒体であって、前記1つ以上のプログラムは、命令を含み、前記命令は、オーディオ入力システムと1つ以上のプロセッサとを有する電子デバイスによって実行されると、前記電子デバイスに、請求項1〜3のいずれか1項に記載の方法を実行させる、非一時的なコンピュータ読み取り可能な記憶媒体。
JP2018559707A 2016-05-10 2017-05-10 デバイス上の音声アシスタントの実装 Pending JP2019523918A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022200417A JP2023051963A (ja) 2016-05-10 2022-12-15 デバイス上の音声アシスタントの実装

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201662334434P 2016-05-10 2016-05-10
US62/334,434 2016-05-10
US201662336565P 2016-05-13 2016-05-13
US201662336569P 2016-05-13 2016-05-13
US201662336551P 2016-05-13 2016-05-13
US201662336566P 2016-05-13 2016-05-13
US62/336,569 2016-05-13
US62/336,551 2016-05-13
US62/336,566 2016-05-13
US62/336,565 2016-05-13
PCT/US2017/032002 WO2017197010A1 (en) 2016-05-10 2017-05-10 Implementations for voice assistant on devices

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022200417A Division JP2023051963A (ja) 2016-05-10 2022-12-15 デバイス上の音声アシスタントの実装

Publications (2)

Publication Number Publication Date
JP2019523918A true JP2019523918A (ja) 2019-08-29
JP2019523918A5 JP2019523918A5 (ja) 2020-01-09

Family

ID=58765933

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018559707A Pending JP2019523918A (ja) 2016-05-10 2017-05-10 デバイス上の音声アシスタントの実装
JP2022200417A Pending JP2023051963A (ja) 2016-05-10 2022-12-15 デバイス上の音声アシスタントの実装

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022200417A Pending JP2023051963A (ja) 2016-05-10 2022-12-15 デバイス上の音声アシスタントの実装

Country Status (6)

Country Link
US (11) US10332516B2 (ja)
EP (1) EP3455719A1 (ja)
JP (2) JP2019523918A (ja)
KR (2) KR102168974B1 (ja)
CN (1) CN108604179A (ja)
WO (1) WO2017197010A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003388A (ja) * 2020-12-22 2022-01-11 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体

Families Citing this family (175)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US9665339B2 (en) 2011-12-28 2017-05-30 Sonos, Inc. Methods and systems to select an audio track
US11922974B1 (en) * 2012-05-02 2024-03-05 James E. Plankey System and method for creating and managing multimedia sales promotions
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
CN105848374A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种灯光控制系统及方法
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
SG10201604137QA (en) * 2016-05-24 2017-12-28 Creative Tech Ltd An apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106993227B (zh) * 2016-01-20 2020-01-21 腾讯科技(北京)有限公司 一种进行信息展示的方法和装置
US10010806B2 (en) * 2016-05-24 2018-07-03 Creative Technology Ltd Apparatus for controlling lighting behavior of a plurality of lighting elements and a method therefor
US10440456B2 (en) 2016-05-25 2019-10-08 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, and method of manufacturing the apparatus and grille for the apparatus
US9990002B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10204513B2 (en) 2016-05-25 2019-02-12 Lg Electronics Inc. Accessory having a communication function for Internet of Things
US9992036B2 (en) * 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10110974B2 (en) 2016-05-25 2018-10-23 Lg Electronics Inc. Accessory having a communication function for internet of things
US10149080B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Method of manufacturing sound output apparatus and method of manufacturing grille for the apparatus
US10097640B2 (en) 2016-05-25 2018-10-09 Lg Electronics Inc. Accessory having a communication function for internet of things
US10139857B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory
US10111345B2 (en) * 2016-05-25 2018-10-23 Lg Electronics Inc. Sound output apparatus and hub for communication network
US10146255B2 (en) 2016-05-25 2018-12-04 Lg Electronics Inc. Accessory communication device
US10139856B2 (en) 2016-05-25 2018-11-27 Lg Electronics Inc. Accessory assembly
US10356499B2 (en) 2016-05-25 2019-07-16 Lg Electronics Inc. Artificial intelligence sound output apparatus, hub for communication network, method of manufacturing the apparatus, and grille for the apparatus
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10257363B2 (en) * 2016-07-22 2019-04-09 Lenovo (Singapore) Pte. Ltd. Coordinating input on multiple local devices
US10448520B2 (en) 2016-10-03 2019-10-15 Google Llc Voice-activated electronic device assembly with separable base
GB2554815B (en) 2016-10-03 2021-03-31 Google Llc Voice-activated electronic device assembly with separable base
US10535966B2 (en) * 2016-10-03 2020-01-14 Google Llc Planar electrical connector for an electronic device
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
JP6915262B2 (ja) * 2016-11-25 2021-08-04 セイコーエプソン株式会社 ウェアラブル機器、情報端末装置、通信システム、電子機器、及び通信制御方法
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180085931A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US20180267614A1 (en) * 2017-03-16 2018-09-20 Swan Solutions Inc. Control system for a terminal device with two sensors and power regulation
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10380852B2 (en) 2017-05-12 2019-08-13 Google Llc Systems, methods, and devices for activity monitoring via a home assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) * 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10564928B2 (en) * 2017-06-02 2020-02-18 Rovi Guides, Inc. Systems and methods for generating a volume- based response for multiple voice-operated user devices
CN108989954A (zh) * 2017-06-02 2018-12-11 哈曼国际工业有限公司 麦克风禁用系统
US20190019505A1 (en) * 2017-07-12 2019-01-17 Lenovo (Singapore) Pte. Ltd. Sustaining conversational session
US11665796B2 (en) * 2017-08-08 2023-05-30 Savant Technologies Llc Multi-purpose voice activated lighting apparatus
KR102371752B1 (ko) * 2017-08-31 2022-03-07 삼성전자주식회사 가전 기기 및 그의 제어방법
US10515637B1 (en) * 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US11024303B1 (en) 2017-09-19 2021-06-01 Amazon Technologies, Inc. Communicating announcements
US10706845B1 (en) * 2017-09-19 2020-07-07 Amazon Technologies, Inc. Communicating announcements
US10600419B1 (en) 2017-09-22 2020-03-24 Amazon Technologies, Inc. System command processing
US10957313B1 (en) * 2017-09-22 2021-03-23 Amazon Technologies, Inc. System command processing
KR102421255B1 (ko) * 2017-10-17 2022-07-18 삼성전자주식회사 음성 신호를 제어하기 위한 전자 장치 및 방법
US11182122B2 (en) * 2017-12-08 2021-11-23 Amazon Technologies, Inc. Voice control of computing devices
US10880650B2 (en) * 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US20190196779A1 (en) * 2017-12-21 2019-06-27 Harman International Industries, Incorporated Intelligent personal assistant interface system
CN107886954A (zh) * 2017-12-26 2018-04-06 安徽声讯信息技术有限公司 一种使用蓝牙音箱的智能语音听说平板
KR102580837B1 (ko) * 2018-03-02 2023-09-21 삼성전자 주식회사 사용자에 대응하는 사용 패턴 정보에 기반하여 외부 전자 장치를 제어 하기 위한 전자 장치 및 방법
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制系统
US11169772B2 (en) * 2018-03-19 2021-11-09 Gopro, Inc. Image capture device control using mobile platform voice recognition
US11328724B2 (en) 2018-03-23 2022-05-10 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10623246B1 (en) * 2018-03-27 2020-04-14 Amazon Technologies, Inc. Device configuration by natural language processing system
US20190311046A1 (en) * 2018-04-06 2019-10-10 Geoffrey S. Stern Interactive presentation apparatus and method
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN108762851A (zh) * 2018-06-04 2018-11-06 联想(北京)有限公司 电子设备的操作方法和电子设备
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US11437029B2 (en) * 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US11429192B2 (en) 2018-06-05 2022-08-30 Google Llc Confidence-based application-specific user interactions
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
CN108769745A (zh) * 2018-06-29 2018-11-06 百度在线网络技术(北京)有限公司 视频播放方法和装置
KR20200013152A (ko) * 2018-07-18 2020-02-06 삼성전자주식회사 이전에 대화를 수집한 결과를 기반으로 인공 지능 서비스를 제공하는 전자 장치 및 방법
US10924848B2 (en) * 2018-07-23 2021-02-16 PeeQ Technologies, LLC Throwable microphone lighting with light indication
US11085777B2 (en) * 2018-07-27 2021-08-10 Adobe Inc. Generating digital event sequences utilizing a dynamic user preference interface to modify recommendation model reward functions
CN110543290B (zh) 2018-09-04 2024-03-05 谷歌有限责任公司 多模态响应
US11164576B2 (en) 2018-09-04 2021-11-02 Google Llc Multimodal responses
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US10762893B2 (en) 2018-09-28 2020-09-01 Comcast Cable Communications, Llc Monitoring of one or more audio/video collection devices
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10643607B2 (en) 2018-09-28 2020-05-05 Dish Network L.L.C. Vocal triggering of presentation transitions
CN109347707A (zh) * 2018-10-11 2019-02-15 上海阳淳电子股份有限公司 智能家居可视化语音控制方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11393478B2 (en) * 2018-12-12 2022-07-19 Sonos, Inc. User specific context switching
US10880515B2 (en) 2018-12-14 2020-12-29 Sony Corporation Audio-video reproduction for closed caption display control based on multi-media content
CN113366508A (zh) 2019-01-04 2021-09-07 蒂普爱可斯有限公司 执行电子设备特定功能的训练模型创建方法、执行相同功能的学习模型、专用芯片及其操作方法及电子设备和系统
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102227512B1 (ko) * 2019-01-04 2021-03-12 주식회사 딥엑스 전자기기를 위한 특정 기능 수행용 학습된 모델 작성 방법, 전자기기를 위한 특정 기능 수행용 학습된 모델, 전자기기를 위한 특정 기능 수행 전용 칩, 전자기기를 위한 특정 기능 수행 전용 칩 동작 방법, 특정 기능 수행을 위한 전자기기, 및 전자기기 특정 기능 수행 시스템
EP3895161B1 (en) * 2019-02-20 2023-07-26 Google LLC Utilizing pre-event and post-event input streams to engage an automated assistant
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11003419B2 (en) * 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
CN113424256A (zh) * 2019-04-01 2021-09-21 谷歌有限责任公司 在可再充电设备上的播送请求和/或用户输入的自适应管理
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11509479B2 (en) 2019-06-04 2022-11-22 Vmware, Inc. Service authentication through a voice assistant
US11122423B2 (en) 2019-06-26 2021-09-14 Vmware, Inc. Proximity based authentication of a user through a voice assistant device
US20220113935A1 (en) * 2019-07-01 2022-04-14 Google Llc Mobile-enabled voice search of media items for displaying on alternative playback devices
US11553265B2 (en) 2019-07-24 2023-01-10 Google Llc Compact home assistant having a controlled sound path
US11079875B2 (en) 2019-07-24 2021-08-03 Google Llc Compact home assistant having touch sensitive housing
US10915227B1 (en) * 2019-08-07 2021-02-09 Bank Of America Corporation System for adjustment of resource allocation based on multi-channel inputs
CN110764425A (zh) * 2019-09-16 2020-02-07 恒大智慧科技有限公司 家居设备的重定向方法、智能家居app及存储介质
US11676589B2 (en) * 2019-09-17 2023-06-13 Global Strategies International LLC Systems and methods for voice search and response retrieval
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210043107A (ko) 2019-10-11 2021-04-21 삼성전자주식회사 서로 다른 전자 장치들 사이의 통신 방법, 이를 지원하는 서버 및 전자 장치
KR20210053072A (ko) * 2019-11-01 2021-05-11 삼성전자주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US11204737B2 (en) 2019-11-11 2021-12-21 Sonos, Inc. Playback queues for shared experiences
US11636855B2 (en) * 2019-11-11 2023-04-25 Sonos, Inc. Media content based on operational data
US11570165B2 (en) 2019-12-09 2023-01-31 Vmware, Inc. Single sign-on service authentication through a voice assistant
CN111161714B (zh) * 2019-12-25 2023-07-21 联想(北京)有限公司 一种语音信息处理方法、电子设备及存储介质
US11830098B2 (en) 2020-01-02 2023-11-28 Vmware, Inc. Data leak prevention using user and device contexts
US11482231B2 (en) 2020-01-06 2022-10-25 Vmware, Inc. Skill redirections in a voice assistant
CN111261160B (zh) * 2020-01-20 2023-09-19 联想(北京)有限公司 一种信号处理方法及装置
CN111294643A (zh) * 2020-01-21 2020-06-16 海信视像科技股份有限公司 在显示设备中显示音轨语言的方法及显示设备
US11328721B2 (en) 2020-02-04 2022-05-10 Soundhound, Inc. Wake suppression for audio playing and listening devices
US11212330B2 (en) * 2020-02-06 2021-12-28 Lenovo (Singapore) Pte. Ltd. Casting content based on device capabilities
WO2021158441A1 (en) * 2020-02-07 2021-08-12 Arris Enterprises Llc Transfer of media content viewing experience using epg guide
US11113933B1 (en) * 2020-02-28 2021-09-07 Therm-Omega-Tech, Inc. Visual indication system for feedback controller
US11722474B2 (en) * 2020-04-30 2023-08-08 Vmware, Inc. Embedding content in audio content through a voice assistant
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112289307B (zh) * 2020-11-12 2022-07-22 四川云从天府人工智能科技有限公司 基于GRPC实现Kaldi语音识别服务的方法、系统及介质
CN112803907B (zh) * 2021-03-17 2021-07-16 统信软件技术有限公司 一种提供音频播放服务的系统和方法
US20220309175A1 (en) * 2021-03-29 2022-09-29 Aipex Technologies, Inc. Content management techniques for voice assistant
DE102021206690A1 (de) 2021-06-28 2022-12-29 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines Unterhaltungssystems eines Kraftfahrzeugs, Unterhaltungssystem sowie Kraftfahrzeug
US20230080895A1 (en) * 2021-09-15 2023-03-16 International Business Machines Corporation Dynamic operation of a voice controlled device
WO2023154080A1 (en) 2022-02-09 2023-08-17 Google Llc Providing contextual automated assistant action suggestion(s) via a vehicle computing device
US20230335127A1 (en) * 2022-04-15 2023-10-19 Google Llc Multiple concurrent voice assistants
US11909611B2 (en) * 2022-07-20 2024-02-20 Google Llc Standardizing analysis metrics across multiple devices

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171257A (ja) * 2002-11-20 2004-06-17 Nec Corp 機能拡張型ブラウザ及びブラウザ部品並びにプログラム
JP2009521745A (ja) * 2005-12-22 2009-06-04 マイクロソフト コーポレーション 音声で起動されるネットワーク動作
JP2014065359A (ja) * 2012-09-25 2014-04-17 Fujitsu Ten Ltd 表示制御装置、表示システム及び表示制御方法

Family Cites Families (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659665A (en) * 1994-12-08 1997-08-19 Lucent Technologies Inc. Method and apparatus for including speech recognition capabilities in a computer system
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5760754A (en) * 1995-12-04 1998-06-02 Motorola, Inc. Light pipe assembly and electrical device using same
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US6681380B1 (en) 2000-02-15 2004-01-20 International Business Machines Corporation Aggregating constraints and/or preferences using an inference engine and enhanced scripting language
GB2372864B (en) 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7426505B2 (en) 2001-03-07 2008-09-16 International Business Machines Corporation Method for identifying word patterns in text
US7302634B2 (en) 2001-03-14 2007-11-27 Microsoft Corporation Schema-based services for identity-based data access
US20030120744A1 (en) 2001-12-20 2003-06-26 Gordon Kessler Method and apparatus for providing downlaoded audio data
US7493259B2 (en) 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7260538B2 (en) 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
US20040001095A1 (en) * 2002-07-01 2004-01-01 Todd Marques Method and apparatus for universal device management
JP2004102415A (ja) 2002-09-05 2004-04-02 Toshiba Corp データ伝送装置およびデータ伝送方法並びに車載用電子機器
US20060276230A1 (en) 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7911358B2 (en) 2002-10-08 2011-03-22 Johnson Controls Technology Company System and method for enrollment of a remotely controlled device in a trainable transmitter
US7925754B2 (en) 2003-11-21 2011-04-12 Microsoft Corporation Method and computer program product to provide synch notifications to client devices
US7660715B1 (en) 2004-01-12 2010-02-09 Avaya Inc. Transparent monitoring and intervention to improve automatic adaptation of speech models
US20050164681A1 (en) 2004-01-22 2005-07-28 Jenkins William W. Voice message storage in a push-to-talk communication system
US20050212684A1 (en) 2004-03-23 2005-09-29 Flora Huang Indicating apparatus combined with flash
US20060075429A1 (en) 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
TWM260059U (en) 2004-07-08 2005-03-21 Blueexpert Technology Corp Computer input device having bluetooth handsfree handset
JP2006286275A (ja) 2005-03-31 2006-10-19 Koizumi Sangyo Corp 照明器具の制御装置
EP1750253B1 (en) * 2005-08-04 2012-03-21 Nuance Communications, Inc. Speech dialog system
US8104054B2 (en) 2005-09-01 2012-01-24 At&T Intellectual Property I, L.P. Methods, systems, and devices for bandwidth conservation
US8516087B2 (en) * 2006-02-14 2013-08-20 At&T Intellectual Property I, L.P. Home automation system and method
US7721313B2 (en) * 2006-06-30 2010-05-18 Microsoft Corporation Multi-DVR node communication
US20080010652A1 (en) 2006-07-07 2008-01-10 General Instrument Corporation Association of Network Terminals to a Common Account
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8056070B2 (en) 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US20080180572A1 (en) 2007-01-29 2008-07-31 Microsoft Corporation Enabling access to closed captioning data present in a broadcast stream
JP4315986B2 (ja) * 2007-02-08 2009-08-19 富士通株式会社 発光ダイオードを備えた電子機器
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
US8150699B2 (en) * 2007-05-17 2012-04-03 Redstart Systems, Inc. Systems and methods of a structured grammar for a speech recognition command system
US8538757B2 (en) * 2007-05-17 2013-09-17 Redstart Systems, Inc. System and method of a list commands utility for a speech recognition command system
US8160426B2 (en) 2007-10-12 2012-04-17 Rovi Guides, Inc. Storage management of a recording device in a multi-user system
US8521766B1 (en) 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8385536B2 (en) * 2008-01-09 2013-02-26 Verizon Patent And Licensing Inc. Automatic telephone number favorites list
US9135809B2 (en) 2008-06-20 2015-09-15 At&T Intellectual Property I, Lp Voice enabled remote control for a set-top box
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
US8423353B2 (en) 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US20100265397A1 (en) 2009-04-20 2010-10-21 Tandberg Television, Inc. Systems and methods for providing dynamically determined closed caption translations for vod content
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US20120253822A1 (en) 2009-12-11 2012-10-04 Thomas Barton Schalk Systems and Methods for Managing Prompts for a Connected Vehicle
US20110161085A1 (en) 2009-12-31 2011-06-30 Nokia Corporation Method and apparatus for audio summary of activity for user
US9401099B2 (en) 2010-05-11 2016-07-26 AI Squared Dedicated on-screen closed caption display
US8750687B2 (en) 2010-06-16 2014-06-10 Verizon Patent And Licensing Inc. Method and apparatus for managing digital video recorders
US9633656B2 (en) 2010-07-27 2017-04-25 Sony Corporation Device registration process from second display
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US20120096497A1 (en) 2010-10-14 2012-04-19 Sony Corporation Recording television content
CN102064985B (zh) 2010-11-24 2013-04-24 深圳市同洲电子股份有限公司 基于互动电视应用的数字智能家电远程控制系统和方法
US20120136658A1 (en) 2010-11-30 2012-05-31 Cox Communications, Inc. Systems and methods for customizing broadband content based upon passive presence detection of users
US10382509B2 (en) * 2011-01-28 2019-08-13 Amazon Technologies, Inc. Audio-based application architecture
US20120226981A1 (en) 2011-03-02 2012-09-06 Microsoft Corporation Controlling electronic devices in a multimedia system through a natural user interface
CN102148031A (zh) * 2011-04-01 2011-08-10 无锡大核科技有限公司 语音识别与交互系统及方法
US20120260192A1 (en) * 2011-04-11 2012-10-11 Detweiler Sean D Automated browser mode based on user and access point
CN102196207B (zh) 2011-05-12 2014-06-18 深圳市车音网科技有限公司 语音控制电视机的方法、装置和系统
WO2013012107A1 (ko) 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
US20130046773A1 (en) * 2011-08-18 2013-02-21 General Instrument Corporation Method and apparatus for user-based tagging of media content
CN102289374B (zh) * 2011-08-31 2017-06-30 南京中兴新软件有限责任公司 一种构建跨平台软件运行环境的方法及装置
WO2013042115A2 (en) 2011-09-19 2013-03-28 Personetics Technologies Ltd. Computerized data-aware agent systems for retrieving data to serve a dialog between human user and computerized system
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8340975B1 (en) 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US20150212664A1 (en) 2011-10-11 2015-07-30 IQnect Technology Limited System and methods for content-search carousel for mobile-computing devices
US9326088B2 (en) * 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US9847083B2 (en) 2011-11-17 2017-12-19 Universal Electronics Inc. System and method for voice actuated configuration of a controlling device
US8954330B2 (en) 2011-11-28 2015-02-10 Microsoft Corporation Context-aware interaction system using a semantic model
US9152376B2 (en) 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9836545B2 (en) 2012-04-27 2017-12-05 Yahoo Holdings, Inc. Systems and methods for personalized generalized content recommendations
US10156455B2 (en) 2012-06-05 2018-12-18 Apple Inc. Context-aware voice guidance
US20130332159A1 (en) 2012-06-08 2013-12-12 Apple Inc. Using fan throttling to enhance dictation accuracy
US9679330B2 (en) 2012-06-10 2017-06-13 Apple Inc. Interface for enhanced continuity of browsing experience
KR20130140423A (ko) 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
US20130339859A1 (en) * 2012-06-15 2013-12-19 Muzik LLC Interactive networked headphones
US9195383B2 (en) * 2012-06-29 2015-11-24 Spotify Ab Systems and methods for multi-path control signals for media presentation devices
US10620797B2 (en) 2012-06-29 2020-04-14 Spotify Ab Systems and methods for multi-context media control and playback
US9786294B1 (en) * 2012-07-30 2017-10-10 Amazon Technologies, Inc. Visual indication of an operational state
US9779757B1 (en) * 2012-07-30 2017-10-03 Amazon Technologies, Inc. Visual indication of an operational state
US9106957B2 (en) 2012-08-16 2015-08-11 Nuance Communications, Inc. Method and apparatus for searching data sources for entertainment systems
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9043210B1 (en) 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
US9230560B2 (en) 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
WO2014064531A1 (en) 2012-10-22 2014-05-01 Spotify Ab Systems and methods for pre-fetching media content
PL401346A1 (pl) 2012-10-25 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Generowanie spersonalizowanych programów audio z zawartości tekstowej
US9337674B2 (en) * 2012-11-02 2016-05-10 Chen-Source Inc. Desktop charger
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9672822B2 (en) 2013-02-22 2017-06-06 Next It Corporation Interaction with a portion of a content item through a virtual assistant
US9292832B2 (en) 2013-02-25 2016-03-22 Qualcomm Incorporated Collaborative intelligence and decision-making in an IoT device group
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9304736B1 (en) * 2013-04-18 2016-04-05 Amazon Technologies, Inc. Voice controlled assistant with non-verbal code entry
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
US9116619B2 (en) * 2013-05-10 2015-08-25 Seagate Technology Llc Displaying storage device status conditions using multi-color light emitting diode
US9811087B2 (en) 2013-05-15 2017-11-07 Deere & Company Method for controlling a vehicle and a vehicle guidance system
US9843623B2 (en) 2013-05-28 2017-12-12 Qualcomm Incorporated Systems and methods for selecting media items
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US20140365887A1 (en) 2013-06-10 2014-12-11 Kirk Robert CAMERON Interactive platform generating multimedia from user input
US9324322B1 (en) 2013-06-18 2016-04-26 Amazon Technologies, Inc. Automatic volume attenuation for speech enabled devices
US9554632B2 (en) 2013-06-21 2017-01-31 Logitech Europe S.A. Portable device case and accessories
US9997160B2 (en) * 2013-07-01 2018-06-12 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for dynamic download of embedded voice components
CN103474068B (zh) * 2013-08-19 2016-08-10 科大讯飞股份有限公司 实现语音命令控制的方法、设备及系统
US9431004B2 (en) 2013-09-05 2016-08-30 International Business Machines Corporation Variable-depth audio presentation of textual information
KR20150029974A (ko) * 2013-09-11 2015-03-19 엘지전자 주식회사 디스플레이 디바이스 및 그 제어 방법
US9240182B2 (en) 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
CN103501382B (zh) * 2013-09-17 2015-06-24 小米科技有限责任公司 语音服务提供方法、装置和终端
US9443527B1 (en) 2013-09-27 2016-09-13 Amazon Technologies, Inc. Speech recognition capability generation and control
WO2015054225A1 (en) * 2013-10-07 2015-04-16 Google Inc. Smart-home hazard detector providing non-alarm status signals at opportune moments
US9484025B2 (en) 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US9706007B2 (en) 2013-10-17 2017-07-11 Blue Syntax Consulting LLC System and method for querying disparate data sources in real time
US9698999B2 (en) * 2013-12-02 2017-07-04 Amazon Technologies, Inc. Natural language control of secondary device
US9900177B2 (en) 2013-12-11 2018-02-20 Echostar Technologies International Corporation Maintaining up-to-date home automation models
US9571645B2 (en) 2013-12-16 2017-02-14 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9804820B2 (en) 2013-12-16 2017-10-31 Nuance Communications, Inc. Systems and methods for providing a virtual assistant
US9721570B1 (en) 2013-12-17 2017-08-01 Amazon Technologies, Inc. Outcome-oriented dialogs on a speech recognition platform
US10248856B2 (en) * 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US10031721B2 (en) * 2014-05-15 2018-07-24 Tyco Safety Products Canada Ltd. System and method for processing control commands in a voice interactive system
CN112102824A (zh) 2014-06-06 2020-12-18 谷歌有限责任公司 基于环境的主动聊天信息系统
US10440499B2 (en) 2014-06-16 2019-10-08 Comcast Cable Communications, Llc User location and identity awareness
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104135697A (zh) 2014-07-31 2014-11-05 上海素控控制技术有限公司 基于蓝牙的智能共振音箱及其控制方法
US9767794B2 (en) 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
CN104135197A (zh) 2014-08-18 2014-11-05 济南大学 一种无传感器永磁同步电机调速控制策略
KR101579292B1 (ko) * 2014-08-29 2015-12-21 서울대학교 산학협력단 범용 음성인식 제어 장치 및 제어 방법
KR102342623B1 (ko) 2014-10-01 2021-12-22 엑스브레인, 인크. 음성 및 연결 플랫폼
EP3213548B1 (en) 2014-10-30 2020-10-14 Assia Spe, Llc Method for providing performance and usage information for a wireless local area network
EP3213518A1 (en) 2014-10-31 2017-09-06 Piksel, Inc. Personalised channel
CN104506944B (zh) * 2014-11-12 2018-09-21 科大讯飞股份有限公司 基于电视场景及语音助手的语音交互辅助方法及系统
JPWO2016092924A1 (ja) 2014-12-09 2017-09-14 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9811312B2 (en) * 2014-12-22 2017-11-07 Intel Corporation Connected device voice command support
US10284618B2 (en) 2015-04-28 2019-05-07 Apple Inc. Dynamic media content
US10038757B2 (en) 2015-04-29 2018-07-31 Microsoft Technology Licensing, Llc Providing personalized greetings on a digital assistant
US9766596B2 (en) 2015-07-08 2017-09-19 Google Inc. Wake up to a cast alarm or an alarm plus content prompt
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671665B2 (en) 2015-09-25 2020-06-02 Oath Inc. Personalized audio introduction and summary of result sets for users
JP6532021B2 (ja) 2015-09-29 2019-06-19 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3473130B1 (en) 2015-09-30 2021-08-04 Apple Inc. Case with magnetic over-center mechanism
US10102201B2 (en) * 2015-11-30 2018-10-16 Soundhound, Inc. Natural language module store
US10026401B1 (en) 2015-12-28 2018-07-17 Amazon Technologies, Inc. Naming devices via voice commands
US20170221322A1 (en) * 2016-02-01 2017-08-03 Brian M. Ignomirello System and method of multimodal status indication
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US20170262537A1 (en) 2016-03-14 2017-09-14 Amazon Technologies, Inc. Audio scripts for various content
JP6686226B2 (ja) 2016-04-18 2020-04-22 グーグル エルエルシー 適切なエージェントの自動化アシスタント呼び出し
US9990002B2 (en) 2016-05-25 2018-06-05 Lg Electronics Inc. Sound output apparatus and hub for communication network
WO2017203366A1 (en) 2016-05-27 2017-11-30 Mobile Synergy 26 International Limited Multifunctional connection systems for various devices and methods of use thereof
US10832684B2 (en) 2016-08-31 2020-11-10 Microsoft Technology Licensing, Llc Personalization of experiences with digital assistants in communal settings through voice and query processing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171257A (ja) * 2002-11-20 2004-06-17 Nec Corp 機能拡張型ブラウザ及びブラウザ部品並びにプログラム
JP2009521745A (ja) * 2005-12-22 2009-06-04 マイクロソフト コーポレーション 音声で起動されるネットワーク動作
JP2014065359A (ja) * 2012-09-25 2014-04-17 Fujitsu Ten Ltd 表示制御装置、表示システム及び表示制御方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
"「Linuxで旧型PCを復活!改 第9回 仮想マシンで動かすPCとして復活」", 日経LINUX, vol. 2013年11月号(第15巻,第11号), JPN6021001336, 8 October 2013 (2013-10-08), JP, pages 151 - 156, ISSN: 0004427444 *
"「特集1 Java2がある世界」", 月刊アスキーNT, vol. 1999年3月号(第4巻,第3号), JPN6021001335, 1 March 1999 (1999-03-01), JP, pages 89 - 112, ISSN: 0004427443 *
「FM TOWNS LIVEMOTIONサポートライブラリ V2.1 追加機能解説 81SP-1090-2-0」, JPN6021046777, February 1995 (1995-02-01), JP, pages 3 - 21, ISSN: 0004649526 *
小本 勇貴(外2名): "「Enhanced Web Speech API: ブラウザ非依存なエンジン選択・拡張が可能なHTML5用音声ウェブアプリケ", 情報処理学会第77回(平成27年)全国大会講演論文集(1), JPN6021046773, 17 March 2015 (2015-03-17), JP, pages 1 - 401, ISSN: 0004649530 *
有馬 勲(外3名): "「PCによるソフトウェア音声認識システムの構築」", 日本音響学会平成8年度秋季研究発表会講演論文集−I−, JPN6021046779, 25 September 1996 (1996-09-25), JP, pages 183 - 184, ISSN: 0004649524 *
松田 晃一(外2名), 「P5.JSプログラミングガイド」, vol. 初版, JPN6021046774, 10 December 2015 (2015-12-10), JP, pages 345 - 365, ISSN: 0004649529 *
桃崎 浩平(外7名): "「パソコン用文音声合成ソフトウェアエンジンの開発」", 日本音響学会平成8年度秋季研究発表会講演論文集−I−, JPN6021046776, 25 September 1996 (1996-09-25), JP, pages 239 - 240, ISSN: 0004649527 *
森脇 大悟: "「WinSockから始めるインターネット通信」", DELPHIマガジン(DELPHI MAGAZINE), vol. 7, JPN6021046778, 1 November 1999 (1999-11-01), JP, pages 104 - 130, ISSN: 0004649525 *
野田 喜昭(外3名): "「音声認識エンジンVoiceRexを開発」", NTT技術ジャーナル, vol. 11, no. 12, JPN6021046775, 1 December 1999 (1999-12-01), JP, pages 14 - 17, ISSN: 0004649528 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003388A (ja) * 2020-12-22 2022-01-11 阿波羅智聯(北京)科技有限公司Apollo Intelligent Connectivity(Beijing) Technology Co., Ltd. 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体
JP7346496B2 (ja) 2020-12-22 2023-09-19 阿波羅智聯(北京)科技有限公司 車載機器の応答速度を試験する方法、装置、機器及び記憶媒体

Also Published As

Publication number Publication date
US20170329572A1 (en) 2017-11-16
US10332516B2 (en) 2019-06-25
US20170332035A1 (en) 2017-11-16
JP2023051963A (ja) 2023-04-11
KR20190005885A (ko) 2019-01-16
US20180308324A1 (en) 2018-10-25
CN108604179A (zh) 2018-09-28
US10679623B2 (en) 2020-06-09
KR20200121915A (ko) 2020-10-26
US11355116B2 (en) 2022-06-07
WO2017197010A1 (en) 2017-11-16
US10304450B2 (en) 2019-05-28
US10861461B2 (en) 2020-12-08
KR102307976B1 (ko) 2021-09-30
US11990126B2 (en) 2024-05-21
KR102168974B1 (ko) 2020-10-22
US20230368789A1 (en) 2023-11-16
US11935535B2 (en) 2024-03-19
US20170330429A1 (en) 2017-11-16
US20170329573A1 (en) 2017-11-16
US10235997B2 (en) 2019-03-19
US11341964B2 (en) 2022-05-24
US20190279634A1 (en) 2019-09-12
EP3455719A1 (en) 2019-03-20
US10535343B2 (en) 2020-01-14
US20220358923A1 (en) 2022-11-10
US20220293104A1 (en) 2022-09-15
US20190279635A1 (en) 2019-09-12
US20200294504A1 (en) 2020-09-17
US11922941B2 (en) 2024-03-05

Similar Documents

Publication Publication Date Title
US11355116B2 (en) Implementations for voice assistant on devices
US11810554B2 (en) Audio message extraction
US11102624B2 (en) Automated messaging
US10445365B2 (en) Streaming radio with personalized content integration
US10509829B2 (en) Contextual search using natural language
JP6789320B2 (ja) 選択的に辿ることが可能な状態機械のパーソナルアシスタントモジュールへの提供
JP6549715B2 (ja) 音声ベースシステムにおけるアプリケーションフォーカス
US20160165038A1 (en) Digital assistant alarm system
TW201535156A (zh) 執行與個人的存在相關聯的動作
WO2016052501A1 (ja) ユーザインタフェース装置、プログラム及びコンテンツの通知方法
US10965391B1 (en) Content streaming with bi-directional communication
US20220358853A1 (en) Ornament Apparatus, Systems and Methods
KR20210041476A (ko) 사용자 발화를 처리하는 전자 장치 및 그 작동 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210119

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220816