JP2019537050A - 音声能力を備えたポータブルオーディオデバイス - Google Patents

音声能力を備えたポータブルオーディオデバイス Download PDF

Info

Publication number
JP2019537050A
JP2019537050A JP2019517815A JP2019517815A JP2019537050A JP 2019537050 A JP2019537050 A JP 2019537050A JP 2019517815 A JP2019517815 A JP 2019517815A JP 2019517815 A JP2019517815 A JP 2019517815A JP 2019537050 A JP2019537050 A JP 2019537050A
Authority
JP
Japan
Prior art keywords
audio device
portable audio
wwan
wlan
portable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019517815A
Other languages
English (en)
Other versions
JP7191819B2 (ja
Inventor
デイビッド オーウェンズ,
デイビッド オーウェンズ,
Original Assignee
ハーマン インターナショナル インダストリーズ インコーポレイテッド
ハーマン インターナショナル インダストリーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン インターナショナル インダストリーズ インコーポレイテッド, ハーマン インターナショナル インダストリーズ インコーポレイテッド filed Critical ハーマン インターナショナル インダストリーズ インコーポレイテッド
Publication of JP2019537050A publication Critical patent/JP2019537050A/ja
Application granted granted Critical
Publication of JP7191819B2 publication Critical patent/JP7191819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W48/00Access restriction; Network selection; Access point selection
    • H04W48/18Selecting a network or a communication service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/02Terminal devices
    • H04W88/06Terminal devices adapted for operation in multiple networks or having at least two operational modes, e.g. multi-mode terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

ポータブルオーディオデバイスは、WLANと接続することが可能なネットワークカードと、WWANに接続するための無線モデムとを含む。ポータブルオーディオデバイスは、ネットワークカード及びWLANまたは無線モデム及びWWANを介して音声サービスプラットフォーム及び/またはコンテンツプロバイダと通信する。ポータブルオーディオデバイスがWLANへのアクセスを行わない場合、ポータブルオーディオデバイスは、無線モデム及びWWANを介して音声サービスプラットフォームと通信することによって音声クエリを処理し、それに応答してもよい。ポータブルオーディオデバイスは、先進的な音声機能などの各種機能をポータブルオーディオデバイスの各種のハードウェア及びソフトウェア構成要素が実行するための電力を提供する電池も含む。【選択図】図2

Description

関連出願の相互参照
本出願は、「PORTABLE AUDIO DEVICE WITH VOICE CAPABILITIES」と題する、2016年10月17日出願の、連続番号62/409,287を有する米国仮特許出願の利点を主張する。この関連出願の主題は、ここで参照によって本明細書に組み込まれる。
本開示の実施形態の分野
本開示の実施形態は、一般にオーディオデバイスに関し、より具体的には、音声能力を備えたポータブルオーディオデバイスに関する。
音声クエリを受信及び処理することが可能な音声支援デバイス(Voice assistance device:VAD)がユーザにより普及してきている。普及しているVADの例としては、Amazon Echo及びGoogle Homeが挙げられる。VADは、ユーザが特定のアイテム(デジタルメディアアイテムまたは情報アイテムなど)をインターネットに要求し、VADのスピーカを介してVADから応答を受け取るために便利な音声ベースのインタフェースを提供する。例えば、ユーザは、音楽トラックなどの特定のオーディオベースのメディアアイテム、ストリーミングポッドキャストまたはオーディオブックを求めて言葉によるクエリを送ってもよい。VADは、その言葉を処理し、ローカルエリアネットワーク(LAN)に接続して、要求されたメディアアイテムをインターネットから取得し、次いで、要求されたメディアアイテムをスピーカを介して出力する。ユーザクエリを処理するために、VADは、更に、音声サービスプラットフォーム(voice services platform:VSP)を利用してもよい。このプラットフォームは、1つ以上のコンテンツプロバイダと対話して、要求されたメディアアイテムまたは情報アイテムを取得する。
上記の音声支援デバイスの1つの欠点は、住居、学校または職場内などでLANに接続されているときにのみデバイスが使用可能なことである。通常、VADと共に無線LAN(Wi−Fiなど)が使用されるものの、VADは、無線ローカルエリアネットワーク(wireless local area network:WLAN)の比較的狭い範囲内になければ使用可能とならない。更に、VADは、従来、住宅または建物の壁コンセントに接続されたAC電源プラグを介して電力供給される。従って、従来のVADは、要求されたWLAN接続のローカルカバレッジ領域が狭いことや、電源プラグ及びコンセントの要件があることにより、実質上、住宅または建物の限定された領域に束縛される。従来のVADが携帯性に欠けているため、VADの使用は住居または建物環境に制限されている。それによりVADは、通常、このような限定された環境外では使用不可能である。
以上の事項が示すように、住居または建物外の環境においてVADを使用するためのより効果的な技術が有用となる。
各種実施形態は、音声クエリを取得するように構成された一式の1つ以上の遠方界マイクロホンと、一式の1つ以上のスピーカと、無線ワイドエリアネットワーク(WWAN)に接続するように構成された無線モデムと、オーディオ処理アプリケーションを含むメモリと、メモリに結合されているプロセッサであって、オーディオ処理アプリケーションを実行するとき、一連のステップを実行するように構成されたプロセッサとを含むポータブルオーディオデバイスについて記載する。一連のステップは、音声クエリに基づくデータ要求を生成することと、無線モデムを介してWWANにデータ要求を送信することとを含む。一連のステップは、データ要求に関連したデータ応答をWWANから無線モデムを介して受信することも含む。一連のステップは、データ応答に基づくオーディオ信号を生成することと、オーディオ出力を生成するために一式のスピーカにオーディオ信号を送信することとを更に含む。
他の実施形態は、限定されることはないが、開示された技術のうちの1つ以上の態様を実行するための命令を含むコンピュータ可読媒体、及び開示された技術のうちの1つ以上の態様を実行するための方法を含む。
開示された手法の少なくとも1つの利点は、ポータブルオーディオデバイスがWLANの範囲内になく、壁コンセントから電力を受け取らないときにでも、ポータブルオーディオデバイスが音声クエリを処理し、音声クエリに対する応答を提供することが可能であるという点である。従って、ポータブルオーディオデバイスは、真の携帯性を提供し、住居もしくは建物環境内または住居もしくは建物環境外などの任意の環境において使用することができる。
上述した1つ以上の実施形態の記載された特徴を詳細に理解することができるように、上で簡潔に要約された1つ以上の実施形態のより具体的な説明を、ある特定の実施形態を参照することによって行うことができる。これらの実施形態のいくつかは添付図面に示されている。しかしながら、添付図面は、典型的な実施形態のみを示しており、従って、いかなる方法によってもその範囲を限定するものとみなされるべきではないことに注意されたい。なぜなら、各種実施形態の範囲は、他の実施形態も包含するためである。
各種実施形態の1つ以上の態様を実装するように構成されたポータブルオーディオデバイスの概念ブロック図である。 各種実施形態の1つ以上の態様に従った、図1のポータブルオーディオデバイスが実装され得る通信環境の概念図である。 各種実施形態に従った、ポータブルオーディオデバイスの機能を実行するための方法ステップのフロー図である。 各種実施形態に従った、ポータブルオーディオデバイスによって受信された音声クエリを処理するための方法ステップのフロー図である。 各種実施形態に従った、WWANまたはWLANに接続すべきかどうかを決定するための方法ステップのフロー図である。
以下の説明では、ある特定の実施形態のより徹底した理解を提供するために多くの具体的な詳細事項が記載される。しかしながら、当業者にとっては、これらの具体的な詳細事項のうちの1つ以上がなくても、または更なる具体的な詳細事項を用いて他の実施形態を実施可能であることが明らかであろう。
図1は、各種実施形態の1つ以上の態様を実装するように構成されたポータブルオーディオデバイス100の概念ブロック図である。図に示すように、ポータブルオーディオデバイス100は、プロセッサ102、入出力(I/O)デバイス104(ネットワークカード150及び無線モデム155を含む)、加入者識別モジュール(subscriber identity module:SIM)デバイス106、メモリ110、一式の1つ以上のスピーカ120、一式の1つ以上のマイクロホン130、モーションデバイス175及び1つ以上の電池140を含み、これらはバス160によって相互接続されている。バス160は、ポータブルオーディオデバイス100の数々の(図1に示した)内部デバイスを通信可能に接続する全てのシステムバス、周辺バス及びチップセットバスを集合的に表す。メモリ110は、データベース114と対話するように構成されたオーディオ処理アプリケーション112を含む。電池140は、ポータブルオーディオデバイス100全体に電力を提供する。いくつかの実施形態において、電池140は、ポータブルオーディオデバイス100の電力状態に基づき、プロセッサ102、ネットワークカード150、無線モデム155、SIMデバイス106、メモリ110、一式のスピーカ120、一式のマイクロホン130、またはこれらの任意の組み合わせを含む各種のハードウェア及び/またはソフトウェア構成要素に電力を提供する。
本明細書に記載したように、ポータブルオーディオデバイス100は、無線ワイドエリアネットワーク(wireless wide area network:WWAN)を介して音声サービスプラットフォームと通信可能である無線モデム155を含む。いくつかの実施形態において、ポータブルオーディオデバイスがローカルネットワーク(例えば、無線ローカルネットワーク、すなわち「WLAN」)へのアクセスを行わないとき、ポータブルオーディオデバイス100は、WWANを介して音声サービスプラットフォームと通信することによって音声クエリを処理し、それに応答することができる。従って、ポータブルオーディオデバイス100により、ローカルネットワークに、またはユーザのモバイルデバイス(例えば、スマートフォン)にポータブルオーディオデバイス100が接続されていることを必要とせずに、ポータブルスピーカなどの専用オーディオデバイスに先進的な音声機能を実装することができる。更に、ポータブルオーディオデバイス100は、必要に応じて、例えば、ユーザによって発行された音声要求に応答して、1つ以上のコンテンツプロバイダからコンテンツを受信することを可能にする。ポータブルオーディオデバイス100は、本明細書に記載された機能(先進的な音声機能など)をポータブルオーディオデバイス100のハードウェア及びソフトウェア構成要素が実行するために必要とされる全ての電力を提供する電池140も含む。従って、ポータブルオーディオデバイス100は、住宅または建物の壁コンセントからの電力を必要とせずに、本明細書に記載された先進的な音声機能を提供する。このように、ポータブルオーディオデバイスは、真の携帯性を提供し、住居もしくは建物環境内または住居もしくは建物環境外などの任意の環境において使用することができる。
一般に、プロセッサ102は、ポータブルオーディオデバイス100の動作全体を調整するように構成されている。プロセッサ102は、データの処理及び/またはプログラムコードの実行を行うように構成された任意の技術的に実現可能な形態の処理デバイスであってもよい。プロセッサ102としては、例えば、限定されることはないが、システムオンチップ(SoC)、中央演算処理装置(CPU)、グラフィック処理装置(GPU)、特定用途向け集積回路(ASIC)、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)などを挙げることができる。プロセッサ102は、1つ以上の処理コアを含む。動作の際、プロセッサ102は、他のシステム構成要素の動作を制御及び調整する、ポータブルオーディオデバイス100のマスタプロセッサである。
入出力デバイス104は、入力デバイス、出力デバイス、及び入力の受信と出力の提供との両方が可能なデバイスを含んでもよい。例えば、限定されることはないが、入出力デバイス104は、有線及び/または無線通信デバイスを含むことができる。これらのデバイスは、モバイルコンピューティングデバイス、携帯電話、スピーカ(複数可)120、マイクロホン(複数可)130、リモートデータベース、他の種類のオーディオデバイス、他の種類のコンピューティングデバイスなどへのデータの送信及び/またはそれらからのデータの受信を行う。いくつかの実施形態において、入出力デバイス104は、1つ以上の他のデバイスと無線で通信するためのBluetooth(登録商標)デバイスを含んでもよい。
加えて、いくつかの実施形態において、入出力デバイス104は、ネットワークカード150及び無線モデム155を含む。いくつかの実施形態において、ネットワークカード150は第1の種類のネットワーク(非セルラネットワーク)とつながり、無線モデム155は第2の種類のネットワーク(セルラネットワーク)とつながる。第1及び第2の種類のネットワークは、異なる種類のネットワークを含む。ネットワークカード150は、ネットワークインタフェースコントローラ(NIC)、ネットワークアダプタ、LANアダプタ、物理ネットワークインタフェースまたは類似のコンピュータハードウェア構成要素を含んでもよい。これらは、非セルラネットワークと通信するために、ポータブルオーディオデバイス100をローカルエリアネットワーク(LAN)または無線ローカルエリアネットワーク(WLAN)などの非セルラネットワークに接続する。無線モデム155は、モバイルブロードバンドモデム、ロングタームエボリューション(LTE)モデムまたは類似のコンピュータハードウェア構成要素を含んでもよい。これらは、セルラネットワークと通信するために、ポータブルオーディオデバイス100を無線ワイドエリアネットワーク(WWAN)などのセルラネットワークに接続する。
SIMデバイス106は、1つ以上のWWANに関連した加入者情報を記憶する1つ以上の加入者識別モジュール(SIM)カードとインタフェースしている。例えば、SIMカードは、ポータブルオーディオデバイス100を使用して加入者を識別及び認証するために使用される国際移動体加入者識別(international mobile subscriber identity:IMSI)番号及びその関連キーを安全に記憶するための集積回路を含んでもよい。いくつかの実施形態において、SIMデバイス106は、入出力デバイス104(複数可)に認証及びWWANとの接続を可能にするために、無線モデム155などの1つ以上の入出力デバイス104と通信する。いくつかの実施形態において、ポータブルオーディオデバイス100は、例えば、SIMデバイス106を介してSIMカードから読み出される加入者情報に基づき、無線モデム155を介してWWANに接続する。
マイクロホン130(複数可)は、周囲環境から音響データを取得し、その音響データに関連した信号を処理のためにオーディオ処理アプリケーション112に送信するように構成されている。例えば、マイクロホン130(複数可)によって取得された音響データは、ポータブルオーディオデバイス100を低電力状態から立ち上げることを目的とした「ウェイク」コマンドを検出するためにポータブルオーディオデバイス100によって(例えば、オーディオ処理アプリケーション112によって)処理することができる。ウェイクコマンドは、特定の「ウェイクワード」を含み得る。このウェイクワードは、オーディオ処理アプリケーション112によって認識される固有の名称、単語または語句を含む。ポータブルオーディオデバイス100は、メモリ110に記憶されている特定のウェイクコマンドを用いて予め設定されてもよい。ウェイクコマンドは、ユーザによって別のウェイクワードに変更することもできる。ウェイクコマンドを受信及び検出したことに応答して、オーディオ処理アプリケーション112は、低電力状態(スリープ状態)を終了し、音声クエリを受信及び処理するために利用される通常の電力状態(起動状態)にポータブルオーディオデバイス100を遷移させてもよい。ポータブルオーディオデバイス100が起動した(通常の電力状態に遷移した)後、マイクロホン(複数可)130は、音声クエリを含む音響データをユーザから取得してもよく、その音声クエリに関連した信号を処理のためにオーディオ処理アプリケーション112に送信してもよい。
各種実施形態において、一式の1つ以上のマイクロホン130は、音響データの取得が可能な任意の種類の変換器を含んでもよい。このような変換器としては、例えば、限定されることはないが、差動マイクロホン、圧電マイクロホン、光マイクロホンなどが挙げられる。いくつかの実施形態において、マイクロホン130は、特定の環境内で音(例えば、音声)を検出するためにマイクロ波技術を実施してもよい。更なる実施形態において、マイクロホン130は、特定の距離(例えば、最大25フィート先)からユーザの音声(音響データ)を取得/検出するために遠方界技術を実施することができる。従って、ユーザは、ウェイクコマンド及び/または音声クエリをマイクロホン130がユーザから取得/検出するためにポータブルオーディオデバイス100の比較的近くにいることを必要とする。例えば、一式のマイクロホン130は、複数の遠方界マイクロホン130を含んでもよい。遠方界マイクロホンは近傍界マイクロホンとは異なる。近傍界マイクロホンは、音声処理のためにマイクロホンが十分正確な音響データを取得するためには、ユーザが近傍界マイクロホンの比較的近くで(例えば、12インチ以内で)話すことを必要とする。これに対して、遠方界マイクロホンは、近傍界マイクロホンによって取得可能である距離よりも長い距離で音声処理のためにユーザから十分正確な音響データ(会話音声)を取得することができる。例えば、一式のマイクロホン130は、様々な距離(最大15フィート先、20フィート先または25フィート先など)から音声処理目的のためにユーザの音声を取得/検出することができる1つ以上の遠方界マイクロホンを含んでもよい。
メモリ110は、メモリモジュールまたはメモリモジュールの集合体を含んでもよい。メモリ110内のオーディオ処理アプリケーション112は、ポータブルオーディオデバイス100の機能全体を実施し、従って、ポータブルオーディオデバイス100全体の動作を調整するようにプロセッサ102によって実行される。オーディオ処理アプリケーション112によって実行される処理としては、例えば、限定されることはないが、フィルタリング、音声認識、使用している自然言語処理(natural language processing:NLP)、統計解析、ヒューリスティック処理、音響処理、ならびに/または他の種類のデータ処理及び分析を挙げることができる。
例えば、初期状態において、オーディオ処理アプリケーション112は、電池140の電力を節約するために低電力状態で動作してもよい。低電力状態にある間、オーディオ処理アプリケーション112は、1つ以上のマイクロホン130を介して取得された音響データを継続的に監視してウェイクコマンドの有無を継続的に監視する「常時リスニングモード」であってもよい。いくつかの実施形態において、低電力状態にある間、オーディオ処理アプリケーション112は、ウェイクコマンドの有無を監視するのに必要とされるポータブルオーディオデバイス100のハードウェア及び/またはソフトウェア構成要素のみに電力供給し、それらを作動させる一方、ウェイクコマンドの有無を監視するのに必要とされないポータブルオーディオデバイス100の全ての他のハードウェア及び/またはソフトウェア構成要素を電源遮断し、それらを停止させることができる。例えば、低電力状態にある間、オーディオ処理アプリケーション112は、一式のマイクロホン130、プロセッサ102及びメモリ110のみに電力供給し、それらを作動させてもよい。他の実施形態において、オーディオ処理アプリケーション112は、一式のマイクロホン130のうちの第1の一部のマイクロホンを電源オンしてもよい。そのとき、一式のマイクロホンのうちの第2の一部のマイクロホンは電源オフされる。例えば、一式のマイクロホン130のうちの1つまたは2つのマイクロホンのみを低電力状態中に電源オンしてもよい。低電力状態にある間、オーディオ処理アプリケーション112は、入出力デバイス104(ネットワークカード150及び無線モデム155を含む)、SIMデバイス106、スピーカ(複数可)120またはこれらの任意の組み合わせを電源遮断し、それらを停止させることもできる。
1つ以上のマイクロホン(複数可)130によって取得された音響データがウェイクコマンドを含むことをオーディオ処理アプリケーション112が検出すると、オーディオ処理アプリケーション112は、音声クエリを取得及び処理するのに必要とされるポータブルオーディオデバイス100のハードウェア及び/またはソフトウェア構成要素を電源オンし、それらを作動させることにより、ポータブルオーディオデバイス100を低電力状態(スリープ状態)から通常の電力状態(起動状態)に遷移させてもよい。例えば、通常の電力状態において、オーディオ処理アプリケーション112は、低電力状態中に電源オンされなかった一式のマイクロホン130のうちの第2の一部のマイクロホン、入出力デバイス104(ネットワークカード150及び無線モデム155を含む)、SIMデバイス106、スピーカ(複数可)120、またはこれらの任意の組み合わせを電源オンし、それらを作動させてもよい。従って、低電力状態では、より少ない数のポータブルオーディオデバイス100のハードウェア及び/またはソフトウェア構成要素に電力供給されるため、通常の電力状態(低電力状態と比べて、より多い数のポータブルオーディオデバイス100のハードウェア及び/またはソフトウェア構成要素に電力供給することが必要になる)と比較して、電池140から必要になる電力量がより少なくなる。
ポータブルオーディオデバイス100が起動した(通常の電力状態に遷移した)後、オーディオ処理アプリケーション112は、マイクロホン(複数可)130を介して受信した音響データを継続的に監視して音声クエリを検出する。マイクロホン130(複数可)は、次いで、音声クエリを含む音響データを取得し、その音響クエリに関連した信号を処理のためにオーディオ処理アプリケーション112に送信してもよい。音声クエリは、IPデータストリームを含むデータ要求を生成するためにオーディオ処理アプリケーション112によって処理されてもよい。このデータ要求は、受信された音声クエリのコンピュータベースの表現を含む。
いくつかの実施形態において、オーディオ処理アプリケーション112は、自然言語処理技術を利用して音声クエリを処理することによって音声クエリに基づくデータ要求を生成する。自然言語処理(NLP)は、人間の(自然な)言語とコンピュータの言語との間の対話を容易にするために人工知能及び計算言語学の形態を含んでもよい。自然言語処理は、自然言語音声クエリを受信してもよく、コンピュータハードウェア及びソフトウェア構成要素によって理解できるコンピュータベースのデータ要求に音声クエリを翻訳してもよい。自然言語処理は、データベース114に記憶された辞書(用語の辞書)及び構文/文法構造を使用して、受信した音声クエリに適用されてもよい。
オーディオ処理アプリケーション112は、次いで、1つ以上の入出力デバイス104を介して音声サービスプラットフォーム及び/またはコンテンツプロバイダにデータ要求を送信する。音声サービスプラットフォームは、受信したデータ要求を処理してデータ応答を生成してもよい。音声サービスプラットフォームは、コンテンツプロバイダのサービスを利用してデータ応答を生成することもできる。オーディオ処理アプリケーション112は、次いで、音声サービスプラットフォーム及び/またはコンテンツプロバイダからデータ要求に対するデータ応答を受信してもよい。受信したデータ応答に基づき、オーディオ処理アプリケーション112は、オーディオ信号を含むオーディオ応答を生成する。オーディオ処理アプリケーション112は、次いで、一式のスピーカ120にオーディオ応答(オーディオ信号)を送信する。
一式のスピーカ120は、ポータブルオーディオデバイス100及び/またはポータブルオーディオデバイス100内に含まれるオーディオデバイス(例えば、電力増幅器)から受信したオーディオ信号に基づく音(オーディオ出力)を生成するように構成されている。いくつかの実施形態において、一式のスピーカ120は、複数のフルレンジスピーカを含む。更なる実施形態において、一式のスピーカ120は、電子クロスオーバー、及び様々な周波数範囲を生成するための複数の様々な種類のドライバを含む。各ドライバは、特定の周波数範囲を生成するためのものである。例えば、一式のスピーカ120は、1.25インチ〜1.75インチの第1のドライバ、及び直径3.25インチ〜3.75インチの、ウーハなどの第2のドライバを含んでもよい。これらの実施形態において、電子クロスオーバーは、受信したオーディオ信号を2つ以上の周波数範囲に分離し、様々な周波数範囲に合わせて設計された様々なドライバにオーディオ信号を送信するための電子フィルタ回路を含む。例えば、一式のスピーカ120は、第1の周波数範囲(例えば、120Hz未満などの低い周波数範囲)のための第1のドライバ、及び第2の周波数範囲(例えば、120Hz超などの、より高い周波数範囲)のための第2のドライバを含んでもよく、第1の周波数範囲と第2の周波数範囲とは、異なる周波数範囲である。
いくつかの実施形態において、ユーザから受信した音声クエリは、特定のメディアアイテムを再生すること(例えば、「音楽トラックXを再生すること」)を求める要求を含んでもよい。いくつかの実施形態において、特定のメディアアイテムは、オーディオデータのみを含むオーディオベースのメディアアイテムを含んでもよく、ビデオデータを全く含まない(音楽トラック、ストリーミングポッドキャスト、オーディオブックなど)。音声クエリは、特定のメディアアイテムを求めるデータ要求(IPデータストリーム)を生成するためにオーディオ処理アプリケーション112によって(例えば、NLP技術を利用して)処理される。オーディオ処理アプリケーション112は、1つ以上の入出力デバイス104を介して音声サービスプラットフォームにデータ要求を送信する。音声サービスプラットフォームは、(例えば、コンテンツプロバイダのサービスを利用することによって)特定のメディアアイテムを検索及び取得し、その特定のメディアアイテムをデータ応答としてオーディオ処理アプリケーション112に送信する。あるいは、音声サービスプラットフォームがコンテンツプロバイダにデータ要求を送信し、そのコンテンツプロバイダが、特定のメディアアイテムを検索及び取得し、その特定のメディアアイテムをデータ応答としてオーディオ処理アプリケーション112に送信してもよい。オーディオ処理アプリケーション112は、受信したデータ応答に対して再生動作(展開、復号など)を実行して、オーディオ信号を含むオーディオ応答を生成する。オーディオ信号は、特定のメディアアイテムを再生するために、オーディオ信号に基づく音(オーディオ出力)を生成/再現するスピーカ(複数可)120に送られる。
別の例として、ユーザから受信した音声クエリは、特定の情報アイテムを求める要求を含んでもよい。例えば、情報アイテムは、リアルタイム情報(現在の天気、交通、ニュース、スポーツスコア、株価など)を含んでもよく、または一般的な情報(歴史、科学、健康、趣味などに関する一般的な事実など)を含んでもよい。例えば、情報アイテムを求める音声クエリは、今日の天気はどうか? 誰が昨日レッドソックスの試合に勝ったか? フロリダの州議事堂はどこか? 第一次世界大戦はいつ終わったか?などの要求を含んでもよい。音声クエリは、特定の情報アイテムを求めるデータ要求(IPデータストリーム)を生成するためにオーディオ処理アプリケーション112によって(例えば、NLP技術を利用して)処理される。オーディオ処理アプリケーション112は、1つ以上の入出力デバイス104を介して音声サービスプラットフォームにデータ要求を送信する。音声サービスプラットフォームは、(例えば、コンテンツプロバイダのサービスを利用することによって)特定の情報アイテムを検索及び取得し、その特定の情報アイテムをデータ応答としてオーディオ処理アプリケーション112に送信する。あるいは、音声サービスプラットフォームがコンテンツプロバイダにデータ要求を送信し、そのコンテンツプロバイダが、特定の情報アイテムを検索及び取得し、その特定の情報アイテムをデータ応答としてオーディオ処理アプリケーション112に送信してもよい。オーディオ処理アプリケーション112は、データ応答に対して変換動作を実行して、データ応答に基づくオーディオ応答を生成する。例えば、オーディオ応答は、音声クエリに対する会話音声応答のオーディオクリップを含んでもよい。この音声応答は、データ応答を表すオーディオを含む。オーディオ信号は、音声クエリに対する音声応答を再生するために、オーディオ信号に基づいて音(オーディオ出力)を生成するスピーカ(複数可)120に出力される。
各種実施形態において、ポータブルオーディオデバイス100の構成要素(例えば、プロセッサ102、スピーカ(複数可)120、マイクロホン(複数可)130、電池140など)は、移動可能な住宅(portable housing)内に配置されて、ポータブルオーディオデバイス100が住宅または建物環境外などの様々な位置に運ばれることを可能にする。他の実施形態において、スピーカ(複数可)120とマイクロホン(複数可)130とは結合されてもよいが、ポータブルオーディオデバイス100の1つ以上の構成要素とは別である。しかしながら、本明細書に開示された実施形態は、ポータブルオーディオデバイス100の機能を実施するように構成された任意の技術的に実現可能なシステムを企図する。
いくつかの実施形態において、ポータブルオーディオデバイス100は、本明細書に記載された機能を実行するだけのために構成された専用オーディオデバイスを含む。これらの実施形態において、ポータブルオーディオデバイス100は、ビデオディスプレイスクリーンもビデオ処理能力も含まず、その代わりに、オーディオ取り込み、オーディオ記録、オーディオ処理、オーディオ出力などを含むオーディオ能力のみを提供する。いくつかの実施形態において、ポータブルオーディオデバイス100は、どの種類の通話能力も含まない。更なる実施形態において、ポータブルオーディオデバイス100は、ユーザ入力を受信するハードボタンを全く含まず、それにより全てのユーザ入力は、オーディオ/音声入力を通じて受信される。ビデオディスプレイスクリーン、ビデオ能力、通話能力、ハードボタンまたはこれらの任意の組み合わせなどの特徴を含まないことにより、ポータブルオーディオデバイス100のコスト、複雑さ及び電力要件が大幅に低下して、効率的かつ堅固な専用オーディオデバイスを作製することができる。この点に関して、ポータブルオーディオデバイス100は、低電力モードにおいてウェイクコマンドの有無を監視するために電池140からの電力を継続的に必要とするため、ビデオディスプレイスクリーン及びビデオ及び通話能力を排除することは、電池140の電力を節約することにも役立つことができる。加えて、一般に損傷(例えば、割れ)を受けやすいビデオディスプレイスクリーン)を含まないことにより、ポータブルオーディオデバイス100の全体の耐久性を向上させることができる。
図2は、各種実施形態の1つ以上の態様に従った、図1のポータブルオーディオデバイス100が実装され得る通信環境250の概念図である。図に示すように、ポータブルオーディオデバイス100は、無線ワイドエリアネットワーク(WWAN)202及び/または無線ローカルエリアネットワーク(WLAN)204を介して音声サービスプラットフォーム210及び/またはコンテンツプロバイダ220と通信してもよい。音声サービスプラットフォーム210及びコンテンツプロバイダ220は、インターネットなどの通信ネットワーク200を介して無線ワイドエリアネットワーク(WWAN)202及び/または無線ローカルエリアネットワーク(WLAN)204と通信してもよい。
各種実施形態において、WWAN202は、ロングタームエボリューション(long−term evolution:LTE)ネットワーク、グローバル移動通信システム(global system for mobile communications:GSM(登録商標))ネットワーク、符号分割多重アクセス(code division multiple access:CDMA)ネットワーク、マイクロ波アクセスに関する世界的相互運用(worldwide interoperability for microwave access:WiMAX)ネットワーク及び/または任意の他の種類の無線ワイドエリアネットワークを含んでもよい。WLAN204は、Wi−Fiネットワーク(例えば、IEEE802.11ネットワーク)などの、任意の種類の無線ローカルエリアネットワークを含んでもよい。一般に、WLAN204は、第1の種類のネットワーク(非セルラネットワーク)を含んでもよく、WWAN202は、第2の種類のネットワーク(セルラネットワーク)を含んでもよい。第1及び第2の種類のネットワークは、異なる種類のネットワークを含む。WWAN202は、WLAN204よりも非常に広いカバレッジ範囲を提供し、異なる技術を必要とする。特に、WWAN202は、地域的に、全国的に、または世界的に提供され、無線サービスプロバイダによって提供されるモバイル通信セルラネットワーク技術を利用する。これに対して、WLAN204は、モバイル通信セルラネットワーク技術を利用せず、通常は住居、学校または職場環境内で、比較的狭いカバレッジ範囲を提供する。
いくつかの実施形態において、ウェイクコマンドを受信及び検出したことに応答して、オーディオ処理アプリケーション112は、無線モデム155を使用してWWAN202に接続すべきか否かを決定する。特に、ウェイクコマンドを受信したことに応答して、オーディオ処理アプリケーション112は、次いで、無線モデム155を使用してWWAN202に接続すべきかどうか、またはネットワークカード150を使用してWLAN204に接続すべきかどうかを決定してもよい。例えば、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100がWLAN204のカバレッジ範囲内にあるかどうかを最初に判定してもよい。カバレッジ範囲内にある場合、オーディオ処理アプリケーション112は、ネットワークカード150を使用してWLAN204に接続してもよい。カバレッジ範囲内にない場合、オーディオ処理アプリケーション112は、無線モデム155を使用してWWAN202に接続してもよい。
これらの実施形態において、オーディオ処理アプリケーション112は、ウェイクコマンドを受信及び検出したことに応答して、その直後に、WWAN202またはWLAN204に接続すべきかどうかを決定し、WWAN202またはWLAN204とのネットワーク接続を確立する。従って、ウェイクコマンドを受信及び検出した後すぐに、ポータブルオーディオデバイス100は、WWAN202またはWLAN204とのネットワーク接続を使用して音声クエリを受信及び処理できるようになっている。例えば、ウェイクコマンドを受信及び検出したことに応答して、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100がWLAN204のカバレッジ範囲外にあると判定することにより、WWAN202に接続することを決定し、WWAN202とのネットワーク接続を確立してもよい。例えば、ウェイクコマンドを受信及び検出したことに応答して、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100がWLAN204のカバレッジ範囲内にあると判定することにより、WLAN204に接続することを決定し、WLAN204とのネットワーク接続を確立してもよい。更なる実施形態において、ポータブルオーディオデバイス100は、WWAN202とWLAN204との間を途切れなく、すなわち、サービス及び/またはオーディオ出力中に短い中断で切り替えることもできる。
上述したように、低電力モードにある間、ネットワークカード150、無線モデム155及びSIMデバイス106を電源オフしてもよい。いくつかの実施形態において、低電力モードにある間にウェイクコマンドを検出したことに応答して、オーディオ処理アプリケーション112は、WWAN202またはWLAN204に接続すべきかどうかを決定し、WWAN202またはWLAN204とのネットワーク接続を確立するのに必要とされる構成要素のみを電源オンする。例えば、オーディオ処理アプリケーション112がWWAN202に接続することを決定した場合、オーディオ処理アプリケーション112は、無線モデム155及び/またはSIMデバイス106のみを電源オンしてもよく、ネットワークカード150を電源オフしてもよい。従って、低電力モードにある間にウェイクコマンドを検出し、WWAN202に接続することを決定したことに応答して、オーディオ処理アプリケーション112は、無線モデム155及び/またはSIMデバイス106のみを電源オンしてもよく、ネットワークカード150を電源オフしてもよい。別の例として、オーディオ処理アプリケーション112がWLAN204に接続することを決定した場合、オーディオ処理アプリケーション112は、ネットワークカード150のみを電源オンしてもよく、無線モデム155及び/またはSIMデバイス106を電源オンしなくてもよい(すなわち、無線モデム155及び/またはSIMデバイス106を電源オフに保つ)。従って、低電力モードにある間にウェイクコマンドを検出し、WLAN204に接続することを決定したことに応答して、オーディオ処理アプリケーション112は、ネットワークカード150のみを電源オンしてもよく、無線モデム155及び/またはSIMデバイス106を電源オンしなくてもよい。
WWAN202またはWLAN204に対するネットワーク接続が一旦確立されると、ポータブルオーディオデバイス100は、ユーザから音声クエリを受信し、その音声クエリを処理してデータ要求を生成してもよい。ポータブルオーディオデバイス100は、次いで、WWAN202またはWLAN204及び通信ネットワーク200(インターネットなど)を介して音声サービスプラットフォーム210及び/またはコンテンツプロバイダ220にデータ要求を送信する。ポータブルオーディオデバイス100は、次いで、WWAN202またはWLAN204及び通信ネットワーク200を介して音声サービスプラットフォーム210及び/またはコンテンツプロバイダ220からデータ応答を受信する。一般に、音声サービスプラットフォーム210は、コンテンツプロバイダ220と共に動作して、ポータブルオーディオデバイス100からのデータ要求に対するデータ応答を生成してもよい。音声サービスプラットフォーム210は、Amazon Alexa、Google Assistant、Apple Siri及びMicrosoft Cortanaなどのインテリジェント・パーソナルアシスタント・サービスを提供してもよい。コンテンツプロバイダ220は、Microsoft Bingサーバ、GoogleサーバまたはYahoo!サーバなどのウェブ検索及びコンテンツサーバを含んでもよい。
例えば、ユーザによって発行された音声クエリを検出したとき、オーディオ処理アプリケーション112は、音声クエリをデータ要求に変換し、そのデータ要求を、WWAN202またはWLAN204を介して音声サービスプラットフォーム210に送信してもよい。音声サービスプラットフォーム210は、次いで、データ要求を処理してデータ応答を生成してもよい。このデータ応答は、WWAN202またはWLAN204を介してポータブルオーディオデバイス100に返送される。いくつかの実施形態において、データ要求を処理した後、音声サービスプラットフォーム210は、コンテンツプロバイダ220に送信される応答を生成することができる。コンテンツプロバイダ220は、次いで、ポータブルオーディオデバイス100にコンテンツ(例えば、メディアアイテム及び/または他の種類のデータ)を送信することができる。このコンテンツは、データ要求に対するデータ応答を含む。ポータブルオーディオデバイス100は、次いで、コンテンツプロバイダ220から受信したコンテンツ(データ応答)に基づき、スピーカ(複数可)120を通じて再生されるオーディオ信号を含むオーディオ応答を生成する。
図3は、各種実施形態に従った、ポータブルオーディオデバイス100の機能を実行するための方法ステップのフロー図である。方法ステップは、図1〜2のシステムに関連して記載されているが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムが、本開示の範囲内にあることを理解するであろう。いくつかの実施形態において、図3の方法300は、ポータブルオーディオデバイス100上で実行されているオーディオ処理アプリケーション112によって実行される。
図に示すように、方法300は、ステップ310から始まる。このステップで、オーディオ処理アプリケーション112は、電池140の電力を節約するために、最初にポータブルオーディオデバイス100の低電力状態を有効化する。低電力状態において、オーディオ処理アプリケーション112は、1つ以上のマイクロホン130を介して取得された音響データを継続的に監視してウェイクコマンドを検出する「常時リスニングモード」であってもよい。いくつかの実施形態において、低電力状態にある間、オーディオ処理アプリケーション112は、ウェイクコマンドの有無を監視するのに必要とされるポータブルオーディオデバイス100のハードウェア及び/またはソフトウェア構成要素のみを電源オンし、それらを作動させる一方、ウェイクコマンドの有無を監視するのに必要とされないポータブルオーディオデバイス100の全ての他のハードウェア及び/またはソフトウェア構成要素を電源遮断し、それらを停止させることができる。いくつかの実施形態において、低電力状態にある間、オーディオ処理アプリケーション112は、ウェイクコマンドの有無を監視するために使用されるポータブルオーディオデバイス100の第1の一式の構成要素を電源オンする。そのとき、ウェイクコマンドの有無を監視するために使用されないポータブルオーディオデバイス100の第2の一式の構成要素は電源オフされる。
オーディオ処理アプリケーション112は、次いで、ウェイクコマンドが1つ以上のマイクロホン130によって取得され、検出されたかどうかを(ステップ320で)判定する。ウェイクコマンドが取得され、検出されなかった場合、方法300はステップ320にとどまる。それによりオーディオ処理アプリケーション112は、ウェイクコマンドの有無を監視し続ける。ウェイクコマンドが取得され、検出された場合、方法300はステップ330に進む。ステップ330で、ウェイクコマンドを検出したことに応答して、オーディオ処理アプリケーション112は、低電力状態(スリープ状態)を終了し、ポータブルオーディオデバイス100を通常の電力状態(起動状態)に遷移させる。いくつかの実施形態では、通常の電力状態において、オーディオ処理アプリケーション112は、低電力状態中に電源オフされていたポータブルオーディオデバイス100の第2の一式の構成要素を電源オンする。他の実施形態では、通常の電力状態において、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100の第2の一式の構成要素のうちの少なくとも1つの構成要素を電源オンする。
ステップ340で、ウェイクコマンドを検出したことに応答して更に、オーディオ処理アプリケーション112は、WWAN202またはWLAN204に接続すべきかどうかを決定し、WWAN202またはWLAN204とのネットワーク接続を確立する。例えば、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100がWLAN204のカバレッジ範囲内にあるかどうかを判定してもよい。カバレッジ範囲内にある場合、オーディオ処理アプリケーション112は、WLAN204に接続することを決定し、ネットワークカード150を使用してWLAN204とのネットワーク接続を確立してもよい。カバレッジ範囲内にない場合、オーディオ処理アプリケーション112は、WWAN202に接続することを決定し、無線モデム155を使用してWWAN202とのネットワーク接続を確立してもよい。いくつかの実施形態において、オーディオ処理アプリケーション112がWWAN202に接続することを決定した場合、オーディオ処理アプリケーション112は、無線モデム155及び/またはSIMデバイス106のみを電源オンしてもよく、ネットワークカード150を電源オフしてもよい。また、WLAN204に接続することをオーディオ処理アプリケーション112が決定した場合、オーディオ処理アプリケーション112は、ネットワークカード150のみを電源オンしてもよく、無線モデム155及び/またはSIMデバイス106を電源オンしなくてもよい。
WWAN202またはWLAN204とのネットワーク接続を確立した後、オーディオ処理アプリケーション112は、ユーザからの音声クエリが1つ以上のマイクロホン130によって取得され、検出されたかどうかを(ステップ350で)判定する。音声クエリが取得され、検出されなかった場合、方法300はステップ370に進む。音声クエリが取得され、検出された場合、ステップ360で、オーディオ処理アプリケーション112は、音声クエリを処理し、一式のスピーカ120を介してオーディオ応答をユーザに提供する。ステップ360については、図4に関して以下で更に詳しく述べる。
ステップ370で、オーディオ処理アプリケーション112は、所定の時間閾値を超えたかどうかにより、音声クエリがオーディオ処理アプリケーション112によって検出されなかったことを判定する。一般に、音声クエリが一定期間検出されなかった場合、オーディオ処理アプリケーション112は、ポータブルオーディオデバイス100を通常の電力状態から低電力状態に遷移させて電池140の電力を節約するようにしてもよい。例えば、音声クエリがオーディオ処理アプリケーション112によって5分間以上検出されなかった場合、ポータブルオーディオデバイス100を低電力状態に戻してもよい。時間閾値を超えなかった場合、方法300はステップ350に進む。それによりオーディオ処理アプリケーション112は、音声クエリの有無を継続して監視する。時間閾値を超えた場合、方法300はステップ310に進む。それによりオーディオ処理アプリケーション112は、ポータブルオーディオデバイス100を遷移させて低電力状態に戻す。
図4は、各種実施形態に従った、ポータブルオーディオデバイス100によって受信される音声クエリを処理するための方法ステップのフロー図である。方法ステップは、図1〜2のシステムに関連して記載されているが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムが、本開示の範囲内にあることを理解するであろう。いくつかの実施形態において、図4の方法400は、ポータブルオーディオデバイス100上で実行されているオーディオ処理アプリケーション112によって実行される。方法400は、図3のステップ360を含んでもよい。
図に示すように、方法400は図3のステップ350から始まる。それによりユーザからの音声クエリが受信される。ステップ410で、オーディオ処理アプリケーション112は、音声クエリに基づくデータ要求を(例えば、NLP技術を利用して)生成する。データ要求は、IPデータストリームを含んでもよく、受信した音声クエリを表してもよい。オーディオ処理アプリケーション112は、次いで、WWAN202またはWLAN204を介して音声サービスプラットフォーム210及び/またはコンテンツプロバイダ220にデータ要求を(ステップ420で)送信する。図2に示したように、音声サービスプラットフォーム210及びコンテンツプロバイダ220は、インターネットなどの通信ネットワーク200を介してWWAN202またはWLAN204と通信してもよい。音声サービスプラットフォーム210は、データ要求を処理してデータ応答を生成してもよい。音声サービスプラットフォームは、コンテンツプロバイダ220のサービスを利用してデータ応答を生成することもできる。
オーディオ処理アプリケーション112は、次いで、音声サービスプラットフォーム210及び/またはコンテンツプロバイダ220からデータ要求に対するデータ応答を(ステップ430で)受信してもよい。受信したデータ応答に基づき、オーディオ処理アプリケーション112は、次いで、オーディオ信号を含むオーディオ応答を(ステップ440で)生成する。オーディオ処理アプリケーション112は、次いで、オーディオ応答を再現/再生するスピーカ(複数可)120にオーディオ応答を(ステップ450で)送信する。方法400は、次いで図3のステップ370に戻る。
図5は、各種実施形態に従った、WWANまたはWLANに接続すべきかどうかを決定するための方法ステップのフロー図である。方法ステップは、図1〜2のシステムに関連して記載されているが、当業者は、任意の順序で方法ステップを実行するように構成された任意のシステムが、本開示の範囲内にあることを理解するであろう。いくつかの実施形態において、図5の方法500は、ポータブルオーディオデバイス100上で実行されているオーディオ処理アプリケーション112によって実行される。
方法500は、図1〜4に関して記載された実施形態とは違った、WWANまたはWLANに接続すべきかどうかを決定するための代替的または補足的な実施形態を含む。この実施形態において、図5の方法500は、図3の方法300及び図4の方法400と並行して実行されてもよい。方法500は、WWANまたはWLANの信号強度を継続的に監視し、それぞれの信号強度に基づいてWWANまたはWLANに接続するためにバックグラウンドで実行される別個の方法を含んでもよい。このように、方法500は、通常の電力モードにおいてユーザから音声クエリを受信しつつ、WWANまたはWLANの信号強度を継続的に監視し、WWANとWLANとの間でネットワーク接続を途切れなく遷移させることができる。このような実施形態において、図5の方法500は、図3の方法300のステップ320−Yesでウェイクコマンドを受信すると開始/起動される。更に、このような実施形態では、図3の方法300のステップ340(WWAN202またはWLAN204に接続すべきかどうかを決定すること)が実行されない。むしろ、図5の方法500は、WWANまたはWLANの信号強度を継続的に監視し、必要に応じて、WWANまたはWLANとの間で遷移させるためにバックグラウンドで並行して継続的に実行することができる。
図に示すように、方法500はステップ510から始まる。このとき、オーディオ処理アプリケーション112はウェイクコマンドを受信する。上述したように、いくつかの実施形態において、ステップ510は、図3の方法300のステップ320−Yesに対応する。ステップ520で、オーディオ処理アプリケーション112は、次いで、WWAN202の第1の信号強度及びWLAN204の第2の信号強度を決定する。第1の信号強度は、無線モデム155を介して決定されるポータブルオーディオデバイス100とWWAN202との間の信号強度を含んでもよい。第2の信号強度は、ネットワークカード150を介して決定されるポータブルオーディオデバイス100とWLAN204との間の信号強度を含んでもよい。ステップ530で、オーディオ処理アプリケーション112は、次いで、WWAN202の第1の信号強度とWLAN204の第2の信号強度とを比較して、どちらの信号強度が大きいかを判定する。
ステップ540で、オーディオ処理アプリケーション112は、第1の信号強度と第2の信号強度との比較に基づき、WWAN202またはWLAN204のいずれかとのネットワーク接続を確立する。例えば、ステップ530で、WWAN202の第1の信号強度がWLAN204の第2の信号強度よりも大きいと判定された場合、オーディオ処理アプリケーション112はWWAN202とのネットワーク接続を確立してもよい。これに対して、ステップ530で、WLAN204の第2の信号強度がWWAN202の第1の信号強度よりも大きいと判定された場合、オーディオ処理アプリケーション112はWLAN204とのネットワーク接続を確立してもよい。
ステップ550で、オーディオ処理アプリケーション112は、次いで、トリガイベントを検出したかどうかを判定する。トリガイベントの検出により、オーディオ処理アプリケーション112は、それぞれの信号強度に基づいてWWAN202またはWLAN204に接続すべきかどうかを再度評価し、決定する。ステップ550でトリガイベントが検出された場合、方法500はステップ520に進む。それによりオーディオ処理アプリケーション112は、WWAN202及びWLAN204の信号強度を決定し、それらの信号強度を比較し、どちらのネットワークがより大きい信号強度を有するかに応じて、WWAN202またはWLAN204のいずれかとのネットワーク接続を確立する。ステップ550でトリガイベントが検出されなかった場合、方法500はステップ550にとどまる。それによりオーディオ処理アプリケーション112は、トリガイベントの有無を監視し続ける。
いくつかの実施形態において、トリガイベントは、所定期間の経過を含んでもよい。このような実施形態において、方法500は、WWAN202及びWLAN204の信号強度を継続して監視し、それぞれの信号強度に基づいて所定の時間間隔でWWAN202またはWLAN204とのネットワーク接続を確立してもよい。
いくつかの実施形態において、トリガイベントは、現在接続されたネットワークの信号強度が所定の閾値レベルを下回ったと判定することを含む。例えば、ポータブルオーディオデバイス100が現在WWAN202と接続されているが、WWAN202の信号強度が閾値レベルを下回ったことをオーディオ処理アプリケーション112が検出した場合、トリガイベントが検出される。これらの実施形態において、方法500は、現在の信号強度が閾値レベルを下回ったかどうかを検出するために、ポータブルオーディオデバイス100が現在接続されているネットワーク(WWAN202またはWLAN204)の信号強度を継続して監視してもよい。現在の信号強度が閾値レベルを下回った場合、オーディオ処理アプリケーション112は、WWAN202及びWLAN204の信号強度を決定し、それらの信号強度を比較し、より大きい信号強度を有するWWAN202またはWLAN204とのネットワーク接続を確立する。
いくつかの実施形態において、トリガイベントは、ユーザのスケジュールイベントの検出を含む。これらの実施形態において、トリガイベントは、ユーザのスケジュールを知っていることに基づいている。例えば、スケジュールイベントは、ユーザが所定期間内に(例えば、次の5分以内に)特定の位置Xを出発する予定であることを指定してもよい。スケジュールイベント(トリガイベントを含む)を検出すると、方法500は、次いで、WWAN202及びWLAN204の信号強度を決定し、それらの信号強度を比較し、より大きい信号強度を有するWWAN202またはWLAN204とのネットワーク接続を確立してもよい。
いくつかの実施形態において、トリガイベントは、所定の閾距離を超えたポータブルオーディオデバイス100の移動の検出を含む。ポータブルオーディオデバイス100の移動は、(図1に示した)モーションデバイス175によって検出されてもよい。モーションデバイス175は、GPSまたは他の位置検知デバイスを含んでもよい。これらの実施形態において、トリガイベントは、ポータブルオーディオデバイス100が所定の閾距離を移動したことをモーションデバイス175が検出したときに検出される。ポータブルオーディオデバイス100が所定の閾距離を移動した場合、方法500は、WWAN202及びWLAN204の信号強度を決定し、それらの信号強度を比較し、より大きい信号強度を有するWWAN202またはWLAN204とのネットワーク接続を確立してもよい。
更なる実施形態において、デフォルトネットワーク(WWAN202またはWLAN204)が、オーディオ処理アプリケーション112またはユーザによって設定されてもよい。これらの実施形態において、オーディオ処理アプリケーション112は、利用可能な場合、デフォルトネットワークとのネットワーク接続を確立することを最初に試みてもよい。デフォルトネットワークが利用可能でない場合、オーディオ処理アプリケーション112は、他のネットワークとのネットワーク接続を確立することを試みてもよい。例えば、WLANオプションが、登録プロセスを必要とする新規のパスワード保護ネットワークである、WLANが混雑している、低速で動作している、低下している、もしくはそれ以外の問題を起こしている、かつ/またはユーザが、無制限のWWAN202のデータプランに加入している(そのため、価格がWWAN202のファクターではない)場合、WWAN202をデフォルトネットワークとして設定してもよい。別の例において、ユーザが、無制限のWWAN202のデータプランに加入していない(そのため、価格がWWAN202のファクターである)場合、WLAN204をデフォルトネットワークとして設定してもよい。
要約すると、本明細書に記載された実施形態は、WLANと接続することが可能なネットワークカード及びWWANに接続するための無線モデムを含むポータブルオーディオデバイスに関する。ポータブルオーディオデバイスは、ネットワークカード及びWLANまたは無線モデム及びWWANを介して音声サービスプラットフォームと通信してもよい。いくつかの実施形態において、ポータブルオーディオデバイスがWLANへのアクセスを行わないとき、ポータブルオーディオデバイスは、無線モデム及びWWANを介して音声サービスプラットフォームと通信することによって音声クエリを処理し、それに応答することができる。ポータブルオーディオデバイス100は、本明細書に記載された先進的な音声機能及び他の機能をポータブルオーディオデバイス100の各種のハードウェア及びソフトウェア構成要素が実行するために必要とされる電力を提供する電池140も含む。電池電力を節約するために、ポータブルオーディオデバイス100は、ウェイクコマンドの有無を継続的に監視しつつ低電力状態に置かれてもよい。ウェイクコマンドを受信したとき、ポータブルオーディオデバイス100は、ユーザからの音声クエリを受信及び処理するために通常の電力状態に遷移されてもよい。
開示された手法の少なくとも1つの利点は、ポータブルオーディオデバイスがWLANの範囲内になく、住宅または建物の壁コンセントから電力を受け取らないときにでも、ポータブルオーディオデバイスが音声クエリを処理し、音声クエリに対する応答を提供することが可能であるという点である。特に、ポータブルオーディオデバイスがWi−FiネットワークなどのWLANの範囲内にないとき、ポータブルオーディオデバイスは、音声クエリを受信し、音声サービスプラットフォームと通信し、音声クエリに対する応答を提供することが可能である。更に、ポータブルオーディオデバイスの電池により、ポータブルオーディオデバイスは、WLANの範囲外にある領域において先進的な音声機能を提供することができる。従って、ポータブルオーディオデバイスは、真の携帯性を提供し、住居もしくは建物環境内または住居もしくは建物環境外などの任意の環境において使用することができる。
1.いくつかの実施形態において、ポータブルオーディオデバイスは、音声クエリを取得するように構成された一式の1つ以上の遠方界マイクロホンと、一式の1つ以上のスピーカと、無線ワイドエリアネットワーク(WWAN)に接続するように構成された無線モデムと、オーディオ処理アプリケーションを含むメモリと、前記メモリに結合されているプロセッサであって、前記オーディオ処理アプリケーションを実行するとき、前記音声クエリに基づくデータ要求を生成し、前記無線モデムを介して前記WWANに前記データ要求を送信し、前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信し、前記データ応答に基づくオーディオ信号を生成し、オーディオ出力を生成するために前記オーディオ信号を前記一式のスピーカに送信するように構成された前記プロセッサとを含む。
2.前記一式のマイクロホン、前記一式のスピーカ及び前記無線モデムのうちの少なくとも1つに電力供給するための電池を更に含む、条項1に記載のポータブルオーディオデバイス。
3.前記プロセッサは、自然言語処理技術を利用して前記音声クエリを処理することによって前記音声クエリに基づく前記データ要求を生成するように構成されている、条項1または2に記載のポータブルオーディオデバイス。
4.前記一式のスピーカは、第1の周波数範囲のための第1のドライバと、第2の周波数範囲のための第2のドライバとを含む、条項1〜3のいずれかに記載のポータブルオーディオデバイス。
5.前記音声クエリは、メディアアイテムまたは情報アイテムを求める要求を含み、前記データ応答は、前記メディアアイテムまたは情報アイテムを含む、条項1〜4のいずれかに記載のポータブルオーディオデバイス。
6.加入者識別モジュール(SIM)デバイスを更に含み、前記プロセッサは、前記SIMデバイスを介して受信した情報に基づいて前記WWANと通信するように更に構成されている、条項1〜5のいずれかに記載のポータブルオーディオデバイス。
7.無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークカードを更に含み、前記プロセッサは、前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を継続的に監視し、前記ウェイクコマンドを検出したことに応答して、前記無線モデムを介して前記WWANに接続すること、及び前記ネットワークカードを介して前記WLANに接続しないことを決定するように更に構成されている、条項1〜6のいずれかに記載のポータブルオーディオデバイス。
8.前記プロセッサは、前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を前記ポータブルオーディオデバイスが低電力状態にある間に継続的に監視し、前記ウェイクコマンドを検出したことに応答して、前記ポータブルオーディオデバイスを前記低電力状態から通常の電力状態に遷移させるように更に構成されている、条項1〜7のいずれかに記載のポータブルオーディオデバイス。
9.前記低電力状態において、前記ウェイクコマンドの有無を監視するために使用される前記ポータブルオーディオデバイスの第1の一式の構成要素を電源オンし、前記ウェイクコマンドの有無を監視するために使用されない前記ポータブルオーディオデバイスの第2の一式の構成要素を電源オフし、前記通常の電力状態において、前記第2の一式の構成要素のうちの少なくとも1つの構成要素を電源オンする、条項1〜8のいずれかに記載のポータブルオーディオデバイス。
10.いくつかの実施形態において、コンピュータ可読記憶媒体は、プロセッサによって実行されるとき、ポータブルオーディオデバイスの一式の1つ以上の遠方界マイクロホンを介して音声クエリを取得することと、前記音声クエリに基づくデータ要求を生成することと、前記ポータブルオーディオデバイス内に含まれる無線モデムを介して無線ワイドエリアネットワーク(WWAN)に前記データ要求を送信することと、前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信することと、前記データ応答に基づくオーディオ信号を生成することと、オーディオ出力を生成するために前記ポータブルオーディオデバイス内に含まれる一式のスピーカに前記オーディオ信号を送信することと、のステップを実行することにより、前記プロセッサに前記音声クエリを処理させる命令を含む。
11.前記ポータブルオーディオデバイスは、低電力状態において前記ポータブルオーディオデバイスの第1の一式の構成要素に電力供給し、通常の電力状態において前記ポータブルオーディオデバイスの第2の一式の構成要素に電力供給するための電池を含む、条項10に記載のコンピュータ可読記憶媒体。
12.前記音声クエリに基づく前記データ要求を生成することは、自然言語処理技術を利用して前記音声クエリを処理することを含む、条項10または11に記載のコンピュータ可読記憶媒体。
13.前記一式のスピーカは、クロスオーバーと、第1の周波数範囲のための第1のドライバと、第2の周波数範囲のための第2のドライバとを含む、条項10〜12のいずれかに記載のコンピュータ可読記憶媒体。
14.前記音声クエリは、オーディオベースのメディアアイテムまたは情報アイテムを求める要求を含み、前記データ応答は、前記オーディオベースのメディアアイテムまたは情報アイテムを含む、条項10〜13のいずれかに記載のコンピュータ可読記憶媒体。
15.前記ポータブルオーディオデバイスは、加入者識別モジュール(SIM)デバイスを含み、前記SIMデバイスを介して受信した情報に基づいて前記WWANと通信するように構成されている、条項10〜14のいずれかに記載のコンピュータ可読記憶媒体。
16.前記ポータブルオーディオデバイスは、無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークアダプタを含み、前記無線モデムを介して前記データ要求を送信する前に、前記WLANが範囲内ではないと判定するステップを更に含む、条項10〜15のいずれかに記載のコンピュータ可読記憶媒体。
17.前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を前記ポータブルオーディオデバイスが低電力状態にある間に継続的に監視することと、前記ウェイクコマンドを検出したことに応答して、前記ポータブルオーディオデバイスを前記低電力状態から通常の電力状態に遷移させることと、のステップを更に含む、条項10〜16のいずれかに記載のコンピュータ可読記憶媒体。
18.前記低電力モードにおいて、前記一式のマイクロホンのうちの第1の一部のマイクロホンを前記ウェイクコマンドの有無を監視するために電源オンし、前記一式のマイクロホンのうちの第2の一部のマイクロホンを電源オフし、前記通常の電力モードにおいて、前記第2の一部のマイクロホンを電源オンする、条項10〜17のいずれかに記載のコンピュータ可読記憶媒体。
19.いくつかの実施形態において、ポータブルオーディオデバイスは、音声クエリを取得するように構成された一式の1つ以上のマイクロホンと、一式の1つ以上のスピーカと、無線ワイドエリアネットワーク(WWAN)に接続するように構成された無線モデムと、オーディオ処理アプリケーションを含むメモリと、前記メモリに結合されているプロセッサであって、前記オーディオ処理アプリケーションを実行するとき、前記音声クエリに基づくデータ要求を生成し、前記無線モデムを介して前記WWANに前記データ要求を送信し、前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信し、前記データ応答に基づくオーディオ信号を生成し、前記オーディオ信号に基づく音を生成するために前記オーディオ信号を前記一式のスピーカに送信するように構成された前記プロセッサとを含み、ビデオディスプレイスクリーンを含まない。
20.前記ポータブルオーディオデバイスはビデオ処理能力を含まない、条項19に記載のポータブルオーディオデバイス。
21.無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークカードを更に含み、前記プロセッサは、前記無線ワイドエリアネットワーク(WWAN)に接続する前に、前記WWANの信号強度が前記WLANの信号強度よりも大きいことを判定するように更に構成されている、条項19または20に記載のポータブルオーディオデバイス。
22.前記プロセッサは、トリガイベントを検出し、前記トリガイベントを検出したことに応答して、前記WLANの信号強度が前記WWANの信号強度よりも大きいことを判定し、前記WLANとのネットワーク接続を確立するように更に構成されている、条項19〜21のいずれかに記載のポータブルオーディオデバイス。
23.前記トリガイベントは、所定期間の経過、現在接続されたネットワークの信号強度が所定の閾値レベルを下回ったこと、前記ユーザのスケジュールイベント、及び所定の閾距離を超えた前記ポータブルオーディオデバイスの移動のうちの少なくとも1つを含む、条項19〜22のいずれかに記載のポータブルオーディオデバイス。
各種実施形態の説明は、例示の目的で与えられているが、網羅的であることも開示された実施形態に限定されることも意図しない。多くの変更及び変形が、記載された実施形態の範囲及び思想から逸脱することなく当業者にとって明らかとなるであろう。
本実施形態の態様は、システム、方法またはコンピュータプログラム製品として具現化され得る。従って、本開示の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態の形態をとることができる。これらは全て、一般に、本明細書において「回路」、「構成要素」、「モジュール」または「システム」と呼ぶことができる。更に、本開示の態様は、1つ以上のコンピュータ可読媒体(複数可)であって、当該媒体上に具現化されたコンピュータ可読プログラムコードを有するコンピュータ可読媒体内に具現化されたコンピュータプログラム製品の形態であってもよい。
1つ以上のコンピュータ可読媒体(複数可)の任意の組み合わせを利用してもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、例えば、電子的、磁気的、光学的、電磁的、赤外線もしくは半導体システム、装置もしくはデバイス、または以上の任意の適切な組み合わせであってもよいが、これらに限定されることはない。コンピュータ可読記憶媒体のより具体的な例(非限定なリスト)としては、1本以上の電線を有する電気接続、可搬型コンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROMもしくはフラッシュメモリ)、光ファイバ、可搬型コンパクトディスクリードオンリーメモリ(CD−ROM)、光学記憶装置、磁気記憶装置、または以上の任意の適切な組み合わせが挙げられる。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはそれに関連して使用するためのプログラムを含む、または記憶することが可能な任意の有形媒体であってもよい。
本開示の態様は、開示の実施形態に従った方法、装置(システム)及びコンピュータプログラム製品のフローチャート説明及び/またはブロック図を参照して上述されている。フローチャート説明及び/またはブロック図の各ブロック、ならびにフローチャート説明及び/またはブロック図内のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解されよう。これらのコンピュータプログラム命令は、機械を作製するために、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてもよい。それにより、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令は、フローチャート及び/またはブロック図の1つまたは複数のブロック内で指定された機能/動作の実施態様を可能にする。このようなプロセッサは、限定されることはないが、汎用プロセッサ、専用プロセッサ、特定用途向けプロセッサ、またはフィールドプログラマブルプロセッサもしくはゲートアレイであってもよい。
図面内のフローチャート及びブロック図は、本開示の各種実施形態に従ったシステム、方法及びコンピュータプログラム製品の可能な実施態様のアーキテクチャ、機能及び動作を示す。この点に関して、フローチャートまたはブロック図内の各ブロックは、指定された論理機能(複数可)を実施するための1つ以上の実行可能命令を含む、モジュール、セグメント、またはコードの一部を表してもよい。いくつかの代替的な実施態様において、ブロック内に記述された機能は、図面内に記述された順序以外で行われてもよいことにも留意すべきである。例えば、連続して示された2つのブロックは、実際には、実質的に同時に実行されてもよく、または、それらのブロックは、場合によっては、関連する機能に応じて逆の順序で実行されてもよい。ブロック図及び/またはフローチャート説明の各ブロック、ならびにブロック図及び/またはフローチャート説明内のブロックの組み合わせは、指定された機能または動作を実行する専用ハードウェアベースのシステム、または専用ハードウェアとコンピュータ命令との組み合わせによって実施できることにも留意されよう。
前述の事項は本開示の実施形態を対象としているが、本開示の他の実施形態及び更なる実施形態は、本開示の基本的範囲から逸脱せずに考案することができ、本開示の範囲は、後続する特許請求の範囲によって決まる。

Claims (23)

  1. 音声クエリを取得するように構成された一式の1つ以上の遠方界マイクロホンと、
    一式の1つ以上のスピーカと、
    無線ワイドエリアネットワーク(WWAN)に接続するように構成された無線モデムと、
    オーディオ処理アプリケーションを含むメモリと、
    前記メモリに結合されているプロセッサであって、前記オーディオ処理アプリケーションを実行するとき、
    前記音声クエリに基づくデータ要求を生成し、
    前記無線モデムを介して前記WWANに前記データ要求を送信し、
    前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信し、
    前記データ応答に基づくオーディオ信号を生成し、
    オーディオ出力を生成するために前記オーディオ信号を前記一式のスピーカに送信するように構成された前記プロセッサと
    を含む、ポータブルオーディオデバイス。
  2. 前記一式のマイクロホン、前記一式のスピーカ及び前記無線モデムのうちの少なくとも1つに電力供給するための電池を更に含む、請求項1に記載のポータブルオーディオデバイス。
  3. 前記プロセッサは、自然言語処理技術を利用して前記音声クエリを処理することによって前記音声クエリに基づく前記データ要求を生成するように構成されている、請求項1に記載のポータブルオーディオデバイス。
  4. 前記一式のスピーカは、第1の周波数範囲のための第1のドライバと、第2の周波数範囲のための第2のドライバとを含む、請求項1に記載のポータブルオーディオデバイス。
  5. 前記音声クエリは、メディアアイテムまたは情報アイテムを求める要求を含み、
    前記データ応答は、前記メディアアイテムまたは情報アイテムを含む、請求項1に記載のポータブルオーディオデバイス。
  6. 加入者識別モジュール(SIM)デバイスを更に含み、前記プロセッサは、前記SIMデバイスを介して受信した情報に基づいて前記WWANと通信するように更に構成されている、請求項1に記載のポータブルオーディオデバイス。
  7. 無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークカードを更に含み、前記プロセッサは、
    前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を継続的に監視し、
    前記ウェイクコマンドを検出したことに応答して、前記無線モデムを介して前記WWANに接続すること、及び前記ネットワークカードを介して前記WLANに接続しないことを決定するように更に構成されている、請求項1に記載のポータブルオーディオデバイス。
  8. 前記プロセッサは、
    前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を前記ポータブルオーディオデバイスが低電力状態にある間に継続的に監視し、
    前記ウェイクコマンドを検出したことに応答して、前記ポータブルオーディオデバイスを前記低電力状態から通常の電力状態に遷移させるように更に構成されている、請求項1に記載のポータブルオーディオデバイス。
  9. 前記低電力状態において、前記ウェイクコマンドの有無を監視するために使用される前記ポータブルオーディオデバイスの第1の一式の構成要素を電源オンし、前記ウェイクコマンドの有無を監視するために使用されない前記ポータブルオーディオデバイスの第2の一式の構成要素を電源オフし、
    前記通常の電力状態において、前記第2の一式の構成要素のうちの少なくとも1つの構成要素を電源オンする、請求項8に記載のポータブルオーディオデバイス。
  10. コンピュータ可読記憶媒体であって、プロセッサによって実行されるとき、
    ポータブルオーディオデバイスの一式の1つ以上の遠方界マイクロホンを介して音声クエリを取得することと、
    前記音声クエリに基づくデータ要求を生成することと、
    前記ポータブルオーディオデバイス内に含まれる無線モデムを介して無線ワイドエリアネットワーク(WWAN)に前記データ要求を送信することと、
    前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信することと、
    前記データ応答に基づくオーディオ信号を生成することと、
    オーディオ出力を生成するために前記ポータブルオーディオデバイス内に含まれる一式のスピーカに前記オーディオ信号を送信することと、のステップを実行することにより、前記プロセッサに前記音声クエリを処理させる命令を含む、前記コンピュータ可読記憶媒体。
  11. 前記ポータブルオーディオデバイスは、低電力状態において前記ポータブルオーディオデバイスの第1の一式の構成要素に電力供給し、通常の電力状態において前記ポータブルオーディオデバイスの第2の一式の構成要素に電力供給するための電池を含む、請求項10に記載のコンピュータ可読記憶媒体。
  12. 前記音声クエリに基づく前記データ要求を生成することは、自然言語処理技術を利用して前記音声クエリを処理することを含む、請求項10に記載のコンピュータ可読記憶媒体。
  13. 前記一式のスピーカは、クロスオーバーと、第1の周波数範囲のための第1のドライバと、第2の周波数範囲のための第2のドライバとを含む、請求項10に記載のコンピュータ可読記憶媒体。
  14. 前記音声クエリは、オーディオベースのメディアアイテムまたは情報アイテムを求める要求を含み、
    前記データ応答は、前記オーディオベースのメディアアイテムまたは情報アイテムを含む、請求項10に記載のコンピュータ可読記憶媒体。
  15. 前記ポータブルオーディオデバイスは、加入者識別モジュール(SIM)デバイスを含み、前記SIMデバイスを介して受信した情報に基づいて前記WWANと通信するように構成されている、請求項10に記載のコンピュータ可読記憶媒体。
  16. 前記ポータブルオーディオデバイスは、無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークアダプタを含み、前記無線モデムを介して前記データ要求を送信する前に、前記WLANが範囲内ではないと判定するステップを更に含む、請求項10に記載のコンピュータ可読記憶媒体。
  17. 前記データ要求を生成する前に、前記一式のマイクロホンによって取得されるウェイクコマンドの有無を前記ポータブルオーディオデバイスが低電力状態にある間に継続的に監視することと、
    前記ウェイクコマンドを検出したことに応答して、前記ポータブルオーディオデバイスを前記低電力状態から通常の電力状態に遷移させることと、のステップを更に含む、請求項10に記載のコンピュータ可読記憶媒体。
  18. 前記低電力モードにおいて、前記一式のマイクロホンのうちの第1の一部のマイクロホンを前記ウェイクコマンドの有無を監視するために電源オンし、前記一式のマイクロホンのうちの第2の一部のマイクロホンを電源オフし、
    前記通常の電力モードにおいて、前記第2の一部のマイクロホンを電源オンする、請求項17に記載のコンピュータ可読記憶媒体。
  19. 音声クエリを取得するように構成された一式の1つ以上のマイクロホンと、
    一式の1つ以上のスピーカと、
    無線ワイドエリアネットワーク(WWAN)に接続するように構成された無線モデムと、
    オーディオ処理アプリケーションを含むメモリと、
    前記メモリに結合されているプロセッサであって、前記オーディオ処理アプリケーションを実行するとき、
    前記音声クエリに基づくデータ要求を生成し、
    前記無線モデムを介して前記WWANに前記データ要求を送信し、
    前記データ要求に関連したデータ応答を前記WWANから前記無線モデムを介して受信し、
    前記データ応答に基づくオーディオ信号を生成し、
    前記オーディオ信号に基づく音を生成するために前記オーディオ信号を前記一式のスピーカに送信するように構成された前記プロセッサとを含み、
    ビデオディスプレイスクリーンを含まない、ポータブルオーディオデバイス。
  20. 前記ポータブルオーディオデバイスはビデオ処理能力を含まない、請求項19に記載のポータブルオーディオデバイス。
  21. 無線ローカルエリアネットワーク(WLAN)に接続するためのネットワークカードを更に含み、前記プロセッサは、前記無線ワイドエリアネットワーク(WWAN)に接続する前に、前記WWANの信号強度が前記WLANの信号強度よりも大きいことを判定するように更に構成されている、請求項19に記載のポータブルオーディオデバイス。
  22. 前記プロセッサは、
    トリガイベントを検出し、
    前記トリガイベントを検出したことに応答して、前記WLANの信号強度が前記WWANの信号強度よりも大きいことを判定し、前記WLANとのネットワーク接続を確立するように更に構成されている、請求項21に記載のポータブルオーディオデバイス。
  23. 前記トリガイベントは、所定期間の経過、現在接続されたネットワークの信号強度が所定の閾値レベルを下回ったこと、前記ユーザのスケジュールイベント、及び所定の閾距離を超えた前記ポータブルオーディオデバイスの移動のうちの少なくとも1つを含む、請求項22に記載のポータブルオーディオデバイス。
JP2019517815A 2016-10-17 2017-10-16 音声能力を備えたポータブルオーディオデバイス Active JP7191819B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662409287P 2016-10-17 2016-10-17
US62/409,287 2016-10-17
PCT/US2017/056828 WO2018075417A1 (en) 2016-10-17 2017-10-16 Portable audio device with voice capabilities

Publications (2)

Publication Number Publication Date
JP2019537050A true JP2019537050A (ja) 2019-12-19
JP7191819B2 JP7191819B2 (ja) 2022-12-19

Family

ID=62019058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019517815A Active JP7191819B2 (ja) 2016-10-17 2017-10-16 音声能力を備えたポータブルオーディオデバイス

Country Status (6)

Country Link
US (2) US11024309B2 (ja)
EP (1) EP3526789B1 (ja)
JP (1) JP7191819B2 (ja)
KR (2) KR102428440B1 (ja)
CN (1) CN109844857B (ja)
WO (1) WO2018075417A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020006665A1 (en) * 2018-07-02 2020-01-09 Orange Method for connecting an electronic device to a target wireless access point
US20200388280A1 (en) 2019-06-05 2020-12-10 Google Llc Action validation for digital assistant-based applications
WO2020246975A1 (en) * 2019-06-05 2020-12-10 Google Llc Action validation for digital assistant-based applications
US11328009B2 (en) * 2019-08-28 2022-05-10 Rovi Guides, Inc. Automated content generation and delivery
US11676589B2 (en) * 2019-09-17 2023-06-13 Global Strategies International LLC Systems and methods for voice search and response retrieval
US11310594B2 (en) * 2019-09-18 2022-04-19 Bose Corporation Portable smart speaker power control
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
US11418358B2 (en) * 2019-11-04 2022-08-16 International Business Machines Corporation Smart device active monitoring

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017440A (ja) * 2006-06-05 2008-01-24 Matsushita Electric Ind Co Ltd モデムカード、モデムカード利用システムおよび端末
JP2014017572A (ja) * 2012-07-06 2014-01-30 Kddi Corp 充電情報に応じてネットワーク接続を制御する携帯端末、プログラム及び方法
WO2015073125A1 (en) * 2013-11-12 2015-05-21 Apple Inc. Always-on audio control for mobile device
WO2015148584A1 (en) * 2014-03-28 2015-10-01 Microsoft Technology Licensing, Llc Personalized recommendation based on the user's explicit declaration
WO2015148046A1 (en) * 2014-03-25 2015-10-01 Apple Inc. Metadata for ducking control
JP2015207159A (ja) * 2014-04-21 2015-11-19 アルパイン株式会社 コンテンツ検索装置、方法およびプログラム
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039027B2 (en) * 2000-12-28 2006-05-02 Symbol Technologies, Inc. Automatic and seamless vertical roaming between wireless local area network (WLAN) and wireless wide area network (WWAN) while maintaining an active voice or streaming data connection: systems, methods and program products
KR100459765B1 (ko) * 2002-08-30 2004-12-03 에스케이 텔레콤주식회사 무선 근거리통신망/이동전화 연동서비스를 위한 시스템선택 및 데이터 전송방법
CN1303838C (zh) * 2005-03-18 2007-03-07 杭州斯达康通讯有限公司 双模/多模便携装置及其智能切换方法
US9265003B2 (en) * 2006-11-13 2016-02-16 Qualcomm Incorporated Apparatus and methods for reducing power consumption and/or radio frequency interference in a mobile computing device
CN201341236Y (zh) * 2008-11-28 2009-11-04 邢献杰 一种语音识别上网装置
CN101808386B (zh) * 2010-01-25 2012-08-22 深圳奥士达电子有限公司 无线移动装置及其无线网络连接方法
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US20150099458A1 (en) * 2011-01-14 2015-04-09 Covidien Lp Network-Capable Medical Device for Remote Monitoring Systems
US20150138333A1 (en) * 2012-02-28 2015-05-21 Google Inc. Agent Interfaces for Interactive Electronics that Support Social Cues
US9075572B2 (en) * 2012-05-02 2015-07-07 Google Technology Holdings LLC Media enhancement dock
US8971543B1 (en) * 2012-06-25 2015-03-03 Rawles Llc Voice controlled assistant with stereo sound from two speakers
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US10147441B1 (en) * 2013-12-19 2018-12-04 Amazon Technologies, Inc. Voice controlled system
US9319782B1 (en) 2013-12-20 2016-04-19 Amazon Technologies, Inc. Distributed speaker synchronization
US9443516B2 (en) * 2014-01-09 2016-09-13 Honeywell International Inc. Far-field speech recognition systems and methods
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US9996316B2 (en) 2015-09-28 2018-06-12 Amazon Technologies, Inc. Mediation of wakeword response for multiple devices
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008017440A (ja) * 2006-06-05 2008-01-24 Matsushita Electric Ind Co Ltd モデムカード、モデムカード利用システムおよび端末
JP2014017572A (ja) * 2012-07-06 2014-01-30 Kddi Corp 充電情報に応じてネットワーク接続を制御する携帯端末、プログラム及び方法
JP2016524193A (ja) * 2013-06-27 2016-08-12 ロウルズ リミテッド ライアビリティ カンパニー 自己生成ウェイク表現の検出
WO2015073125A1 (en) * 2013-11-12 2015-05-21 Apple Inc. Always-on audio control for mobile device
JP2017506353A (ja) * 2013-11-12 2017-03-02 アップル インコーポレイテッド 常時オンのモバイル機器用音声制御
WO2015148046A1 (en) * 2014-03-25 2015-10-01 Apple Inc. Metadata for ducking control
JP2017509932A (ja) * 2014-03-25 2017-04-06 アップル インコーポレイテッド ダッキング制御のためのメタデータ
WO2015148584A1 (en) * 2014-03-28 2015-10-01 Microsoft Technology Licensing, Llc Personalized recommendation based on the user's explicit declaration
JP2017513115A (ja) * 2014-03-28 2017-05-25 マイクロソフト テクノロジー ライセンシング,エルエルシー ユーザーの明示宣言に基づく個別化された推薦
JP2015207159A (ja) * 2014-04-21 2015-11-19 アルパイン株式会社 コンテンツ検索装置、方法およびプログラム

Also Published As

Publication number Publication date
KR20220110617A (ko) 2022-08-08
KR20190065284A (ko) 2019-06-11
WO2018075417A1 (en) 2018-04-26
KR102580408B1 (ko) 2023-09-19
CN109844857A (zh) 2019-06-04
EP3526789A1 (en) 2019-08-21
US11024309B2 (en) 2021-06-01
CN109844857B (zh) 2024-02-23
EP3526789A4 (en) 2020-04-01
US20210241768A1 (en) 2021-08-05
KR102428440B1 (ko) 2022-08-02
EP3526789B1 (en) 2022-12-28
US20190267005A1 (en) 2019-08-29
JP7191819B2 (ja) 2022-12-19

Similar Documents

Publication Publication Date Title
US20210241768A1 (en) Portable audio device with voice capabilities
US9774998B1 (en) Automatic content transfer
KR102098136B1 (ko) 응답을 제공하기 위한 디바이스 선택
CN111344780B (zh) 基于上下文的设备仲裁
KR102469262B1 (ko) 오디오 워터 마킹을 이용한 키 구문 검출
US9167520B2 (en) Controlling applications in a mobile device based on environmental context
US20130289994A1 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
US10623199B2 (en) Outputting audio based on user location
US20230362026A1 (en) Output device selection
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
CN116888664A (zh) 在单个话语中组合设备或助理专用热词
TW202240573A (zh) 使用語音認證的設備尋檢器
CN113393834B (zh) 一种控制方法及装置
KR20180045633A (ko) 음성 인식 서비스 제공 방법 및 이를 위한 장치
US11887602B1 (en) Audio-based device locationing
WO2023109910A1 (zh) 电子设备及其语音传输方法、介质
KR102663506B1 (ko) 음성에 반응하여 서비스를 제공하기 위한 장치 및 그 방법
CN114143651A (zh) 用于骨传导耳机的语音唤醒方法和装置
KR20180047597A (ko) 음성 신호 정보를 활용한 음성 인식 서비스 제공 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R150 Certificate of patent or registration of utility model

Ref document number: 7191819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150